Bias i odds ratio ved logistisk regressionsmodellering og stikprøvestørrelse

tabel 1 opsummerer den estimerede empiriske bias i estimerede regressionskoefficienter. Med stigende stikprøvestørrelse nærmer de estimerede koefficienter asymptotisk befolkningsværdien (Figur 1). Pasformen er bedre for kontinuerlige variabler (R2 = 0,963) end for diskret en (R2 = 0,836). Dette betyder en større variation i logistiske regressionsestimater for diskrete variabler. For både de kontinuerlige og diskrete eksponeringsvariabler konvergerer den asymptotiske bias til nul, når prøvestørrelsen stiger, men konvergensintensiteten adskiller sig. Prøvetagningstæthedsfunktionen er også ret skæv i mindre prøver og tilgange til en symmetrisk fordeling med stigende prøvestørrelse (figur. 2). Skæv prøveudtagningsfordeling resulterer hyppigere i ekstreme værdiestimater, hvis andel falder med stigende stikprøvestørrelser (figur 3).

tabel 1 empirisk estimering af størrelsen af den asymptotiske Bias af logistiske regressionskoefficienter.
Figur 1
figur1

Koefficientestimater og dets stikprøvestørrelsesafhængig systematisk bias i logistiske regressionsestimater. Afvigelsen fra den sande befolkningsværdi (henholdsvis 2 -0,9 i dette tilfælde) repræsenterer den analytisk inducerede bias i regressionsestimater.

Figure 2
figure2

Sampling distribution of logistic regression coefficient estimates at different sample sizes.

Figure 3
figure3

Increasing sample size not only reduces the analytically induced bias in regression estimates but protects against extreme value estimates.

således kan vi konkludere, at undersøgelser, der anvender logistisk regression som analytisk værktøj til at studere sammenhængen mellem eksponeringsvariabler og resultatet overvurderer effekten i undersøgelser med lille til moderat prøvestørrelse. Størrelsen af denne analytisk afledte bias afhænger af stikprøvestørrelsen og datastrukturen. Den lille stikprøvestørrelsesinducerede bias er en systematisk bias væk fra null. Regressionskoefficient estimater skifter væk fra nul, odds ratio fra en. Denne analytiske bias er et anerkendt statistisk fænomen , men er delvist ukendt blandt praktikere og delvist ignoreret. Begrundelse for uvidenheden ligger i antagelsen om, at bias er meget mindre end estimatets standardfejl . Konsekvente estimatorer kan være forudindtaget i endelige prøver, og der kræves korrigerende foranstaltninger. Imidlertid anbefales forsigtighed, da biaskorrektion kan øge variansen og den gennemsnitlige kvadratiske fejl i et estimat . Flere korrigerende foranstaltninger er blevet foreslået i litteraturen; ligesom bias korrigeret skøn eller jackknife . Bootstrapping, især den kvadratiske bootstrap-metode, har vist sig at være en gennemførlig korrigerende foranstaltning . Smykker foreslår alternativer til den maksimale sandsynlighedsestimator, men konkluderer, at den lille gevinst i præcision måske ikke er værd at den øgede kompleksitet . Bias-korrigerede maksimale sandsynlighedsestimater kan opnås ved hjælp af supplerende vægtet regression eller ved passende ændring af score-funktionen . En ordentlig og veldesignet prøveudtagningsstrategi kan forbedre estimatets lille prøveydelse .

undersøgelser udført på det samme emne med forskellige stikprøvestørrelser vil have varierende effektestimater med mere udtalt estimater i små stikprøveundersøgelser eller undersøgelser med stærkt stratificerede data. I små eller endda i moderat store stikprøvestørrelser er deres fordelinger meget skæve, og oddsforholdene overvurderes. Her kan vi ikke give strenge retningslinjer for, hvor stor en passende prøve skal være. Long siger, at det er risikabelt at anvende maksimale sandsynlighedsestimater i prøver under 100, mens prøver over 500 skal være tilstrækkelige. Dette varierer dog meget med datastrukturen ved hånden. Undersøgelser med meget almindeligt eller ekstremt sjældent resultat kræver generelt større prøver. Antallet af eksponeringsvariabler og deres egenskaber har stor indflydelse på den krævede stikprøvestørrelse. Diskrete eksponeringer kræver generelt større stikprøvestørrelser end kontinuerlige eksponeringer. Stærkt korrelerede eksponeringer har også brug for større prøver.

lille undersøgelseseffekt, fænomenet med små undersøgelser, der rapporterer større effekter end store undersøgelser, gentagne gange er blevet beskrevet . En selektiv offentliggørelse af” positive undersøgelser ” kan delvis forklare dette fænomen. Vi har dog illustreret, at oddsforhold overvurderes i små prøver på grund af de iboende egenskaber ved logistiske regressionsmodeller. Denne bias kan i en enkelt undersøgelse ikke have nogen relevans for fortolkningen af resultaterne, da den er meget lavere end estimatets standardfejl. Men hvis en række små undersøgelser med systematisk overvurderede effektstørrelser samles uden hensyntagen til denne effekt, kan vi fejlagtigt fortolke beviser i litteraturen for en effekt, når det i virkeligheden ikke findes.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.