az esélyarányok torzítása logisztikai regressziós modellezéssel és mintamérettel

az 1.táblázat összefoglalja a becsült empirikus torzítást a becsült regressziós együtthatókban. A minta méretének növekedésével a becsült együtthatók aszimptotikusan megközelítik a populáció értékét (1.ábra). Az illeszkedés jobb folyamatos változók esetén (R2 = 0,963), mint diszkrét változók esetén (R2 = 0,836). Ez a diszkrét változók logisztikai regressziós becsléseinek nagyobb változékonyságát eredményezi. Mind a folyamatos, mind a diszkrét expozíciós változók esetében az aszimptotikus torzítás nullára konvergál, amikor a minta mérete növekszik, de a konvergencia intenzitása eltér. A mintavételi sűrűségfüggvény kisebb mintákban is meglehetősen ferde, és megközelíti a szimmetrikus eloszlást a minta méretének növekedésével (ábra. 2). A ferde mintavételi Eloszlás gyakrabban szélsőséges értékbecsléseket eredményez, amelyek aránya a minta méretének növekedésével csökken (3.ábra).

1.táblázat a logisztikai regressziós együtthatók aszimptotikus torzításának nagyságának empirikus becslése.
ábra 1
ábra 1

együttható becslések és mintája méretfüggő szisztematikus torzítás a logisztikai regressziós becslésekben. A valós populációs értéktől való eltérés (ebben az esetben 2-0,9) az analitikusan indukált torzítást jelenti a regressziós becslésekben.

Figure 2
figure2

Sampling distribution of logistic regression coefficient estimates at different sample sizes.

Figure 3
figure3

Increasing sample size not only reduces the analytically induced bias in regression estimates but protects against extreme value estimates.

így arra a következtetésre juthatunk, hogy a logisztikai regressziót elemző eszközként alkalmazó tanulmányok az expozíciós változók asszociációjának tanulmányozására és az eredmény túlbecsüli a kis vagy közepes méretű mintákkal végzett vizsgálatok hatását. Ennek az analitikusan levezetett torzításnak a nagysága a minta méretétől és az adatstruktúrától függ. A kis mintaméret indukált torzítás szisztematikus, torzítás távol null. Regressziós együttható becslések eltolódik nullától, esély arányok egy. Ez az analitikus elfogultság elismert statisztikai jelenség, de részben ismeretlen a szakemberek körében, részben figyelmen kívül hagyják. A tudatlanság indoklása abban a feltételezésben rejlik, hogy az elfogultság sokkal kisebb, mint a becslés standard hibája . A konzisztens becslések véges mintákban torzíthatók, és korrekciós intézkedésekre van szükség. Azonban óvatosság ajánlott, mivel az elfogultság korrekciója megnövelheti a becslés varianciáját és átlagos négyzetes hibáját . Számos korrekciós intézkedést javasoltak az irodalomban; mint például a torzítással korrigált becslés vagy a jackknife . Bootstrapping, különösen a másodfokú bootstrap módszer, megvalósítható korrekciós intézkedésnek bizonyultak . Jewell alternatívákat javasol a maximális valószínűség becslőhöz, de arra a következtetésre jut, hogy a pontosság enyhe növekedése nem biztos, hogy megéri a megnövekedett összetettséget . Az elfogultsággal korrigált maximális valószínűségi becslések kiegészítő súlyozott regresszió segítségével vagy a pontszámfüggvény megfelelő módosításával érhetők el . A megfelelő és jól megtervezett mintavételi stratégia javíthatja a becslés kis minta teljesítményét .

az ugyanazon témában, változó mintamérettel végzett vizsgálatok eltérő hatásbecslésekkel járnak, hangsúlyosabb becslésekkel kis mintákban tanulmányok, vagy erősen rétegzett adatokkal végzett vizsgálatok. Kis vagy akár mérsékelten nagy mintaméretekben eloszlásuk erősen ferde, az esélyarány pedig túlbecsült. Itt nem adhatunk szigorú irányelveket arról, hogy mekkora legyen a megfelelő minta, ez nagyrészt tanulmányspecifikus. Long kijelenti, hogy kockázatos a maximális valószínűségi becslések használata a 100 alatti mintákban, míg az 500 feletti mintáknak megfelelőnek kell lenniük. Ez azonban nagyban változik a kéznél lévő adatstruktúrától függően. A nagyon gyakori vagy rendkívül ritka kimenetelű vizsgálatok általában nagyobb mintákat igényelnek. Az expozíciós változók száma és jellemzőik erősen befolyásolják a kívánt mintaméretet. A diszkrét expozíciók általában nagyobb mintaméreteket tesznek szükségessé, mint a folyamatos expozíciók. A nagymértékben Korrelált expozíciókhoz nagyobb mintákra is szükség van.

kis vizsgálati hatás, a kis vizsgálatok jelensége, amelyek nagyobb hatásokat jelentenek, mint a nagy vizsgálatok, ismételten leírták . A “pozitív tanulmányok” szelektív publikálása részben megmagyarázhatja ezt a jelenséget. Azt azonban illusztráltuk, hogy az esélyarányokat kis mintákban túlbecsülik a logisztikai regressziós modellek rejlő tulajdonságai miatt. Ennek az elfogultságnak egyetlen tanulmányban nincs jelentősége az eredmények értelmezése szempontjából, mivel sokkal alacsonyabb, mint a becslés standard hibája. De ha számos, szisztematikusan túlbecsült hatásmérettel rendelkező kis tanulmányt összevonunk ennek a hatásnak a figyelembevétele nélkül, akkor félreértelmezhetjük a szakirodalomban szereplő bizonyítékokat egy hatásra, amikor a valóságban ilyen nem létezik.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.