Handbuch der biologischen Statistik

⇐ Vorheriges Thema|Nächstes Thema ⇒ Inhaltsverzeichnis

Verwenden Sie die einfache logistische Regression, wenn Sie eine Nennvariable und eine Messvariable haben und wissen möchten, ob eine Variation der Messvariablen eine Variation der Nennvariablen verursacht.

Wann es zu benutzen ist

Verwenden Sie eine einfache logistische Regression, wenn Sie eine Nominalvariable mit zwei Werten haben (männlich / weiblich, tot / lebendig usw.) und einer Messgröße. Die Nenngröße ist die abhängige Variable und die Messgröße ist die unabhängige Variable.

Ich trenne die einfache logistische Regression mit nur einer unabhängigen Variablen von der multiplen logistischen Regression mit mehr als einer unabhängigen Variablen. Viele Leute werfen alle logistischen Regressionen zusammen, aber ich denke, es ist nützlich, einfache logistische Regression getrennt zu behandeln, weil es einfacher ist.Einfache logistische Regression ist analog zur linearen Regression, außer dass die abhängige Variable nominal ist, keine Messung. Ein Ziel besteht darin, zu sehen, ob die Wahrscheinlichkeit, einen bestimmten Wert der Nenngröße zu erhalten, mit der Messgröße verbunden ist; Das andere Ziel besteht darin, die Wahrscheinlichkeit vorherzusagen, einen bestimmten Wert der Nenngröße unter Berücksichtigung der Messgröße zu erhalten.

Korngröße
(mm)
Spinnen
0,245 abwesend
0,247 abwesend
0,285 vorhanden
0,299 vorhanden
0,327 vorhanden
0.347 present
0.356 absent
0.36 present
0.363 absent
0.364 present
0.398 absent
0.4 present
0.409 absent
0.421 present
0.432 absent
0.473 present
0.509 present
0.529 present
0.561 absent
0.569 absent
0.594 present
0.638 present
0.656 present
0.816 present
0.853 present
0.938 present
1.036 present
1.045 present

As an example of simple logistic regression, Suzuki et al. (2006) gemessene Sandkorngröße an 28 Stränden in Japan und beobachtete die Anwesenheit oder Abwesenheit der grabenden Wolfsspinne Lycosa ishikariana an jedem Strand. Sandkorngröße ist eine Messgröße, und seine Anwesenheit oder Abwesenheit ist eine nominale Variable. Das Vorhandensein oder Fehlen von Spinnen ist die abhängige Variable; Wenn es eine Beziehung zwischen den beiden Variablen gibt, wäre es die Sandkorngröße, die Spinnen beeinflusst, nicht das Vorhandensein von Spinnen, die den Sand beeinflussen.Ein Ziel dieser Studie wäre es, festzustellen, ob es einen Zusammenhang zwischen der Sandkorngröße und der Anwesenheit oder Abwesenheit der Art gibt, in der Hoffnung, mehr über die Biologie der Spinnen zu erfahren. Da diese Art vom Aussterben bedroht ist, wäre ein weiteres Ziel, eine Gleichung zu finden, die die Wahrscheinlichkeit vorhersagt, dass eine Wolfsspinnenpopulation an einem Strand mit einer bestimmten Sandkorngröße überlebt, um zu bestimmen, an welchen Stränden die Spinne wieder eingeführt werden soll.

Sie können Daten auch mit einer nominalen und einer Messvariablen mit einer Einweg-Anova oder einem Schüler–T-Test analysieren, und die Unterscheidung kann subtil sein. Ein Hinweis ist, dass Sie mit der logistischen Regression die Wahrscheinlichkeit der Nominalvariablen vorhersagen können. Stellen Sie sich zum Beispiel vor, Sie hätten den Cholesterinspiegel im Blut einer großen Anzahl von 55-jährigen Frauen gemessen und dann zehn Jahre später nachverfolgt, um zu sehen, wer einen Herzinfarkt hatte. Sie könnten einen T-Test mit zwei Stichproben durchführen und den Cholesterinspiegel der Frauen vergleichen, die einen Herzinfarkt hatten. diejenigen, die es nicht taten, und das wäre ein durchaus vernünftiger Weg, um die Nullhypothese zu testen, dass der Cholesterinspiegel nicht mit Herzinfarkten verbunden ist; Wenn der Hypothesentest alles wäre, woran Sie interessiert waren, wäre der T–Test wahrscheinlich besser als die weniger bekannte logistische Regression. Wenn Sie jedoch die Wahrscheinlichkeit vorhersagen wollten, dass eine 55-jährige Frau mit einem bestimmten Cholesterinspiegel in den nächsten zehn Jahren einen Herzinfarkt erleiden würde, damit Ärzte ihren Patienten sagen könnten: „Wenn Sie Ihren Cholesterinspiegel um 40 Punkte senken, reduzieren Sie Ihr Herzinfarktrisiko um X%“, müssten Sie die logistische Regression verwenden.

Lächelnder Komodowaran
Ein Komodowaran, Varanus komodoensis.

Eine andere Situation, die eine logistische Regression anstelle eines Anova– oder t-Tests erfordert, ist, wenn Sie die Werte der Messvariablen bestimmen, während die Werte der Nennvariablen frei variieren können. Angenommen, Sie untersuchen die Auswirkung der Inkubationstemperatur auf die Geschlechtsbestimmung bei Komodowaranen. Sie züchten 10 Eier bei 30 ° C, 30 Eier bei 32 ° C, 12 Eier bei 34 ° C usw., dann bestimmen Sie das Geschlecht der Jungtiere. Es wäre albern, die mittleren Inkubationstemperaturen zwischen männlichen und weiblichen Jungtieren zu vergleichen und den Unterschied mit einem Anova– oder T-Test zu testen, da die Inkubationstemperatur nicht vom Geschlecht der Nachkommen abhängt.

Wenn es mehrere Beobachtungen der Nominalvariablen für jeden Wert der Messvariablen gibt, wie im Beispiel des Komodowarans, werden die Daten häufig mit linearer Regression analysiert, wobei die Proportionen als zweite Messvariable behandelt werden. Oft werden die Proportionen Bogensinus transformiert, weil dadurch die Proportionsverteilungen normaler werden. Das ist nicht schrecklich, aber es ist nicht streng korrekt. Ein Problem ist, dass die lineare Regression alle Proportionen gleich behandelt, auch wenn sie auf sehr unterschiedlichen Stichprobengrößen basieren. Wenn 6 von 10 Komodowaran-Eiern, die bei 30 ° C aufgezogen wurden, weiblich und 15 von 30 Eiern, die bei 32 ° C aufgezogen wurden, weiblich wären, würden die 60% Weibchen bei 30 ° C und 50% bei 32 ° C in einer linearen Regression das gleiche Gewicht erhalten, was unangemessen ist. Die logistische Regression analysiert jede Beobachtung (in diesem Beispiel das Geschlecht jedes Komodowarans) separat, so dass die 30 Drachen bei 32 ° C das 3-fache des Gewichts der 10 Drachen bei 30 ° C haben würden.Während die logistische Regression mit zwei Werten der Nominalvariablen (binäre logistische Regression) bei weitem die häufigste ist, können Sie auch eine logistische Regression mit mehr als zwei Werten der Nominalvariablen durchführen, die als multinomiale logistische Regression bezeichnet wird. Ich werde es hier überhaupt nicht behandeln. Entschuldigung….

Sie können auch eine einfache logistische Regression mit nominalen Variablen sowohl für die unabhängigen als auch für die abhängigen Variablen durchführen, aber um ehrlich zu sein, verstehe ich den Vorteil gegenüber einem Chi-Quadrat– oder G-Unabhängigkeitstest nicht.

Nullhypothese

Die statistische Nullhypothese ist, dass die Wahrscheinlichkeit eines bestimmten Wertes der Nenngröße nicht mit dem Wert der Messgröße assoziiert ist; mit anderen Worten, die Linie, die die Beziehung zwischen der Messgröße und der Wahrscheinlichkeit der Nenngröße beschreibt, hat eine Steigung von Null.

Funktionsweise des Tests

Einfache logistische Regression findet die Gleichung, die den Wert der Y-Variablen für jeden Wert der X-Variablen am besten vorhersagt. Was die logistische Regression von der linearen Regression unterscheidet, ist, dass Sie die Y-Variable nicht direkt messen. es ist stattdessen die Wahrscheinlichkeit, einen bestimmten Wert einer Nominalvariablen zu erhalten. Für das Spider-Beispiel sind die Werte der Nominalvariablen „spiders present“ und „spiders absent.“ Die Y-Variable, die in der logistischen Regression verwendet wird, wäre dann die Wahrscheinlichkeit, dass Spinnen an einem Strand vorhanden sind. Diese Wahrscheinlichkeit kann Werte von 0 bis 1 annehmen. Der begrenzte Bereich dieser Wahrscheinlichkeit würde Probleme bereiten, wenn er direkt in einer Regression verwendet würde, daher wird stattdessen die Quote Y / (1-Y) verwendet. (Wenn die Wahrscheinlichkeit von Spinnen an einem Strand 0,25 beträgt, beträgt die Wahrscheinlichkeit, Spinnen zu haben 0.25/(1-0.25)=1/3. In Bezug auf Glücksspiele würde dies als „3 zu 1 Chancen gegen Spinnen an einem Strand“ ausgedrückt werden.“) Das Ergebnis einer logistischen Regression ist also eine Gleichung, die folgendermaßen aussieht:

ln=a+bX

Sie finden die Steigung (b) und den Schnittpunkt (a) der am besten passenden Gleichung in einer logistischen Regression unter Verwendung der Maximum-Likelihood-Methode und nicht der Methode der kleinsten Quadrate, die Sie für die lineare Regression verwenden. Maximum Likelihood ist eine computerintensive Technik; Die Grundidee ist, dass sie die Werte der Parameter findet, unter denen Sie am wahrscheinlichsten die beobachteten Ergebnisse erhalten würden.

Für das Spinnenbeispiel lautet die Gleichung

ln=-1.6476+5.1215(Korngröße)

Umordnen, um nach Y (die Wahrscheinlichkeit von Spinnen an einem Strand) zu lösen, ergibt

Y=e−1.6476+5.1215(Korngröße)/(1+e−1.6476+5.1215(Korngröße))

wobei e die Wurzel natürlicher Stämme ist. Wenn Sie also an einen Strand gingen und die Wahrscheinlichkeit vorhersagen wollten, dass Spinnen dort leben würden, könnten Sie die Sandkorngröße messen, sie in die Gleichung einfügen und eine Schätzung von Y erhalten, der Wahrscheinlichkeit, dass Spinnen am Strand sind.

Es gibt verschiedene Möglichkeiten, den P-Wert zu schätzen. Das Wald-Chi-Quadrat ist ziemlich beliebt, kann jedoch bei kleinen Stichprobengrößen zu ungenauen Ergebnissen führen. Die Likelihood-Ratio-Methode kann besser sein. Es verwendet die Differenz zwischen der Wahrscheinlichkeit, die beobachteten Ergebnisse unter dem logistischen Modell zu erhalten, und der Wahrscheinlichkeit, die beobachteten Ergebnisse in einem Modell ohne Beziehung zwischen den unabhängigen und abhängigen Variablen zu erhalten. Stellen Sie sicher, dass Sie angeben, welche Methode Sie verwendet haben, wenn Sie Ihre Ergebnisse melden.

Für das Spider-Beispiel beträgt der P-Wert mit der Likelihood-Ratio-Methode 0,033, sodass Sie die Nullhypothese ablehnen würden. Der P-Wert für die Wald-Methode beträgt 0,088, was nicht ganz signifikant ist.

Annahmen

Einfache logistische Regression geht davon aus, dass die Beobachtungen unabhängig sind; mit anderen Worten, dass eine Beobachtung eine andere nicht beeinflusst. Wenn im Beispiel des Komodowarans alle Eier bei 30 ° C von einer Mutter und alle Eier bei 32 ° C von einer anderen Mutter gelegt würden, wären die Beobachtungen nicht unabhängig. Wenn Sie Ihr Experiment gut entwerfen, haben Sie kein Problem mit dieser Annahme.Die einfache logistische Regression geht davon aus, dass die Beziehung zwischen dem natürlichen Logarithmus der Odds Ratio und der Messgröße linear ist. Möglicherweise können Sie dies mit einer Transformation Ihrer Messvariablen beheben, aber wenn die Beziehung wie ein U oder ein umgedrehtes U aussieht, funktioniert eine Transformation nicht. Zum Beispiel Suzuki et al. (2006) fanden eine zunehmende Wahrscheinlichkeit von Spinnen mit zunehmender Korngröße, aber ich bin mir sicher, dass, wenn sie Strände mit noch größerem Sand (mit anderen Worten Kies) betrachten, die Wahrscheinlichkeit von Spinnen wieder sinken würde. In diesem Fall könnten Sie keine einfache logistische Regression durchführen; Sie möchten wahrscheinlich stattdessen eine multiple logistische Regression mit einer Gleichung durchführen, die sowohl X- als auch X2-Terme enthält.

Bei der einfachen logistischen Regression wird nicht davon ausgegangen, dass die Messgröße normalverteilt ist.

Beispiele

Ein Amphipod
Ein Amphipod-Krebstier, Megalorchestia californiana.

McDonald (1985)zählte Allelfrequenzen am Mannose-6-Phosphat-Isomerase (Mpi) -Locus im Amphipoden-Krebstier Megalorchestia californiana, das an Sandstränden der Pazifikküste Nordamerikas lebt. Es gab zwei gemeinsame Allele, Mpi90 und Mpi100. Der Breitengrad jedes Sammelorts, die Anzahl der Allele und der Anteil des Mpi100-Allels werden hier angezeigt:

Standort Breitengrad Mpi90 Mpi100 p, Mpi100
Port Townsend, WA 48,1 47 139 0,748
Neskowin, ODER 45,2 177 241 0,577
Siuslaw R., ODER 44 1087 1183 0,521
Umpqua R., ODER 43.7 187 175 0.483
Coos Bay, OR 43.5 397 671 0.628
San Francisco, CA 37.8 40 14 0.259
Carmel, CA 36.6 39 17 0.304
Santa Barbara, CA 34.3 30 0 0

Allele (Mpi90 or Mpi100) is the nominal variable, and latitude is the measurement variable. Wenn die biologische Frage wäre: „Haben verschiedene Orte unterschiedliche Allelfrequenzen?“, Sie würden den Breitengrad ignorieren und einen Chi-Quadrat– oder G-Unabhängigkeitstest durchführen; Hier lautet die biologische Frage: „Sind Allelfrequenzen mit dem Breitengrad verbunden?“Beachten Sie, dass, obwohl der Anteil des Mpi100-Allels mit zunehmendem Breitengrad zuzunehmen scheint, die Stichprobengrößen für die nördlichen und südlichen Gebiete ziemlich klein sind; Eine lineare Regression der Allelfrequenz gegenüber dem Breitengrad würde ihnen das gleiche Gewicht wie den viel größeren Proben aus Oregon geben, was unangemessen wäre. Bei einer logistischen Regression ist das Ergebnis chi2 = 83,3, 1 df, P = 7 × 10-20. Die Gleichung der Beziehung lautet

ln(Y/(1−Y))= -7,6469+0,1786(Breite),

wobei Y die vorhergesagte Wahrscheinlichkeit ist, ein Mpi100-Allel zu erhalten. Wenn Sie dies für Y lösen, erhalten Sie

Y=e−7.6469+0.1786(Breitengrad)/(1+e−7.6469+0.1786(Breitengrad)).

Diese logistische Regressionsgerade ist in der Grafik dargestellt; Beachten Sie, dass sie eine sanfte S-Form hat. Alle logistischen Regressionsgleichungen haben eine S-Form, obwohl dies möglicherweise nicht offensichtlich ist, wenn Sie einen engen Wertebereich betrachten.

Graph der logistischen RegressionMpi-Allelfrequenzen vs. Breitengrad im Amphipod Megalorchestia californiana. Fehlerbalken sind 95% Konfidenzintervalle; Die dicke schwarze Linie ist die logistische Regressionslinie.

Grafische Darstellung der Ergebnisse

Wenn Sie mehrere Beobachtungen für jeden Wert der Messvariablen haben, wie im obigen Amphipod-Beispiel, können Sie einen Streugraphen mit der Messvariablen auf der X-Achse und den Proportionen auf der Y-Achse zeichnen. Möglicherweise möchten Sie den Punkten 95% -Konfidenzintervalle zuweisen. Dies gibt einen visuellen Hinweis darauf, welche Punkte mehr zur Regression beitragen (diejenigen mit größeren Stichprobengrößen haben kleinere Konfidenzintervalle).

In Tabellenkalkulationen gibt es keine automatische Möglichkeit, die logistische Regressionslinie hinzuzufügen. Hier ist, wie ich es in die Grafik der Amphipodendaten gebracht habe. Zuerst habe ich die Breiten in Spalte A und die Proportionen in Spalte B eingefügt. Dann habe ich mit dem Befehl Fill: Series die Zahlen 30, 30.1, 30.2,…50 zu den Zellen A10 bis A210 hinzugefügt. In Spalte C habe ich die Gleichung für die logistische Regressionsgerade eingegeben; im Excel-Format ist es

=exp(-7.6469+0.1786*(A10))/(1+exp(-7.6469+0.1786*(A10)))

für Zeile 10. Ich habe dies in die Zellen C11 bis C210 kopiert. Als ich dann ein Diagramm der Zahlen in den Spalten A, B und C zeichnete, gab ich den Zahlen in Spalte B Symbole, aber keine Linie, und die Zahlen in Spalte C erhielten eine Linie, aber keine Symbole.

Zentrale Steinwalze
Zentrale Steinwalze, Campostoma anomalum.

Wenn Sie nur eine Beobachtung der Nenngröße für jeden Wert der Messgröße haben, wie im Spider-Beispiel, wäre es albern, einen Streugraphen zu zeichnen, da jeder Punkt auf dem Graphen entweder 0 oder 1 auf der Y-Achse wäre. Wenn Sie viele Datenpunkte haben, können Sie die Messwerte in Intervalle aufteilen und den Anteil für jedes Intervall in einem Balkendiagramm darstellen. Hier sind Daten aus der Maryland Biological Stream Survey an 2180 Probenahmestellen in Maryland Streams. Die Messgröße ist die Konzentration des gelösten Sauerstoffs, und die Nenngröße ist das Vorhandensein oder Fehlen des zentralen Stonerollers Campostoma anomalum. Wenn Sie ein Balkendiagramm zur Veranschaulichung einer logistischen Regression verwenden, sollten Sie erklären, dass die Gruppierung nur heuristischen Zwecken diente und die logistische Regression für die nicht gruppierten Rohdaten durchgeführt wurde.

Balkendiagramm der logistischen Regression
Anteil der Ströme mit zentralen Stonerollern gegenüber gelöstem Sauerstoff. Die Intervalle für gelösten Sauerstoff wurden so eingestellt, dass sie ungefähr die gleiche Anzahl von Stromstellen aufweisen. Die dicke schwarze Linie ist die logistische Regressionsgerade; Sie basiert auf den Rohdaten, nicht auf den in Intervallen gruppierten Daten.
Balkendiagramm der logistischen Regression
Anteil der Ströme mit zentralen Stonerollern gegenüber gelöstem Sauerstoff. Die Intervalle für gelösten Sauerstoff wurden so eingestellt, dass sie ungefähr die gleiche Anzahl von Stromstellen aufweisen. Die dicke schwarze Linie ist die logistische Regressionslinie; es basiert auf den Rohdaten, nicht auf den in Intervallen gruppierten Daten.

Ähnliche Tests

Sie können eine logistische Regression mit einer abhängigen Variablen mit mehr als zwei Werten durchführen, die als multinomiale, polytomöse oder polychotome logistische Regression bezeichnet wird. Ich behandle das hier nicht.

Verwenden Sie multiple logistische Regression, wenn die abhängige Variable nominal ist und es mehr als eine unabhängige Variable gibt. Es ist analog zur multiplen linearen Regression, und es gelten die gleichen Einschränkungen.

Verwenden Sie die lineare Regression, wenn die Y-Variable eine Messvariable ist.

Wenn es nur eine Messgröße und eine Nenngröße gibt, können Sie die Mittelwerte der Messgröße zwischen den beiden Gruppen mit einer Einweg-Anova oder einem t–Test vergleichen. Konzeptionell besteht der Unterschied darin, ob Sie der Meinung sind, dass eine Variation der Nominalvariablen eine Variation der Messvariablen verursacht (verwenden Sie einen t–Test) oder eine Variation der Messvariablen eine Variation der Wahrscheinlichkeit der Nominalvariablen verursacht (verwenden Sie eine logistische Regression). Sie sollten auch überlegen, wem Sie Ihre Ergebnisse präsentieren und wie sie die Informationen verwenden werden. Zum Beispiel Tallamy et al. (2003) untersuchten das Paarungsverhalten bei gefleckten Gurkenkäfern (Diabrotica undecimpunctata). Männliche Käfer streicheln das Weibchen mit ihrer Antenne, und Tallamy et al. wollte wissen, ob schneller streichelnde Männchen einen besseren Paarungserfolg hatten. Sie verglichen die mittlere Streichrate von 21 erfolgreichen Männern (50,9 Schläge pro Minute) und 16 erfolglosen Männern (33,8 Schläge pro Minute) mit einem T-Test mit zwei Stichproben und fanden ein signifikantes Ergebnis (P<0.0001). Dies ist ein einfaches und klares Ergebnis und beantwortet die Frage: „Paaren sich weibliche Gurkenkäfer eher mit Männern, die schneller streicheln?“ Tallamy et al. (2003) hätten diese Daten mit logistischer Regression analysieren können; Es ist eine schwierigere und weniger vertraute statistische Technik, die einige ihrer Leser verwirren könnte, aber zusätzlich zur Beantwortung der Ja / Nein-Frage, ob die Streichgeschwindigkeit mit dem Paarungserfolg zusammenhängt, hätten sie die logistische Regression verwenden können, um vorherzusagen, wie stark der Paarungserfolg eines Käfers zunehmen würde, wenn er seine Streichgeschwindigkeit erhöht. Dies könnte nützliche zusätzliche Informationen sein (besonders wenn Sie ein männlicher Gurkenkäfer sind).

Wie mache ich den Test

Spreadsheet

Ich habe eine Tabelle geschrieben, um eine einfache logistische Regression durchzuführen. Sie können die Daten entweder in zusammengefasster Form eingeben (z. B. wenn Sie sagen, dass es bei 30 ° C 7 männliche und 3 weibliche Komodowarane gab) oder in nicht zusammengefasster Form (z. B. indem Sie jeden Komodowaranen separat eingeben, mit „0“ für ein Männchen und „1“ für ein Weibchen). Es verwendet die Likelihood-Ratio-Methode zur Berechnung des P-Wertes. Die Tabelle verwendet das Tool „Solver“ in Excel. Wenn Solver im Menü Extras nicht aufgeführt ist, gehen Sie im Menü Extras zu Add-Ins und installieren Sie Solver.

Die Tabelle macht Spaß, aber ich bin nicht zuversichtlich genug, um zu empfehlen, dass Sie sie für veröffentlichbare Ergebnisse verwenden.

Webseite

Es gibt eine sehr schöne Webseite, die eine logistische Regression mit dem Likelihood-Ratio-Chi-Quadrat durchführt. Sie können die Daten entweder in zusammengefasster oder nicht zusammengefasster Form eingeben, wobei die Werte durch Tabulatoren (die Sie erhalten, wenn Sie sie aus einer Tabelle kopieren und einfügen) oder Kommas getrennt sind. Sie würden die Amphipodendaten wie folgt eingeben:

 48.1,47,139 45.2,177,241 44.0,1087,1183 43.7,187,175 43.5,397,671 37.8,40,14 36.6,39,17 34.3,30,0

R

Salvatore Mangiaficos R Companion hat ein Beispiel-R-Programm für einfache logistische Regression.

SAS

Verwenden Sie PROC LOGISTIC für einfache logistische Regression. Es gibt zwei Formen der Modellanweisung. Wenn Sie mehrere Beobachtungen für jeden Wert der Messvariablen haben, kann Ihr Datensatz die Messvariable, die Anzahl der „Erfolge“ (dies kann entweder der Wert der Nennvariablen sein) und die Summe (für die Sie möglicherweise eine neue Variable erstellen müssen) enthalten, wie hier gezeigt). Hier ist ein Beispiel mit den Amphipodendaten:

DATA amphipods; INPUT location $ latitude mpi90 mpi100; total=mpi90+mpi100; DATALINES;Port_Townsend,_WA 48.1 47 139 Neskowin,_OR 45.2 177 241Siuslaw_R.,_OR 44.0 1087 1183Umpqua_R.,_OR 43.7 187 175Coos_Bay,_OR 43.5 397 671San_Francisco,_CA 37.8 40 14Carmel,_CA 36.6 39 17Santa_Barbara,_CA 34.3 30 0;PROC LOGISTIC DATA=amphipods; MODEL mpi100/total=latitude;RUN;

Beachten Sie, dass Sie die neue Variable TOTAL im Datenschritt erstellen, indem Sie die Anzahl der Mpi90- und Mpi100-Allele addieren. Die MODEL-Anweisung verwendet die Anzahl der Mpi100-Allele aus der Summe als abhängige Variable. Der P-Wert wäre derselbe, wenn Sie Mpi90 verwenden würden; Die Gleichungsparameter wären unterschiedlich.

Es gibt eine Menge Ausgabe von PROC LOGISTIC , die Sie nicht benötigen. Das Programm gibt Ihnen drei verschiedene P-Werte; Der Likelihood Ratio P-Wert wird am häufigsten verwendet:

 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSqLikelihood Ratio 83.3007 1 <.0001 P valueScore 80.5733 1 <.0001Wald 72.0755 1 <.0001

Die Koeffizienten der logistischen Gleichung sind unter „Schätzung“ angegeben:

 Analysis of Maximum Likelihood Estimates Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 -7.6469 0.9249 68.3605 <.0001latitude 1 0.1786 0.0210 72.0755 <.0001

Unter Verwendung dieser Koeffizienten beträgt die Maximum−Likelihood−Gleichung für den Anteil der Mpi100-Allele an einem bestimmten Breitengrad

Y=e-7.6469+0.1786(Breitengrad)/(1 +e-7.6469+0.1786(latitude))

Es ist auch möglich, Daten zu verwenden, bei denen jede Zeile eine einzelne Beobachtung ist. In diesem Fall können Sie entweder Wörter oder Zahlen für die abhängige Variable verwenden. In diesem Beispiel sind die Daten die Höhe (in Zoll) der 2004-Schüler meiner Klasse zusammen mit ihrem Lieblingsinsekt (gruppiert in Käfer vs. alles andere, wobei „alles andere“ Spinnen einschließt, von denen ein Biologe wirklich wissen sollte, dass sie keine Insekten sind):

DATA insect; INPUT height insect $ @@; DATALINES;62 beetle 66 other 61 beetle 67 other 62 other76 other 66 other 70 beetle 67 other 66 other70 other 70 other 77 beetle 76 other 72 beetle76 beetle 72 other 70 other 65 other 63 other63 other 70 other 72 other 70 beetle 74 other ;PROC LOGISTIC DATA=insect; MODEL insect=height;RUN;

Das Format der Ergebnisse ist für beide Formen der Modellanweisung gleich. In diesem Fall wäre das Modell die Wahrscheinlichkeit eines KÄFERS, da es alphabetisch zuerst steht; um die Wahrscheinlichkeit von OTHER zu modellieren, würden Sie ein EREIGNIS nach der Nominalvariablen in der MODEL-Anweisung hinzufügen, so dass es „MODEL insect (EVENT=’other‘)=height;“

Power analysis

Sie können G*Power verwenden, um die Stichprobengröße zu schätzen, die für eine einfache logistische Regression benötigt wird. Wählen Sie „z-Tests“ unter Testfamilie und „Logistische Regression“ unter Statistischer Test. Legen Sie die Anzahl der Schwänze (normalerweise zwei), Alpha (normalerweise 0,05) und Power (häufig 0,8 oder 0,9) fest. Setzen Sie für die einfache logistische Regression „X-Verteilung“ auf Normal, „R2 other X“ auf 0, „X parm μ“ auf 0 und „X parm σ“ auf 1.

Das letzte, was Sie einstellen müssen, ist Ihre Effektgröße. Dies ist das Quotenverhältnis der Differenz, die Sie zwischen den Quoten von Y, wenn X gleich dem Mittelwert X ist, und den Quoten von Y, wenn X gleich dem Mittelwert X plus einer Standardabweichung ist. Sie können auf die Schaltfläche „Bestimmen“ klicken, um dies zu berechnen.

Angenommen, Sie möchten die Beziehung zwischen der Sandpartikelgröße und dem Vorhandensein oder Fehlen von Tigerkäfern untersuchen. Sie setzen Alpha auf 0,05 und Power auf 0,90. Sie erwarten, basierend auf früheren Untersuchungen, dass 30% der Strände, die Sie sich ansehen, Tigerkäfer haben werden, also setzen Sie „Pr (Y = 1 | X = 1) H0“ auf 0,30. Auch basierend auf früheren Forschungen, Sie erwarten eine mittlere Sandkorngröße von .6 mm mit einer Standardabweichung von 0,2 mm. Die Effektgröße (die minimale Abweichung von der Nullhypothese, die Sie hoffen zu sehen) ist, dass mit zunehmender Sandkorngröße um eine Standardabweichung von 0,6 mm auf 0,8 mm der Anteil der Strände mit Tigerkäfern von 0,30 auf 0,40 steigt. Sie klicken auf die Schaltfläche „Bestimmen“ und geben 0,40 für „Pr (Y = 1 | X = 1) H1“ und 0 ein.30 für „Pr (Y = 1 / X = 1) H0“, dann klicken Sie auf „Berechnen und in das Hauptfenster übertragen.“ Es wird das Odds Ratio (1.555 für unser Beispiel) und das „Pr(Y = 1 | X = 1) H0“ ausfüllen. Das Ergebnis ist in diesem Fall 206, was bedeutet, dass Ihr Experiment erfordert, dass Sie zu 206 warmen, schönen Stränden reisen.

Bild von Amphipod von Vikram Iyengar’s Homepage.

McDonald, J.H. 1985. Größenbezogene und geografische Variation an zwei Enzymloci in Megalorchestia californiana (Amphipoda: Talitridae). Vererbung 54: 359-366.

Suzuki, S., N. Tsurusaki und Y. Kodama. 2006. Verbreitung einer gefährdeten Grabspinne Lycosa ishikariana in der San’in-Küste von Honshu, Japan (Araneae: Lycosidae). Acta Arachnologica 55: 79-86.

Tallamy, D.W., M.B. Darlington, J.D. Pesek und B.E. Powell. 2003. Kopulatorische Werbung signalisiert männliche genetische Qualität bei Gurkenkäfern. Verfahren der Royal Society of London B 270: 77-82.

⇐ Vorheriges Thema/Nächstes Thema ⇒ Inhaltsverzeichnis

Diese Seite wurde zuletzt am 20.Juli 2015 überarbeitet. Seine Adresse ist http://www.biostathandbook.com/logistic.html. Es kann zitiert werden als:
McDonald, JH 2014. Handbuch der biologischen Statistik (3rd ed.). Sparky House Publishing, Baltimore, Maryland. Diese Webseite enthält den Inhalt der Seiten 238-246 in der gedruckten Version.
©2014 von John H. McDonald. Sie können wahrscheinlich tun, was Sie mit diesem Inhalt wollen; siehe die Seite Berechtigungen für Details.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.