Manuel de statistiques biologiques

topic Sujet précédent / sujet suivant ⇒ Table des matières

Utilisez la régression logistique simple lorsque vous avez une variable nominale et une variable de mesure, et que vous voulez savoir si la variation de la variable de mesure entraîne une variation de la variable nominale.

Quand l’utiliser

Utilisez une régression logistique simple lorsque vous avez une variable nominale avec deux valeurs (mâle / femelle, mort / vivant, etc.) et une variable de mesure. La variable nominale est la variable dépendante et la variable de mesure est la variable indépendante.

Je sépare la régression logistique simple, avec une seule variable indépendante, de la régression logistique multiple, qui a plus d’une variable indépendante. Beaucoup de gens regroupent toutes les régressions logistiques, mais je pense qu’il est utile de traiter la régression logistique simple séparément, car c’est plus simple.

La régression logistique simple est analogue à la régression linéaire, sauf que la variable dépendante est nominale et non une mesure. Un objectif est de voir si la probabilité d’obtenir une valeur particulière de la variable nominale est associée à la variable de mesure ; l’autre objectif est de prédire la probabilité d’obtenir une valeur particulière de la variable nominale, compte tenu de la variable de mesure.

0,247

Taille des grains
(mm)
Araignées
0,245 absent
absent
0,285 présent
0,299 présent
0,327 présent
0.347 present
0.356 absent
0.36 present
0.363 absent
0.364 present
0.398 absent
0.4 present
0.409 absent
0.421 present
0.432 absent
0.473 present
0.509 present
0.529 present
0.561 absent
0.569 absent
0.594 present
0.638 present
0.656 present
0.816 present
0.853 present
0.938 present
1.036 present
1.045 present

As an example of simple logistic regression, Suzuki et al. (2006) ont mesuré la taille des grains de sable sur 28 plages au Japon et observé la présence ou l’absence de Lycosa ishikariana, araignée-loup fouisseuse sur chaque plage. La taille des grains de sable est une variable de mesure, et la présence ou l’absence d’araignée est une variable nominale. La présence ou l’absence d’araignées est la variable dépendante; s’il existe une relation entre les deux variables, ce serait la taille des grains de sable qui affecterait les araignées, et non la présence d’araignées qui affecterait le sable.

L’un des objectifs de cette étude serait de déterminer s’il existe une relation entre la taille des grains de sable et la présence ou l’absence de l’espèce, dans l’espoir de mieux comprendre la biologie des araignées. Parce que cette espèce est en voie de disparition, un autre objectif serait de trouver une équation qui permettrait de prédire la probabilité qu’une population d’araignées-loups survive sur une plage avec une taille de grain de sable particulière, pour aider à déterminer sur quelles plages réintroduire l’araignée.

Vous pouvez également analyser les données avec une variable nominale et une variable de mesure à l’aide d’une anova unidirectionnelle ou d’un test t de Student, et la distinction peut être subtile. Un indice est que la régression logistique vous permet de prédire la probabilité de la variable nominale. Par exemple, imaginez que vous aviez mesuré le taux de cholestérol dans le sang d’un grand nombre de femmes de 55 ans, puis suivi dix ans plus tard pour voir qui avait eu une crise cardiaque. Vous pourriez faire un test t à deux échantillons, en comparant le taux de cholestérol des femmes qui ont eu une crise cardiaque par rapport à celui des femmes qui ont fait une crise cardiaque. ceux qui ne l’ont pas fait, et ce serait un moyen tout à fait raisonnable de tester l’hypothèse nulle selon laquelle le taux de cholestérol n’est pas associé à des crises cardiaques; si le test d’hypothèse était tout ce qui vous intéressait, le test t serait probablement meilleur que la régression logistique moins familière. Cependant, si vous vouliez prédire la probabilité qu’une femme de 55 ans ayant un taux de cholestérol particulier ait une crise cardiaque dans les dix prochaines années, afin que les médecins puissent dire à leurs patients « Si vous réduisez votre cholestérol de 40 points, vous réduirez votre risque de crise cardiaque de X% », vous devrez utiliser la régression logistique.

Dragon de Komodo souriant
Un dragon de Komodo, Varanus komodoensis.

Une autre situation qui appelle une régression logistique, plutôt qu’un test anova ou t, est lorsque vous déterminez les valeurs de la variable de mesure, alors que les valeurs de la variable nominale sont libres de varier. Par exemple, supposons que vous étudiez l’effet de la température d’incubation sur la détermination du sexe chez les dragons de Komodo. Vous élevez 10 œufs à 30 °C, 30 œufs à 32 °C, 12 œufs à 34°C, etc., puis déterminez le sexe des nouveau-nés. Il serait idiot de comparer les températures moyennes d’incubation entre les nouveau–nés mâles et femelles et de tester la différence à l’aide d’un test anova ou t, car la température d’incubation ne dépend pas du sexe de la progéniture; vous avez réglé la température d’incubation, et s’il y a une relation, c’est que le sexe de la progéniture dépend de la température.

Lorsqu’il y a plusieurs observations de la variable nominale pour chaque valeur de la variable de mesure, comme dans l’exemple du dragon de Komodo, vous verrez souvent les données analysées par régression linéaire, les proportions étant traitées comme une deuxième variable de mesure. Souvent, les proportions sont transformées arc-sinus, car cela rend les distributions des proportions plus normales. Ce n’est pas horrible, mais ce n’est pas strictement correct. Un problème est que la régression linéaire traite toutes les proportions de manière égale, même si elles sont basées sur des tailles d’échantillon très différentes. Si 6 des 10 œufs de dragon de Komodo élevés à 30 °C étaient des femelles et que 15 des 30 œufs élevés à 32 °C étaient des femelles, les 60% de femelles à 30 °C et 50% à 32 °C auraient le même poids dans une régression linéaire, ce qui est inapproprié. La régression logistique analyse chaque observation (dans cet exemple, le sexe de chaque dragon de Komodo) séparément, de sorte que les 30 dragons à 32°C auraient 3 fois le poids des 10 dragons à 30°C.

Alors que la régression logistique avec deux valeurs de la variable nominale (régression logistique binaire) est de loin la plus courante, vous pouvez également effectuer une régression logistique avec plus de deux valeurs de la variable nominale, appelée régression logistique multinomiale. Je ne vais pas le couvrir ici du tout. Désolé.

Vous pouvez également faire une régression logistique simple avec des variables nominales pour les variables indépendantes et dépendantes, mais pour être honnête, je ne comprends pas l’avantage de cela par rapport à un test d’indépendance du chi carré ou du G.

Hypothèse nulle

L’hypothèse nulle statistique est que la probabilité d’une valeur particulière de la variable nominale n’est pas associée à la valeur de la variable de mesure ; en d’autres termes, la droite décrivant la relation entre la variable de mesure et la probabilité de la variable nominale a une pente nulle.

Fonctionnement du test

La régression logistique simple trouve l’équation qui prédit le mieux la valeur de la variable Y pour chaque valeur de la variable X. Ce qui rend la régression logistique différente de la régression linéaire, c’est que vous ne mesurez pas directement la variable Y; c’est plutôt la probabilité d’obtenir une valeur particulière d’une variable nominale. Pour l’exemple d’araignée, les valeurs de la variable nominale sont « araignées présentes » et « araignées absentes. »La variable Y utilisée en régression logistique serait alors la probabilité que des araignées soient présentes sur une plage. Cette probabilité pourrait prendre des valeurs de 0 à 1. La plage limitée de cette probabilité poserait des problèmes si elle était utilisée directement dans une régression, de sorte que la cote, Y / (1-Y), est utilisée à la place. (Si la probabilité d’araignées sur une plage est de 0,25, les chances d’avoir des araignées sont les suivantes 0.25/(1-0.25)=1/3. En termes de jeu, cela serait exprimé comme « 3 à 1 chances d’avoir des araignées sur une plage.Le résultat d’une régression logistique est donc une équation qui ressemble à ceci:

ln=a +bX

Vous trouvez la pente (b) et l’ordonnée à l’origine (a) de l’équation la mieux adaptée dans une régression logistique en utilisant la méthode du maximum de vraisemblance, plutôt que la méthode des moindres carrés que vous utilisez pour la régression linéaire. Le maximum de vraisemblance est une technique à forte intensité informatique; l’idée de base est qu’il trouve les valeurs des paramètres sous lesquels vous auriez le plus de chances d’obtenir les résultats observés.

Pour l’exemple de l’araignée, l’équation est

ln=-1,6476 + 5,1215 (taille des grains)

Réarranger pour résoudre pour Y (la probabilité d’araignées sur une plage) donne

Y=e−1,6476 + 5,1215 (taille des grains) /(1+e−1,6476 + 5,1215 (taille des grains))

où e est la racine des grumes naturelles. Donc, si vous alliez sur une plage et que vous vouliez prédire la probabilité que des araignées y vivent, vous pourriez mesurer la taille du grain de sable, le brancher dans l’équation et obtenir une estimation de Y, la probabilité que des araignées soient sur la plage.

Il existe plusieurs façons d’estimer la valeur de P. Le chi carré de Wald est assez populaire, mais il peut donner des résultats inexacts avec de petites tailles d’échantillon. La méthode du rapport de vraisemblance peut être meilleure. Il utilise la différence entre la probabilité d’obtenir les résultats observés sous le modèle logistique et la probabilité d’obtenir les résultats observés dans un modèle sans relation entre les variables indépendantes et dépendantes. Je vous recommande d’utiliser la méthode du rapport de vraisemblance; assurez-vous de spécifier la méthode que vous avez utilisée lorsque vous déclarez vos résultats.

Pour l’exemple d’araignée, la valeur P en utilisant la méthode du rapport de vraisemblance est 0,033, vous rejeteriez donc l’hypothèse nulle. La valeur P pour la méthode Wald est de 0,088, ce qui n’est pas tout à fait significatif.

Hypothèses

La régression logistique simple suppose que les observations sont indépendantes; en d’autres termes, qu’une observation n’en affecte pas une autre. Dans l’exemple du dragon de Komodo, si tous les œufs à 30° C étaient pondus par une mère et que tous les œufs à 32° C étaient pondus par une mère différente, cela rendrait les observations non indépendantes. Si vous concevez bien votre expérience, vous n’aurez aucun problème avec cette hypothèse.

La régression logistique simple suppose que la relation entre le logarithme naturel du rapport de cotes et la variable de mesure est linéaire. Vous pourrez peut-être résoudre ce problème avec une transformation de votre variable de mesure, mais si la relation ressemble à un U ou à l’envers, une transformation ne fonctionnera pas. Par exemple, Suzuki et al. (2006) ont trouvé une probabilité croissante d’araignées avec une taille de grain croissante, mais je suis sûr que s’ils regardaient les plages avec du sable encore plus gros (en d’autres termes, du gravier), la probabilité d’araignées baisserait. Dans ce cas, vous ne pouviez pas faire de régression logistique simple; vous voudriez probablement faire une régression logistique multiple avec une équation comprenant à la fois des termes X et X2.

La régression logistique simple ne suppose pas que la variable de mesure est normalement distribuée.

Exemples

Un amphipode
Un crustacé amphipode, Megalorchestia californiana.

McDonald (1985) a compté les fréquences des allèles au locus de la mannose-6-phosphate isomérase (Mpi) chez le crustacé amphipode Megalorchestia californiana, qui vit sur les plages de sable de la côte pacifique de l’Amérique du Nord. Il y avait deux allèles communs, Mpi90 et Mpi100. La latitude de chaque emplacement de collecte, le nombre de chacun des allèles et la proportion de l’allèle Mpi100 sont indiqués ici:

Emplacement Latitude Mpi90 Mpi100 p, Mpi100
Port Townsend, WA 48,1 47 139 0,748
Neskowin, OU 45,2 177 241 0,577
Siuslaw R., OU 44 1087 1183 0,521
Umpqua R., OU 43.7 187 175 0.483
Coos Bay, OR 43.5 397 671 0.628
San Francisco, CA 37.8 40 14 0.259
Carmel, CA 36.6 39 17 0.304
Santa Barbara, CA 34.3 30 0 0

Allele (Mpi90 or Mpi100) is the nominal variable, and latitude is the measurement variable. Si la question biologique était « Différents endroits ont-ils des fréquences d’allèles différentes? », vous ignoreriez la latitude et feriez un test du chi carré ou du G d’indépendance; ici la question biologique est « Les fréquences des allèles sont-elles associées à la latitude? »

Notez que bien que la proportion de l’allèle Mpi100 semble augmenter avec l’augmentation de la latitude, la taille des échantillons pour les régions du nord et du sud est assez petite; une régression linéaire de la fréquence des allèles par rapport à la latitude leur donnerait un poids égal aux échantillons beaucoup plus grands de l’Oregon, ce qui serait inapproprié. En faisant une régression logistique, le résultat est chi2 = 83,3, 1 d.f., P = 7×10-20. L’équation de la relation est

ln(Y/(1-Y)) = -7,6469 + 0,1786 (latitude),

où Y est la probabilité prédite d’obtenir un allèle Mpi100. Résoudre cela pour Y donne

Y= e−7.6469 + 0.1786(latitude) /(1+e−7.6469 + 0.1786(latitude)).

Cette ligne de régression logistique est indiquée sur le graphique ; notez qu’elle a une forme en S douce. Toutes les équations de régression logistique ont une forme en S, bien que cela puisse ne pas être évident si vous regardez une plage étroite de valeurs.

Graphique de régression logistiqueFréquences des allèles Mpi par rapport à la latitude chez l’amphipode Megalorchestia californiana. Les barres d’erreur sont des intervalles de confiance à 95%; la ligne noire épaisse est la ligne de régression logistique.

Représentation graphique des résultats

Si vous avez plusieurs observations pour chaque valeur de la variable de mesure, comme dans l’exemple d’amphipode ci-dessus, vous pouvez tracer un nuage de points avec la variable de mesure sur l’axe des abscisses et les proportions sur l’axe des ordonnées. Vous voudrez peut-être mettre des intervalles de confiance de 95% sur les points; cela donne une indication visuelle des points qui contribuent le plus à la régression (ceux avec des échantillons de plus grande taille ont des intervalles de confiance plus petits).

Il n’y a pas de moyen automatique dans les feuilles de calcul d’ajouter la ligne de régression logistique. Voici comment je l’ai obtenu sur le graphique des données des amphipodes. Tout d’abord, j’ai mis les latitudes dans la colonne A et les proportions dans la colonne B. Ensuite, en utilisant la commande Fill: Series, j’ai ajouté les nombres 30, 30.1, 30.2,…50 aux cellules A10 à A210. Dans la colonne C, j’ai entré l’équation de la droite de régression logistique; au format Excel, c’est

=exp(-7.6469 +0.1786*(A10))/(1+exp(-7.6469+0.1786*(A10)))

pour la ligne 10. J’ai copié cela dans les cellules C11 à C210. Ensuite, lorsque j’ai dessiné un graphique des nombres des colonnes A, B et C, j’ai donné les nombres des symboles de la colonne B mais pas de ligne, et les nombres de la colonne C ont une ligne mais pas de symboles.

stoneroller central
stoneroller central, Campostoma anomalum.

Si vous n’avez qu’une observation de la variable nominale pour chaque valeur de la variable de mesure, comme dans l’exemple de l’araignée, il serait idiot de dessiner un nuage de points, car chaque point du graphique serait à 0 ou à 1 sur l’axe Y. Si vous avez beaucoup de points de données, vous pouvez diviser les valeurs de mesure en intervalles et tracer la proportion pour chaque intervalle sur un graphique à barres. Voici les données du Maryland Biological Stream Survey sur 2180 sites d’échantillonnage dans les cours d’eau du Maryland. La variable de mesure est la concentration en oxygène dissous et la variable nominale est la présence ou l’absence du stoneroller central, Campostoma anomalum. Si vous utilisez un graphique à barres pour illustrer une régression logistique, vous devez expliquer que le regroupement était uniquement à des fins heuristiques et que la régression logistique a été effectuée sur les données brutes non groupées.

Graphique à barres de régression logistique
Proportion de cours d’eau avec des stonerollers centraux par rapport à l’oxygène dissous. Les intervalles d’oxygène dissous ont été fixés pour avoir un nombre à peu près égal de sites de cours d’eau. La ligne noire épaisse est la ligne de régression logistique; elle est basée sur les données brutes, pas sur les données regroupées en intervalles.
Graphique à barres de régression logistique
Proportion de cours d’eau avec des stonerollers centraux par rapport à l’oxygène dissous. Les intervalles d’oxygène dissous ont été fixés pour avoir un nombre à peu près égal de sites de cours d’eau. La ligne noire épaisse est la ligne de régression logistique; il est basé sur les données brutes, pas sur les données regroupées en intervalles.

Tests similaires

Vous pouvez effectuer une régression logistique avec une variable dépendante qui a plus de deux valeurs, connue sous le nom de régression logistique multinomiale, polytomique ou polychotomique. Je ne couvre pas ça ici.

Utilisez la régression logistique multiple lorsque la variable dépendante est nominale et qu’il y a plus d’une variable indépendante. Elle est analogue à la régression linéaire multiple, et toutes les mêmes mises en garde s’appliquent.

Utilisez la régression linéaire lorsque la variable Y est une variable de mesure.

Lorsqu’il n’y a qu’une variable de mesure et une variable nominale, vous pouvez utiliser une anova unidirectionnelle ou un test t pour comparer les moyennes de la variable de mesure entre les deux groupes. Conceptuellement, la différence est de savoir si vous pensez que la variation de la variable nominale entraîne une variation de la variable de mesure (utilisez un test t) ou si la variation de la variable de mesure entraîne une variation de la probabilité de la variable nominale (utilisez une régression logistique). Vous devez également considérer à qui vous présentez vos résultats et comment ils vont utiliser les informations. Par exemple, Tallamy et al. (2003) ont examiné le comportement d’accouplement des coléoptères tachetés du concombre (Diabrotica undecimpunctata). Les coléoptères mâles caressent la femelle avec leur antenne, et Tallamy et al. je voulais savoir si les mâles qui caressaient plus rapidement avaient un meilleur succès d’accouplement. Ils ont comparé le taux moyen de caresses de 21 mâles réussis (50,9 coups par minute) et de 16 mâles infructueux (33,8 coups par minute) avec un test t à deux échantillons et ont trouvé un résultat significatif (P < 0.0001). C’est un résultat simple et clair, et il répond à la question: « Les coléoptères femelles du concombre tacheté sont-ils plus susceptibles de s’accoupler avec des mâles qui caressent plus vite? » Tallamy et coll. (2003) auraient pu analyser ces données à l’aide de la régression logistique; il s’agit d’une technique statistique plus difficile et moins familière qui pourrait dérouter certains de leurs lecteurs, mais en plus de répondre à la question oui / non de savoir si la vitesse de caresser est liée au succès de l’accouplement, ils auraient pu utiliser la régression logistique pour prédire l’augmentation du succès d’accouplement d’un coléoptère à mesure qu’il augmenterait sa vitesse de caresser. Cela pourrait être une information supplémentaire utile (surtout si vous êtes un coléoptère mâle du concombre).

Comment faire le test

Feuille de calcul

J’ai écrit une feuille de calcul pour effectuer une régression logistique simple. Vous pouvez saisir les données sous forme résumée (par exemple, en disant qu’à 30 ° C, il y avait 7 dragons de Komodo mâles et 3 dragons de Komodo femelles) ou sous forme non résumée (par exemple, en entrant chaque dragon de Komodo séparément, avec « 0 » pour un mâle et « 1 » pour une femelle). Il utilise la méthode du rapport de vraisemblance pour calculer la valeur P. La feuille de calcul utilise l’outil « Solveur » dans Excel. Si le Solveur n’apparaît pas dans le menu Outils, accédez aux compléments dans le menu Outils et installez Solveur.

La feuille de calcul est amusante à utiliser, mais je ne suis pas assez confiant pour vous recommander de l’utiliser pour des résultats publiables.

Page Web

Il y a une très belle page web qui fera une régression logistique, avec le chi carré du rapport de vraisemblance. Vous pouvez saisir les données sous forme résumée ou sous forme non résumée, avec les valeurs séparées par des onglets (que vous obtiendrez si vous copiez et collez à partir d’une feuille de calcul) ou des virgules. Vous entrez les données amphipodes comme ceci:

 48.1,47,139 45.2,177,241 44.0,1087,1183 43.7,187,175 43.5,397,671 37.8,40,14 36.6,39,17 34.3,30,0

R

Le compagnon R de Salvatore Mangiafico a un exemple de programme R pour une régression logistique simple.

SAS

Utilisez PROC LOGISTIC pour une régression logistique simple. Il existe deux formes de l’énoncé du MODÈLE. Lorsque vous avez plusieurs observations pour chaque valeur de la variable de mesure, votre ensemble de données peut contenir la variable de mesure, le nombre de « succès » (cela peut être l’une ou l’autre valeur de la variable nominale) et le total (pour lequel vous devrez peut-être créer une nouvelle variable, comme indiqué ici). Voici un exemple utilisant les données amphipodes:

DATA amphipods; INPUT location $ latitude mpi90 mpi100; total=mpi90+mpi100; DATALINES;Port_Townsend,_WA 48.1 47 139 Neskowin,_OR 45.2 177 241Siuslaw_R.,_OR 44.0 1087 1183Umpqua_R.,_OR 43.7 187 175Coos_Bay,_OR 43.5 397 671San_Francisco,_CA 37.8 40 14Carmel,_CA 36.6 39 17Santa_Barbara,_CA 34.3 30 0;PROC LOGISTIC DATA=amphipods; MODEL mpi100/total=latitude;RUN;

Notez que vous créez la nouvelle variable TOTAL à l’étape DONNÉES en ajoutant le nombre d’allèles Mpi90 et Mpi100. L’instruction MODEL utilise le nombre d’allèles Mpi100 sur le total comme variable dépendante. La valeur P serait la même si vous utilisiez Mpi90; les paramètres de l’équation seraient différents.

Il y a beaucoup de sorties de PROC LOGISTIC dont vous n’avez pas besoin. Le programme vous donne trois valeurs P différentes; la valeur du rapport de vraisemblance P est la plus couramment utilisée:

 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSqLikelihood Ratio 83.3007 1 <.0001 P valueScore 80.5733 1 <.0001Wald 72.0755 1 <.0001

Les coefficients de l’équation logistique sont donnés sous « estimation » :

 Analysis of Maximum Likelihood Estimates Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSqIntercept 1 -7.6469 0.9249 68.3605 <.0001latitude 1 0.1786 0.0210 72.0755 <.0001

En utilisant ces coefficients, l’équation du maximum de vraisemblance pour la proportion d’allèles Mpi100 à une latitude particulière est

Y=e−7,6469 + 0,1786 (latitude) / (1+ e−7.6469 +0.1786 (latitude))

Il est également possible d’utiliser des données dans lesquelles chaque ligne est une seule observation. Dans ce cas, vous pouvez utiliser des mots ou des chiffres pour la variable dépendante. Dans cet exemple, les données sont la hauteur (en pouces) des élèves de 2004 de ma classe, ainsi que leur insecte préféré (groupé en coléoptères par rapport à tout le reste, où « tout le reste » inclut les araignées, qu’un biologiste devrait vraiment savoir ne sont pas des insectes):

DATA insect; INPUT height insect $ @@; DATALINES;62 beetle 66 other 61 beetle 67 other 62 other76 other 66 other 70 beetle 67 other 66 other70 other 70 other 77 beetle 76 other 72 beetle76 beetle 72 other 70 other 65 other 63 other63 other 70 other 72 other 70 beetle 74 other ;PROC LOGISTIC DATA=insect; MODEL insect=height;RUN;

Le format des résultats est le même pour l’une ou l’autre forme de l’énoncé du MODÈLE. Dans ce cas, le modèle serait la probabilité de COLÉOPTÈRE, car il est alphabétique en premier; pour modéliser la probabilité d’AUTRES, vous ajouteriez un ÉVÉNEMENT après la variable nominale dans l’instruction MODEL, ce qui en fait « MODEL insect(EVENT=’other’)=height; »

Analyse de puissance

Vous pouvez utiliser G*Power pour estimer la taille de l’échantillon nécessaire à une simple régression logistique. Choisissez « tests z » sous Famille de tests et « Régression logistique » sous Test statistique. Définissez le nombre de queues (généralement deux), l’alpha (généralement 0,05) et la puissance (souvent 0,8 ou 0,9). Pour une régression logistique simple, définissez « Distribution X » sur Normale, « R2 autres X » sur 0, « X parm μ » sur 0 et « X parm σ » sur 1.

La dernière chose à définir est la taille de votre effet. Il s’agit du rapport de cotes de la différence que vous espérez trouver entre les cotes de Y lorsque X est égal à la moyenne X et les cotes de Y lorsque X est égal à la moyenne X plus un écart-type. Vous pouvez cliquer sur le bouton « Déterminer » pour calculer cela.

Par exemple, supposons que vous souhaitiez étudier la relation entre la taille des particules de sable et la présence ou l’absence de coléoptères. Vous définissez alpha sur 0,05 et power sur 0,90. Vous vous attendez, sur la base de recherches antérieures, à ce que 30% des plages que vous regarderez aient des scarabées tigres, vous définissez donc « Pr(Y = 1 | X = 1) H0 » à 0,30. Également basé sur des recherches antérieures, vous vous attendez à une taille moyenne des grains de sable de.6 mm avec un écart-type de 0,2 mm. La taille de l’effet (l’écart minimum par rapport à l’hypothèse nulle que vous espérez voir) est que lorsque la taille des grains de sable augmente d’un écart-type, de 0,6 mm à 0,8 mm, la proportion de plages avec des scarabées tigres passera de 0,30 à 0,40. Vous cliquez sur le bouton « Déterminer » et entrez 0,40 pour « Pr(Y = 1 / X = 1) H1 » et 0.30 pour « Pr(Y = 1 / X = 1) H0 », puis appuyez sur « Calculer et transférer dans la fenêtre principale. »Il remplira le rapport de cotes (1,555 pour notre exemple) et le « Pr(Y = 1|X = 1) H0 ». Le résultat dans ce cas est 206, ce qui signifie que votre expérience nécessitera que vous voyagiez vers 206 plages chaudes et magnifiques.

Photo d’amphipode de la page d’accueil de Vikram Iyengar.

McDonald, J.H. 1985. Variation géographique et liée à la taille à deux locus enzymatiques chez Megalorchestia californiana (Amphipoda: Talitridae). Hérédité 54:359-366.

Suzuki, S., N. Tsurusaki et Y. Kodama. 2006. Répartition d’une araignée fouisseuse en voie de disparition, Lycosa ishikariana, sur la côte de San’in à Honshu, au Japon (Araneae: Lycosidae). Acta Arachnologica 55:79-86.

Tallamy, D.W., M.B. Darlington, J.D. Pesek et B.E. Powell. 2003. La parade nuptiale copulatoire signale la qualité génétique des mâles chez les coléoptères du concombre. Actes de la Société royale de Londres B 270:77-82.

topic Sujet précédent / Sujet suivant ⇒ Table des matières

Cette page a été révisée pour la dernière fois le 20 juillet 2015. Son adresse est http://www.biostathandbook.com/logistic.html. Il peut être cité comme:
McDonald, J.H. 2014. Manuel de statistiques biologiques (3e éd.). Les éditions Sparky House, Baltimore, Maryland. Cette page web contient le contenu des pages 238-246 dans la version imprimée.
© 2014 par John H. McDonald. Vous pouvez probablement faire ce que vous voulez avec ce contenu; voir la page des autorisations pour plus de détails.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.