Échantillonnage et estimation pour le bio-médical/Tests d'homogénéité

Les tests d'homogénéité permettent de s'assurer que deux échantillons ont bien été extrait d'une même population. Dans les tests d'homogénéité les paramètres de la population sont inconnus donc ne figure pas dans les formules.

**Tests d'homogénéité**
Leçon : Échantillonnage et estimation pour le bio-médical

Chapitre n^o 5
Chap. préc. :	Tests de conformité
Chap. suiv. :	Sommaire

En raison de limitations techniques, la typographie souhaitable du titre, « Échantillonnage et estimation pour le bio-médical : Tests d'homogénéité
Échantillonnage et estimation pour le bio-médical/Tests d'homogénéité », n'a pu être restituée correctement ci-dessus.

Comparaison des moyennes de deux échantillons indépendants.

Soit deux échantillons.

Le premier d'effectif $n_{1}$ , de moyenne ${\bar {x}}_{1}$ et écart-type $s_{e1}$ .

Le deuxième d'effectif $n_{2}$ , de moyenne ${\bar {x}}_{2}$ et écart-type $s_{e2}$ .

Le problème que l'on se propose de résoudre est : Ces deux échantillons ont-ils été extraits d'une même population ?

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : Les deux échantillons ont été extraits d'une même population.

Soit $H_{1}$ , l'hypothèse : Les deux échantillons proviennent de populations différentes.

Soit $s_{1}$ l'estimation de l'écart-type de la population d'où a été extrait le premier échantillon.

$s_{1}=s_{e1}{\sqrt {\frac {n_{1}}{n_{1}-1}}}$

Soit $s_{2}$ l'estimation de l'écart-type de la population d'où a été extrait le deuxième échantillon.

$s_{2}=s_{e2}{\sqrt {\frac {n_{2}}{n_{2}-1}}}$

Soit ${\bar {X}}_{1}$ la variable aléatoire qui prend pour valeur les moyennes du premier échantillon.

Soit ${\bar {X}}_{2}$ la variable aléatoire qui prend pour valeur les moyennes du deuxième échantillon.

Nous admettrons le théorème suivant :

Si l'hypothèse $H_{0}$ est vraie et si $n_{1}\geqslant 30$ et $n_{2}\geqslant 30$ , la variable aléatoire $U$ définie par :

$U={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}$

suit sensiblement une loi normale centrée réduite.

Pour faire le test, on procédera donc ainsi :

On calcule la valeur $u$ est définie par :

$u={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}$

Si $u\in [-t_{\alpha };\,t_{\alpha }]$ , on accepte l'hypothèse $H_{0}$ .

Si $u\not \in [-t_{\alpha };\,t_{\alpha }]$ , on rejette l'hypothèse $H_{0}$ .

On rappelle que :

$t_{\alpha }=1,96$ pour $\alpha =0,05$ .

$t_{\alpha }=2,576$ pour $\alpha =0,01$ .

$\alpha$ est le risque de première espèce.

Remarque : Les cas $n_{1}<30$ ou $n_{2}<30$ sont plus délicats et seront donc étudiés dans une leçon de niveau supérieur.

Exemple.

On a prélevé deux échantillons de pommes pour étudier le poids des pommes.

Le premier, au début de la récolte, a pour taille 100, pour moyenne 120 grammes et pour écart-type 20 grammes.

Le deuxième, en fin de récolte, a pour taille 150, pour moyenne 150 grammes et pour écart type 10 grammes.

la différence entre les poids moyens à ces deux époques différentes de la récolte est-elle significative au risque de première espèce 5 % ?

Réponse.

L'écart-type estimé $s_{1}$ , de la population d'où aurait été extrait l'échantillon de début de récolte est :

$s_{1}=s_{e1}{\sqrt {\frac {n_{1}}{n_{1}-1}}}=20{\sqrt {\frac {100}{100-1}}}\simeq 20,1$

L'écart-type estimé $s_{2}$ de la population d'où aurait été extrait l'échantillon de fin de récolte est :

$s_{2}=s_{e2}{\sqrt {\frac {n_{2}}{n_{2}-1}}}=10{\sqrt {\frac {150}{150-1}}}\simeq 10,03$

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : Il n'y a pas de différence entre le poids des pommes de début et de fin de récolte.

Soit $H_{1}$ , l'hypothèse : Le poids des pommes en début de récolte n'est pas le même qu'en fin de récolte.

Si $H_{0}$ est vraie,

$U={\frac {{\bar {X}}_{1}-{\bar {X}}_{2}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}$

suis sensiblement une loi normale centrée réduite.

Calculons :

$u={\frac {{\bar {x}}_{1}-{\bar {x}}_{2}}{\sqrt {{\frac {s_{1}^{2}}{n_{1}}}+{\frac {s_{2}^{2}}{n_{2}}}}}}={\frac {120-150}{\sqrt {{\frac {20,1^{2}}{100}}+{\frac {10,03^{2}}{150}}}}}=-13,82$

Au risque de première espèce, si $H_{0}$ était vraie, on devrait avoir $u\in [-1,96;\,1,96]$ . Mais on constate que $-13,82\not \in [-1,96;\,1,96]$ . On peut en conclure que le poids des pommes en début de récolte est probablement différent du poids des pommes en fin de récolte.

Comparaison des fréquences des deux échantillons différents.

Soit deux échantillons.

On observe sur le premier échantillon d'effectif $n_{1}$ un caractère avec une fréquence $f_{1}$ .

On observe sur le deuxième échantillon d'effectif $n_{2}$ le même caractère avec une fréquence $f_{2}$ .

Le problème que l'on se propose de résoudre est :

Ces deux échantillons ont-ils été extraits d'une même population ?

Mise en place du Test.

Soit $H_{0}$ , l'hypothèse : Les deux échantillons ont été extrait d'une même population.

Soit $H_{1}$ , l'hypothèse : Les deux échantillons proviennent de populations différentes.

Soit $F_{1}$ la variable aléatoire qui prend pour valeur les fréquences du caractère sur le premier échantillon.

Soit $F_{2}$ la variable aléatoire qui prend pour valeur les fréquences du caractère sur le deuxième échantillon.

Nous admettrons le théorème suivant :

Si l'hypothèse $H_{0}$ est vraie et si $n_{1}\geqslant 30$ et $n_{2}\geqslant 30$ , la variable aléatoire $U$ définie par :

$U={\frac {F_{1}-F_{2}}{\sqrt {{\frac {{\hat {p}}(1-{\hat {p}})}{n_{1}}}+{\frac {{\hat {p}}(1-{\hat {p}})}{n_{2}}}}}}$

suit sensiblement une loi normale centrée réduite.

${\hat {p}}$ étant l'estimation de $p$ , fréquence sur la population.

${\hat {p}}$ est donnée par la formule :

${\hat {p}}={\frac {n_{1}f_{1}+n_{2}f_{2}}{n_{1}+n_{2}}}$ .

Pour faire le test, on procédera donc ainsi :

On calcule d'abord ${\hat {p}}$ :

${\hat {p}}={\frac {n_{1}f_{1}+n_{2}f_{2}}{n_{1}+n_{2}}}$ .

On calcule ensuite la valeur $u$ définie par :

$u={\frac {f_{1}-f_{2}}{\sqrt {{\frac {{\hat {p}}(1-{\hat {p}})}{n_{1}}}+{\frac {{\hat {p}}(1-{\hat {p}})}{n_{2}}}}}}$ .

Si $u\in [-t_{\alpha };\,t_{\alpha }]$ , on accepte l'hypothèse $H_{0}$ .

Si $u\not \in [-t_{\alpha };\,t_{\alpha }]$ , on rejette l'hypothèse $H_{0}$ .

On rappelle que :

$t_{\alpha }=1,96$ pour $\alpha =0,05$ .

$t_{\alpha }=2,576$ pour $\alpha =0,01$ .

$\alpha$ est le risque de première espèce.

Remarque : Les cas $n_{1}<30$ ou $n_{2}<30$ , On ne peut rien dire.

Exemple.

Sur 40 malades qui ont été traités avec un médicament A, 15 % ont été guéris.

Sur 60 malades qui ont été traités avec un médicament B, 25 % ont été guéris.

Peut-on affirmer au risque 5 % qu'il y a une différence d'efficacité entre les deux médicaments.

Réponse.

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : Il n'y a pas de différence d'efficacité entre les médicaments A et B.

Soit $H_{1}$ , l'hypothèse : L'efficacité des médicaments A et B est différente.

si l'hypothèse $H_{0}$ était vraie, la fréquence estimée de guérison commune des médicaments A et B serait :

${\hat {p}}={\frac {n_{1}f_{1}+n_{2}f_{2}}{n_{1}+n_{2}}}={\frac {40\times 0,15+60\times 0,25}{40+60}}\simeq 0,21$

Si $H_{0}$ était vraie, ${\frac {F_{1}-F_{2}}{\sqrt {{\frac {{\hat {p}}(1-{\hat {p}})}{n_{1}}}+{\frac {{\hat {p}}(1-{\hat {p}})}{n_{2}}}}}}$ suivrait une loi normale centrée réduite.

Calculons $u={\frac {f_{1}-f_{2}}{\sqrt {{\frac {{\hat {p}}(1-{\hat {p}})}{n_{1}}}+{\frac {{\hat {p}}(1-{\hat {p}})}{n_{2}}}}}}={\frac {0,15-0,25}{\sqrt {{\frac {0,21\times 0,79}{40}}+{\frac {0,21\times 0,79}{60}}}}}=-1,2$

Nous remarquons que $-1,2\in [-1,96;\,1,96]$ .

Donc au risque de première espèce $\alpha =0,005$ , on ne peut pas rejeter l'hypothèse $H_{0}$ . On ne peut pas dire qu'il y a une différence d'efficacité entre les deux médicaments. La différence observée peut être due aux fluctuations d'échantillonnage.

Échantillonnage et estimation pour le bio-médical

Tests de conformité

Sommaire