Initiation à l'échantillonnage et l'estimation/Tests d'hypothèses

**Tests d'hypothèses**
Leçon : Initiation à l'échantillonnage et l'estimation

Chapitre n^o 4
Chap. préc. :	Estimation
Chap. suiv. :	Sommaire

En raison de limitations techniques, la typographie souhaitable du titre, « Initiation à l'échantillonnage et l'estimation : Tests d'hypothèses
Initiation à l'échantillonnage et l'estimation/Tests d'hypothèses », n'a pu être restituée correctement ci-dessus.

Position du problème

Nous devons parfois faire un choix entre plusieurs hypothèses sans disposer de critères ou d'informations suffisantes pour faire le meilleur choix.

Par exemple, un nouveau médicament vient d'être mis au point pour traiter une maladie M.

Nous savons qu'un ancien médicament donnait 40 % de réussite et nous savons grâce à un test que le nouveau médicament a guéri 48 personnes sur un échantillon de 100 personnes.

Peut-on dire que le nouveau médicament est meilleur que le précédent ?

Ce n'est pas sûr. Il se peut que le pourcentage de guérison du nouveau médicament soit seulement de 37 % mais que les fluctuations d'échantillonnage aient été telles que dans l'échantillon de 100 personnes, il en ait guérit 48.

Dans toute prise de décision à partir de tests statistiques, il y a un risque de se tromper. Par conséquent, une façon de résoudre le problème serait de calculer pour chaque prise de décision la probabilité de se tromper. L'idéal serait de pouvoir dire par exemple "Ce médicament est meilleur que le précédent. Mais il y a 3 % de chance que je me trompe".

Dans cette leçon, nous nous intéresserons aux problèmes n'ayant que deux alternatives.

Si par exemple, on veut tester un nouveau médicament et décider si ses effets sont identiques ou non à un ancien médicament, on choisira pour H₀, l'hypothèse : « Les effets du nouveau médicament sont identiques à l’ancien médicament » et pour H₁ l'hypothèse : « Les effets du nouveau médicament sont différents de l'ancien médicament. ».

En effet, si les effets du nouveau médicament sont identiques à l'ancien médicament, sa loi sera connue car ce sera la loi de l'ancien médicament qui lui, a suffisamment servi pour être bien connu. Par contre, si le nouveau médicament n'a pas des effets identiques à l'ancien, on ne peut pratiquement rien dire sur sa loi car il n'a pas encore été suffisamment expérimenté.

Un test statistique va nous amener à choisir entre les hypothèses H₀ et H₁ et, bien sûr, que l'on choisisse H₀ et H₁, il y aura un risque de se tromper.

On appelle risque de première espèce noté $\alpha$ , la probabilité de choisir H₁ sachant que H₀ était vraie.

On appelle risque de deuxième espèce noté $\beta$ , la probabilité de choisir H₀ sachant que H₁ était vraie.

comme H₀ est l'hypothèse la mieux connue, la probabilité $\alpha$ de rejeter H₀ sachant que H₀ est vraie est plus facile à calculer que $\beta$ .

Généralement, on fixe $\alpha =0,05$ ou $\alpha =0,01$ .

$\beta$ est lui, bien souvent impossible à calculer.

Les tests de conformité permettent de s'assurer:

Qu'un échantillon a bien été extrait d'une population donnée.
Qu'un phénomène est conforme aux prévisions d'une loi théorique.
Que les performances de nouveaux produits sont meilleures que celle d'un ancien produit déjà connu.

Comparaison de la fréquence sur un échantillon à la fréquence sur la population.

Soit $p$ la fréquence d'un caractère sur une population.

Soit $f$ la fréquence observée d'un caractère sur un échantillon de $n$ individus.

Le problème que l'on se propose de résoudre est :

L'échantillon a-t-il été extrait d'une population sur laquelle la fréquence des caractères est $p$ ?

Mise en place du test :

Soit $H_{0}$ , l'hypothèse : L'échantillon a été extrait d'une population sur laquelle la fréquence du caractère est $p$ .

Soit $H_{1}$ , l'hypothèse : L'échantillon n'a pas été extrait d'une population sur laquelle la fréquence du caractère est $p$ .

Si $H_{0}$ est vraie et si $n\geqslant 30$ , on sait d'après a théorie de l'échantillonnage que $F$ (variable aléatoire qui prend pour valeur les fréquences observée sur les échantillons extrait de la population) suit une loi normale de moyenne $p$ et écart-type ${\sqrt {\frac {p(1-p)}{n}}}$ .

Par conséquent, on peut en déduire que :

${\frac {F-p}{\sqrt {\frac {p(1-p)}{n}}}}$ suit sensiblement une loi normale centrée réduite.

Puisqu'il s'agit de comparer $f$ à $p$ , cela suppose $p$ connu.

Pour faire le test, on procédera donc ainsi :

On calcule la valeur $u$ définie par :

$u={\frac {f-p}{\sqrt {\frac {p(1-p)}{n}}}}$

Si $u\in [-t_{\alpha };\,t_{\alpha }]$ , on accepte l'hypothèse $H_{0}$ .

Si $u\not \in [-t_{\alpha };\,t_{\alpha }]$ , on rejette l'hypothèse $H_{0}$ .

On rappelle que :

$t_{\alpha }=1,96$ pour $\alpha =0,05$ .

$t_{\alpha }=2,576$ pour $\alpha =0,01$ .

$\alpha$ est le risque de première espèce.

Exemple.

On sait qu'une souris grise réussit un test d'intelligence dans 37 % des cas. On fait subir le test à 35 souris blanches et on constate que 18 d'entre elles réussissent le test. Peut-on déduire au risque 5 % que l'intelligence des souris blanches est différentes des souris grises.

Réponse.

Mise en place du test.

Soit $H_{0}$ , l'hypothèse : il n'y a pas de différence entre l'intelligence des souris grises et l'intelligence des souris blanches.

Soit $H_{1}$ , l'hypothèse : Les souris grises et les souris blanches n'ont pas la même intelligence.

Dans le cas où $H_{0}$ est vraie et comme $n\geqslant 30$ , on peut dire que :

${\frac {F-p}{\sqrt {\frac {p(1-p)}{n}}}}$ suit sensiblement une loi normale centrée réduite.

Calculons : $u={\frac {f-p}{\sqrt {\frac {p(1-p)}{n}}}}={\frac {{\frac {18}{35}}-0,37}{\sqrt {\frac {0,37(1-0,37)}{35}}}}\simeq 1,768$

$1,768\in [-1,96;\,1,96]$ , donc on accepte l'hypothèse $H_{0}$ . On ne peut pas dire que les souris grises et les souris blanches ont une intelligence différente. La différence observée est probablement due aux fluctuations d'échantillonnage.

Initiation à l'échantillonnage et l'estimation

Estimation

Sommaire