Initiation à l'échantillonnage et l'estimation/Tests d'hypothèses

Un contributeur est en ce moment même en train de travailler en profondeur sur cette page ou section de page. Merci de ne pas modifier celle-ci afin de limiter les risques de conflit de versions jusqu’à disparition de cet avertissement .


Enlevez ce modèle dès que le travail est fini ; si le travail doit être continué, utilisez le modèle : {{Pas fini}}.

Début de la boite de navigation du chapitre
Tests d'hypothèses
Icône de la faculté
Chapitre no 4
Leçon : Initiation à l'échantillonnage et l'estimation
Chap. préc. :Estimation
Chap. suiv. :Sommaire
fin de la boite de navigation du chapitre
En raison de limitations techniques, la typographie souhaitable du titre, « Initiation à l'échantillonnage et l'estimation : Tests d'hypothèses
Initiation à l'échantillonnage et l'estimation/Tests d'hypothèses
 », n'a pu être restituée correctement ci-dessus.

Position du problème modifier

Nous devons parfois faire un choix entre plusieurs hypothèses sans disposer de critères ou d'informations suffisantes pour faire le meilleur choix.

Par exemple, un nouveau médicament vient d'être mis au point pour traiter une maladie M.

Nous savons qu'un ancien médicament donnait 40 % de réussite et nous savons grâce à un test que le nouveau médicament a guéri 48 personnes sur un échantillon de 100 personnes.

Peut-on dire que le nouveau médicament est meilleur que le précédent ?

Ce n'est pas sûr. Il se peut que le pourcentage de guérison du nouveau médicament soit seulement de 37 % mais que les fluctuations d'échantillonnage aient été telles que dans l'échantillon de 100 personnes, il en ait guérit 48.

Dans toute prise de décision à partir de tests statistiques, il y a un risque de se tromper. Par conséquent, une façon de résoudre le problème serait de calculer pour chaque prise de décision la probabilité de se tromper. L'idéal serait de pouvoir dire par exemple "Ce médicament est meilleur que le précédent. Mais il y a 3 % de chance que je me trompe".

Dans cette leçon, nous nous intéresserons aux problèmes n'ayant que deux alternatives.


Si par exemple, on veut tester un nouveau médicament et décider si ses effets sont identiques ou non à un ancien médicament, on choisira pour H0, l'hypothèse : « Les effets du nouveau médicament sont identiques à l’ancien médicament » et pour H1 l'hypothèse : « Les effets du nouveau médicament sont différents de l'ancien médicament. ».

En effet, si les effets du nouveau médicament sont identiques à l'ancien médicament, sa loi sera connue car ce sera la loi de l'ancien médicament qui lui, a suffisamment servi pour être bien connu. Par contre, si le nouveau médicament n'a pas des effets identiques à l'ancien, on ne peut pratiquement rien dire sur sa loi car il n'a pas encore été suffisamment expérimenté.

Un test statistique va nous amener à choisir entre les hypothèses H0 et H1 et, bien sûr, que l'on choisisse H0 et H1, il y aura un risque de se tromper.

On appelle risque de première espèce noté  , la probabilité de choisir H1 sachant que H0 était vraie.

On appelle risque de deuxième espèce noté  , la probabilité de choisir H0 sachant que H1 était vraie.

comme H0 est l'hypothèse la mieux connue, la probabilité   de rejeter H0 sachant que H0 est vraie est plus facile à calculer que  .

Généralement, on fixe   ou  .

  est lui, bien souvent impossible à calculer.


Les tests de conformité permettent de s'assurer:

  • Qu'un échantillon a bien été extrait d'une population donnée.
  • Qu'un phénomène est conforme aux prévisions d'une loi théorique.
  • Que les performances de nouveaux produits sont meilleures que celle d'un ancien produit déjà connu.


Comparaison de la fréquence sur un échantillon à la fréquence sur la population. modifier

Soit   la fréquence d'un caractère sur une population.

Soit   la fréquence observée d'un caractère sur un échantillon de   individus.


Le problème que l'on se propose de résoudre est :

L'échantillon a-t-il été extrait d'une population sur laquelle la fréquence des caractères est   ?


Mise en place du test :

Soit  , l'hypothèse : L'échantillon a été extrait d'une population sur laquelle la fréquence du caractère est  .

Soit  , l'hypothèse : L'échantillon n'a pas été extrait d'une population sur laquelle la fréquence du caractère est  .

Si   est vraie et si  , on sait d'après a théorie de l'échantillonnage que   (variable aléatoire qui prend pour valeur les fréquences observée sur les échantillons extrait de la population) suit une loi normale de moyenne   et écart-type  .

Par conséquent, on peut en déduire que :

  suit sensiblement une loi normale centrée réduite.

Puisqu'il s'agit de comparer   à  , cela suppose   connu.

Pour faire le test, on procédera donc ainsi :

On calcule la valeur   définie par :

 

Si  , on accepte l'hypothèse  .

Si  , on rejette l'hypothèse  .

On rappelle que :

  pour  .

  pour  .

  est le risque de première espèce.


 

Exemple.

On sait qu'une souris grise réussit un test d'intelligence dans 37 % des cas. On fait subir le test à 35 souris blanches et on constate que 18 d'entre elles réussissent le test. Peut-on déduire au risque 5 % que l'intelligence des souris blanches est différentes des souris grises.


Réponse.

Mise en place du test.

Soit  , l'hypothèse : il n'y a pas de différence entre l'intelligence des souris grises et l'intelligence des souris blanches.

Soit  , l'hypothèse : Les souris grises et les souris blanches n'ont pas la même intelligence.

Dans le cas où   est vraie et comme  , on peut dire que :

  suit sensiblement une loi normale centrée réduite.

Calculons :  

 , donc on accepte l'hypothèse  . On ne peut pas dire que les souris grises et les souris blanches ont une intelligence différente. La différence observée est probablement due aux fluctuations d'échantillonnage.