Échantillonnage et estimation pour le bio-médical/Introduction
Premières définitions
modifierOn considère une population dont l'effectif est généralement très élevé. on appelle « échantillon » un ensemble obtenue à partir de tirage d'individus de la population.
L'échantillon sera dit exhaustif si le tirage est réalisé sans remise. L'échantillon sera-dit non-exhaustive si le tirage est réalisé avec remise.
On appelle échantillonnage la théorie qui suppose connus les paramètres de la population et qui se propose d'en déduire des renseignements sur les échantillons obtenus à partir de cette population.
On appelle estimation la théorie qui suppose connus les paramètres d'un échantillon et qui se propose d'en déduire des renseignements sur la population de laquelle a été extraite l'échantillon.
Les lois obtenues dans le cas où l'échantillon est non exhaustif sont plus simples que dans le cas où l'échantillonnage est exhaustif.
On montre que lorsque l'effectif de la population est très élevé, il n'y a pratiquement pas de différence entre les paramètres d'un échantillon exhaustif et les paramètres d'un échantillon non-exhaustif.
Par conséquent, comme la population a toujours un effectif élevé, on considérera que tous les échantillons sont non exhaustifs.
Si ce n'est pas le cas, l'erreur commise sera toujours négligeable.
Tests d'hypothèses
modifierOn devons parfois faire un choix entre plusieurs hypothèses sans disposer de critères ou d'informations suffisantes pour faire le meilleur choix.
Par exemple, un nouveau médicament vient d'être mis au point pour traiter une maladie M.
Nous savons qu'un ancien médicament donnait 40 % de réussite et nous savons grâce à un test que le nouveau médicament a guéri 48 personnes sur un échantillon de 100 personnes.
Peut-on dire que le nouveau médicament est meilleur que le précédent ?
Ce n'est pas sûr. Il se peut que le pourcentage de guérison du nouveau médicament soit seulement de 37 % mais que les fluctuations d'échantillonnage aient été telles que dans l'échantillon de 100 personnes, il en ait guérit 48.
Dans toute prise de décision à partir de tests statistiques, il y a un risque de se tromper. Par conséquent, une façon de résoudre le problème serait de calculer pour chaque prise de décision la probabilité de se tromper. L'idéal serait de pouvoir dire par exemple "Ce médicament est meilleur que le précédent. Mais il y a 3 % de chance que je me trompe".
Dans cette leçon, nous nous intéresserons aux problèmes n'ayant que deux alternatives que l'on notera H0 et H1.
L'hypothèse noté H0 sera rappelée « hypothèse nulle » et sera en principe l'hypothèse dont la loi est la mieux connue.
L'hypothèse noté H1 sera rappelée « hypothèse alternative » et sera en principe l'hypothèse dont la loi est la moins bien connue.
Si par exemple, on veut tester un nouveau médicament et décider si ses effets sont identiques ou non à un ancien médicament, on choisira pour H0, l'hypothèse : « Les effets du nouveau médicament sont identiques à l’ancien médicament » et pour H1 l'hypothèse : « Les effets du nouveau médicament sont différents de l'ancien médicament. ».
En effet, si les effets du nouveau médicament sont identiques à l'ancien médicament, sa loi sera connue car ce sera la loi de l'ancien médicament qui lui, a suffisamment servi pour être bien connu. Par contre, si le nouveau médicament n'a pas des effets identiques à l'ancien, on ne peut pratiquement rien dire sur sa loi car il n'a pas encore été suffisamment expérimenté.
Un test statistique va nous amener à choisir entre les hypothèses H0 et H1 et, bien sûr, que l'on choisisse H0 et H1, il y aura un risque de se tromper.
On appelle risque de première espèce noté , la probabilité de choisir H1 sachant que H0 était vraie.
On appelle risque de deuxième espèce noté , la probabilité de choisir H0 sachant que H1 était vraie.
comme H0 est l'hypothèse la mieux connue, la probabilité de rejeter H0 sachant que H0 est vraie est plus facile à calculer que .
Généralement, on fixe ou .
est lui, bien souvent impossible à calculer.
Théorème de la limite centrale
modifierNous admettrons ce théorème, utile en théorie de l'échantillonnage, qui s'énonce ainsi :
Soit une suite de variables aléatoires indépendantes dont la loi de distribution est la même (pas forcément normale) et dont les espérances mathématiques et les variances sont les mêmes.
Soit la moyenne arithmétique de ces variables.
Soit la variable définie par :
Alors, lorsque tend vers , la variable aléatoire tend vers une loi normale centrée réduite.
Ce théorème sert notamment à démontrer que l'on peut approximer une loi biniomiale par une loi normale si est grand.