Échantillonnage et estimation pour le bio-médical/Échantillonnage
les paramètres de la population sont supposés connus.
On étudie un caractère pour lequel la moyenne de la population est et son écart type est .
Soit donc , une variable aléatoire définie sur la population qui prend pour valeur le caractère étudié.
On a donc:
|
De la population, on extrait des échantillons de taille (contenant individus).
Étude de la moyenne d'un échantillon
modifierSur l'ensemble des échantillons, on peut définir une nouvelle variable aléatoire appelée moyenne aléatoire de l'échantillon qui prend pour valeur les moyennes des valeurs du caractère sur chaque échantillon.
Il est évident que la moyenne des valeurs du caractère n'est pas la même sur chaque échantillon car les tirages se font au hasard. On appelle cela les fluctuations de l'échantillonnage.
Nous sommes dans les conditions d'application du théorème de la limite centrale.
Lorsque est suffisamment grand, on peut dire que:
suit une loi normale centrée réduite.
On considérera que ceci est vrai pour .
On peut en déduire que:
Si l'effectif de l'échantillon est supérieur à 30. La variable suit une loi normale de moyenne et d'écart-type .
On retiendra:
|
Remarque Si et si suit une loi normale, ces formules sont toujours vraies. Par contre si ne suis pas une loi normale, on ne peut rien dire sur . |
Exemple. La moyenne des taux de cholestérol sur la population et de 1,13 grammes par litre avec un écart-type de 0,1 gramme par litre environ. La loi de répartition du cholestérol n'est pas normale mais bimodale. On décide d'analyser le taux de cholestérol chez 40 personnes prises au hasard et on se propose de faire la moyenne des 40 valeurs obtenues. Calculer un intervalle de fluctuation tel qu'avant de faire l'analyse, on puisse prévoir que la moyenne des 40 valeurs du taux de cholestérol ait 95 % de chance de s'y trouver.
Comme l'échantillon comprend 40 valeurs, c'est-à-dire plus de 30, on peut dire que la moyenne des 40 valeurs suit une loi normale de moyenne 1,13 gramme par litre et d'écart type gramme par litre. (Bien que le taux de cholestérol ne suive pas une loi normale.) Il suffit donc de calculer un intervalle de fluctuation au risque 5 % à partir de ces valeurs. Soit . L'intervalle recherché est donc: . Avant de faire l'analyse, on peut donc dire d'avance qu'il y a 95 % de chance que la moyenne des 40 valeurs du taux de cholestérol tombe entre 1,10 gramme par litre et 1,16 gramme par litre. |
Étude de la variance d'un échantillon
modifierOn notera la variable aléatoire qui prend pour valeur les variances des échantillons extraits de la population.
On notera la variable aléatoire qui prend pour valeur les écarts-types des échantillons. On a déjà:
|
On démontre et nous admettrons que :
|
Exemple. Reprenons l'exemple précédent : Le taux de cholestérol suis une loi bimodale de moyenne grammes par litre et d'écart type gramme par litre. On étudie un échantillon de 40 personnes. Quel écart-type peut-on espérer avoir sur cet échantillon.
On a:
|
Remarques Supposons que l'échantillon contient seulement 6 personnes. L'écart-type que l'on peut espérer avoir sur cet échantillon serait alors :
On remarque que plus l'échantillon est petit, plus l'écart-type de l'échantillon s'éloigne de l'écart-type de la population. On remarque aussi que l'écart-type de l'échantillon est plus faible que l'écart-type de la population. On remarque aussi que si l'échantillon contient une personne, l'écart-type espéré sera :
Ce qui est normal. |
Étude de la fréquence d'un caractère dans un échantillon
modifierUn élément d'une population peux avoir une propriété avec une certaine fréquence.
Par exemple, un bébé sur 8 né prématuré. La fréquence serait alors de 12,5 %.
Si la population est grande, on peut assimiler la fréquence à une probabilité .
Un bébé pris au hasard a une probabilité d'être né prématurément.
On peut être amené à étudier la fréquence sur un échantillon extrait de la population.
On notera la variable aléatoire qui prend pour valeur la fréquence observée sur des échantillons de taille extrait de la population.
On Montre et nous admettrons que:
|
D'autre part si , on peut dire que suit une loi normale de moyenne et d'écart-type .
Si les formules ci-dessus sont toujours vraies mais ne suis plus une loi normale.
Pour calculer des intervalles de fluctuation, on utilise alors des abaques.
Exemple. Supposons que la population des bébés prématurés soit de 12,5 %. On considère un échantillon de 50 bébés. Donner un intervalle de fluctuation au risque 5 % de la fréquence des bébés prématurés sur cet échantillon.
L'échantillon contenant plus de 30 bébés, on peut dire que la fréquence de bébés prématurés sur l'échantillon suit une loi normale et on peut donc appliquer la formule donnant l'intervalle de confiance au risque 5 %. L'espérance de la fréquence sur les échantillons sera . L'écart-type de la fréquence sur les échantillons sera:
L'intervalle de fluctuation a risque 5 %. sera donc:
Soit:
La fréquence de prématuré sur l'échantillon de 50 bébés aura 95 % de chance d'être comprise entre 3,3 % et 21,7 %. |