Statistique inférentielle/Intervalle de confiance d'une fréquence
Loi d'échantillonnage de la fréquence
modifierLa théorie de l'échantillonnage
modifierEn statistique, il est en général impossible d'étudier un caractère sur toute une population de taille N élevée.
La théorie de l'échantillonnage se pose la question suivante :
En supposant connus les paramètres statistiques de la population,
que peut-on en déduire sur les échantillons prélevés dans la population ?
On suppose que ces échantillons sont prélevés au hasard
- et que le tirage de ces échantillons est effectué avec remise.
L'ensemble de ces échantillons de taille n est appelé échantillonnage de taille n.
Étudions dans ces conditions la loi d'échantillonnage des fréquences.
Loi d'échantillonnage des fréquences
modifierOn suppose donc sur une population de taille N, un caractère de fréquence p.
Soit X la variable aléatoire valant 1 si le caractère est acquis, 0 sinon.
X suit donc une loi de Bernoulli de paramètre p, d'espérance p
- et de variance .
Dans un échantillon de taille n,
on répète n de ces épreuves indépendantes auxquelles correspondent n variables aléatoires :
de même loi que X.
La variable aléatoire représentant la moyenne de l'échantillon est :
- Elle dépend bien sûr de la taille n des échantillons.
D'après le théorème central limite, on déduit :
Intervalle de confiance de la fréquence
modifierL'estimation ponctuelle de la fréquence dans la population à partir de celle dans l'échantillon n'indique pas le risque d'erreur.
Il s'agit de déterminer un intervalle contenant la valeur de la fréquence
- dans la population avec un risque d'erreur décidé à l'avance.
p et étant inconnus,
on les remplace par leurs estimations ponctuelles :
- f et
En posant ,
le théorème précédent implique que suit une loi normale centrée réduite.
Soit la probabilité, fixée à l'avance,
que n'appartiennent pas à l'intervalle , alors :
donc
on obtient donc le :
- Un intervalle de confiance de la moyenne m au seuil de risque est :
- où t est le nombre tel que et se lit dans la table de la loi normale N(0;1).
Exemple
modifierUn sondage dans une commune révèle que sur les 500 personnes interrogées,
- 42% sont mécontentes du réseau de transports en commun.
Déterminer un intervalle de confiance du pourcentage p de personne mécontentes dans la commune,
- au seuil de risque de 1%.