Statistique inférentielle/Intervalle de confiance d'une fréquence

**Intervalle de confiance d'une fréquence**
Leçon : Statistique inférentielle

Chapitre n^o 4
Chap. préc. :	Intervalle de confiance d'une moyenne
Chap. suiv. :	Test d'hypothèse

En raison de limitations techniques, la typographie souhaitable du titre, « Statistique inférentielle : Intervalle de confiance d'une fréquence
Statistique inférentielle/Intervalle de confiance d'une fréquence », n'a pu être restituée correctement ci-dessus.

Loi d'échantillonnage de la fréquence

La théorie de l'échantillonnage

En statistique, il est en général impossible d'étudier un caractère sur toute une population de taille N élevée.

La théorie de l'échantillonnage se pose la question suivante :

En supposant connus les paramètres statistiques de la population,

que peut-on en déduire sur les échantillons prélevés dans la population ?

On suppose que ces échantillons sont prélevés au hasard

et que le tirage de ces échantillons est effectué avec remise.

L'ensemble de ces échantillons de taille n est appelé échantillonnage de taille n.

Étudions dans ces conditions la loi d'échantillonnage des fréquences.

Loi d'échantillonnage des fréquences

On suppose donc sur une population de taille N, un caractère de fréquence p.

Soit X la variable aléatoire valant 1 si le caractère est acquis, 0 sinon.

X suit donc une loi de Bernoulli de paramètre p, d'espérance p

et de variance

p(1-p)

.

Dans un échantillon de taille n,

on répète n de ces épreuves indépendantes auxquelles correspondent n variables aléatoires :

$X_{1},X_{2},...,X_{n}$ de même loi que X.

La variable aléatoire représentant la moyenne de l'échantillon est :

$Y_{n}={\frac {X_{1}+X_{2}+...+X_{n}}{n}}$

Définition

La loi d'échantillonnage de la fréquence est la loi de probabilité de $Y_{n}$

Elle dépend bien sûr de la taille n des échantillons.

D'après le théorème central limite, on déduit :

Propriété

La loi d'échantillonnage de $Y_{n}$ suit une loi normale d'espérance p et d'écart-type ${\sqrt {\frac {p(1-p)}{n}}}$

Intervalle de confiance de la fréquence

L'estimation ponctuelle de la fréquence dans la population à partir de celle dans l'échantillon n'indique pas le risque d'erreur.

Il s'agit de déterminer un intervalle contenant la valeur de la fréquence

dans la population avec un risque d'erreur décidé à l'avance.

p et ${\sqrt {\frac {p(1-p)}{n}}}$ étant inconnus,

on les remplace par leurs estimations ponctuelles :

f et

{\sqrt {\frac {f(1-f)}{n}}}

En posant $T_{n}={\frac {Y_{n}-f}{\sqrt {\frac {f(1-f)}{n}}}}$ ,

le théorème précédent implique que $T_{n}$ suit une loi normale centrée réduite.

Soit $\alpha$ la probabilité, fixée à l'avance,

que $T_{n}$ n'appartiennent pas à l'intervalle $[-t,t]$ , alors :

$P(-t\leq T_{n}\leq t)=1-\alpha$

donc

$P(Y_{n}-t{\sqrt {\frac {f(1-f)}{n}}}\leq p\leq Y_{n}+t{\sqrt {\frac {f(1-f)}{n}}})=1-\alpha$

on obtient donc le :

Théorème

Un intervalle de confiance de la moyenne m au seuil de risque $\alpha$ est :

$[f-t{\sqrt {\frac {f(1-f)}{n}}};f+t{\sqrt {\frac {f(1-f)}{n}}}]$

où t est le nombre tel que

\Pi (t)=1-{\frac {\alpha }{2}}

et se lit dans la table de la loi normale N(0;1).

Définition

$\alpha$ est le risque d'erreur ou seuil de risque.
$1-\alpha$ est le coefficient de confiance.

Exemple

Un sondage dans une commune révèle que sur les 500 personnes interrogées,

42% sont mécontentes du réseau de transports en commun.

Déterminer un intervalle de confiance du pourcentage p de personne mécontentes dans la commune,

au seuil de risque de 1%.

Statistique inférentielle

Intervalle de confiance d'une moyenne

Test d'hypothèse