Interpréter les sondages
3 mai 2002
Les
résultats des sondages sont entourés d’un halo d’incertitude. Comme l’estimation
d'un pourcentage par sondage suit une loi binomiale, on peut calculer de
façon simple l'intervalle de confiance en résultant.
L’« intervalle
de confiance » est l’intervalle que l’on met autour de l’estimation pour évaluer la confiance que l’on peut lui
accorder ;
lorsque l’on dit « intervalle de confiance à 95 % », cela veut
dire que la vraie valeur à 95 % de chances de se trouver dans l’intervalle (et
donc 5 % de se trouver en dehors de l’intervalle.
Supposons
que le vrai pourcentage soit p, notons x l'estimation de p obtenue sur un échantillon
de taille n, supposons que la population considérée est nombreuse.
L’espérance mathématique de x est :
E(x)
= p (elle est donc égale à la vraie valeur, c’est heureux ! )
La
variance de x est :
V(x)
= p(1 - p)/n
Comme
on ne connaît pas p on ne peut pas calculer V(x) mais on peut l’estimer par :
Est[V(x)]
= x(1 - x)/(n - 1), dont on démontre en effet que l'espérance
mathématique est égale à V(x).
Il
en résulte que si n = 1000, taille courante des échantillons dans les sondages
avant les élections, et si x = 20 %, l'intervalle de confiance à 95 % autour
de x (1,96 écarts types
de part et d'autre) s'étale de 17,52 % à 22,48 %.
L'écart
de quelques dixièmes de point entre Jospin et Le Pen était invisible avec des
lunettes aussi imprécises.
Il
n'est pas nécessaire d'évoquer la volatilité des électeurs (phénomène qui
existe bien sûr et qui ne fait qu’accroître l’incertitude en introduisant
un biais dans les évaluations) pour expliquer
l'incertitude des résultats des sondages :
souvent les intervalles de confiance se chevauchent. Pour qu'ils ne se touchent
pas, il faut un écart suffisant (de 20 % à 26 % par exemple) : on peut alors se prononcer sur
le classement final avec une probabilité élevée (de l'ordre de 99,94 %) même
si l'on ne peut jamais atteindre la certitude parfaite.
Les
instituts de sondage ont vu avant le premier tour que l’on entrait dans la
zone d’incertitude car les estimations relatives à Le Pen et Jospin se
rapprochaient. Ils n’ont pas été écoutés car les journalistes ne
considèrent que l’estimation (la valeur de x) et n’accordent pas assez d’attention aux intervalles de
confiance. Les instituts de sondage auraient sans doute pu et dû insister
davantage.
Il
n’est pas indispensable d’obliger les instituts de sondage à publier les
intervalles de confiance : à partir des formules ci-dessus, et en
utilisant un
tableur, vous pouvez les calculer vous-même facilement.
(Cette
fiche a suscité des réactions que vous trouverez dans "Interpréter
les sondages (suite)")
|