RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Interpréter les sondages

3 mai 2002

Les résultats des sondages sont entourés d’un halo d’incertitude. Comme l’estimation d'un pourcentage par sondage suit une loi binomiale, on peut calculer de façon simple l'intervalle de confiance en résultant.

L’« intervalle de confiance » est l’intervalle que l’on met autour de l’estimation pour évaluer la confiance que l’on peut lui accorder ; lorsque l’on dit « intervalle de confiance à 95 % », cela veut dire que la vraie valeur à 95 % de chances de se trouver dans l’intervalle (et donc 5 % de se trouver en dehors de l’intervalle[1]).

Supposons que le vrai pourcentage soit p, notons x l'estimation de p obtenue sur un échantillon de taille n, supposons que la population considérée est nombreuse[2]. L’espérance mathématique de x est :

E(x) = p (elle est donc égale à la vraie valeur, c’est heureux ! )

La variance de x est :

V(x) = p(1 - p)/n

Comme on ne connaît pas p on ne peut pas calculer V(x) mais on peut l’estimer par :

Est[V(x)] = x(1 - x)/(n - 1), dont on démontre en effet que l'espérance mathématique est égale à V(x).

Il en résulte que si n = 1000, taille courante des échantillons dans les sondages avant les élections, et si x = 20 %, l'intervalle de confiance à 95 % autour de x (1,96 écarts types[3] de part et d'autre) s'étale de 17,52 % à 22,48 %.

L'écart de quelques dixièmes de point entre Jospin et Le Pen était invisible avec des lunettes aussi imprécises.

Il n'est pas nécessaire d'évoquer la volatilité des électeurs (phénomène qui existe bien sûr et qui ne fait qu’accroître l’incertitude en introduisant un biais dans les évaluations) pour expliquer l'incertitude des résultats des sondages : souvent les intervalles de confiance se chevauchent. Pour qu'ils ne se touchent pas, il faut un écart suffisant (de 20 % à 26 % par exemple) : on peut alors se prononcer sur le classement final avec une probabilité élevée (de l'ordre de 99,94 %) même si l'on ne peut jamais atteindre la certitude parfaite.

Les instituts de sondage ont vu avant le premier tour que l’on entrait dans la zone d’incertitude car les estimations relatives à Le Pen et Jospin se rapprochaient. Ils n’ont pas été écoutés car les journalistes ne considèrent que l’estimation (la valeur de x) et n’accordent pas assez d’attention aux intervalles de confiance. Les instituts de sondage auraient sans doute pu et dû insister davantage. 

Il n’est pas indispensable d’obliger les instituts de sondage à publier les intervalles de confiance : à partir des formules ci-dessus, et en utilisant un tableur, vous pouvez les calculer vous-même facilement.

(Cette fiche a suscité des réactions que vous trouverez dans "Interpréter les sondages (suite)")


[1] Cette définition intuitive suffit en pratique. La définition mathématique est plus subtile : l’intervalle de confiance à 95 % autour de x, c’est le plus petit des intervalles dans lesquels la mesure aurait 95 % de chances de se trouver si p était égal à x.

[2] Cela permet de faire comme si la population était infinie.

[3] L’écart type est la racine carrée de la variance.