RECHERCHE :
Bienvenue sur le site de Michel VOLLE
Powered by picosearch  


Vous êtes libre de copier, distribuer et/ou modifier les documents de ce site, à la seule condition de citer la source.
 GNU Free Documentation License.

Éléments de théorie des sondages

(voir système de pilotage de l'entreprise)

Considérons une population P de m individus, et une variable X observable sur chacun de ces individus. Supposons m grand. Soit xi la valeur de X sur l’individu courant.

La somme des xi, leur moyenne x et leur écart-type seront connus si l’on demande à chaque individu de déclarer son xi. Le coût d’une observation exhaustive peut cependant être élevé. Il est alors intéressant de procéder par sondage.

Exploitation d’un sondage

Dans la population, on va tirer au hasard n individus. Sur cet échantillon, on va mesurer la moyenne x de X :

(1) x = S xi / n

x est une variable aléatoire, car sa valeur dépend du choix des individus qui composent l’échantillon. Si n est assez grand x suit une loi de Laplace-Gauss d ’espérance mathématique x (x est un estimateur de x). L’estimateur de sa variance est sx2 = s2/n, où

(2) s2 = S (xi - x)2 / (n - 1)

est lui-même un estimateur de la variance des xi dans l’ensemble de la population P.

L’imprécision due au tirage de l’échantillon est donc d’autant plus faible que n est plus grand : la précision d’un sondage dépend de la taille de l’échantillon, non du taux de sondage.

L’ " intervalle de confiance à 95 % " est l’intervalle [ x - 2 sx , x + 2 sx ] : cela veut dire que si l’on tire un grand nombre d’échantillons, cet intervalle contiendra dans 95% des cas la valeur vraie x.

Ce résultat n’est vrai que si l’échantillon a bien été tiré au hasard. Or pour réussir un tirage au hasard il faut suivre un protocole précis. Si l’on fait par exemple un sondage en prenant des personnes au hasard dans la rue, on risque d’avoir un biais, dû à la composition sociologique du quartier, au fait que les personnes âgées ou infirmes ne sortent pas dans la rue, etc.

On gagne par ailleurs en précision si l’on stratifie la population, c’est-à-dire si on la divise en sous-populations (strates) soumises à des sondages séparés : la variance de l’estimateur est alors plus faible.

Sondage et source exhaustive

Supposons que l’on dispose d’une source exhaustive sur la variable X (on connaît donc x), et que l’on réalise un sondage pour estimer une autre variable Y. Il sera alors intéressant d’observer aussi la variable X sur l’échantillon, car si Y est corrélée avec X on pourra améliorer la précision de l’estimation de y.

L’estimation du " coefficient de corrélation de X et de Y " est :

(3) r (X, Y) = S(xi - x)(yi - y)/sXsY

On améliore l’estimation de y en utilisant non y = S yi / n, mais :

(4) y’ = ax + b,

où a et b sont les coefficients de la régression de Y sur X estimés sur l’échantillon (cf. indications sur la régression).

En effet, l’espérance de y’ est y, y’ est donc un estimateur de y ; sa variance est :

(5) sy’2= sy2 (1 - r2)

Si X et Y sont corrélés (

Si X et Y sont corrélés (r2 proche de 1) y’ est un estimateur plus précis que y.

Pour calculer y’ et estimer sa précision, on procède donc ainsi :

estimer a et b par régression de Y sur X sur l’échantillon ;

calculer y’ par (4) ;

estimer la corrélation de X et Y par (3) ;

calculer la variance de y’ par (5).

Grâce à ce résultat, on peut améliorer la précision des sondages en utilisant les informations fournies par une source exhaustive. La connaissance exhaustive sur certaines données permet ainsi d’améliorer celle des données observées par sondage, dans la mesure où ces dernières sont corrélées aux données connues de façon exhaustive.

Ce gain en précision peut être utilisé soit pour améliorer les estimateurs pour une taille d’échantillon donnée, soit pour diminuer la taille de l’échantillon et alléger le sondage tout en préservant sa qualité.