Éléments de théorie des sondages
(voir système de pilotage de l'entreprise)
Considérons une population P de m individus, et une variable X
observable sur chacun de ces individus. Supposons m grand. Soit xi la valeur de
X sur lindividu courant.
La somme des xi, leur moyenne x et leur
écart-type seront connus si lon demande à chaque individu de déclarer son xi.
Le coût dune observation exhaustive peut cependant être élevé. Il est alors
intéressant de procéder par sondage.
Exploitation dun sondage
Dans la population, on va tirer au hasard n individus. Sur cet échantillon, on
va mesurer la moyenne x de X :
(1) x = S xi / n
x est une variable aléatoire, car sa valeur dépend du
choix des individus qui composent léchantillon. Si n est assez grand x suit
une loi de Laplace-Gauss d espérance mathématique x (x
est un estimateur de x). Lestimateur de sa variance est sx2 = s2/n,
où
(2) s2 = S (xi - x)2 /
(n - 1)
est lui-même un estimateur de la variance des xi
dans lensemble de la population P.
Limprécision due au tirage de léchantillon est
donc dautant plus faible que n est plus grand : la précision dun sondage
dépend de la taille de léchantillon, non du taux de sondage.
L " intervalle de confiance à 95 % "
est lintervalle [ x - 2 sx , x + 2 sx ] : cela veut dire que si lon tire un grand nombre
déchantillons, cet intervalle contiendra dans 95% des cas la valeur vraie x.
Ce résultat nest vrai que si léchantillon a bien
été tiré au hasard. Or pour réussir un tirage au hasard il faut suivre un protocole
précis. Si lon fait par exemple un sondage en prenant des personnes au hasard dans
la rue, on risque davoir un biais, dû à la composition sociologique du
quartier, au fait que les personnes âgées ou infirmes ne sortent pas dans la rue, etc.
On gagne par ailleurs en précision si lon stratifie
la population, cest-à-dire si on la divise en sous-populations (strates) soumises
à des sondages séparés : la variance de lestimateur est alors plus faible.
Sondage et source exhaustive
Supposons que lon dispose dune source exhaustive sur
la variable X (on connaît donc x), et que lon réalise un sondage
pour estimer une autre variable Y. Il sera alors intéressant dobserver aussi la
variable X sur léchantillon, car si Y est corrélée avec X on pourra améliorer la
précision de lestimation de y.
Lestimation du " coefficient de corrélation de
X et de Y " est :
(3) r (X, Y) = S(xi - x)(yi - y)/sXsY
On améliore lestimation de y en utilisant non y =
S yi / n, mais :
(4) y = ax + b,
où a et b sont les coefficients de la régression de Y sur X
estimés sur léchantillon (cf. indications sur la
régression).
En effet, lespérance de y est y,
y est donc un estimateur de y ; sa variance est :
(5) sy2=
sy2 (1 -
r2)
Si X et Y sont corrélés (
Si X et Y sont corrélés ( r2 proche de 1) y est un estimateur plus précis que y.
Pour calculer y et estimer sa précision, on
procède donc ainsi :
estimer a et b par régression de Y sur X sur
léchantillon ;
calculer y par (4) ;
estimer la corrélation de X et Y par (3) ;
calculer la variance de y par (5).
Grâce à ce résultat, on peut améliorer la précision des
sondages en utilisant les informations fournies par une source exhaustive. La connaissance
exhaustive sur certaines données permet ainsi daméliorer celle des données
observées par sondage, dans la mesure où ces dernières sont corrélées aux données
connues de façon exhaustive.
Ce gain en précision peut être utilisé soit pour améliorer
les estimateurs pour une taille déchantillon donnée, soit pour diminuer la taille
de léchantillon et alléger le sondage tout en préservant sa qualité.
|