L’économétrie expliquée à ma mère (III) : les biais de sélection, ou : causes et conséquences de l’allemand LV1

Leave a comment

24/05/2017 by Econome

NB : je suis bien consciente que les billets I et II n’ont pas encore été publiés, ni même écrits ; ils le seront… un jour, et si possible dans l’ordre, mais le pataquès autour du bac ES m’a montré que celui-ci était probablement le plus urgent. Les deux précédents ne sont de toute façon pas prérequis pour la lecture de celui-ci ; par ailleurs, il ne contient aucune équation.

Un des problèmes fréquemment rencontrés par les économistes effectuant des recherches empiriques, comme par les instituts de sondage (encore que, ceux-ci étant souvent moins attachés à la vérité que les premiers, et se trouvant bien contents d’avoir un prétexte tout trouvé pour faire de la bouillie de résultats) réside dans l’incertitude sur la qualité des données qu’ils utilisent, ou plus fréquemment encore la certitude que ces données sont de mauvaise qualité.

I- la représentativité n’est pas qu’un problème syndical

N’ayant pas la possibilité d’interroger l’ensemble de la population (au sens large du terme : il peut s’agir de poissons dans un étang) concernée par le phénomène qu’ils étudient, ils doivent se contenter d’un échantillon, idéalement « représentatif » mais qui peut fort bien ne pas l’être. En tant que tel, ce n’est pas forcément très dommageable : il suffit d’appliquer la « méthode des quotas » : elle consiste à recueillir auprès des individus interrogé des données objectives (sexe, âge, lieu de résidence, revenus du foyer, niveau d’études, catégorie socioprofessionnelle, degré de brillance des écailles pour les poissons…) dont on connaît grâce à l’INSEE la répartition dans l’ensemble de la population cible (type : Français de plus de 25 ans, population active, saumons de moins de 3 ans…), puis à pondérer les réponses de sorte que la répartition pondérée finale reflète celle de la population cible.

Le problème est que cela est bel et bon, mais repose sur une hypothèse implicite qui est que le réponse apportée par l’individu dépend uniquement des caractéristiques utilisées pour la pondération, plus un « facteur chance », et que la prise en compte de ces caractéristiques suffit à retrouver l’ensemble de la population. Autre version de cette hypothèse : la réponse apportée dépend des caractéristiques de pondération, plus d’autres qui sont appelées « non observables », plus un facteur chance, mais on considère que pour les caractéristiques « non observables » l’échantillon est représentatif. Or, songeons par exemple aux sondages effectués par téléphone fixe et en journée uniquement, alors qu’à l’heure actuelle une partie de la population française n’a aucune chance de se trouver auprès de son téléphone fixe à cette heure, à supposer qu’elle en ait un (ou aux sondages en ligne) : cela ne pose pas de problème si l’on admet que le fait d’être actif occupé ou de n’avoir qu’un téléphone portable n’influe pas sur la réponse qui sera donnée – mais est-ce vraiment le cas ?

Parfois, les problèmes de données sont également dues à la réaction du chercheur devant son échantillon : si la pratique consistant à éliminer des points paraissant aberrants (les outliers) en considérant qu’ils relèvent d’une erreur est fréquente et justifiée, elle peut parfaitement conduire à ôter de l’échantillon, à la base représentatif, des individus qui y avaient toute leur place, et donc à le biaiser a posteriori.

II- quel est le niveau d’études de mon grand frère ?

Parmi les autres problèmes de données, citons les erreurs de mesure. Il s’agit du biais engendré par l’existence d’erreurs dans les réponses fournies par les individus, qu’elles soient conscientes (il convient de réestimer les résultats obtenus sur données brutes en tenant compte du fait qu’il est difficile d’avouer un comportement « déviant », que ce soit un vote pour le Front National, la prise de drogues ou le port de mocassins à gland – les poissons, heureux peuple, ne sont évidemment pas concernés par le problème), ou inconscientes, parce que la question est mal posée (ou orientée, on peut souvent s’interroger) ou parce qu’ils ignorent la vraie réponse. C’est rarement le cas pour la partie « opinion », mais ce peut l’être pour la partie « caractéristiques » (Jean-Edouard a un jour répondu à la partie « revenus du foyer » d’une enquête téléphonique en confondant euros et francs, ce qui m’a fait bien ricaner), voire pour des questions qui constituent le coeur de l’enquête.

Ceux qui travaillent à partir des données de l’enquête Emploi INSEE (enquête annuelle réalisée au mois de mars et de taille gigantesque, tant par le nombre d’individus interrogés que par celui des questions auxquelles ils ont à répondre, rien à voir avec le pauvre recto-verso pour le recensement) le savent bien, qui sont souvent confrontés à des problèmes d’absence de réponses, voire des réponses parfaitement incohérentes (nous avons par exemple repéré des individus effectuant un stage conventionné par leur établissement d’études, mais qui ne suivaient pas d’études, et avaient d’ailleurs 50 ans et un CDI – et ils étaient loin d’être les plus kafkaïens).

La réponse à certaines questions est d’ailleurs moins directe qu’il y paraît, y compris pour des parcours spécialement balisés : ayant étudié 6 années (toutes sanctionnées) depuis mon baccalauréat, mais allant être diplômée d’un titre visé comme Bac+5 par l’Etat, dois-je renseigner 5 ou 6 années d’études post-baccalauréat ? si j’étais interrogée par l’INSEE, j’aurais tendance à répondre 5, mais qui dit que c’est là la « vraie » réponse ? Si je suis assistante de direction, tendance « bras droit » du patron rémunérée à 45 000 euros, suis-je « secrétaire » ou « cadre » ? les deux interprétations tiennent la route. C’est d’ailleurs une des raisons pour lesquelles, contrairement là encore au recensement, un enquêteur de l’INSEE vous aide à remplir l’Enquête Emploi.

Mais, me direz-vous, que diable mon grand frère vient-il faire dans tout cela ? la réponse se trouve dans cet article d’O. Ashenfelter et A. Krueger (la version proposée en lien est esthétiquement navrante, mais gratuite). Comme beaucoup d’autres auteurs, A&K se proposent d’estimer le « rendement économique de l’éducation », autrement dit d’évaluer le surcroît de salaire que procure le fait d’avoir effectué une année d’éducation supplémentaire. S’ils effectuaient une régression classique (cf « L’économétrie expliquée à ma mère, I »), leurs résultats seraient biaisés par un problème de variables omises (bis repetita : pour faire simple, le fait de suivre des études est probablement corrélée à un « don », qu’ils appellent ability, évidemment inobservable, et qui est peut-être ce qui est réellement valorisé par les employeurs, plutôt que l’éducation qui ne serait que son symptôme) et par des erreurs de mesure, du type cité plus haut.

La solution qu’ils proposent à ces problèmes est… originale : leur équipe a choisi de réaliser des entretiens uniquement à Twinsburg (Ohio) lors du Twins Day Festival annuel, sorte de grand raout organisé par des jumeaux pour les jumeaux. L’hypothèse sous-jacente étant que deux jumeaux ont forcément la même ability (je ne me prononce pas sur la validité…), à condition tout de même qu’ils soient monozygotes, le problème de variable omise était élégamment réglé. Tant qu’à faire, se sont dit A&K, autant résoudre le second en prime : puisque j’ai toutes les chances de me planter sur mon niveau d’études, pourquoi ne pas me demander plutôt quel est celui de mon frère, qui pendant ce temps renseignera le mien (plus précisément, ils utilisent comme « vrai » niveau d’études la moyenne entre celui renseigné par l’individu et celui renseigné pour lui par son jumeau) ? Certes mon frère aîné m’a précédée de deux années, mais ça marche pareil. Le lecteur de cette note jugera s’il est convaincu par ce remède – pour ma part, j’aurais plutôt tendance à dire que si quelqu’un a un parcours scolaire suffisamment chaotique pour ne pas connaître son propre niveau d’études, il est douteux qu’un autre que lui-même en donne une meilleure estimation…

Exercice pour vérifier que vous avez bien suivi : tel que je l’ai sommairement résumé ici, quels autres problèmes pose cet article ? [NB : exercice réservé aux vrais néophytes, pas aux grands modestes, Gizmo on ne triche pas !]

III- le biais d’auto-sélection : les gens y font rien que faire des choix !

Nous en arrivons à un troisième biais, qui quoique proche de celui évoqué plus haut à propos de l’ability n’est cependant pas identique, et mérite un traitement spécial : le biais d’auto-sélection. Il s’applique plus spécialement quand on veut évaluer l’effet d’un « traitement » (une année d’éducation supplémentaire, le fait d’être allé à la crèche, un nouveau médicament contre le rhume des salmonidés…) sur la population cible.

La mesure intuitive de l’effet de ce traitement consiste à mesurer le phénomène étudié (salaire, niveau de sociabilité, pourcentage de malades parmi les poissons) d’une part sur les individus « traités », d’autre part sur les individus « non traités », et de mesurer l’effet du traitement comme la différence entre les deux.

Le problème est que cette mesure repose sur une hypothèse implicite : que, en l’absence de traitement, les « traités » se seraient comportés comme les « non traités ». Ce qui est acceptable s’il s’agit de poissons pêchés au hasard, vaccinés puis rejetés dans l’étang, mais franchement discutable lorsque l’on parle d’humains. Ainsi, on observe que les bacheliers technologiques réussissent moins bien à l’université (et même en BTS ou IUT, sections pourtant a priori conçues pour eux…) que les bacheliers généraux. Faut-il en déduire que le traitement « faire un bac techno » est en soi mauvais, et que n’enseigne dans les sections technologiques que la lie de l’humanité ? Ou bien plutôt que ceux qui vont en première technologique sont, dans leur majorité, des élèves qui n’étaient pas acceptés dans la filière générale, donc moins « bons »/ travailleurs/ académiquement brillants à la base (sans compter que les « bons » qui souhaitent s’orienter vers une filière techno en sont souvent dissuadés, puisqu’ils « méritent » une filière générale) – et dans ce cas, il est tout à fait plausible que la filière technologique les fasse réussir mieux qu’ils n’auraient réussi sans elle, sans pour autant les ramener au niveau académique de leurs camarades bacheliers généraux ? [Exercice : à partir de ce paragraphe, montrer pourquoi le bac ES n’est pas forcément une blague].

Il y a bel et bien « autosélection » : les « moins bons » choisissent en moyenne de recevoir le traitement « filière technologique », tandis que les « meilleurs » choisissent le traitement « filière générale ». Dès lors, une comparaison brute des résultats des deux filières n’a aucun sens. Autre exemple, que vous pourrez approfondir en long, en large et en travers dans de nombreux posts d’Ecopublix : récemment, le président de la République s’est plaint de ce que le « congé parental » privait la France d’un nombre important de jeunes mères potentiellement actives mais qui devaient rester à la maison pour changer les couches (ah non, ça ce sont les instituteurs, pardon…). Supposons que nous souhaitions évaluer le « coût » pour la société de cette immobilisation, afin par exemple de déterminer dans quelle mesure il vaut la peine de créer de nouvelles places de crèche, de subventionner les « nounous », etc… Une mesure « naïve » serait de prendre le salaire moyen des jeunes mères d’enfants de moins de 3 ans, qui est censé mesurer leur productivité et de le multiplier par le nombre de jeunes mères bénéficiant d’un congé parental. Le problème est que là encore, rien ne garantit que la population « jeunes mères ayant repris leurs emplois » et celle « jeunes mères ayant choisi le congé parental » est homogène : il est probable que la seconde contient en proportion un nombre plus important de femmes peu qualifiées ou peu rémunérées, pour qui le coût d’opportunité du congé parental est nettement moindre que pour les premières.

Conclusion : mais pourquoi le titre de ce billet ? [Indice : la réponse n’est pas que je suis fan de Tokio Hotel…]

Licence Creative Commons – Auteur:Emmeline Travers-Cоlliard

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *