L’économétrie expliquée à ma mère (I) : l’importance d’avoir une Constante

Bonus du jour : un nouveau blog dans la « blogroll », celui d’Arthur Charpentier. Attention, il n’est pas vraiment grand public…

La série de billets que j’ai déjà inaugurée il y a peu vise à exposer sans trop d’équations les bases de l’économétrie, cet ensemble de techniques (au sens noble du terme) qui permettent aux scientifiques d’utiliser les données dont ils disposent pour mesurer des grandeurs, mettre en évidence des relations entre variables ou encore confirmer ou infirmer des théories. Elle se différencie de la statistique stricto sensu en ce qu’elle accorde un poids important à l’interprétation a priori ou a posteriori des modèles mis en œuvre ou mis en évidence.

Quart d’heure culture générale : le mot lui-même semble provenir des termes grecs « oikos », la maison, le foyer (qui a aussi donné « économie », je vois que vous suivez) et « metron », mesure. Ce qui ne veut pas dire grand-chose, et pour cause : le terme d’économétrie a en fait été forgé entre les deux guerres du siècle précédent, par les premiers économètres eux-mêmes, qui souhaitaient à la fois souligner qu’ils s’inscrivaient bien dans la discipline économique (eux-mêmes n’étant pas forcément économistes de formation, d’ailleurs), mais aussi que les concepts mathématiques auraient une place importante dans leurs travaux. L’économie « littéraire » (equation-free, donc) étant à l’époque très largement dominante, les « économètres » étaient alors l’ensemble des économistes qui utilisaient des mathématiques – y compris pour construire des modèles théoriques, et non pas seulement, comme aujourd’hui, ceux qui travaillent sur des données empiriques.

I- Des moindres carrés si ordinaires…

Le modèle le plus basique utilisé en économétrie est appelé régression MCO, comme « moindres carrés ordinaires », ou Ordinary Least Squares (OLS, donc) en version anglaise. Il requiert de disposer d’un échantillon sur lequel on relève la grandeur de certaines variables (variables quantitatives) – on peut également s’intéresser à la présence ou non de caractéristiques (on les appellera alors qualitatives, et on appelle « indicatrice » ou « dummy » la variable qui vaut 1 quand la caractéristique est présente, 0 si elle est absente), mais il n’en sera pas fait mention ici.

L’objectif peut être double : comprendre comment se comporte une variable « d’intérêt » ou « endogène » (disons, le nombre de boulangeries par km(2) que nous noterons bi, où i désigne une des 200 villes françaises présentes dans l’échantillon disponible), et notamment quelles sont ses relations avec d’autres variables (disons la densité de chacune de ces villes, notée di), appelées « explicatives » ou « exogènes », et éventuellement la prédire.

On suppose qu’il y a toujours une densité plancher α (inconnue a priori) de boulangeries, et que ce nombre augmente proportionnellement avec la densité (pas forcément au taux 1 pour 1 – heureusement d’ailleurs : disons au taux β, de sorte que lorsque la densité augmente de 1 habitant, le nombre de boulangeries augmente en moyenne de β. Le « en moyenne » est important : il signifie que même si on admet que c’est bel et bien ainsi que se comporte généralement la variable b, on risque de ne pas observer ce schéma exact dans chacune des données relevées, et qu’il y aura un petit décalage, tantôt positif, tantôt négatif, que l’on nomme « erreur » ou « bruit » et que l’on note généralement ε. Pour les philosophes, ce bruit correspond au passage de la densité de boulangeries du monde platonicien des Idées à la caverne où nous autres pauvres mortels la regardons légèrement déformée… on suppose en outre que les bruits sont parfaitement indépendants d’une ville à l’autre. Par définition, on ne sait pas ce que vaut le bruit, mais on suppose qu’il est aléatoire et que l’on connaît la forme générale de la distribution dans laquelle il est tiré (le plus souvent une loi normale ou gaussienne, la fameuse « courbe en cloche »).
Notons que de même que les femmes ont en moyenne 2,06 enfants en France si ma mémoire est bonne (cocorico, nous nous renouvelons presque !), il n’est nullement requis que α ou β soient des nombres entiers.
Cette hypothèse revient à exprimer bi = α + β di + εi

C’est déjà un bon début, mais α et β sont encore inconnus. La suite consiste à se dire que pour que le modèle soit aussi « bon » que possible, il faut que les erreurs observées (les décalages entre modèle et réalité observée, les « résidus » qui valent bi – α – β di) soient en moyenne nulles (si en moyenne elles valaient un certain réel, ce réel devrait être incorporé dans α), et si possible les plus petites possibles. Une première solution consisterait à choisir les α et β qui minimisent la somme des valeurs absolues des résidus. Elle tient la route(1), mais afin d’éviter autant que possible les grandes erreurs, on les surpondère en choisissant de minimiser plutôt la somme des carrés des résidus. D’où le nom de la méthode, facilement extensible à un plus grand nombre de variables explicatives.

Et pourquoi le titre du billet ? outre l’appât à mère, il provient du fait qu’un modèle d’où le α (la « constante » du modèle) serait absent serait largement faussé (aucun moyen d’assurer une moyenne nulle des résidus, par exemple).

II- Le R2, ou les combats de coq

Que peut-on tirer de cette régression ?

Des éléments de comparaison, d’abord : mettons que je souhaite ouvrir une boulangerie (un de mes rêves secrets), mais que, comme je ne crois pas à la théorie de la douche froide, je ne sois pas prête à être confrontée à une concurrence trop rude. Si je crois que le modèle posé ci-dessus est valide partout en France, ce qui n’a rien d’évident, je peux par exemple l’utiliser pour compter le nombre de boulanges ayant déjà pignon sur rue dans ma ville, obtenir de l’INSEE sa densité en habitants, et en déduire si il y a, ou non, déjà « trop » de boulangeries dans le coin par rapport à une concurrence « normale ».

Des éléments de prédiction, ensuite : si mon rêve secret est plutôt d’être élu maire de ma commune, et que je veux évaluer quel électorat représentent probablement les mitrons (par exemple pour savoir à qui je dois promettre une subvention exceptionnelle, d’eux ou des charcutiers), il me suffit là encore de connaître la densité des habitants dans la commune, information beaucoup plus facile à acquérir. Evidemment, tout cela prend une tournure nettement plus glamour lorsqu’on remplace « nombre de boulangeries » par « nombre de points de croissance l’an prochain » et « densité » par « TVA mensuelle collectée » (par exemple).

Connaître la fiabilité de ces prévisions requiert d’évaluer la validité du modèle, et plus précisément jusqu’à quel point il rend compte des variations de la variable d’intérêt. On utilise pour cela le « R-carré », c’est-à-dire le ratio entre les différences à la moyenne bel et bien expliquées par le modèle (la « somme des carrés expliqués », qui vaut la somme de (nombre de boulangeries prévu par le modèle – nombre moyen de boulangeries)(2)) et les variations totales effectivement observées sur notre échantillon de 200 villes (même formule, mais au lieu d’utiliser le nombre prévu, on utilise le vrai nombre relevé). Il est par construction compris entre 0 et 1 – plus il est élevé, plus le modèle est efficace comme prédiction.

Attention : le R2 est assez traître, car il augmente mécaniquement dès que vous ajoutez une variable explicative, même si elle n’a en fait aucun intérêt pour le modèle (dans un cas extrême où il y a autant de variables explicatives que de données, le R2 vaudra 1, même si le modèle sous-jacent n’a ni queue ni tête). On l’ajuste donc parfois, pour tenir compte de cette
difficulté, en utilisant la taille de l’échantillon et le nombre de variables explicatives.

A partir de quel R-carré peut-on considérer que le modèle est bon ? c’est assez difficile à dire, et je me souviens de mon effarement lors de mon premier cours d’économétrie (où j’avais débarqué en milieu d’année) à la découverte des chamailleries entre Jean-Edouard et Damien, se battant à coups de R et de « mon modèle est meilleur que le tien, pauvre mauviette » (j’exagère à peine). Il me semble que celui de Damien était, à nombre d’explicatives égal, plus élevé de 0,02% – mais que comme le R-carré total n’était de toute façon que de 14%, on pouvait légitimement dire que ni l’un ni l’autre n’avait [encore] révolutionné la prévision du taux de chômage. Les demoiselles étaient d’ailleurs, comme souvent, nettement plus lucides, ayant déjà compris que le R n’était de toute façon plus l’enjeu – comme nous le verrons au second épisode, afin de ne pas faire arriver Pierre en retard après la récréation.

(1) Ici, commentaire de Jean-Edouard qui ne s’était pas posé la question avant : « en fait c’est intéressant cette question du critère utilisé, au fond on peut choisir de minimiser n’importe quelle fonction qui croît avec la valeur absolue de chacun des εi. Pourquoi pas une somme pondérée des logs des valeurs absolues des εi par exemple ? On pourrait aussi minimiser une telle fonction sous la contrainte qu’aucune erreur ne soit plus importante qu’un certain seuil etc etc. Ce serait rigolo de voir si ça change beaucoup les résultats. » Effectivement, c’est un sens de l’humour selon mon cœur.

Licence Creative Commons – Auteur:Emmeline Travers-Cоlliard

Be the first to comment

Leave a Reply

Votre adresse de messagerie ne sera pas publiée.


*