Le calcul électoral: note méthodologique
Coup d'oeil sur cet article
Le calcul électoral est un site interactif qui fournit au jour le jour des estimations des intentions de vote et du décompte des sièges pour les élections du 19 octobre prochain, à partir d'un modèle de projection des résultats de sondages au niveau de chacun des 338 circonscriptions fédérales.
Ce billet présente les grandes lignes de la méthodologie que nous avons utilisée pour concevoir l'instrument de projection des résultats de sondages intitulé «Le calcul électoral», qui paraîtra jusqu'au jour de l'élection sur le site Internet du Journal de Montréal et du Journal de Québec et, à l’occasion, dans les pages de ces quotidiens. J'ai bénéficié pour la réalisation de ce site de l'assistance précieuse de Matthew Pfeffer, statisticien-programmeur, qui a réalisé les analyses et les simulations statistiques, Alexandre Rousseau, du Journal de Montréal, qui a conçu et programmé le site web interactif et Michel Dumais, directeur de la section Opinions du Journal, qui coordonne le projet.
Le but de ce nouvel instrument est multiple. D’abord, il vise à présenter l’ensemble des résultats de sondages publiquement disponibles sur l’élection fédérale en cours de façon claire et facilement accessible, en plus de compléter cette présentation par une estimation de l’impact du niveau d’appui populaire de chaque parti dans chaque région sur la répartition des sièges à la Chambre des Communes.
À toutes les étapes de ce cheminement, nous avons privilégié quatre principes scientifiques de base. D’abord, notre démarche privilégie la transparence. Chacune des composantes de notre démarche est énoncée et chiffrée explicitement, ce qui, en principe, devrait permettre à quiconque souhaite y mettre le temps et les efforts de répliquer nos résultats. Ceci permettra aussi à ceux qui souhaitent critiquer notre démarche de savoir sur quelles bases le faire. Ensuite, dans la mesure du possible, nous avons cherché à faire reposer les principales composantes de notre modèle de conversion des données de sondages en sièges sur des bases empiriques vérifiables plutôt que sur des approximations arbitraires. De plus, nous avons cherché à rendre compte de l’incertitude qui entoure la mesure des principales composantes de notre modèle dans la présentation de nos résultats. Finalement, en tirant parti des possibilités que nous offrent les diverses plateformes de présentation graphique, textuelle et numérique de l’information, nous avons cherché à privilégier une communication claire, accessible et intègre des résultats de nos analyses. Nous sommes bien sûr ouverts aux commentaires des spécialistes, mais surtout des lecteurs et usagers du site Internet du Journal, qui pourront nous aider à en améliorer les diverses composantes.
Un sondage n’est pas une prédiction
L’estimation du vote populaire et la projection du nombre de sièges qui pourraient être gagnés par chaque parti dans un système électoral comme celui du Canada sont des exercices délicats qui doivent être abordés avec prudence et modestie. La première chose à retenir pour le lecteur est que chaque sondage représente non pas une prédiction du résultat final le jour du vote mais un instantané de l’état de l’opinion au moment de la prise du sondage. Évidemment, plus le sondage est rapproché du jour du vote, plus les résultats ont tendance à correspondre à ceux qui se matérialiseront le moment venu, mais les sondages doivent en tout temps être considérés comme des indicateurs de l’état de l’opinion au moment où ils sont tenus et non comme des prédictions des résultats d’une élection à venir.
Plusieurs sondages valent mieux qu’un
Même s’il est rare que les résultats d’un seul sondage correspondent en tous points aux intentions de vote réelles, la plupart des spécialistes s’entendent pour dire que la moyenne des sondages menés par des firmes réputées a plus de chances de se rapprocher de la vraie distribution des intentions de vote qu’un seul sondage isolé. C’est pourquoi les données à la base de nos projections proviennent des plus récents sondages publics. La méthode de collecte et de compilation des données de sondages nationales et régionales ou provinciales est celle qui a été mise au point par Claire Durand, professeure de sociologie à l’Université de Montréal et spécialiste reconnue de la méthodologie des sondages, qui nous a assistés dans la mise sur pied de notre base de données.
Chaque fois qu’un ou plusieurs nouveaux sondages sont rendus publics, une nouvelle estimation est faite qui prend pour point de référence le dernier jour de terrain du ou des sondages les plus récemment menés. Pendant la campagne électorale, tous les sondages publics menés par des firmes reconnues dont le terrain se termine à une date donnée ou lors des six jours précédents constituent la base d’une estimation agrégée. Avant la campagne, les sondages sont moins fréquents et ils sont donc agrégés en fonction d’une période de deux semaines. Quand un ensemble de sondages est constitué, les résultats de chacun sont pondérés dans chaque province ou région en fonction de la proximité temporelle du sondage et de la taille de l’échantillon réel dans cette région. Ainsi, si deux sondages ont été menés le même jour, leur pondération respective sera proportionnelle à la taille de leurs échantillons respectifs.
Un deuxième niveau de pondération à l’intérieur de chaque période tient compte de la proximité des sondages dans le temps. Pendant la campagne, la période d’agrégation est de sept jours. Par rapport à la pondération d’un sondage de taille égale mené le dernier jour de la période, un sondage mené un jour plus tôt est pondéré à 6/7, deux jours plus tôt à 5/7, et ainsi de suite jusqu’à 1/7 pour le premier jour de la période d’une semaine. Avant le début de la campagne, nous avons retenu une période d’agrégation de deux semaines et les sondages y sont pondérés de la même façon (1/14 de moins pour chaque jour de recul).
Les changements de la carte électorale: de 308 à 338 circonscriptions
Avant de passer à la projection des résultats de sondages au niveau des circonscrptions, il faut souligner que les comtés de l'élection de 2015 ne sont pas exactement les mêmes que ceux de 2011. À tous les dix ans, suite au recensement de la population canadienne, une commission indépendante retrace la carte électorale pour refléter le plus adéquatement possible la nouvelle distribution de la population et donner des représentations adéquates aux provinces dont la population a augmenté le plus rapidement. La carte de 2011 comptait 308 comtés et celle de 2015 en compte 338. Le Québec a gagné trois circonscriptions (dans la région de Montréal), l'Ontario en a gagné 15, l'Alberta et la Colombie-Britannique six chacune (voir ici). Dans les autres provinces, des changements mineurs ont aussi été faits pour refléter les déplacements de population. Élections Canada fournit une base de données qui permet de déterminer combien de votes ont été reçus par chaque parti à chaque bureau de scrutin, ainsi que la redistribution de ces bureaux de scrutin dans les nouveaux comtés. C'est à partir de ces résultats transposés à la nouvelle carte que nous calculons les résultats dans chaque circonscription en 2011 utilisés ci-dessous. Les effets politiques de ces changements dans la carte électorale ont été analysés dans un billet antérieur sur ce blogue: "La carte (électorale) maîtresse de Stephen Harper".
Comment passer des sondages aux sièges?
La méthode de projection des résultats des sondages en termes de nombre de sièges est fondée sur la projection à l’intérieur de chaque circonscription des variations dans les niveaux d’appui qu’on peut mesurer par sondage à des niveaux plus élevés (région, province ou ensemble de provinces). Nous retenons comme unité de comparaison les provinces ou regroupements de provinces tels qu’utilisés par les maisons de sondage reconnues (Provinces atlantiques; Québec; Ontario; Prairies; Alberta; Colombie-Britannique). Par définition, une proportion d’intentions de vote mesurée dans une province représente la moyenne des intentions de vote de toutes les circonscriptions de cette province. La même chose est vraie pour un changement des intentions de vote. Comme nous connaissons le vote réel à la dernière élection pour chaque parti dans chaque circonscription et dans chaque province et comme nous pouvons estimer à l'aide des sondages le vote pour chaque parti dans chaque province, nous pouvons estimer une proportion de vote pour chaque parti dans chaque circonscription en supposant que la variation de cette mesure entre la dernière élection et le sondage est plus ou moins uniforme à travers tous les comtés d’une province. Il est également possible que certains facteurs propres aux candidats fassent en sorte qu’ils obtiennent plus ou moins d’appui que la moyenne de leur parti dans la province, et nous tenons compte de cette éventualité aussi.
Nous cherchons donc à établir les paramètres qui lient ces mesures selon l’une des fonctions suivantes (différence ou ratio) :
Différence : VoteEst2015ijk = f [ (Vote2011ijk + (Sond2015jk – Vote2011jk)) + Candidatik ]
Ratio : VoteEst2015ijk = f [ Vote2011ijk * (Sond2015jk / Vote2011jk) + Candidatik ]
Où:
VoteEst2015ijk = Pourcentage de vote estimé au moment du sondage dans chaque comté (i) pour chaque parti (k).
Vote2011ijk = Pourcentage de vote réel à l’élection de 2011 dans chaque comté (i) pour chaque parti (k).
Sond2015jk = Pourcentage des intentions de vote estimé par sondage pour le parti k dans la province j.
Vote2011jk = Pourcentage du vote réel en 2011 pour le parti k dans la province j.
Candidatik = Caractéristiques propres au candidat du parti k dans le comté i (nous avons retenu trois variables, codées 1 si l’attribut est présent et zéro s'il est absent, soit: le candidat est-il le député sortant? Le candidat est-il ou a-t-il déjà été ministre? Le candidat est-il leader de son parti?)
Pour définir cette fonction sur des fondements empiriques solides, nous avons utilisé une base de données incluant toutes les variables pertinentes observables pour tous les candidats des cinq partis majeurs dans tous les comtés pour les trois élections précédentes, de 2006 à 2011. Il s'agit d'abord de comparer le modèle basé sur le ratio et celui basé sur la différence, et ensuite d'évaluer si les trois variables retenues pour les candidats ont un effet sur les données réelles.
Différence: Voteijkt = a + b1*(Voteijkt-1+(Votejkt – Votejkt-1)) + b2(candidat sortant) + b3(ministre) + b4(leader)
Ratio: Voteijkt = a + b1*(Voteijkt-1 * (Votejkt/Votejkt-1)) + b2(candidat sortant) + b3(ministre) + b4(leader)
Où:
Voteijkt = Pourcentage de vote réel à une élection donnée (temps t) de 2006 à 2011 dans chaque comté (i) pour chaque parti (k).
Voteijkt-1 = Pourcentage de vote réel à l'élection précédente (temps t-1) dans chaque comté (i) pour chaque parti (k).
Votejkt = Pourcentage de vote à une élection donnée (temps t) dans la province j pour le parti k.
Votejkt = Pourcentage de vote à une élection donnée (temps t) dans la province j pour le parti k.
a est une constante évaluée.
b1, b2, b3 et b4 sont des coefficients évalués.
Le modèle qui correspond le mieux aux données réelles est celui qui est basé sur les différences, dans lequel les coefficients des variables "ministre" et "leader" ne sont pas statistiquement significatifs.
Le modèle retenu est donc celui-ci:
Voteijkt = 0,8±0,2 + (0,947±0,010)*(voteijkt-1+(votejkt – votejkt-1)) + (2,2±0,5)*Candidat sortant.
N.B.: Les coefficients évalués ont des marges d'erreur dont nous tenons compte dans l'équation de conversion. Les statistiques sommaires de cette équation sont: R=0,971; R2=0,943; n=3727.
Donc, si nous transposons cette équation à celle que nous avons retenue pour l'estimation, nous obtenons:
VoteEst2015ijk = 0,8±0,2 + (0,947±0,010)*(Vote2011ijk + (Sond2015jk – Vote2011jk)) + (2,2±0,5)*Candidatik.
La prochaine étape est d'introduire une marge d'erreur autour de la mesure d'intentions de vote mesurée par sondage pour chaque parti dans chaque province. Nous n'utilisons pas la marge fournie par la maison de sondages, car celle-ci est basée sur l'échantillon complet et une proportion uniforme nous devons retenir une marge d'erreur différente en fonction d'échantillons de tailles différentes et de proportions différentes (N.B.: à l'intérieur de la marge d'erreur, la plupart des valeurs obtenues sur un grand nombre de répétitions sont concentrées autour du centre selon une distribution dite normale).
VoteEst2015ijk = 0,8±0,2 + (0,947±0,010)*(Vote2011ijk + (Sond2015jk±(1,96*eSond2015jk) – Vote2011jk)) + (2,2±0,5)*Candidatik ; où: eSond2015jk = (p(1-p))/√n
Il y a toutefois quelques exceptions à cette équation. En appliquant ce modèle à quelques résultats récents, nous avons constaté que l'ordre des partis à l'intérieur de chaque comté permet des prédictions assez stables du gagnant entre les partis qui ont une chance de gagner, mais introduit de fortes distortions parmi les petits partis et exagère l'effet de petites différences dans leur cas. Pour les cas où la mesure du vote en 2011 est inférieure à deux fois la différence entre le vote provincial entre l'élection de 2011 et le sondage récent, nous substituons la mesure du ratio à celle de la différence:
Si: Vote2011ijk < (2*(Sond2015jk – Vote2011jk)) alors:
VoteEst2015ijk = 0,8±0,2 + (0,947±0,010)*(Vote2011ijk * (Sond2015jk±(1,96*eSond2015jk)/Vote2011jk)) + (2,2±0,5)*Candidatik ; où: eSond2015jk = (p(1-p))/√n
Pour l'analyse d'un sondage individuel, la taille de l'échantillon correspond au nombre réel d'entrevues; pour une agrégation de sondages, nous utilisons non pas le nombre cumulé mais le nombre moyen d'entrevues, ce qui évite de trop rétrécir la marge d'erreur.
La prochaine étape consiste à produire 10 000 estimations simulées de la variable VoteEst2015 pour chaque parti dans chaque comté (selon une procédure appelée simulation de Monte Carlo), ce qui nous permet d'obtenir une étendue de résultats possibles selon un très grand nombre de combinaisons de valeurs possibles des coefficients estimés ou des écarts à l'intérieur de la marge d'erreur des données de sondage.
L'application de notre formule donne des pourcentages pour tous les cinq partis majeurs dans chaque circonscription qui reflètent bien leurs positions relatives. Toutefois, nous devons ajuster les résultats pour que le total des pourcentages des cinq partis majeurs soit égal à 100 (les autres partis, qui ont d'infimes chances de gagner, sont exclus de nos analyses).
La compilation des 10 000 résultats de simulation dans chaque comté nous permet d'estimer deux données importantes pour chaque parti: un pourcentage moyen, qui correspond à notre estimé des intentions de vote pour ce parti, et la proportion des simulations où chaque parti arrive en tête, qui correspond à ses chances de gagner. Il est important de noter que cette estimation des chances de gagner n'est pas en soi une prédiction. Cette estimation est valable seulement pour la période du sondage et dépend de l'hypothèse que le mouvement des votes entre l'élection précédente et le moment du sondage est plus ou moins uniforme entre les comtés d'une province ou d'une région. Ce qu'il faut comprendre, c'est que plus deux pourcentages d'intentions de vote sont voisins, plus il y a de chances, étant donné les erreurs inhérentes à nos mesures, que le modèle ait incorrectement identifié le gagnant. Quand les chances de gagner du meneur sont inférieures aux deux-tiers (67%), on peut vraiment dire que la course est trop serrées pour identifier un meneur clair. Entre les deux-tiers et le seuil de 95%, on peut identifier un meneur mais la course reste serrée. Entre 95% et 100%, on peut parler d'un meneur clair mais des changements de tendance juste au-delà de la marge d'erreur pourraient modifier la donne. Lorsque 100% des 10 000 simulations vont dans le même sens, on peut parler d'une très nette avance, qui peut s'avérer insurmontable dans plusieurs cas.
Tenir compte des sondages de circonscription
Dans un certain nombre de circonscriptions, des sondages peuvent être tenus pendant la campagne électorale pour évaluer plus spécifiquement les intentions de vote des électeurs de cette circonscription précise. Ces sondages donnent unindice précieux de l'état de l'opinion de ces circonscriptions et nous en tenons compte de la façon suivante. Pour le jour de la tenue d'un sondage de circonscription, notre estimation est le résultat d'une pondération 50/50 entre les résultats du sondage (en tenant compte des marges d'erreur dans les simulations) et les intentions de vote estimées par notre modèle de projection. Ceci a pour but d'éviter de donner trop de poids à des sondages dont la qualité est parfois mise en doute par certains spécialistes. Pour les dates subséquentes après la tenue d'un sondage de circonscription, nous modifions les intentions de vote pour chaque parti en fonction de l'évolution de leurs appui dans l'ensemble de la province entre le jour du sondage et les jours suivants. Une liste exhaustive et régulièrement mise à jour des sondages dans les circonscriptions est disponible ici.
Quelques exceptions pour les sondages de Nanos
La firme Nanos Research produit des sondages de bonne qualité qui sont diffusés régulièrement au réseau CTV et dans le Globe and Mail. Depuis le début de septembre, les sondages de cette firme sont publiés quotidiennement en raison d'une méthode d'échantillonnage "roulant" où un tiers de l'échantillon est renouvelé à chaque jour pour un total de 1200 personnes interrogées, ce qui permet à cette firme de diffuser un nouveau résultat à chaque jour. Toutefois, comme l'échantillon ne se renouvelle dans les faits qu'à tous les trois jours, nous avons choisi d'inclure les sondages de cette firme à tous les trois jours. De plus, contrairement aux autres sondeurs, Nanos ne distingue pas les résultats de l'Alberta de ceux des deux autre provinces des prairies. Par conséquent, nous ne pouvons pas utiliser leurs résultats de sondages pour ces trois provinces.
Un instrument et des modes de présentation en évolution
Au fil de la campagne, ce billet sera mis à jour occasionnellement pour refléter des modifications dans notre procédure d'analyse ou nos modes de visualisation des données. N'hésitez pas à nous faire part de vos suggestions pour que nous puissions améliorer la présentation des données.