/misc
Navigation

Prédire la coupe du monde

Coup d'oeil sur cet article

Oublions un instant la politique (après tout c'est l'été et nous venons d'avoir des élections au Québec et en Ontario, alors la prochaine campagne ne sera qu'en 2015 au niveau fédéral; En passant, le dernier sondage Crop montre le PLQ en tête, la CAQ deuxième et le PQ loin derrière. Résultats pas surprenant et en ligne avec le dernier Leger) et parlons foot (ou soccer). Étant Suisse, je suis naturellement un grand fan de ce sport (je regarde aussi le hockey et tennis si vous voulez savoir).

La coupe du monde de la FIFA 2014 au Brésil a commencé il y a un peu plus d'une semaine. Et tout comme nous pouvons tenter de prédire les résultats électoraux, certains essaient de prédire les gagnants de chaque match et du tournois. La plupart des sites offrant ce genre de prédictions le font via des probabilités basées sur des simulations. Tout comme je fais des simulations afin de déterminer les chances de gagner dans chaque comté. La comparaison s'arrête là cependant car la manière d'obtenir ces probabilités est forte différentes. En général, le principe est similaire: faire un classement des équipes on se basant sur les résultats passés et ensuite déterminer des chances de gagner en fonction de ce classement. Regardons les différents classements et prédictions.

1. Le classement FIFA. Il s'agît du classement officiel, mise à jour tous les mois. Il est basé sur les résultats des 4 dernières années et inclut de nombreuses variables (battre l'Allemagne va rapporter bien davantage de points que de battre le Luxembourg; Aussi, plus la différence de classement entre les deux équipes est grande et plus le nombre de points en cas de surprise peut être important. Imaginez un pays classé 100e battant le numéro 1). Ce classement est hautement important car il détermine les tirages au sort pour les tournois FIFA (les équipes sont réparties par niveau afin d'éviter d'avoir un groupe avec trois grosses équipes et un autre groupes avec que de "petites" équipes). Le problème ici est plutôt dans les détails. Il est par exemple possible de perdre des points malgré une victoire! Ce qui est absurde. En raison de ces problèmes, le classement a souvent l'air un peu fou. Mon pays natal, la Suisse, est actuellement classé 6e au monde! C'est complètement ridicule d'imaginer qu'elle se trouve devant l'Italie ou les Pays-Bas par exemple.

Voici le top 5:

1. Espagne

2. Allemagne

3. Brésil

4. Portugal

5. Argentine

Pour rappel, l'Espagne est déjà éliminée de cette coupe du monde (et elle perdra donc beaucoup de points) alors que le Portugal a très mal commencé. Néanmoins, vu que l'Espagne est double championne d'Europe en titre et championne du monde en 2010, il était normal de voir ce pays si haut. Cela ne voulait cependant pas dire que ce pays était le favori pour remporter le tournois.

2. Le classement Elo.

À la base un système pour classer les joueurs d'échecs, il a été adapté au foot. Et le consensus est que ce classement est bien plus fiable que celui de la FIFA (ironiquement, la FIFA utilise le système Elo pour le classement féminin...). Bien que le principe soit similaire (une équipe mieux classée est favorite), les détails de la méthodologie font en sorte que le classement Elo semble en effet meilleur. La Suisse ne se retrouve plus 6e mondial en raison de match "faciles" mais seulement 16e, ce qui me semble plutôt juste. Voici le top 5 actuel:

1. Brésil

2. Espagne

3. Allemagne

4. Argentine

5. Pays-Bas

Le trio de tête est le même que pour le classement Fifa, mais l'ordre est différent. Le mauvais côté de ce classement est qu'il est plus rigide. Cela prend bien plus de temps pour monter ou tomber que dans le classement FIFA.

Le système Elo a cela de remarquable qu'il détermine les points en se basant sur les probabilités de gagner. En effet, en se basant sur le classement actuel des deux équipes, Elo utilise une fonction de distribution qui calule le résultat probable. L'exemple sur wiki est très bien fait. Ainsi, si l'Espagne affronte Tahiti, cette première sera largement favorite et en cas de succès ne recevra que peu de points. Également, Tahiti ne perdra que peu de points. Les chances de gagner sont ainsi automatique dans le sens qu'elles sont déterminées par le classement et la fonction de probabilités.

3. Le SPI de Nate Silver. Celui-ci est probablement le classement le plus compliqué. Mais lui aussi a le même trio de tête.

 

Une fois que nous avons un classement, nous pouvons faire des prédictions. Il y a eu beaucoup de sites offrant cela, de Nate Silver (qui utilise naturellement son propre classement comme base) à Goldman Sachs (qui utilise le classement Elo par exemple) ou Bloomberg. Ou encore les nombreux sites de paris (qui n'utilisent pas de modèles bien sûr mais on peut imaginer que les parieurs le font). Je crois que toutes les prédictions ont le Brésil comme grand favori. Ce qui n'est pas surprenant. Ce qui peut l'être cependant est à quel point ce pays est vu comme favori. Nate Silver donne 45% de chances à ce pays, contre seulement 11% à l'Argentine. Goldman Sachs a des chiffres très similaires. Lorsque l'on sait qu'un match de soccer se joue souvent sur un seul but, et en tenant compte des erreurs d'arbitrage ou de la chance, cela peut paraître vraiment élevé. Nate Silver offre une page interactive mise à jour après chaque match quant aux chances de chaque équipe d'accéder au 2e tour. Il est particulièrement intéressant de voir les probabilités mises à jour après le premier match. Dans le groupe G par exemple, Portugal partait 2e favoris, derrière l'Allemagne mais devant les États-Unis. Or, une lourde défaite face aux Allemands (4-0) et une victoire des USA face au Ghana a complètement inversé les chances de se qualifier. Une belle illustration de probabilités conditionnelles pour les fans de statistiques.

Alors, est-ce que ces modèles fonctionnent bien? À date, pas vraiment. Cette coupe du monde offre du beau jeu et de très bons matches avec beaucoup de surprises. Une manière de voir à quel points les probabilités ne sont pas respectées est de comparer les prédictions de Bloomberg aux résultats réels (je ferais volontier cela avec le SPI de Nate Silver, mais une fois le match complété, les probabilités originales ne sont plus disponibles).

Il y a eu 29 matches de joués à date. Sur ces 29 parties, Bloomberg a fait la bonne prédiction dans 12 cas seulement (note: je ne regarde que le résultat, donc victoire, match nul ou défaite, pas la marge de victoire; Aussi, en théorie, prédire une victoire d'une équipe qui perd devrait être vue comme une pire prédiction que s'il y a un match nul mais je n'en tiens pas compte ici). Cela représente 17 erreurs (dans certains groupes, dont celui de l'Italie, toutes les prédictions à date ont été fausses!). Si j'utilisais les prédictions d'un autre site, j'aurais probablement des résultats similaires. Ces surprises sont l'une des raisons pour lesquelles je préfère de loin le soccer au hockey par exemple (une surprise au hockey, c'est quand le Canadien élimine Boston... alors que l'on parle de deux équipes qui dépensent 60 mio de dollars en joueurs... Même aux Jeux Olympiques, on parle d'énorme surprise si la Suisse, 7e mondial, bat le Canada, 1er).

Cela ne veut pas dire que les modèles ou classements avaient nécessairement torts. Bien sûr, si vous aviez prédit que le Costa Rica allait battre l'Uruguay et l'Italie, vous avez l'air d'un petit génie des prédictions. Sauf que vous avez plutôt été très chanceux. Cela revient au même que lorsque j'expliquais que la CAQ n'aurait jamais dû être projetée à 22 sièges lors de la dernière élections (je l'avais à 11, ce qui était une sous-estimation. À posteriori, j'aurais dû l'avoir à 14-15). Tant les sondages que les résultats par régions n'indiquent pas une telle performance. La CAQ a récolté 22 sièges en gagnant à peu près toutes les courses serrées dans le 450. Cela n'était pas probable (encore une fois, même en regardant les résultats de l'élection par région, après tout la CAQ n'était que 3e dans cette région).

Il reste que c'est une chose de se tromper, mais c'en est une autre si les probabilités ne s'alignent pas. Par exemple, le Costa Rica n'avait que 12% de chances de battre l'Italie (selon Bloomberg. Selon le SPI, c'était 30%, ce qui me semble fort élevé). Ce n'était ainsi pas impossible. Mais sur l'ensemble de la coupe (64 matches), l'échantillon est assez grand pour que les probabilités soient valides. Tout comme il est possible qu'un candidat avec moins de 5% de chances gagne son comté (par exemple la CAQ dans Masson), mais parmi les candidats entre 0 et 10%, ils ne peuvent/doivent pas tous gagner. Si cela arrive, le modèle n'était pas valide. Dans le cas du soccer, si ces surprises continuent, il faudra surement se dire qu'il y avait bien davantage d'incertitude que ces modèles le laissaient entendre. Encore une fois, avoir un pays avec près d'une chance sur deux de gagner ce tournois me semble un peu absurde. Je sais bien qu'il n'y a réalistiquement que 5-7 pays qui peuvent gagner (Brésil, Argentine, Espagne, Allemagne, Pays-Bas, France, Italie, etc), mais je pense que les chances de ces pays sont davantage égales que ce que les prédictions nous indiquent. Le nombre de matches sur lesquels on peut se baser pour créer ces classements et prédiction reste faible après tout. Et je ne crois pas que ces modèle reflète cette incertitude correctement. Cela ne veut pas dire que nous devrions seulement nous baser sur notre instinct cependant (cet article est un bon exemple de ce que nous ne devrions pas faire, malgré le fait que l'auteur a quelques bons points).

N'oublions pas que ces modèles pour le soccer en 2010 ne pouvaient faire mieux que la fameuse pieuvre! Je devrais peut-être trouver un animal pour la prochaine élection!

Pour ma part, je vais continuer de regarder cette extraordinaire coupe du monde et espérer que mon pays, la Suisse, se remettra de la raclée reçue contre la France.

5 commentaire(s)

Nelson dit :
22 juin 2014 à 9 h 41 min

Alelmagne, Bresil, Hollande,sont les favoris, suivis par le Chili, Argentine, Italie , Colombie, Uruguay, Mexique, Costa Rica.

vonGrubben dit :
23 juin 2014 à 7 h 24 min

j'adore!!

Giosling dit :
23 juin 2014 à 11 h 47 min

En utilisant les titres ci-haut, "Si la tendance se maintient' et "prédire la coupe du monde", je vais me risquer une prédiction, surveillez les comptes de banque des arbitres et l'équipe qui va le plus engraisser ces comptes va reporter le mondiale.

Bon blague à part, même si je suis mi-sérieux mi-blagueur, il sera difficile de prédire qui va l'emporter, des têtes d'affiche ont tombés et ceux qu'on ne voyait pas là y sont toujours, rendu à ce niveau, la coupe peut aller à n'importe quelle équipe qui est encore dans la course.

carlos dit :
23 juin 2014 à 14 h 54 min

Le Brésil ou l'Argentine. L'Europe n'est pas dans le coup malgré que l'Allemagne ou les Pays Bas seront de la final. Ce qui est vraiment drôle c'est le fait qu'au Québec personne parlait de la Coupe du Monde il y a 20 ans. Il fallait avoir le câble pour pouvoir voir un match. Maintenant, tout le monde en parle !

Julian dit :
23 juin 2014 à 20 h 42 min

Voilà Bryan. Je viens de lire ton meilleur billet à vie! Excellente analyse. :)