77
Commentaires

Sondages Le Pen et Mélenchon : pourquoi le bug ?

400 sondages politiques ont été publiés avant le premier tour de l'élection présidentielle. En 2007, il n'y en avait eu qu'environ 300, et 200 en 2002. Cette profusion d'enquêtes d'opinion n'a pas permis aux sondeurs d'anticiper avec beaucoup plus de justesse que les années précédentes les scores obtenus par certains candidats dimanche, 22 avril. Le résultat de Marine le Pen a été largement sous-estimé par la plupart des sondages les plus récents, et celui de Jean-Luc Mélenchon clairement surestimé. Pourquoi ? Les sondeurs, interrogés par @si, sont partagés.

Derniers commentaires

Une question pour ceux qui s'y connaissent en statistiques.
BVA travaillait pour le Parisien sur un échantillon de 2161 personnes, ce qui était censé restreindre la marge d'erreur: celle-ci devait, selon eux (cf document que je donne en lien) être réduite à 1,8 (au lieu de 2,5 sur des échantillons de 1000 personnes).
Or leur dernier sondage avant le 1er tour indiquait ceci: Hollande: 30 Sarkozy: 26,5 Le Pen : 14 Mélenchon: 14

Bref, plantage assez manifeste. Alors que la Sofres, dans le document montré par Dan, était plus proche de la réalité finale: Hollande: 27 Sarkozy: 27 Le Pen : 17 Mélenchon: 13

Est-ce à dire que pour BVA la méthode de constitution de l'échantillon, de "cuisiner" le sondé, de redresser les chiffres était pourrie?
De plus, est-ce que leurs calculs en fonction des catégories sociales ne sont pas désuets (cf post de Cécile Clozet)

Comment se fait-il aussi que le même institut pour le 2e tour passe de FH 57/NS 43% la semaine dernière à FH 53/NS 47% cette semaine, alors que les prévisions pour le 2e tour sont censées être plus béton et plus fiables?
il me semble que les écarts dans l'estimation des résultats du fn tiennent moins à un problème d'efficacité technique des instituts de sondage qu'à un aveuglement sur les profondes mutations sociologiques de ces dernières années.

La mobilité interne des français a explosé : les pauvres sont rejetés au delà des banlieues, vers des zones périurbaines récemment encore considérées comme des zones "rurales"... la composition socio-économique de ces communes est bouleversée, et donc la structure des votes. Les petits bureaux qui ferment à 18:00 heures ne votent plus du tout comme il y a 5 ou 10 ans, et faussent les estimations à partir des premiers résultats.
Donc les journalistes, suivant les sondeurs et leurs sondages, avec aussi les analystes politiques, les intervieweurs, les éditocrates, les présentateurs télés, répètent pendant des jours, des semaines, que le candidat Mélenchon va faire " x " %.

A l'arrivée, le score de Mélenchon est de " x-n " %. Et les journalistes, les analystes politiques, les présentateurs etc disent que c'est lui qui s'est planté.
Tout le monde connaît bien la loi de la gravité.
Beaucoup savent que, grâce à cette loi de la gravité, on a pu perfectionner un grand nombre d'objet mécanique. A commencer par les voitures, les avions, etc etc.

Et puis, on connaît un peu moins les lois des la relativité.
Certains en ont entendu parler, assez vaguement. C'est, pour beaucoup, l'histoire d'un homme qui tire la langue, et guère plus. Bref, une histoire de farfelus...

Mais, pour ceux qui travaillent ou ont construit des centrales nucléaires, cette loi a plus de sens. Dit autrement : un/une ingénieur(e) qui construirait des réacteurs nucléaires en appliquant les lois de Newton aux processus atomiques seraient pris pour un/une grand(e) farfelu(e) ; voire un(e) danger publique.

Maintenant, qui connaâit la loi des grands nombres ? Vous savez, l'une de ces lois qui s'appliquent en probabilité - branche des mathématique. Mais, comme toute loi, elle a son champ d'application.

Elle postule la vérité suivante : si on lance un dé à six faces, bien équilibré, bien sous toutes ses formes, si on le lance, disais-je, 1000 fois, on pourrait mesurer certaines fréquences d'apparitions. Si on le lance à nouveau 1000 fois, on aurait d'autres mesures de fréquences. Mais, comme on aurait le temps, on le lancerait 10 000 fois ; puis 50 000 fois, puis 5 000 000 de fois. Et là, on observerait que ces fréquences semblent s'équilibrer... vers une valeur théorique : la fameuse "Une chance sur six".


Mais maintenant, si on observe une situation et que - cela peut arriver, n'est-ce pas - il n'y a pas de valeur de stabilisation, eh ben, il faut l'admettre : la loi des grands nombres ne peut pas s'appliquer.

Ainsi, le regretté Benoît Mandelbrot avait conclu cela au sujet des analyses financières : les cours de la bourses n'obéissent pas à la loi des grands nombres. Le livre "Fractales, hasard et finance (1959-1997)" décrit tout cela très bien.

Alors voilà : les sondeurs ont, sur la base de leur obersation, déduit un certain nombre de mesure... Les extrapolations sont totalement erronées. Ainsi - mais on le sait depuis longtemps, la loi des grands nombres ne peut pas s'appliquer.

Mais plutôt que de les décrire comme des ingénieurs farfelus, on préfère les garder près de nous : leur poésie des nombres est sans limite...

Marc Olive
Mathématicien - Avignon
Sauf que quand la variance et l'espérance sont bornées, la loi des grands nombres s'applique, ce qui est le cas pour la modélisation classique d'un sondage (au contraire des modélisation de variables financières). Laissez donc celle-ci tranquille quand point n'est besoin de la réfuter pour expliquer ces résultats.

Un sondage constitue la mesure d'un paramètre sur un ECHANTILLON de la population. Cette mesure diffère en général de la mesure sur la population totale. Si l'on considérait tous les échantillons possibles de 1000 personnes, on aurait un très grand nombre de mesures différentes.

Les probabilités nous enseignent, grosso modo, que la variabilité de toutes ces mesures dépend quasi uniquement de la taille de l'échantillon. Et que pour un échantillon de 1000 personnes, on a environ 95 chances sur 100 de trouver une valeur pour notre échantillon située à + ou - trois points de la valeur qu'on aurait trouvé pour la population tout entière.

Autrement dit, il reste encore 5% des échantillons qui donnent un résultat éloigné de plus de 3 points de la valeur attendue.
Il suffit qu'un institut de sondage tombe sur un de ces 5% d'échantillon pour que son erreur d'évaluation des intentions de vote de la population soit de plus que 3 points.

Il est à noter que pour une population assez grande, la taille de la population entière n'importe pas : On aurait la même incertitude pour un échantillon de 1000 personne d'un sondage fait sur la Chine, ou un échantillon de 1000 personnes d'un sondage fait sur la France.

Kuk
Citoyen - Paris.
Ainsi :

"Quand la variance et l'espérance sont bornées, la loi des grands nombres s'applique"

J'attends donc la preuve mathématique que dans le cas qui nous occupent ces deux quantités sont bornées... En précisant bien sûr l'ensemble du modèle : univers des possibles, loi de probabilité appliquée (discrète, continue ?).

Si l'idée est d'utiliser une approximation d'une loi binomiale par une loi normale, il y a un autre problème de taille : une loi binomiale ne peut s'appliquer que dans le cadre d'une répétition indépendante d'une même expérience aléatoire, c'est-à-dire un tirage avec remise. Or, le principe même d'un échantillon va à l'encontre d'un tirage indépendant étant donné que l'échantillon a été construit par des éléments dits représentatifs...

Bref, j'attends la véritable preuve mathématique de ce que vous avancez....
1) Ca serait plutôt à vous d'expliquer pour quel modèle vous dites que la loi des grands nombres ne s'applique pas, en précisant bien clairement l'univers des possibles, la loi de probabilité appliquée (discrète, continue) et surtout où vous appliquez la loi des grands nombres.

2) Si vous essayez de m'interroger sur le calcul des intervalles de confiance pour la méthode des quotas; c'est un peu gros. C'est une tambouille complexe dont la marge d'erreur est sujette à discussion, et l'on ne peut certainement pas appliquer les résultats que j'ai indiqués pour un sondage par tirage aléatoire. Dans la pratique, il paraît pourtant que les marges d'erreurs relatives à la méthode des quotas soit plus faible que celles données, pour un échantillon de même taille, par un sondage par tirage aléatoire. La méthode des quotas suppose qu'on peut restreindre l'ensemble des échantillons possibles aux échantillés composés manuellement par certaines catégories sociales, et que l'espérance coïncide avec celle de la population globale et que la variance est inférieure à celle d'un sondage par tirage aléatoire, si l'échantillon est bien "représentatif" (et c'est tout le problème).

3) Pour ce qui est du sondage classique par tirage aléatoire : le paramètre étudié est l'intention de vote pour un candidat donnée. Pour chaque personne interrogée, ce paramètre peut valoir 1 (avec la probabilité p) ou 0 avec la probabilité (1-p). p désigne l'intention de vote réelle de la population entière, exprimée en pourcentage. On associe à un échantillon de N personne la variable aléatoire X, qui suit soit une loi hypergéométrique discrète (pour un tirage sans remise) soit Binomiale (discrète) pour un tirage avec remise, ça n'a pas grande importance vu que la taille de la population est grande par rapport à celle de l'échantillon.

4) Quoiqu'il en soit, les lois sont discrètes sur des univers finis donc l'espérance et la variance sont finies, donc la loi des grands nombres s'applique. Même si en l'occurence, c'est plutôt le théorème limite central qui est utile. C'est pour ça que j'attends précisément que vous m'expliquiez où vous utilisez cette loi des grands nombres.

5) Dans la méthode des quotas, les univers sont aussi finis, et les valeurs prises par le paramètre étudié sont aussi bornées. Donc la loi des grands nombres s'applique. En espérant que vous serez aussi exhaustif dans votre réponse.
attention, il y a plusieurs choses différentes à ne pas confondre :
1 - le sondage, qui a été réalisé jusqu'à l'avant veille (je crois) de l'élection qui est l'interrogation de personnes (par différentes méthodes : téléphone, internet etc) et qui se base sur des intentions de vote déclarées ==> au-delà de l'erreur statistique (dont vous parlez et dont les instituts veulent bien parler... pourquoi ne parlent-ils que de cette erreur là? ce serait une question pertinente à se poser) il y a un risque d'erreur qui provient du 'déclaré' qui n'est pas forcément ce que la personne va réellement faire et c'est là-dessus (aussi) qu'il y a des redressements afin de limiter cet écart entre déclaratif et comportement effectif. Par exemple, avant, on savait que les électeurs du FN ne déclaraient pas facilement leurs votes donc on sur-estimait ces déclarations, le tout est de savoir dans quelle mesure, avec quel poids il faut les surestimer. Aujourd'hui les choses semblent avoir évoluées, mais dans quelle mesure et avec quel poids? je pense que c'est là la difficulté, on reste sur du mouvant...
2 - les 'sorties des urnes' qui sont en fait des estimations à partir de bureaux tests et sur des bulletins de vote dépouillés. , donc des votes réels : et ce sont ces estimations qui ont été fournies à 20h sur les différentes chaines ==> il s'agit ici de bien choisir ses bureaux de vote et d'avoir un 'modele' statistique qui permet d'extrapoler (cela est différent du point 1 même s'il y a un échantillon qui est aussi créé et donc aussi des risques d'erreur)
Ce qui est étrange, c'est que les chiffres sur Hollande et Sarkozy soient assez justes, et pas les autres. Je pense que nous avons été beaucoup à hésiter jusqu'au dernier moment : Mélenchon ou Hollande ?
Mais si un sondeur m'interroge à un moment "m" : je dis soit l'un soit l'autre. Quand les chiffres pour Mélenchon sont hauts, ceux pour Hollande devraient être plus bas.
Compte tenu du résultat définitf du 1er tour, et donc de l'amélioration des redressements à réaliser, est-ce que les instituts de sondage peuvent enfin dire restropectivement si oui ou non les courbes de Hollande et Sarkozy se sont réellement croisées ou pas ?
le vrai bug est que le fhaine fasse quasiment le double du FdG
On peut egalement penser que les sondeurs, toujours si prompts a etre favorables au pouvoir en place, aient surevalue Melenchon essentiellement afin de pouvoir dire au lendemain du premier tour que " ah ben Melenchon s'est bien plante, il a n'a fait que la moitie de ce qu'on pensais etc." et ne considerer son score uniquement sous l'angle de l'echec a seules fin que le PS n'ait rien a conceder a Melenchon.
Il faut que les sondeurs publient les résultats avant et après leurs "corrections" et qu'ils expliquent celles-ci.
Il faut arrêter de biller en tête sur les sondages. Faut-il rappeler que les sondages sont issus d'un calcul statistique le % donné s'inscrit dans un intervalle de confiance (pour la plupart des sondages entre 2,5% et 3,1% pour un intervalle de confiance à 95%. Aucuns sondages ne s'est trompé. Les journalistes et les commentateurs ont une grande part de responsabilité sur ce sentiment général que les sondages "nous trompent"
Il est par contre plus inquiétant d'entendre les commentateurs politiques dire que le FN entre 2002 et 2012 a progréssé de plus de 900 000 voix en oubliant de compter les voix de B.Megret qui en 2002 avait réalisé près de 400 000 voix!
Quand on remarque les bons scores du FN dans des communes rurales dont la population n'a certainement jamais vu un "arabe" ou un "noir" cela en dit long sur cette population rurale et son état d'esprit certes une population qui souffre et qui travaille plus que la moyenne dont les chômeurs de l'unité familiale sont certainement nombreux. On peut comprendre,leur rejet des politiques qui les gouvernent et leur vote FN .
Comme on peut comprendre le désarroi des ouvriers de la sidérurgie qui ne voient les "partis politiques" PS etUMP qu'au moment des élections!
Ifop aussi a été pas mal dans ses prédictions, car certaines boîtes à sondages, dans leur dernière vague, surestimaient mélenchon mais surestimaient aussi la différence entre Holande et Sarkozy.

mon coeur n'est pas à maman Parisot (qui est vice-présidente d'IFOP), mais en ces temps difficiles il est toujours bon de savoir qu'à droite, certains restent honnêtes.
personnellement, pas besoin de sondage, suffit de causer avec les gens de tous les jours, avec ceux qu'on croise un instant au bazar de la vie, de sentir un peu dehors l'air du temps,
Quoi le Pen, et ses 17,9%, ah bon? et alors vous ne saviez pas qu'il y a toujours eu des mecs comme çà, qui se réveillent quand on les existe,

Seulement voilà le drame, nos prédicateurs et leurs oies sauvages sont à leur tour perturbées par les changements climatiques, les madames soleil subissent les caprices de la météo., le phénomène twitter, le scoop qui tire plus vite que son ombre, et ceci et cela,
Que diable ! bâillonnez nos experts qui jactent en continu 24H/24H 365 jours sur 365 jours à tous les endroits de la planète, demandez à Pénélope qu'ils arrêtent de défaire ce qu'ils ont dit la veille? etc.
Étant donné le niveau d'instruction des citoyens français je trouve anormal, comme le génial Astier du reste, que les enquêtes d'opinions politiques soient autorisées. Que se soit pour les médias ou pour les partis d'ailleurs.

J'invite également les asinautes curieux a visionner l'émission "Ce soir ou jamais" du 17 avril.

=> http://ce-soir-ou-jamais.france3.fr/?page=emission&id_rubrique=1556
Il y aussi tout simplement la consigne FN "officielle" à ses partisans de ne répondre que des conneries aux sondages.
Si on tient compte des marges d'erreur certains instituts n'étaient pas si loin que cela de la réalité. Mais chacun en fonction de ses convictions prend les chiffres au pied de la lettre et tant pis pour la marge d'erreur. Par ailleurs compte tenu de la fluctuation des votes, de l'indécision jusqu'au dernier moment, le sondage qui ne reflète que les déclarations un jour bien précis ne peut coller exactement avec la réalité le jour du vote. Il convient à mon avis, d'évaluer les tendances mais en aucune façon penser que nous sommes dans la réalité pure. On finit par donner trop d'importance aux sondages. Pour avoir travailler très longtemps sur des études je sais combien il convient d'être très prudent lorsque l'on ne dispose que du déclaratif sans possibilité de croiser avec du comportement (réel). Pas de faux procès, chacun est responsable de son vote et les sondeurs ne sauraient décider à notre place. Alors pourquoi cette colère de certains contre eux, pourquoi des reproches ?
les instituts de sondages ont manipulés la donne quand melenchon a commencé à monter le placer devant le pen a eu pour effet de pousser les autres aux votes utiles c'est de la manipulation ces instituts sont partisans.
Sur mélenchon je pense que le votutil a joué
et la campagne éhonté des journaux (mélenchon buisson, melenchon bachar el assad etc ...)
sur le pen a partir du moment ou on disait que Sarkozy s'éssouflait dans les sondages, je n'osais le croire mais le sentait venir, en plus quand Sarkozy a apellé les électeurs modem et fn aux vote utile je me suis demandé s'il n'était pas plus bas que ça dans les sondages.
Alors, statisticien de formation, j'ai fait rapidement une analyse des sondages sur mediapart. Grosso-modo, les sondeurs n'ont aucune mesure fiable de l'abstention parce que le taux de participation qu'ils donnent dépend principalement de la méthode de recueillement. Le sociologue Sylvain Crépon rappelle toujours sur Mediapart que "l’électorat frontiste est sociologiquement très proche des abstentionnistes." Il a donc fort à parier que les sondages n'ont pas vu le score de Le Pen parce qu'il n'ont pas vu que l'abstention allait être très basse. Certain avait prévu près de 30% alors qu'elle est plus basse qu'en 2007.

Pour moi, les journalistes préfèrent commenter "la course de petits chevaux" et regardent pas ou peu l'abstention. En conséquence, les sondeurs ne font pas franchement d'effort sur celle-ci, alors qu'elle est aujourd'hui une des composantes majeures d'une élection.
Bizarrement, il me semble que les sondages ont plutôt vu juste !

En réalité, il y a eu aucune surprise dans ce scrutin. Le Pen a principalement récupéré les électeurs qui étaient partis chez Sarko en 2007...
Aujourd'hui tous les élèves de seconde sont censés apprendre en cours de mathématiques le principe de l'échantillonnage, la notion d'intervalle de confiance au seuil de 95% et savoir analyser avec un esprit critique les résultats d'un sondage.

Est-ce trop demander aux journalistes qui nous abreuvent des sondages à longeur de journée d'avoir le niveau d'un élève de seconde sur le sujet?

Cela commencerait par ne plus citer de sondage sans citer aussi les marges d'erreurs.
Je trouve ça un peu fort de parler de 'bug' sur ce résultat, pour le coup je me rangerai plutôt derrière les sondeurs. Vous espériez vraiment que les sondages donnent tous les chiffres à +- 0,5% ? Le message de vendredi était asse clair et concordant avec la réalité de lundi matin. La question reste légitime de pourquoi Lepen a été sous-estimée, mais pour moi ça relève de l'anecdote.
Et ce score de Le Pen qui commence à 20h par un fort médiatique 20% pour ensuite s'effriter, il aurait pas été un peu bricolé pour pimenter la soirée électorale des télés?
je suis pas sûre que ça console. mais les bookmakers anglais, la veille du vote, donnaient la peinehaine 20% et méluche 10% (j'avoue avoir ricané...). donc, la prochaine, au lieu de s'emmerder sur les sondages, regarder les sites des bookmakers !!!! et en plus on peut gagner du fric.
Abonnez-vous

En vous abonnant, vous contribuez à une information sur les médias indépendante et sans pub.