27
Commentaires

Données, tableaux : attention à la noyade !

Commentaires préférés des abonnés

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été disc(...)

Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphique(...)

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est da(...)

Derniers commentaires

Bonjour,
Je ne sais pas si ça correspond à la demande, mais ce dont vous parlez m'évoque tout simplement les méthodes d'analyse par correspondances multiples : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples
En sociologie, les travaux de Bourdieu s'appuient largement sur cette méthode. Le schémas suivant est un exemple simplifié de  : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples#/media/Fichier:ACM_fig1.jpg

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est dangereuse d'ailleurs. Elle induit en erreur. 


"Tous les modèles sont faux, mais certains sont utiles". J'aime l'humilité de cette phrase que j'ai apprise en me formant à l'apprentissage automatique. 



Christophe Barbier l'illustre à ses dépens à travers ce récent tweet où il met côte à côte deux graphiques qui montrent une corrélation apparente entre deux données observées. Il pousse la malhonnêteté jusqu'à laisser le soin aux autres utilisateurs de tirer la conclusion par eux-mêmes. Soit dit en passant : y a-t-il plus malhonnête intellectuellement que ce type? 


 


On peut aussi choisir de s'arrêter sur quelques chiffres .


Parmi ces chiffres , ceux-ci : 11 662 résidents en Ehpad sont décédés du coronavirus .



Un quart sont décédés à l'hôpital (3091) et trois-quart dans leur établissement ( 8876) 



Près de 17000 personnes travaillant en Ehpad ont contracté ce coronavirus ( confirmé par test)  .


Début Mars  2020 les stocks de masques ont été réquisitionnés par décret . y compris ceux détenus par les Ehpad qui pour certains avaient des FFP2 .


Puis des masques ont été redistribués aux EHPAD, mais pas les FFP2 .


Et quand des médecins de patients résidant en EHPAD ont demandé à ce qu'ils soient hospitalisés  pour cause de suspicion de contamination au Covid, certains hôpitaux ont refusé : c'est ce que disait une  invitée dans l'émission consacrée aux Ehpad la semaine dernière . 


Et ces chiffres semblent confirmer ce qu'elle disait :


3/4 des personnes décédées pensionnaires d'un EHPAD sont décédées dans leur Ehpad . 


D'où ces deux questions : 


- des hôpitaux ont-ils refusé  des malades du covid parce qu'elles vivaient en EHPAD ? 


- pourquoi a-t-on réquisitionné le matériel de protection du personnel travaillant en EHPAD puisque l'exposition au virus y est la même qu'à l'hôpital ?


Merci pour la rubrique en général.

Une petite suggestion à Jean-Lou qui a dit chercher des façons de rendre graphique la perception d'un monde complexe: Il y a longtemps, quand j'enseignais encore, j'avais (en partie à la main !) fait des graphiques associant empreinte écologique et Indice de Développement Humain. Ceux-là datent de 2003 et mériteraient une actualisation, mais je laisse ça à d'autres plus exercés en traitement des données.

Un peu rapide le débit, Jean-Lou....

Pour répondre à la question posée par Jean-Lou Fourquet sur l'erreur... Je trouve moi aussi plutôt 0,17 MBytes/seconde/humain

* 40 zettabyte = 40 × 10^21 bytes.       (10 puissance N est noté 10^N)

* Une année = 365 jours de 24 heures

                        = 8 760 [365 × 24] heures de 3 600 secondes (60 minutes × 60 secondes / minute)

                        = 31 536 000 [8 760 × 3 600] secondes, soit 31,536 × 10^6 secondes.

* La division de 40 zettabyte par une année donne donc:

(40 × 10^21 bytes) / (31,536 × 10^6 secondes) = 40 / 31,536 × 10^15

                                                                                  = 1,27 × 10^15 bytes/seconde.

* A diviser par le nombre d'humains sur Terre, soit d'après Wikipedia 7,55 milliards (7,55×10^9) :

=> (1,27 × 10^15 bytes/seconde) / (7,55 × 10^9 humain) = 1,27 / 7,55 × 10^6 

                                                                                                   = 0,168 × 10^6

                                                                                                   = environ 168 000 bytes (soit 168 kbytes ou 0,168 Mbytes) par seconde par humain.

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été discutée pendant des siècles, voire des millénaires, dans des quantités d’ouvrages constituant une masse de données importante, même si elle semble ridicule comparée à nos masses de données actuelles.


Il n’empêche que toutes ces données se résument en une seule et unique information, tenant en une seule et unique phrase :

Les corps s’attirent en proportion inverse du carré de leur distance.


C’est tout…


Pour moi, qui ai eu l’occasion de professionnellement travailler sur des données de très gros volumes, je sais combien malgré les moyens mis en œuvre, les résultats peuvent être décevant, très souvent en deçà de ce que l’on pouvait en espérer.


Pour exemple, la connaissance de sa clientèle locale par un commercial sera toujours très supérieure à tout ce que pourra produire n’importe quel moteur d’extraction de Big Data, peu importe la taille des bases, même avec traitement en IA. Pour la raison toute simple, que le cerveau de notre commercial saura croiser des informations totalement inaccessibles aux machines, même en traitements informels par réseaux de neurones.


Comme par exemple une tâche d’œuf sur la cravate de l’ami du client, induisant un rejet de la femme du gars qui a vu l’ours, modulant un affectif inconscient chez le frère du père du capitaine, propre à modifier les conditions de signature du contrat…

… Sans compter qu’il est strictement impossible d’effacer les fameuses données RGPD dans la tête de notre brave commercial, sauf à le lobotomiser.


Bref, la règle est la suivante :

- Pour pouvoir traiter de grandes masses de données, il faut pouvoir les systématiser.

- Pour les systématiser, il faut pouvoir concevoir le système au préalable.

- Or, pour concevoir le système, il faut déjà avoir une idée du résultat que l’on en attend.

- Ce qui signifie que ce que l’on va demander au système, c'est de nous conforter dans nos préjugés.


Et ça, c’est très dangereux…


Pour résumer :

On ne peut voir ou entendre que ce qui nous confirme dans ce que l'on a déjà conçu.

Ce qui fait que les informations véritablement nouvelles sont extrêmement rares, peu importe la masse des données.


Prenez votre règle et remplacez "traiter de grandes masses de données" par "comprendre les phénomènes du monde" et vous obtiendrez le même résultat. 


Pour comprendre la réalité, on doit nécessairement passer par des hypothèses, des questions, des observations de contrôle et répéter le processus. 


Je ne crois pas que cela ait de sens d'opposer l'intuition d'un individu et modélisation, le meilleur modèle possible passe la combinaison de tout ça, une conscience de nos biais cognitifs et une bonne grosse dose d'humilité quand on s'aventure à partager des conclusions auprès de la multitude. 

Il ne me semble pas avoir tenté d'opposer intuition individuelle et modélisation. Pour moi qui ai modélisé toute ma vie, ce serait un comble !
Je pense même tout l’inverse, par expérience, je sais que les meilleurs modèles procèdent d’abords de l’intuition.

Ce que j’ai en revanche pu observer, c’est que les utilisateurs ultérieurs des modèles ont une fâcheuse tendance à penser que ces modèles valident la réalité, là où ils ne font que les confirmer dans ce qu’ils savaient déjà (ou croyaient savoir)

Il faut faire très attention aux modèles, ce ne sont pas des théories.
Les théories sont là pour dire le vrai ou le faux (ex. la loi de la gravitation universelle)
Les théories ne se négocient pas (peux pas faire tomber les pommes en haut…)

De leur côté, les modèles sont des outils qui se contentent de monter quelque chose, sans présomption ni du sens, ni du vrai ou du faux.
Les statisticiens le savent bien, on peut faire dire ce qu’on veut aux modèles.
Ce que Jean-Lou Fourquet nous explique d’ailleurs très bien dans sa chronique.

Reprenons l’exemple de l’image des flux aériens en partance de Wuhan.
Avec elle, on a le lumineux sentiment de merveilleusement comprendre comment la pandémie s’est diffusée à travers le monde… En oubliant complètement qu’elle ne fait qu’illustrer quelque chose que nous savions déjà.
Idem pour l’image de la campagne napoléonienne de Russie, JLF a raison, elle est remarquable, mais elle ne nous apprend rien de bien neuf.

C’est ce « biais de confirmation » (comme disent les psys) auquel il faut faire particulièrement attention face aux innombrables modèles qui fleurissent de toutes parts :
   - On ne sait bien voir que ce que l’on a déjà compris ou cru comprendre.
C’est-à-dire, en analysant un peu plus finement :
   - On ne voit que ce que l’on a envie de voir, pas autre chose.

Ce qui est d’ailleurs le fond de commerce des analystes financiers de tout poils, qui bien que se trompant sans cesse (à peu près autant que les voyants ou autres cartomanciens), n’en continuent pas moins à faire fortune avec leurs prophéties.
Le désir de martingale des spéculateurs qui les écoutent est beaucoup trop intense pour qu’ils y renoncent…

Concernant le COVID-19, on y retrouve à peu près la même chose. Les courbes, prévisions et autres projections sont très certainement bien plus révélatrices des intentions, motivations et positions des uns et des autres que d’une réalité encore inconnue.
 
Logique : Il n’est pas avouable d’affirmer qu’une catastrophe puisse être « désirable » (pour toutes les raisons que vous voulez, vous n’avez que l’embarra du choix)


Et pourtant…


Effectivement, les modèles ne sont qu'une manière d'exposer une hypothèse, et donc sont par définition biaisés. On parle de DIKAR : Data Information Knowledge Action Result. On voit beaucoup de modèles devant lesquels on se dit : et alors ? C'est de mon point de vue l'exemple de la diffusion du Covid-19 : qu'est-ce que j'en fais maintenant ?


Petite précision, mais importante quand même : une théorie ne dit pas le vrai ou le faux, elle repose sur les prérequis, porte des limites et reflète un certain niveau de consensus. La loi de gravitation universelle (Newton) a été remise en cause par Einstein (loi de la relativité), mais essentiellement pour les vitesses proches de la vitesse de la lumière ce qui n'est pas banal dans la vie courante et surtout pour les pommes ! ;-)

DIKAR, je ne connaissais pas, je vais fouiller.

Intéressantes, vos remarques.


Concernant les hypothèses proposées par les modèles, je n’utiliserai néanmoins pas le terme de « biaisé, » supposant une finalité négative ou trompeuse. 

Je dirai plutôt qu’un modèle n’est valide qu’à la condition impérative de préciser explicitement ses intentions et motivations. 

C’est ne pas le faire qui produit des modèles biaisés, voire mensongers.
C’est une autre différence d’avec la théorie, qui elle ne se justifie que par elle-même, sans intentions ou motivation particulières.

Sinon, concernant votre remarque sur la théorie, vous avez tout à fait raison.
J’aurais dû dire que la théorie dit le vrai et le faux pour un périmètre déterminé, précis.
Du coup, je peux continuer à calculer la chute des pommes grâce à Newton, sans avoir recours à la relativité, voire pire, à la physique quantique.
Avouez que c’est tout de même plus pratique… Surtout pour moi qui ne suis pas matheux !


Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphiques" Covid19. C'est moi qui l'ai fait ;)... (humour). Blague à part aller voir à la fin de cet article : https://guillaumerozier.fr/le-simulateur-epidemiologique-du-covid-19-developpe-par-covidtracker-est-finalise/ . Le graphique pourrait être amélioré, mais disons que pour le moment il raconte ce que pourrait être une histoire du covid19 en France. Si on le lit attentivement, on pourra en déduire ce que serait le taux de mortalité final. On pourra voir que probablement la moitié des personnes ayant reçu un test PCR positif seraient passées par l'hôpital. Aussi qu'environ 1/3 des personnes guériraient toutes seules à la maison. Ce graphique est le résultat d'un travail de projection de données grâce à un simulateur entrainé sur les données de Santé publique France. Attention, il ne dit pas la réalité à venir! C'est une hypothèse. Il permet de voir loin (comme vous le suggériez) dans les conditions où la situation en cours se stabiliserait. Bonne lecture et au plaisir de partager plus sur le sujet si vous le souhaitez.

Abonnez-vous

En vous abonnant, vous contribuez à une information sur les médias indépendante et sans pub.