27
Commentaires

Données, tableaux : attention à la noyade !

Commentaires préférés des abonnés

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été disc(...)

Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphique(...)

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est da(...)

Derniers commentaires

Bonjour,
Je ne sais pas si ça correspond à la demande, mais ce dont vous parlez m'évoque tout simplement les méthodes d'analyse par correspondances multiples : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples
En sociologie, les travaux de Bourdieu s'appuient largement sur cette méthode. Le schémas suivant est un exemple simplifié de  : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples#/media/Fichier:ACM_fig1.jpg

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est dangereuse d'ailleurs. Elle induit en erreur. 


"Tous les modèles sont faux, mais certains sont utiles". J'aime l'humilité de cette phrase que j'ai apprise en me formant à l'apprentissage automatique. 



Christophe Barbier l'illustre à ses dépens à travers ce récent tweet où il met côte à côte deux graphiques qui montrent une corrélation apparente entre deux données observées. Il pousse la malhonnêteté jusqu'à laisser le soin aux autres utilisateurs de tirer la conclusion par eux-mêmes. Soit dit en passant : y a-t-il plus malhonnête intellectuellement que ce type? 


 


On peut aussi choisir de s'arrêter sur quelques chiffres .


Parmi ces chiffres , ceux-ci : 11 662 résidents en Ehpad sont décédés du coronavirus .



Un quart sont décédés à l'hôpital (3091) et trois-quart dans leur établissement ( 8876) 



Près de 17000 personnes travaillant en Ehpad ont contracté ce coronavirus ( confirmé par test)  .


Début Mars  2020 les stocks de masques ont été réquisitionnés par décret . y compris ceux détenus par les Ehpad qui pour certains avaient des FFP2 .


Puis des masques ont été redistribués aux EHPAD, mais pas les FFP2 .


Et quand des médecins de patients résidant en EHPAD ont demandé à ce qu'ils soient hospitalisés  pour cause de suspicion de contamination au Covid, certains hôpitaux ont refusé : c'est ce que disait une  invitée dans l'émission consacrée aux Ehpad la semaine dernière . 


Et ces chiffres semblent confirmer ce qu'elle disait :


3/4 des personnes décédées pensionnaires d'un EHPAD sont décédées dans leur Ehpad . 


D'où ces deux questions : 


- des hôpitaux ont-ils refusé  des malades du covid parce qu'elles vivaient en EHPAD ? 


- pourquoi a-t-on réquisitionné le matériel de protection du personnel travaillant en EHPAD puisque l'exposition au virus y est la même qu'à l'hôpital ?


Merci pour la rubrique en général.

Une petite suggestion à Jean-Lou qui a dit chercher des façons de rendre graphique la perception d'un monde complexe: Il y a longtemps, quand j'enseignais encore, j'avais (en partie à la main !) fait des graphiques associant empreinte écologique et Indice de Développement Humain. Ceux-là datent de 2003 et mériteraient une actualisation, mais je laisse ça à d'autres plus exercés en traitement des données.

Un peu rapide le débit, Jean-Lou....

Pour répondre à la question posée par Jean-Lou Fourquet sur l'erreur... Je trouve moi aussi plutôt 0,17 MBytes/seconde/humain

* 40 zettabyte = 40 × 10^21 bytes.       (10 puissance N est noté 10^N)

* Une année = 365 jours de 24 heures

                        = 8 760 [365 × 24] heures de 3 600 secondes (60 minutes × 60 secondes / minute)

                        = 31 536 000 [8 760 × 3 600] secondes, soit 31,536 × 10^6 secondes.

* La division de 40 zettabyte par une année donne donc:

(40 × 10^21 bytes) / (31,536 × 10^6 secondes) = 40 / 31,536 × 10^15

                                                                                  = 1,27 × 10^15 bytes/seconde.

* A diviser par le nombre d'humains sur Terre, soit d'après Wikipedia 7,55 milliards (7,55×10^9) :

=> (1,27 × 10^15 bytes/seconde) / (7,55 × 10^9 humain) = 1,27 / 7,55 × 10^6 

                                                                                                   = 0,168 × 10^6

                                                                                                   = environ 168 000 bytes (soit 168 kbytes ou 0,168 Mbytes) par seconde par humain.

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été discutée pendant des siècles, voire des millénaires, dans des quantités d’ouvrages constituant une masse de données importante, même si elle semble ridicule comparée à nos masses de données actuelles.


Il n’empêche que toutes ces données se résument en une seule et unique information, tenant en une seule et unique phrase :

Les corps s’attirent en proportion inverse du carré de leur distance.


C’est tout…


Pour moi, qui ai eu l’occasion de professionnellement travailler sur des données de très gros volumes, je sais combien malgré les moyens mis en œuvre, les résultats peuvent être décevant, très souvent en deçà de ce que l’on pouvait en espérer.


Pour exemple, la connaissance de sa clientèle locale par un commercial sera toujours très supérieure à tout ce que pourra produire n’importe quel moteur d’extraction de Big Data, peu importe la taille des bases, même avec traitement en IA. Pour la raison toute simple, que le cerveau de notre commercial saura croiser des informations totalement inaccessibles aux machines, même en traitements informels par réseaux de neurones.


Comme par exemple une tâche d’œuf sur la cravate de l’ami du client, induisant un rejet de la femme du gars qui a vu l’ours, modulant un affectif inconscient chez le frère du père du capitaine, propre à modifier les conditions de signature du contrat…

… Sans compter qu’il est strictement impossible d’effacer les fameuses données RGPD dans la tête de notre brave commercial, sauf à le lobotomiser.


Bref, la règle est la suivante :

- Pour pouvoir traiter de grandes masses de données, il faut pouvoir les systématiser.

- Pour les systématiser, il faut pouvoir concevoir le système au préalable.

- Or, pour concevoir le système, il faut déjà avoir une idée du résultat que l’on en attend.

- Ce qui signifie que ce que l’on va demander au système, c'est de nous conforter dans nos préjugés.


Et ça, c’est très dangereux…


Pour résumer :

On ne peut voir ou entendre que ce qui nous confirme dans ce que l'on a déjà conçu.

Ce qui fait que les informations véritablement nouvelles sont extrêmement rares, peu importe la masse des données.


Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphiques" Covid19. C'est moi qui l'ai fait ;)... (humour). Blague à part aller voir à la fin de cet article : https://guillaumerozier.fr/le-simulateur-epidemiologique-du-covid-19-developpe-par-covidtracker-est-finalise/ . Le graphique pourrait être amélioré, mais disons que pour le moment il raconte ce que pourrait être une histoire du covid19 en France. Si on le lit attentivement, on pourra en déduire ce que serait le taux de mortalité final. On pourra voir que probablement la moitié des personnes ayant reçu un test PCR positif seraient passées par l'hôpital. Aussi qu'environ 1/3 des personnes guériraient toutes seules à la maison. Ce graphique est le résultat d'un travail de projection de données grâce à un simulateur entrainé sur les données de Santé publique France. Attention, il ne dit pas la réalité à venir! C'est une hypothèse. Il permet de voir loin (comme vous le suggériez) dans les conditions où la situation en cours se stabiliserait. Bonne lecture et au plaisir de partager plus sur le sujet si vous le souhaitez.

Personnellement je ne sais pas comment ça s'écrit. Pour ce terme (pre-attentif), il s'agit de ma traduction vu que je ne les ai pas trouvé dans la littérature francophone. Le papier que j'ai trouvé éclairant pour le coup et où ce terme apparaît, je l'ai mis dans les sources de la chronique : http://www.perceptualedge.com/articles/ie/visual_perception.pdf 


C'est hyper intéressant votre approche pour le coronavirus, ça permet de mettre en perspective les différents chiffres de l'épidémie les uns avec les autres, de vérifier la cohérence globale des chiffres. 


Personnellement pour "le graphique des graphique" (ça fait penser à la phrase du seigneur des anneaux "Un Anneau pour les gouverner tous "), je pensais vraiment à un travail plus systémique, qui dépasse l'épidémie, qui dépasse le sanitaire, qui dépasse l'économie, un travail où on essaie vraiment de mettre en lien les différents domaines dont l'éco-système  "société humaine". Le travail que je connais et qui s'approche le plus de ça, c'est le graphique que je montre à la fin, issu du rapport "Les limites de la croissance", aussi appelé rapport du club de Rome. Vous pouvez voir la modélisation dans l'original du travail disponible en pdf là : http://www.donellameadows.org/wp-content/userfiles/Limits-to-Growth-digital-scan-version.pdf  (page 104)

Bonjour, merci pour votre réponse. Oui, ou alors faire plusieurs catégories pour ce concours? ... L'important c'est de participer. Bonne suite

Merci pour ce sujet passionnant.  Juste sur le pré-attentif,  il nécessite aussi de l'apprentissage (conscient ou  moins conscient) et donc la dimension culturelle du décodage est importante. Par ailleurs, en matière de data visualisation je pense qu'il y a souvent un effet trompe l'oeil et cela fait à la fois son charme (tout son art?) et son risque. Il suffit de changer legerement l'échelle d'un graphique et la perception est tout à fait différente.

Abonnez-vous

En vous abonnant, vous contribuez à une information sur les médias indépendante et sans pub.