27
Commentaires

Données, tableaux : attention à la noyade !

Commentaires préférés des abonnés

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été disc(...)

Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphique(...)

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est da(...)

Derniers commentaires

Bonjour,
Je ne sais pas si ça correspond à la demande, mais ce dont vous parlez m'évoque tout simplement les méthodes d'analyse par correspondances multiples : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples
En sociologie, les travaux de Bourdieu s'appuient largement sur cette méthode. Le schémas suivant est un exemple simplifié de  : https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples#/media/Fichier:ACM_fig1.jpg

Je découvre Jean-Lou Fourquet. Très talentueux!


Sur l'utilisation de la donnée et sa modélisation, je ne crois pas qu'il soit possible d'aboutir un jour à quelque chose qui permette de comprendre simplement le monde. L'illusion de la simplicité est dangereuse d'ailleurs. Elle induit en erreur. 


"Tous les modèles sont faux, mais certains sont utiles". J'aime l'humilité de cette phrase que j'ai apprise en me formant à l'apprentissage automatique. 



Christophe Barbier l'illustre à ses dépens à travers ce récent tweet où il met côte à côte deux graphiques qui montrent une corrélation apparente entre deux données observées. Il pousse la malhonnêteté jusqu'à laisser le soin aux autres utilisateurs de tirer la conclusion par eux-mêmes. Soit dit en passant : y a-t-il plus malhonnête intellectuellement que ce type? 


 


On peut aussi choisir de s'arrêter sur quelques chiffres .


Parmi ces chiffres , ceux-ci : 11 662 résidents en Ehpad sont décédés du coronavirus .



Un quart sont décédés à l'hôpital (3091) et trois-quart dans leur établissement ( 8876) 



Près de 17000 personnes travaillant en Ehpad ont contracté ce coronavirus ( confirmé par test)  .


Début Mars  2020 les stocks de masques ont été réquisitionnés par décret . y compris ceux détenus par les Ehpad qui pour certains avaient des FFP2 .


Puis des masques ont été redistribués aux EHPAD, mais pas les FFP2 .


Et quand des médecins de patients résidant en EHPAD ont demandé à ce qu'ils soient hospitalisés  pour cause de suspicion de contamination au Covid, certains hôpitaux ont refusé : c'est ce que disait une  invitée dans l'émission consacrée aux Ehpad la semaine dernière . 


Et ces chiffres semblent confirmer ce qu'elle disait :


3/4 des personnes décédées pensionnaires d'un EHPAD sont décédées dans leur Ehpad . 


D'où ces deux questions : 


- des hôpitaux ont-ils refusé  des malades du covid parce qu'elles vivaient en EHPAD ? 


- pourquoi a-t-on réquisitionné le matériel de protection du personnel travaillant en EHPAD puisque l'exposition au virus y est la même qu'à l'hôpital ?


Merci pour la rubrique en général.

Une petite suggestion à Jean-Lou qui a dit chercher des façons de rendre graphique la perception d'un monde complexe: Il y a longtemps, quand j'enseignais encore, j'avais (en partie à la main !) fait des graphiques associant empreinte écologique et Indice de Développement Humain. Ceux-là datent de 2003 et mériteraient une actualisation, mais je laisse ça à d'autres plus exercés en traitement des données.

Un peu rapide le débit, Jean-Lou....

Pour répondre à la question posée par Jean-Lou Fourquet sur l'erreur... Je trouve moi aussi plutôt 0,17 MBytes/seconde/humain

* 40 zettabyte = 40 × 10^21 bytes.       (10 puissance N est noté 10^N)

* Une année = 365 jours de 24 heures

                        = 8 760 [365 × 24] heures de 3 600 secondes (60 minutes × 60 secondes / minute)

                        = 31 536 000 [8 760 × 3 600] secondes, soit 31,536 × 10^6 secondes.

* La division de 40 zettabyte par une année donne donc:

(40 × 10^21 bytes) / (31,536 × 10^6 secondes) = 40 / 31,536 × 10^15

                                                                                  = 1,27 × 10^15 bytes/seconde.

* A diviser par le nombre d'humains sur Terre, soit d'après Wikipedia 7,55 milliards (7,55×10^9) :

=> (1,27 × 10^15 bytes/seconde) / (7,55 × 10^9 humain) = 1,27 / 7,55 × 10^6 

                                                                                                   = 0,168 × 10^6

                                                                                                   = environ 168 000 bytes (soit 168 kbytes ou 0,168 Mbytes) par seconde par humain.

Il y a quand même un loup quelque part. Avec 72 ko de mémoire (capacité en mémoire morte du AGC), on enregistre quoi?, un livre de moins de 100 pages, certainement pas toute cette colonne de livres. 168 ko, valeur que vous trouvez et qui semble juste, c'est un livre de 150 pages disons. Bon, c'est par seconde et par humain, c'est déjà beaucoup, mais pas une colonne de x mètres de livres.

 Ou alors je n'ai rien compris! 

Je pense que c'est parce que c'est une pile de papier remplis de code type assembleur qui est surement pas encodé en code ASCII dans la mémoire mais qui quand on l'imprime sur du papier prend pas mal de place. Plus d'info sur la page wikipedia mais je pense que le "loup" est là :) https://en.wikipedia.org/wiki/Apollo_Guidance_Computer 

Juste pour donner l'idée :


Je ne sais pas quelles étaient les techniques de stockage de masse en 1969 à la NASA, mais dans les années 70, stocker 168 ko sur cartes perforées, ça faisait à la louche 70 cm d’épaisseur.


Sauf que 168 ko, c’est juste le code brut, en binaire, pour instruire la machine.

Et le binaire, ça n’est pas lisible par un acteur humain, faut du commentaire, beaucoup de commentaires.

Sans compter les jeux tests, qui ont du être nombreux (c'était quand même des vies humaines qui étaient en question !), multipliant les 168 ko par autant d'essais remisés et corrigés.


Pour moi, la pile de documentation d’environ 2 mètres de haut que l’on voit dans la photo, ne me paraît pas si considérable que ça.  

A mon avis, il n’y a là que la seule documentation du code, sans le cahier des charges.

Aaaah merci beaucoup, c'est donc bien ça ! 


C'est "drôle", ça signifie que ça fait un bon moment que ce chiffre de ce que donne 40 zettabytes pour tous les humains chaque seconde est repris et qu'il y a un ordre de grandeur d'erreur :). 

J'ai trouvé pareil. Soit c'est une bête erreur de calcul, soit il y a une donnée d'entrée qui est fausse.

A mon avis, le chiffre de 2020, il est constant, c'est 40 zettabytes / 40 000 exabyttes et j'ai l'impression qu'il vient de plusieurs horizons, contrairement à la conversion en humain/seconde qui je pense a été calculée une fois puis reprise. J'opterai pour une erreur de calcul bête et méchante qui depuis a été reprise  :). Ca arrive avec des conséquences bien plus importantes parfois comme le montre cette chouette vidéo de Science Etonnante : https://www.youtube.com/watch?v=yeX_Zs7zztY 

Ouais…

Mais faut pas confondre données et informations. 

La masse des données n’induit en rien que les informations croissent en proportion.


Et ça, c’est vieux comme le monde, comme le montre cet exemple :

La question des forces tombantes a été discutée pendant des siècles, voire des millénaires, dans des quantités d’ouvrages constituant une masse de données importante, même si elle semble ridicule comparée à nos masses de données actuelles.


Il n’empêche que toutes ces données se résument en une seule et unique information, tenant en une seule et unique phrase :

Les corps s’attirent en proportion inverse du carré de leur distance.


C’est tout…


Pour moi, qui ai eu l’occasion de professionnellement travailler sur des données de très gros volumes, je sais combien malgré les moyens mis en œuvre, les résultats peuvent être décevant, très souvent en deçà de ce que l’on pouvait en espérer.


Pour exemple, la connaissance de sa clientèle locale par un commercial sera toujours très supérieure à tout ce que pourra produire n’importe quel moteur d’extraction de Big Data, peu importe la taille des bases, même avec traitement en IA. Pour la raison toute simple, que le cerveau de notre commercial saura croiser des informations totalement inaccessibles aux machines, même en traitements informels par réseaux de neurones.


Comme par exemple une tâche d’œuf sur la cravate de l’ami du client, induisant un rejet de la femme du gars qui a vu l’ours, modulant un affectif inconscient chez le frère du père du capitaine, propre à modifier les conditions de signature du contrat…

… Sans compter qu’il est strictement impossible d’effacer les fameuses données RGPD dans la tête de notre brave commercial, sauf à le lobotomiser.


Bref, la règle est la suivante :

- Pour pouvoir traiter de grandes masses de données, il faut pouvoir les systématiser.

- Pour les systématiser, il faut pouvoir concevoir le système au préalable.

- Or, pour concevoir le système, il faut déjà avoir une idée du résultat que l’on en attend.

- Ce qui signifie que ce que l’on va demander au système, c'est de nous conforter dans nos préjugés.


Et ça, c’est très dangereux…


Pour résumer :

On ne peut voir ou entendre que ce qui nous confirme dans ce que l'on a déjà conçu.

Ce qui fait que les informations véritablement nouvelles sont extrêmement rares, peu importe la masse des données.


Bonjour ASI, bonjour M. Fourquet. Merci pour cette chronique vidéo très éclairée et éclairante! J'ai appris ce nouveau mot "préattentif". Je ne sais pas si ça s'écrit comme ça... Je saute sur les commentaires pour proposer "le graphique des graphiques" Covid19. C'est moi qui l'ai fait ;)... (humour). Blague à part aller voir à la fin de cet article : https://guillaumerozier.fr/le-simulateur-epidemiologique-du-covid-19-developpe-par-covidtracker-est-finalise/ . Le graphique pourrait être amélioré, mais disons que pour le moment il raconte ce que pourrait être une histoire du covid19 en France. Si on le lit attentivement, on pourra en déduire ce que serait le taux de mortalité final. On pourra voir que probablement la moitié des personnes ayant reçu un test PCR positif seraient passées par l'hôpital. Aussi qu'environ 1/3 des personnes guériraient toutes seules à la maison. Ce graphique est le résultat d'un travail de projection de données grâce à un simulateur entrainé sur les données de Santé publique France. Attention, il ne dit pas la réalité à venir! C'est une hypothèse. Il permet de voir loin (comme vous le suggériez) dans les conditions où la situation en cours se stabiliserait. Bonne lecture et au plaisir de partager plus sur le sujet si vous le souhaitez.

Abonnez-vous

En vous abonnant, vous contribuez à une information sur les médias indépendante et sans pub.