Virus, statistiques et jeux vidéo

Also available in English Disponibile anche in Italiano
Il me semble que la façon dont les statistiques du virus Corona sont utilisés dans cette phase d’hystérie mondiale n’aide pas à comprendre le scénario.

Les animations et les “infographies” sur la propagation des contagions, le nombre de décès ou la vitesse de propagation du virus sont omniprésentes, mais les critères utilisés pour produire ces matériels sont à peine connus, et on soupçonne parfois que certains d’entre eux manquent de véritables connaissances de base sur le fonctionnement des statistiques.

J’évite une objection (facile) : c’est vrai, je suis juriste et non statisticien, donc je ne suis pas qualifié pour parler avec compétence scientifique sur le sujet.

C’est vrai, et d’ailleurs je n’en ai pas l’intention. Je n’utilise que ce que j’ai appris en mathématiques entre le lycée et l’université et ce que j’ai étudié en statistique en collaborant à l’édition italienne du classique de Darrell Huff, How to lie with statistics, édité et traduit par Giancarlo Livraghi (qui, en tant que grand publicitaire, connaissait parfaitement le sujet) et par le professeur Riccardo Puglisi (qui, en tant qu’économiste, est tout aussi compétent en la matière).

Je n’offre donc pas de “vérité”, mais seulement des doutes en quête de réponses.

Premièrement : l’unification des différentes catégories de défunts rend l’échantillon déséquilibré et le calcul du taux de mortalité sur une population indifférenciée donne un résultat peu fiable. Pour établir le taux de mortalité du virus, il faut au moins différencier ceux qui avaient d’autres pathologies sur les conséquences desquelles le virus se superposait, de ceux qui étaient malades d’autre chose mais ne le savaient pas, de ceux qui étaient dans des conditions particulières favorisant l’expansion du virus (immunodépression de l’hyperactivité, par exemple). Cet article va dans la bonne direction, même si le problème méthodologique de l’utilisation des statistiques reste entier.

Deuxièmement : c’est une chose d’analyser un échantillon statistiquement valable, c’en est une autre d’analyser un échantillon non équilibré. En d’autres termes : si je cherche les supporters d’une équipe de football dans la courbe des supporters, j’obtiens un résultat nettement différent que si j’utilise un échantillon – selon le niveau de l’équipe – construit sur une base urbaine ou nationale. Des champions déséquilibrés peuvent également servir, mais il faut être clair sur les limites des connaissances qu’ils génèrent.

Troisièmement (et par conséquent) : même le fait de transformer les valeurs absolues des décès et des infections dans divers pays en pourcentages sans adopter de pondération est méthodologiquement erroné. Dire – comme le fait Il Giornale – que le taux de mortalité est de 4 % sur 3 858 cas induit une généralisation incorrecte lorsqu’on compare le rapport “brut” entre le nombre de cas et les décès.

De plus, et pour conclure : tant qu’il n’y a pas de chiffres suffisamment importants pour obtenir une signification statistique, il faut être très prudent dans leur diffusion. Si 7 personnes sur 10 ou 490.000 sur 700 000 donnent une réponse particulière à un questionnaire, dans les deux cas, on peut dire que 70 % des répondants se sont prononcés d’une certaine manière. Mais (sans préjudice de la nécessité d’un échantillon statistiquement valable) chaque cas a clairement un pouvoir explicatif différent. Il serait utile de savoir, par exemple, si les chiffres utilisés dans une étude comme celle-ci sont encore trop faibles pour être statistiquement valables ou non. Dans le premier cas, il s’agirait “seulement” d’une photographie, dans le second cas, cela fournirait des informations sur la valeur globale.

La relecture du livre de Darrell Huff n’est donc pas une mauvaise idée.

Possibly Related Posts: