D’ailleurs, est-ce que des chiffres dorment plus que d’autres ? Et qu’est-ce qu’on pourrait faire de cette connaissance ?
Et bien la première réponse est « oui » et la deuxième est « détecter des anomalies ». Voilà de quoi je parle aujourd’hui. La donnée sans contexte ne sert pas à grand-chose et extraire des informations utiles de la donnée demande un certain esprit critique. En 1881, un astronome américain (Simon Newcom) fait un drôle de constat, les pages de son livre qui l’aide à faire des calculs (ses tables de logarithmes) ne sont pas toutes utilisées de la même manière. Il s’est alors dit quelque chose comme : « vu que tout le service utilise ce livre et que ce sont toujours les mêmes pages qui sont utilisées, est-ce que certains chiffres ne seraient pas plus présents que d’autres ? ». Il écrit ses résultats dans la publication suivante : Note on the Frequency of Use of the Different Digits in Natural Numbers American Journal of Mathematics, Vol. 4, No. 1. (1881), pp. 39-40. Il conclut que la présence des chiffres 1 à 9 décroît de manière logarithmique lorsqu’ils sont positionnés en première position d’un nombre.
Mais que lui est-il passé par la tête ?! Ce drôle de constat passe inaperçu. Puis, au milieu du XX eme siècle, un autre américain, ingénieur et physicien (Frank Benford) fait lui aussi ce constant. Mais il ne se contente pas d’observer un cahier. Il va regarder tout ce qui lui passe sous les yeux, et il compte. Au final il publie pas moins de 20000 observations : hydrologie, statistique de la ligue de baseball, poids atomiques, éléments chimiques, cours de la bourse, longueurs des fleuves, numéros de plaques de maison, et … données comptables. Toutes ses observations ont donné naissance à ce qu’on allait appeler la loi de Benford. Ce n’était pas normal pour lui. Pourquoi, que ce soit dans les statistiques, la finance, l’astrologie ou la physique, le chiffre 1 est-il plus présent que le 2, le 2 plus que le 3, etc. il a appelé ça la loi des nombres anormaux.
“Pourquoi ?” est une vaste question. Qu’est-ce qu’on peut faire de cette connaissance en est une autre. Ça sert à quoi de savoir ça ? Et bien je m’en sers comme d’une méthode de détection « d’outliner », d’anomalie, et de méthode d’initiative de recherche de connaissance. En comptabilité par exemple, ça aide à détecter des fraudes. Face à une telle distribution, à la modélisation implacable, lorsqu’un jeu de données comptable n’est pas bien répartir, c’est que la fraude n’est pas loin ! Et oui, la génération aléatoire de numéro ne connaît pas ce contexte de réalité. La comparaison de la distribution des chiffres est un très bon premier filtre.
Et dans votre ERP, où vos données sont enregistrées tous les jours. Savez-vous à quoi ressemble la distribution du premier numéro de vos valeurs ? Cela vous serait-il venu à l’esprit de le regarder ? Et si cette distribution n’est pas respectée, qu’est-ce que ça veut dire ? Qu’on ne respecte tout simplement pas la loi statistique, ou que quelque chose ne va pas dans la qualité de vos données ?