Imaginemos que tenemos una tabla con la altitud de las cien mil ciudades más pobladas del mundo y consideramos el primer dígito que indica su altitud. Por ejemplo, a Madrid (657 metros) la asociaríamos con el dígito 6, a México DF (2850 metros) con el 2, a Nueva York (10 metros) con el 1, etc…
Con tantos ítems puede presuponerse que ese primer dígito puede distribuirse uniformemente entre todas las posibilidades de 1 a 9 y que los dígitos aparecen razonablemente un 11,11 % (100/9) cada uno aproximadamente.
No es así. En realidad, la frecuencia con que aparece el dígito 1 es mayor que la frecuencia con que aparece el 2, y ésta mayor que la que aparece el 3… y, así, sucesivamente.
En la imagen aparece, en la parte superior, la hipotética distribución de frecuencias y, debajo, la real:
57539FD0-BDB5-41AB-8F05-07E78F53EE97.jpeg
El número de veces para las que el primer dígito es un 1 es de casi el 30 % y es un 9 menos del 5% de las veces.
Y lo curioso es que esto sucede prácticamente SIEMPRE. Y cuando digo siempre me refiero a que no importa el origen de los datos numéricos: si éstos son homogéneos y producto de una recopilación de valores sobre variados aspectos y contextos de la vida real (y lo suficientemente abundantes) sus primeros dígitos mantienen una distribución similar como es el caso de series de precios de acciones, número de habitantes, tasas de mortalidad, longitud de los ríos, números primos, etc.
Este hecho se conoce como la Ley de Newcomb–Benford debido a los dos primeros científicos que la consideraron.
La fórmula de Benford indica que la probabilidad de ser n el primer dígito de un cierto valor es descrita por la siguiente expresión:
D9220DBE-CE27-4503-BB0D-39B378150D26.jpeg
Y más: esta fórmula vale para calcular la probabilidad de que un número n cualquiera coincida con los primeros dígitos de los valores del estudio que hagamos.
Una aplicación de esta ley se encuentra en la detección de fraudes. La mayoría de las personas que cometen fraude con los números no son conscientes de la Ley de Benford; tablas de declaraciones de impuestos, informes de gastos, registros de ventas deben seguir, todos los datos, una distribución de Benford.