Seznamte se – Benfordův zákon

Benfordův zákon, někdy též Newcombův-Benfordův zákon, je matematický zákon, který říká, že v mnoha souborech přirozených dat začínají čísla mnohem častěji číslicí 1 než jinou číslicí. Zhruba 30 % čísel začíná jedničkou. Čím vyšší počáteční číslice je, tím méně pravděpodobně se vyskytuje na začátku čísel. (Více na wiki)

Aplikace tohoto zákona se používá na jednoduché odhalování například účetních podvodů. Není to důkaz sám o sobě, ale je to jisté vodítko, že s daty bylo manipulováno. A protože máme velké soubory dat z ÚZIS, nabízí se to tak nějak samo je otestovat pomocí Benfordova zákona.

První graf je jen ukázkou testu dvou sad dat. První sadou jsou data z ČSÚ z ročenek 2015-2020 úmrtí podle diagnóz (cca 7100 hodnot v rozmezí 1 – 11561). Druhá sada je uměle vygenerovaná ve stejném rozsahu jako je první, ale pomocí funkce random v jazyky Python.

Zatímco data z ČSÚ kopírují křivku vcelku věrně, náhodně generovaná čísla jsou až na 1 rozložena ve stejném poměru.