Как распознать фальшивые данные?


Автор:

Вы когда-нибудь пользовались логарифмической линейкой? Для тех, кто не пользовался, поясню: в эпоху, когда еще не было компьютеров и калькулятор, люди умножали и делили числа с помощью таких линеек (или специальных книг с логарифмами). Операции умножения/деления при помощи таких книг сводились к простейшим операциям сложения и вычитания.

Некий господин Саймон Ньюкомб (Simon Newcomb), постоянно работая с книгой логарифмов, заметил, что первые страницы книги намного более потрепаны, нежели конечные. Ему показалось это странным и он подумал: а нет ли здесь какой-либо закономерности? То есть, почему люди чаще умножают/делят числа, у которых первая цифра от 1 до 4, нежели от 5 до 9?

Френк Бенфорд (Frank Benford) в 1938 году (почти 60 лет спустя) решил проверить это предположение на разнообразных наборах данных и подтвердил, что предположение Нькомба верно. В статистике рождаемости, смертности, номерах домов – везде соблюдалась закономерность: первая цифра числа большинства реальных данных чаще оказывалась от 1 до 4.

Точнее даже, вероятность распределения следующая:

1 - 30.1%
2 - 17.6%
3 - 12.5%
4 - 9.7%
5 - 7.9%
6 - 6.7%
7 - 5.8%
8 - 5.1%
9 - 4.6%

Причем эта закономерность сохранялась и в других системах (не только в десятичной). Разумеется, этому есть свое математическое объяснение, но нам интересно другое: как это применить?

Хэл Вэриан (да, да, тот самый Chief Economist of Google) в 1972 году решил проверить эту закономерность для обнаружения возможных искажений социо-экономических данных, а Марк Нигрини (Mark Nigrini) применил её для выверки бухгалтерских и финансовых данных. Кстати, во многих штатах несоответствие данных закону Бенфорда (так назвали эту закономерность) является формальной уликой для судебных органов.

Итак, что нужно чтобы распознать фальшивые данные? Просто возьмите эти данные и подсчитайте частоту первых цифр чисел, а затем сравните результаты с таблицей распределения вероятностей выше. И, если данные сильно разнятся, то… ваш бухгалтер  просто не читает наш блог :) )

Кстати, не читая объяснения этой закономерности в Internet, кто может предположить, почему такая закономерность присутствует? И может  ли системное мышление как-то объяснить её?

На эту же тему рекомендую прочитать пост про то, как мы поймали черного лебедя


16 отзывов

  • By mikasi, September 22, 2010 @ 12:26 pm

    Очень даже интересная закономерность, ушол в гугл искать подробности и ставить тесты )))

    Ответить

  • By Anton L., September 22, 2010 @ 5:44 pm

    Мои мысли. Я думаю, что 1, 2, 3 встречаются чаще, чем 7, 8, 9 вот почему:

    давайте посчитаем слонов:
    1,2,3,4,5,6,7,8..25 – 25 слонов

    давайте посчитаем лосей:
    1,2 – 2 лося

    давайте посчитаем лампочки:
    1,2,3,4,5,6,7….1298 – 1298 лампочек!

    В общем любой список начинается с 1,2,3…, конечно же 1,2,3 буду встречаться чаще, чем 7,8,9. В статистике процент появления убывает от 1 к 9. Любой список начинается с 1. Потом 2, 3, 4..
    Есть списки из 3х единиц – автоматом 4 встречается реже, чем 1,2,3.
    Так же и 3 относительно 1 и 2.
    Так же и 2 реже, чем 1.

    Ответить

    alexchub Ответ:

    Вы будете удивлены, но при перечислениях распределение выглядит следующим образом
    для 1298
    1 410
    9 111
    8 111
    7 111
    6 111
    5 111
    4 111
    3 111
    2 111

    для 25
    1 11
    2 7
    3 1
    4 1
    5 1
    6 1
    7 1
    8 1
    9 1

    для 92309
    1 11111
    2 11111
    3 11111
    4 11111
    5 11111
    6 11111
    7 11111
    8 11111
    9 3421

    Ответить

  • By Dmitry, September 22, 2010 @ 8:30 pm

    Интересная закономерность. Относительно причин согласен с Anton L.

    Плюс вспоминаются рассуждения Талеба про крайнестанские распределения. Точнее то, что он переписал у Бенуа Мандельброта про степенные закономерности.

    Похожие законы управляют частотой появления конкретных слов в тексте, распределении богатства среди населения, капитализации компаний и стоимости их акций и пр.

    Ответить

  • By Арсений Арутнев, September 23, 2010 @ 1:38 pm

    просто большинству чисел было важно перевалить за десятку. Например, когда выходило 19, то хотелось все-таки 20, а получалось, видимо, даже 21-24 =)))) Хотелось человеку не на 78-м году покинуть нас, ведь тут до 80 рукой подать, вот и терпел.

    Ответить

    Evgeniya Kalenykh Ответ:

    Позитивный подход! :)

    Ответить

  • By Арсений Арутнев, September 28, 2010 @ 1:00 pm

    сейчас заметил, что я перепутал. ведь речь идет о первой цифре цисла. тогда тут все понятно. а я подумал о последней цифре записи числа. для нее, видимо, распределение гораздо ближе к нормальному. на каком бы примере проверить?

    Ответить

  • By Екатерина Степалина, October 4, 2010 @ 9:11 am

    Интересная закономерность :)
    Мне кажется такое распределение получается от неравномерного распределения логарифма.
    lg(1)=0
    lg(5)=0,699
    lg(10)=1
    Получается, что 69,9% логарифмов покрывают диапазон чисел от 1 до 5 :)
    Если сложить вероятности появления цифр 1,2,3,4 из таблицы выше, то получится как раз 69,9%.
    Получается, что 69,9% процентов цифр – цифры от 1 до 4.

    Ответить

  • By Всеволод Шорин, November 10, 2010 @ 12:43 am

    Я думаю так. Если бы распределение случайных статистических чисел было равномерным на каком-то конкретном отрезке, то первая цифра была бы распределена равномерно. Но это вряд ли так, скорее примерно поровну чисел попадает в диапазоны между числами a1…a2 и b1…b2, где a1/a2 равно b1/b2. Эти диапазоны как бы эквивалентны в своих масштабах. То есть, скажем, населённых пунктов от 1000 до 10000 человек не столько же, сколько от 10000 до 20000, а столько же, сколько от 10000 до 100000. То если если взять численности населения из этого примера, то чисел от 1000 до 2000 (начинающихся на 1) будет столько же, сколько чисел от 2000 до 4000 (2, 3), и чисел от 4000 до 8000 (4, 5, 6, 7). Другими словами, примерно равномерно распределены не статистические значения, а их логарифмы.

    Ответить

    Sneckus Ответ:

    Решил проверить Яндех и Google, насколько достоверно отображают результаты поиска.
    Начал загонять в поиск Яндех и Google числа 156,256 и т.д.
    Количество найденых страниц свел таблицу. Результаты здесь http://s48.radikal.ru/i120/1101/d9/d3408b647455.jpg
    Мне кажется у Google результаты более подходят к этому закону. Существует только локальное выпадение в районе числа 756, видимо связанное с существованием бесбольной командой “Home Run 756″. Нужно проверять на других числах, например 123, 223 и.д. Уже лень -:(

    Ответить

    Sneckus Ответ:

    Решил проверить как поиск Яндекс и Google соответсвуют этому закону. Искал цифры 156, 256, и т.д. количество найденных страниц свел в таблицу. Результаты здесь Нфhttp://s48.radikal.ru/i120/1101/d9/d3408b647455.jpg
    Мне кажется, Google более соотвтсвует закону. Локальное выпадение на цифре 756, видимо, связано с каким то бесбольным рекордом “Home run 756″. (Никогда не понимал эту игру). Надо проверять на других цифрах. Уже лень -:(

    Ответить

  • By Sneckus, January 31, 2011 @ 12:32 am

    Решил проверить как поиск Яндекс и Google соответсвуют этому закону. Искал цифры 156, 256, и т.д. количество найденных страниц свел в таблицу. Результаты здесь Нфhttp://s48.radikal.ru/i120/1101/d9/d3408b647455.jpg
    Мне кажется, Google более соответсвует закону. Локальное выпадение на цифре 756, видимо, связано с каким то бесбольным рекордом “Home run 756″. (Никогда не понимал эту игру). Надо проверять на других цифрах. Уже лень -:(

    Ответить

  • By Николай, July 6, 2012 @ 11:16 am

    Чуть со стула не упал)))) К этой закономерности пришел сам,не встречая до этого упоминания о ней.Но,пришел немного в другом ключе.Начал сравнивать данные (собственные и сторонние) о запоминании человеком цифровых рядов. Вывел закономерность,что лучше всего человек запоминает цифровые ряды,где большее количество чисел от 1 до 4….А еще лучше запоминаются числовые ряды с разделителями в середине из цифр 7,8,9…Это мои наблюдения,выводы,анализ. Не знаю,может быть и субъективный…

    Ответить

Ссылки на эту статью

  1. Пост № 289067 - Приколы — September 22, 2010 @ 1:45 pm

  2. Tweets that mention Как распознать фальшивые данные? | Empatika -- Topsy.com — September 24, 2010 @ 3:05 pm

Оставить отзыв

WordPress Themes