數學中「班佛定律(Benford’s law)」, 描述了真實數字數據集中首位數字的頻率分布。一堆從實際生活得出的數據中,以1為首位數字的數的出現機率約為總數的三成,接近直覺得出之期望值1/9的3倍。 推廣來說,越大的數,以它為首幾位的數出現的機率就越低。它可用於檢查各種數據是否有造假。但要注意使用條件:

  1. 數據至少 3000 筆以上
  2. 不能有人為操控

維基百科《班佛定律》

別相信你的直覺! 別相信你的直覺! 別相信你的直覺!

這個世界已經到處都是大數據,只要不是經由人為控制(例如限制範圍如身高等有明顯上下限的數據就不滿足),那我們直覺上所產生的數字應該是隨機分佈,但事實上卻不是 !

在自然發生(即未有人為操控)的數值裡面,首位數字是 1 的出現機率最高,約佔全體觀察值 30.1%,再來是 217.6%,其餘依序遞減。

數學分佈

歷史

  • 1881年,由美國天文學家西蒙·紐康(Simon Newcomb)揭露,他發現對數表包含以1起首的數那首幾頁較其他頁破爛,並潛心研究觀察到的「骯髒頁面效應」,並發表了班佛定律的數學公式。

  • 1938年,物理學家法蘭克·班佛再次發現這個現象,還通過了檢查許多數據來證實這點。

  • 2009年,西班牙數學家在質數中發現了一種新模式,並且驚訝於為何現在才為人發現。雖然質數一般被認為是隨機分布的,但西班牙數學家發現質數數列中每個質數的首位數字有明顯的分布規律,它可以被描述了質數的班佛定律。這項新發現除了提供對質數屬性的新洞見之外,還能應用於欺騙檢測和股票市場分析等領域。

情境

  1. 每個人的存款,所有人存款數字開頭是1,例如:1元、12元、123元、1234元、12345 …等的機率是多少?

  2. 美國各州各郡人口數分佈

  3. 足球,攻擊方在被攔截前成功傳球的次數

台股

不曉得有沒有地方可以套用在台股上,來研究看看 !?