2009 年伊朗總統大選,艾哈邁迪內賈德擊敗三位對手成功連任。遠在波蘭,一位學者看着伊朗內政部公佈的點票結果,發覺有點異樣;排名第三的候選人卡魯比在某些選區的得票有點「不尋常」,那些選區恰好正是艾哈邁迪內賈德大勝的區域。「不尋常」之處,關乎卡魯比得票的第一位數字;你沒看錯,只看頭一個數字,便可窺見選舉有沒有「造馬」。
記得中學數學課,高中之前不准用計算機,那時計算 log(對數)需要查表的;有了計算機之後,至今二十多年未碰過對數表了。在沒有計算機的年代,對數表是理科不可或缺的工具;1881 年,美國天文及數學家 Simon Newcomb 發現一個有趣現象,圖書館的對數表「1」字頭那頁永遠是最骯髒和最殘舊的,往後一頁比一頁清潔,人們好像遇到「1」和「2」字頭的數字特別多,遇到「8」和「9」字頭的數字特別少;他更提出一條方程式,說「d」字頭的出現概率為 log(1+1/d),把「1」至「9」代入「d」的位置,便得出「1」字頭的出現概率約為 30%,「2」字頭約為 17%,逐個減少,「9」字頭只有 4.5%。換句話說,日常遇到的數字,大約每三個便有一個是「1」字頭,為什麼「1」字頭這麼普遍?
Newcomb 沒有解釋,只說該條規律「顯而易見」("evident"),我等凡人不得不驚嘆數學家對數字的「直覺」。可能就是過於「顯而易見」的關係,Newcomb 沒有找來更多事例,這話題也就此沉寂,不了了之。
五十七年過去,來到 1938 年。通用電氣公司物理學家 Frank Benford 在不知情的情況下重複同一發現,但他更進一步,從現實世界找來多種數據,包括讀者文擇出現的數字、門牌號碼、各國人口、河流長度、棒球聯賽統計數字、原子量(atomic weight)、物理常數等,範疇包羅萬有,總共超過二萬個數字,其字頭分佈與 log(1+1/d) 不謀而合!此現象從此稱為 Benford's Law,班福特定律。可是,Benford 依然沒有解釋為什麼,Benford's Law 雖有實證作根據,卻無甚理論基礎。
又過五十七年(世事多麼巧合!),1995 年美國數學家 Theodore Hill 終有突破,他以嚴謹的數學方法證明,從多種數據來源隨機抽樣得出的數字,其字頭一定符合 log(1+1/d) 分佈,即「1」字頭出現大約 30%,「2」字頭約 17% ……「8」字頭約 5.1%,「9」字頭約 4.5%。這裡不能公式化談數學,我姑且用日常文字嘗試解釋一下。想一想,恒生指數由 1,000 點升至 2,000 點較難,還是 2,000 點升至 3,000 點較難?前者升幅 100%,後者升幅 50%,顯然前者較難。由 2,000 點跌至 1,000 點較難,還是 3,000 點跌至 2,000 點較難?前者跌幅 50%,後者跌幅 33%,也是前者較難。換句話說,恒生指數「1」字頭的時間(1,000-1,999 點)應比「2」字頭的時間(2,000-2,999 點)為長,以此類推,逗留於「3」、「4」……「8」、「9」字頭應該漸次縮短,直至到達 10,000 點,重回「1」字頭,開始另一循環。假設恒生指數長遠而言維持若干每年平均升幅,它逗留在各字頭的時段應該合符 Benford's Law 的比例。
這是一個籠統的解說,粗略點出「1」字頭常見性的來源,道理如何擴展至人口、河流長度、物理常數等風馬牛不相及的領域,在避談公式化數學的前提下無法說得清,我們只有相信 Hill 的數學論證。
那究竟什麼種類的數字合符 Benford's Law?籠統地說,「自然產生」的數字通常符合。地震的深度、地球磁場逆轉的時距、放射性物質的半衰期、脈衝星的轉速等,全部符合 Benford's Law(自然界給我們的數據,這是「自然產生」的第一個含意)。各國人口、原油蘊藏量、溫室氣體排放、傳染病例數目、報稅表的賬目、選舉所得票數等,也符合 Benford's Law(真實的、未經竄改的統計數字,這是「自然產生」的第二個含意)。留意第二類,這提供一個偵測虛報或作弊的途徑,假如某公司長期提供一些不夠「Benford」的稅務資料,那可能是逃稅的跡象;假如點票結果不夠「Benford」,那可能是舞弊的線索。文首提到伊朗總統候選人卡魯比在某些選區得票「不尋常」,所指的就是違背 Benford's Law。
大家要小心,哪些數據合符 Benford's Law 沒有絕對的標準,完全公正的選舉未必符合,舞弊的選舉未必不符,Benford's Law 只可視為一種跡象或線索,絕不應視為確鑿證據。
區議會選舉剛過,不如「就地取材」,拿全部候選人得票第一位數字作個統計,看結果有多「Benford」。下圖所見,「1」和「2」字頭特多,但形態大致上合符 Benford's Law。這算是舞弊的跡象嗎?很難說,每選區人口二萬人左右,可能選區人口加上投票率加上候選人之間的典型差距造就「1」和「2」字頭特別容易出現,又或者其他想得出的原因。上面說過,公正的選舉未必合符 Benford's Law,舞弊的選舉未必不符,現在冒出多一個問題,偏離多遠才算「事有蹺蹊」呢?作為偵測舞弊的工具,Benford's Law 實在太多局限。
香港的選舉大致上都是公開公正的,大家都有信心,即使點票結果與 Benford's Law 不盡相符,我們傾向把「疑點利益」歸於建全的制度,忙替現實與理論的差距找「藉口」,而非動輒懷疑選舉舞弊,也許我們應該慶幸活在這樣一個廉潔的地方。
學術參考:
M. Sambridge, H. Tkalčić, A. Jackson (2010), “Benford’s Law in the Natural Sciences,” Geophysical Research Letters 37, L22301. doi:10.1029/2010GL044830
Boudewijn F. Roukema (2009), “Benford’s Law Anomalies in the 2009 Iranian Presidential Election,” arXiv:0906.2789
R. M. Fewster (2009), “A Simple Explanation of Benford’s Law,” The American Statistician 63, 26-32. doi:10.1198/tast.2009.0005
Theodore P. Hill (1998), “The First Digit Phenomenon,” American Scientist 86, 358.
Theodore P. Hill (1995), “A Statistical Derivation of the Significant-Digit Law,” Statistical Science 10, 354-363.
其實好難知道的,始終選舉舞弊是暗的東西。
回覆刪除點解無0 既?
回覆刪除好有趣!
回覆刪除回樓上:我想「0」為「頭」時,整個數字根本就少了一個位,直接用字頭而已,與多少個位無關。即是「12312321」字頭是「1」,「178」的字頭,也是「1」。
香港人不會動輒懷疑選舉舞弊, 但小規模的選舉舞弊一直存在, 種票及賄選的案件久不久就在報章出現, 至於大規模的選舉舞弊似乎仍未發生. 不過, 溫水煮蛙式的變相種票及賄選一直持續進行, 當權者實在毋須採取大規模的選舉舞弊手段.
回覆刪除我從前都試過套用Benford's law於舞弊調查中,但發覺在實際上很難應用得到.
回覆刪除