2011年6月1日 星期三

我受一杯通心粉困擾的故事


請看圖,估吓杯中有多少粒通心粉?那是同一個杯,從側面及從高處望。

§

也許大家見過一本書《The Wisdom of Crowds》,此書歌頌「群眾的智慧」,例如,估計一隻牛有多重,估計一間房的溫度,估計廣場聚集了多少人,估計杯中有多少粒通心粉,答中的機會很微,每人亦有不同的計算,但將所有估計平均起來,便十分接近正確答案。

電視問答遊戲通常有種「寶物」,容許參賽者茫無頭緒的時候,詢問現場甚或全港家庭觀眾,借群眾的智慧渡過難關。世上亦有不少所謂 prediction market,把一些將來之事當作股票般買賣,借其市價預測該事件發生的可能。馬場可說是 prediction market 之一,馬匹的賠率反映了群眾整合所有因素(如馬匹狀態、騎師、賽道、天氣)後得出的期望。某些政府鼓吹碳交易,冀借群眾智慧去「發現」碳排放的定價。經濟學之「有效市場論」,更把群眾擺上神枱,指所有資訊已在資產價格上反映,價格一定是「對」的,群眾也必然是「對」的。

然而,如果市場真的這麼「有效」,股市便不會狂升暴跌,經濟亦不會 boom and bust;如果群眾真的這麼有智慧,賭場和馬場便不會賺得盤滿砵滿。我真的懷疑群眾是否如《The Wisdom of Crowds》說的那麼睿智,決定親身做個實驗 -- 那滿載通心粉的杯便是我的實驗。

為了省卻到處約見朋友的麻煩,我借現代科技之便,拍下相片然後電郵給朋友,請他們猜一猜。不賣關子,正確答案 274,且看群眾智慧如何。

電郵寄出幾分鐘後,友人甲回應:264!……我凝望着,震驚,良久不能說話,這人是不是有什麼超能力?

鎮定下來,畢竟只是一人之言,還看其他人怎估。群眾有沒有智慧,很快便知。

§

「三個臭皮匠,勝過諸葛亮」,國人早已知道群眾的厲害,但這只是籠統的說法,有數據支持的說法要待至 1907 年。

當年,英國普利茅斯舉行一年一度的禽畜展覽,其中有個比賽,猜一隻肥牛的重量,最準繩者有獎。參與者獲發一張票,寫上姓名、地址和肥牛重量的估算,大會派出約八百張競猜票據。比賽完畢後,一位稱 Francis Galton 的人兄收集全部票據,根據估算大小排序,由最小的 1,074 磅排列至最大的 1,293 磅,中位數為 1,207 磅(儘管此人並非獲獎),平均值為 1,197 磅。肥牛真正重量多少?1,198 磅,可見平均值及中位數均與正確答案非常接近。參與比賽者不乏養牛戶及屠宰戶等買賣牛隻的「專家」,很多專家估計都不及群眾平均值準繩,這就是群眾智慧的表現。

此後,不少心理學家作過同類實驗,有的猜房間溫度,有的猜兒童智商,有的數波子,大致上肯定了群眾的智慧 -- 集體意見的平均,往往比個別估算來得準確。

有整個世紀的先例可援,杯中通心粉應該難不倒我的朋友,更何況友人甲已經證明,我的朋友絕非泛泛之輩。

§

數小時後,收到友人乙回覆,她說:50!……我凝望着,震驚,良久不能說話,這人明不明白我在問什麼?

鎮定下來,明白不必大驚小怪;今次低估,下次高估,令平均值徘徊在正確答案附近,不正是群眾智慧的精髓嗎?再者,群眾真的有智慧的話,一人的誤判不足以左右大局。

再過半小時,友人丙回覆:138。

又過數小時,友人丁說:70……我凝望着,忐忑,為什麼還未見一次高估?難道群眾的智慧在我身邊的群眾失效?抑或群眾沒錯,是我數錯了通心粉的數量?(那杯通心粉不能重覆再數,因為我已經煮來吃了。)

長話短說,一共收回二十個答案(其中包括信報副刊編輯和記者,多謝),為表對每位參與者的感謝和尊重,在此列出全部答案(由小至大):50, 50, 70, 98, 123, 125, 128, 130, 138, 140, 183, 200, 216, 220, 224, 264, 288, 300, 389, 400。平均值為 187,離正確答案 32% 之遙!(正確答案:274)

二十個估算之中,十六個低於正確答案。我凝望着,不解,群眾的智慧怎會在我身邊失效?抑或群眾沒錯,是我數錯了通心粉的數量?我開始懷疑,會不會是照片缺乏立體感,令人誤判?拿着實物有幫助嗎?

於是,我拿同一個杯,再倒一杯通心粉,數一次,277 粒。為免數錯,請父親再數一次,也是 277 粒。與第一杯相差無幾,即是第一杯應該沒有數錯。

我用保鮮紙把杯口封好,放進背包,帶回辦公室,打算找同事幫一幫忙,希望實物能夠挽回群眾的智慧。途中,我在想,如果群眾如此輕易被照片「誤導」,那群眾的智慧豈非十分脆弱?

§

瑞士某大學,正進行一次心理實驗,參與者被問及一些關於瑞士的常識,如該國的人口密度、罪案率等,不得溝通,這是測試群眾智慧的標準模式。一次作答後,所有人的答案都會公開,每人可根據這些公開資訊修正自己的答案,作答第二次。第二輪作答過後,所有人的答案又會公開,讓參與者修正答案,作答第三次。如此類推,共作答五次。雖說參與者不得溝通,但公開答案與溝通無異,資訊流通會怎樣左右群眾意見呢?

首先,答案範圍會收窄,群眾意見趨向一致。一致不打緊,有沒有更正確、更準繩呢?沒有,群眾有時甚至「自我引導」至離開正確答案更遠的地方。不準繩也罷,有沒有「自我感覺良好」,覺得自己更準繩呢?有,當自己的答案與大伙兒一致,管它正確不正確,總之自己覺得自己正確,這才是致命傷。

一言蔽之,這次實驗顯示資訊流通非但不能增長群眾的智慧,甚至可能「誤導」群眾,令人「自我感覺良好」,「誤入歧途」而不自知。

在實驗室「單純」的環境尚且如此,何況在人人搞公關、處處有人操縱資訊的現實世界?群眾智慧在日常生活能否發揮,我真懷疑。我不敢說群眾沒有智慧,但群眾的智慧顯然是脆弱、有條件的。

§

回到辦公室,拿出通心粉放到桌上,還未開口,已引來一些同事好奇的詢問。我逐一邀請他們猜一猜杯中通心粉多少,並強調獨立判斷的重要,不要把自己的估算告訴別人。他們的踴躍令我喜出望外,不消半天便得八人響應,加上當天晚上約會的三位友人,共十一人參與。

答案由小至大:138, 150, 180, 200, 220, 250, 350, 352, 380, 420, 499。平均值為 285,離正確答案只有 3%!(正確答案:277)

不錯不錯,群眾果然有智慧。第一次失敗,由於沒有手拿實物。我亦學會一件事,獲取正確答案是沒有捷徑的,電郵和照片取代不了活生生的實物。

我凝望着照片,疑惑。照片清楚顯示玻璃杯的長闊高,理論上包含充足資訊供人估計通心粉數量,群眾怎能「視而不見」?如此容易誤導的智慧,沒有實物便沒有智慧的智慧,算不算智慧?


(2011 年 6 月 1 日 信報副刊)

學術參考:
Jan Lorenz, Heiko Rauhut, Frank Schweitzer, Dirk Helbing (2011), “How Social Influence Can Undermine The Wisdom of Crowd Effect,” PNAS. doi:10.1073/pnas.1008636108

I. Lorge, D. Fox, J. Davitz, M. Brenner (1958), “A Survey of Studies Contrasting The Quality of Group Performance and Individual Performance, 1920-1957,” Psychol Bull 55, 337–372.

F. Galton (1907), “Vox populi,” Nature 75, 450.

9 則留言:

  1. 作者已經移除這則留言。

    回覆刪除
  2. 的確影張相係好易被誤導的。你又令我想起小學數學科的估算,一袋提子乾有幾多粒。

    回覆刪除
  3. 我沒刪除任何人的留言,可能是 blogger 故障。

    回覆刪除
  4. 其實數據還不能作準吧:一個佔100粒,一個佔454粒,平均值是 277,但兩者分別與正確答案的誤差也有過百粒之遙!

    回覆刪除
  5. 不要着重個別估算,重點是所有估算的結合。

    當然,(100+454)/2 = 277 缺乏說服力,但缺乏說服力的原因在於二人的 sample size 太小,並非個別估算偏離太遠。

    回覆刪除
  6. 澄清返第一個留言是本人自行刪除的。由於有錯漏。

    回覆刪除
  7. Have you thought that email's picture may not give enough information to individual for guessing the actual number of Macaroni but you can increase the sample guessing number that may approach to the actual number? The real thing should always provide more information than a picture. That's why people prefer buying a book online while going to a fashion retail shop by themselves.

    回覆刪除
  8. Can I increase the sample guessing number?

    當然可以。由於時間所限,我沒有。從那收回的 20 個答案來看,我不認為增大 sample 會有任何分別,偏低得實在太多了。

    The real thing should always provide more information than a picture ...

    說得沒錯,實物提供資訊固然較多,但照片的資訊還是「足夠」的(數通心粉而言),你說不是嗎?

    回覆刪除