2011年1月26日 星期三

從 @%#^& 談到暴力罪案

「&%@^ ...... #&@#$ ......」

「...... %^&@#$ ...... %&#&@$ ......」

&$%#,自從隔壁搬來新住戶,我便家無寧日。他們一家十口,出入頻繁不在話下,還要每天吵架,粗言穢語橫飛,弄得我心煩氣燥,尤其當要趕稿的時候。

我與妹妹同住,一家兩口,衝突當然少得多,一星期才吵架一次。這是否代表我家比鄰家平和呢?

鄰家人多,我家人少,單看吵架次數不公平,正如國家貧富不應看整體 GDP,要看人均 GDP。判斷家庭和順,不應看整體吵架次數,應看人均吵架次數。

論人均吵架,我家每週 0.5 次,鄰家起碼 0.7 次。結論:我們的確比他們平和。我感到自豪。

然而,人均亦未算公平。屋中人多,人與人的接觸亦多,這是不爭的事實;可是人與人的接觸和人數不是同步上升的,前者比後者上升得更快。舉例,一家兩口,兩人之間只有一個接觸面。加一人,此人與原來兩人各形成一個新的接觸面,即這三口人家現有三個接觸面。再加一人,此人與原來三人各形成一個新的接觸面,現在一家四口,共六個接觸面,與原來一家兩口比較,人數雙倍,但接觸面六倍。以學術界的術語,接觸面以「非線性」(nonlinear)上升,我選擇一個較為傳神的說法,稱此為「超正比」上升。

鄰人一家十口,共有四十五個接觸面,即使每天吵架三次(一週二十一次),每接觸面每週只有 0.467 次。反觀我家,一個接觸面每週吵架一次,遠超鄰家的平均值。以這個標準衡量,鄰家比我家平和得多,我不應沾沾自喜。

這故事給了兩個啟示。一,人的群體行為往往都是超正比的;二,超正比上升的數值不應以人均作比較。

人只要聚在一起,便有超正比的事情發生,磨擦和衝突是負面的例子,正面例子不難想像。不少電影裡,一位鄉村長大的年輕人十分嚮往大城市的生活,為什麼?一言蔽之,城市生氣勃勃,充滿機遇,是有抱負的人一展拳腳的舞台。城市人口密集,方便訊息和貨物的流動,促進生意買賣,造就各行各業。事實上,社會絕大部分財富、創新和發明都是在城市孕育出來的,城市有這種功能,正是人口密集帶來的超正比好處,即使沒有數字量化,從經驗已能感受到。超正比較通俗的說法包括「synergy」、「1+1=3」、「The whole is greater than the sum of its parts」。

用數學方法表達也不難,一組學者找來三百六十個美國城市的數據,發現這些城市的總產值以其人口的 1.123 次方遞進。舉例,假設城甲的人口是城乙的 2 倍,那甲的總產值便應該是乙的 21.123 = 2.18 倍,總產值增長超過人口增長,這就是超正比增長。此外,暴力罪案宗數也有類似傾向,以人口的 1.174 次方遞進,即城甲的暴力罪案應該是城乙的 21.174 = 2.26 倍。發明專利權亦呈相同現象,只是次方的數值不同。換句話說,一市的總產值、暴力罪案和科研能力均與人口呈不同程度的超正比關係。

上說城甲的某項數字「應該」是城乙的多少倍,說「應該」,因為次方值是從三百多個美國城市得出來的平均值,並非任何兩市的實際比例。以上模型可視為一個標準,衡量某市某方面「達標」與否,從而替城市排名。哪些城市最富有、最創新、最安全?一些知名城市是否如想像中富有、創新、治安差?

經人口調節後,紐約原來很平庸,它不算富有(總產值排第 184),不算有創意(專利排第 178),治安也未算太差(暴力罪案排第 267)。

三藩市在大型城市中最為突出,它很富有(總產值排第 27),很創新(專利排第 19),也頗安全(暴力罪案排第 181)。

洛杉磯與紐約鬥平庸,總產值排第 231,專利排第 155,暴力罪案排第 197。

公認為矽谷首都的聖荷西(San Jose),不負眾望,非常富有(總產值排第 3),非常有創意(專利排第 2),治安不太差(暴力罪案排第 260)。

美國首都華盛頓,總產值排第 40,專利排第 216,暴力罪案排第 203。

沒法盡錄,有興趣的讀者可到這裡瀏覽。

我嘗試照辦煮碗,把模型搬來亞洲,原本打算比較香港、新加坡、台北、首爾、東京,礙於搜集資料費時(沒有單一資料來源),現在只能比較香港和新加坡。讀下去之前,有一點必須提醒,香港和新加坡這兩個城市與美國城市最重要的分別,是「城市」的定義;港新兩地都有自己的主權和清晰的邊界,其統計數字大致上沒有灰色地帶;美國城市沒有清晰的地理界定,學者們因此需要借助其他分析來斷定該市的人口和總產值等;由於「城市」的定義不同,美國的研究未必適用於港新兩地,這裡讓我姑且一試,看看得出什麼結果。

我找出港新兩地 2009 年的人口、GDP 和暴力罪案宗數(放棄了專利數字,時間所限太難找)。香港人口七百多萬,新加坡人口近五百萬,我們人口是人家的 1.41 倍,根據上述研究,GDP 以超正比遞進,香港的 GDP「應該」是新加坡的 1.411.123 = 1.47 倍。實情呢?香港 GDP(2,074 億美元)只有新加坡(1,822 億美元)的 1.14 倍。三個可能性:香港創富效率不佳,或新加坡創富效率奇高,或那 1.123 次方不適用於亞洲,或上述可能性的任何組合。

再看暴力犯罪。香港把暴力罪案定義為「包括強姦、非禮、兇殺、傷人及嚴重毆打、刑事恐嚇、行劫、勒索、縱火、綁架及拐帶兒童」,新加坡沒有這個分類,卻有「Crimes Against Persons」和「Violent Property Crimes」兩個類別,我自行定義,取二者之和當作暴力罪案宗數。上面說過,暴力罪案的次方值是 1.174,故香港的暴力罪案「應該」是新加坡的 1.411.174 = 1.50 倍。實情卻是,香港暴力罪案(14,217 宗)是新加坡(5,119 宗〔PDF])的 2.78 倍。三個可能性:香港警察非常盡責,或新加坡警察無所事事,或那 1.174 次方不適用於亞洲,或上述可能性的任何組合。(其實可能性遠超三個,這裡未能盡錄。)

城市很多超正比現象,這點無容置疑,但超正比背後的原因,什麼導致那 1.xxx 的次方值,便沒有答案了。知道問題,未必懂得解決問題。香港創富效率未如理想,暴力罪案率高,我與妹妹不和睦,這些問題,縱使知道存在,我們又有沒有足夠的決心、智慧和勇氣去徹底解決呢?超正比只是表象,所有能以數字量化的都是表象。香港就是有太多像我這樣的人,不斷在社會表象上游走,好像很高深,但從來沒有踏踏實實地改變一些我們有能力改變的事。

(2011 年 1 月 26 日 信報副刊)

很多城市特性隨人口的次方遞增,是去月提過的 power law 的另一版本。以圖顯示,紅點是美國 360 個城市,log 其人口作橫軸,log 其總產值(GMP,Gross Metropolitan Product)作縱軸,成一直線。我自行繪上香港和新加坡作比較。


學術參考:
Luı´s M. A. Bettencourt, Jose´ Lobo, Deborah Strumsky, Geoffrey B. West (2010), “Urban Scaling and Its Deviations: Revealing the Structure of Wealth, Innovation and Crime across Cities,” PLoS ONE 5(11), e13541. doi:10.1371/journal.pone.0013541

Luís M. A. Bettencourt, Jose´ Lobo, Dirk Helbing, Christian Ku¨hnert, Geoffrey B. West (2007), “Growth, Innovation, Scaling, and The Pace of Life in Cities,” PNAS 104, 17, 7301–7306.

2011年1月24日 星期一

2011年1月19日 星期三

渣打馬拉松的第二件「秘密武器」

第二件,因為去年已經介紹過第一件

去年提議大家跑步時不應腳跟先着地,改以前腳掌或平腳掌着地,這會減輕撞擊力,降低受傷機會,也可跑得快些。這件一年前面世的「武器」已經不再「秘密」,要在今屆渣打馬拉松精益求精,必須一件新的「秘密武器」。

馬拉松全長 42.195 公里,很多跑手在三十多公里會遇上所謂「撞牆」(hit the wall)的困境。我未跑過馬拉松,未能親身「撞牆」,從閱讀所得,「撞牆」簡單來說就是「累至跑不動」。可否用意志捱過呢?這不是意志問題,是生理現象。

首先看看馬拉松的能量需求。長跑有一條很易記的法則,每公斤體重每跑一公里需要一卡路里,假設典型體重 70 公斤,馬拉松便需要(42.195 x 70),約 2950 卡路里。注意,能量需求與跑速無關,快跑當然耗能較快,但完成賽程需時較短,兩者相抵,總能量需求不變。

能量需要燃料,身體有兩種「燃料」:碳水化合物和脂肪,前者包括血液中的葡萄糖及儲存於肝和肌肉的糖原(glycogen),後者不用我多說,皮下脂肪、肚腩、拜拜肉,滿佈全身。以重量計,保持運動的女性有 20% 是脂肪,保持運動的男性有 10% 是脂肪,精英運動員脂肪更少,例如米高佐敦只有 4% 脂肪。每公斤脂肪提供 9000 卡路里,以一位重 70 公斤、有 4% 脂肪的人為例,其脂肪所儲存的能量足夠跑八次馬拉松有餘。

脂肪儲存的能量絕對足夠應付一次馬拉松,怎麼還會撞牆呢?

問題出在合適的燃料。脂肪的能量值雖然高,但不適宜劇烈運動,它釋放能量的過程耗氧量大,適合運動強度低、氧氣充足的情況;當運動量加強,身體會逐漸轉用碳水化合物這種效率較高的燃料;任何時間,身體不會「獨孤一味」燒一種燃料,而會因應運動強度調節兩種燃料的比例,運動愈劇烈,消耗碳水化合物愈快。

現在問題來了,身體儲存的碳水化合物不如脂肪多,不夠一次馬拉松,如果初段過份急進,碳水化合物便會中途用盡,單靠脂肪維持不了原來步伐,跑手被逼慢下來,甚至停下,這一刻就是「撞牆」。撞牆不是用盡能量儲備,只是用盡碳水化合物儲備。當然,避免撞牆很簡單,只要慢慢跑,保持輕鬆步伐,用脂肪多過用碳水化合物,那碳水化合物便不會中途用盡了;只要跑得夠慢,「牆」便永不出現。這不失為一個方法,卻違背了跑馬拉松挑戰自己的原意,我們想尋求的,是一個最佳步速,恰好在終點前用盡碳水化合物,達到我們能力以內的最佳時間。衝線一刻才撞牆,多硬的「牆」也不怕!

數月前,一位馬拉松愛好者、在麻省理工任教的 Benjamin Rapoport 發明了一條方程式計算最佳步速,還製作了「耐力計算器」網站,大家不必懂數學,只要懂上網便可應用方程式,這就是第二件「秘密武器」,你只要輸入性別、年齡、VO2max 等資料,網頁便會計算最適合你的馬拉松步速。

VO2max 是什麼?身體使用氧氣,呼出的氧氣永遠少於吸入的氧氣,兩者之差稱為「VO2」或耗氧量,「V」的由來是「ventilation」;VO2max 就是最大耗氧量,代表某人運用氧氣的機能,愈高表示體能愈好;五十歲以下男性的 VO2max 通常在 35 至 45(單位:毫升/公斤.分鐘),會隨年齡消減,頂級長跑好手可達 70 以上。最準確量度 VO2max 的方法是走進實驗室,戴上連接空氣分析儀的氧氣面罩,在跑步機上跑;一般人沒有這樣先進的儀器,可用心跳頻率估計,詳情不贅,有興趣的讀者可自行上網搜尋;怕麻煩的,假設 VO2max 為 40 亦無不可,反正這件「武器」不是十分精準的類型。

說它不十分精準,有原因的。Rapoport 的方程式除了必須知道你的 VO2max,也須知道你的肝糖密度、大腿肌肉重量及含糖量等(這些關乎碳水化合物儲備的變數,當然需要知道),這些數值因人而異,但一般人根本沒法得知,故實際計算以典型數值代入。典型數值儘管有根有據,始終不是為個人度身定造,得出的結果有多符合個人需要,真不知道。然而,拿着一件不太精準的「秘密武器」,總好過「赤手空拳」吧。

最後讓我打個岔,談談賽道。今年渣打馬拉松以尖沙咀彌敦道為起點,經西九龍,青衣,青馬大橋,掉頭再返西九龍,經西隧過海,以維園為終點,有點「帶人遊花園」的感覺,兜兜轉轉跑了 42.195 公里,終點還不過離起點三公里。原來這也是有原因的。國際田徑聯會的規例建議,公路賽起點和終點的直線距離,不應超過比賽距離的一半,對馬拉松而言,即起點和終點不應相隔超過 21 公里。這樣的建議,差不多強逼賽會帶跑手「遊花園」,為什麼要這樣?目的為了抵消風的影響,避免跑手全程受到順風的協助。是不是杞人憂天?

歷史悠久的波士頓馬拉松,其賽道近乎單向,有點似羅湖跑至紅磡。1994 年,受到順風的協助,很多跑手造出驚人的個人最佳時間,此後再沒逼近當日成績。可見順風的確有幫助,亦是現代馬拉松喜歡「帶人遊花園」的原因。

離比賽還有一個月,有參加渣打馬拉松的讀者,祝你們今年更上一層樓!

(2011 年 1 月 19 日 信報副刊)

學術參考:
Benjamin I. Rapoport (2010), “Metabolic Factors Limiting Performance in Marathon Runners,” PLoS Computational Biology 6, 10, e1000960. doi:10.1371/journal.pcbi.1000960

2011年1月17日 星期一

人車合一

Danny MacAskill,「skill」溶入了姓氏,人如其名,人車合一。

2011年1月15日 星期六

州可敵國

無論 GDP 或人口,美國一個州抵得上別人一個國家。

中國呢?一省的人口應該也抵得上別人整國人口,但 GDP 就未必夠大了,除非只與一些非洲小國或太平洋島國相比。中國國力超越美國,暫時只屬空談。

點擊「Population」按鈕,會見到香港等於華盛頓州(地圖左上角),香港人口多過很多州份呢。


取自 The Economist

2011年1月14日 星期五

聖母降臨?

去年攝於瑞典斯德哥爾摩。大氣層的冰粒好像一塊透鏡,散開了太陽。英文叫 parhelia,俗稱 sundog,中文叫「幻日」。

Source: New Scientist

其他幻日照……



2011年1月13日 星期四

動態色盲

看看以下片段。起初,圓點靜止,而且不斷轉色;當它們開始旋轉,你便看不見它們轉色,儘管它們仍然在轉色。這是又一種 change blindness



Source: New Scientist, Harvard

2011年1月12日 星期三

球場變了火車站?

「依吖」……「依吖」……「依吖」……

我不是在偷聽鄰居造愛,也不是睇緊四仔,我正在維園網球場觀看香港網球精英賽,美國網球員維納斯威廉斯的賽事,那是她擊球時的呻吟聲。

大家知不知道她的聲量有多大?八十五分貝。

八十五分貝有多嘈吵?根據環保署網頁,當柴油火車經過,站在二十五米以外的噪音是八十分貝。威廉斯嘈過柴油火車,球場變了火車站。

前世界第一娜華蒂露娃曾經說過:「呻吟已經到了一個不能接受的地步,這根本就是作弊。」她還說:「呻吟影響我,因為聽見球拍的擊球聲是非常重要的;一次差的擊球,耳朵首先聽到,然後眼才看到。擊球聲是球賽不可分割的一部分。」「從前,艾華特和我從不作聲,今天的費達拿也不作聲,咆哮不會令你成為更優秀的球手,甚至有反效果,一場球賽嘶叫上千次簡直是浪費氣力。」

威廉斯的妹妹莎蓮娜卻有異議:「我時而發聲,時而安靜,呻吟並非我刻意所為。我只是專注打自己的球,對手呻吟於我毫無影響。」

莎蓮娜的呻吟聲達八十九分貝。兩姊妹都嘈過柴油火車。

開風氣之先是九十年代、前世界第一莎莉絲,她雖然不是第一位在球場上咆哮的球手,但肯定是當時嘶叫得最刺耳的球手。她的聲量達九十三分貝。

九十三分貝有多嘈吵?路邊掘地用的風炮,站在十米以外的噪音是九十分貝。莎莉絲嘈過風炮。

1992 年溫布頓決賽,莎莉絲面對嘉芙。由於曾被投訴,莎莉絲被逼「調低聲浪」。結果,她輸了

呻吟不是女性的專利。嘉芙現任丈夫、從前人稱「壞孩子」的阿加斯,也曾遭投訴。1988 年美國公開賽準決賽,蘭度向球證投訴阿加斯在重要分數時會提高聲浪,球證認為阿加斯沒有任何不當行為,沒對阿加斯作出正式警告,只是無稜兩可地叫他「調低聲浪」了事。最終,阿加斯落敗。蘭度說:「每逢重要時刻,他的嘶叫聲便大大提高,打亂了我的節奏。」

如今,呻吟成了網球比賽的「常態」,尤其女子賽事。今天很多著名球手,其呻吟也「馳名於世」,男子有拿度,女子有威廉斯姊妹,還有俄藉美女舒拉寶娃。

舒拉寶娃達一○一分貝。從前啟德機場,飛機在離地不足一百米的上空飛過時,噪音「只」達一百分貝。舒拉寶娃嘈過降落啟德機場的飛機。

論聲浪之大,舒拉寶娃未算第一。2009 年法國公開賽,葡萄牙新星迪比圖(Michelle Larcher de Brito)錄得一○九分貝的「巨響」。若你站在打樁機十米範圍以內,你聽到的是一一○分貝。換句話說,迪比圖與打樁機不遑多讓,球場變了建築地盤。

被問及其「超級巨響」時,迪比圖說:「我也不是第一人啊,莎莉絲和舒拉寶娃都是這樣,我只不過嘈佢哋少少啫。」

少少?簡直信口開河,讓我跟迪比圖算一算賬。聲音其實是空氣的壓力波,壓力愈大即聲浪愈大;人耳非常靈敏,能夠接收的聲壓範圍非常廣,由最微細的竊竊私語到震耳欲聾的噴射引擎,後者的聲壓可能是前者的一億倍,如此廣泛的數值,怎樣濃縮至一個較易表達的範圍呢?最簡單的方法是用對數(logarithm),把聲壓以對數濃縮,便是分貝;由於分貝是一個經「濃縮」的數字,兩個相差無幾的分貝值,其代表的聲壓可以相差很大。迪比圖比舒拉寶娃高出八分貝,比莎莉絲高出十六分貝,「嘈佢哋少少」看似說得過去,然而換算為聲壓值,迪比圖的聲壓是舒拉寶娃的 2.5 倍,是莎莉絲的 6.3 倍,這是不是「少少」呢?恆生指數升了 2.5 倍或你的股票升了 6.3 倍,又算不算「升咗少少」呢?

另一更重要的問題,是呻吟聲會否影響打球?球員們各說各話,真不知相信誰,幸好幾個月前,有個實驗探討過這個問題。實驗找來三十三位有網球經驗的大學生,給他們觀看一些職業球手的打球片段,片段在擊球一刻終止,他們需要盡快猜測網球將會飛向左方還是右方。其中一半片段,於擊球一刻會同時播出半秒雜音,模擬呻吟聲;雜音只有六十分貝,用來模擬呻吟可說非常保守。實驗結果,呻吟聲之下,猜測的速度和準繩度均會下降,換句話說,受試者對來球的反應慢了,亦差了。反應時間一般慢了二、三十毫秒(千分一秒),有多重要呢?現今職業網球賽,發球時速輕易超過一百英里,一般底線抽擊保守估計也有五十英里,二、三十毫秒等於網球飛行兩尺,重要不重要?你和我放假打網球,兩尺可能不重要;在頂尖水平的比賽,在排名第一和第二的收入可能相差以百萬美元計的職業球壇,你說重要不重要?

當然,實驗室未必反映球賽實況,實驗裡的大學生亦非職業球手,但這次實驗無疑替呻吟影響對手提供證據。正在呻吟的球手會不會呻吟得更厲害?未有呻吟的球手會不會開始呻吟?球例會不會考慮規範呻吟呢?

身為現場觀眾的我,最關心當然是我的聽覺。長期處於八十五分貝以上,聽覺便可能受損,受損程度視乎聲浪大小和持續多久;曾有學者指出,每天聽兩小時九十一分貝的音樂,聽覺便會受損。很明顯,如果球場有個威廉斯、舒拉寶娃、迪比圖或任何一位喜愛呻吟的球手,這已是對聽覺的一種威脅。威脅有多大?一場三盤兩勝的單打比賽,一位球員擊球三百至五百次,讓我取中間值,即四百次。假設呻吟像說一個中文字,再假設每秒可說四個中文字,即每次呻吟維持四分一秒。四百次呻吟,每次四分一秒,即每場會有一百秒噪音,假設場上只有一個威廉斯的話(如果兩位都是呻吟愛好者,噪音時段雙倍)。觀看網球雖然威脅聽力,幸好威脅還未至太大。

我終於明白莎蓮娜為何視對手呻吟如無物,因為她自小咆哮慣了,經年累月,聽覺早已受損,早已聽不見對手球拍擊球之聲,甚至連對手呻吟也聽不見,是故她打球全靠視覺,不像娜華蒂露娃視聽兼用。

想着想着,球賽結束,耳朵剛剛承受了一百秒的噪音沖擊。幸好香港網球精英賽一年舉辦一次,我的聽力被世界頂級球星摧毀,看來遙遙無期。

(2011 年 1 月 12 日 信報副刊)

註:文中球手的分貝值參考這本雜誌,在第八頁。

舒拉寶娃和威廉斯同場較量,即飛機遇着火車頭,噪音前所未有……



再聽聽迪比圖的「超級巨響」……



學術參考:
Scott Sinnett, Alan Kingstone (2010), “A Preliminary Investigation Regarding the Effect of Tennis Grunting: Does White Noise During a Tennis Shot Have a Negative Impact on Shot Perception?” PLoS ONE 5, 10, e13148. doi:10.1371/journal.pone.0013148

J. Fernandez, A. Mendez-Villanueva, B. M. Pluim (2006), “Intensity of Tennis Match Play,” British Journal of Sports Medicine 40, 387-391. doi:10.1136/bjsm.2005.023168

2011年1月10日 星期一

雀仔都識釣魚

原來雀仔都識釣魚,下面這隻鷺鳥把一些食物放到水中作為「魚餌」,等魚兒游來覓食,伺機偷襲。好聰明!


Source: The Scientist

2011年1月5日 星期三

萬卷書變身文化晴雨計

不建高鐵,香港怕被邊緣化;不建第三條跑道,怕航空樞紐地位不保;內地發展金融業,怕丟失金融中心的名銜;徵收遺產稅,怕資金逃往新加坡。

說得好聽一點,香港「居安慮危」,正合溫總的訓示。從壞處看,香港人心惶惶,草木皆兵,我們真是這樣不濟嗎?

市場學有所謂「品牌知名度」,最重要是人家知道你的存在,聽過你的名字,你有話題談論;一個有價值的品牌,必須街知巷聞。香港堪稱亞洲國際都會,是否名符其實呢?在外國人心目中,亞洲哪個城市最具知名度?

網上最大搜尋器谷歌,正在掃瞄數以百萬計的書本,讓網民查閱,至今共掃瞄超過一千五百萬本(所有書的 12%),出版日期遠至四百多年前;這一大堆文字經過整理,可供各式各樣的統計和研究,片言隻字、流行用語、各類名詞、動詞、形容詞的興衰起跌,標誌着文化的變遷。

一千五百萬本書,沒可能人手整理,谷歌採用字體辨識技術,把工序自動化。由於紙張、印刷等參差,只有約五百萬本(所有書的 4%)的掃瞄質素容許自動辨識,其中英文居多,法文、西班牙文、德文、中文、俄文、希伯來文都有,最舊的書籍遠至十六世紀。早期每年只得寥寥數本作品,不夠字數作有意義的統計,1800 年增至每年六千萬字,1900 年達十四億字,2000 年達八十億字。八十億字有多少?通常洋人每分鐘閱讀 200 字,不吃不睡也要八十年才讀完;不要忘記,這只是所有書的 4%,是現代「資訊泛濫」的另一寫照。

普通人都可以查看這些資料,谷歌有個 Books Ngram Viewer,只要輸入詞彙,便可看到歷年用字的興衰起跌。單字叫「1-gram」,兩個字的 phrase 叫「2-gram」,三個字的 phrase 叫「3-gram」,如此類推,故有「Ngram Viewer」之名,不僅可以查看單字的頻率,也可查看 phrase 的頻率。

亞洲哪個城市最具知名度?香港的對手,我首先想起新加坡,再而東京,我輸入「Hong Kong,Singapore,Tokyo」,得下圖:


可見香港在八十年代超越新加坡,數年後再超越東京。東京由 1990 年開始下滑,相信與日本經濟衰落不無關係。留意上圖截至 2000 年,十年人事幾番新,近十年的知名度有何變化,圖中沒有顯示。據我的觀察,Ngram Viewer 的數據近至 2008 年,可是 2000 年後三個城市的「見書率」不約而同大幅下滑,我懷疑谷歌尚未完全掃瞄近期書籍,2000 年後的數據暫時未必完整。那 2000 年的數據肯定完整嗎?以 2000 年為截止有何根據?首先,Ngram Viewer 的預設年期為 1800 年至 2000 年。其次,一篇在學術期刊 Science 發表、以谷歌數據作基礎的研究也用 1800 年至 2000 年這個時段,看來以 2000 年作結應該是準確的。

中國城市中,香港知名度又如何?對手城市,我想起上海和北京,北京舊譯「Peking」,現譯「Beijing」,我輸入「Hong Kong,Shanghai,Peking,Beijing」,得下圖:


三、四十年代是上海的輝煌歲月。此外,留意「Beijing」在七十年代開始採用,代替沿用了一百五十年的「Peking」,上圖見證了慣用譯名的演變。

文首提過「邊緣化」一詞,來自英語「marginalized」或「marginalised」,這是近三十年才流行的用語,哪個串法較通行呢?


Ngram Viewer 也可搜尋中文字,它註明是「Chinese (simplified)」,令人以為只可搜尋簡體字,其實它繁簡體均適用,可是繁簡不能互通。舉例,輸入「國」字,它只會搜尋這個繁體字,不包括簡體;輸入「国」字,它只會搜尋這個簡體字,不包括繁體。繁簡體均可搜尋,但是獨立不互通。同時搜尋「國」和「国」,便知道繁體何時沒落,簡體何時興起。

已掃瞄的中文書籍,先於五十年代的十分少,不夠字數作有意義的統計,因此我把年限定為 1960 年之後。國內言文,強調人民、黨、國家、社會等概念,哪個最常提及呢?我輸入「人民,党,国家,社会」,得下圖:


黨包尾,有點驚喜。人民漸次低於社會和國家,是不是好現象呢?

溫家寶早前大談民主,大家不必見怪。下圖顯示,民主斷斷續續談了四十年,但一談改革,是經濟改革居多;民主依然在談,民主改革免問。


最後順帶一提,如果搜尋「共产主义」,必須在「共产」與「主义」之間加一個空白,這是英語主導的「後遺症」。上面說過,谷歌用字體辨識軟件分析掃瞄影象,英文詞與詞之間以空白分隔,非常易辦;中文沒有分隔詞語,辨識軟件看見「共产主义」四字,怎知是「共」「产主义」、「共产」「主义」還是「共产主」「义」呢?有些叫「segmenter」的軟件,懂得「共产」為一常用詞,「主义」為另一常用詞,故在兩詞之間加一個「虛擬」的空白,讓辨識軟件能把英文的分詞法用於中文。「共产主义」四字,載到資料庫裡拆成三行:「共产」這個單詞(1-gram)出現一次,「主义」這個單詞出現一次,「共产」「主义」這個雙詞 phrase(2-gram)出現一次。為了迎合資料庫的「口味」,當搜尋「共产主义」,我們必須主動分詞,在中間加一空白,資料庫才知道我們真正想搜尋什麼。

Ngram Viewer 很好玩,大家上網試試吧。

(2011 年 1 月 5 日 信報副刊)

學術參考:
Jean-Baptiste Michel, et al. (2010), “Quantitative Analysis of Culture Using Millions of Digitized Books,” Science. doi:10.1126/science.1199644

其他報導:Technology Review, Science News, Seed Magazine, Not Exactly Rocket Science, ars technica

免費贈送多幾幅圖……

那個中國聲稱屬於中國,日本聲稱屬於日本的地方,應該叫作「钓鱼台」,還是「钓鱼岛」?



二次大戰三巨頭加毛主席,誰最有名?(留意,羅斯福總統的父親堂兄也是美國總統,那 1920 年的「山頭」應該屬於他父親堂兄。此外,「Churchill」很明顯有其他用途,可能是地方名吧。)



資本主義、共產主義、法西斯主義、社會主義,哪種意識形態歷久常新?