2010年6月29日 星期二

足球統計起革命

我不是足球迷,家中只有免費電視,又懶得上網找直播,世盃資訊只有靠電視和網上報道。對我來說,今屆最「引人入勝」之處,不是上屆冠、亞軍慘淡出局,不是那個新款皮球,亦不是場上球星一舉一動,而是賽後重溫「驚喜」頻頻。

登上 ESPN 足球網站,除了射門、犯規、角球、越位、控球比率等見慣的統計數字外,竟然見到一幅前所未見的圖像,顯示每位球員在該場比賽的平均位置(average position),腦際即時泛起一個疑問:如何追蹤球員的位置?場上 22 位球員,是否需要 22 人搜集資料?不用人手的話,背後又是什麼樣的科技?

免費電視重溫賽果,往往附帶一些詡詡如生的動畫分析入球過程,這又是什麼回事?沒有實時追蹤球員位置,如此逼真的畫面製作不了。還是,依靠錄影片段繪成動畫?

原來,這是世界盃首次對球場上的「物體」引入實時追蹤,科技由一間名為 Tracab 的瑞典公司提供,根據其網頁,此系統的誤差少於 10 厘米,不單只追蹤所有球員,還包括三位球證和一個皮球,對球場上 26 件「物體」的位置瞭如指掌。世界盃這個世人觸目的大舞台,當然不會使用一些未經考驗的科技,Tracab 系統首於 2005 年瑞典皇家聯賽(Swedish Royal League)面世,後獲俄羅斯、奧地利、匈牙利、土耳其的本土聯賽、2008 年歐洲國家盃和 2009 年洲際國家盃採用,去年 6 月累積追蹤了 1,500 場賽事,「實戰經驗」不容置疑。

這項科技改良自軍用的飛彈導航技術,系統包括兩組相隔不少於 15 米的攝錄機,每組八個鏡頭,即 16 個鏡頭俯瞰全場,球場每一部分至少兩個鏡頭覆蓋,較擠擁的區域(如禁區)或許更多,以提高解像度。原理不難明,要決定一件物體的三維座標,最少需從兩個角度觀之,就像我們單眼視物沒有深度,必須雙眼才可認清物件的正確位置。某程度上,這系統比人眼更先進,球場某些部分是被三隻「眼」覆蓋的。大部分時間,系統懂得自動追蹤場上 26 件「物體」,遇上一些球員異常密集的情況(如開角球或圍着球證申訴),才可能需要兩位真人操作員介入。

打個岔,談談體育數據市場的生態。Tracab 的位置數據只是眾多統計項目的其中一環,世界盃還有一間綜合數據供應商,整合所有統計及相關資訊,並配上適當的畫面供給電視台。自 2002 年至今三屆世界盃,其綜合數據供應商是一間名為 Deltatre 的意大利公司。換句話說,先有 Tracab 的實時追蹤,再經 Deltatre 包裝內容傳至本地電視台,我們才得享免費的三維球賽動畫。

追蹤技術不是 Tracab 獨有,美國的 STATS LLC 亦擁有類似技術。今年 4 月,STATS LLC 獲得歐洲聯賽冠軍盃的追蹤技術合約,相信來年歐聯的統計數據必會愈來愈豐富。

說來諷刺,最流行的隊際運動是足球,數據最貧乏的也是足球。對棒球和籃球有點認識的讀者,必會發現足球的所謂統計是如何的粗糙;由於缺乏數據,球員的優劣亦難以量化,判斷全靠觀感。足球比賽的性質是其缺乏數據的底因,入球稀少不在話下,其流暢節奏使「可數的」項目十分有限,球員的貢獻往往「隱沒」在複雜的組織之下。幸好,有了實時追蹤的位置數據,我們能對每場比賽作巨細無遺的分析。Castrol Index 就是這樣一個嘗試,今屆世盃和去季歐洲各大聯賽,Castrol Index 都有用來替球員排名。對進攻的球員來說,每次傳球和觸球給一個分數,愈近對方龍門愈具威脅,分數愈高;防守方面,成功攔截便得分,愈近己方龍門得分愈高;此外,博得十二碼和自由球也有分數。參考其官方網站,基本的計分原理不難明,可惜細節欠奉。Castrol 是潤滑油製造商,Castrol Index 很明顯是市場推廣策略,計分法如潤滑油秘方,同屬商業秘密,不難理解。

透明一點的計分法也不是沒有,最近連學者也「加入戰團」,把網絡理論應用於判別球員優劣。想像你把某隊所有球員的號碼寫於紙上,排列不拘,抽象一點看,每位球員都是一「點」。另外再加兩個特別「點」:一代表「射中龍門」,一代表「射斜」。球賽開始,2 號把皮球傳給 3 號,你在紙上記錄,由 2 號那點畫一條箭咀至 3 號那點;3 號再傳球給 7 號,你再畫箭咀由 3 號指向 7 號;若干傳球後,10 號門前勁射,越楣而去,你便畫箭咀由 10 號指向「射斜」。如此類推,球賽完畢後,這張紙便記載了一個學術上所謂的「網絡」-- 很多「點」,點與點之間有多條「路線」連接。網絡中那一點最「重要」呢?最「重要」的一點可說亦是球隊最「重要」的一員吧。

計算某點的「重要性」方法很多,網絡理論有個「betweenness centrality」的概念,簡單來說,從網絡隨意挑選兩點,兩點之間會有一條或多條最短路線,最短路線未必直接到達,可能經過一些「中途站」;挑選另外兩點,會有另外一組最短路線和「中途站」。「中途站」處於兩點之間(between),某點當「中途站」的次數愈多,它的「交通樞紐」地位(centrality)便愈形重要 -- 擁有愈多 betweenness,地位便愈是 central 了。

一班學者用以上方法分析了 2008 年歐洲國家盃的實時追蹤數據,發現西班牙的沙維和拉莫斯表現最優秀,符合一般人的觀感。其實他們「醉翁之意不在酒」,只想借足球來驗證他們的構想,看看 betweenness centrality 對衡量隊員的功效,他們更關心的,是把這概念推廣至其他「團隊」,例如一間公司或一隊科研人員的運作。

有了實時追蹤科技,很多從未想過的統計都有可能,例如某球員的最高跑速、長/中/短傳百分比、高/中/低活動時段、控球和非控球的跑動里數、皮球速度、傳球距離,有用的,沒用的,想得出就有可能,大家可到 FIFA 官方網站的統計分頁參觀一下,便會見到一個充滿統計數據的足球新世界。

(2010 年 6 月 29 日 信報副刊)

學術參考:
Jordi Duch, Joshua S. Waitzman, Luis A. Nunes Amaral (2010), “Quantifying the Performance of Individual Players in a Team Activity,” PLoS ONE 5, 6, e10937.

2010年6月22日 星期二

虛擬現實變現實

今日,我會教大家做幾件無可能的事。

坐在桌前,桌上放一隻膠手套,然後伸手到桌子底下。找位幫手,給他兩只牙刷,同時輕掃桌面的手套和桌底下的手,掃法隨意,唯一要求是兩者必須「如影隨形」,同步如一。換言之,桌底感覺到的,和桌面所見「遙相呼應」。

集中注視桌面,不要往桌底望。幾分鐘後,你自會覺得手套變成身體一部分,這是第一件無可能的事,是經典的「膠手幻覺」(rubber hand illusion)。

第二件無可能的事,是令你變成一個人體模型(時裝店櫥窗那些)。在人體模型的頭上安裝兩部攝錄機,一左一右,鏡頭向下,就像一雙眼睛望着自己的腹部。然後,你戴上一副類似虛擬現實(virtual reality)用的頭盔顯示器(head mounted displays),把左右影像分別投射於雙眼,並俯下頭。感覺上,你是望着自己的腹部;視覺上,你是望着模型的腹部。找位幫手,叫他用棉花棒輕掃模型的腹部,同時也用另一枝棉花棒輕掃你的腹部,掃法不拘,但兩者必須同步。換言之,你感到腹部被觸摸,亦見到模型的腹部被同步觸摸。

幾分鐘後,你會覺得人體模型是你的身體。若不相信自己的「直覺」,可以叫助手用刀插向模型的腹部,你必會緊張得冷汗直冒。汗是水分,會增加皮膚的導電性,用電阻計便能量度你的緊張程度;愈是「投入」人體模型,你便會愈緊張。

我這麼肯定,因為有人做過實驗,證明這種幻覺真正存在。除了訪問,科學家還會以皮膚導電性(skin conductance)來驗證實驗對象的「一面之詞」。

第三件無可能的事:自己跟自己握手(不是左手握右手,而是站在自己對面,右手握右手)。再次需要一位助手,與你對立,他頭頂兩部攝錄機,鏡頭向前,對着你。你也是戴着頭盔顯示器,雙眼看見攝錄機的影像,即是看見自己。你倆伸出右手,作握手狀,兩手重複互相擠壓(不是輪流,是兩手同時擠壓)。換言之,你右手感到擠壓的同時,也看見鏡頭的右手被擠壓。

讀到這裡,不用我說,讀者應該猜中。幾分鐘後,你會漸漸代入助手的位置,感覺就像站在自己對面,跟自己握手。

大家應該漸漸領略「遊戲規則」吧,只要視覺和觸覺吻合,我們便會不期然地把一些物件、甚至第三身「據為己有」,腦袋好像懂得把各樣感官自動連貫起來,形成一個「自我」。從前科學界認為「自我」這概念是固定、不變的,「我」必然存在於我的身軀之內,分拆不了。膠手幻覺之後,這觀念開始動搖,當初發覺某器官的「擁有權」竟然改變得了,後來發現整個「靈魂」也可以「出竅」,不只「佔據」死物模型,連活生生的身軀也可以。「我」,其實被感官操縱,外來刺激不斷肯定「我」的存在,亦可隨時否定和轉移「我」的所在。

「我」,甚至不需實物個體,完全虛擬也可以。第四件無可能的事:虛擬現實變現實。

首先,戴上虛擬現實頭盔,這次是真正的虛擬現實,視線跟隨頭顱移動。你來到一房間,看見一張椅子,坐着女孩,椅旁站着一位女人,女人輕撫着女孩的肩膊。你可以視察四周情況,熟悉環境。然後,你進入女孩的角色,女人繼續輕撫你的肩膊(視覺上),研究人員亦同步輕撫你的肩膊(觸覺上),視覺和觸覺的配合,使你「投入」女孩的角色,這個早在意料之內,不用多說。七分鐘後,研究人員停止撫摩,你亦離開女孩的身體,從屋頂望下,看見女人繼續撫着女孩。忽然,女人給女孩一記耳光,已經離開角色的你,會否依然緊張得冒汗呢?

注意,這記耳光與上面提及往人體模型插刀是有分別的,兩者都是以某些外來威脅測試實驗對象的投入程度,但後者發生在角色「扮演」中途,前者發生時已經離開角色。結果發現,皮膚導電沒有增加,角色「抽離」是成功的,不過實驗發現另一種生理反應 -- 心跳減慢(heart rate deceleration)。原來,當我們遠遠望見敵人,盤算對策之際,心跳是會減慢的;當我們目擊別人被襲,亦有同樣生理反應,不知道自己可會成為下一位受害者嘛。這次實驗發現,若你曾經投入角色,看見女孩被襲,你的心跳減慢更為明顯,原因為何,卻不清楚,可能是與角色保持某種「情意結」。

無論如何,是次實驗說明,「我」並不需要存在於任何實體,「我」所需要的,只是感官之間的配合。當視覺和觸覺編排得天衣無縫,只要給「我」幾分鐘,世上所有的虛擬,自會成為「我」的現實。

(2010 年 6 月 22 日 信報副刊)

學術參考:
Mel Slater, Bernhard Spanlang, Maria V. Sanchez-Vives, Olaf Blanke (2010), “First Person Experience of Body Transfer in Virtual Reality,” PLoS ONE 5, 5, e10564.

Valeria I. Petkova, H. Henrik Ehrsson (2008), “If I Were You: Perceptual Illusion of Body Swapping,” PLoS ONE 3, 12, e3832.

2010年6月15日 星期二

哪個聯賽最具看頭?

兩星期前探討過 NBA 等北美體育聯賽的貧富懸殊,計算過球員薪酬的堅尼系數,今日故技重施,應用堅尼系數於另一類「懸殊」 -- 球隊實力。

數學上,堅尼系數只是對一堆數值的一個「撮要」,由 0 至 1,接近 0 表示數值大小分佈平均,接近 1 表示數值大小懸殊。當應用於某批人的收入,堅尼系數便是貧富懸殊的指標;當應用於球隊戰績,堅尼系數便是強弱對比的顯示。看球隊實力,最好便是翻查聯賽得分,從各隊積分計算出來的堅尼系數,便可作為某一球季該聯賽內實力懸殊的寫照。我找來最為港人熟悉的三國足球聯賽:英超聯西球牙甲組意大利甲組,由 1992/93 年球季(那是英超聯的首季)至今共 18 個球季,根據積分,計算每季各聯賽的堅尼系數:

留意上圖左軸,足球聯賽的堅尼系數頂多達 0.2 左右,與現實社會經常見到的 0.4 或 0.5 相距甚遠,這是非常合理的,社會上最富有的一成與最窮的一成比較,收入相差超過十倍屬等閒,但聯賽冠軍的積分通常只是「包尾」那隊的三至五倍,頂多也不過八倍,數字上看,積分懸殊當然不及貧富懸殊嚴重。

過去 18 季,三個聯賽各有一些轉變,例如意甲和西甲分別在 1994/95 和 1995/96 轉為一勝得三分(英超首季經已採用),隊數亦有變更(現時各有 20 隊),堅尼系數的美妙就在這裡,不管隊數多寡,不管得分制度,仍能替強弱懸殊下個定論。定論是否人人同意,是另一回事。不同制度對堅尼系數有何影響,我也不在這裡深究,留給熱中於體育的經濟學者吧。(此外,意甲 2005/06 球季出現假波醜聞,數隊被罰分或強逼降班,我採用罰分前的積分,秉承「錯誤」乃球賽一部分的荒謬傳統。)

一般球迷只會留意爭標形勢和來季歐聯入場劵,鮮有留意積分榜的中下游,故對整體實力差距未必掌握,堅尼系數可填補這個空缺。上圖可見,大部分日子意甲球隊實力最為懸殊,英超次之,西甲最平均,唯近數季情況逆轉,英超和西甲延續過往十年的趨勢,強弱愈見懸殊,意甲則反其道而行。話雖如此,若論過往 18 年,意甲的懸殊程度還是輕微上升的,故總體的結論是,強弱懸殊愈來愈嚴重。常有論者認為,在全球化的風潮下,貧富不均的現象只會加劇,看來足球運動亦難幸免。

這又是否代表足球聯賽愈來愈沒看頭,每季未開鑼已經估到季尾的名次呢?倒也未必。有人說,貧富懸殊不打緊,最重要是社會流動(social mobility),兩者是不同的概念。香港貧富懸殊嚴重,沒有異議,社會流動的多寡才是爭論所在,其難處是沒有一個公認的簡單指標。

足球聯賽的「社會流動」可以怎樣量度呢?設想兩個情形。假設去季和今季的排名一模一樣,這是毫無流動性;假設去季和今季的排名扯不上邊,這是「完美」的流動性。換言之,去季和今季排名的「相關性」(correlation)愈高,表示流動性愈低,反之亦然。統計學裡,兩組數字可以計算一個「相關系數」(correlation coefficient),用以表達它們有多「同步」。理論上,相關系數是由 -1 至 1,但應用於足球聯賽的現實,它不會負數,永遠都是 0 至 1,數值愈大表示流動性愈低,反之亦然。為方便理解,我把足球聯賽的流動性定義為「1 - 相關系數」,使其數值和流動性成正比,直接反映流動性的高低。

三大聯賽的每季流動性如下:

沒有明顯規律,唯一可以說的是西甲流動性較為穩定,而且偏高,兩季除外(1994/95 和 2008/09)。

既然足球聯賽的流動性這麼容易定義,為何現實世界對社會流動還沒有一個客觀標準呢?說到底,社會流動就是上一代和這一代的相關程度,說時容易,但這裡有兩處模糊。首先,上一代的「什麼」和這一代的「什麼」比較?最明顯是「收入」,但社會學家亦會關心「階層」之類的抽象分類。中國古時有士、農、工、商,一位商人即使富可敵國,一般人依然視他為最低階層,今日的職業分類繁複得多,如何排序又是另一個問題(流動既有「向上」和「向下」,自然需要排序),不同地區應否使用不同準則,亦沒有準則。社會學有些相關的分類法,但沒有公認的標準。

另一個問題是,上一代哪個「時段」跟這一代哪個「時段」相比?人有三衰六旺,哪個時段最具代表性呢?30 歲?50 歲?壯年?大家看見問題吧,不單要選擇一個時段,還要廣泛認同一個時段。

量度貧富懸殊,只需捕捉社會一剎那的「影像」;量度社會流動,需要最少兩個「影像」。社會學家對「影」什麼和何時「影」也未有共識,更沒可能對社會流動給一個如堅尼系數般簡單易明的答案了。

(2010 年 6 月 15 日 信報副刊)

堅尼系數計算器:Wessa.net
相關系數計算器:Wessa.net

鳴謝:Wessa, P. (2010), Free Statistics Software, Office for Research Development and Education, version 1.1.23-r6, URL http://www.wessa.net/

2010年6月12日 星期六

「8」字橋


據說這是一間荷蘭建築公司NL Architects,給港珠澳大橋的方案。要這個「8」字型設計,因為香港左線行車,內地右線行車,必須有個轉換線道的地方。


圖的左上方就是香港國際機場。找不到更多背景資料,可能與這個「港珠澳大橋•香港口岸國際概念設計比賽」有關,但又應該不是參賽作品,因為這個比賽看來只談「口岸」的設計,不是大橋。

2010年6月11日 星期五

現代斜塔

這是阿布扎比的 Capital Gate Tower,高 160 米,傾 18 度,仲斜過比薩斜塔,今年 1 月落成,剛被健力士評為「世上最斜的人造塔」(the furthest-leaning man-made tower)。

2010年6月9日 星期三

2010年6月4日 星期五

酒樽裡的帆船


好厲害呀,樽口細得連一粒 2x2 的 lego 也放不進,到這裡看看原創人怎樣製作。

Disaronno 是酒名,那是一個酒樽。

2010年6月1日 星期二

堅尼系數的另類應用

香港貧富懸殊,堅尼系數高踞亞洲,路人皆知。一般人不知道的是,堅尼系數怎樣計算呢?常聽人說,收入最低的 10% 只佔社會總收入的多少百分比,收入最低的 20% 又佔總收入多少百分比,推而廣之,要描繪整個社會的收入分佈,我們可以不斷說「收入最低的 x% 佔社會總收入 y%」,x 以橫軸代表,y 以縱軸代表,成下圖。


若社會完全平等,人人收入相同,圖表便是一條 45 度直線,與兩軸組成一個直角等腰三角形(下簡稱「三角形」)。現實與理想必有差距,真實的圖表必然是一條「凹」了進去的曲線。堅尼系數的定義,就是這條曲線與 45 度直線之間的面積(灰色部分)除以整個三角形的面積,亦即是灰色部分佔去三角形的面積比例。當收入完全均等,堅尼系數便是 0;當一人佔去所有收入,曲線便會緊貼雙軸,堅尼系數便是 1;現實永遠處於兩者之間,堅尼系數愈高,表示貧富愈懸殊。

我雖不算球迷,但時常留意體育消息,間中聽聞某某球星賺取天文數字的薪酬,某日忽發奇想,可否把堅尼系數的概念應用於球員薪酬,探討一下球員之間的「貧富懸殊」。不用我說,大家應該都估到,頂級球星的收入與普通球員相比,是不成比例的高出不知多少倍,但不均至什麼程度呢?嚴重過整體社會嗎?不同聯賽有何差別?本文就是由這堆好奇心驅使寫成的。說下去之前,要搞清楚一點,球員(尤其是星級球員)的收入除了球會支付的酬金,還有做代言人等「副業」,後者的報酬往往超越前者,為簡單起見,本文只着眼於前者。大家閱讀時心中有數,包括「副業」的話,「貧富懸殊」將會有增無減。

首先,要決定研究範圍。由於時間有限,資料必須輕易從網上尋獲,而且最好是我已經熟悉的聯賽。不幸地,本地最關心的歐洲足球,一般只談球會付給球會的轉會費,也見球會支付球員的總開支,但個別球員的薪酬少見公開。北美體育透明得多,那裡四大主要聯賽都不難找到球員每季的薪酬,我曾在加拿大居住多年,對四大聯賽亦有一定認識,它們將是本文的重點。四大聯賽分別是:

  • NBA (National Basketball Association):最為港人熟悉,我不多說,每隊 15 人左右(正選加後備)。
  • NHL (National Hockey League):冰上曲棍球。一隊 6 人上陣(包括守門員),正選和後備輪流上場,替換比籃球頻密,每隊 23 人左右。
  • NFL (National Football League):美式足球。一隊 11 人上陣,進攻和防守由兩批不同球員負責,位置和分工非常精細,四分衛(quarterback)最能主宰大局,每隊 56 人左右。
  • MLB (Major League Baseball):棒球。一隊 9 人上陣,雙方輪流擊球和投球,隊員之間不用太多默契,每隊 25 人左右。


前三者都有「最高工資」(salary cap)的機制,不單規定球員最高年薪(通常根據年資而定),還定下每隊支出球員酬金的總上限,目的是避免一些富有的大城市球隊壟斷頂尖球員,形成貧富球隊實力懸殊。NBA 的 salary cap 定得較寬鬆,有許多法律空子供球隊鑽,NHL 和 NFL 則定得較「硬」,每個聯賽的 salary cap 細節都不同,對薪酬分佈有何影響,我不敢說。大家只要記着,前三者絕不是「自由市場」,而是有頗多「規範」,這些「規範」傾向令收入較為均等。MLB 沒有 salary cap,最似「自由市場」。

球賽性質又如何呢?籃球賽裡,經常看見一位星級球員帶起整隊球隊,獨力主宰勝負,這種「獨挑大樑」的機會,十分視乎球賽的性質和打法;籃球以外,印象中只有美式足球的四分衛有此擔大任之機,其他球員固然能夠影響賽果,但不是經常有機會作如此重大貢獻。能讓單一球星主宰勝負的賽事,堅尼系數會不會較高呢?

廢話已經說得太多,結果如下(另加幾個地區作參考,堅尼系數由低至高):

 堅尼系數最窮 10%
佔整體收入
最富 10%
佔整體收入
最窮 50%
佔整體收入
美國0.4081.9%29.9%---
中國0.4152.4%31.4%---
新加坡0.4251.9%32.8%---
香港0.4342.0%34.9%---
NHL0.4562.3%29.9%16.9%
NBA0.5240.6%34.2%13.5%
NFL0.5691.8%43.8%13.1%
MLB0.6151.2%57.3%8.1%


沒有 salary cap 的 MLB 果然貧富最懸殊。最右列是我加的,希望有助了解收入分佈的結構。圖表可見,堅尼系數對貧富懸殊是個頗佳的撮要,但絕不是 the whole story。說到底,它只能形容收入曲線有多「凹」,卻沒有說明「凹」的形態。

MLB 貧富最為懸殊,可歸咎於沒有 salary cap,其餘三個聯賽的先後,我便沒有答案了,和現實世界一樣,知道貧富懸殊有多嚴重,永遠容易過解釋貧富懸殊為何這樣嚴重。當我們嘗試解決貧富不均時,又可否仿傚四大聯賽,引入「最高工資」呢?

(2010 年 6 月 1 日 信報副刊,以後逢星期二刊登

資料來源:
國家和地區的堅尼系數來自聯合國《Human Development Report 2009》。

四大聯賽的薪酬數據分別來自:
Basketball-Reference.com
USA Today Salaries Databases (Hockey)
USA Today Salaries Databases (Football)
Baseball-Reference.com

堅尼系數運算器:
Wessa, P. (2010), Free Statistics Software, Office for Research Development and Education, version 1.1.23-r6, URL http://www.wessa.net/co.wasp