2012年4月28日 星期六

假如只有二十小時溫習……

二人學打字,資質相當,各自練習二十小時,你猜誰人比較純熟?

要貼士嗎?

貼士:阿甲每日練習二小時,連續十日;阿乙每年清明節練習五小時(以紀念教他打字的先人),連續四年。二十小時練習之後,你說甲純熟還是乙純熟?

對阿乙來說,去年苦練五小時的「成果」早已忘記得一乾二淨,每年清明節雙手放在鍵盤的感覺跟初學沒有兩樣。相反,阿甲每日練習,技術與日俱增,二十小時的效果比乙優勝。很明顯,甲的二十小時不同乙的二十小時。

想帶出的問題是,二十小時如何分配最有效?阿丙每日練習一小時,連續二十日,效果會否比阿甲更理想?阿丁隔日練習,每次二小時,共十天,效果又如何呢?這不單是學習打字遇到的問題,這是任何學生、教師、家長都應該思考的問題:某科目一個月之後考試,只能撥出二十小時溫習(因要兼顧其他功課),這二十小時應如何分佈呢?

我上網搜尋,希望從學術文獻找到一點啟示。首先找到的叫「total time hypothesis」,意即學習成效視乎溫習總時間(total time),換句話說,即是廢話。誰不知道花愈長時間溫習成績愈好?問題是如何運用有限時間最有效地溫習吧了。好奇心驅使,即管看看是哪些學者做了什麼實驗達到這個廢話結論。原來,概念在 1960 年代提出,實驗通常給受試者學習一系列無意義的符號,幾輪溫習之後,測試他們記得多少。溫習次數、每次溫習多久、溫習與溫習之間相隔多久都是可調較的,藉以觀察受試者在不同情況下的表現,結果發現成績高低的關鍵在於溫習總時間,即是說,溫習時間如何分配並不重要,最重要是累積時間。

Total time hypothesis 看似有實證支持,但魔鬼往往在細節之中。「學」一堆無意義的符號脫離現實不在話下,那些實驗是「超短期」的,每次溫習以秒計(三秒便溫習完畢?),溫習與溫習之間相隔以秒計(溫習完畢三秒之後再溫習?),溫習與測試的時差也是以秒計(考試之前三秒打開書本溫習一遍?),根本脫離現實。實驗通常是現實的簡化,有些實驗簡化至脫離了現實。

而且,total time hypothesis 根本有違常理,阿甲練習二十小時跟阿乙練習二十小時的效果差天共地,就是對 total time hypothesis 最大的反駁。

網上繼續尋找,終於找到一次較近期、較近乎視實的硏究。它的學習材料是一些鮮為人知的事實,例如雪地高爾夫(snow golf)由誰人發明(答案:Rudyard Kipling)、哪歐洲國家吃最多墨西哥食品(答案:挪威),全是一些真實的知識。受試者有兩次機會溫習,然後考試;變數有兩個:兩次溫習之間相隔的時間(0-105日不等)及第二次溫習與考試相隔的時間(7-350日不等);換句話說,第一次溫習之後,受試者可以即日重溫,也可以三個半月之後重溫;第二次溫習完畢,考試可以在一星期之後,也可以在大約一年之後。

結果發現,愈遲考試,兩次溫習最好隔得開一些。舉例,考試定在第二次溫習一星期之後,兩次溫習應該相隔多久?實驗說:「最好相隔一至兩天」。考試定在第二次溫習一年之後,兩次溫習應該相隔多久?常識說:「無乜所謂,反正一年後都是忘得一乾二淨」,但實驗說:「最好相隔三星期,這組受試者一年後成績最好」。沒有單一最佳相隔時段,要視乎考試定於何時。撇開考試,從長遠教育的角度,你希望學生七日之後記得書本的知識,還是一年之後依然不忘?如果着眼點在一年之後,功課和測驗的編排是否應該誘導學生溫習三星期前教過的東西?

我要向各位道歉,本文不能教你最佳的溫習模式,上述硏究雖然比較接近現實,但距離「求學只是求分數」的「香港現實」實在太遠。如果你想拿高分,便不應該把溫習上限定為二十小時(更不應只溫習兩次),應該把搭車、吃飯、玩樂、睡覺的時間也用來溫習。負責任的父母也不會讓你考試前一個月才作準備,他們會由懷着你的那天起,儲定幾百萬元,買定莫札特音樂,買定含豐富營養的奶粉給你作準備。

(2012 年 4 月 28 日 信報副刋)

學術參考:
Nicholas J. Cepeda, Edward Vul, Doug Rohrer, John T. Wixted, Harold Pashler (2008), “Spacing Effects in Learning: A Temporal Ridgeline of Optimal Retention,” Psychological Science, 19, 1095–1102. doi:10.1111/j.1467-9280.2008.02209.x

Nicholas J. Cepeda, Harold Pashler, Edward Vul, John T. Wixted, Doug Rohrer (2006), “Distributed practice in verbal recall tasks: A review and quantitative synthesis,” Psychological Bulletin, 132, 354–380. doi:10.1037/0033-2909.132.3.354

Elaine H. Cooper, Allan J. Pantle (1967), “The total-time hypothesis in verbal learning,” Psychological Bulletin, 68, 221–234. doi:10.1037/h0025052

2012年4月25日 星期三

谷歌的秘密

有冇諗過 Google 點樣咁快 search 咁多網頁?這條片是很好的介紹……


2012年4月21日 星期六

統計學家寫讀書報告

英文科要做讀書報告,小明逼不得已來到圖書館,書架放着三本經典名著。

名著一:215,517 字
名著二:75,118 字
名著三:136,955 字

揀哪本好呢?小明討厭看書,第二本最薄當然是不二之選。翻開一看,句子密麻麻的,好像幾頁都沒有分段,令小明卻步。他愛看多分段的文字,頁面多些空白,感覺讀得快一些。

事實上,第二本雖然最薄,但作者最不愛分段。

名著一:215,517 字,平均每段 85.72 字
名著二:75,118 字,平均每段 109.71 字
名著三:136,955 字,平均每段 42.03 字

論分段,第三本分段最短,最合小明的口胃。他應該「理性」地選擇最薄的第二本,還是追求「閱讀感覺良好」的第三本呢?討厭看書的小明被夾在兩本書中間,很痛苦。

為了幫助小明解開困局,我找來更多數據。

 字數平均每段字數平均每句字數平均每字字母字根比率
名著一215,51785.7223.204.400.05085
名著二75,118109.7122.384.420.06504
名著三136,95542.0318.074.250.04796

上表可見,第三本除了分段最短之外,句子和用字都是最短的,雖然最短不一定最淺,但在正式閱讀之前,它們的長短總算是深淺的標誌吧。最後一欄「字根比率」讓我解釋一下:「write」、「writing」、「wrote」、「written」是四個不同的英文字,但它們屬於同一字根(word stem);莎士比亞用的字根肯定比我多,這就是詞彙豐富和貧乏的分別。我把每本名著出現的字根數目除以總字數,就是「字根比率」;「字根比率」愈低表示詞彙愈單一,未必愈淺,但很有可能比較淺。

綜合所有數據,第三本雖然稍長,但它分段最短,句子最短,用詞最短亦最少,小明應看哪一本?你說呢?

故事說完,讀者問:數據是真的嗎?真的話,是哪三本名著?哪裏得來這樣「巨細無遺」的數據?

謎底:名著一是 Herman Melville 的《Moby Dick》,名著二是 Mary Shelley 的《Frankenstein》,名著三是狄更斯的《A Tale of Two Cities》,我中學時代三本都讀過,三本都讀不懂。資料來源為 WolframAlpha 網站(創辦人 Stephen Wolfram 是一名天才,事蹟頗具傳奇性,足以另文介紹),一自稱為 computational knowledge engine 的搜尋器,其與一般搜尋器不同之處是它並非「盲目」列出相關網頁,而是懂得整合出一系列「有意義」的相關資訊,例如輸入某本名著的名稱,除了吐出其作者、出版日、主角等網絡上垂手可得的基本資料外,它更提供一些深入而微的分析,包括每章字數、最常用字、全書最長的字、最長一句、字長分佈、句長分佈等,好像統計學家寫讀書報告;對普通人而言,這些資料有趣卻無甚實用價值,對有硏究需要的人來說(例如我),這是一個寶庫,省去不知多少時間氣力。

WolframAlpha 的資料庫由專人輸入和校對,保證可靠,這是互聯網和維基百科無法比擬的;當然這也是最大的局限,其「知識」無論如何廣博,也無法如互聯網般包羅萬有,例如我嘗試問它「how many novels did Charles Dickens write?」,它只能給我狄更斯的個人介紹,未能直接回答我的問題;問 Google 同一問題,或多或少有個答案。

另一缺點是它不能 copy and paste,下載分析必須加入試用版,試用期完結便要付費,少量數據可以手抄(例如今次),大量硏究便無可奈何得掏腰包了。世上充斥免費資訊,但沒有永遠免費的可靠資訊。

(2012 年 4 月 21 日 信報副刋)

2012年4月14日 星期六

今日唔知聽日字

五十年後的今天,一位通識科老師帶着一班中學生來到圖書館。

「今天我們將會探討港式詞彙的演變,圖書管理員已經取出幾份五十年前的舊報紙,大家翻閱一下,如有什麼不明白,隨時問發。」

語言易變,人性難變。無論哪個年代,學生最感興趣的莫過於娛樂版和風月版。

「……呢個邊個嚟架,咁 chok 嘅……」學生竊竊私語,指着老師年青時的偶像。

「Miss Chan,『血拼』點解呀?」「即係喪買咁解……(跟着還有兩分鐘詳解,學生聽完第一句已經足夠)」

「『搓它』點解呀?」老師登時 O 嘴,慢慢走過去,心想一定讀錯字,千萬不要「搓」一些令人尷尬的東西。

「呵!」老師鬆了口氣,是「磋跎」,她板起臉孔說:「這讀『初駝』,話人『磋跎歲月』,即係佢成日响度 hea ……(再來幾分鐘詳解)」

「Miss Chan,又唔識呀,『溝仔』點解呀?」「『溝』即係『界』……」

「『風趣』?瘋癲,爽脆?」「唔係唔係,話人『風趣』,即係佢成日搞 gag ……」

「『厲害』點解呀?」「即係『屈機』囉……」

「Miss Chan,寫錯字呀,『陳腔濫調』不是應該『陳腔爛調』的嗎?」「『陳腔爛調』是現在的說法,以前的人愛說『濫』……」

就是這樣,五十年前難登大雅之堂的潮語,五十年後躋身正統。五十年前某些慣常用語,五十年後幾近消聲匿跡(起碼中學生唔識)。

語言能在短短五十年間變得「面目全非」嗎?我當然沒有能力預知,但這不是沒可能的,讓我舉一近期例子。

英文「Roentgenogram」見過沒有?它源自 1901 年第一屆諾貝爾物理學獎得主 Wilhelm Röntgen 的名字;Röntgen 發現X光,X光自然以他命名,「Roentgenogram」其實即是「X-ray」。今日只聽人說「X-ray」,但在上世紀四十至七十年代,「Roentgenogram」才是主流。X光有三個英文說法,「Radiogram」在 1930 年左右流行過一陣子,二十世紀大部分時間都是「Roentgenogram」的「天下」,「X-ray」六十年代才開始冒起,八十年代取代「Roentgenogram」成為X光的「指定英文名」,主導至今。

五十年前,美國一位學生問:「What is X-ray?」老師答:「Roentgenogram.」難以想像五十年後的今天情況剛剛相反,正如今天難以想像五十年後老師用「搞 gag」來解釋「風趣」,用「喪買」來解釋「血拼」,用「hea」來解釋「磋跎」,用「屈機」來解釋「厲害」。

最近學者發現,一個新詞出現後三十至五十年是其「關鍵時期」,過了這段時間便大概融入日常應用,得以長期保持,過不了便從此消失,湮沒在詞彙更替的洪流之中。像多數統計硏究一樣,這只是一個「平均」結果,永遠有例外,「Roentgenogram」便是例外。它在 1900 年左右誕生,1960 年仍然主導,心想「穩坐釣魚船」,怎知忽然殺出一個「X-ray」,使它「風光不再」。說到底,詞彙的演變是不能預知的。

其實新出現的詞彙不限於潮語,九七回歸後的新詞層出不窮,信手拈來包括:特首、八萬五、問責制、七一、二十三條、非典、政改、釋法、自由行、怪獸家長、公主病、通識、雙非、蝗蟲(這是舊詞新用)。這些詞彙,多少個在一百年後依然聽得懂?一百年後的香港,有沒有人知道「港督」是什麼?

(2012 年 4 月 14 日 信報副刋)

Alexander M. Petersen, Joel Tenenbaum, Shlomo Havlin, H. Eugene Stanley (2012), "Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death," arXiv:1107.3707v2

2012年4月6日 星期五

回讀者看〈「薄熙来」的疑惑〉時的疑惑



今日見報的版本真的差勁。刪去不少字,我理解,因為確是超字;但兩張圖全部「褪色」,而文中談及那些顏色的地方卻沒有刪改,造成文不對圖。

排版時間緊逼不是理由,我是截稿前六十小時交稿的。

「薄熙来」的疑惑


幾星期前《經濟學人》中國版登了一幅薄熙來沒精打彩出席人大會議的照片,我對薄熙來毫無興趣,唯那桌上的名字牌吸引了我的注意。「薄熙来」三字,最難寫的二字沒有簡筆,反而最不需要簡化的「來」字則由八劃似有若無地減至七劃,設計簡體字的人是否有些本末倒置?

簡體字並非為薄熙來而設,為的是簡化廣大群眾的日常用字。「來」字比較常用,簡化得益較為顯著;「薄」和「熙」不常見,不簡化也損失無多;或許就是簡體字設計者的原意。三個字的樣本太小,要看更多的字才能揣摩設計者的心思。

首先略述簡體字的歷史。文字一向都是約定俗成;到了清朝末年,國家長期積弱,一些知識分子興起變法圖強之念,為了普及教育開啟民智,遂有把漢字簡化甚至拼音化的念頭,播下近代「中央主導」推行文字改革的種子。1935 年,國民政府教育部選定了民間流傳最廣的 324 個俗體字,公佈了《第一批簡體字表》,將之編入小學課本,可是遭到一些元老大力反對,改革建議終得收回。二次大戰之後,中共建國,1952 年成立中國文字改革研究委員會,負責簡化漢字。1956 年 1 月,國務院正式公佈《漢字簡化方案》,簡體化分批進行。1964 年再公佈《簡化字總表》,就是今天內地通行的簡體字。

圖一、二顯示了漢字簡化前後的筆劃分佈。沒可能包括所有漢字,這裏是最常見的一千個,紅色表示最常見,愈趨淺藍的愈是少見。

我採用了中文大學人文電算硏究中心的現代漢語常用字頻率統計資料庫。由於簡化工作在五、六十年代內地進行,簡化前後的變化亦應以當時的用字模式作準,故二圖及本文餘下的調查都是根據六十年代大陸的一千個最常用字。為什麼一千個?這是方便的齊頭數,恰好涵蓋了九成的用字頻率;時間所限,未能作更廣泛調查。

圖一、二所見,漢字的筆劃範圍給「壓縮」了,這並不意外。簡化前,八至十二劃最多;簡化後,六至十劃最多,而且更集中。

我一向懷疑,即使不用刻意簡化,較常用的漢字應該都是傾向較淺的,因為愈淺的字愈容易寫,愈常寫的字愈有動機去簡化(我指的是民眾自行簡化,不必「中央主導」),官方推行的簡化運動只是人為加速了這一過程而已。圖一可見,紅色是偏向左邊的,表示繁體字已有「愈常用愈易寫」的傾向,證實了我的懷疑。

看圖不夠準確,可參考下表,繁體總筆劃由上而下不斷增多,證明愈常用的字筆劃愈少,未簡化已有這種傾向。

常用字排序繁體總筆劃簡體字數目簡體字滲透率筆劃簡化率
1-1007943124.90%82.98%
101-2008892928.98%78.35%
201-3009443534.69%75.41%
301-4009713736.60%74.73%
401-50011074342.17%74.38%
501-60010863939.37%75.13%
601-70011373939.30%76.25%
701-80010893636.04%78.76%
801-90011103635.98%79.68%
901-100011893636.51%78.68%
  累積數目累積滲透率累積簡化率
  36130.12%79.12%

簡化「力度」最大在哪裏?上表列出數據,讓我解釋「簡體字滲透率」及「筆劃簡化率」之後,大家可以自行咀嚼。拿第一橫行作例,最常見的一百字之中,有簡體的 31 個,但簡體字滲透率不是 31%,因為它把字的出現頻率計算在內,高頻率的簡體字能夠拉高簡體滲透率,低頻率的簡體字影響較小;首一百字的簡體滲透率 24.90%,即是說,如果只用最流行的一百字作一篇文章,裏面大概 25% 是簡體字。用最流行的一千字作一篇文章,裏面大概三成是簡體(見「累積滲透率」)。

簡體字省去多少筆劃?這就是「筆劃簡化率」的意思,已將字頻計算在內。再拿第一橫行作例,首一百字的筆劃簡化率 82.98%,即是說,如果只用最流行的一百字作一篇文章,用繁體字寫需要一萬個筆劃,用簡體字寫同一文章大概需要 8,298 個筆劃。用最流行的一千字作一篇文章,用繁體字需要一萬個筆劃,用簡體字大概需要 7,912 個筆劃(見「累積簡化率」),省去大約二成「筆墨」。

上表所見,簡化效用最顯著集中在第 301 至 600 位(灰色部分),為什麼不是更高?最流行的字不是最應該着力簡化的嗎?依我看,簡體字設計者當然明白這道理,只不過很多最常用字筆劃已經不多,既然「簡無可簡」,也無謂「畫蛇添足」了。

(2012 年 4 月 6 日 信報副刋)

2012年4月5日 星期四

中文最精簡?

哈,我很久以前有個想法,把中英文對照,看英文字數和中文字數的對比,例如一千字的英文翻譯成中文是多少字?其他語言怎樣呢?一直沒有做,因為很費時,要搜集很多中英對照的材料。

最近經濟學人做了,他們把 twitter 訊息翻譯成不同語言,比較長短。

右圖所示,中文最精簡,不過我們中國人最清楚,這樣比較有欠「公平」,因為中文一個 character 不等於西方一個 character,中文 character 更像他們一個 word,應把他們的 word 數對比中文的 character 數,這樣不是更有意思嗎?

2012年4月4日 星期三

Testing ...

本篇用 blogger 舊介面刋登,看看留言的時間正確沒有……

「飛車」可以是一個名詞

叫它 flying car 又得,roadable aircraft 又得,總之馬路行又得,天空飛又得。

這是荷蘭公司 PAL-V ONE(Personal Air and Land Vehicle),據說可飛 350-500 公里。(香港至夏門,香港至海口,都是 470 公里左右)



這是 Terrafugia Transition,應該是美國公司。



它們都是用汽油,不過要有飛行執照才能「一飛沖天」。

2012年4月2日 星期一

摩斯密碼的最新用途


有冇覺得手機鍵盤太細,打字好麻煩?不如試吓 Gmail Tap,用摩斯密碼打字,熟習後不比鍵盤慢,而且不需用眼。有興趣可以看看它的 information page

還有一個 feature,就是同時打兩條訊息,我認為這個有點「畫蛇添足」,技術上是可行的,我們有足夠手指,但腦子行嗎?能夠同時作兩篇文章嗎?


這是它的宣傳片,商業化得有點反胃:

2012年4月1日 星期日

哪裏來的螺旋?



看完後,有沒有鬼影螺旋出現?

這錯覺還未有解釋的,一般「殘餘影像」應跟原來的形狀相似,該片段「殘餘」的鬼影螺旋與片中的形狀好像無甚關連,未知為什麼……

Source: New Scientist