小城科學: 紅坂上的花海，紅花坂的上海，紅花坂上的海

三個名字兩個是錯的，但無論我說哪一個，你肯定知道我在談宮崎駿那齣電影。「靈活」的腦筋，不是刻板死記着字串，一兩個字的調換無損辨認戲名的能力。

看【圖一】，讀得明嗎？

《信報》讀者都是 smart people，讀得明乃意料中事。這段文字據說是英國人 Graham Rawlinson 寫的，他 1976 年於諾定咸大學攻讀博士時，做過這方面的硏究，與當時學術主流格格不入，故沒有繼續探求。1999 年劍橋大學硏究發現，調換詞語中間的發音不影響聽者的理解，此事勾起二十多年前的回憶，Rawlinson 遂有點兒穿鑿附會地把結果放大，寫成此信，在互聯網風行一時。

信中說「字母次序不打緊，唯一重要的是頭尾字母正確」，真的嗎？請看以下三句（頭尾字母正確，中間字母調亂）：

1) A vheclie epxledod at a plocie cehckipont near the UN haduqertares in Bagahdd on Mnoday kilinlg the bmober and an Irqai polcie offceir

2) Big ccunoil tax ineesacrs tihs yaer hvae seezueqd the inmcoes of mnay pneosenirs

3) A dootcr has aimttded the magltheuansr of a tageene ceacnr pintaet who deid aetfr a hatospil durg blendur

如無意外，應比【圖一】困難。Rawlinson 說對了一半，但顯然未及真相的全部，頭尾字母之外還有一些因素影響「可讀性」，那些因素是什麼？【圖一】為什麼這麼易讀？

（一）短詞容易，一至三個字母沒可能串錯，四字母只有一種錯法，將中間二字對調，拆解一點不難。【圖一】總共 111 字，其中 49 字沒有／不能串錯。這些短詞通常是 the、you、a、and、can、is、it、to、in 之類，提示句子結構和上文下理，幫助解謎。

（二）相鄰字母換位容易辨認（porbelm？呵，problem！），「遠距離」換位較難（pborlem？什麼？）。

（三）錯字並非另一英文字。試想，salt 不慎串成 slat，讀者順理成章以為你說一塊板，而不會懷疑你想着一粒鹽。我的名字串成 Nike，別人也不會懷疑串錯字，只會以為我是一對波鞋。

（四）發音近似，絕對是一種提示，如 toatl 就是 total。保持整個字的形狀也有幫助，對我來說，【圖一】最難拆解就是開頭的「cdnuolt」，因與「couldn't」形態上頗有差異，加上作為整段的開頭，沒有前文作提示，真殺我一個「措手不及」。

四種「技巧」是否【圖一】用得較多，很難說。背後是個更深層次、科學家仍未解開的課題：閱讀究竟是什麼一回事？腦袋到底如何認字？認字顯然不像查字典，否則一見錯字便茫無頭緒；腦袋裏不是一成不變的字串，而是容許某程度錯漏的 fuzzy logic，這種 fuzzy logic 是怎樣運作的呢？【圖一】錯漏百出，但讀起來近乎不費吹灰之力，這 fuzzy logic 的威力如何解釋？

當然未有完滿答案，以下提出現時最流行的一種模型，讓大家參詳。模型說，腦袋認字靠「雙字母」（bigram），一拼就拼兩個字母，例如看見「take」，即時觸動 TA、TK、TE、AK、AE、KE 的印象；兩個字母不必相鄰也可形成雙字母，因為幾個字母同時攝入眼廉，而且字母的疏密對文字意思沒有影響，腦袋對字母的間隔是不敏感的，當然不能隔得太開，一般標準是相隔不多於兩個字母便能形成雙字母。所以，「TE」這個雙字母可以理解為「T 之後三個字母之內出現 E」，「AK」可以理解為「A 之後三個字母之內出現 K」，餘此類推。

現在看見「tkae」，腦中泛起哪些雙字母？TK、TA、TE、KA、KE、AE；六個雙字母，五個與「take」重疊，因此 tkae 和 take 十分相似，可說有 5/6 = 83% 相似。

看看「problem」與它的兩個誤串，哪個比較近似？

problem	porbelm	pborlem
PR, PO, PB, RO, RB, RL, OB, OL, OE, BL, BE, BM, LE, LM, EM	PO, PR, PB, OR, OB, OE, RB, RE, RL, BE, BL, BM, EL, EM, LM	PB, PO, PR, BO, BR, BL, OR, OL, OE, RL, RE, RM, LE, LM, EM
	近似度：12/15 = 80%	近似度：10/15 = 67%

回顧【圖一】和那三句句子，經驗告訴我，前者容易後者難，以雙字母理論觀之，哪個最近似正確（愈近似正確便愈容易吧）？逐個字人手計算既費時又會出錯，我寫了一條電腦程式幫忙，計算每個錯字與正確的近似度，下面列出每段文字的近似度中位數（串法正確的字不計算在內），順帶揭曉正確答案：

【圖一】：83%

1) A vehicle exploded at a police checkpoint near the UN headquarters in Baghdad on Monday killing the bomber and an Iraqi police officer (76%)

2) Big council tax increases this year have squeezed the incomes of many pensioners (73%)

3) A doctor has admitted the manslaughter of a teenage cancer patient who died after a hospital drug blunder (60%)

【圖一】的確最易，句子一至三是愈來愈難的，有沒有同感？

雙字母理論有弱點的，例如 nana 和 anna 擁有同一組雙字母（AA、NN、AN、NA），但腦袋仍然懂得分辨，證明雙字母並非故事的全部。說到底，它只是一個理論，腦袋如何認字暫時未有定論。

多數這方面的硏究集中在英語和法語，其他語言是否適用還有商榷，最明顯的例外是沒有字母的中文；沒有字母，何來雙字母？然而，正如本文標題所示，中文也有「串錯字仍然讀得明」的現象，腦裏顯然有些共同機制。兩種䢛異的文字，竟然在「串錯字」的時候找到共通點，你說詭異不詭異？

（2012 年 2 月 18 日信報副刋）

學術參考：
劍橋大學 Matt Davis 網頁

Stanislas Dehaene, Laurent Cohen, Mariano Sigman, Fabien Vinckier (2005), “The neural code for written words: a proposal,” Trends in Cognitive Sciences 9, 335-341. doi:10.1016/j.tics.2005.05.004

Jonathan Grainger, Carol Whitney (2004), “Does the huamn mnid raed wrods as a wlohe?” Trends in Cognitive Sciences 8, 58-59. doi:10.1016/j.tics.2003.11.006

2012年2月18日星期六

紅坂上的花海，紅花坂的上海，紅花坂上的海

沒有留言:

張貼留言

2012年2月18日 星期六

紅坂上的花海，紅花坂的上海，紅花坂上的海

沒有留言:

張貼留言

2012年2月18日星期六