圖二. 香港黃頁中抽出的100個電話號碼各字元出現頻率
電話號碼以字元為單位,”2”理所當然地出現最多,共800個字元中佔約22%,其次是”8”,出現最少的是”4”。我們可以合理期望電話號碼所攜帶的信息不會很多,只有少量簡單的地區字頭信息,所以分布會接近平線,但又與完全亂數所呈現的平線有分別。
返回正題,科學家正正用相同的原理分析不同動物的叫聲以辨別各自語言的複雜程度,結果發現海豚語所含的信息的複雜程度與人類語言不相伯仲,而松鼠猴的語言則相對簡單。尋找地外文明(search for extraterrestrial intelligence, SETI) 亦以類似的手法收集宇宙的電波訊號並分析以搜尋外星文明,縱使我們不懂得外星語。
參考資料:
Ha, L. Q., Sicilia-Garcia, E. I., Ming, J., Smith, F. J. 2002, Proceeding COLING '02 Proceedings of the 19th international conference on Computational linguistics, Vol. 1, 1
延伸閱讀:
齊夫定律是一個相對簡單的分析,更深入的分析請參閱夏農熵(Shannon entropy)。
天文導師
霍啟東 |