唐詩也有大數據?揭秘李白杜甫的“用字習慣”

亚太日报

text

【亞太日報訊】運用大數據分析方法,借助“機器文學算法,北京郵電大學信息安全中心主任楊義先教授進行了有趣的“唐詩揭秘——對詩仙李白、詩聖杜甫等的詩詞進行了“用字習慣分析。

有些結果與直觀想像很接近;但是,確實另有一些結果比較出人意料,例如如果不允許李白使用姓氏字來寫詩,那麼,他連一個完整的詩句都寫不成,更甭談一首詩了。但是如果讓李白只使用姓氏字來寫詩,他也寫不出,但是杜甫卻能夠寫出三首詩來!神奇嗎?

【寫詩,原來是典型的大數據問題!】

楊義先帶領的靈創團隊告訴我們,從計算機科學角度來看,“寫詩其實是一個典型的“大數據分析與綜合的過程。

關於綜合,先人們早就知道“熟讀唐詩三百首,不會吟詩也會吟。這其實就是大數據綜合!“綜合越好,詩的水平就越高,因此,詩仙李白和詩聖杜甫可謂是“綜合高手了。楊義先曾發布過能讓文盲寫詩的《出詩表》,正是綜合大數據的最直觀的案例。

關於分析,最著名的歷史典故,該算賈島的“僧推月下門或“僧敲月下門了。但是,由於缺乏有力的分析工具,也由於樣本太小,因此,自古以來,詩詞的分析過程都僅僅限於局部,比如,是“推還是“敲。

“分析是“綜合的基礎。反過來,大量“綜合知識的積累,又有利於提高“分析的精准度,從而大大改善“綜合的結果。幾乎所有的現代和古代詩人都只是在潛意識地進行著,而且還將繼續進行下去。如果能夠把這些思維過程,明確地呈現出來,甚至建立相應的模型,那麼,肯定有助於高效地提高詩人的修養,而且,還有助於搞清楚人類的文學創作過程。在大數據時代,樣本素材的獲取有了重大改善,算法工具也開始出現,可以揭示某些千年以來不為人知的秘密。

【為何采用“姓氏來分析詩中用詞?】

靈創團隊使用機器文學算法、集合論的邏輯推理等分析工具,前者是其團隊自主開發的的一套計算機軟件,涉及到許多數學和密碼學的技巧,分析的基礎字集則是簡單的《新華字典》、《中華單姓氏字集》等簡單工具書。

按傳統,每個朝代都有自己的官方字典。除了姓名等字之外,當朝百姓和官文用字基本上都限於本朝的官方字典,而且,隨著朝代的成熟和穩定,這種“向官方字典靠攏的現象會更加明顯。比如看看最重要的《十八大報告》:雖然它洋洋灑灑8萬字,但是,其中互不相同的漢字卻只有897個,而且,這897個字全都出自《新華字典》,只有118個字不屬於《中華單姓氏字集》,可見,姓氏字是多少普遍,竟然占有87%的用字比例!)

從純粹的研究角度看,官方字典有一個嚴重缺點,那就是它的不穩定性。大清的《康熙字典》與《新華字典》可謂是天壤之別。但是,有一個字集卻是超級穩定的,那就是《中華姓氏字集》,不管朝代如何更替,不管發生什麼天災人禍,姓氏字永遠是代代相傳的。

【分析李白詩集:兩個“萬萬沒想到】

李白一生,寫詩約979首,共約8萬字,其中只有3471個字是不重複的,兩個有感覺的分析結果是:

如果人人都是皇帝,即,其姓氏字都得避諱,那麼,情況會怎麼樣?答案是,李白的所有五言或七言詩中,沒有一個詩句是完整的,更不可能有一首完整的詩了!可見,《中華姓氏字集》的“殺傷力有多大!那麼,《中華姓氏字集》的建設力大嗎?

這帶來第二個情況,如果只允許使用姓氏字,那麼,情況又會怎麼樣?這個答案也許就出乎您的意料了!因為,如果只允許使用姓氏字,那麼,李白一生竟然連一首詩也不能發表!

因此,對李白的詩集來說,《中華姓氏字集》的建設力非常有限。

【《唐詩三百首》的大數據分析揭秘】

既然李白能夠被《中華姓氏字集》搞傻,那麼,唐朝的其它詩人命運又怎樣?其它,結果也大同小異,但是,杜甫同志的命運相對奇好!比如:

情況1)如果人人都是皇帝,即,其姓氏字都得避諱,那麼,《唐詩三百首》中的每個詩句都會被殺死,更不可能有一首完整的詩了!即,《中華姓氏字集》的“殺傷力很大!

情況2)如果只允許使用姓氏字,那麼,《唐詩三百首》中也只有如下區區八首詩能夠幸存下來,死亡率高達97%!可見《中華姓氏字集》的建設力非常有限。但是,杜甫運氣特好,竟然有三首都是他的!注意:從宏觀上看,杜甫的用字,比李白更遠離《中華姓氏字集》。

綜合而言,根據離開《新華字典》和《中華姓氏字集》的距離,按從遠到近的順序排列,結果是:杜甫、李白、《唐詩三百首》、《十八大報告》。但是,杜甫有三首詩的字全都來自於《中華姓氏字集》,而李白(運氣不好)連一首也沒有!


北京郵電大學信息安全中心主任 楊義先教授,灵创团队带头人。