一部《全唐詩》里有四萬多首詩,也許窮盡我們一生都無法全部讀完,不過,在這個(gè)大數(shù)據(jù)時(shí)代,有人發(fā)明了《全唐詩》的另類讀法。即用數(shù)據(jù)分析的角度來看《全唐詩》。
當(dāng)《全唐詩》遇上“大數(shù)據(jù)”,結(jié)果會怎樣呢?
《全唐詩》中出現(xiàn)頻率最高的字:人
對《全唐詩》采取逐字切分的處理方式,同時(shí)去掉一些常見的虛詞,如“之乎者也”。經(jīng)過文本預(yù)處理后,就可以進(jìn)行文本挖掘中最常規(guī)的分析——字頻統(tǒng)計(jì)。
出人意料的是,《全唐詩》中出現(xiàn)最多的不是風(fēng)花雪月,而是“人”。
李白有很多故人,他說“故人西辭黃鶴樓”
杜甫感嘆著人生,他寫“人生有情淚沾臆”
白居易愛管人間之事,他愿“天上人間會相見”
“人”,是唐詩的魂魄
《全唐詩》中最常見的148個(gè)字排名如下:
《全唐詩》中出現(xiàn)最多的季節(jié):春
這個(gè),你可能已經(jīng)猜到了吧
春天萬物生發(fā),確實(shí)讓人有寫詩的欲望
看見山山水水,別猶豫,寫一首
看見花花草草,別客氣,寫一首
看見春游的美人,那更是要寫一首的
春,是唐詩的夢幻
《全唐詩》中出現(xiàn)最多的顏色:綠、白
找了51個(gè)古語中常用的顏色的單字
注意是古漢語語境中的顏色稱謂
主要的色系有——
紅色系(紅、丹、朱、赤、絳等)
黑色系(暗、玄、烏、冥、墨等)
綠色系(綠、碧、翠、蒼等)
白色系(白、素、皎、皓等)
這些顏色及其對應(yīng)的字頻如下表所示:
這里面“白”字的字頻最高
本意是“日出與日落之間的天色”
常見的有“白發(fā)”“白云”“白雪”
常渲染出一種韶華易逝、悲涼的氣氛
“白發(fā)三千丈,緣愁似個(gè)長。”
“乘興輕舟無近遠(yuǎn),白云明月吊湘娥。”
“居延城外獵天驕,白草連天野火燒。”
將上述主要的色系綜合統(tǒng)計(jì)一下
得到下面的環(huán)形占比圖:
在《全唐詩》的色譜上,出現(xiàn)最多的色系是綠色系
“綠樹”“碧水”“蒼松”“翠柳”
這些高頻字從側(cè)面反映出全唐詩中描寫景物、寄情山水的詩句占比很大,透露出平靜、清新和閑適之感。
《全唐詩》中的綠色,
是“綠樹村邊合,青山郭外斜”
是“客路青山外,行舟綠水前”
綠得自然,綠得愜意
白,綠,是唐詩的基準(zhǔn)色
《全唐詩》中出現(xiàn)最多的雙字詞
漢語的語素大都是由單音節(jié)(字)表示,即所謂的“一音一義”。當(dāng)這些單音節(jié)語素,能夠獨(dú)立應(yīng)用的話,就是詞。古漢語中存在著許多單音節(jié)詞,這也就是文言文翻譯中要經(jīng)常把一個(gè)字翻譯成現(xiàn)代漢語中雙音節(jié)詞的原因。
有些單音節(jié)語素,不能夠獨(dú)立使用,就不是詞,只能夠是語素,如“第~“、”躊~“、”-~們“。唐詩中的常用雙字詞都有哪些呢?
經(jīng)過程序猿小哥哥的神秘運(yùn)算,
以下是TOP200的共現(xiàn)雙字詞:
從上面的雙詞探測結(jié)果中,可以發(fā)現(xiàn)如下6類成詞規(guī)律:
(1)復(fù)合式(A+B等于C):由兩個(gè)字組成,這兩個(gè)字分別代表意義,組成雙音節(jié)的詞,這類詞出現(xiàn)的頻次最多。比如,弟兄、砧杵、紀(jì)綱、捐軀、巡狩、犬吠。
(2)重疊式(AA等于A): 瑯瑯、肅肅、忻忻、灼灼。
(3)疊音(AA不等于A):瑯瑯(單獨(dú)拆開不能組其他詞)、的的(拆開后的單字的詞義不同)等。
(4)雙聲(聲母相同): 躊躇(聲母都是c,分開各自無法組詞)、參差(聲母都是c)、緬邈(聲母都是m)。
(5)疊韻(韻母相同):噫嘻(韻母是i)、繚繞(韻母是ao)、妖嬈(韻母是ao)等。
(6)雙音節(jié)擬聲詞:歔欷、咿啞等。
《全唐詩》中最重要的字眼是什么?
選取高頻字的TOP148抽取共現(xiàn)關(guān)系,可以看到,上述的語義網(wǎng)絡(luò)可以分為3個(gè)簇群,即橙系、紫系和綠系,TOP148高頻字中,字體清晰可見字的近40個(gè)。圓圈的大小表示該字在語義網(wǎng)絡(luò)中的影響力大小,在詩句中,這些字常以“字眼”的形式呈現(xiàn),也就是詩文中精要的字。
橙系:北、流、馬、草、閑、孤、逢、云等;
紫系:游、樹、雨、回、笑、言、幽、清、白、野、行等
綠系:知、金、柳、難、愁、舊、仙、望、客。
其中,根據(jù)字的構(gòu)成來看,綠系簇群中的字大多跟送別(好友)有關(guān)。
唐詩中出現(xiàn)最多的感情:悲
分析全唐詩中所表達(dá)出來的內(nèi)在境界,也就是內(nèi)在情感,為了豐富分析維度,采用7種細(xì)顆粒的情緒分類,即悲、懼、樂、怒、思、喜、憂。根據(jù)上面獲取到的字向量,經(jīng)過人工遴選后,得到可以用于訓(xùn)練的“情緒字典”,根據(jù)詩歌中常見的主題類別,七種情緒類別分為:
悲:愁、慟、痛、寡、哀、傷、嗟…
懼:讒、謗、患、罪、詐、懼、誣…
樂:悅、欣、樂、怡、洽、暢、愉…
怒:怒、雷、吼、霆、霹、猛、轟…
思:思、憶、懷、恨、吟、逢、期…
喜:喜、健、倩、賀、好、良、善…
憂:恤、憂、痾、慮、艱、遑、厄…
對《全唐詩》近5萬首詩的情緒分析結(jié)果,展示如下:
出乎很多人的意料,代表大唐氣象的唐詩應(yīng)該以積極昂揚(yáng)的情緒為主,可最后卻是“悲”“思”“憂”這樣的情緒占據(jù)主流,而 “喜”“樂”這樣的情緒卻占據(jù)末流!
“天地悠悠”是悲情的
“落木蕭蕭”是悲涼的
“黃沙百戰(zhàn)”是悲壯的
“彩云易散”是悲傷的
悲,是唐詩的筋骨
《全唐詩》VS《全宋詞》VS《全元曲》
從上面呈現(xiàn)的TOP10高頻字和象限區(qū)塊(左上角“唐詩”、右上角“宋詞”和正下方“元曲”)來看,唐詩、宋詞、元曲中出現(xiàn)的獨(dú)有高頻字依次是:
唐詩:唯、馀、始、鳥、含、爾、昔、茲、忽、棲、川、旌、戎、秦…
宋詞:闌、沈、匆、簾、濃、約、淡、觴、蕊、屏、凝、笙、瑤、柔…
元曲:哥、俺、咱、孩、姐、吃、哩、科、廝、拿、你、叫、呀、呵…
從上面的關(guān)鍵字來看,唐詩、宋詞和元曲各自的特征很鮮明:
唐詩:用字清澹高華、含蓄,詩味較濃,寄情山水和金戈鐵馬的特征明顯。
宋詞:所用的字體現(xiàn)出婉約、宛轉(zhuǎn)柔美,表現(xiàn)的多是兒女情長,生活點(diǎn)滴。
元曲:所用的字生活氣息濃重,通俗易懂、接地氣、詼諧、灑脫和率真。
計(jì)算機(jī)也許永遠(yuǎn)無法比過李白和杜甫。
但它總歸是人類前進(jìn)的方向,用大數(shù)據(jù)的角度看《全唐詩》,給我們提供了無限的可能。
讀完你會發(fā)現(xiàn),文科與理科,在詩的世界里并沒有那么涇渭分明。
對審美的追求,對詩性的渴望,是每一個(gè)人心中固有的基因。
--end--
關(guān)鍵詞:古詩詞