協作閣

開源協作部落格

The Speech of Fiction

W2 microblog

Jessica / 2019-03-14 /


上週提到了我是一個非常喜歡逛書店、看書的人。上次的blog(從數字看新書)主要是著重在書的「外在環境」:台灣的出版業及不同年齡讀者的喜好上。這週我想要回歸到書本的「內在」,即是書裡面的文字部分。 如果問大多數人,書本、小說裡面的文字是屬於書面語還是口語呢?大多數人應該都會覺得:你在說什麼廢話!?當然是「書」面語啊~它都叫「書」了!那如果是問書裡面角色的對白呢?這時候你可能就有點遲疑了,書中人物講話「很像」我們平時講話,但卻又沒那麼像。若將我們平時講的話都錄下來,應該會像下面這樣充滿斷句、打岔、贅句、未完句:

秘書:「還是……我等一下再……」
主管:「要問一下,問一下啦。」
秘書:「恩恩…好…好」

真實對話,大部份是無聊的碎渣。但你有看過小說裡面的人這樣講話的嗎?小說裡的人,講話好像都比我們再「有水準」一點,像下面這樣:

傑西:「嗨,比爾,我其實是迷路了,剛才有人搶了我的皮包,你看,我的鼻子。」
比爾:「天哪,傑西,你的鼻子大而紅腫,流了一些鼻血,發生什麼事了?」

例子取自 《變身暢銷小說家:倪采青談小說寫作技巧》

這時候你又會覺得:哪個正常人平常會這樣講話啦~因為其實很少人在見面講話時,會頻頻稱對方的名字,也應該很少人在被搶之後,還會冷靜地用語言,不加任何狀聲詞和手勢,來描述那個事件。

啊講了那麼多,所以……

總之,我就是對小說裡面的對話很感興趣,像是小說裡的對話大都是怎樣呈現、不同類型的小說是否會有不同的對話表現,這些都是在這篇blog裡面會談到的。

人物要講話前,都會出現什麼……?

首先,我從鏡文學網站上,爬了點擊總排行榜上的前三名,又根據不同類型(都會、歷史、愛情),抓了各類型的第一、二名的小說。然後利用文本分析器,找出在“「」”前最常出現的句子,並計算它們的句子長度(幾個字),結果如下:
對話前句子長度

Figure 1: 對話前句子長度

圖表顯示,不管是哪一種類型的小說,對話前的句子都不長,集中在6~12個字中間。但是,Ghost Mansion鬼魅豪宅(總點擊排行榜第一名)的作者特別愛用長句來表現對話前的句子,比跟它同是都會小說(chic)的其他作品還要來得高。這表示這位作者特別喜歡在讓角色說話前給予很多描述,比如說:操著孟加拉腔調的司機長篇大論地繼續發表著、小范立刻脫掉西裝強迫自己露出笑容……。 接下來我們來看看這些「對話前」的句子都長什麼樣吧!

Table 1: top3_詞性標註
top1 top2 top3
笑(VA) 著(Di) 說(VE)  說(VE) 溫聲(Na) 說道(VE) 
葉國強(Nb) 搖(VAC) 了(Di) 搖頭(VA) 說(VE) 又(D) 說(VE) 輕聲(D) 說(VE) 
小(VH) 范(Nb) 立刻(D) 脫掉(VC) 西裝(Na) 強迫(VF) 自己(Nh) 露出(VC) 笑容(Na) 曾國藩(Nb) 說(VE) 奇怪(VK) 的(DE) 問(VE) 
葉國強(Nb) 打斷(VC) 她(Nh) 的(DE) 話(Na) 笑(VA) 說(VE) 小聲(Nb) 說(VE)
操(VC) 著(Di) 孟加拉(Nb) 腔調(Na) 的(DE) 司機(Na) 長篇大論(Na) 地(DE) 繼續(VF) 發表(VC) 著(Di) 他(Nh) 說(VE)  低聲(D) 問道(VE) 
矗立(VH) 著(Di) 又(D) 大(VH) 又(Caa) 明顯(VH) 且(Caa) 看起來(D) 還(D) 很(Dfa) 新(VH) 的(DE) 告示牌(Na) 趙(Nb) 剛(D) 說(VE)  顏妤婷(Nb) 笑笑(VA) 說(VE) 
房間(Nc) 深處(Nc) 傳來(VC) 一(Neu) 陣(Nf) 空洞(VH) 的(DE) 呻吟聲(Na)  道(Na) 顏妤婷(Nb) 微紅著臉(VH) 說(VE)
還(D) 大聲(VH) 地(DE) 一(Neu) 個(Nf) 字(Na) 一(Neu) 個(Nf) 字(Na) 喊出來(VE) 胡爺(Nb) 說(VE) 說道(VE) 
我(Nh) 探(VC) 著(Di) 頭(Na) 對(P) 著(Di) 屋(Na) 內(Ncd) 喊(VE) 方(D) 說(VE) 她(Nh) 說(VE)
那(Nep) 婦人(Na) 對(P) 著(Di) 我(Nh) 說(VE)  才(Da) 說(VE) 過(Di) 一會(Nd) 才(Da) 開口(VA)
Table 2: genre_詞性標註
chic historical romance
他(Nh) 說(VE)  說(VE)  溫聲(Na) 說道(VE) 
 說(VE)  道(Na)  輕聲(D) 說(VE) 
笑(VA) 著(Di) 說(VE) 劉寧道(Nb)  奇怪(VK) 的(DE) 問(VE)
笑(VA) 說(VE)  又(D) 說(VE) 小聲(Nb) 說(VE) 
葉國強(Nb) 搖(VAC) 了(Di) 搖頭(VA) 說(VE)  寒(VH) 凜(VH) 月(Na) 道(Na) 低聲(D) 問道(VE) 
小(VH) 范(Nb) 立刻(D) 脫掉(VC) 西裝(Na) 強迫(VF) 自己(Nh) 露出(VC) 笑容(Na)  曾國藩(Nb) 說(VE)  顏妤婷(Nb) 笑笑(VA) 說(VE)
葉國強(Nb) 打斷(VC) 她(Nh) 的(DE) 話(Na) 又(D) 道(VE) 顏妤婷(Nb) 微紅著臉(VH) 說(VE)
又(D) 說(VE) 柔聲(Na) 道(Na) 說道(VE)
問(VE)  低聲道(Na) 她(Nh) 說(VE) 
洋洋(Na) 說(VE) 叫道(VE) 過(Di) 一會(Nd) 才(Da) 開口(VA)

除了將這些對話列出來,我還使用了國教院分詞系統幫這些句子做了詞性標註。國教院的詞性是完全採用中研院的詞性標記系統。之所以會選用,是因為試了好多其他的詞性標註工具或套件,但不是安裝太麻煩就是成效不彰。像是Jieba其實有繁體中文的詞性標註功能,速度也很快,但標出來的結果真的是很令人失望,「笑」著說的「笑」竟然會標「Na」!而其他像是SnowNLP, Hanlp其實也都有詞性標註功能,但無奈我暫時還裝不起來這些套件QQ,所以這禮拜先暫時使用國教院的分詞系統。從結果上來看,整體正確率還不錯,但還是偶有疏漏之處,像是XXX「道」,就會被標成「Na」。我猜測有可能是因為它背後訓練的資料新近詞的收量較大,而像「道」這種古典的用法就沒有涵蓋。

再來看看對話本身吧

利用前面所提到的文本分析器,我也抓出“「」”內的句子長度,以及這些對話佔整篇小說的比例。
熱門點擊小說平均對話長度

Figure 2: 熱門點擊小說平均對話長度

各類型小說平均對話長度

Figure 3: 各類型小說平均對話長度

Table 3: top3 對話比例
top3 ds.avg ds.pro
Ghost Mansion 26.600 0.0584186
Mantra 23.026 0.1177604
My heart belongs to you 23.466 0.1822270
Table 4: genre 對話比例
genre ds.avg ds.pro
chic 25.68 0.0700819
historical 24.50 0.1407699
romance 23.07 0.1488719

其實從小說對話的長度來看,好像看不出個什麼端倪,因為都差不多在20多個字左右。但若是看對話比例的話,也許可以看出一些趨勢。My Heart Belongs to you心有所屬 (愛情小說)的對話比例是18% ,這硬生生地比 Ghost Mansion鬼魅豪宅 (都會小說)的5%高出許多,這應該不是小說的作者風格不同所造成的。以類型來區分,Romance(愛情小說)的對話比例(14%) 也比Chic(都會小說)的7%來得高。雖然我不是非常愛看愛情小說,但直覺告訴我:這其中必有詐!我仔細檢視了一下鏡文學網站上的愛情小說,發現它們的主題都偏向青春浪漫校園取向,如果一本這麼「❤️少女粉紅泡泡❤️」的小說裡都是充滿這無聊冗長的敘述,而缺少懷抱著曖昧情愫的男女主角之間的情話綿綿,讀者才不要看呢!

結論……或許不是結尾?

這週的主題還是圍繞在我喜愛的文學小說上,程式說實話使用得不多,都集中在使用ggplot的繪圖套件上,但還是比上一週有一點小進展……?就是我終於可以畫出並列的長條圖了!!(就是對話前的句子長度那張圖) 自我安慰模式啟動 😄 之所以說應該不是結尾,是因為我對小說中的對話這件事還是有很大的興趣,所以下週希望還會繼續做下去(希望啦,如果沒有意外的話),然後我會努力搞清楚那個分詞系統的套件到底要怎麼安裝!! 最後附上一些我覺得很有用的reference,給我自己看也分享給有需要的人參考。