計(jì)算機(jī)輔助大數(shù)據(jù)政治話語分析
《中共中央黨校(國家行政學(xué)院)學(xué)報(bào)》
原標(biāo)題:佟德志:計(jì)算機(jī)輔助大數(shù)據(jù)政治話語分析
政治話語體系在政治學(xué)的研究當(dāng)中居于非常重要的地位,是我們分析政治知識,、觀念,、價(jià)值以及意識形態(tài)的重要工具,。伴隨著信息通信技術(shù)的來臨,,越來越多的政治話語文本能夠更加快捷,、方便地以大數(shù)據(jù)的方式獲得,,并用計(jì)算機(jī)輔助進(jìn)行政治話語分析,。這為我們更加準(zhǔn)確,、更加科學(xué)地分析政治話語提供了基礎(chǔ),。
從某種程度上講,學(xué)術(shù)研究必然是以話語權(quán)為中心的,。首先要明白別人講的一套概念和命題,,這些都是話語體系最重要的元素;其次,,還要用一套概念和命題把自己的思想表達(dá)出來,,這實(shí)際上會(huì)形成一套話語體系。隨著人們的學(xué)習(xí)和交流,,這些話語體系會(huì)形成一定的模式,,決定了學(xué)術(shù)研究的基本樣式。
事實(shí)上,,我們可以把政治話語簡單地分成三類,。一是官方話語體系,這在中國的分析里是非常重要的,。中國的話語確實(shí)有用,,官方話語代表了大致的政治走向。實(shí)際上,,在西方分析里,,官方話語對社會(huì)的政治話語體系的影響就不像中國這么重要。二是民間話語,。民間話語的分析會(huì)把話語的分析引入更為細(xì)致,,也更為深入的普通民眾的精神境界,理解他們的想法,。更加重要的是,,官方話語必須跟民間話語相互契合,如果契合度不夠,,必然會(huì)出現(xiàn)裂隙,,甚至?xí)绊懙焦俜皆捳Z的存續(xù)。三是學(xué)術(shù)話語,。它既不同于官方話語,,也不同于民間話語,但又與這兩種語言有著千絲萬縷的聯(lián)系,。
傳統(tǒng)的政治話語分析傾向于精英話語分析,。比如西方政治思想史的研究,,實(shí)際上就是在分析這些像柏拉圖、亞里士多德,、霍布斯,、洛克、盧梭,、孟德斯鳩這些大哲學(xué)家,、大思想家的政治話語。但是,,如果太過注重精英的話語,,就會(huì)出現(xiàn)一系列問題。比如,,無法理解普通民眾的日常想法,;更無法形成對當(dāng)時(shí)時(shí)代的基本認(rèn)識。官方話語的文本有限,,因此更容易成為學(xué)者研究的重點(diǎn),。這導(dǎo)致真正對于民間話語的分析是比較少的。出現(xiàn)這種問題的關(guān)鍵原因是數(shù)據(jù)太多難以處理,,民間話語不是幾個(gè)小時(shí)或者幾個(gè)T的容量,,一般的學(xué)術(shù)是沒辦法分析海量民間話語的。現(xiàn)在借助互聯(lián)網(wǎng)抓取話語并使用計(jì)算機(jī)軟件進(jìn)行分析,,為我們運(yùn)用計(jì)算機(jī)輔助進(jìn)行文本分析打開了廣闊天地,。
最常用的方法可以包括詞頻分析、詞云分析,、情感分析,、流量分析、聚類和分類分析,、社會(huì)網(wǎng)絡(luò)分析等,。有一些方法已經(jīng)運(yùn)用得非常廣泛了,比如,,詞頻分析和詞云分析,。比如情感分析方法,運(yùn)用的結(jié)果在社會(huì)科學(xué)領(lǐng)域還比較少,。社會(huì)網(wǎng)絡(luò)分析雖然運(yùn)用還不多,,但是潛力較大,有著廣闊的運(yùn)用前景,。同時(shí),,這些分析方法還可以同時(shí)間,、地點(diǎn)等組合在一起,,從而分析話語體系的變遷,、話語體系在空間上的不同等等。比如,,使用詞頻的截面數(shù)據(jù)對話語體系的變遷進(jìn)行分析,;通過運(yùn)用社會(huì)網(wǎng)絡(luò)分析、聚類分析方法從而實(shí)現(xiàn)對概念結(jié)構(gòu)模型的估計(jì)等等,。
詞頻分析是計(jì)算機(jī)輔助進(jìn)行大數(shù)據(jù)話語分析的基礎(chǔ),。目前在這方面的研究,已經(jīng)有了比較成熟的軟件,,也有一些通用的標(biāo)準(zhǔn),。比如,中國科學(xué)院計(jì)算技術(shù)研究所多年研制成功的漢語詞法分析系統(tǒng)ICTCLAS (Institute of Computing Technology,,Chinese Lexical Analysis System),,功能包括了中文分詞、詞性標(biāo)注,、命名實(shí)體識別,、新詞識別等功能,同時(shí)支持用戶詞典,。其內(nèi)核已經(jīng)升級6次,,到ICTCLAS3.0。該軟件分詞速度單機(jī)996KB/s,,分詞精度98.45%,,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,,使用起來也很方便,。
詞頻分析可以直接分析到特定文本內(nèi)各種詞出現(xiàn)的頻率,這種分析特別適合在文本量較大的文件中快速發(fā)現(xiàn)出現(xiàn)次數(shù)較多的詞語,,并從中提煉出重要的主題,。在大數(shù)據(jù)環(huán)境下,文本數(shù)量會(huì)變得異常龐大,,可能不只是幾萬字,,甚至是幾M或者是幾G,甚至是幾個(gè)T的字節(jié),。我們很難想象在這樣龐大的文本當(dāng)中以人工閱讀的方式發(fā)現(xiàn)規(guī)律,,但如果使用計(jì)算機(jī)輔助,這樣的工作就能夠很輕松地完成了,。比如,,從新華網(wǎng)獲取十八屆四中全會(huì)公報(bào),分詞后對詞頻進(jìn)行統(tǒng)計(jì)后我們發(fā)現(xiàn),“法治”出現(xiàn)50次,、“依法”出現(xiàn)46次,、“推進(jìn)”出現(xiàn)33次、“法律”出現(xiàn)29次,,“社會(huì)主義”出現(xiàn)29次,。這是全部文本中出現(xiàn)次數(shù)最高的前5名。根據(jù)這些內(nèi)容可以做出一個(gè)基本的假設(shè),,即這次全會(huì)是圍繞著社會(huì)主義依法治國展開的一次全會(huì),,這與這次全會(huì)的主題是完全相符的。
詞云是在詞頻分析基礎(chǔ)上的一種呈現(xiàn),,根據(jù)詞語頻次,、權(quán)重以可視化的方式呈現(xiàn)出來,在一些基本詞頻描述中十分常見,。它以大小,、顏色、形狀等方式對詞頻進(jìn)行可視化的處理,,能夠十分直觀,、形象地反映文檔中詞頻的分布情況,在話語文本分析中應(yīng)用非常多,。比如,,把1990至2000年間的以民主為題的論文摘要做一個(gè)詞頻統(tǒng)計(jì)然后再做詞頻分析,我們會(huì)得到這樣一個(gè)詞云圖:
圖1 民主的詞云(略)
通過此詞云圖,,可以非常形象地發(fā)現(xiàn),,在這些文本當(dāng)中,民主出現(xiàn)的頻率是最高的,,其次是民主派,、政治、國家,、公共,、經(jīng)濟(jì)等詞。當(dāng)然,,這個(gè)詞云也會(huì)把“between”,、“other”這樣一些沒有實(shí)際意義的詞算在里面。一般軟件會(huì)允許我們就這些內(nèi)容的列表進(jìn)行編輯,,以去除那些對研究目的可能沒什么貢獻(xiàn)的詞,,以使詞云更具有啟發(fā)性。
在政治話語分析中,,詞頻分析與時(shí)間序列的結(jié)合,,會(huì)使我們更清晰地看到關(guān)鍵詞的變遷,,并從這些關(guān)鍵詞的變遷來理解政治話語的變遷,甚至進(jìn)而理解理論的變遷,,把握一個(gè)時(shí)代的政治知識,、政治價(jià)值、政治觀念和意識形態(tài),。比如,,改革開放以來,,中國的經(jīng)濟(jì)與社會(huì)發(fā)生了巨大變化,,這直接帶來了政治話語的變化。比如,,“專政”這一概念就不再被人們提起,,逐漸淡出政治話語體系。在詞頻分析當(dāng)中,,我們可以印證這一結(jié)果,。比如,“專政”在詞頻分析的結(jié)果中呈現(xiàn)不斷的下降趨勢,。十二大“專政”出現(xiàn)最多,,十三大有所下降,十四大又有所回升,,但在十五大以后直線下降,,直到十八大完全消失。目前來看,,“專政”這個(gè)詞基本已經(jīng)淡出中國政治的關(guān)鍵詞,。
在這些紛繁復(fù)雜的變化當(dāng)中,仍然有很多東西是不變的,。比如,,“人民”這個(gè)詞語在中國革命期間就是一個(gè)關(guān)鍵詞。隨著改革開放的不斷深入,,這一概念并沒有出現(xiàn)淡化的現(xiàn)象而是呈現(xiàn)出不斷發(fā)展的態(tài)勢,。如果用覆蓋率進(jìn)行分析,改革開放的過程中,,這一概念呈現(xiàn)不斷攀升的趨勢,。
從這些變與不變當(dāng)中,我們發(fā)現(xiàn),,中國的話語變遷不是否定性的革命,,而是替代性的變革。在不否定原有話語體系的前提下,,中國特色社會(huì)主義政治話語體系當(dāng)中不斷有新的話語被創(chuàng)造出來,。比如,,不否定“革命”,但用“改革”進(jìn)行了替代,;不否定“專政”,,但用“法治”進(jìn)行替代。
另外,,還可以對不同群體的話語體系進(jìn)行分析,。比如,在中國政治傳播的過程中,,一直存在著官方話語體系,、學(xué)術(shù)話語體系和民間話語體系的爭論。但是,,當(dāng)我們就某些主題進(jìn)行話語體系的文本分析時(shí)我們會(huì)發(fā)現(xiàn),,這些話語體系會(huì)共享某些關(guān)鍵詞,出現(xiàn)學(xué)術(shù)話語體系和官方話語體系高度契合的狀況,。
針對不同的話語分析要求,,應(yīng)該使用不同的政治話語分析手段。詞共現(xiàn)指的是“一個(gè)句子中相鄰或相近的單詞之間極大可能存在語法或語義上的相關(guān)”,,基于這種現(xiàn)象而進(jìn)行的詞共現(xiàn)分析廣泛地運(yùn)用于基于關(guān)鍵詞的信息檢索,、話題與熱點(diǎn)問題發(fā)現(xiàn)、文本分類聚類,、領(lǐng)域文本分析,、社團(tuán)挖掘等自然語言處理領(lǐng)域。[1]
可以運(yùn)用文本挖掘的方法對文本的語義進(jìn)行分析,,根據(jù)詞頻建立起模型,,進(jìn)行綜合分析。比如,,對“全面從嚴(yán)治黨”進(jìn)行詞頻結(jié)構(gòu)模型的分析,,可以看到,在提及“全面從嚴(yán)治黨”的145個(gè)段落當(dāng)中,,提到“群眾基礎(chǔ)”,、“群眾路線”是163次,“執(zhí)政能力”73次,,“反腐敗”123次,,“先進(jìn)性統(tǒng)一”56次。這樣,,我們基本可以得到以下這樣一個(gè)模型,,以反映全面從嚴(yán)治黨的必然性。
圖2 全面從嚴(yán)治黨必然性的文本模型與詞頻分析(略)
詞頻分析的基本原理在于詞頻與重要性成正比,,也就是說,,詞頻越高,,詞的重要性就越高;相反,,詞頻越低,,重要性越低。一般來講,,這個(gè)原理是成立的,。從前面舉的例子,我們也能發(fā)現(xiàn)這一規(guī)律,。有一句流行語叫:“重要的話要說三遍”,,說的就是說得越多,越重要,。但是,,這并不是在任何條件下都是成立的,。有的時(shí)候,,詞頻較低的關(guān)鍵詞也可能正是重要的主題,只是這一主題沒有被強(qiáng)調(diào)出來而已,。因此,,詞頻分析必須要輔以定性的理論基礎(chǔ)。
計(jì)算機(jī)輔助大數(shù)據(jù)政治話語分析是綜合運(yùn)用語言學(xué),、信息管理學(xué),、政治學(xué)等多個(gè)學(xué)科的知識,將定性與定量結(jié)合起來的一種研究方法,,在政治學(xué)研究的領(lǐng)域還是比較新鮮的事物,。如何更好地把自然語言處理與信息檢索等信息通信技術(shù)運(yùn)用到政治話語的分析當(dāng)中來,既需要政治學(xué)定性研究的積累,,同時(shí)也需要其他學(xué)科定量研究的成果,。也就是說,這一分析路徑還存在著很多值得進(jìn)一步深入探討的問題,,其缺點(diǎn)也很多,,不能代替人工分析,需要進(jìn)一步完善,。比如,,如何更好地建立數(shù)據(jù)庫,獲取要研究的全部文本,。還有就是這種詞共現(xiàn)的分析方法本身也存在著一系列的問題,,比如,不能簡單地用計(jì)算機(jī)統(tǒng)計(jì)的詞頻來反映詞與詞之間關(guān)聯(lián)的緊密性,,仍然需要更為精細(xì)的人工分析,。最重要的是,,計(jì)算機(jī)輔助進(jìn)行話語分析有量化的特點(diǎn),必須跟定性的分析相結(jié)合,。如果沒有強(qiáng)大的知識基礎(chǔ)和規(guī)范性的理論體系,,在進(jìn)行定量分析的時(shí)候容易走偏。此外,,必須承認(rèn)計(jì)算機(jī)輔助進(jìn)行大數(shù)據(jù)文本分析是有意義的,,必須要有理論的范式和模型。
[作者簡介]佟德志,,天津師范大學(xué)政治文化與政治文明建設(shè)研究院教授,,政治與行政學(xué)院院長。
政治話語體系在政治學(xué)的研究當(dāng)中居于非常重要的地位,是我們分析政治知識,、觀念,、價(jià)值以及意識形態(tài)的重要工具,。伴隨著信息通信技術(shù)的來臨,,越來越多的政治話語文本能夠更加快捷,、方便地以大數(shù)據(jù)的方式獲得,,并用計(jì)算機(jī)輔助進(jìn)行政治話語分析,。這為我們更加準(zhǔn)確,、更加科學(xué)地分析政治話語提供了基礎(chǔ),。
從某種程度上講,學(xué)術(shù)研究必然是以話語權(quán)為中心的,。首先要明白別人講的一套概念和命題,,這些都是話語體系最重要的元素;其次,,還要用一套概念和命題把自己的思想表達(dá)出來,,這實(shí)際上會(huì)形成一套話語體系。隨著人們的學(xué)習(xí)和交流,,這些話語體系會(huì)形成一定的模式,,決定了學(xué)術(shù)研究的基本樣式。
事實(shí)上,,我們可以把政治話語簡單地分成三類,。一是官方話語體系,這在中國的分析里是非常重要的,。中國的話語確實(shí)有用,,官方話語代表了大致的政治走向。實(shí)際上,,在西方分析里,,官方話語對社會(huì)的政治話語體系的影響就不像中國這么重要。二是民間話語,。民間話語的分析會(huì)把話語的分析引入更為細(xì)致,,也更為深入的普通民眾的精神境界,理解他們的想法,。更加重要的是,,官方話語必須跟民間話語相互契合,如果契合度不夠,,必然會(huì)出現(xiàn)裂隙,,甚至?xí)绊懙焦俜皆捳Z的存續(xù)。三是學(xué)術(shù)話語,。它既不同于官方話語,,也不同于民間話語,但又與這兩種語言有著千絲萬縷的聯(lián)系,。
傳統(tǒng)的政治話語分析傾向于精英話語分析,。比如西方政治思想史的研究,,實(shí)際上就是在分析這些像柏拉圖、亞里士多德,、霍布斯,、洛克、盧梭,、孟德斯鳩這些大哲學(xué)家,、大思想家的政治話語。但是,,如果太過注重精英的話語,,就會(huì)出現(xiàn)一系列問題。比如,,無法理解普通民眾的日常想法,;更無法形成對當(dāng)時(shí)時(shí)代的基本認(rèn)識。官方話語的文本有限,,因此更容易成為學(xué)者研究的重點(diǎn),。這導(dǎo)致真正對于民間話語的分析是比較少的。出現(xiàn)這種問題的關(guān)鍵原因是數(shù)據(jù)太多難以處理,,民間話語不是幾個(gè)小時(shí)或者幾個(gè)T的容量,,一般的學(xué)術(shù)是沒辦法分析海量民間話語的。現(xiàn)在借助互聯(lián)網(wǎng)抓取話語并使用計(jì)算機(jī)軟件進(jìn)行分析,,為我們運(yùn)用計(jì)算機(jī)輔助進(jìn)行文本分析打開了廣闊天地,。
最常用的方法可以包括詞頻分析、詞云分析,、情感分析,、流量分析、聚類和分類分析,、社會(huì)網(wǎng)絡(luò)分析等,。有一些方法已經(jīng)運(yùn)用得非常廣泛了,比如,,詞頻分析和詞云分析,。比如情感分析方法,運(yùn)用的結(jié)果在社會(huì)科學(xué)領(lǐng)域還比較少,。社會(huì)網(wǎng)絡(luò)分析雖然運(yùn)用還不多,,但是潛力較大,有著廣闊的運(yùn)用前景,。同時(shí),,這些分析方法還可以同時(shí)間,、地點(diǎn)等組合在一起,,從而分析話語體系的變遷,、話語體系在空間上的不同等等。比如,,使用詞頻的截面數(shù)據(jù)對話語體系的變遷進(jìn)行分析,;通過運(yùn)用社會(huì)網(wǎng)絡(luò)分析、聚類分析方法從而實(shí)現(xiàn)對概念結(jié)構(gòu)模型的估計(jì)等等,。
詞頻分析是計(jì)算機(jī)輔助進(jìn)行大數(shù)據(jù)話語分析的基礎(chǔ),。目前在這方面的研究,已經(jīng)有了比較成熟的軟件,,也有一些通用的標(biāo)準(zhǔn),。比如,中國科學(xué)院計(jì)算技術(shù)研究所多年研制成功的漢語詞法分析系統(tǒng)ICTCLAS (Institute of Computing Technology,,Chinese Lexical Analysis System),,功能包括了中文分詞、詞性標(biāo)注,、命名實(shí)體識別,、新詞識別等功能,同時(shí)支持用戶詞典,。其內(nèi)核已經(jīng)升級6次,,到ICTCLAS3.0。該軟件分詞速度單機(jī)996KB/s,,分詞精度98.45%,,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,,使用起來也很方便,。
詞頻分析可以直接分析到特定文本內(nèi)各種詞出現(xiàn)的頻率,這種分析特別適合在文本量較大的文件中快速發(fā)現(xiàn)出現(xiàn)次數(shù)較多的詞語,,并從中提煉出重要的主題,。在大數(shù)據(jù)環(huán)境下,文本數(shù)量會(huì)變得異常龐大,,可能不只是幾萬字,,甚至是幾M或者是幾G,甚至是幾個(gè)T的字節(jié),。我們很難想象在這樣龐大的文本當(dāng)中以人工閱讀的方式發(fā)現(xiàn)規(guī)律,,但如果使用計(jì)算機(jī)輔助,這樣的工作就能夠很輕松地完成了,。比如,,從新華網(wǎng)獲取十八屆四中全會(huì)公報(bào),分詞后對詞頻進(jìn)行統(tǒng)計(jì)后我們發(fā)現(xiàn),“法治”出現(xiàn)50次,、“依法”出現(xiàn)46次,、“推進(jìn)”出現(xiàn)33次、“法律”出現(xiàn)29次,,“社會(huì)主義”出現(xiàn)29次,。這是全部文本中出現(xiàn)次數(shù)最高的前5名。根據(jù)這些內(nèi)容可以做出一個(gè)基本的假設(shè),,即這次全會(huì)是圍繞著社會(huì)主義依法治國展開的一次全會(huì),,這與這次全會(huì)的主題是完全相符的。
詞云是在詞頻分析基礎(chǔ)上的一種呈現(xiàn),,根據(jù)詞語頻次,、權(quán)重以可視化的方式呈現(xiàn)出來,在一些基本詞頻描述中十分常見,。它以大小,、顏色、形狀等方式對詞頻進(jìn)行可視化的處理,,能夠十分直觀,、形象地反映文檔中詞頻的分布情況,在話語文本分析中應(yīng)用非常多,。比如,,把1990至2000年間的以民主為題的論文摘要做一個(gè)詞頻統(tǒng)計(jì)然后再做詞頻分析,我們會(huì)得到這樣一個(gè)詞云圖:
圖1 民主的詞云(略)
通過此詞云圖,,可以非常形象地發(fā)現(xiàn),,在這些文本當(dāng)中,民主出現(xiàn)的頻率是最高的,,其次是民主派,、政治、國家,、公共,、經(jīng)濟(jì)等詞。當(dāng)然,,這個(gè)詞云也會(huì)把“between”,、“other”這樣一些沒有實(shí)際意義的詞算在里面。一般軟件會(huì)允許我們就這些內(nèi)容的列表進(jìn)行編輯,,以去除那些對研究目的可能沒什么貢獻(xiàn)的詞,,以使詞云更具有啟發(fā)性。
在政治話語分析中,,詞頻分析與時(shí)間序列的結(jié)合,,會(huì)使我們更清晰地看到關(guān)鍵詞的變遷,,并從這些關(guān)鍵詞的變遷來理解政治話語的變遷,甚至進(jìn)而理解理論的變遷,,把握一個(gè)時(shí)代的政治知識,、政治價(jià)值、政治觀念和意識形態(tài),。比如,,改革開放以來,,中國的經(jīng)濟(jì)與社會(huì)發(fā)生了巨大變化,,這直接帶來了政治話語的變化。比如,,“專政”這一概念就不再被人們提起,,逐漸淡出政治話語體系。在詞頻分析當(dāng)中,,我們可以印證這一結(jié)果,。比如,“專政”在詞頻分析的結(jié)果中呈現(xiàn)不斷的下降趨勢,。十二大“專政”出現(xiàn)最多,,十三大有所下降,十四大又有所回升,,但在十五大以后直線下降,,直到十八大完全消失。目前來看,,“專政”這個(gè)詞基本已經(jīng)淡出中國政治的關(guān)鍵詞,。
在這些紛繁復(fù)雜的變化當(dāng)中,仍然有很多東西是不變的,。比如,,“人民”這個(gè)詞語在中國革命期間就是一個(gè)關(guān)鍵詞。隨著改革開放的不斷深入,,這一概念并沒有出現(xiàn)淡化的現(xiàn)象而是呈現(xiàn)出不斷發(fā)展的態(tài)勢,。如果用覆蓋率進(jìn)行分析,改革開放的過程中,,這一概念呈現(xiàn)不斷攀升的趨勢,。
從這些變與不變當(dāng)中,我們發(fā)現(xiàn),,中國的話語變遷不是否定性的革命,,而是替代性的變革。在不否定原有話語體系的前提下,,中國特色社會(huì)主義政治話語體系當(dāng)中不斷有新的話語被創(chuàng)造出來,。比如,,不否定“革命”,但用“改革”進(jìn)行了替代,;不否定“專政”,,但用“法治”進(jìn)行替代。
另外,,還可以對不同群體的話語體系進(jìn)行分析,。比如,在中國政治傳播的過程中,,一直存在著官方話語體系,、學(xué)術(shù)話語體系和民間話語體系的爭論。但是,,當(dāng)我們就某些主題進(jìn)行話語體系的文本分析時(shí)我們會(huì)發(fā)現(xiàn),,這些話語體系會(huì)共享某些關(guān)鍵詞,出現(xiàn)學(xué)術(shù)話語體系和官方話語體系高度契合的狀況,。
針對不同的話語分析要求,,應(yīng)該使用不同的政治話語分析手段。詞共現(xiàn)指的是“一個(gè)句子中相鄰或相近的單詞之間極大可能存在語法或語義上的相關(guān)”,,基于這種現(xiàn)象而進(jìn)行的詞共現(xiàn)分析廣泛地運(yùn)用于基于關(guān)鍵詞的信息檢索,、話題與熱點(diǎn)問題發(fā)現(xiàn)、文本分類聚類,、領(lǐng)域文本分析,、社團(tuán)挖掘等自然語言處理領(lǐng)域。[1]
可以運(yùn)用文本挖掘的方法對文本的語義進(jìn)行分析,,根據(jù)詞頻建立起模型,,進(jìn)行綜合分析。比如,,對“全面從嚴(yán)治黨”進(jìn)行詞頻結(jié)構(gòu)模型的分析,,可以看到,在提及“全面從嚴(yán)治黨”的145個(gè)段落當(dāng)中,,提到“群眾基礎(chǔ)”,、“群眾路線”是163次,“執(zhí)政能力”73次,,“反腐敗”123次,,“先進(jìn)性統(tǒng)一”56次。這樣,,我們基本可以得到以下這樣一個(gè)模型,,以反映全面從嚴(yán)治黨的必然性。
圖2 全面從嚴(yán)治黨必然性的文本模型與詞頻分析(略)
詞頻分析的基本原理在于詞頻與重要性成正比,,也就是說,,詞頻越高,,詞的重要性就越高;相反,,詞頻越低,,重要性越低。一般來講,,這個(gè)原理是成立的,。從前面舉的例子,我們也能發(fā)現(xiàn)這一規(guī)律,。有一句流行語叫:“重要的話要說三遍”,,說的就是說得越多,越重要,。但是,,這并不是在任何條件下都是成立的,。有的時(shí)候,,詞頻較低的關(guān)鍵詞也可能正是重要的主題,只是這一主題沒有被強(qiáng)調(diào)出來而已,。因此,,詞頻分析必須要輔以定性的理論基礎(chǔ)。
計(jì)算機(jī)輔助大數(shù)據(jù)政治話語分析是綜合運(yùn)用語言學(xué),、信息管理學(xué),、政治學(xué)等多個(gè)學(xué)科的知識,將定性與定量結(jié)合起來的一種研究方法,,在政治學(xué)研究的領(lǐng)域還是比較新鮮的事物,。如何更好地把自然語言處理與信息檢索等信息通信技術(shù)運(yùn)用到政治話語的分析當(dāng)中來,既需要政治學(xué)定性研究的積累,,同時(shí)也需要其他學(xué)科定量研究的成果,。也就是說,這一分析路徑還存在著很多值得進(jìn)一步深入探討的問題,,其缺點(diǎn)也很多,,不能代替人工分析,需要進(jìn)一步完善,。比如,,如何更好地建立數(shù)據(jù)庫,獲取要研究的全部文本,。還有就是這種詞共現(xiàn)的分析方法本身也存在著一系列的問題,,比如,不能簡單地用計(jì)算機(jī)統(tǒng)計(jì)的詞頻來反映詞與詞之間關(guān)聯(lián)的緊密性,,仍然需要更為精細(xì)的人工分析,。最重要的是,,計(jì)算機(jī)輔助進(jìn)行話語分析有量化的特點(diǎn),必須跟定性的分析相結(jié)合,。如果沒有強(qiáng)大的知識基礎(chǔ)和規(guī)范性的理論體系,,在進(jìn)行定量分析的時(shí)候容易走偏。此外,,必須承認(rèn)計(jì)算機(jī)輔助進(jìn)行大數(shù)據(jù)文本分析是有意義的,,必須要有理論的范式和模型。
[作者簡介]佟德志,,天津師范大學(xué)政治文化與政治文明建設(shè)研究院教授,,政治與行政學(xué)院院長。
責(zé)任人編輯:萬鵬,、謝磊
- 標(biāo)簽:
分享到:
上一篇: 中國道路與中國話語建構(gòu)
下一篇: 中國話語與中國實(shí)踐