本站小編為你精心準(zhǔn)備了統(tǒng)計(jì)學(xué)習(xí)框架中文新詞檢測方式參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
詞語是語言信息自動處理的基本單位。為使處理過程順利地進(jìn)行,必須對大量產(chǎn)生的新詞進(jìn)行檢測和識別。新詞檢測在句法分析、詞典編纂、機(jī)器翻譯以及輿情監(jiān)測等領(lǐng)域都有著重要應(yīng)用。與印歐語言不同,中文沒有特定符號來表示詞語邊界,因此任何相鄰中文字符都有構(gòu)詞的可能性;且書面語中沒有字符形態(tài)變化,這都給中文新詞自動檢測帶來了巨大障礙。目前在中文新詞自動檢測的研究中,主要有基于單字散串和基于高頻重復(fù)模式方法。因后者具有能有效地識別新造詞、對語料依賴程度小、適應(yīng)能力強(qiáng)以及召回率高等特點(diǎn)[1],近年來受到了廣泛關(guān)注,也取得了較多研究成果。
2相關(guān)研究
基于高頻重復(fù)模式的新詞檢測包含2個基本步驟,即高頻重復(fù)模式的提取和候選新詞的過濾。前者從語料中提取重復(fù)模式,構(gòu)造候選新詞集合;后者對候選新詞集合中的非詞垃圾字串進(jìn)行過濾,以提取新詞。目前大量研究都集中在候選新詞的過濾方面。劉挺等[2]使用滑動窗口來提取局部重復(fù)模式,構(gòu)造候選詞集合,然后應(yīng)用經(jīng)驗(yàn)函數(shù)來檢測新詞,研究表明,該方法能有效提高中文分詞效果;鄭家恒等[3]使用遞增的n-gram模型提取重復(fù)模式,在此基礎(chǔ)上使用手工編制的提取和過濾規(guī)則(包括常用構(gòu)詞規(guī)則、特殊構(gòu)詞規(guī)則和互斥性字串過濾規(guī)則)從互聯(lián)網(wǎng)語料中提取新詞;鄒剛等[4]在文獻(xiàn)[3]方法的基礎(chǔ)上,使用正則表達(dá)式來表示過濾規(guī)則,實(shí)現(xiàn)任意長度新詞的檢測;崔世起等[5]將新詞結(jié)構(gòu)分成了不同的組成形式,如1+1、1+2、2+1、1+1+1等(其中1+1表示由2個單字構(gòu)成的2字詞,1+2表示由1個單字和1個雙字詞構(gòu)成的3字詞),并針對不同的組成結(jié)構(gòu)采用特定的處理方法。LuoShengfen等[6]針對2字串,將多種字串的內(nèi)部統(tǒng)計(jì)特征,包括出現(xiàn)頻率、互信息、色子系數(shù)等9種特征組成了一個加權(quán)詞語抽取模型,配合左右熵來進(jìn)行詞語抽取;羅智勇等[7]以支持向量機(jī)(SVM)為統(tǒng)計(jì)模型,使用左右熵、似然比和相關(guān)頻率比作為特征進(jìn)行武俠小說中新詞的檢測;賀敏[8,9]在重復(fù)模式提取的基礎(chǔ)上,應(yīng)用外部環(huán)境和內(nèi)部特征相結(jié)合的方法來檢測新詞,研究中主要使用了上下文鄰接分析、位置成詞概率和雙字耦合度,達(dá)到了較好的新詞檢測效果。目前的新詞檢測研究主要集中在新特征的挖掘和使用上,但因沒有可靠模型的指導(dǎo),特征選擇還存在一定的盲目性;對特征的使用一般也僅限于單個特征或類型相似特征的簡單組合,尚未考慮將語言知識特征和統(tǒng)計(jì)特征等不同類型特征進(jìn)行有效整合,以實(shí)現(xiàn)組合特征的綜合作用和更好的新詞檢測效果。本文在候選新詞集合基礎(chǔ)上,根據(jù)概率論的相關(guān)原理,提出一種新詞檢測的形式化描述模型,用于建立特征和新詞檢測結(jié)果之間的有效聯(lián)系,并提出在新詞檢測中應(yīng)用統(tǒng)計(jì)模型作為框架,以有效地整合新詞的語言知識和統(tǒng)計(jì)這兩種不同類型的特征,改進(jìn)和提高新詞檢測效果。
3基于統(tǒng)計(jì)學(xué)習(xí)框架的新詞檢測方法
3.1新詞檢測的形式化描述在已經(jīng)取得重復(fù)模式(候選新詞)集合的前提下,新詞檢測的任務(wù)就轉(zhuǎn)化為以重復(fù)模式的各種有效特征作為判別標(biāo)準(zhǔn)。判斷其是否是新詞的過程,實(shí)際是在可用特征的基礎(chǔ)上對候選新詞進(jìn)行標(biāo)注的過程。根據(jù)概率論的相關(guān)理論,候選新詞標(biāo)記t∧的最大似然估計(jì)可表示為t∧=argmaxt∈{新詞,非新詞}P(t|候選新詞)(1)其中候選新詞的標(biāo)記結(jié)果集合為{新詞,非新詞}。該式可進(jìn)一步轉(zhuǎn)化為t∧=argmaxt∈{新詞,非新詞}P(候選新詞|t)P(候選新詞)=argmaxt∈{新詞,非新詞}P(候選新詞|t)(2)新詞本身具有未知性,候選新詞本身和標(biāo)記之間沒有先驗(yàn)知識,也就是說候選新詞同標(biāo)記t之間的條件概率是未知的。如果是已知的,那么這個詞就不能稱之為“候選新詞”了。為了解決這個問題,考慮對候選新詞進(jìn)行本質(zhì)特征的分解,這樣即可通過本質(zhì)特征與標(biāo)記t之間的關(guān)系來求解候選新詞整體與標(biāo)記之間的關(guān)系。但前提是,分解出來的特征要能充分體現(xiàn)候選新詞的本質(zhì)特性。在具體處理時,可用本質(zhì)特征的集合來代表候選新詞。這樣候選新詞與標(biāo)記t之間的關(guān)系就轉(zhuǎn)化為本質(zhì)特征與標(biāo)記t之間的關(guān)系,實(shí)際上是在候選新詞的本質(zhì)特征與標(biāo)記t之間建立起了有效的聯(lián)系。根據(jù)以上的論述,新詞檢測過程可進(jìn)一步描述為t∧=argmaxt∈{新詞,非新詞}P(FS|t)(3)式中,F(xiàn)S表示能代表候選新詞的本質(zhì)特征集合。若根據(jù)上式對候選新詞的特征和標(biāo)記進(jìn)行訓(xùn)練,因特征之間關(guān)系復(fù)雜,難以直接進(jìn)行特征的訓(xùn)練和標(biāo)注。為了解決特征之間的獨(dú)立性問題,考慮應(yīng)用有效的統(tǒng)計(jì)框架處理以上模型。鑒于條件隨機(jī)域模型(CRF)在自然語言處理領(lǐng)域的廣泛應(yīng)用,并且不要求所用特征之間具有獨(dú)立性,因而非常適合以上模型的求解,可用之有效地整合能代表候選新詞的各類本質(zhì)特征。
3.2條件隨機(jī)域模型(CRF)條件隨機(jī)域是一種無向圖模型,對于確定結(jié)點(diǎn)的輸入值,它能夠計(jì)算該結(jié)點(diǎn)輸出值上的條件概率,其訓(xùn)練目標(biāo)是使得條件概率最大化。設(shè)x=x1…xT為給定的輸入觀察值數(shù)據(jù)序列,也就是無向圖模型中T個輸入結(jié)點(diǎn)上的數(shù)據(jù),比如某個候選重復(fù)模式的所有特征所組成的數(shù)據(jù)序列;定義Y為有限狀態(tài)機(jī)的狀態(tài)集合,每個狀態(tài)可以對應(yīng)一個標(biāo)記;設(shè)y=y(tǒng)1…yT為一個長度與x相等的狀態(tài)序列,即無向圖模型中T個輸出值。在帶有參數(shù)的線性鏈條件隨機(jī)域模型的作用下,從給定輸入序列x得到的輸出序列y的條件概率表示為PΛ(y|x)=1ZΛ(x)exp(∑Tt=1∑kλkfk(yt-1,yt,x,t))(4)式中,ZΛ(x)是一個規(guī)范化系數(shù),它確保在給定輸入上所有可能的狀態(tài)序列的概率之和為1。規(guī)范化系數(shù)ZΛ(x)的計(jì)算涉及到的狀態(tài)序列數(shù)目非常巨大,一般呈指數(shù)級增長。但在線性鏈模型中,狀態(tài)結(jié)點(diǎn)間沒有閉合路徑,可通過動態(tài)規(guī)劃算法便捷地計(jì)算規(guī)范化系數(shù),且尋找最可能狀態(tài)序列的問題也可用動態(tài)規(guī)劃方法加以解決。上式中的fk(yt-1,yt,x,t)表示一個特征函數(shù),其值一般為布爾類型,滿足特定條件時為1,否則為0。比如在新詞檢測中,當(dāng)所給特征滿足新詞的條件時,該函數(shù)的值為1,不滿足時為0。λk是在訓(xùn)練中得到的、與每個特征函數(shù)fk相關(guān)的權(quán)重參數(shù)。如果它為較大的正數(shù),則事件更可能發(fā)生;如果為較大負(fù)數(shù),則事件傾向于不發(fā)生[10]。條件隨機(jī)域模型的主要優(yōu)點(diǎn)是:(1)能夠綜合利用字、詞、詞性等多層次資源,能更好地使用領(lǐng)域知識和標(biāo)記之間的依賴,充分利用各種語言知識特征和統(tǒng)計(jì)特征;(2)該模型對特征沒有獨(dú)立性要求,在使用時無需考慮特征之間是否相互獨(dú)立,因此可將多個代表候選新詞的本質(zhì)特征放入CRF框架中,以實(shí)現(xiàn)各類特征的綜合作用,改善新詞檢測效果。根據(jù)CRF模型的特點(diǎn),可不用考慮特征之間的關(guān)系,將之直接加入到CRF框架中,測試特征對新詞檢測效果所做的獨(dú)立或組合貢獻(xiàn),以確定能代表候選新詞的本質(zhì)特征集合,提高新詞檢測效果。
3.3新詞檢測所用特征集合在CRF框架下,訓(xùn)練和解碼所選用的語言知識特征包括前綴、后綴、串長、命名實(shí)體后綴;統(tǒng)計(jì)特征包括候選模式的出現(xiàn)頻率、互信息、色子系數(shù)和左右熵。上述特征并不復(fù)雜,應(yīng)用CRF統(tǒng)計(jì)模型可充分利用各類特征,實(shí)現(xiàn)更有效的新詞檢測。其中,前綴、后綴、串長是用于詞語檢測的基本語言特征,命名實(shí)體后綴用于識別新詞中的命名實(shí)體,是首次應(yīng)用在CRF模型中的語言特征,該特征在使用時根據(jù)候選字串所具有的命名實(shí)體后綴的長度來構(gòu)造;其他的統(tǒng)計(jì)特征,如互信息和左右熵等,用于衡量新詞結(jié)構(gòu)的獨(dú)立性和在上下文中使用的靈活性。對其中的數(shù)值型特征,因CRF模型在訓(xùn)練和解碼時將特征值作為字符串來處理,所以需對連續(xù)的數(shù)值型特征進(jìn)行離散化并轉(zhuǎn)化成字串特征,從而將無限量的連續(xù)數(shù)值特征量轉(zhuǎn)化為有限的離散字串特征量,提高了訓(xùn)練和解碼效率,并可有效地改善新詞檢測效果。為方便后續(xù)分析處理,對以上特征進(jìn)行編號,具體見表1所列。
3.4基于統(tǒng)計(jì)框架的新詞標(biāo)注基于重復(fù)模式新詞檢測的基本步驟是,首先在語料中提取滿足閾值約束的重復(fù)字串,構(gòu)造候選新詞集合,然后根據(jù)候選新詞的相關(guān)特征,比如出現(xiàn)頻率、前綴、后綴以及其它信息來判斷和標(biāo)注候選新詞集合中的條目。為有效提高多類特征的組合作用,本文采用具有更強(qiáng)包容能力的CRF模型作為統(tǒng)計(jì)框架整合多類特征,以實(shí)現(xiàn)更好的新詞檢測效果。在具體實(shí)施新詞檢測時,首先提取候選新詞的各類特征(見表1),然后根據(jù)特征值,應(yīng)用標(biāo)注語料對CRF模型進(jìn)行訓(xùn)練,最后使用CRF模型標(biāo)注從測試語料中提取的候選新詞。標(biāo)注的結(jié)果只有兩個:“是新詞”與“非新詞”。
4實(shí)驗(yàn)
4.1實(shí)驗(yàn)及數(shù)據(jù)分析為驗(yàn)證本文方法的性能,進(jìn)行了如下試驗(yàn):實(shí)驗(yàn)所用的CRF工具采用日本Kudo教授所提供的開源工具“CRF++0.52”[11],訓(xùn)練語料采用北京大學(xué)計(jì)算語言研究所提供的1998年1月的標(biāo)注語料,測試語料采用蘭開斯特大學(xué)標(biāo)注的漢語平衡語料庫。實(shí)驗(yàn)時首先對訓(xùn)練語料和測試語料抽取重復(fù)模式,構(gòu)造候選新詞集合(提取重復(fù)模式所用的閾值為2),然后使用統(tǒng)計(jì)框架對其中字串進(jìn)行標(biāo)記。為檢驗(yàn)新詞的開放實(shí)驗(yàn)效果,需要確保訓(xùn)練語料與測試語料所提取的候選新詞集合沒有交集。實(shí)驗(yàn)中所用性能的評價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率、召回率和F值,F(xiàn)值中所用的調(diào)和因子為1,開放實(shí)驗(yàn)結(jié)果參見表2。表2多特征組合新詞檢測實(shí)驗(yàn)數(shù)據(jù)表編號特征集合準(zhǔn)確率(%)召回率(%)F值(%)11-733.4459.4642.8121-837.6861.1646.6331-939.7159.547.6341-1141.462.2349.72注:特征集合“1-7”表示將編號從1到7的特征組合在一起構(gòu)成特征集合,作用于條件隨機(jī)域模型。其它的也類似。從實(shí)驗(yàn)數(shù)據(jù)可見,隨著有效特征的加入,新詞檢測的效果在穩(wěn)步提高。說明在條件隨機(jī)域框架下,多特征組合可以實(shí)現(xiàn)更好的新詞檢測。這也進(jìn)一步說明,多特征組合可以發(fā)揮特征之間的綜合作用,比特征的簡單組合具有更好的新詞檢測效果,實(shí)驗(yàn)4(特征集合1-11)已很好地說明了這個問題。為研究本文方法的效果與串長之間的關(guān)系,現(xiàn)對編號為3和4的試驗(yàn)數(shù)據(jù)做進(jìn)一步分析,繪制串長和新詞檢測效果圖,如圖1所示。圖1新詞檢測的串長-效果關(guān)系圖從圖中可見,無論使用哪種特征組合,串長和新詞檢測效果之間關(guān)系的變化趨勢都是一致的:隨著串長的增長,新詞檢測的效果在逐漸降低,短串具有更好的新詞檢測和提取效果。長串效果較差的主要原因是組成長串的字符較多,組合情況更加復(fù)雜;而短串的組合情況相對較少,其更適合在組合特征的作用下進(jìn)行標(biāo)注。可見,要改善新詞檢測效果,應(yīng)從長串著手進(jìn)行研究和改進(jìn)。
4.2最大熵框架下的新詞檢測最大熵(ME)模型也是一個重要的統(tǒng)計(jì)框架,同CRF相似,都屬于判別型模型。二者在處理標(biāo)注問題時具有很多共同的優(yōu)點(diǎn),主要表現(xiàn)在ME模型也對特征沒有獨(dú)立性要求,也可作為統(tǒng)計(jì)學(xué)習(xí)框架對候選新詞實(shí)施過濾。為了進(jìn)一步驗(yàn)證本文所提出的新詞檢測方法的效果,對最大熵模型進(jìn)行新詞檢測實(shí)驗(yàn)是非常必要的。實(shí)驗(yàn)時采用相同的實(shí)驗(yàn)語料和條件,使用特征組合1-9和1-11(在CRF框架中取得較好效果的特征組合),結(jié)果見表3。從表中可見,在最大熵統(tǒng)計(jì)框架下實(shí)驗(yàn)6的效果較實(shí)驗(yàn)5好些,也證明增加有效特征會提高新詞檢測效果;從橫向上看,實(shí)驗(yàn)5和實(shí)驗(yàn)6分別比試驗(yàn)3和實(shí)驗(yàn)4的效果稍差,說明條件隨機(jī)域模型比最大熵模型具有更好的新詞檢測性能,其主要原因是CRF模型是一種全局最優(yōu)模型,且具有更強(qiáng)的特征融合能力。當(dāng)然,如果有更好的統(tǒng)計(jì)模型出現(xiàn),也許會取得比CRF更好的效果。同單個特征相比,CRF和ME都取得了較好的特征組合效果,可見,應(yīng)用統(tǒng)計(jì)框架來進(jìn)行特征整合是一個很有前途的新詞檢測研究方向。
4.3模型比較文獻(xiàn)[8]對新詞檢測特征進(jìn)行了深入探索并進(jìn)行了較全面的實(shí)驗(yàn),取得了相對較好的檢測效果,但其采用的是封閉實(shí)驗(yàn)。為加強(qiáng)可比性,本文也采用封閉實(shí)驗(yàn)環(huán)境重新進(jìn)行試驗(yàn)(所用特征組合為1-11,統(tǒng)計(jì)框架為CRF模型和ME模型),新詞檢測效果對比見表4。表4不同方法新詞檢測效果對比表新詞檢測方法準(zhǔn)確率召回率F值文獻(xiàn)[8]方法45.96%71.19%55.86%本文方法(CRF)69.15%70.53%69.83%本文方法(ME)66.49%69.33%67.88%從以上對比數(shù)據(jù)可見,文獻(xiàn)[8]方法的召回率比本文方法高,本文方法在準(zhǔn)確率和總體性能(F值)方面具有一定優(yōu)勢。文獻(xiàn)[8]中采用的實(shí)驗(yàn)語料規(guī)模比本文中的要小得多,這會導(dǎo)致其中所用新詞檢測特征不能完全發(fā)揮作用,所以會在一定程度上影響其新詞檢測效果。但從理論上講,本文所用的統(tǒng)計(jì)框架方法(無論是CRF模型還是ME模型),能有效地整合不同類型的多個特征,體現(xiàn)特征之間的合力作用,可實(shí)現(xiàn)更加有效的新詞檢測,是新詞檢測研究的發(fā)展方向。
采用統(tǒng)計(jì)模型作為框架,實(shí)現(xiàn)對新詞檢測特征的有效整合,以獲得更好的新詞檢測效果。實(shí)驗(yàn)表明,本方法能充分發(fā)揮多特征的組合作用,隨著特征的加入,新詞檢測效果在逐步提高。最終開放實(shí)驗(yàn)和封閉試驗(yàn)的F值分別為49.72%和69.83%,達(dá)到了較好的新詞檢測效果,證明使用統(tǒng)計(jì)模型作為框架整合有效特征是一種非常有前途的新詞檢測研究方法。由于使用相似的處理步驟,本文方法可方便地?cái)U(kuò)展到基于重復(fù)模式的命名實(shí)體、有意義串的識別研究中,以獲得更好的識別效果。