本站小編為你精心準備了企業電子檔案分類法研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:通過將文檔詞語轉化為詞向量表達式,再經過卷積、池化等操作來抽取文檔分類特征。最后以企業簡歷電子檔案庫為原料進行對比驗證。驗證結果表明,利用CNN卷積神經網絡對電子文檔分類的準確率達到94.61%,優于FastText等分類方法。
關鍵詞:CNN卷積神經網絡;企業電子檔案;分類
隨著大數據、云計算等現代信息技術的發展,傳統的紙質檔案快速向電子化、數字化檔案進行轉變,檔案管理模式出現了深刻的變化。檔案管理的分類、檢索等基本方法也隨之產生了變化。本文參考Kim提出的神經網絡模型,自動提取檔案文本的特征集合,使用Word2vec進行詞向量訓練,旨在進一步提高電子檔案的分類準確率。
一、CNN卷積神經網絡
(一)神經網絡神經網絡是一些具有適應性的神經元組成的集合。神經元是神經網絡的最小組成單位,是一種二元線性分類器感知機制。
(二)詞向量詞向量也叫詞嵌入,是通過神經網絡來訓練語言模型,在訓練過程中生成一組向量,這組向量將每個詞表示為n維向量,可理解為文本的數學化表示。一種最簡單的詞向量方式是One-HotRepresentation,就是用與詞典等長的向量來表示一個詞,該詞所在詞典的索引對應分量1,其余分量全為0,例如“工程師”表示為[0001000...]。One-Hot方式非常簡潔,僅需為每個詞分配一個數字編號即可,但該方式容易出現維度災難,不能較好地刻畫各詞語之間的相似性。另一種是Hinton在1986年提出的DistributedRepre-sentation向量方式,很好地克服了One-Hot方式的缺點。該方式通過語言模型的訓練,用固定長度的短向量來表示詞語;將所有的詞向量放在一起,形成向量空間。在該空間上不同詞語之間的距離,就是該詞語法、語義之間的相似性。而Word2vecs是谷歌Tomas-Mikolvd團隊研發的一款開源的詞向量產生工具,本文即利用Word2vecs來訓練職員電子檔案的語言模型,獲取相應的詞向量集合。
(三)卷積神經網絡CNN卷積神經網絡是深度學習技術中極具代表的網絡結構之一,在圖像處理領域取得了很大的成功。在國際標準的ImageNet數據集上,許多成功的模型都是基于CNN的。近年來,該技術在自然語言處理、語音識別等方面均有突破性應用。下文基于CNN卷積神經對職員檔案進行分類搜索,即是基于CNN在自然語言處理中的應用。不同于普通網絡神經算法,CNN卷積神經網絡的特征抽取器由卷積層和子采樣層構成。卷積層中存在著若干個特征平面,每個平面由一些矩形排列的神經元組成(神經元只與部分鄰層神經元相連接),這些神經元共享權值,稱為卷積核。先用隨機小數矩陣的形式對卷積核進行初始化操作,再通過語料訓練過程得到合理的權值。卷積核的應用減少了神經網絡各層之間的連接,降低了擬合風險。子采樣也稱為池化層,具有最大值子采樣和均值子采樣兩種形式。子采樣的過程就是一種特殊的共享權值的過程。卷積和子采樣的引入精簡了神經模型的參數,簡化了它的復雜程度。
二、模型結構
Kim對基于自然語言文本處理的CNN卷積神經網絡作了詳細的闡述。其結構包含輸入層、卷積層、池化層、全連接及SOFTMAX層[1]。根據CNN卷積神經網絡的定義和模型結構,具體建模流程如下:
(一)數據預處理以企業人才簡歷檔案分類為例,抽取人才檔案庫中名稱為軟件工程師的檔案10000份,其中8000份作為訓練集,2000份作為驗證集,并計算各檔案的特征矩陣。具體步驟如下:1.首先用分詞工具對訓練集中的每個檔案T進行分詞處理,并進行去重、剔除無用詞語、刪除標點符號、刪除空格等處理得到檔案T的詞典TD。用Word-2Vecotr對TD進行向量初始化,并將初始化的結果合并到詞向量空間R中;2.然后將每條檔案T進行分詞處理,得到詞序列wi(i)。將wi帶入向量空間R中,得到對應的詞向量vi(i);3.再將T的詞向量序列vi作鏈接操作,得到檔案T的特征矩陣。4.最后將詞向量序列vi按照先后順序,從上到下排列。
(二)卷積操作卷積操作的本質是對檔案序列進行特征抽取的過程。
(三)池化操作檔案T的句子經過m個卷積核進行卷積運算以后,生成m個R(d-h+1)x1空間的句子向量C。
三、分類器
經過前述操作步驟,已將建立檔案T轉換為T所包含全部詞向量的特征矩陣,并通過卷積、池化操作得到T的特征向量P。
四、模型試驗
為更直觀地分析CNN神經網絡與其它分類算法在電子檔案分類識別上準確率和效率的差異,本文用TensorFlow編程實現了上述模型處理過程,進行對比試驗。
(一)數據集從檔案庫中抽取10000份名稱為工程師的電子檔案數據,隨機抽樣取8000份檔案作為訓練樣本,其余的作為驗證測試數據。
(二)實驗效果通過對比試驗,發現使用機器學習的幾種算法都能實現對測試電子檔案的有效識別和準確分類,從而大大降了用于人工搜索與閱讀判斷其所屬分類的時間成本。對比以上結果,由Facebook開發的快速文本分類器FastText提供了簡單、高效的文本分類和表征方法,但在電子檔案區分度不大的情況下,分類準確率有待進一步提高。TextGrocery則是一個基于SVM算法的短文本分類工具,內置結巴分詞,但是從時間和準確率來看,綜合效果并不十分突出。而基于卷積神經網絡CNN的檔案分類算法,特征學習力能力優異,特征對數據本質的刻畫最為準確、深刻,更有利于檔案的分類和區分;雖然耗時達1360秒,但與人工區分篩選耗時相比,該運行時間完全可以接受。
五、總結
本文提出基于卷積神經網絡CNN的電子檔案分類模型。該模型充分考慮了中文檔案文本特征稀疏、含有大量專業詞匯等特點。試驗表明,CNN卷積神經網絡分類模型相比TextGrocery、FastText等經典分類器準確率大大提高。Word2vec訓練模型的引入,極大地提高了在充分考慮語義特征情況下的中文單詞訓練和向量詞典初始化的效率。在試驗過程中,還發現不同的卷積核數量和初始化方法對分類的結果具有一定的影響。未來的研究重點是如何優化選取卷積核數量和分類的方法,更好地提高檔案分類的準確率。
作者:伍薇