本站小編為你精心準備了財經新聞話題檢測研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1引言
互聯網媒體的高速發展極大地擴大了財經類新聞的受眾面,并因此使得證券市場與財經類新聞的關系變得越來越緊密。Mitchell與Mulherin研究發現[1],股票市場的股票收益及交易量和道瓊斯每天的公告數量直接相關。Fang與Peress的研究表明[2]受到高度報道的股票收益率比那些很少被媒體關注的上市公司的收益率低。由此可知,股票的走勢較易受到財經類新聞的影響。因此,為了讓投資者在短期內及時獲取投資熱點,本文提出了基于財經新聞的話題檢測研究。傳統的話題檢測[3]研究主要有以下幾個方向。首先是基于關鍵詞的話題檢測,即使用TF-IDF算法或基于TF-IDF算法的改進算法,文獻[4]提出基于VSM改進的DF算法和TF-IDF算法計算文本相似度;文獻[5]在傳統的TF-IDF基礎上提出TF-IDF-KE算法來解決突發式熱點話題在聚類時特征不明顯的問題。但是傳統的基于關鍵詞的話題檢測存在二義性問題,為了解決這個問題,人們提出了語義模型[6][7]。最常見的語義模型是LDA模型[8],文獻[9]提出使用LDA話題模型檢測科技文獻話題,并計算冷門或熱門話題的影響力,提出趨勢分析。文獻[10]提出LDA-K-Means算法實現話題檢測,且在網絡食品安全問題中驗證話題檢測的結果;最后是融合關鍵詞和語義模型所做的改進,文獻[11]提出計算融合TF-IDF關鍵詞和LDA主題模型的相似度并基于k-means算法聚類獲得話題簇;文獻[12]提出多特征融合TF-IDF關鍵詞,LDA語義模型以及新聞命名實體的相似度并基于Single-Pass算法聚類獲取話題簇。上述研究均針對普通新聞,鑒于財經新聞較普通新聞的實時性要求高,且有極強的領域屬性。而目前各大金融網站,例如新浪財經,和訊網,東方財富網等,大多針對個股新聞進行檢測并分類,基于話題檢測實現財經新聞分類的網站卻較少。因此,短期內如何從海量非結構化財經新聞中有效地檢測熱門投資話題,成為本文研究的要點。文章考慮結合財經新聞的特點,從多個角度提取新聞特征,構建財經新聞話題檢測模型。另外,針對新聞報道具有突發性和集中性的特點,為了避免將不同生命周期的新聞聚為一類,通常的做法是使用時間窗來切分新聞流。例如,文獻[13]首先對新聞按時間窗劃分,對同一個時間窗內的文檔使用HAC算法聚類生成候選話題集合,提出SinglePass-KNN算法進行新話題的聚類;文獻[14]提出在每個時間窗口內根據新聞的特點選取出最有可能談論新聞事件的微博客文本,使用混合聚類算法聚類獲得新聞話題;文獻[15]以每個時間窗口上話題的變化情況研究話題內容的演化,并使用ILDA模型根據文本到達時間增量建模。針對以上研究,文章根據財經新聞的特點,基于時間窗切分新聞流,進而提出多特征融合的財經新聞話題檢測模型MFFTDM(MultiFeatureFinancialNewsTopicDetectionModel)。
2財經新聞話題檢測模型的構建
財經類新聞的報道成為影響股票走勢的重要因素之一,為了讓投資者在短期內及時獲取投資熱點,本文提出并構建多特征融合的財經新聞話題檢測模型,該模型有以下幾個特點:(1)為了防止聚類時,將不同生命周期的財經新聞聚為一類,構建切分新聞流的時間窗。(2)根據財經新聞實時性要求高,領域屬性強的特點,從多個不同的角度提取文本特征并構建特征向量模型。(3)鑒于傳統凝聚層次聚類算法的時間復雜度高,聚類時耗時長的問題,提出最近鄰-凝聚層次聚類算法。
3話題檢測模型的相似度計算
3.1基于時間窗切分的新聞流
對于財經新聞來說,通常在一個事件發生之后的一到兩天內,各大媒體會爭相報道該新聞事件,相關的新聞報道將呈爆發式增長。但是,隨著時間的推移,關于該事件的報道會逐漸減少并最后消失。也就是對某個熱門股票話題來說,它是有生命周期的。生命周期的開始是第一篇被判定為該話題的新聞,期間會有相關事件的報道,但是最終將以某個新聞事件的發生來宣告該話題的結束。文獻[16]提出使用時間老化理論為新聞事件建立生命周期模型,該模型包括新聞話題的出生,成長,衰退以及死亡。文獻[17]提出熱點話題的生命周期將經過發酵,活躍和消亡的過程,并統計了2017年熱點話題的發酵期,活躍期。
3.2多特征融合文本相似度計算
對于每篇財經新聞文本,本文將建立3.2.1-3.2.4節中的四種模型并分別計算新聞文本間的相似度。其中,常見的相似度計算方式有:歐氏距離,余弦距離,曼哈頓距離等。在文本聚類中,使用余弦公式來衡量文本相似度較為常見,因此本文計算文本間的余弦值。
4話題檢測中的文本聚類
文本聚類算法的選擇對于話題簇的生成至關重要。常見的文本聚類算法[19],例如k-means算法在聚類前需指定K的值,即話題簇的數目。由于本文中話題簇的數目未知,因此,文章選擇凝聚層次聚類算法HAC(HierarchicalAgglomerativeCluster)作為話題檢測過程中的聚類算法。但是傳統HAC算法的時間復雜度較高為2O(n),不適合處理大量文檔,為了改進這個問題,本節提出融合了HAC算法和KNN算法的最近鄰-凝聚層次聚類算法NNHAC(NearestNeibour-HierarchicalAgglomerativeCluster)。
4.1KNN分類算法的改進
KNN算法的主要思想為:若一個樣本在特征空間中K個最鄰近的樣本中的大多數都屬于某一個類別,則該樣本也屬于這個類別。本文中,由于K的值難以確定,因此采用設置閾值的方式對原始的KNN算法進行改進,進而分類過程中便于控制結果簇的數目,增強分類的靈活性。文章設定一個閾值S1,若某個樣本在特征空間中和其他樣本的相似度大于S1。
4.2最近鄰-凝聚層次聚類算法
本文在凝聚層次聚類算法的基礎上融合改進的KNN分類算法,提出最近鄰-凝聚層次聚類算法NNHAC。該算法通過設置兩個閾值,逐漸縮小聚類范圍,最終獲得話題簇,實現話題檢測的任務。
5實驗
本文的實驗數據來源于新浪財經,和訊網以及東方財富網,采用Webmagic爬蟲工具進行爬取,所爬取的股票新聞從2017年1月-2017年9月,共34534條。采用中科院的NLPIR分詞工具對新聞文本分詞并構建停用詞表去除停用詞。為了避免特殊性,文章從滬深300指數中隨機抽取10支股票用作研究對象。滬深300指數是反映滬深兩個市場整體走勢的“晴雨表”。指數樣本選自滬深兩個證券市場,覆蓋了大部分流通市值。成份股為市場中市場代表性好,流動性高,交易活躍的主流投資股票,能夠反映市場主流投資的收益情況。
5.1評價指標
常見的聚類效果評價指標[20]主要有以下幾種:F1-measure,Rand指數以及Jaccard指數等。本文選擇F1-measure指標對聚類效果進行評價。F1-measure將信息檢索中的準確率(precision)和召回率(recall)相結合對聚類結果進行評價。若一個類別的F值越高,則該類別的聚類結果就越好。
5.2相關閾值的確定
5.2.1LDA最優主題數T的確定由于本實驗融合構建LDA語義模型計算相似度,因此需要確定隱含主題topic的數目T,T的取值直接影響到聚類的效果。本實驗用HAC算法結合LDA主題模型計算相似度,最優主題數T值從5開始遍歷到55,在每個T值下,分別設置凝聚層次聚類算法的閾值0-1(間隔為0.05),獲取每個T值下使得F值最大的閾值S2,記錄該T值和閾值S2用于確定最佳的主題數目T以及相似度閾值S2。
5.2.2最優多特征融合系數的確定由于本文從四個角度提取文本特征并建立模型,根據所建立的四種模型計算其相似度并多特征融合這四種相似度。
5.2.3NNHAC算法閾值的確定為了確定文章第4節所提出的最近鄰-凝聚層次聚類NNHAC算法的最佳閾值,根據5.2.1節中確定的閾值S2,在S2之下,分別取不同的S1的值(其中S1>S2),S1的取值范圍為(0.55,1),當閾值S1,S2分別為0.55,0.65時,F值達到最大值0.7449,即最近鄰-凝聚層次聚類算法NNHAC的聚類效果達到最好。5.3實驗結果分析5.3.1NNHAC算法和HAC算法的比較為了比較傳統凝聚層次聚類HAC算法和最近鄰-凝聚層次聚類NNHAC算法的聚類準確度及耗時,本實驗在相同數據集下聚類進而記錄相應的F值和耗時。
5.3.3各支股票聚類效果比較為了不失一般性,將本文所提出的多特征融合的財經新聞話題檢測模型應用,并分別計算每支股票的準確率,召回率以及F值,綜合計算得到各支股票新聞的平均準確率為0.92,平均召回率為0.72,平均F值為0.79。由結果可知,各支股票新聞話題檢測的聚類效果相近,因此本文所提出的話題檢測模型具有普遍適用性。
6結束語
文章建立一種基于多特征融合的財經新聞話題檢測模型。該模型先從時間窗角度切分新聞流,在每個切分后的新聞流中,不僅從多個角度提取文本特征,并結合所提出的最近鄰-凝聚層次聚類算法進行聚類獲得話題簇。實驗結果表明,融合了多種特征的財經新聞話題檢測模型在一定程度上提高了話題檢測的準確度,并且本文改進的聚類算法有效降低了聚類的時間復雜度。因此,該模型能夠進一步幫助投資者準確地發現短時間內熱門股票新聞話題,及時捕捉投資熱點,輔助投資決策。
作者:譚夢婕;呂鑫;陶飛飛