本站小編為你精心準備了中文微博熱點話題挖掘參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《統計與信息論壇雜志》2014年第六期
一、相關理論
(一)話題檢測與跟蹤技術TDT作為一種主題檢索技術,其特點主要在于關注與特定事件主題相關的數據。傳統的檢索技術是從內容來檢索、確定文檔的分類,而TDT技術是基于事件,利用分析文檔與事件主題聯系來獲取特定主題信息,它從來源數據流中自動發現主題并把與主題相關的內容聯系在一起。TDT的研究任務主要包括五部分:對新聞廣播等報道進行切分(報道切分),檢測未知話題(話題檢測),跟蹤已知話題(話題跟蹤),檢測未知話題首次相關報道(首次報道檢測)以及檢測報道間相關性(報道關聯性檢測)[7]。
(二)中文分詞及詞性標注中文分詞就是將漢字序列切分成有意義的詞,以字為單位,句和段則通過標點等分隔符來劃界。目前主流的中文分詞算法分為四類:基于字符串匹配的分詞,基于理解的分詞,基于統計和基于語義的分詞[8]。詞性標注是根據句子上下文環境給句中的每個詞標記一個正確的詞性,主要是機器針對多標記詞(即有多種詞性的詞)和未登錄詞(即在訓練語料中未出現的詞)標記詞性。詞性標注技術與分詞技術一樣,在自然語言處理、機器翻譯、文本自動檢索及分類、文字識別、語音識別等實際應用中占有重要地位[5]。目前比較典型的標注算法歸納起來有:基于規則的方法,基于統計的方法,規則與統計相結合的方法。本文選用的是規則與統計相結合的方法。
(三)向量空間模型向量空間模型(VectorSpaceModel,VSM)是一個應用于信息過濾、信息擷取、索引評估相關性的代數模型,文本分析對象通常是以詞為單位的VSM數據[9]。運用這個模型把文本表示為向量,就可以將文本處理簡化為向量空間中的向量運算。當文檔轉化為向量時,文檔中每個詞對應向量的每個特征項維度,所有文檔中的詞所對應的維度構成了整個空間,而特征權重則是每個詞對應每一維的取值,于是,一個文檔Dj轉化為特征向量Dj可表示為:其中tij是特征項,wij是特征權重,M是文本tij中的特征項總數。另外,文本中作為特征項的詞不能重復,即各特征項tij互異,且文本的內部結構不需要考慮,因此特征項tij無先后順序。
(四)K-means文本聚類K-means算法以歐式距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大,得到緊湊且獨立的簇是聚類的最終目標。K-means算法中距離的計算公式如下:第一步,從數據對象中任意選擇K個對象(K值需要預先設定)作為初始聚類中心。第二步,計算剩下的對象與這些聚類中心的相似度(距離),并分別將它們分配給最相似的(聚類中心所代表的)類。第三步,重新計算每個新類的聚類中心(該聚類中所有對象的均值)。第四步,不斷重復第二、三步,直到標準測度函數開始收斂為止,一般采用均方差作為標準測度函數。該算法在處理大數據集時是相對高效和可伸縮的,計算的復雜度為ON(kt),其中N是數據對象的數目,t是迭代的次數(一般K≤N,t≤N,同時算法對順序不太敏感,因此較適合對VSM表示的文本集進行聚類。本文聚類效果的驗證采用類平均相似度,公式為:其中AVGT()SIM表示類T的平均相似度;CT表示類T所包含的微博條數;ft(avg(sim))表示類T中單條微博文t的個體平均相似度,即t與類T中其余微博文的相似程度之和取平均值。將類中所有微博文的個體平均相似度之和取一次平均值,從而得到類的平均相似度。
二、研究設計
(一)識別流程本文基于TDT技術設計出中文微博熱點話題識別流程,主要環節如圖1所示。首先通過微博爬蟲系統獲取所需的數據,如微博內容、評論數、轉發數、受眾數等;接著從獲取數據中提取話題識別的數據源,利用中文分詞處理過濾數據;對預處理后的微博內容中的每個特征詞,利用特征詞權值計算方法TF-IDF(TermFrequency–InverseDocumentFrequency)計算特征權重并建立向量空間模型,再利用K-means文本聚類來歸納出多個話題;最后對多個話題的影響力進行計算并分析,通過效果驗證識別出熱點話題。
(二)熱點判定———話題影響力設計本文基于微博特點和話題本身,提出熱度的判定因素———話題影響力。微博熱點話題影響力為該話題中單條相關微博內容的影響力總和,單條微博內容的影響力又分為直接影響力和間接影響力。由于用戶發表的微博文直接呈現給關注該用戶的受眾,因此單條微博的直接影響力與該條微博用戶的關注人數(受眾數)相關[10]。本文此處只考慮微博評論數與第一層的轉發數。定義話題影響力相關計算公式如下:其中Inf()T為話題T的影響力;n為該類中與話題相關的微博條數;Inf()t為單條相關微博內容t的影響力。一個話題的影響力為話題中所包含的所有相關微博內容影響力之和。其中InfD()t為單條相關微博內容t的直接影響力;InfI()t為單條相關微博內容t的間接影響力。單條微博的影響力為直接影響力與間接影響力之和。題T的影響力為:
三、實證分析
本文實驗數據隨機選取了2011年12月8日到2011年12月14日這7天內的微博數據,通過新浪微博API接口共爬取微博內容2103條。根據研究設計的熱點話題挖掘流程,對該周內新浪微博熱點話題挖掘進行實證研究。
(一)數據預處理首先對微博內容進行文本預處理,即進行去重、分詞、無效信息過濾、降維等操作。實驗中使用C#版本的中科院ICTCLAS中文分詞系統對微博文本進行分詞處理,同時標注詞性,并過濾微博內容,保留名詞及名詞性詞語,然后將所有的單字過濾,再去除所有的英文字符、數字和一系列數學符號等非中文詞,只留下有意義的中文詞語。圖2為關于“2012年倫敦奧運會期間英國女王出租宮殿套間”話題文本示例。
(二)話題識別文本預處理后,針對每條微博內容,利用特征詞權值計算方法TF-IDF計算各個單詞權重,以構成一個向量空間模型用于聚類。實驗中,K值在最大值范圍內通過多次實驗結果驗證來選取。經過多次試驗,最終將該周的微博內容聚為10類,并對各類進行類關鍵詞提取,結果如表1所示。以上10類中,所提取的關鍵詞具有較強實時性的有6個,關鍵詞所包含信息較為日常的類有4個。此時若設置類平均相似度閾值為0.01,則恰好包含較強實時信息的6個類別。將類平均相似度高于閾值且包含較強實時信息的類定義為一個話題,則從微博內容中發現話題數目為6個,分別為類3、4、6、7、8、10。
(三)話題影響力排序大多關于熱點發現的算法認為,在聚類后出現的熱點詞頻率較高,則該話題即為熱點話題。這種原理是基于熱點詞與話題的附屬關系,但卻忽略了當話題較分散的情況下聚類也能進行,同時在聚類結果中,可能有些話題只是局部較熱的小話題,整體來講算不上熱度很高[11],因此可以設置一個閾值來區分話題冷熱,話題熱度(本文中以話題影響力來衡量)高于閾值則表示聚類出來的話題為“熱點話題”,低于閾值則視為“非熱點話題”。熱點與非熱點的概念是相對的,因此也可以根據話題影響力公式計算出每個話題的熱度,然后按照熱度分數排序,分數越高表示話題影響力越大,熱度越高。實驗中,挖掘熱點話題的數據來源時間段Δh為2011年12月8日至2011年12月14日。由于實驗中發現話題的總數較少,故本實驗不以預先設定話題影響力閾值來劃分“熱點”與“非熱點”,只將話題按影響力大小排序,即設定所發現話題均為熱度不同的熱點話題。根據話題影響力相關計算公式(4)~(8),計算得到實驗中所提取的6個話題在當前時段的影響力評分及排名,如表2所示。考慮到微博轉發會使微博的影響擴散,相對于評論其影響力更大,因此公式(8)中α取值為0.4,β取值為0.6.從以上分析結果可以看出,在實驗識別出的2011年12月8日到2011年12月14日的6個話題中,影響力從大到小依次是江蘇豐縣校車事故、南京大屠殺紀念日、韓國海警被刺事件、電影《金陵十三釵》即將上映、廣東陸豐烏坎村群體事件、雙子座流星雨爆發。
(四)效果驗證話題識別與跟蹤的效果一般使用準確率和召回率兩個參數來衡量,公式如下:A表示已提取出的與話題相關內容,B表示已提取出的與話題不相關內容,C表示未提取出的與話題相關內容。在全部文本數據中,與話題相關的數目為A+C,而被判定與話題相關的數目為A+B。召回率和精度是不可能兩全其美。當召回率較高時,精度反而降低;反之精度高時,召回率就會有所降低。因此,本文用這兩個度量值融合而成的一個度量值F來衡量這個效果。F值公式如下:實驗以“召回率”、“準確率”驗證熱點話題發現效果,根據公式(9)、(10)、(11)計算出每個話題的召回率與準確率,如表3所示。從表3可以看出,6個熱點話題召回率從高到低依次為:韓國海警被刺事件,江蘇豐縣校車事故,南京大屠殺周年紀念,雙子座流星雨,陸豐烏坎村群體事件,電影《金陵十三釵》話題,各類話題召回率均較高。相反,各類話題準確率均較低,最高為雙子座流星雨,僅為0.769,最低為廣東陸豐群體事件,僅為0.641。聚類準確率低與微博內容零散、談論話題范圍極其廣泛有關,即話題聚類時噪聲數據太多,導致β值較大。實驗表明微博熱點話題發現的“召回率”較高而準確率較低,這與微博內容的不規范性、隨意性等特點有關。從綜合衡量召回率和準確率的F值來看,熱點識別取得了良好的效果。盡管微博內容存在一定的不規范和隨意性,但從實證分析中可以看到,聚類所選取出的6類熱點話題F值均保持在0.75以上。
四、結論
本文借鑒TDT技術,設計了一套中文微博熱點話題挖掘流程,并利用一段時間內的少量新浪微博數據進行熱點發掘實證研究。該流程可以使微博站點外部用戶利用少量微博數據便能挖掘微博熱點,以滿足其監控輿情或發現商機的需要。本文主要的創新工作有以下兩點:第一,將識別熱點話題的主流技術TDT運用于中文微博平臺,同時還在流程設計中結合了中文微博的特性。第二,微博平臺往往以單一的微博數量指標來衡量話題熱度,而本文則提出了以話題影響力的大小來評判話題熱度。由于新浪爬蟲程序爬取的數據有限,因而本文僅限于對能收集到的數據進行研究,實證結果難免有一定的局限。另外,微博內容較雜亂,噪聲信息較多,話題聚類效果也有待提高,因此相關聚類算法的改進也是未來研究的方向。話題影響力驗證方法還需完善,后期可以對熱點話題進行動態跟蹤,以發現熱點話題的整體趨勢變化。
作者:何躍帥馬戀馮韻單位:四川大學商學院