前言:我們精心挑選了數篇優質大數據時代含義文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
關鍵詞:大數據 統計特征 情報關鍵詞 關鍵詞提取 方法
1 大數據的含義及特征
大數據即人們常說的非結構化數據,它借助計算機網絡,可以存儲大量數據,并保證數據的真實性。體量、速度和多樣性是大數據定義中的關鍵內容。其基本特征主要有:第一,大數據數據總量增長規模非常大。同種類型的數據在傳輸過程中處于快速增長狀態。第二,數據增長的速度非常快,以指數級持續增長模式為主。第三,新的數據來源渠道越來越多,新的數據類型也不斷豐富。第四,大數據的價值不斷上漲,大數據可以為企業發展帶來更多商機,是現代企業發展過程中必不可少的內容。
2 相關研究現狀及存在的問題
情報關鍵詞是表述某個文件或者論文中重要內容的詞語。本文中介紹的大數據時代基于統計特征的情報關鍵詞是指以網頁為主的關鍵內容,提取關鍵詞的主要目的是分析語義和對核心詞語進行統計。網頁關鍵詞在自動摘要、信息檢索以及自動問答等形式中都存在較多不確定因素,導致大數據時代基于統計特征的情報關鍵詞提取方法問題重重。
3 大數據時代基于統計特征的情報關鍵詞提取方法
3.1 關鍵詞提取方法的分類 關鍵詞提取方法分四類:第一,基于語義的方法。以詞典為依據,對詞和句子進行分析,對詞和句子進行分類標注,滿足計算機對多重信息片段的實際需求,通過計算獲得情報關鍵詞。第二,基于機器學習的方法。利用機器對訓練語料庫進行訓練,結合各項系數的實際狀況,確立相關的參數、建立準確的模型。第三,基于復雜網絡的方法。明確候選特征詞之間的關系,以既定的規則為出發點,構建一個復雜網絡,通過相關數據計算出節點權重系數和介數,最大的綜合值即為關鍵詞。第四,基于統計的方法。詞語具有相關統計信息,以統計信息為基礎,提取相關關鍵詞。
3.2 關鍵詞提取方法的構造
3.2.1 中文詞語的特征及自動分詞。中文詞語通常由兩個或者兩個以上的漢字組成,句子具有連續性,要求研究人員利用大數據對中文句子進行分析之前,將句子劃分為若干小部分。目前已經有自動標注詞性的系統,可以自動過濾詞和通用詞語。
3.2.2 網頁文本的結構特征及詞語統計特征。MTML是一種標記語言,該標記語言的證書的目的是描述網頁文檔內容,以成對的標記符號為依據,明確顯示網頁的各個部分。詞語統計的特征主要有:如果某篇文章中某個詞語出現的頻率比較高,在其他文本中出現的頻率偏低,那么,這個詞語即可作為候選關鍵詞;同一詞語在不同標記符號中對文章內容的反映結果不一樣,也就是說詞語出現的位置對關鍵詞的選擇有至關重要的作用。
3.2.3 詞語過濾。文本中通常會存在大量噪聲詞。噪聲詞與文章的內容聯系不大,噪聲詞在文本中和文本集合中出現的頻率均比較高,噪聲詞通過詞頻和文本頻率乘積的離散系數自動過濾。不同內容的文本長度不一樣,噪聲詞在文本中出現的頻率數受文本長度的影響,離散系數是指某個詞語在文本中的波動程度,詞語的離散系數與該次在文本中出現的穩定性成正比,也就是說,離散系數越大,該次在文本中的穩定性越差。
3.2.4 中文關鍵詞提取流程圖。本文以TfDf指標為依據,采用離散系數的方法將文本中存在的噪聲詞過濾除去,對候選關鍵詞共現概率分布進行分析。確定TFIDF和候選關鍵詞的位置信息,以TFIDF-SK為計算方法,以函數TFIDF-SK值作為關鍵詞重要性的衡量標準。TFIDF-SK算法系統流程圖如圖1所示。
■
圖1 TFIDF-SK算法系統流程圖
TFIDF-SK算法將輸入文本集合進行處理,處理工作中必須將文本集合中的噪聲詞過濾除去,做好詞語統計特征;將收集到的信息計入特征計算模塊,該模塊的主要功能是計算TFIDF值、詞語位置信息和偏度;進入關鍵詞重要性衡量模塊,計算出TFIDF-SK值;判斷關鍵詞重要性度量大小,輸出文本中的情報關鍵詞。
4 結束語
目前,國內外對大數據時代基于統計特征的情報關鍵詞的提取方法均有統一評價,在實際發展過程中強化統計特征情報關鍵詞的提取方法顯得尤為重要。因此,研究人員必須在了解大數據含義及特征的前提下,針對大數據時代基于情報關鍵詞提取方法存在的問題,對相關方法進行深入研究,保障情報關鍵詞的穩定性。
參考文獻:
[1]羅繁明,楊海深.大數據時代基于統計特征的情報關鍵詞提取方法[J].情報資料工作,2013.
隨著現代科學技術的飛速發展,人們對各項技術的需求無論是管理、設計還是其他方面,都有了更高層次的需求,大數據的處理以及對數據系統下信息領域的研究是當前比較熱門的話題,尤其是數據的研究分析和信息的服務等方面是人們熱切關注的研究話題。在這樣的背景下,圖書館的建設要有大數據的思維。本文以大數據時代的圖書館的含義、特征及其建設的方法展開簡要論述。
【關鍵詞】大數據時代 數字圖書館
圖書館已經進入由藏書樓、閱覽室到使用網線解決人們閱讀需求的數字圖書館時代,讀者通過PC、手機、平板電腦、電子書閱讀器、電視、展示屏等全媒體終端可以獲取到當地、省市、國家、甚至全世界的信息資源。
現實中,圖書館數字資源相對于紙質資源的比例不斷上升,未來數字資源將成為圖書館的主要資源。數字資源主要分為結構化、半結構化、非結構化數據,去尋找隱藏在數據背后的世界,進而創新圖書館服務模式、對讀者服務提供分析與預測將成為大數據時代圖書館的主要工作。
數字圖書館既是完整的知識定位系統,又是大數據時代圖書館發展模式。大數據技術為數字圖書館的發展提供了有利的條件,以數據促進發展,更好的實現圖書館的服務使命,是圖書館服務創新的主要領域。
1 大數據時代的圖書館的含義和特征
大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
大數據的意義不在于數據的數量大,而是在于發掘大量數據背后的意義。換而言之,大數據中的海量數據只是原材料,產生價值的關鍵在于對原材料的“深加工”能力。從技術上看,大數據“深加工”需要強大的數據處理能力,因此往往與云計算密不可分。大數據往往需要依托云計算對海量數據進行云存儲和分布式處理。
1.1 大數據時代的圖書館的含義
所謂圖書館的大數據化,是指依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術,從大數據的角度去思考、解決圖書館的館藏、閱讀、咨詢、檢索、獲取、推送、共享、推廣等相關問題,實現資源、服務和活動的“增值”,從而實現圖書館社會價值的增值。
1.2 大數據時代的圖書館的特征
大數據時代的圖書館從圖書的保管者成為面向服務的信息提供者,從單一紙媒體到全媒體,從本館收藏到無邊界圖書館,從讀者到圖書館去到圖書館到讀者中來,從按時提供到及時提供,從館內處理到外包處理,從區域服務到網絡化服務。這一系列的轉變,將促使圖書館建設理念、方法發生巨大改變。
2 大數據時代的圖書館建設的理念和方法
大數據時代,文獻資源已經遠遠不能夠滿足人們的需求,視頻、圖像和網絡化信息等多媒體資源不斷涌現,對圖書館數字化管理和處理能力提出了更高要求。大數據時代的圖書館建設應該進行以數據驅動的業務流程再造,重新梳理業務各個環節,檢查是否適應大數據建設需要。
2.1 樹立大數據的資源建設思路
首先,需要擺脫那些傳統的管理方法的禁錮,跳出傳統圖書館資源建設的框架,學會挖掘新技術,構筑新的資源建設體系,全面的發展新網絡體系,提高自身的競爭力。我們知道,互聯網主要功能之一也是提供數字資源服務,很多的搜索引擎都可以實現數字圖書館的功能,網上書店的圖書購買也非常及時便利。隨著經濟的發展,時間成本已經逐漸代替金錢成為現代人的主要成本,而在這方面,目前互聯網比圖書館更有優勢。
圖書館必須利用大數據技術,發揮自己館藏優勢,以讀者需求為導向,進行知識再加工,提供知識的精準定位,智能化服務,為讀者在知R獲取過程中節約時間成本。具體措施,如采編數據加入圖書評價,無線Wi-Fi加入微信認證,門禁加入客流統計,建立數據監控及分析系統等。
2.2 發展智能化服務
通過對大數據的處理,可以指導我們有針對性地采購圖書和數字資源,將主要成本投入到讀者最需要的部分。在實現高效館藏建設的基礎上,進一步推出智能化服務,比如實現網絡自動答復、文獻自動傳遞等,成為用戶真正的良師益友。同時,系統應該具備智能化功能,比如,可以實現向用戶推送具有熱度的圖書信息,增加對熱點信息或事件的重點推薦,強化定題信息的服務等。
智能化服務另一個重要內容就是精準化知識定位。初級階段是體現為更加智能的OPAC檢索。通過加入大數據處理結果,如用戶偏好、圖書評價及借閱量等,能夠改進傳統的OPAC,實現更個性化的檢索結果。還可以實現對圖書、期刊和很多的網絡信息進行數據的采集、處理、組織。在對文獻信息處理的同時,存儲音視頻信息,構筑全數據理念,針對網絡的信息自動獲取數據信息,同時建立具有語義關系的和數據之間聯系更加緊密的信息組織框架,比如,可以構建各數字圖書館間的檢索網絡,實現跨平臺或者資源的全面檢索。
2.3 提高館員大數據運用能力
現代化的數字圖書館建設不僅需要數據化的管理技術,同時需要專業的管理人員。要知道,只有相關的管理人員具備了處理大數據的能力、掌握與圖書館的數據化處理相關的技術,熟練的掌握運用數據分析工具和軟件,全面的把握網絡資源,才能對數據做出客觀正確的分析評判,并及時的對圖書館的管理做出正確的調整。
3 總結
現如今,圖書館技術發展已經不再局部,而是跨越到了更廣闊的領域,包括數據采集、信息處理、組織架構、知識挖掘等等,大數據化的圖書館的發展將會帶給人們難以衡量的價值。
總之,現有的圖書館功能還存在缺陷,大數據時代給圖書館的發展提供了機遇,將會拓展它的數據資源、提升它的管理能力、增強它的功能,我們應該把這些挑戰當作機遇,改變固有理念、轉變原有的服務、管理模式,重新架構圖書館,在現有基礎上,樹立全方位服務的理念,利用大數據,使得它在競爭中,發揮出越來越便捷的管理方法。
參考文獻
[1]蘇新寧.大數據時代數字圖書館面臨的機遇和挑戰[J].中國圖書館學報,2015.
作者簡介
王顯斌(1983-),男,2010年畢業于華中師范大學。現為廣東省中山市中山圖書館館員。
隨著我國互聯網的發展,云計算、物聯網已成為耳熟能詳的詞匯;但是對大多數人只是聽過這些詞匯但是卻不能理解他們的含義。大數據時代已成為一個不可阻擋的趨勢,對于圖書館服務行業來說是一種機遇也是一種挑戰,圖書館行業的發展應該主動面對這一現狀,應該主動面對大數據時代所帶來的挑戰,積極應對。我們都知道現階段數據的發展以冪指數方程的趨勢發展,大數據時代將成為圖書館行業發展的核心,因為它支撐著圖書館在新時期下的發展。但是面對這一大數字時代帶來挑戰,應如何積極的面對,成為圖書館發展行業首要考慮的問題。本文主要針對這一問題進行討論,望能夠找到有效的解決方案,促進圖書館行業的發展。
1 什么是大數據時代
1.1 大數據時代的概念
對于很多人來說,大數據時代這一詞匯是很熟悉的,但是對于它的含義確是很陌生的。大數據時代其實很難用一個完整的定義,我們通常可解釋為:大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。從這大數據時代的解析我們能夠看到,大數據時代不是單單的一種技術,但是各種信息的綜合體,是一個巨型的資料庫。
最早提出“大數據”這一詞匯的是一個全球知名咨詢公司麥肯錫,他表示到:數據已滲透到各個領域,成為促進社會發展的重要因素。面對這樣的形式,人們加以合理的利用海量的數據資源,將會把世界的發展推向一個新紀元。
1.2 大數據時代的特點
我們由大數據的概念很容易的了解到,它是一個多種數據庫的聚合體。有些人就根據大數據的概念將其特點歸結為一下三點:量大、多樣、實時,有人直接將這三點簡單的成為3V特征(三個特征的首字母都是V開頭,簡稱為3V)。但是我認為大數據時代的特點除了這三點外還其他的,諸如數據價值密度高、處理數據快的特點。因此大數據時代特點我們可以總結為:①數據量大,也就是說數據的體量大,對于體量的衡量我們已經不能用傳統的衡量方式了。②種類的多樣性,大數據庫的種類包含眾多的行業,多個領域,而且具有文本、圖像、影視等多種樣式,這一特點尤其適用于圖書館的發展;③更新速度快,也就是我們說的實時性,大數據的更新每時每刻都在發生,保證了數據的實時性。④數據的價值密度高,涉及到傳輸、決策、感知、控制開放式循環的大數據,大量的不相關信息對未來發展模式和趨勢的可預測性分析起著至關重要的作用。⑤處理速度快,數據持續到達,數據分析要求實時處理而非批量式分析。
2 大數據時代下圖書館面臨的機遇與挑戰
我們由大數據時代的特點可知,隨著大數據時代的發展,處理速度和更新速度使得其利用價值在不斷地上升,在大時代數據對圖書館行業的發展有著很大的影響。
2.1 大數據時代下圖書館面臨著挑戰
在新的時代下要求圖書館服務行業要對其圖書館內部資料有一個充分的了解,而且這種了解要緊緊跟隨著圖書館內部資料的更新不斷改變。傳統的圖書館服務行業的特點就是人工管理占很大一部分,數據更新速度差,管理效率低下,比較浪費時間;由于人們對知識的渴望,圖書館的作用越來越大;圖書館場地的局限也是一個重要的問題;大數據時代的高效性、實時性是傳統的圖書館服務行業所不能比擬的,如何在大數據時代下更好的發展圖書館服務行業成為一個重要的問題。
2.2 大數據時代下圖書館面臨著機遇
其實在大數據時代下圖書館的發展,機遇與挑戰而言,機遇所占的比例不少于挑戰的比例。大數據時代下數據形式有多樣化、信息更新的實時性、快速的處理速度,大數據這些特點都將會促進者圖書館服務行業的發展,未來會成為圖書館服務行業發展的核心部分。
3 圖書館行業應該如何應對大數據時代下的影響
面對大數據時代下的機遇與挑戰,圖書館服務不能坐以待斃,應該積極的面對挑戰,勇于創先,實現機遇利用率的最大化。
3.1 創新圖書館管理方式,提高圖書館的智能化管理水平
傳統圖書館管理模式已不能適應快速發展的社會,對于圖書館的管理,我們應該做到與時俱進。創新圖書館的管理方式是適應社會發展的必然趨勢。我們可以充分利用大數據時代量大、快速、實時的特點,提高圖書館的智能化管理水平。數字化時代,文獻資源等進行數字化、語義化處理是圖書館進行數據處理的主要模式,在此基礎上借助網絡服務,實現數據共享,從而最大程度滿足用戶需要。
大數據時代的到來可以快速的提升圖書館的服務水平,大數據可以以最快的速度更新圖書館的資源,并對資源進行分類,讓人們根據自己的喜好可以快速的篩選出所需要的種類,節約借書人時間的同時也減少了圖書館行業的壓力。
3.2 高度關注圖書館用戶數據和信息
為了迎接大數據時代下挑戰,要提升圖書館服務質量;我們首先要注重的就是用戶的需求。我們都知道大數據內的資料很多,但不一定都是客戶們需要的資源。因此我們要做到盡可能的滿足用戶們的需求。
做好用戶們的需求我們就要做好以下幾點:①根據用戶們的網頁訪問數量,統計、整理出哪些資源是比較受歡迎的,對其M行大量的收集。②了解用戶的愛好和價值取向,根據其不同的喜好可以向不同的人群進行資料的推薦。
4 總結
在大數據時代下,雖然圖書館服務行業受到了很多的挑戰,但是同時也遇到了很多的機遇,我們要相信,隨著圖書館服務行業的不斷發展和創新,一定能跟隨時代的潮流,為我們提供更優質的服務。
參考文獻
[1]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館.2013(01)