<button id="6ymue"><menu id="6ymue"></menu></button>
    • <s id="6ymue"></s>
    • 美章網(wǎng) 資料文庫 傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)探究范文

      傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)探究范文

      本站小編為你精心準備了傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)探究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

      傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)探究

      《電信快報雜志》2016年第9期

      摘要:

      傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)之間的演變歷史、數(shù)據(jù)特征等方面展開討論,厘清兩者之間存在的千絲萬縷但又千差萬別的聯(lián)系,提出傳統(tǒng)統(tǒng)計數(shù)據(jù)是大數(shù)據(jù)的簡單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計數(shù)據(jù)的復雜演化形態(tài)的論斷,指出兩者在數(shù)據(jù)分析思維方式上存在巨大差異,并對數(shù)據(jù)質量管理內涵、全周期數(shù)據(jù)質量保證等問題提出不同的解決思路和方案。

      關鍵詞:

      傳統(tǒng)統(tǒng)計數(shù)據(jù);大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)質量

      0引言

      傳統(tǒng)統(tǒng)計數(shù)據(jù)的內涵在于揭示數(shù)字背后信息與現(xiàn)實世界的關系。大數(shù)據(jù)是指巨量數(shù)據(jù),是無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。從傳統(tǒng)統(tǒng)計數(shù)據(jù)到大數(shù)據(jù)的持續(xù)演變導致在理論層面大數(shù)據(jù)內涵復雜,并與傳統(tǒng)統(tǒng)計數(shù)據(jù)在信息界限上概念模糊。從傳統(tǒng)統(tǒng)計數(shù)據(jù)到大數(shù)據(jù)不僅是量的積累,更是質的飛躍。厘清傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)之間的內涵辯證關系,是有效利用數(shù)據(jù)的基礎和關鍵。

      1傳統(tǒng)統(tǒng)計數(shù)據(jù)向大數(shù)據(jù)演變的動力

      信息技術的進步為傳統(tǒng)統(tǒng)計數(shù)據(jù)向大數(shù)據(jù)演變提供了物質和技術基礎。隨著互聯(lián)網(wǎng)的日益發(fā)展,每一次網(wǎng)絡存儲技術的進步都使信息的生產(chǎn)、存儲、傳輸成本大幅度降低,而流通的范圍、深度、速度則顯著提升。JimGray的新摩爾定理認為,每18個月全球新增信息量是計算機有史以來全部信息量的總和,新摩爾定律以信息量的維度確定了數(shù)據(jù)化演變信息的節(jié)奏。這種趨勢導致的基本形態(tài)就是數(shù)據(jù)信息空前豐富,大數(shù)據(jù)成為了研究和利用熱點。信息需求多樣化與個性化是傳統(tǒng)統(tǒng)計數(shù)據(jù)向大數(shù)據(jù)演變的基本動力。數(shù)據(jù)最終是為信息需求服務的,用戶信息價值最大化才是數(shù)據(jù)應用的關鍵所在。在數(shù)據(jù)化趨勢下,隨著人們認知實踐與需求狀態(tài)的變化,數(shù)據(jù)一方面從滿足基本特定信息需求到利用復雜的數(shù)據(jù)屬性解析出多樣化信息需求轉變,另一方面從被動滿足簡單需求到主動發(fā)掘復雜有效需求,并探知用戶個性化信息需求轉變。這兩方面成為傳統(tǒng)統(tǒng)計數(shù)據(jù)項大數(shù)據(jù)內涵演變的基本動力。相應地,數(shù)據(jù)內涵也從樸素的信息真實業(yè)務邏輯向滿足復雜需求的數(shù)據(jù)化邏輯遷移。隨著信息技術的發(fā)展和用戶需求的變化,信息效率價值的實時化及數(shù)據(jù)泛濫造成數(shù)據(jù)噪聲增強和有效信息稀缺現(xiàn)象,大數(shù)據(jù)應運而生。傳統(tǒng)統(tǒng)計數(shù)據(jù)是大數(shù)據(jù)的簡單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計數(shù)據(jù)的復雜演化形態(tài)。

      2傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)特征差異

      數(shù)據(jù)量增多是人們區(qū)別傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的第一個認識。傳統(tǒng)統(tǒng)計數(shù)據(jù)數(shù)據(jù)量小,以MB、GB、TB等為存儲單位。大數(shù)據(jù)數(shù)據(jù)量大,一般以PB、EB、ZB等為存儲單位。但這兩者之間特征區(qū)別并不僅僅是體量,還包括數(shù)據(jù)類型、研究對象的范圍、信息視角等方面。

      2.1傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)類型對比

      傳統(tǒng)統(tǒng)計數(shù)據(jù)是一種結構化的標準數(shù)據(jù)。其數(shù)據(jù)類型單一,主要以結構化、體量小、標準化、價值密度高及周期化數(shù)值為特征,數(shù)據(jù)產(chǎn)生和變化的速度慢。其數(shù)據(jù)特點是樸素真實、簡單有限、準確性高及被動有用性。大數(shù)據(jù)統(tǒng)計范疇擴大、數(shù)據(jù)類型復雜,其中包括:a)非結構化非標準數(shù)據(jù),如動態(tài)實時時序數(shù)據(jù)。b)半結構化數(shù)據(jù)和非結構化數(shù)據(jù),如文本、圖像、視頻等。c)現(xiàn)有的結構化數(shù)據(jù),如傳統(tǒng)統(tǒng)計數(shù)據(jù)。其數(shù)據(jù)模型具有復雜多維的特征,統(tǒng)計結果多是非精確多種相關性趨勢數(shù)據(jù)。大數(shù)據(jù)具有4個V基本特征,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低),且具有來源多樣、實時、多元的信息化特點。這些特點導致數(shù)據(jù)在產(chǎn)生、獲取、存儲、傳輸和計算過程中,因體量大、快速多變易產(chǎn)生沖突和不一致,人工很難檢測和修復。

      2.2傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的研究對象范圍不同

      傳統(tǒng)統(tǒng)計數(shù)據(jù)的研究對象是宏觀視角下有限的隨機樣本數(shù)據(jù)。隨著信息化的發(fā)展,實踐中產(chǎn)生大量冗余沉淀數(shù)據(jù),這一時期經(jīng)過清洗的全樣本數(shù)據(jù)是數(shù)據(jù)挖掘的研究對象。而大數(shù)據(jù)面對的則是原生態(tài)全樣本數(shù)據(jù),也就是所謂的總體數(shù)據(jù)。從隨機樣本數(shù)據(jù)到經(jīng)過清洗的全樣本數(shù)據(jù)再到原生態(tài)總體數(shù)據(jù),數(shù)據(jù)內涵總體信息視角從宏觀向中觀和微觀擴散。研究對象范圍向寬度和深度兩個方向不斷擴展,不斷深入系統(tǒng)微觀的多維度個體感知,信息能力和價值也不斷提升。這種轉變來自技術和需求的驅動,新型數(shù)據(jù)處理技術及需求獲取能力成為演變的關鍵因素。

      3大數(shù)據(jù)相對傳統(tǒng)統(tǒng)計數(shù)據(jù)分析方式的變革

      數(shù)據(jù)中蘊含的寶貴價值成為人們存儲和處理數(shù)據(jù)的驅動力,數(shù)據(jù)分析是實現(xiàn)數(shù)據(jù)價值的必要途徑。由于傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)在體量、結構、內涵等方面有著本質的區(qū)別,所遵循的數(shù)據(jù)分析理論基礎、分析思路、相關技術也不同。

      3.1傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)數(shù)據(jù)分析的理論基礎

      對傳統(tǒng)統(tǒng)計數(shù)據(jù)進行數(shù)據(jù)分析的理論基礎是分布理論,以概率為保證,即根據(jù)樣本去推斷總體特征,其邏輯關系是“分布理論—概率保證—總體推斷”,分析過程是“假設—驗證”基礎上的“定性—定量—再定性”。對大數(shù)據(jù)進行數(shù)據(jù)分析是以全體數(shù)據(jù)為基礎,以數(shù)據(jù)信息相關為保證,其邏輯關系是“實際分布—總體特征—概率判斷”,可以不受任何假設的限制去尋找關系、發(fā)現(xiàn)規(guī)律,分析過程是“定量—定性”及“發(fā)現(xiàn)—總結”重要數(shù)量特征和關系基礎上的定量回應。

      3.2傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)數(shù)據(jù)的分析思路

      傳統(tǒng)統(tǒng)計數(shù)據(jù)價值的實現(xiàn)路徑為“數(shù)據(jù)到信息再到知識和智慧”。傳統(tǒng)統(tǒng)計數(shù)據(jù)分析著力于經(jīng)典嚴密封閉系統(tǒng)的精確性和因果關系的探索,找到事物屬性之間的因果關系,比較容易實現(xiàn)。對于開放復雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因為系統(tǒng)中各個組成部分之間相互有影響,可能互為因果,因果關系隱藏在整個系統(tǒng)中。因果關系本質上是一種相互糾纏的相關性。大數(shù)據(jù)數(shù)據(jù)分析無法檢驗邏輯上的因果關系,不能致力于尋找真正的原因。Mayer-Sch觟nberger在《大數(shù)據(jù)時代》一書中指出了大數(shù)據(jù)時代處理數(shù)據(jù)理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。因此,大數(shù)據(jù)分析邏輯體現(xiàn)為走“數(shù)據(jù)直接到價值”的捷徑。大數(shù)據(jù)數(shù)據(jù)分析關注事物相關性認知分析,所謂相關性是指兩個或兩個以上變量的取值之間存在某種規(guī)律性,即對數(shù)量巨大的數(shù)據(jù)進行統(tǒng)計性的搜索、比較、聚類、分類等分析歸納。相關分析的目的是找出數(shù)據(jù)集里隱藏的相互關系網(wǎng)(關聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關性。

      3.3傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)分析處理技術

      進行數(shù)據(jù)分析需要相應的數(shù)據(jù)分析處理技術以及技術人員的全力參與。數(shù)據(jù)分析領域面臨的主要矛盾是快速增長的數(shù)據(jù)信息需求與有限統(tǒng)計資源和滯后數(shù)據(jù)處理能力的矛盾。信息技術應用成本的低廉化和性能效率的聚變成為數(shù)據(jù)需求和質量要求快速增長的基本動力。傳統(tǒng)統(tǒng)計數(shù)據(jù)的分析和處理遵循一般的關系數(shù)據(jù)庫的數(shù)據(jù)分析和處理技術,技術人員經(jīng)過一定的訓練即可勝任。對大數(shù)據(jù)進行分析和處理需考慮以下技術因素:a)數(shù)據(jù)清洗。大數(shù)據(jù)價值密度低、冗余數(shù)據(jù)增多、垃圾數(shù)據(jù)泛濫,大數(shù)據(jù)清洗需要專業(yè)和細致。數(shù)據(jù)不能清洗過細,否則會增加數(shù)據(jù)清洗復雜度,甚至有可能過濾掉有用信息。數(shù)據(jù)也不能清洗過粗,要保證數(shù)據(jù)篩選的效果。b)以MapReduce(一種編程模型)和Hadoop(Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構)為代表的非關系型數(shù)據(jù)庫的非關系型數(shù)據(jù)分析技術,因其具有良好的橫向擴展性,在大數(shù)據(jù)分析處理中得到廣泛應用。c)要深入分析數(shù)據(jù),數(shù)據(jù)分析人員既要熟悉數(shù)據(jù)分析技術和工具,又要具備相關領域的專業(yè)知識。

      4傳統(tǒng)統(tǒng)計數(shù)據(jù)與大數(shù)據(jù)的數(shù)據(jù)質量內涵

      高質量數(shù)據(jù)是進行數(shù)據(jù)分析的前提和基礎,是數(shù)據(jù)發(fā)揮效能的保證。傳統(tǒng)統(tǒng)計數(shù)據(jù)數(shù)據(jù)質量以有限信息邏輯的因果性、確定性、清晰且高度的結構化為主要特征,主要關注數(shù)據(jù)自身本源的質量問題,例如準確性、完整性和客觀性。質量標準至少應該包括指標解釋(含義、范圍、口徑)、數(shù)據(jù)特征、調查方法、統(tǒng)計誤差、獲取時間、頻率及渠道等方面的內容。大數(shù)據(jù)以既定邊界內總體數(shù)據(jù)系統(tǒng)相關性的隨機、自身的不確定性以及總體的非結構化為特征。由于數(shù)據(jù)質量問題在大數(shù)據(jù)環(huán)境下會被不斷放大,因此,大數(shù)據(jù)主要關注數(shù)據(jù)可信與溯源等非數(shù)據(jù)本源性質量問題,即數(shù)據(jù)資源產(chǎn)生后在傳輸、存儲和應用過程中產(chǎn)生的突顯問題。下面重點從流程和管理兩方面分析傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)所面臨的數(shù)據(jù)質量的挑戰(zhàn)及應對措施。

      4.1從流程視角看數(shù)據(jù)質量保證

      從流程的角度(即從數(shù)據(jù)生命周期角度)來看,可以將數(shù)據(jù)生產(chǎn)過程分為數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)使用三個階段,三個階段對傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)的質量保證提出了不同的要求。

      1)數(shù)據(jù)采集過程中數(shù)據(jù)質量保證問題

      數(shù)據(jù)采集階段是整個數(shù)據(jù)生命周期的開始,這個階段的數(shù)據(jù)質量對后續(xù)階段的數(shù)據(jù)質量有著直接的、決定性的影響。傳統(tǒng)統(tǒng)計數(shù)據(jù)數(shù)據(jù)量小,通過編寫簡單的匹配程序,甚至是人工查找即可實現(xiàn)多數(shù)據(jù)源中不一致數(shù)據(jù)的檢測和定位。大數(shù)據(jù)由于數(shù)據(jù)來源復雜,數(shù)據(jù)之間存在著沖突、不一致或相互矛盾的現(xiàn)象。因此,需要在數(shù)據(jù)獲取階段保證數(shù)據(jù)定義的一致性及元數(shù)據(jù)定義的統(tǒng)一性,以保證數(shù)據(jù)質量。

      2)數(shù)據(jù)存儲過程中數(shù)據(jù)質量保證問題

      數(shù)據(jù)存儲是實現(xiàn)高水平數(shù)據(jù)質量的基本保障,如果數(shù)據(jù)不能被一致、完整、有效的存儲,數(shù)據(jù)質量將無從談起。傳統(tǒng)統(tǒng)計數(shù)據(jù)以結構化數(shù)據(jù)為主,主要采用傳統(tǒng)的結構化數(shù)據(jù)存儲架構(如關系型數(shù)據(jù)庫)進行數(shù)據(jù)的存儲。大數(shù)據(jù)數(shù)據(jù)結構多樣、數(shù)量龐大、數(shù)據(jù)結構復雜、變化速度快,需要使用專門的數(shù)據(jù)庫技術和專用的數(shù)據(jù)存儲設備進行大數(shù)據(jù)存儲,以保證數(shù)據(jù)存儲的有效性,方便對數(shù)據(jù)進行快速讀取。數(shù)據(jù)庫一般采用分布式文件系統(tǒng)和分布式并行數(shù)據(jù)庫(如HDFS〔分布式文件系統(tǒng)〕、BigTable〔Google設計的分布式數(shù)據(jù)存儲系統(tǒng)〕等),在數(shù)據(jù)存儲過程中,數(shù)據(jù)格式的轉換非常關鍵和復雜,要根據(jù)大數(shù)據(jù)結構的要求和特點合理設計數(shù)據(jù)存儲和使用規(guī)則。

      3)數(shù)據(jù)使用過程中數(shù)據(jù)質量保證問題

      數(shù)據(jù)價值的發(fā)揮在于對數(shù)據(jù)的有效分析和應用。傳統(tǒng)統(tǒng)計數(shù)據(jù)的使用需要遵從關系型數(shù)據(jù)的完整性約束和數(shù)據(jù)一致性保證技術要求。由于大數(shù)據(jù)使用人員眾多,數(shù)據(jù)規(guī)模龐大、變化速度快,對數(shù)據(jù)的處理速度要求較高,很多時候需要同步、不斷地對數(shù)據(jù)進行提取、分析、更新和使用,因此需要保證數(shù)據(jù)使用的一致性。

      4.2從管理視角看數(shù)據(jù)質量保證

      傳統(tǒng)統(tǒng)計數(shù)據(jù)一般由業(yè)務部門負責掌管數(shù)據(jù),IT部門負責信息技術的應用,這種分離式的運營管理方式容易造成業(yè)務人員不了解分析不同數(shù)據(jù)所需的不同IT工具,而IT人員在運用IT技術分析數(shù)據(jù)時不了解數(shù)據(jù)本身的內涵,甚至會做出錯誤的數(shù)據(jù)解釋,影響了企業(yè)決策的準確性和有效性。為了更好地利用大數(shù)據(jù),保證大數(shù)據(jù)的質量,企業(yè)高層管理者應給與重視和支持,需在高層配備專業(yè)數(shù)據(jù)管理人員。在大數(shù)據(jù)生產(chǎn)過程的任何一個環(huán)節(jié),企業(yè)都應該配備相應的專業(yè)數(shù)據(jù)管理人員,如由專門人員負責記錄定義并記錄元數(shù)據(jù),收集原始數(shù)據(jù),建模、提取并利用隱藏在大數(shù)據(jù)中的信息。

      5結束語

      傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)是數(shù)據(jù)科學發(fā)展過程中由于技術的發(fā)展和客戶需求的多樣化、個性化而必然出現(xiàn)的數(shù)據(jù)階段。由于兩者之間關系不清,界限模糊,采集、分析、處理等技術多樣,難度大,因此,從業(yè)者難免存在模糊認識和畏難情緒。本文從兩者的演變歷史、數(shù)據(jù)特征、數(shù)據(jù)分析和質量管理等方面對兩者的異同進行辨析,指出傳統(tǒng)統(tǒng)計數(shù)據(jù)是大數(shù)據(jù)的簡單形式和初期階段,大數(shù)據(jù)是傳統(tǒng)統(tǒng)計數(shù)據(jù)的復雜演化形態(tài),大數(shù)據(jù)從廣義上來講包含了傳統(tǒng)統(tǒng)計數(shù)據(jù)。試圖通過對兩者的辨析為從業(yè)者提供一個辯證和清晰的思路。數(shù)據(jù)的分析應用無止境,任重而道遠。

      參考文獻:

      1劉軍華.大數(shù)據(jù)視野下統(tǒng)計數(shù)據(jù)質量演變的信息回歸、分布與趨勢[J].統(tǒng)計與信息論壇,2015(9):7-11.

      2祝君儀.大數(shù)據(jù)時代背景下統(tǒng)計數(shù)據(jù)質量的評估方法及適用性分析[J].中國市場,2015(29):41-42.

      3李國杰.對大數(shù)據(jù)的再認識[J].大數(shù)據(jù),2015(1):1-9.

      4程學旗,靳小龍,等.大數(shù)據(jù)系統(tǒng)和分析技術綜述[J].軟件學報,2014(9):1889-1908.

      5宗威,吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質量的挑戰(zhàn)[J].西安交通大學學報:社會科學版,2013(5):38-43.

      作者:李敬華 賈蓓 李倩茹 單位:西安通信學院

      主站蜘蛛池模板: 亚洲a级片在线观看| 国产精品免费大片| 免费在线看v片| а√天堂资源8在线官网在线 | 亚洲一区中文字幕久久| 91久久国产精品| 欧美日韩国产58香蕉在线视频| 天天摸天天摸色综合舒服网| 任你躁国产自任一区二区三区| free哆啪啪免费永久| 爱福利极品盛宴| 国偷自产AV一区二区三区| 亚洲欧美乱综合图片区小说区 | 17女生主动让男生桶自己比| 欧美在线小视频| 国产精品va在线观看无码| 亚洲一区精品视频在线| 欧美一级黄视频| 日韩在线一区二区| 老太脱裤子小伙bbbaaa| 久久99国产精品久久99| 一个人晚上在线观看的免费视频| 精品国产专区91在线app| 张瑶赵敏大学丝袜1-10| 动漫美女www网站免费看动漫| yuijizz| 波多结衣一区二区三区| 国产素人在线观看| 亚洲av乱码一区二区三区香蕉 | 少妇高潮太爽了在线观看| 偷自拍亚洲视频在线观看99| 91精品欧美一区二区三区| 欧美大尺度xxxxx视频| 国产成人亚洲精品大帝| 久久99久久99精品免视看动漫| 精品无码无人网站免费视频| 天堂网在线资源www最新版| 亚洲欧美成人一区二区三区| 欧美人xxxx| 插鸡网站在线播放免费观看| 免费人成在线观看网站|