<button id="6ymue"><menu id="6ymue"></menu></button>
    • <s id="6ymue"></s>
    • 美章網 精品范文 大數(shù)據(jù)分析論文范文

      大數(shù)據(jù)分析論文范文

      前言:我們精心挑選了數(shù)篇優(yōu)質大數(shù)據(jù)分析論文文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。

      大數(shù)據(jù)分析論文

      第1篇

      基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因為在數(shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結構,需要使用某種方法將其進行預處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預處理過的數(shù)據(jù)進行算法特定的分析,并將分析的結果用可視化等手段呈現(xiàn)至用戶端。

      1.1數(shù)據(jù)采集

      大數(shù)據(jù)的采集是整個流程的基礎,隨著互聯(lián)網技術和應用的發(fā)展以及各種終端設備的普及,使得數(shù)據(jù)的生產者范圍越來越大,數(shù)據(jù)的產量也越來越多,數(shù)據(jù)之間的關聯(lián)也越來越復雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。

      1.2數(shù)據(jù)處理與集成

      數(shù)據(jù)的處理與集成主要是對前一步采集到的大量數(shù)據(jù)進行適當?shù)念A處理,包括格式化、去噪以及進一步集成存儲。因為數(shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結構也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無效數(shù)據(jù),需要去除,否則會影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無效數(shù)據(jù)。通常會設計一些過濾器來完成這一任務。

      1.3數(shù)據(jù)分析

      在完成了數(shù)據(jù)的采集和處理后,需要對數(shù)據(jù)進行分析,因為在進行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價值。數(shù)據(jù)分析的對象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應用需求和價值體現(xiàn)方向對這些原始樣本數(shù)據(jù)進一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工具對集中存儲的數(shù)據(jù)進行分析,數(shù)據(jù)分析服務與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對象不是數(shù)據(jù),而是數(shù)據(jù)服務。

      1.4數(shù)據(jù)解釋

      數(shù)據(jù)解釋是對大數(shù)據(jù)分析結果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結果的解釋步驟是大數(shù)據(jù)分析的用戶直接面對成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結果也更復雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經不足以滿足數(shù)據(jù)分析結果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會引入“數(shù)據(jù)可視化技術”作為數(shù)據(jù)解釋方式。通過可視化結果分析,可以形象地向用戶展示數(shù)據(jù)分析結果。

      2云計算與大數(shù)據(jù)分析的關系

      云計算是基于互聯(lián)網的相關服務的增加、使用和交付模式,通常涉及通過互聯(lián)網來提供動態(tài)易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價值分析為目的的活動,而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網數(shù)據(jù)的融合。從目前的趨勢來看,云計算是大數(shù)據(jù)的IT基礎,是大數(shù)據(jù)分析的支撐平臺,不斷增長的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺承載。所以,云計算技術的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結果更加精確。另一方面,云計算的出現(xiàn)為大數(shù)據(jù)分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業(yè)也可以通過云計算來實現(xiàn)屬于自己的大數(shù)據(jù)分析產品。大數(shù)據(jù)技術本身也是云計算技術的一種延伸。大數(shù)據(jù)技術涵蓋了從數(shù)據(jù)的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統(tǒng)、并行計算框架、數(shù)據(jù)庫、實時流數(shù)據(jù)處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數(shù)據(jù)分析要走向云計算還要賴于數(shù)據(jù)通信帶寬的提高和云資源的建設,需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴展。

      3基于云計算環(huán)境的Hadoop

      為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發(fā)了一個基于云計算環(huán)境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(Hbase、Cassandra)等功能模塊在內的完整生態(tài)系統(tǒng),已經成為當前最流行的大數(shù)據(jù)處理平臺,并被廣泛認可和開發(fā)應用。基于Hadoop,用戶可編寫處理海量數(shù)據(jù)的分布式并行程序,并將其運行于由成百上千個節(jié)點組成的大規(guī)模計算機集群上。

      4實例分析

      本節(jié)以電信運營商為例,說明在云計算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶帶來的價值。當前傳統(tǒng)語音和短信業(yè)務量下滑,智能終端快速增長,移動互聯(lián)網業(yè)務發(fā)展迅速,大數(shù)據(jù)分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數(shù)據(jù)分析樣本來自于某運營商的個人語音和數(shù)據(jù)業(yè)務清單,通過Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個大數(shù)據(jù)分析平臺來處理獲得的樣本。希望通過對樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數(shù)據(jù)中所蘊含的價值要遠遠大于本文體現(xiàn)的。以上舉例意在說明基于云計算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來更豐富更有效率的信息提取、分類,并從中獲益。

      5結束語

      第2篇

      關鍵詞:大數(shù)據(jù) 交易平臺 數(shù)據(jù)資源 數(shù)據(jù)分析服務 融合

      1.引言

      目前發(fā)展大數(shù)據(jù)產業(yè)已經上升為國家戰(zhàn)略,大數(shù)據(jù)的價值也得到了社會的廣泛認可。眾多研究[1-5]表明,大數(shù)據(jù)不僅為政府治理開辟了新思路,還是企業(yè)創(chuàng)新的重要源泉和高校科研的重要支撐。大數(shù)據(jù)交易平臺是整個大數(shù)據(jù)產業(yè)的基礎與核心,它使得數(shù)據(jù)資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數(shù)據(jù)。這樣不僅提高了數(shù)據(jù)資源的利用效率,更重要的是,當一個組織擁有的數(shù)據(jù)資源不斷豐富和立體化,有助于其通過數(shù)據(jù)分析發(fā)現(xiàn)更多的潛在規(guī)律,從而對內提高自身的效率,對外促進整個社會的不斷進步。

      在現(xiàn)有的大數(shù)據(jù)交易平臺上,數(shù)據(jù)供應方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發(fā)現(xiàn)合適的交易對象,則進行大數(shù)據(jù)資源的買賣,交易平臺只作為信息中介存在。這類大數(shù)據(jù)交易的本質,其實是單獨的大數(shù)據(jù)資源交易,現(xiàn)有平臺可以統(tǒng)稱為第一代大數(shù)據(jù)交易平臺。第一代大數(shù)據(jù)交易平臺在供需平衡、數(shù)據(jù)定價和時效性三個方面都存在較大的不足。本文針對這些不足進行改進,設計了一種全新的第二代大數(shù)據(jù)交易平臺,命名為:融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺,該平臺將數(shù)據(jù)資源交易與數(shù)據(jù)分析服務進行深度融合,實現(xiàn)了數(shù)據(jù)與服務的一體化交易。本研究不僅為當下正在建設的各類大數(shù)據(jù)交易平臺提供有益的借鑒,也豐富了大數(shù)據(jù)交易的基礎理論體系。

      2.相關研究

      目前大數(shù)據(jù)交易的相關研究中,比較有代表性的有:

      (1)大數(shù)據(jù)的財產屬性和所有權。王玉林等[6]對大數(shù)據(jù)的財產屬性展開研究,認為大數(shù)據(jù)的法律屬性會直接影響大數(shù)據(jù)產業(yè)的發(fā)展,而大數(shù)據(jù)交易實踐本身就反映出大數(shù)據(jù)具有財產屬性。但大數(shù)據(jù)與傳統(tǒng)的財產權客體存在較大不同,它符合信息財產的特征,是信息財產權的客體,應受到相關法律的保護。齊愛民等[7]從宏觀的角度分析了國家對于其主權范圍內數(shù)據(jù)的所有權,剖析了個人擁有的數(shù)據(jù)權以及數(shù)據(jù)的財產權。

      (2)大數(shù)據(jù)的定價問題。劉朝陽[8]對大數(shù)據(jù)的定價問題展開研究,首先分析了大數(shù)據(jù)的基本特征、價值特征等定價基礎。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數(shù)據(jù)的定價策略,并對大數(shù)據(jù)定價的雙向不確定問題進行了詳細論述。劉洪玉等[9]認為在大數(shù)據(jù)交易過程中,由于缺乏足夠的歷史參考,其數(shù)據(jù)資源的交易價格很難確定,因此提出一種基于競標機制的魯賓斯坦模型,用于大數(shù)據(jù)交易雙方進行討價還價,以求達成一個交易的均衡價格。翟麗麗等[10]從資產的期權價值角度來評估大數(shù)據(jù)資源的價值,并指出數(shù)據(jù)在不斷變化和更新,加上數(shù)據(jù)的非獨占性等情況的出現(xiàn),數(shù)據(jù)資產的價值可能會下降,最后綜合這些因素構建了一個評估模型來計算數(shù)據(jù)資產的價值。

      (3)大數(shù)據(jù)交易的安全與隱私保護。史宇航[11]認為非法的數(shù)據(jù)交易會對個人數(shù)據(jù)等高價值信息的安全造成影響,對非法數(shù)據(jù)交易的購買方和協(xié)助方都應進行處罰。提出應先明確數(shù)據(jù)的法律屬性,再以數(shù)據(jù)交易所為平臺進行交易,并對數(shù)據(jù)交易所的法律地位進行了分析。殷建立等[12]為應對大數(shù)據(jù)時代數(shù)據(jù)采集、交易等過程中的安全問題,綜合考慮技術、政策和管理平臺等方面的因素,構建了一種個人數(shù)據(jù)溯源管理體系,該體系可在數(shù)據(jù)應用時實現(xiàn)個人數(shù)據(jù)的追蹤溯源,從而保護其個人隱私。王忠[13]認為大數(shù)據(jù)環(huán)境下強大的數(shù)據(jù)需求會導致個人數(shù)據(jù)的非法交易,為應對這種情況,應該建立個人數(shù)據(jù)交易許可機制,通過發(fā)放交易許可證、拍賣授予等措施實現(xiàn)隱私保護。

      (4)大數(shù)據(jù)交易的發(fā)展現(xiàn)狀與問題。楊琪等[14]認為我國的大數(shù)據(jù)交易還處于行業(yè)發(fā)展的早期,大量數(shù)據(jù)源未被激活,原因是大數(shù)據(jù)產業(yè)價值鏈的各個專業(yè)環(huán)節(jié)發(fā)展滯后,并且對數(shù)據(jù)交易中的安全問題和隱私泄露等有較大的擔憂。應該對數(shù)據(jù)產品進行改造,使其更商品化,并且通過政府開放公共數(shù)據(jù)等措施逐漸消除數(shù)據(jù)流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數(shù)據(jù)交易的發(fā)展特點、交易類型等現(xiàn)狀,接著指出目前大數(shù)據(jù)交易存在法律法規(guī)相對滯后、行業(yè)標準不完善、交易平臺定位不明確、數(shù)據(jù)質量不高等問題,最后提出應加快相關法律和標準建設,并推動數(shù)據(jù)開放,加強交易方式的創(chuàng)新。

      除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數(shù)據(jù)研究在行業(yè)應用和科學研究方面的重要作用,這從客觀上反映了大數(shù)據(jù)流通的必要性。涂永前等[17]認為大數(shù)據(jù)時代企業(yè)管理和運用數(shù)據(jù)資源的相關成本會成為企業(yè)的主要交易成本,這會改變企業(yè)的組織結構,并導致企業(yè)邊界的變化,企業(yè)會進行多方向的擴張,這為促進大數(shù)據(jù)產業(yè)發(fā)展的相關法律的制定提供了理論支持。總的來看,由于大數(shù)據(jù)交易本身屬于較新的領域,因此相關研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實際上,大數(shù)據(jù)交易平臺是實現(xiàn)大數(shù)據(jù)交易的重要載體,是大數(shù)據(jù)資源流通轉換的主要節(jié)點,交易平臺本身需要隨著整個大數(shù)據(jù)產業(yè)的發(fā)展,不斷的改進和升級,而現(xiàn)有研究中恰恰缺少對大數(shù)據(jù)交易平臺本身進行創(chuàng)新的研究。由此,本文針對現(xiàn)有大數(shù)據(jù)交易平臺的不足,結合實際設計了一種全新的融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺,為實踐和科研提供借鑒和參考。

      3.現(xiàn)有大數(shù)據(jù)交易平臺的不足

      大數(shù)據(jù)本身作為一種新興事物,當把它作為一種商品進行交易時,其交易平臺的設計很自然會參照傳統(tǒng)的商品交易模式,即:交易雙方先供求信息,再經過討價還價,達到一個均衡的價格則成交,賣方將大數(shù)據(jù)資源經過脫敏處理后,交付給買方。目前無論是政府主導的大數(shù)據(jù)交易所,還是企業(yè)或者高校創(chuàng)建的大數(shù)據(jù)交易平臺,都是采用類似的交易模式,這也是第一代大數(shù)據(jù)交易平臺的突出特點。實際上大數(shù)據(jù)與傳統(tǒng)商品有很大的區(qū)別,照搬傳統(tǒng)商品的交易模式會出現(xiàn)很多問題。本文將從供需平衡、數(shù)據(jù)定價和時效性三個方面分析現(xiàn)有大數(shù)據(jù)交易平臺的不足。

      3.1 數(shù)據(jù)供需的錯配

      現(xiàn)有大數(shù)據(jù)交易平臺的第一點不足就是數(shù)據(jù)供需的錯配,即:供應方提供的數(shù)據(jù)資源往往不是需求方所需要的,而需求方需要的數(shù)據(jù)在交易平臺上找不到,即使有相近的數(shù)據(jù)資源,也存在很大的數(shù)據(jù)缺失或冗余,買回去也無法使用。對數(shù)據(jù)供應方來說,由于無法準確預知數(shù)據(jù)買方多樣性的需求,它只能從自身角度出發(fā),將可以公開的、并且自認為有價值的數(shù)據(jù)資源放到平臺上待售。對需求各異的買方來說,供應方提供的標準數(shù)據(jù)很難與自己的應用方向精準匹配,這也是目前大數(shù)據(jù)交易還不夠活躍的原因。當然,當供需雙方建立初步聯(lián)系以后,供應方甚至可以為需求方個性化定制大數(shù)據(jù)資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數(shù)據(jù)供應方無法提供多維的數(shù)據(jù)資源,只有多維的數(shù)據(jù)資源才具有較高的分析價值。

      3.2 大數(shù)據(jù)資源定價困難

      大數(shù)據(jù)資源定價困難是現(xiàn)有大數(shù)據(jù)交易平臺的第二點不足。大數(shù)據(jù)資源和普通商品不同,普通商品可以直接消費或者作為再加工的原材料,其價值都可以通過最終的消費品價格得到體現(xiàn)。而大數(shù)據(jù)本身的價值無法直接衡量,需求方購買它的目的是作為數(shù)據(jù)分析的信息源,但是否能發(fā)現(xiàn)潛在的規(guī)律還未可知。因此無法在購買前,準確判斷出待售數(shù)據(jù)資源的價值大小。此外,需求方在不確定某大數(shù)據(jù)資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數(shù)據(jù)供應方的交易積極性,加大了供需雙方達成交易的難度。

      3.3 數(shù)據(jù)的時效性不強

      現(xiàn)有大數(shù)據(jù)交易平臺的第三點不足,就是數(shù)據(jù)資源的時效性不強。目前很多大數(shù)據(jù)交易平臺上待售的數(shù)據(jù)資源都以歷史數(shù)據(jù)為主,這是因為數(shù)據(jù)資源在交易前需要經歷脫敏處理,將涉及政府信息安全、企業(yè)商業(yè)機密和個人隱私等敏感信息進行變換和替代。此外,供應方還需要對原始數(shù)據(jù)進行初步的清洗,整理成一定的數(shù)據(jù)格式集中存貯和交付,方便需求方進行數(shù)據(jù)分析。由于一般的數(shù)據(jù)供應方并不具備對大數(shù)據(jù)進行實時脫敏和清洗的能力,只能將采集到的數(shù)據(jù)資源,經過一段時間的離線處理后,再放到交易平臺上,所以只能供應歷史數(shù)據(jù)。隨著社會節(jié)奏的不斷加快,歷史數(shù)據(jù)很可能并不能反映當下的真實情況,越來越多的數(shù)據(jù)分析都需要用到實時數(shù)據(jù)作為信息源,這是未來大數(shù)據(jù)交易必須克服的一個短板。

      4.融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺設計

      本文提出將數(shù)據(jù)分析服務融合到目前的大數(shù)據(jù)交易中,以此來克服現(xiàn)有交易平臺的不足,本節(jié)將首先對數(shù)據(jù)分析服務進行概念界定,再依次介紹平臺設計的總體思路和核心模塊的設計,具體如下。

      4.1 數(shù)據(jù)分析服務的概念界定

      數(shù)據(jù)分析是指運用各類數(shù)據(jù)處理模型和信息技術手段,對數(shù)據(jù)資源進行深度的挖掘,從而發(fā)現(xiàn)其中蘊含的規(guī)律,作為管理決策的依據(jù)。數(shù)據(jù)分析本身是一種能力,如果一個組織將其數(shù)據(jù)分析能力提供給其他組織或個人,并收取一定的費用,這就是數(shù)據(jù)分析服務。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)資源不僅體量巨大而且種類多,對數(shù)據(jù)分析能力的要求不斷提高。在這種情況下,只有少數(shù)組織具備獨立處理大數(shù)據(jù)的能力,其他的組織比如大量的中小企業(yè),都需要從組織外部尋求專業(yè)的數(shù)據(jù)分析服務,來滿足自身的需要。因此,數(shù)據(jù)分析服務和大數(shù)據(jù)資源一樣存在巨大的市場需求。

      4.2 平臺設計的總體思路

      本文將提出的融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺,定位為第二代大數(shù)據(jù)交易平臺,它將大數(shù)據(jù)資源交易與數(shù)據(jù)分析服務兩者進行深度融合,在交易平臺上實現(xiàn)數(shù)據(jù)與服務的一體化交易。大數(shù)據(jù)交易平臺的角色也從原來的數(shù)據(jù)資源買賣的信息中介,轉變?yōu)榇髷?shù)據(jù)綜合服務商。在融合后的大數(shù)據(jù)交易平臺上,數(shù)據(jù)需求方不再提交數(shù)據(jù)資源的需求信息,而是直接提出自己的應用方向和想要得到的結果,交易平臺再根據(jù)需求方的應用方向,反向匹配數(shù)據(jù)資源和數(shù)據(jù)分析服務。這個匹配的過程不是單一的數(shù)據(jù)集或服務的查找,而是對全平臺的數(shù)據(jù)資源進行有效整合,形成高價值的多維數(shù)據(jù),再結合復合型的數(shù)據(jù)分析技術,得到最終的分析結果,最后將分析結果與基礎數(shù)據(jù)一同交付給需求方。交付基礎數(shù)據(jù)的目的,一是方便需求方進行分析結果的對照,為決策提供更精準的參考。二是需求方可以根據(jù)基礎數(shù)據(jù)進行衍生挖掘,進一步提高數(shù)據(jù)的利用效率。平臺設計的總體思路繪制成圖1。

      圖1 平臺設計的總體思路

      4.3 核心模塊的設計

      融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺共劃分為四大模塊,具體如圖2所示。

      圖2 融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺的主要模塊

      系統(tǒng)管理模塊具體又分為用戶管理、系統(tǒng)維護和安全管理。安全管理是系統(tǒng)管理模塊的重點,主要包含三個方面的功能:第一,負責整個交易平臺的系統(tǒng)安全,通過對交易平臺進行實時監(jiān)控,阻止外部的非法入侵行為,保障平臺的正常運行。第二,對數(shù)據(jù)供應方提交的數(shù)據(jù)資源進行審核,如果發(fā)現(xiàn)是非法數(shù)據(jù),則阻止其交易,并及時將有關情況反饋給相關的政府監(jiān)管部門,由它們進行調查處理。第三,檢查所有數(shù)據(jù)是否經過脫敏處理。如果發(fā)現(xiàn)部分數(shù)據(jù)存在未脫敏或者脫敏不合格的情況,交易平臺將負責對該數(shù)據(jù)資源進行脫敏處理,從而保護數(shù)據(jù)中的隱私不被泄露。

      大數(shù)據(jù)資源池模塊、數(shù)據(jù)分析服務模塊和協(xié)同模塊是交易平臺的三大核心模塊,是數(shù)據(jù)與服務兩者融合并實現(xiàn)一體化交易的關鍵,本文接下來將對這三個核心模塊的功能進行詳細設計。

      4.3.1 大數(shù)據(jù)資源池模塊

      大數(shù)據(jù)資源池模塊主要包含三個方面的功能:數(shù)據(jù)資源格式的整理、數(shù)據(jù)的多維度整合、大數(shù)據(jù)資源的云存貯。具體如下。

      (1)數(shù)據(jù)資源格式的整理。由于大數(shù)據(jù)交易平臺上的數(shù)據(jù)資源來自不同的數(shù)據(jù)供應方,因此其數(shù)據(jù)資源的格式會有較大的差異。如果不經過格式整理就直接進行數(shù)據(jù)分析,很可能會因部分數(shù)據(jù)無法準確讀取,而影響數(shù)據(jù)處理的效率,嚴重者還會導致數(shù)據(jù)分析中斷。數(shù)據(jù)資源格式整理的主要任務是將同一類型數(shù)據(jù)的格式進行統(tǒng)一,對部分缺失的數(shù)據(jù)屬性進行補充,對錯誤的數(shù)據(jù)格式進行修正。

      (2)數(shù)據(jù)的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數(shù)據(jù)供應方無法提供高價值的多維數(shù)據(jù)。所謂多維數(shù)據(jù)是包含用戶或者行業(yè)多個背景和情境的大數(shù)據(jù)資源,這些多維數(shù)據(jù)使用戶或行業(yè)多個側面的信息產生了關聯(lián),有利于發(fā)現(xiàn)深層次的潛在規(guī)律。融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺應該作為數(shù)據(jù)整合的主體,將單個數(shù)據(jù)供應方提供的零散的數(shù)據(jù)資源,進行多維度的整合,當缺少某一個維度的數(shù)據(jù)時,再向相應的數(shù)據(jù)供應方進行定向的采集,最后得到相對完整的多維數(shù)據(jù),具有很高的分析價值。

      (3)大數(shù)據(jù)資源的云存貯。大數(shù)據(jù)資源經過格式整理和多維度整合以后,已經可以作為數(shù)據(jù)分析服務的信息源。下一步就是將這些數(shù)據(jù)資源進行統(tǒng)一的云存貯,以便數(shù)據(jù)分析服務調用。以往部分大數(shù)據(jù)資源由于體量巨大或實時更新的需要,無法上傳到交易平臺上,或者只提供部分調用接口。融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺通過建立云存貯中心,將整合后的多維數(shù)據(jù)進行統(tǒng)一存放和調用,有助于提高數(shù)據(jù)資源的存取效率。

      4.3.2 數(shù)據(jù)分析服務模塊

      數(shù)據(jù)分析服務模塊首先根據(jù)數(shù)據(jù)需求方的應用方向,匹配出合適的多維數(shù)據(jù)資源,再選擇相應的數(shù)據(jù)分析模型分配所需的計算能力,最后將得到的分析結果反饋給需求方。本文將數(shù)據(jù)分析服務劃分為三個大類:基礎性分析服務、高級分析服務、深度定制的分析服務。具體如下。

      (1)基礎性分析服務。基礎性分析服務是指那些常規(guī)的數(shù)據(jù)統(tǒng)計,比如:總體中不同對象的占比分析,基于不同屬性的關聯(lián)分析或相關性分析等。這些分析服務耗時較短,分析技術較為簡單,只要數(shù)據(jù)資源本身完備,就可以迅速得到結果。基礎性分析服務由大數(shù)據(jù)交易平臺本身來提供,可以面對不同的需求方,實現(xiàn)快速交付。

      (2)高級分析服務。高級分析服務是指那些較為復雜的數(shù)據(jù)分析服務,比如:精準的趨勢預測、全面的用戶興趣畫像、非結構化的信息挖掘等。這些分析服務需要大量專業(yè)的數(shù)據(jù)處理技術,比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數(shù)據(jù)交易平臺對接第三方的數(shù)據(jù)分析服務商,由它們來提供高級分析服務。大數(shù)據(jù)交易平臺在同一數(shù)據(jù)分析領域,應引入多家數(shù)據(jù)分析服務商,通過動態(tài)的競爭,來保證服務的質量。

      (3)深度定制的分析服務。大數(shù)據(jù)分析目前還處在快速發(fā)展階段,很多前瞻性的技術還在試驗當中,應該說數(shù)據(jù)分析技術的發(fā)展相對于旺盛的現(xiàn)實需求來說是滯后的。當需要用的某一數(shù)據(jù)分析技術,在目前的市場上還找不到現(xiàn)成的提供方時,就需要大數(shù)據(jù)交易平臺為其進行深度的定制,交易平臺通過多方位的研發(fā)能力評估,尋找合適的技術主體來進行專門的技術攻關。

      4.3.3 協(xié)同模塊

      協(xié)同模塊主要包含兩個方面的功能:數(shù)據(jù)分析服務之間的技術協(xié)同、交易各方的管理協(xié)同。具體如下。

      (1)數(shù)據(jù)分析服務之間的技術協(xié)同。在面臨較為復雜的數(shù)據(jù)分析任務時,可能需要用到多個領域的數(shù)據(jù)分析技術,這時單個的數(shù)據(jù)分析服務商可能無法獨立完成。因為不同的行業(yè)領域,都有其行業(yè)技術的獨特性,需要長時間的專業(yè)積累。在這種情況下,就需要多個數(shù)據(jù)分析服務商相互合作才能完成。數(shù)據(jù)分析服務之間的技術協(xié)同,就是通過一定的技術標準和操作規(guī)范,讓多個數(shù)據(jù)分析技術提供方,能夠在完成同一任務時,在技術上不沖突,能夠相互并行的完成對數(shù)據(jù)資源的處理,按時按質的交付最終的分析結果。

      (2)交易各方的管理協(xié)同。在融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺上,交易的參與者一共有四類,分別是數(shù)據(jù)資源的供應方、數(shù)據(jù)分析服務商、需求方和交易平臺自身。數(shù)據(jù)需求方在提交自己的應用方向和預期結果的同時,提交自己的交易預算。交易平臺根據(jù)需求方提交的應用方向和預期結果,對數(shù)據(jù)資源和數(shù)據(jù)分析服務進行反向的選擇。如果數(shù)據(jù)分析任務中只用到了基礎性分析服務,則整個交易為平臺方、需求方、數(shù)據(jù)資源供應方的三方交易。如果某數(shù)據(jù)分析任務,平臺自身無法完成,需要用到第三方的數(shù)據(jù)分析服務商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實現(xiàn)參與各方的利益共享。交易各方的具體利益分配如圖3所示。

      圖3 交易各方的利益分配

      需求方希望在獲得預期結果的同時,其支付的成本在可接受的范圍內。交易平臺在對數(shù)據(jù)和服務進行反向匹配后,會出現(xiàn)兩種不同的情況:第一種情況是在原交易預算下,可以達到需求方預期的結果,則可成交。第二種情況是,原交易預算較低,在該預算下無法達到需求方要求的結果,這時交易平臺會和需求方溝通,提出新的報價,需求方經過考慮后,與平臺進行討價還價,它們在價格上達成一致時才能完成交易。由于交易數(shù)據(jù)是整合后的多維數(shù)據(jù),因此原始數(shù)據(jù)資源供應方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數(shù)支付。同一數(shù)據(jù)資源對于不同的需求者來說,其價值是不一樣的,融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺根據(jù)最終的一體化交易成交價,反向對數(shù)據(jù)資源進行定價,相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,是一種進步。交易平臺的深度參與,會使數(shù)據(jù)交易的頻率加快,原始數(shù)據(jù)資源供應方會獲得更多的收益。數(shù)據(jù)分析服務商根據(jù)具體的數(shù)據(jù)分析任務,直接參與由平臺發(fā)起的競價,達成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。

      5.融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺的優(yōu)勢

      本文3.1到3.3中指出現(xiàn)有大數(shù)據(jù)交易平臺存在數(shù)據(jù)供需錯配、大數(shù)據(jù)資源定價困難、數(shù)據(jù)的時效性不強三大不足。融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺作為改進后的第二代大數(shù)據(jù)交易平臺,可以很好地克服上述三點不足。除了這三個方面的優(yōu)勢以外,由于融合后可實現(xiàn)數(shù)據(jù)與服務的一體化交易,這將擴大交易對象的覆蓋范圍,提升交易的活力,具體如下。

      5.1 直接面向應用,從根本上避免了數(shù)據(jù)供需的錯配

      在融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺上,需求方對交易平臺直接提出應用方向和預期結果。交易平臺對全平臺的數(shù)據(jù)進行多維度整合,如果缺失某個維度的數(shù)據(jù),可以進行定向的采集和補充,最后形成高價值的多維數(shù)據(jù)。這些多維數(shù)據(jù)才是真正具有分析價值的數(shù)據(jù)資源,這是單個數(shù)據(jù)供應方無法提供的。在得到多維數(shù)據(jù)后,結合平臺自身和第三方數(shù)據(jù)服務商的分析能力,得到最終的分析結果。交易平臺最后交付給需求方的是數(shù)據(jù)分析結果和基礎數(shù)據(jù),這種直接面向最終應用的大數(shù)據(jù)交易方式,從根本上避免了數(shù)據(jù)供需的錯配。

      5.2 融合后定價更有根據(jù)

      在現(xiàn)有的大數(shù)據(jù)平臺上,數(shù)據(jù)需求方是將數(shù)據(jù)資源買回去以后自己分析,而在購買數(shù)據(jù)資源之前,不能預知數(shù)據(jù)分析效果的好壞,因此無法進行有效的價值判斷,這是定價困難的關鍵點。在融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺上,需求方不再直接對數(shù)據(jù)資源付費,而是對最終的數(shù)據(jù)分析結果付費,并且數(shù)據(jù)分析結果是根據(jù)需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預期結果對自身的重要性或收益的改進程度,給出適當?shù)慕灰最A算。交易平臺以該預算為參照,對數(shù)據(jù)和服務進行選擇,若出現(xiàn)原預算約束下無法實現(xiàn)預期結果的情況,交易平臺再與需求方進行溝通,雙方討價還價后達成交易。這樣相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,融合后定價更有依據(jù)。

      5.3 融合后可提供實時數(shù)據(jù)

      在融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺上,數(shù)據(jù)資源采用云存貯的模式,由平臺進行統(tǒng)一管理,這提高了數(shù)據(jù)資源的安全性。在數(shù)據(jù)安全有保障的前提下,由交易平臺出面和數(shù)據(jù)資源供應方進行實時數(shù)據(jù)的對接,將實時數(shù)據(jù)納入大數(shù)據(jù)資源池中。對于單個的數(shù)據(jù)資源供應方來說,實時的數(shù)據(jù)脫敏難度太大。但大數(shù)據(jù)交易平臺不一樣,它可以利用規(guī)模優(yōu)勢,組建強大的計算能力,對大數(shù)據(jù)資源進行實時的脫敏和清洗,極大地提高了數(shù)據(jù)資源的時效性。

      5.4 融合后將擴大交易對象的覆蓋范圍,提升交易的活力

      融合后可實現(xiàn)數(shù)據(jù)和服務的一體化交易,讓很多自身不具備數(shù)據(jù)分析能力的組織和個人,也能方便地利用大數(shù)據(jù),特別是大量的中小企業(yè),這將大大增加交易對象的覆蓋范圍。

      交易對象的增多會促進交易頻率的增長,從而為數(shù)據(jù)資源供應方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應更多的數(shù)據(jù)資源,從而提升交易的活力,整個大數(shù)據(jù)交易行業(yè)就形成了正向循環(huán)的良好發(fā)展態(tài)勢。

      6結語

      本文對大數(shù)據(jù)交易平臺本身進行了改進與創(chuàng)新,設計了一種全新的第二代大數(shù)據(jù)交易平臺,即:融合數(shù)據(jù)分析服務的大數(shù)據(jù)交易平臺。該交易平臺可以直接面向需求方的應用方向,實現(xiàn)數(shù)據(jù)和服務的一體化交易,不僅從根本上避免了數(shù)據(jù)供需的錯配,還使大數(shù)據(jù)交易的定價更有依據(jù),平臺的深度參也讓提供實時數(shù)據(jù)成為可能,這些將從整體上提升大數(shù)據(jù)交易的效率。融合后數(shù)據(jù)和服務的一體化交易降低了大數(shù)據(jù)應用的技術門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續(xù)關注大數(shù)據(jù)交易平臺的創(chuàng)新研究,為實際應用和學術科研提供更多有益的參考。

      參考文獻

      [1]趙強,單煒.大數(shù)據(jù)政府創(chuàng)新:基于數(shù)據(jù)流的公共價值創(chuàng)造[J].中國科技論壇,2014(12):23-27.

      [2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014.

      [3]李文蓮,夏健明.基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J].中國工業(yè)經濟,2013(5):83-95.

      [4]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機會研究[J].科技進步與對策,2014,31(24):82-86.

      [5]張峰,張迪.論大數(shù)據(jù)時代科研方法新特征及其影響[J].科學學研究,2016,34(2):166-170,202.

      [6]王玉林,高富平.大數(shù)據(jù)的財產屬性研究[J]。圖書與情報,2016(1):29-35,43.

      [7]齊愛民,盤佳.數(shù)據(jù)權、數(shù)據(jù)主權的確立與大數(shù)據(jù)保護的基本原則[J].蘇州大學學報:哲學社會科學版,2015(1):64-70.

      [8]劉朝陽.大數(shù)據(jù)定價問題分析[J].圖書情報知識,2016(1):57-64.

      [9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數(shù)據(jù)交易價格研究[J].中國冶金教育,2015(6):86-91.

      [10]翟麗麗,王佳妮,何曉燕.移動云計算聯(lián)盟企業(yè)數(shù)據(jù)資產評估方法研究[J].價格理論與實踐,2016(2):153-156.

      [11]史宇航.個人數(shù)據(jù)交易的法律規(guī)制[J].情報理論與實踐,2016,39(5):34-39.

      [12]殷建立,王忠.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)溯源管理體系研究[J].情報科學,2016,34(2):139-143.

      [13]王忠.大數(shù)據(jù)時代個人數(shù)據(jù)交易許可機制研究[J].理論月刊,2015(6):131-135.

      [14]楊琪,龔南寧 .我國大數(shù)據(jù)交易的主要問題及建議[J].大數(shù)據(jù),2015(2):38-48.

      第3篇

      系統(tǒng)主要實現(xiàn)軟件的模塊話設計,包括反射率數(shù)據(jù)分析模塊、速度分析模塊、天線運行穩(wěn)定性分析模塊以及雷達組網數(shù)據(jù)分析模塊。

      1.1反射率分析模塊

      反射率的大小體現(xiàn)了氣象目標的降水粒子的密度分布及體積大小,在實際氣象技術中長期用于表示氣象目標的強度,在工作上采用dBZ單位表示。對于空管氣象雷達圖,數(shù)據(jù)顯示采用PPI(PlanPositionImage)顯示方式。該方式決定了一張氣象雷達圖由圓錐俯視平面上分析空間的回波構成。在設計上簡單介紹其設計流程,首先必須讀取原始數(shù)據(jù),并判斷是否首次讀取,若為首次讀取則對其進行預處理,否則進行坐標轉換;其次進行圖像繪制并判斷是否需要改變仰角。此處需要關注的關鍵是如何進行數(shù)據(jù)的預處理。在實現(xiàn)上,對接收的數(shù)據(jù)進行反射率信息結構體賦值。當然該結構體包括了記錄實際仰角角度、數(shù)據(jù)文件路徑存儲、雷達波段判斷以及相關數(shù)據(jù)的偏移。通過掃描上述結構體可以實現(xiàn)對雷達數(shù)據(jù)的預處理。

      1.2速度分析模塊

      多普勒雷達采用了速度退化模糊技術以擴大其對徑向風速測量不模糊的區(qū)間。結構設計主要考慮數(shù)據(jù)顯示的徑向方式,流程設計則與反射模塊類似。當然在界面設計上,系統(tǒng)將提供對顏色配置的定義,使其人機交互更為快捷。

      1.3天線穩(wěn)定性分析模塊

      天線是雷達數(shù)據(jù)采集的關鍵部位,長期以來是影響雷達運行的主要關鍵點之一。其依賴于底下的電機進行旋轉,目前大多數(shù)進口電機可以保證24小時安全運行。而運行時仰角提升和轉速的平穩(wěn)性直接影響雷達數(shù)據(jù)的采集。為此,我們通過在徑向數(shù)據(jù)上采用方位角及仰角進行掃描實現(xiàn)曲線圖監(jiān)控。通過選擇基數(shù)據(jù)再進行預處理后繪制相關曲線實現(xiàn)對天線運行狀態(tài)的評估。其中,曲線圖的繪制需要的參數(shù)為:縱坐標為氣象雷達實際運行的每層仰角均值;橫坐標為范圍角:0-360°。

      1.4雷達組網分析模塊

      按照民航局的總體規(guī)劃,未來空管將實現(xiàn)多氣象雷達覆蓋,在這過程,多個氣象雷達的組網將成為氣象雷達數(shù)據(jù)的主要來源。這種模式將使得數(shù)據(jù)覆蓋面更大、數(shù)據(jù)安全性更高、數(shù)據(jù)準確性更強。而與此同時帶來了雷達數(shù)據(jù)融合組網的技術難點。設計上,首先模塊將定義雷達站點配置信息,并與此同時提供組網雷達可選數(shù)據(jù);其次對選擇雷達數(shù)據(jù)進行數(shù)據(jù)預處理;再之則對雷達數(shù)據(jù)進行統(tǒng)計平均并做坐標轉換;最后進行拼圖處理。在這過程中,需要對雷達數(shù)據(jù)的強度進行自適應調整、顯示范圍自適應調整。與上述同理,系統(tǒng)核心在于預處理。在C#中定義List數(shù)據(jù)列表,并在定義其結構為[站點標示][距離][方位角],對于數(shù)據(jù)讀取時,需要進行插值算法處理,此時的單時數(shù)據(jù)拼接分析可以實現(xiàn)不同仰角和方位角的篩選。為了控制系統(tǒng)數(shù)據(jù)的準確性可以在前端定義雷達數(shù)據(jù)方位角表,根據(jù)表進行映射處理。通常如若出現(xiàn)非連續(xù)數(shù)據(jù)可以在預處理上對其進行差值補償。在C#上可以采用反差圓補償方法。

      2.結束語

      主站蜘蛛池模板: 邻居的又大又硬又粗好爽| 天天色天天干天天射| 欧美日韩福利视频一区二区三区| 91九色精品国产免费| free性熟女妓女tube| 久久久亚洲欧洲日产国码aⅴ| 亚洲成人黄色在线| 你是我的女人中文字幕高清 | 久久亚洲色一区二区三区| 亚洲国产综合网| 亚洲色成人www永久网站| 刚下班坐公交车被高c怎么办| 国产成人一区二区三区| 国产精品无码免费专区午夜| 天使a中文在线观看| 尹人香蕉久久99天天拍久女久| 日本一区免费观看| 日韩国产精品欧美一区二区| 欧美亚洲国产精品久久高清| 毛片手机在线观看| 波多野结衣教师在线| 狠色狠色狠狠色综合久久| 精品久久久久久无码专区不卡| 精品无码一区在线观看| 老师在办公室被躁在线观看| 被cao的合不拢腿的皇后| 色综合天天色综合| 老子午夜精品无码| 精品不卡一区中文字幕| 白嫩少妇激情无码| 欧美高清性色生活片免费观看| 精品视频无码一区二区三区| 深爱婷婷激情网| 日本三级网站在线观看| 黑人粗大猛烈进出高潮视频| 黑人一级大毛片| 老司机午夜免费福利视频| 美女**毛片一级视频| 狼友av永久网站免费观看| 正在播放露脸一区| 欧洲美熟女乱又伦av影片|