<button id="6ymue"><menu id="6ymue"></menu></button>
    • <s id="6ymue"></s>
    • 美章網 資料文庫 數據挖掘課程中數據思維培養方法范文

      數據挖掘課程中數據思維培養方法范文

      本站小編為你精心準備了數據挖掘課程中數據思維培養方法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

      數據挖掘課程中數據思維培養方法

      摘要:依據數據思維的內容和本質,歸納在數據挖掘課程中訓練數據思維的主線,提出面向數據思維能力培養的理論教學、實踐教學內容和方式,并介紹相應的教學方案和措施,說明實踐教學效果。

      關鍵詞:數據思維;數據挖掘;實踐教學;教學改革

      引言

      隨著信息化和智能化在各行業的迅猛發展,近十幾年來數據的積累呈現出爆炸性加速增長的趨勢。如何有效地掌握這些數據、快速了解數據背后的真相是重大的經濟需求和社會需求。充分發掘這些數據隱藏的規律和知識,并對其開發,應用于經濟生產、行業管理和社會服務,不僅是各行各業亟待解決的重大科研開發問題,而且是長遠發展目標。在這樣的背景下,數據挖掘已經成為業界的熱點研究領域和熱門技術,數據挖掘課程也因而成為高校培養數據方面人才的重要課程。數據挖掘是典型的交叉學科,涉及眾多學科門類,包括計算機科學、統計學、數據庫和數據倉庫技術、并行計算和分布式計算、機器學習、人工智能等[1]。數據挖掘學科的主要特點是新穎性、覆蓋內容廣泛、交叉性、難度大[2]。數據挖掘及其相關技術將對社會各個領域產生深遠影響。目前,就業市場對數據人才的需求旺盛,數據人才的就業薪資普遍較高,但就業市場也對數據人才有諸多嚴格的要求,比如對數據挖掘原理和技術的理解和應用、對相關交叉學科的深入掌握、對領域知識的理解和運用等[3]。自然科學領域有公認的三大科學思維:理論思維、實驗思維和計算思維[3]。在此基礎上,各領域對數據人才的普遍要求是具備數據思維能力,概括起來,就是對數據的抽象概括、領域變換、合理利用和制作分析工具、具備數據計算思維等能力及綜合運用的能力。隨著大數據和人工智能日新月異的發展,近年來數據思維已經成為被廣泛倡導的一種科學素養和實踐方法論。目前,數據挖掘課程在高校中的受課主體是計算機、信息等專業方向的研究生,對本科生的數據挖掘課程教學安排較少。本科生的數據挖掘課程普遍存在諸多問題[4]。①課程定位不明確,和研究生的數據挖掘課程定位不區分;②理論課偏多,對解決實際問題能力的訓練不夠;③教學形式單一,教學內容復雜而抽象,不能引起學生的學習興趣,很多學生因為過程中出現重大挫折而放棄學習,對后續內容望而卻步。通過對比數據挖掘課程多年來在研究生和本科生中的授課情況,我們發現提升數據思維能力是讓學生增強數據處理方面的自信心、喜歡數據挖掘、理解數據挖掘并很好地應用數據挖掘技術解決實際問題的關鍵。我們還意識到人才的培養首先體現在思維的培養上。

      1數據思維面面觀

      美國管理學家、統計學家愛德華•戴明說過一句話,成為美國社會的一句常用諺語,“除了上帝,每個人都必須用數據說話”,由此可見數據對于我們日常生活、經濟生產社會發展的重要程度。要重視數據,用事實說話,依靠理性思維,但由于歷史的、文化的和科技的原因,我國對數據科學的重視時間較晚,重視程度較低,習慣于定性而不定量,習慣于直覺思維而不是推理思維。這也阻礙了數據科學的發展,大部分人不具備數據思維的能力。即使是數據人才,也缺乏系統的數據思維訓練。眾所周知,機械思維帶來了工業革命。近年來,數據思維則引爆智能革命[5]2-3。歸納起來,數據思維包括數據的抽象和概括思維、數據的領域變換思維、使用和制造數據分析工具的思維、數據的計算思維、數據即知識的信念思維等。

      1.1數據的抽象和概括思維

      在數據挖掘和機器學習的教學過程中,教師和學生都特別推崇“小數據講大故事”,也就是在小的數據集上了解用戶的需求,弄清楚問題的性質,對小數據進行實驗和驗證,然后再把這些方式方法應用到大數據集中。但是,最終目的是“大數據講大故事”,也就是讓數據的整體支撐我們的邏輯、分析和驗證,支撐我們的最終應用。小數據和大數據之間是有顯著差別的。首先,很多情況下小數據的性質與大數據的性質并不一致,這主要體現在它們之間并不是“獨立同分布的”;其次,小數據和大數據的處理手段一般來說并不相同。事實上,正是因為它們處理手段的不同,才引發了大數據技術革命;最后,小數據無法提供個性化的服務。通過小數據有可能掌握基本趨勢和規律,但如果在實踐中應用,則個性化處理能力不強,甚至完全不能提供個性化處理和服務。然而,真實場景中大數據的數量級一般都是幾百MB、幾個GB、甚至達到TB級別,很多學生對這些數據的反應先是望而生畏,然后是望而卻步。針對這個學和教的難題,我們提出了數據概括和抽象思維的方法。也就是說,不管數據有多大,只要掌握了我們的方式方法,就能夠從整體上理解數據、把握數據,不再對數據有畏懼心理。后文中我們將從基于密度的抽樣、層次化聚類等技術手段入手,講解如何讓學生形成數據概括和抽象的思維及能力。

      1.2數據的領域變換思維

      離開了應用領域,大數據及數據挖掘就沒有任何生命力。統計學和數據挖掘都可以分為兩個層面:“道”和“術”[5]19-25。其中的“道”指的是如何在領域中定義一個數據分析的問題,以及如何把分析結果應用到領域,創造價值;而“術”指的是分析的手段,也就是我們通常所說的“挖掘”技術。在數據挖掘課程教學過程中我們發現,大部分學生熱衷于“術”的學習和研究,而對于“道”并不關心,這與文獻[5]19-25的發現和總結非常類似。為此,需要培養學生迅速發現領域需求和通過數據挖掘技術真正解決領域需求的能力。這樣才能真正掌握數據挖掘之“道”。針對領域變換思維,我們在后文中提出應對措施和教學方法,包括積累領域共性需求、領域需求類比等方式。

      1.3使用和制造數據分析工具的思維

      對于海量數據、大數據,肉眼觀察已經無法滿足理解數據、掌握數據、分析數據、發現數據中的規律,并應用數據規律解決實際問題的業務脈絡,必須借助于分析和展現工具軟件,需要具備合理利用工具的思維方式和能力,但是從當前的教學狀況看,學生容易走入兩個極端。第一個極端情況就是所有的分析挖掘工作全部借助于已有的軟件包,如果沒有合適的軟件包,或者軟件包如果不具備相應的功能,則分析工作沒法繼續進行。另一個極端就是學生并不想去學習各種軟件工具,對軟件包不過問、不應用,所有的分析挖掘工作全部使用通用的編程語言實現。其實,這兩個極端情況都不利于數據挖掘工作的順利開展,也不利于真實應用需求的有效解決。為此,我們在后文提出使用數據分析工具和制作數據分析工具相結合的思維方式和操作方法,使學生數據分析的效率和效能綜合最大化。

      1.4數據的計算思維

      所有的數據挖掘問題最終要落實到一個計算問題。大數據量場景下,對計算的效率要求越來越高。這導致在小數據量場景下完美運行的許多挖掘過程在大數據量場景下不具有可行性。另一方面,由于從一開始要考慮到數據量的大小,為了使挖掘過程對數據具有可擴展性,相當一部分學生把注意力和精力放在對數據量的考慮和處理上。這兩方面都會嚴重制約數據挖掘過程的順利實施和有效應用。為此,我們試圖在教學中強化數據的計算思維理念,也就是人力和算力的平衡思維理念,在后文中將詳述訓練策略、內容和具體手段。

      1.5數據即知識的思維

      在大數據時代背景下,如果具備強大完善的挖掘算法和挖掘手段,“數據即知識”,這是一個完美的目標,也是一種思維理念。只有擁有這樣的思維方式,才敢于積極地對海量數據進行挖掘處理,并樂觀應對問題定義和結果以解釋應用等一系列的難題。在后文中,我們將介紹如何向學生講授這一思維方式的理論支撐,以及如何訓練學生把這一理念運用到領域問題中。

      2教學改革措施

      2.1培養掌握數據摘要的直覺和技術手段

      如前文所述,目前所有的實際領域應用中的數據分析挖掘對象都至少是幾百兆字節的數據集,數據記錄總數一般是百萬條起步。學生碰到這樣的數據集后會感到無從下手,而學習其中的基本結構和掌握基本的統計信息需要花費相當長的時間,甚至超過了一次實驗課的總時間。為此,我們提出了一個完整的流程,并把這個流程腳本化和軟件化,通過這個流程的操作,就可以形成對數據的直覺,基本掌握數據特征及數據間的關系。首先,形成各式各樣的數據摘要,包括記錄條數、均值、最大值、最小值、所有離散取值可能、方差、分位數、異常值等;其次,利用多種隨機采樣手段,形成小數據,使得數據盡量與原數據獨立同分布,易于理解原數據;第三,把感興趣的字段重點關注,生成關于這些字段的數據的報告;第四,生成重要的感興趣的字段之間的關系,并以圖示的方式展現出來,產生關于它們之間關系的直覺;最后,也是最重要的步驟,就是把數據用層次化聚類的手段做出概括和摘要。該方法是我們的教師和學生自主研發的工具之一,能夠把任意龐大復雜的數據集匯總為20至50條有意義的摘要信息,這對理解和把握數據整體有著很大的幫助。對每一個案例訓練,我們都按照上述的流程進行,這使得學生掌握數據集的時間大大縮短。生成的摘要與領域知識密切相關,也是領域變換思維的具體體現。

      2.2培養數據挖掘與領域相結合的能力

      如果數據挖掘實施人員既是數據人才又兼為領域專家,那將是最完美的。但是,大多數情況下,數據人才僅對數據挖掘的技術熟悉,對存在需求的領域不了解,或一知半解,或經過很長時間的學習才能夠了解;然而領域專家又很難在短時間內掌握數據挖掘的相關技術。這是阻礙數據挖掘技術應用于各領域中的最主要障礙。解決這個矛盾的主要途徑,就是讓數據人才與領域人才進行高效地溝通,在較短的時間內弄清楚:領域真正需求在哪里?其核心訴求是提高收入、縮減成本還是降低風險?還是兼而有之?領域業務能夠提供哪些可自動獲取的數據(而非純人工錄入的數據)?數據挖掘在眾多領域應用中普遍存在的一個問題是:領域內的業務人員并不明確自己需要的是什么。為了讓學生快速掌握領域溝通技能和技巧,我們分類別、分層次設置了與領域專家溝通的問題,并制成表格。如果領域專家能夠完整回答這些問題,那么學生對業務需求和業務數據結構會有比較完整的理解和把握。反過來,領域專家通過回答這些問題,也會梳理領域需求,梳理所擁有的數據及其邏輯、拓撲關系。這也能讓領域專家逐漸明白,“數據即知識”。對所有的實驗案例,都要求學生按照這樣的表格分角色完成溝通。雖然部分學生對業務更了解,但也都嚴格按照要求完成問題列表表格。

      2.3培養拿來主義和自力更生相結合的能力

      隨著數據挖掘社區的急速發展,各式軟件和軟件包層出不窮。這些軟件或軟件包有純粹商業的、純粹開源的、混合型的。這些軟件構件中,有的可以拿來即用,有的需要二次開發。正如前文所述,對于使用這些軟件或軟件包,學生容易走入兩個極端。一個極端是:對這些龐大復雜的軟件包無法掌握,無從下手開始,干脆棄之不用;而另一個極端是過分依賴于既有軟件,離開了成熟的軟件則寸步難行。其實這兩個極端都不是成熟合理的數據挖掘解決方式。為此,在教學過程中提倡拿來主義和自力更生相結合的解決模式。首先,讓學生了解市面上最常用和最有用的數據挖掘軟件,關注其中重要的軟件包和軟件構件,例如Python的SK-learn包和Weka中Apriori算法、ID3算法、C4.5算法等;其次,學會用腳本語言串聯和組合這些算法,做到從單一功能設計到復雜功能設計的二次開發;第三,用自己熟悉的語言復現軟件包中的常見的算法;最后,對于那些不能用成熟軟件包實現的功能,要運用Java、C++等語言編寫自己的應用。

      3教學效果

      數據挖掘課程曾經是北京林業大學研究生計算機相關專業的專業必修課,也是本科生的專業選修課,從2018年春季開始,成為計算機創新實驗班的專業必修課,3學分,共48學時。我們的教學改革措施主要在計創班中踐行。與以往教學不同,實驗不再使用小規模數據和模擬數據,全部使用真實案例中的大數據。第一個案例是學校提供的一卡通消費數據,超過1000萬條記錄。學生預先接受了概括和抽象大數據的策略和流程訓練,在這個案例中順利應用,大部分同學在20分鐘內從整體上掌握了數據,為后續挖掘工作打下了良好的基礎。第二個案例是北京市老齡委提供的老年卡消費數據,超過300萬條記錄,通過填寫問卷,向以往有此項目經驗的研究生詢問,也在一堂課時間之內了解了相關的業務流程、數據結構和數據特點。為了讓學生不過分依賴于軟件平臺和軟件包,實驗課的最后一個任務就是獨立實現一個數據挖掘的構件,該構件能夠生成任意龐大數據集的有意義的摘要,以便用于將來的數據抽象和摘要生成。該構件是教師的在研課題,其功能尚未出現在軟件包中,也沒有出現在文獻中。這給計創班的同學們提出了極大的挑戰,但是大部分學生在規定的時段內獨立出色地完成了該功能,這不僅讓學生對以后數據分析挖掘工作增加了軟件儲備,也讓他們切身體會到了拿來主義和自力更生相結合的數據挖掘理念的意義和必要性。總之,通過數據思維的訓練和相應流程的執行,數據挖掘課程的學生雖然付出了課程學時之外的很多努力,但能夠在一學期內迅速掌握數據挖掘的精髓,并能獨立處理一些真實復雜的案例,說明數據思維理念的培養是有益的教學改革措施。

      4結語

      在大力發展新工科的時代背景下,提升學生的數據思維能力是對傳統的理論思維、實驗思維和計算思維培養的延續,也是適應數據人才市場的教育選擇,我們也在這方面提出并實踐了針對性的教育改革措施,但是數據挖掘領域的發展速度遠遠超過預期,我們也會依據基本的數據思維理念,擴展相關內容,優化培養流程,更好地為社會培養優秀的數據人才。

      參考文獻:

      [1]陳晶,呂佳.高校數據挖掘課程教學模式探究[J].電腦知識與技術,2018(1):179-182.

      [2]王洪,洪鈴.大數據背景下“數據挖掘理論”課程教學思考[J].現代商貿工業,2018(20):142-144.

      [3]司明,厙向陽,李占利,等.突出計算思維訓練的數據結構教學實踐[J].實驗室研究與探索,2018(5):195-201.

      [4]廖旺宇.貫穿式案例教學法在數據挖掘課程中的應用[J].教育天地,2018(3):209-210.

      [5]王漢書.數據思維:從數據分析到商業價值[M].北京:中國人民大學出版社,2017.

      作者:王建新 單位:北京林業大學

      主站蜘蛛池模板: 穆天阳吃饭还在顶是哪一章节| 中文字幕第一页在线视频| 97久久天天综合色天天综合色hd| 精品xxxxxbbbb欧美中文| 成人做受120秒试看动态图| 国产99久久久久久免费看| 久久久久久曰本av免费免费| 香蕉精品视频在线观看| 日韩一级欧美一级在线观看| 国产愉拍精品视频手机| 国产免费一区二区三区VR| 乱系列中文字幕在线视频| 国产成人在线网址| 日韩精品一卡二卡三卡四卡2021| 国产日韩精品一区二区在线观看播放 | 极端deepthroatvideo肠交| 国产精品亚洲精品日韩已满| 亚洲免费人成在线视频观看| www.人人干| 日韩精品免费视频| 国产女主播喷水视频在线观看| 久久夜色精品国产噜噜麻豆 | 天天在线天天综合网色| 人人做人人爽人人爱| 91麻豆国产级在线| 欧美成人a人片| 国产欧美日韩精品高清二区综合区| 五月丁六月停停| 蜜芽亚洲av无码精品色午夜| 成人网站在线进入爽爽爽| 动漫乱理伦片在线观看 | 99精品在线免费观看| 青娱乐精品视频| 手机在线观看视频你懂的| 国产精品2018| 久久精品一区二区三区中文字幕 | 三男三女换着曰| 男女一边摸一边做爽视频| 国内精品伊人久久久久妇| 亚洲aⅴ男人的天堂在线观看| 高潮内射免费看片|