本站小編為你精心準備了談大數據的圖書館借閱狀況分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:以上海浦東圖書館的自動借還書系統中的借閱記錄和讀者信息為基礎數據來源,闡述數據挖掘技術中的關聯規則算法,分析讀者的行為模式,從而提升圖書館的服務能力。
關鍵詞:數據挖掘,關聯規則算法,行為模式。
0引言
數據挖掘作為一種深層次的數據分析方法,可以從大量的數據中挖掘出反映用戶屬性特征和信息行為特征的信息和規則,從而為圖書館用戶資源管理提供極大的幫助。通過關聯規則算法,對這些大數據情況進行分析和研究,從而透過表面的雜亂數據,獲得讀者信息屬性間的關聯情況,可以制定出更合適該圖書館的借閱服務。
1研究背景
面對大數據背景下,讀者借閱情況的數據,如何從中觀察和預測讀者的借閱習慣,以便進一步了解讀者的需求,從而進一步完善智慧化的讀者借閱服務?包括哪些省份的讀者是主要讀者群體,這些群體又對應需要哪些書籍;讀者的年齡分布如何,他們與讀者來自哪些省份是否有關聯;讀者群體性別比例情況如何,不同性別是否對書籍的需求有不同;同性別不同省份的讀者需求是否相同;針對不良借閱行為,讀者群體的不良借閱行為是否比例很高,又與省份是否有密切關聯等。這些都值得我們去研究分析,但是,面對豐富的數據,如何著手,通過數據挖掘的關聯規則算法,可以有效解決以上問題。本文將討論基于關聯算法的讀者行為分析,從而分析讀者借閱歷史記錄中各屬性情況,及各屬性間的相互關聯情況。實驗研究結果將應用在圖書館服務的決策制定中。
2國內外研究狀況
圖書館的讀者行為方面的研究,有許多學者已發表了許多文章。有從圖書館情報方面去研究的,包括從圖書館提供服務與讀者行為的關系角度分析的;問卷調查的方式調查分析的,由于數據來源是問卷調查,顯然不夠客觀準確反映讀者實際閱讀情況,調查內容涉及對資源的滿意度、對設施硬件的滿意度及服務態度的滿意度等;單單從不良借閱情況分析讀者行為的等。也有結合數據挖掘去分析研究的,包括以決策樹方法分析主要屬性結點情況,從而了解讀者借閱行為特點的;以聚類分析方法分析讀者群情況、書籍借閱情況等。當然也有和本文研究方式相同的算法關聯分析讀者行為情況的。本文的研究角度和研究內容有別于這些研究。研究書籍借閱間的關聯性,組織相似讀者群;或是針對圖書館借閱系統進行單純的算法設計和改良的研究等。RobinR.Sewell[1]和Cuddy,C[2].利用Twitter這個新型社交網絡工具來發現圖書館讀者行為特點并分析。Chan-Chine[3]運用數據挖掘方式,將讀者分類并研究出更科學合理的讀者服務內容,發現讀者更趨向新型的電子資源的內容形式。ScottNicholson[4]提出從書目探勘角度,討論如何建設書籍資料庫及具體步驟,即建立一個廣義的數字圖書館,從而更好地研究分析讀者借閱行為。KathleenHalverson提出了一種新的圖書館合作模式,及公立的圖書館與學校圖書館建立合作關系,從而解決資金和藏書量不夠等問題,更好地為讀者提供服務。
3基于關聯算法的讀者行為分析
讀者頻繁項集的構建。以關聯算法,掃描數據庫,生成候選1項集,并依次構造最小支持度為2的讀者頻繁項集,假定數據是下記,最小支持度為2的場合。依照上述方法掃描數據庫,依次生成候選1項集和頻繁1項集、候選2項集和最小支持度生成頻繁2項集以及候選3項集和最小支持度生成頻繁3項集……,依次推算,可以構建出讀者頻繁項集。結論分析。通過以上構建讀者頻繁項集的關聯算法分析方法,分析大數據后,獲得以下發現。(1)讀者群的基本情況:①主要讀者群體來自上海本地,其次為江蘇和安徽。②讀者相當一部分是青壯年。③除了上海讀者群年齡段分布顯著,其他省份讀者群則基本都是青壯年。④讀者群體集中在上海江蘇安徽三省。⑤上海和安徽是女性讀者多于男性讀者,其中上海男女比例0.6:1,安徽省男女比例0.9:1,江蘇省男女比例1.1:1。⑥系統規定借閱冊數上線為10冊,讀者更傾向借閱10冊或者1冊書籍。(2)正常借閱書籍的讀者群中,借閱書籍的類型與讀者來自的地域、性別和年齡段的關聯情況分析。①女性讀者顯著比男性讀者借閱更多的文學和語言類書籍,但是工業技術、經濟軍事、社會科學、藝術、政治法律類方面書籍,男性讀者則相對比女性讀者多一些,尤其是工業技術、經濟軍事類書籍顯著多于女性讀者。特別是軍事方面書籍,女性借閱量為0。②上海市的女性讀者借閱醫藥衛生類書籍占的比例相比各地域總體的情況,要明顯高出許多。而且,除了軍事工業數理化等男性感興趣的書籍,其他書類均是女性讀者占得比例高于男性讀者。無論是上海市女性讀者還是整體的女性讀者群體,其文學書籍借閱量很大,且都顯著大于男性讀者,其他方面基本持平。③上海市讀者群體,兒童讀者集中借閱文學類書籍,所占比例近四分之三;青壯年讀者借閱的類型較廣泛和均勻,其中文學類所占比例較大;中老年讀者更多閱覽文學書籍,老年讀者還對歷史地理書籍感興趣。④但是,從總體數據看來,青壯年讀者占主要讀者群體,且讀者借閱的書籍類型與性別關聯不大。(3)有不良借閱行為的讀者群與讀者來自的地域、性別和年齡段的關聯情況分析。不良借閱行為分為已歸還書籍但是欠逾期費未付和仍未歸還到期圖書兩類讀者群體。①產生不良借閱行為的情況下,隨著讀者所借閱的冊數減少,其產生不良借閱行為的人數則增加,且仍未歸還到期書籍的人數均要顯著多于已歸還書籍但未付逾期費的讀者人數。②三省欠逾期費冊數在5~8冊均為0,集中在1~3冊;三省仍未歸還圖書行為中,上海市讀者借9冊書仍未歸還的情況為0,浙江省和安徽省則集中在10冊和1冊。有不良借閱行為的借閱的書籍量多為1~5冊。③女性讀者的不良借閱行為較男性讀者更多。④上海市的讀者群,女性不良借閱行為所占比例明顯大于男性;而其他地域則基本與性別關系不大。④老年讀者沒有不良借閱行為。青壯年的不良借閱行為顯著高于其他人群。⑤青壯年和中年讀者群,女性的不良借閱行為要多于男性,而兒童則相反。(4)關于一名卡號為20707的忠實讀者,在2006~2013年的八年借閱書籍情況的統計與分析:①讀者自辦卡以來,年借閱量基本穩中有增,尤其是2010年的借閱量增長迅速,可能與圖書館搬新館有關。因此,圖書館的硬件環境對讀者的吸引力還是很大的,但隨后年借閱量又慢慢滑落,可能是新硬件的配置逐漸失去興趣,又或者是搬新館的地址與家的距離增大或者新館周邊交通不便引起的。②這八年讀者基本都會來圖書館借閱書籍,是忠實的讀者。
4結語
基于關聯算法的研究,可以得到圖書館讀者的基本情況包括省份、年齡段和性別分布,主要省份讀者的情況,書類與省份性別的關聯情況等。下一步可以從以下幾個方面進行改進和研究:(1)書籍分類的細化。中圖法的分類很細,如果進一步分析大類下的子類,對于讀者的閱讀興趣行為會有更豐富的研究結果。(2)獲取更多的讀者信息細節。由于圖書館借閱系統統計到的讀者信息的局限性,導致研究的關聯屬性還不夠豐富,目前該借閱系統將被更新,今后會有更多研究數據。(3)更多角度分析讀者行為。研究方法已經討論基于關聯規則,那么基于該方法的具體研究方面,可以拓展到讀者的星座、住址與圖書館的距離、職業、交通工具對讀者借閱行為的影響情況。
作者:陳佳欣 單位:上海浦東圖書館