本站小編為你精心準備了葡萄酒品種判別研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《光譜學與光譜分析雜志》2016年第S1期
摘要:
將多種單分類器模型融合,并用融合后的模型對不同品種干紅葡萄酒進行判別分析。用BRUKERMPA傅里葉變換型近紅外光譜儀采集170個干紅葡萄酒樣品的近紅外透射光譜,選取PLS-DA,SVM,Fisher和AdaBoost作為單分類器建模方法,分別建立葡萄酒品種判別模型,通過差異性度量值對單分類器進行篩選,得到差異性較大的四個單分類器作為基分類器,其中基分類器對測試集葡萄酒品種判別準確率最高為88.24%,最低為81.18%。然后通過加權投票機制對基分類器進行融合,融合后的模型對測試集葡萄酒品種判別準確率提高至92.94%,誤判樣品個數由單分類器最少的9個降為6個。實驗結果表明多分類器融合所建立的模型優于傳統近紅外光譜定性分析一般采用單分類器模型結果,提高了葡萄酒品種判別的準確性,采用基于近紅外光譜的多分類融合方法對葡萄酒種類判定具有可行性。
關鍵詞:
葡萄酒;多分類器融合;差異性度量;近紅外
引言
干紅葡萄酒標簽上的品種信息,如赤霞珠、美樂等,指的是用于釀酒的葡萄的品種信息。釀酒葡萄的品種對干紅葡萄酒的風格和質量起著非常重要的作用。不同品種的釀酒葡萄其色澤、形態及所含成分不同,而葡萄的顏色、皮的厚度及酸、糖、多酚類等物質的含量直接影響著酒的色、香、味,因此不同品種的葡萄釀制出的葡萄酒品質不同。對不同品種葡萄酒的鑒別主要有感官評價和理化分析的方法。感官評價是鑒別葡萄酒質量的有效方法,一般是通過品酒師的目測、鼻嗅、口嘗等對葡萄酒做出評價和檢驗[1],因此對品酒師的經驗有一定的依賴性。理化分析的方法可以反應出葡萄酒中的某些化學成分,但這些成分的有無或含量多少與葡萄酒質量間的對應關系較難確立。感官評價和大部分理化分析的方法都難以實現大批量樣品的快速鑒別。因此,實現不同品種葡萄酒的快速鑒別具有一定的理論意義和實用價值。光譜法,特別是近紅外光譜法是一種比較理想的能夠快速鑒別不同品種葡萄酒的方法[2]。在近紅外光譜定性分析中,傳統的建立判別模型的方法一般采用單一的模型,即首先建立一個最優判別模型(分類器),然后應用該最優模型進行未知樣品的判別分析。多分類器融合是相對于傳統的單分類模型方法提出的,其基本思路是將從多個單分類器得到的分類信息通過某種方式進行綜合,即將多個預測結果通過一定的規則,形成一個共識的最終結果[3]。通過對不同的、具有一定互補性的多種分類器的分類結果進行有效融合,有可能提高目標分類的判別效果。基于光譜的多分類器融合方法在農業、食品等領域已有應用。楊燕等基于可見-近紅外光譜技術結合多分類器融合方法實現了蜂蜜蜜源的快速無損識別[4]。祝志慧等則采用多分類器融合方法對異物蛋和正常蛋透射光譜進行檢測判別,結果表明多分類器融合所建立的模型優于單一分類器模型[5]。本文以我國釀酒葡萄的三個主栽品種:赤霞珠、美樂、蛇龍珠所釀制的干紅葡萄酒為研究對象,針對其近紅外光譜,嘗試利用多種判別分析方法相結合,建立一種多分類器融合判定不同品種葡萄酒的分析方法。
1實驗部分
1.1材料
三類不同品種干紅葡萄酒樣品共170個,由中國農業大學葡萄與葡萄酒研究中心提供。其中蛇龍珠葡萄酒樣品31個,美樂葡萄酒樣品40個,赤霞珠葡萄酒樣品99個。按照蛇龍珠、美樂、赤霞珠順序進行編號,三類葡萄酒樣品的具體信息詳見表1。
1.2儀器與光譜采集
葡萄酒樣品近紅外光譜的采集所用儀器為布魯克光譜儀器公司的MPA傅里葉變換型近紅外光譜儀,采用透射方式,以空氣為參比,樣品池光程為1mm,掃描范圍為3900~12500cm-1,光譜分辨率為8cm-1,掃描次數為32次(光譜儀將32次掃描結果的平均值作為一次數據保存下來)。圖1為3900~12500cm-1譜區范圍內170個葡萄酒樣品的近紅外透射光譜圖,由圖可見,所有光譜接近重合,難以直接從光譜圖中區分不同品種的葡萄酒樣品,必須借助化學計量學方法。光譜圖中除4000cm-1處的非吸收峰,其他各峰的來源如下:因為葡萄酒樣品中水分含量最高,所以譜圖中水和O-H基團的合頻吸收峰5150cm-1和二倍頻吸收峰6900cm-1是最大的兩個峰;譜圖中其他比較明顯的吸收峰分別為4200~4500cm-1處葡萄酒各組分中C—H基團的合頻吸收,以及5600~6000cm-1處C—H基團的二倍頻吸收。5150cm-1處峰的吸光度大于3,因此透過葡萄酒樣品的近紅外光非常微弱,極易受到噪聲的影響[6]。此外,譜區10000~12000cm-1內所含信息量少,信噪比低;因此實際建模時剔掉以上兩個波段,選取4150~4892cm-1以及5365~9872cm-1兩個波段為分析對象。
2多分類器融合
2.1單分類器原理介紹
在近紅外光譜定性分析中,偏最小二乘定性判別法、支持向量機法、費舍爾線性判別法、AdaBoost機器學習算法等都是比較常用的方法。PLS-DA是基于定量偏最小二乘(PLS)基礎上的定性判別方法,只是將輸出變量改為類別標簽;SVM的基本思想是尋找最優分類線性超平面,并把尋找最優線性超平面算法歸結為求解一個凸規劃問題;Fisher線性判別是一種經典分類算法,遵循類間離散度與類內離散度比值最大的原則來確定原始向量的投影方向,使各類別之間達到最大程度的分離,從而實現正確的分類。AdaBoost算法核心思想是“關注”被錯分的樣品,“器重”性能好的弱分類器,每次循環,錯誤分類的樣品賦予較大權值,被正確分類的樣品權值較小,每次的循環產生一個弱分類器,并調整每個分類器的權值,最后采用加權投票法對分類器集成[7-8]。上述四種單分類器建模方法在農產品品質檢測分類等方面有不同程度的應用[9-10],故選取這四種方法作為單分類器的建模方法,將其用于不同品種葡萄酒的判別,然后根據四種單分類器的判別效果和差異性,進行多分類器的融合。
2.2多分類器融合原理
多分類器融合是將具有差異性的不同單分類器結合,根據每個單分類器的判定結果,融合形成最終的分類輸出結果。根據輸出信息的不同,多分類器融合可以分為輸出為決策層的多分類器融合、輸出為排序層的多分類器融合、輸出為度量層的多分類器融合[7]。本工作采用輸出為決策層的多分類器融合,而融合的方法則采用加權投票機制。首先對采集的葡萄酒光譜利用多種建模方法建立單分類器模型,因為分類算法、光譜預處理方法、特征提取等的組合有很多種,所以一般根據經驗按照建模集和檢驗集判別正確率、主成分個數等因素選取合適的單分類器,保證每一個入選的單分類器本身具有較好的判別能力;然后計算每兩個分類器的差異性度量值,按照差異性度量值選擇差異性較大的單分類器作為進行融合的基分類器;最后對選擇的基分類器按照加權投票方法進行多分類器融合,利用得到的多分類器對葡萄酒樣品進行種類判別。
3結果與討論
3.1單分類器選擇原則—差異性度量
一般認為,多分類器融合選擇的各個單分類器輸出結果如果一致或者相似,則融合之后的多分類器對系統的優化較小,因此選擇的單分類器必須存在差異性,即要篩選差異性較大的分類器,這就是單分類器的差異性度量。Kancheva在其所寫的論文中總結了10種分類器差異性度量方法[11]。本差異性度量方法選擇Q統計法。假設有兩個不同算法的分類器Di和Dj,每個分類器對葡萄酒樣品的判別結果存在以下關系(見表2)。其中,N(總樣品數)=N11+N10+N01+N00Q統計方法對于兩個不同分類器Di和Dj之間的差異性定義如下Qi,j=N11N00-N01N10N11N00+N01N10(1)式中,Qi,j的數值變化范圍在-1~1區間,如果兩個分類器都趨于同樣的樣品判斷一致,則Qi,j值則為正值,否則相反,Qi,j為負值,如果Qi,j為1則表明兩個分類器對樣品做出相同的正確或錯誤判斷[12]。
3.2不同品種干紅葡萄酒單分類器篩選過程分析
170個三類不同品種的干紅葡萄酒樣品按照1∶1的比例隨機分割成建模集與檢驗集,因此建模集與檢驗集各有85個樣品。選用PLS-DA,SVM,Fisher和AdaBoost四種方法作為干紅葡萄酒樣品單分類器的建模方法,其中AdaBoost每次迭代分類采用CART算法。還考察了不同譜區范圍(建模的譜區分為4150~4892和5365~7500cm-1以及4150~4892和5365~9872cm-1兩種)、不同主成分個數在多分類器融合過程中的影響。根據建模集和檢驗集判別正確率,篩選出正確率較高且建模集與檢驗集正確率較為接近的模型作為單分類器模型,得到以下6個單分類器模型,見表3。其中PLS-DA,FISHR_1,AdaBoost建模譜區范圍為4150~4892和5365~9872cm-1;SVM_1,SVM_2,FISHR_2建模譜曲范圍為4150~4892和5365~7500cm-1;SVM_1建模選取6個主成分,SVM_2建模選取5個主成分。各單分類器的判別準確率見表3。對以上六種分類器,按照Q統計方法,即式(1),計算各分類器之間的差異性度量值,得到Q統計方法下的各個單分類器兩兩之間的差異性度量值,見表4。進行多分類融合的單分類器模型不僅僅要有較高的建模集和檢驗集準確率,還要具有一定的差異性,這樣才能充分利用單個分類器的優勢。由表4可以看出,PLS-DA與FISHER_2分類器的Qi,j為0.9932,說明PLS-DA與FISH-ER_2分類器對葡萄酒品種判定結果基本相同,不具有一定差異性。PLS-DA與其他分類器的Qi,j均小于FISHER_2的Qi,j,說明PLS-DA相對于與其他分類器具有較好的差異性,可以選取PLS-DA作為其中一個單分類器,則舍棄FISHER_2分類器;同理,SVM_1與SVM_2分類器的Qi,j為0.9898,比較兩種分類器與其他分類器的Qi,j可以得出SVM_1具有較好差異性,因此采用SVM_1分類器,舍棄SVM_2分類器;雖然FISHER_1和AdaBoost建模集和檢驗集判別準確率都一致,但二者誤判樣品并不相同,所以兩個分類器仍有較大差異。經比較分析,最終得到差異性較大的四種單分類器,即PLS-DA,SVM_1,FISHER_1和AdaBoost。這四種單分類器模型有很好的差異性,且有較高的建模集和檢驗集準確率,可以作為基分類器進行多分類器融合。
3.3多分類器融合—加權投票機制
目前多分類器常見的融合方法有投票法、證據理論方法、神經網絡法、模糊積分方法等[12-13]。其中,投票法是對各個單分類器所支持的檢驗集樣品進行投票,少數服從多數,多半以上通過為原則作為判定結果的分類。投票法又分為兩類:第一類為每個單分類器的權值都相同,即投票過程中,單分類器的投票權重是相同的;第二類則是根據每個單分類器對于建模集樣品結果的影響大小的不同,對它們的輸出結果按照影響的不同分配相應的權值系數[14]。采用第二種投票機制,根據每個單分類器本身的識別效果不同,通過建模集的識別準確率來確定四種分類器的權值參數,設PLS-DA,SVM,Fisher,AdaBoost對建模集的判別準確率分別為P1,P2,P3,P4,則權重值的計算公式如下αi=Pi∑4i=1Pi(2)其中,αi(i=1,2,3,4)對應PLS-DA,SVM,Fisher,Ada-Boost單分類器的權重值,且α1+α2+α3+α4=1。
3.4不同品種干紅葡萄酒多分類器融合結果分析
根據3.2篩選出的單分類器模型對建模集樣品的判別結果,利用式(2)計算得到各個單分類器的權重α1,α2,α3,α4分別為0.2476,0.2706,0.2409和0.2409。根據得到的單分類器權值數據,可以得出最后融合后的分類器模型,其分類判別公式為Classify=0.2476classifierPLS-DA+0.2706classifierSVM_1+0.2409classifierFisher_1+0.2409classifierAdaBoost(3)Classify是表示由四個單分類器集成后的分類器,用式(3)對葡萄酒樣品檢驗集進行測試,得到最終融合后結果,如表5所示。由表5中錯判樣品編號數據信息得知,四種單分類器對于4,9,23,25四個編號的樣品都判別錯誤,融合后仍然錯判,說明這三個樣品無法通過融合分類器修正;20和67兩個編號樣品則是由于判別錯誤的單分類器權值過高也無法進行修正;其余的單分類器的錯誤樣品則均可以通過融合分類器修正后得到正確的判別結果;最終融合分類器的檢驗集判別準確率為92.94%。由表5可知,單分類器所建立的模型,檢驗集判別準確率最高為88.24%,有九個判錯樣品,最低準確率為81.18%,有16個判錯樣品。通過建立多分類器融合,對葡萄酒檢驗集進行判別,將葡萄酒判別準確率由88.24%提高到了92.94%,比最高的單分類器準確率提高了4.7%,檢驗集錯判樣品個數則從最少的9個降至6個,說明融合后的分類器提高了原來單分類器的判別準確率。多次測試結果表明融合后得到的分類器能夠充分利用原來單分類器信息,顯著提高了葡萄酒分類的檢測準確率。
4結論
PLS-DA,SVM,Fisher,AdaBoost作為分類器有著自身不同的特點,基于四種單獨的算法建立單分類器模型,對葡萄酒樣品檢驗集進行檢測,得到相應各自的判別準確率,通過差異性度量方法篩選出差異性較大的四種單分類器,其中單分類器模型的檢驗集最高判別準確率為88.24%,錯判樣品個數最少為九個。在通過加權投票機制,建立多分類器加權融合模型,再次對測試集樣品進行判別,得到檢驗集的判別準確率為92.94%,錯誤樣品個數降為六個,較單分類器的最高判別準確率提高4.7%,錯判樣品減少三個,多分類器融合模型的判別準確率有了較大提高。四種單分類器進行有效的融合,使各種單分類器之間性能互補,從而使判別結果有了顯著提升。因此,采用基于近紅外光譜的多分類器融合方法鑒別葡萄酒種類是可行的,并且相比單分類器有一定優勢。
作者:李凱 李雪瑩 欒麗麗 胡文雁 王宇恒 李景明 李軍會 勞彩蓮 趙龍蓮 單位:中國農業大學信息與電氣工程學院 中國農業大學食品科學與營養工程學院