煙葉香氣風格分類中的特征選擇算法研究
發(fā)布時間:2019-08-24 來源: 感悟愛情 點擊:
摘要:煙葉香氣風格分類是利用煙葉外觀質(zhì)量、理化成分判定其香型、香氣質(zhì)量的類別。為了提高分類能力,通過特征選擇發(fā)現(xiàn)最佳屬性集是一種有效的方法。本文對比研究了信息增益率(GainRatio)、ReliefF、CFS、Wrapper四種特征選擇方法改善煙葉香氣分類器性能的差異。實驗結果表明:基于遺傳算法的Wrapper方法優(yōu)于其他三種方法,所得最佳屬性集的特征維數(shù)低,而且使分類精確率大大提高。
關鍵詞:特征選擇;分類;信息增益率;ReliefF;CFS
中圖分類號:TP301.6 文獻標識碼:A文章編號:1007-9599 (2010) 14-0000-01
The Feature Selection Algorithm Research on the Tobacco Leaf Aroma Style Classification
Liu Guoqiang1,He Ying2,Wang Wei1
(1.China Ocean University,Qingdao266071,China;2.Qingdao University,Qingdao266071,China)
Abstract:The classification of the tobacco aroma flavor is evaluated according to the tobacco physical and chemical compositions.In order to improve the classification performance,it is an effective method that find the best feature set based on feature selection.The diff-erence of the classification performance of tobacco aroma model is found by comparing four feature selection methods,such as Gain-Ratio,ReliefF,CFS and Wrapper methods.The experiment results have shown that the Wrapper method based on the genetic algori- thm is superior to other three methods,and the character dimension is the lowest,so it can greatly improved the classification accuracy.
Keywords:Feature selection;Classification;Information Gain Ratio;
ReliefF;CFS
一、引言
煙葉的香氣風格是人對煙葉的一種感官評價,是受煙葉特定的生態(tài)條件、栽培技術、遺傳因素等因素的影響。近年來,不少學者利用統(tǒng)計分析、機器學習技術建立煙葉感官質(zhì)量評價模型[1,2]。試圖利用計算機建立一種快速評價煙葉香氣風格的手段,有助于實現(xiàn)卷煙配方數(shù)字化設計。由于建立分類器的輸入屬性維數(shù)較多,其中存在一部分無關特征或冗余特征,導致分類器的精度和時間效率難以提高。一些學者試圖通過改進一些分類算法來改善分類器性能,但效果并不明顯。
特征選擇是機器學習領域的熱點研究問題之一。特征選擇是從原始特征集中按照評估標準選擇滿足最優(yōu)的特征子集[3]。目前特征選擇已在文本分類、數(shù)據(jù)挖掘、基因工程、計算機視覺、信息檢索等領域中得到了廣泛應用研究。本文研究了四種典型的特征選擇算法:ReliefF、信息增益率(GainRatio)、相關度量(CFS)、Wrapper的基本原理,以及對分類器性能的改善能力,并應用于煙葉香氣風格分類問題。
二、特征選擇
特征選擇主要有四個步驟,首先按照一定的搜索策略產(chǎn)生候選特征子集,再通過某個評價函數(shù)評估特征子集的優(yōu)劣,然后根據(jù)預先指定的特征數(shù)目等條件決定特征選擇算法什么時候停止,最后驗證最終所選的特征子集的有效性。Dash和Liu將特征選擇算法主要分為三類:Filter算法族、Wrapper算法族以及混合算法[4]。下面針對典型的特征選擇算法簡單介紹。
。ㄒ唬㏑iliefF算法
Relief算法是由Kira提出的一種特征權重算法[5]。Kononenko提出了一種改進的ReliefF算法,它能處理多類問題,對屬性的數(shù)據(jù)類型沒有要求,是一種比較有效的特征選擇算法[6]。算法的主要步驟如下:
1.從訓練集D中隨機選擇一個樣本R;
2.從和R同類的樣本集中找出R的k個近鄰樣本 ,從每個R的不同類的樣本集中找出k個近鄰樣本 ;
3.根據(jù)規(guī)則更新每個特征的權重:如果R和最近鄰樣本H在某個特征上的距離小于R和最近鄰樣本M上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權重;反之,則降低該特征的權重;
4.輸出:特征權重大于閾值δ的特征組成的特征子集T。
。ǘ┬畔⒃鲆媛(GainRatio)算法
信息增益率算法是根據(jù)評價每個特征對整體樣本分類所貢獻的信息增量多少作為衡量特征重要性的標準,信息越多,特征越重要。假設所研究的分類問題數(shù)據(jù)集S= ,包含m個特征,類別C共有n個類別,每一個類別出現(xiàn)的概率為 ,則分類系統(tǒng)的信息熵為: (1)
某一屬性 對類屬性C的信息增益如下:
IG(C, )=H(C)-H(C| )= H(C)-(2)
本文采用信息增益率:GainRatio( )= IG(C, ) / H( ) (3)
其中,H(C)是類屬性C的信息熵,特征 共有p個取值,公式(2)的第2項是特征 對數(shù)據(jù)集S進行分類后的熵的期望值。
。ㄈ┫嚓P度量CFS算法
相關度量CFS特征選擇算法是基于相關性的啟發(fā)式評價函數(shù),度量每個屬性與類屬性是高度相關還是不相關,將不關聯(lián)的冗余屬性去除,最終對特征屬性進行降序排序獲得特征子集。評價函數(shù)(式4)中Ms是屬性子集中k個屬性的啟發(fā)式價值。 為屬性與類之間相關性的均值, 是屬性間交互相關性的均值[7]。
(4)
在對離散數(shù)據(jù)進行相關度量時,利用對稱不確定方法(式5)計算屬性與類屬性之間的相關性大小和屬性X與屬性Y之間的相關性大小。
(5)
。ㄈ¦rapper方法
Wrapper方法是一種使用歸納算法結合重復抽樣技術來評價特征準確性的特征選擇算法[8]。本文采用基于遺傳算法的Wrapper方法。算法主要步驟如下:
1.編碼:采用二進制編碼,1表示該位代表的特征被選中,0表示特征未被選中。
2.種群初始化:隨機生成m個染色體,每個染色體含有n個基因,代表n維特征屬性。
3.對種群中每個染色體包含的特征屬性,作為訓練數(shù)據(jù),訓練分類器,以分類器最大準確率為評價函數(shù)計算評估值,取出最優(yōu)個體;
熱點文章閱讀