机器学习 - 特征选择算法流程、分类、优化与发展综述

原创作品,转载请联系作者:微信(sunx5126)。

摘要:随着大数据时代的到来,各行各业涌现的海量数据对数据处理的技术提出了新的挑战,而特征选择作为一种常见的降维方法也得到越来越多的重视。本文概述了特征选择的流程和分类,然后主要从其优化发展历程详述不同类别特征选择算法的研究和应用,并基于此指出今后特征选择的发展方向。
关键词:特征选择 特征关联,无监督,非完备系统,非均衡类别

Abstract:With the advent of the era of big data, huge amounts of data that appeared in all walks of life brings a new challenge to data processing technology, as a common dimension reduction method, feature selection is becoming a more and more hop topic. This article outlined the general process of feature selection and classification, and then mainly analyse the development and application of the different category feature selection algorithm based on its performance optimization, and points out the future trend of feature selection.
Keywords: feature selection, non-supervision, incomplete information systems, unbalanced category

1 引言
特征选择指的是从原始输入的特征中选择使得某种评估标准最优的特征子集的过程。在其发展初期,主要是从统计学和信息处理的角度进行研究,所涉及的问题通常特征数目不多[1 2 3]。随着互联网技术的发展,各行业数据的增加,特征选择也得到越来越多的重视,被广泛研究和应用。

2 定义及基本流程

2.1 特征选择定义
给定样本数据集T={O,F,C},其F={f1,f2,...fm},C={c1,c2...cm},O={o1,o2,...om}分别表示特征,类别和数据样本集。令J:2F→[0,1]为特征子集的评价函数,其中J(X)的值越大,表示特征子集X所含信息量越多,在这种情况下,特征选择算法通常有如下三种类型:
1 从特征集F中找到一个特征子集X,使得J(X)最大;
2 给定阈值J0,从F中找到一个最小自己X,使得J(X)>J0;
3 从F中找到一个子集X,使得J(X)尽量大,且X中的特征束尽量少。
这三种表示方式体现了特征选择的不同方面和侧重点,其中第一条着重所选特征子集所含信息量,即选择过程中尽可能不丢失信息;第二条强调选择一个满足给定条件的最小子集;最后一条则是在子集大小和信息量之间去一个折中值。

2.2 基本流程
一般而言,特征选择过程由初始子集设定,搜索策略,子集评价和终止条件这四个部分组成。

初始子集设定是特征选择算法的开始,它的选择对后面的搜索策略有直接的影响,如果初始子集S为空,搜索过程将向选择子集中加入候选特征,即前向搜索;如果初始子集为原始特征空间,搜索过程将从特征子集S中不断剔除无关或不重要的特征,即后向搜索;如果特征子集从特征集F中随机产生,那么搜索过程采取随机搜索策略添加候选特征或删除已选特征。
终止条件是根据候选子集的评价分值J(S)或其他约束条件判定当前候选子集S是否满足预先设定的条件,若条件满足,则选择算法结束,返回后选择特征子集S作为最终结果,否则搜索过程继续循环,生成新的候选子集,直到终止条件满足即可,特征选择算法中经常使用以下终止条件:
(1) 候选子集S的特征数目超出预先给定的阈值
(2) 搜索循环的次数超出预先给定的阈值
(3) 评价函数值J(S)达到最高或是最优
(4) 评价函数值J(S)超出预先给定的阈值
搜索策略和评价标准是特征选择算法的两个关键问题,好的搜索策略可以加快选择度,找到最优的解,好的评价标准可以保证所选择的子集信息量大,冗余小。
评价标准指根据某种评价准则中对所选择的特征及其子集的优劣程度进行评估的手段,直接决定选择算法的输出结果及分类模型的性能。评价标准的选择一直都是特征选择算法的研究热点,到目前为止,提出了许多评价标准[4,5,6],包括: 距离度量,一致性度量[7,8],依赖性度量[9],信息度量[10],分类误差度量[11,12]。

3 分类
采用不同的评价标准,特征选择算法大致可以分为以下几种类型:

1) 搜索策略:基于穷举搜索,序列搜索,随机搜索
特征选择过程某种程度上就是一个子集搜索寻优问题。穷举式搜索指的是对特征空间每一个特征进行评价和度量,可以搜索到每个特征子集。通常开销大,计算时间长,不适合大规模的数据处理。
序列搜索在搜索过程中依据某种次序不断向当前特征子集中添加或剔除特征,从而获得优化特征子集。比较典型的序列搜索算法如:前向后向搜索[13]、浮动搜索[14]、双向搜索[13]、序列向前和序列向后算法等。序列搜索算法较容易实现,计算复杂度相对较小,但容易陷入局部最优。
随机搜索由随机产生的某个候选特征子集开始,依照一定的启发式信息和规则逐步逼近全局最优解。例如:遗传算法(Genetic Algorithm, GA)、模拟退火算法(SimulatedAnnealing, SA)、粒子群算法(Particl Swarm Optimization,PSO)和免疫算法(Immune Algorithm, IA)等。

2) 度量标准:基于距离,依赖性,一致性,信息熵和分类误差
度量标准指用来评价特征选择算法性能的及其子集的优劣程度的手段。
基于距离指的是采用欧氏距离,马氏距离等标准来衡量特征间的相关性以及特征与类别间的相关性。在向量空间模型的支持下,距离远则表示相关性小,距离近则表示相关性大。
依赖性利用类别域特征之间的统计相关性质度量特征的重要性程度,即如果已知两个变量是统计相关的,那么就可以利用其中一个变量的值来预测另一个变量的值,当前,已经有许多统计相关系数,如t-test,F-measure,Parson相关系数,概率误差,Fisher分数[15]等来描述特征间及特征与类别的相互依赖性。
一致性度量:给定两个样本,若他们的特征值均相同,但所属类别不同,则称它们是不一致的,否则是不一致的[16]也就是说,不一致样本间是互相矛盾冲突的,因为它们具有相同的性质特征,但属于不同的类别,样本数据集的不一致性指该数据集中不一致的样本数与样本总数之间的比例,一致性度量标准就是利用这个特征点反应特征的重要性程度[8],如果去除某特征后,数据集的不一致性将明显增大,那么就认为该特征很重要,否则即认为不重要,该标准的优点是能够获得一个较小的特征子集,但它对噪声数据很敏感,且只适合做离散特征。
信息度量标准主要是利用信息熵等量化特征相对于分类类别的不确定性程度,以判定起包含的分类信息的含量。信息度量标准的优势是它是一种无参的非线性的度量标准,且不需要预先知道样本数据的分布,信息熵能很好地量化恩正相对于类别的不确定性程度
分类误差度量基于这样的原理:在文本分类问题中,特征选择的目的是使得后期的分类准确率高,因此如果采用分类误差作为评价标准,得到的特征子集将具有更好的性能。例如,Huang等[11]使用混合的遗传算法与分类器一同通获取特征子集,并能明显提高最终分类模型的分类性能。Neumann等[12]则是利用支持向量机的分类性能作为特征选择的度量标准,

3) 评估特征的个数:单特征的选择方法,多特征的选择方法
所谓单特征的选择方法指的是在评价特征的重要程度的时候是基于特征独立性的原则,不考虑特征间的相关性,而多特征的选择方法则是建立在特征相关的基础上,即某一特征是否作为候选特征取决于自身的重要性和对已有特征重要性的影响。

4) 有无类别信息:监督,半监督,无监督
对于有监督的特征选择,即在分类中样本事先有类别信息,考虑特征与类别间的相关性进行选择,无监督的特征选择则无类别信息,根据特征相关性进行聚合,一般来讲,相关性越大的的特征,重要性就越高。近些年来,也有学者开始研究半监督特征选择,由于在文本分类中,类别信息是比较缺乏的,然而单纯的无监督技术并不够成熟,因此很多学者采用先无监督聚类,然后在此基础上考虑类别与特征的相关性进行选择。

5) 与学习算法的关系:Embedded[17,18,19],Filter,Wrapper[20,21]和混合选择算法
特征选择在机器学习中被广泛使用和研究,根据特征选择与学习算法的关系,特征选择分为不同的类别:
在嵌入式结构中,特征选择算法本身作为组成部分嵌入到学习算法里。如某些逻辑公式学习算法是通过向公式表达式中加减特征实现的[22]。最典型的是决策树算法,如Quinlan 的 ID3和C4.5[17,18]以及Breiman 的CART算法[19]等,决策树生成的过程也就是特征选择的过程。
过滤式特征选择的评估标准独立于学习算法,直接由数据集求得,评估依赖于数据集本身,通常是选择和目标函数相关度大的特征或者特征子集。一般认为相关度大特征或者特征子集会对应得到后续学习算法较高的准确率,过滤式特征选择的评估方法很多,如类间距离,信息增益,关联度以及不一致度等。
考虑到和学习法无关的过滤式特征评价会和后续的分类算法产生较大的偏差,而学习算法基于所选特征子集的性能是更好的特征评价标准,不同的学习算法偏好不同的特征子集,既然特征选择后的特征子集最终将用于后续的学习算法,那么该学习算法的性能就是最好的的评估标准。因此在Wrapper特征选择中将学习算法的性能作为特征选择的评估标准。

4 优化发展历程
特征选择最早从60年代起就有学者对此进行研究,发展到今天已有50多年的时间,特征选择的地位,作用随着数据处理的需求的变化而不断变化着,同时,外界的需求变化也对特征选择的技术不断提出新的要求,为了适应不断更新的各行各业的数据,特征选择技术也在发生着质的变化,逐渐变得强大,方便各行各业的使用。总体来讲,特征选择算法经历了如下几个重大的变化历程:

4.1由基于阈值的单一的特征选择算法到多种特征选择算法结合寻找最优的特征子集
基于阈值的单一的特征选择计算简单,复杂度低效率高,适合做文本分类中的特征选择,主要有:文档频率方法(DF)[23] , 信息增益方法(IG) [ 23] ,互信息方法(MI) [23] ,CHI[23] 方法,期望交叉熵[24],文本证据权[24],优势率[24],基于词频覆盖度[25],主分量分析[26] ,Focus,Relief,ReliefF的特征选择方法等,对于文本分类的特征选择的研究,比较有代表性的是Yang Yiming[27] 和Dunja Mladenic[ 27]的工作。
组合式的特征选择指多种特征选择算法一起使用来选出最优的特征子集。由于每一个特征选择的算法具有不同的优缺点,在单独使用的时候无法克服自身的缺陷,因而不同的算法正好优势互补。结合方式组要有以下几种:
a、基于信息论和信息度量的各类特征选择算法的串联结合:如Tf-idf(单纯组合,基于位置的组合方式)IG-DF,TF-DF等。
b、遗传算法[23] 和 禁忌搜索[24] 陈等提出了遗传算法和禁忌搜索相混合的搜索策略GATS,并在此策略基础上提出了特征选择算法FSOSGT,提高了特征选择的速度[28]。
c、遗传算法和人工神经网络[29]
谢等采用数理统计方法分析训练前后神经网络权值的变化情况,改进权连接剪切算法,并获得适合具体问题的非全连接神经网络。提出基于特征模糊化和神经网络的特征选择,并通过实验证明了其有效性[29]。
d、序列搜索策略和分类性能评价准则. 文献[25]、[26]、[30]中用序列搜索策略(SBS,SFS,FSFS)和分类性评价准则相结合来评价所选的特征,也取得不错的效果,相对于使用随机搜索策略,节约时间。
e、Wrapper和随机搜索策略。
文献[31]提出用决策树进行特征选择的Wrapper方法,用遗传算法寻找使得决策树分类错误率最小的一组特征子集。文献[27]结合正态极大似然模型来进行特征选择和分类, [32]用遗传算法结合人工神经网络进行同样尝试。[33]采用了支持向量机SVM 作为分类器使得分类准确率能进一步提高。
f、集成学习文献中的Filter和Wrapper结合的多种算法[34]
张提出了一系列Filter和Wrapper结合的特征选择算法,如Relief-Wrapper,主成分分析(principle component analysis),Recorre,Resbsw,Relief-GA-Wrapper等。
Filter与Wrapper方法的结合是现在的研究热点。

4.2从基于完备决策表的特征选择到基于非完备决策表的特征选择算法
在特征选择技术发展的初期,数据比较单一且数据量小,直接对缺省值进行填充,然后当作无缺省的数据集处理。因此特征选择最初发展的时候都基于完备决策表,一些学者提出了有效的约简算法。如Hu等给出了一种较好的启发式函数[35],提出了基于正域的属性约简算法; Wang等用信息论观点和代数观点对知识约简进行了研究[36], 用条件熵为启发式信息求解决策表的约简; Liu等提出了一个以区分矩阵为基础的基于属性序的完备算法[36];Guan等在等价关系的基础上定义了等价矩阵,通过矩阵的计算来刻画粗糙集计算等[37],以上的算法能够降低完备意义下特征选择时间消耗, 提高效率。
对于缺省值通过某种标准进行补全使得完备意义下的特征选择算法能够正常进行,但填充的值毕竟跟实际的值,或者在直接缺省的情况下是有误差的,而且如果需要对缺省值进行精确预测,则要求相对较复杂的预测方法,这无疑给特征选择前的预处理带来了很大的时间开销和复杂度,因此,如何不对缺省值进行处理,就现有的非完备的信息系统提取有用的信息特征就显得至关重要。经典粗糙集理论的等价关系不再适合.于是,完备信息系统被推广到了非完备信息系统[38,39] .
针对非完备意义下的信息系统或决策表的特征选择, 近年来一些作者也做了初步探索[ 40,41] 。Liang 等给出了非完备信息系统中粗糙熵的定义[41], 并提出了基于粗糙熵的知识约简算法; Huang 等[ 42] 通过引入信息量来刻画属性的重要度, 提出基于信息量的启发式约简算法;Meng 等[43] 提出了一种针对非完备决策表属性约简的快速算法.
然而, 现有的基于非完备决策表的约简算法都不同程度地存在耗时较大的问题.Qian 和Liang 等[44,45]提出的正向近似是一种刻画目标概念的有效方法. Qian 和Liang 等[ 46] 进一步研究了非完备意义下的正向近似,讨论了非完备意义下如何通过正向近似的方法来刻画粗糙集的粒度结构. 动态粒度下的正向近似思想,为粒度计算和粗糙集理论提供了新的研究角度, 并且在规则提取和属性约简中也得到了应用。

4.3从基于特征独立原则的特征选择到特征关联的特征选择算法
基于特征独立原则的特征选择的前提是假设各特征间无关,认为特征集的文档识别率是特征集中每个特征的文档识别率的线性和,这样使得支持向量机在算法上得到很好应用,在特征选择发展的初期,都是假设特征独立的。但是实际中很多特征之间相关性很大,这些特征在类别区分能力上是非常相似的, 若全部作为候选特征子集,就会导致大量特征冗余, 从而影响了分类器的性能。这种问题在某些类别的训练样本较少的情况下会更加突出, 因为在稀疏类别中的特征比那些主要类别中特征的评估值要低, 传统的特征选择算法往往会倾向于那些主要类别中的特征关联。
从信息论的角度来件,特征选择的目标就是寻找一个包含原始特征集的全部或者大部分信息的特征子集,该特征子集的存在可以最大程度地降低其他未选择特征的不确定性。根据分类中对特征选择的定义,是要找出与分类类别相关性最大,而彼此间相关性最小的特征子集。基于此,学者们提出了一系列特征选择算法:Weston介绍了一种基于支持向量机的特征选择算法[47],依据该算法可以选出那些分类信息明确的特征。邱等提出的一种特征间的模糊相关性和x2统计量线性组合的特征选择算法[48]。高等提出的基于双词关联的文本特征选择[49]。蒋等提出的基于特征相关性的特征选择[50],刘等提出一种基于条件互信息的特征选择算法[51],首先聚类特征除去噪音,然后选出类相关度最大的特征,去除不相关和冗余特征。张提出了一种基于最小联合互信息亏损的最优特征选择算法[52]。Grandvalet 也介绍了一种可以自动计算属性间相互关系的算法[53]。
这类特征选择算法,考虑了特征间的相关性,有效地降低特征子集的冗余。在考虑特征相关性和冗余度的特征选择算法的研究过程中,较为出名的是Markov Blanket 理论的出现,姚等给出了Markov blanket的定义以及一种基于近似Markov Blanket和动态互信息的特征选择算法[54],利用近似Markov Blanket原理准确地去除冗余特征,从而获得远小于原始特征规模的特征子集。
Markov blanket的出现,是特征相关性研究的一大重要成果。基于此,崔等提出了一种基于前向选择的近似Markov Blanket特征选择算法[55],获得近似最优的特征子集。姚等针对大量无关和冗余特征的存在可能降低分类器性能的问题[56],提出一种基于近似Markov blanket和动态互信息的特征选择算法并将其应用于集成学习,进而得到一种集成特征选择算法。

4.4从面向均衡数据的特征选择到面向非均衡数据集的特征选择
基于均衡类别的数据集的特征选择算法默认要处理的数据集中各个类别的大小一致,或忽略类别大小对特征选择的算法结果的影响。但大多数特征选择算法偏爱大类别,忽略小类别,因此,基于该平衡假设的特征选择的算法对于类别大小相差较大的数据集的处理则效果不佳。后期学者便提出了基于不均衡数据集的各种特征选择算法,对不同大小的类别中出现的特征赋予不同的权重,来平衡类别大小造成的误差。提出了两类特征选择算法,一类是针对类别大小不同而提出的基于类别区分能力的特征选择,另一类是针对类别语义不同提出的基于论域的特征选择。
第一类算法主要有;CTD(categorical descriptor term)SCIW(Strong class info words) [57]等。周等提出了类别区分词的概念[58],应用改造的多类别优势率和类别区分词的方法获得了较好的特征选择效果。徐等提出的基于区分类别能力的高性能特征选择方法[59],并对区分类别能力进行了量化。张等提出了考虑特征在正类和负类中的分布性质[60],结合分布的情况衡量特征类别相关性的指标对特征词进行评价,他指出选择具有较强类别信息的词条是提高稀有类别分类性能的关键[61],分析并验证了一般而言具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势,提出算法DFICF。郑将特征选择分为两类[62]:只选择正例特征(单面方法)和正例反例同时选择(两面方法),提出了一种从正例、反例中合理选择特征的方法,得到了较好的分类效果.Forrnan则对反例进行了分析,他通过实验发现将反例从特征中去掉会降低分类的性能[63],所以反例在高性能分类中也是必要的.冀等提出了基于类别加权和方差统计的特征选择方法[64],通过加权以强化小类别的特征。谢等将传统F2score度量样本特征在两类之间的辨别能力进行推广,提出了改进的F2score,使其能够度量样本特征在多类之间的辨别能力大小.徐提出了基于类别分布改进的特征选择方法( IFSM)[65],除此还有吴提出的在可变精度理论VPRS下的特征选择算法TF-CDF[66],王等提出了基于类别分布的特征选择框架[67]等。这些算法在很大程度上促进了对于非均衡类别的特征选择的发展。
第二类特征选择算法主要有:赵等提出的基于语义和统计特征的中文文本特征选择算法[48],利用词共现模型的思想提取特征共现集。徐提出的使用类别特征域的方法将每个类别中重要的特征提取出来作为重要特征[65],吴等提出的基于论域的无监督文本特征选择方法[68]等。

4.5 从有监督的特征选择到无监督的特征选择
基于有监督的特征选择方法广泛应用于文本分类,能够滤掉绝大多数文本特征词而不会降低文本分类的效果[69]。但是,这些成熟的有监督特征选择方法是需要类别信息的,而文本聚类缺的恰恰是类别信息。目前虽然也存在一些成熟的无监督特征选择方法,例如文档频、单词权、单词熵、单词贡献度等,但是,它们仅能滤掉大约90%的噪声词,若再滤掉更多噪声词,就会大大降低文本聚类的效果[70]。因此,无监督特征选择仍然是目前文本聚类领域的一个研究热点。并且随着网络数据的增多,对于特征选择的要求也越来越倾向于无监督的特征选择。
刘提出基于k-means的无监督特征选择算法[71],所得到的聚类结果已经接近理想的有监督特征选择所得到的聚类结果。朱提出了一种适用于无决策属性的信息系统的启发式属性约简算法[71]。徐等提出了一种基于互信息的无监督的特征选择方法(UFS-MI)[72],综合考虑了相关度和冗余度的特征选择标准UmRMR(无监督最小冗余最大相关)来评价特征的重要性.

5 特征选择的发展方向
根据上文对于特征选择算法的发展历程来看,目前特征选择算法趋向于特征相关性,多种算法结合,基于非完备决策表,无监督过程,并且能够处理不均衡数据集的方向发展。然而互联网的发展速度飞快,数据的种类和丰富度也日益增多。并且,近几年,出现了一些新的研究方向,比如基于特征选择的集成学习,结合克隆选择和免疫网络的多目标免疫优化的特征选择,增强式学习与特征选择的结合等。很难定论特征选择会朝着怎样具体的方向发展,但随着互联网数据的增多,特征选择作为一种有效的降维方法,一定会得到更多的研究和拓展,其应用方向也变得越来越丰富。

6 结束语
本文概述特征选择的发展背景和流程,从不同角度对特征选择算法进行分类,指出理论研究和实际应用中所存在的困难和一些有待解决的问题.然后主要结合特征选择算法的发展历程对各类特征选择算法进行详细分析,并且得出今后的特征选择算法的发展方向和趋势。

参考文献
【1】Lewis P M The characterstic selection problem in recognition system IRE Transaction on Information Theory,1962.8:171-178
【2】Kittler J.Feature set search algorithms.Pattern Recognition and rough set reducts.The Third international Workshop on rough sets and Soft Computing,1994:310-317
【3】 Cover TM The best two independent measurements are not the two best.IEEE Transaction on system,Man and Cybernetics,1974,4(1):116-117
【4】Liu H ,Motoda H.feature selection for knowledge discovery and data mining[M]Boston:Kluwer Academic Publishers,1998.
【5】Liu H,Yu L.Toward integrating feature selection algorithms for classification and Clustering [J].IEEE Transactions on knowledge and data engineering,2005,17(4):491-502.
【6】Molina L C,Belanche L,Nebot A.Feature selection algorithms:a survey and experimental evalution number[R].Barcelona,Spain:universitat politecnica de Catalunya,2002.
【7】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.
【8】Arauzo-Azofra A,Benitez J M,Castro J L.Consistency measure for feature selection [J].journal of intelligent information system,2008,30:273-292.
【9】Zhang D,Chen S,Zhou Z-H.Constraint score:A new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):1440-1451
【10】Yu L,Liu H.Efficient feature selection via Analysis of Relevance and Redundancy[J].Journal of machine learning research,2004,5:1205-1224.
【11】Huang J,Cai Y,Xu X.A hybird genetic algorithm for feature selection wrapper based on mutual information [J].Pattern Recognition letters,2007,28:1825-1844.
【12】Neumann J,Schnorr C,Steiidl G.Combined SVM-based feature selection and classification[J].Machine learning,2005,61:129-150.
【13】Kittler J, Feature set search algorithms,in:C.H.Chen, PatternRecognition and Signal Processing, Sijthoff and Noordhoff,1978:41-60.
【14】 Pudil P, Novovicova N, Kittler J. Floating search method[J].Pattern Recognition Letters,1994(15) :1119-1125.
【15】Devijver P A,Kittler J.pattern recognition-A statistical approach[M].London:prentice Hall,192.
【16】DashM.LiuH.Consistency-based search in feature selection.[J] Artifical intelligence,2003,151(1-2):155-176.
【17】Quinlan JR,Learning efficient classification produres and theirapplication to chess end games.Machine learnng:An artificial intelligence approach,San francisco,C ,A:Morgan Kaufmann,1983,463-482.
【18】Quinlan J R,C4.5:programs for machine learning.San Francisco:Morgan kaufmann,1993.
【19】Beriman L,Friedman J H,etal.Classification and Regression Trees.Wadsforth international Group,1984.
【20】John G,Kohavi R,Pfleger K.Irrelevant features and the subset selection problem.In:Cohen W W,Hirsh H,Eds.The eleventh international conference on machine learning.San Fransisco:Morgan Kaufmann,1994,121-129.
【21】Aha D W,Bankert R L.Feature selection for case-based classification of cloud types An empirioal comparison.In:Ada D Weds.In Working Notes of the AAAI94 Workshop on case-based reasoning.Menlo Park,CA:AAAI Press,1994,106-112.
【22】Blum A L.Learning boolbean functions in an infinite attribute space.Machine learning.1992,9(4):373-386.
【23】Holland J.Adaptation in Natural and Artifiicial Systems
【24】GloverF.Feature paths for integer programming and links to artificial intelligence.
【25】 Inza I,Larranaga P,Blanco R.Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine, 2004,31(2):91-103v
【26】 Zhou Xiaobo,Wang Xiaodong,Dougherty E R.Gene selection using logistic regressions based on AIC,BIC and M DI criteria[J]. Journal of New Mathematics and Natural Computation,2005,1(1):129-145.
【27】 Tabus I,Astola J.On the use of MDI principle in gene expression prediction[J]. EURASIP Journal of Applied Signal Processing,2001,4:297-303.
【28】一种高效的面向轻量级入侵检测系统的特征选择算法。
【29】庞遗传算法和人工神经网络的分析和改进。
【30】 Xiong Momiao,Fang Xiang-zhong,Zhao Jin-ying.Biomarkeri dentification by feature wrappers[J].GenomeResearch,2001,11(11):1878-1887.
【31】 Hsu W H.Genetic wrappers for feature selection in decision trein duction and variable ordering in bayesian network Structure learning[J]. Information Sciences,2004,163(1/2/3):103-122.
【32】 Li I, Weinberg C R, Darden TA. Gene selection for sample
classification based on gene expression data:study of ensitivity to choice of parameters of the GA/KNN method[J].Bioinformatics,2001,17(12):l131-1142.
【33】 Shima K,Todoriki M,Suzuki A. SVM-Based feature selection of latent semantic features[J]. Pattern Recognition Letters,2004,25(9):1051-1057.
【34】Study n feature selection and ensemble learning Based on feature selection for High-Dimensional Datasets.
【35】 Hu Xiao-Hua, Cercone N.Learning inrelational databases:A rough set approach. International Journal of Computational Intelligence, 1995, 11(2): 323-338
【36】 LiuShao- Hui,ShengQiu-Jian,WuBin, ShiZhong-Zhi, HuFei.Research on efficient algorithms for Rough set methods.Chinese Journal of Computers, 2003, 26 (5): 524-529 (in Chinese)
【37】 Guan Ji-Wen, Bell David A, Guan Z. Matrix computation for informat I systems.Information Sciences,2001,131:129-156
【38】 Krysz kiewicz M. Rough set approach to incomplete information systems. Information Sciences,1998,112:39-49
【39】Slow in skir R,Vsnderprooten D.Ageneralized definition of rough approximations based on similarity. IEEE Transactions on Data and Knowledge Engineering, 2000,12(2) :
【40】Leung Yee, Wu Wei-Zhi, Zhang Wen-Xiu. Knowledge acquisition in incomplete information systems: A rough set approach. European Journal of Operational Research, 2006(68): 164- 183[ 22] Sun Hui-Qin, Zhang Xiong, Finding minimal reducts from incomplete information systems
【41】 Liang Ji-Ye, Xu Zong-Ben. The algorithm on knowledge reduction in incomplete information systems. International Journal of Uncertainty Fuzziness and Knowledge-Based Systems, 2002,10(1):95-103
【42】 Huang Bing, Zhou Xian-Zhong, Zhang Rong-Rong. At tribute reduction based on information quantity under incomplete information systems. Systems Engineering-Theory and Practice, 2005,4(4):55-60(in Chinese)
【43】 Meng Zu-Qiang, Shi Zhong-Zhi. A fast approach to attribute reduction in incomplete decision systems with tolerance relation-based rough set s.Information Sciences,2009,179:2774-2793
【44】Liang Ji-Ye, Qian Yu-Hua, Chu Cheng- Yuan,LiDe-Yu,Wang Jun-H ong. Rough set approximation based on dynamic granulation, Lecture Notes in Artificial Intelligence 3641,2005:701-708
【45】 Qian Yu-Hua, Liang Ji-Ye, Dang Chuang-Yin. Convers approximation and rule extraction from decision tables in rough set theory. Computers an d Mathem at ics with Applicati on s,2008, 55: 1754-1765
【46】 Qian Yu-H ua, Liang Ji-Ye. Positive approximation and ruleext racting in incomplete information systems. International Journal of Computer Science and Knowledge Engineering,2008,2(1):51-63
【47】Stewart M Yang ,Xiao bin Wu,Zhi hong Deng,etal.Modification of feature selection methods using relative term frequency。
【48】Feature selection m ethod for text based on linear comb ination
Q IU Yun..fe,i WANG Jian..kun, LI Xue, SHAO Liang..shan
【49】GAO Mao-ting,WangZheng -ou.New model for text feature selection based on twin words relationship.Computer Engineering and Applications,2007,43(10):183- 185.
【50】JIANG Sheng-yi,WANG Lian-xi.Feature selection based on feature similarity measure.Computer Engineering and Applications,2010,46(20):153-156.
【51】LIU Hai-yan, WANG Chao, NIU Jun-yu。Improved Feature Selection Algorithm
Based on Conditional Mutual Information(School of Computer Science, Fudan University, Shanghai 201203, China)
【52】Kenneth Ward Church. Patrick Hanks Words accociation norms mutual information and lexicography
【53】Guyon 1 Weston J.Barnhil S .Vapnik V. Gene Selction for cancclassfication using support vector machine.
【54】Freature Selection Algorithm -based approximate markov blanket and dynamic mutual information Yao Xu Wang,Xiao-dan,Zhang yu-xi,Quan wen.
【55】An Approximate Markov Blanket Feature Selection AlgorithmCUI Zi-Feng, XU Bao..Wen1, ZHANG Wei Feng, XU Jun Ling
【56】 Yao Xu,Wang Xiao-dan,Zhang Yu-xi,Quan, Wen(Missile Institute,Air Force Engineering University, Sanyuan 713800,China)
【57】 Yang Yiming, Pederson J O. A Comparative Study on Feature Selection in Text Categorization [ A]. Proceedings of the 14th International Conference on Machine learning[ C]. Nashville:Morgan Kaufmann,1997:412- 420.
【58】Study on Feature Selection in Chinese Text CategorizationZHOU Qian, ZHAO Ming..sheng, HU min
【59】Xu Y, Li JT, Wang B, Sun CM. A category resolve power-based feature selection method. Journal of Software,2008,19(1):82.89.
【60】ZHANG Yu-fang,WANG Yong,XIONG Zhong-yang,LIU Ming(College of Computer,Chongqing University,Chongqing 400044,China)
【61】Xu Yanl”,Li Jinta01,Wang Binl,Sun Chunmin91一,and Zhang Senl
1(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080)2(North China Electric Power University,Beijing 102206)
【62】基于同义词词林的文本特征选择方法 郑艳红,张东站
【63】G Forrnan.An extensive empirical study of feature selectionmetrics for text classification.Journal of Machine Learning Research,2003,3(1):1289—1305
【64】JI Jun-zhong1,WU Jin-yuan1,WU Chen-sheng2,DU Fang-hua1 1. Beijing Municipal Key Laboratory of Multimedia and Intelligent Software Technology,College of Computer Science and Technology,Beijing University of Technology,Beijing 100124,China;2. Beijing Institute Science and Technology Information,Beijing 100048,China)
【65】Xu Hong-guo , WANG Su-ge( School of Mathematical Science , Shanxi University, Taiyuan 030006, China)
【66】Wu Di①② Zhang Ya-ping① Yin Fu-liang①LiMing ②①(Department of computer science and Engineering, Dalian university of technology, Dalian 116024, China)
【67】Jin g Hong-fang ,Wang Bin , Yangya-hui, Institute ofeomputing ehnolo, chinese Aeadmyo f seiencees ,Beijin g, 1 0 0-9 0
【68】基于论域划分的无监督文本特征选择方法 颢东吴怀广( 郑州轻工业学院计算机与通信工程学院,郑州450002)
【69】 Gheyas I A,Smith L S. Feature subset selection in large dimensionality domains. Pattern Recognition,2010; 43(1): 5—13
【70】 朱颢东,李红婵,钟勇. 新颖的无监督特征选择方法. 电子科技大学学报,2010; 39( 3) : 412—415
【71】 An unsupervised feature selection approach based on mutual information.Xu特征平等:
【72】Leonardis A,Bischof H.Robust recognition using eigenimages.Computere Vision and Ima Understanding.2000,78(1):99-118.