文件名称:onTextCategorization
- 所属分类:
- 人工智能/神经网络/遗传算法
- 资源属性:
- [PDF]
- 上传时间:
- 2012-11-26
- 文件大小:
- 235kb
- 下载次数:
- 0次
- 提 供 者:
- x*
- 相关连接:
- 无
- 下载说明:
- 别用迅雷下载,失败请重下,重下不扣分!
介绍说明--下载内容均来自于网络,请自行研究使用
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增
益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类
器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和
CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的
矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的
有效性。-Thispaper is a comparativestudy of feature selectionmethodsintext categorization. Four methods were
evaluated, including document frequency ( DF) , information gain ( IG) , mutual information ( MI) andV
2
-test
( CHI). ASupport Vector Machine ( SVM) anda k-nearest neighbor ( KNN) wereselectedastheevaluating class-i
fiers. We foundIG, MI andCHI hadpoor performance inour test, thoughthey behavewell inEnglishtext catego-rization. We analyzedthereasonstheoretically andput forwardedthe possible solutions. Afurthermore experiment
provedthat the combinedfeatureselectionmethodis effective.
益IG、互信息MI、V2分布CHI 四种不同的特征选取方法。采用支持向量机(SVM) 和KNN两种不同的分类
器以考察不同抽取方法的有效性。实验结果表明, 在英文文本分类中表现良好的特征抽取方法( IG、MI 和
CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因, 并分析了可能的
矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的
有效性。-Thispaper is a comparativestudy of feature selectionmethodsintext categorization. Four methods were
evaluated, including document frequency ( DF) , information gain ( IG) , mutual information ( MI) andV
2
-test
( CHI). ASupport Vector Machine ( SVM) anda k-nearest neighbor ( KNN) wereselectedastheevaluating class-i
fiers. We foundIG, MI andCHI hadpoor performance inour test, thoughthey behavewell inEnglishtext catego-rization. We analyzedthereasonstheoretically andput forwardedthe possible solutions. Afurthermore experiment
provedthat the combinedfeatureselectionmethodis effective.
(系统自动生成,下载前可以参看下载内容)
下载文件列表
中文文本分类中特征抽取方法的比较研究.pdf