基于libsvm的中文文本分类原型

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地

wangran51

2649人浏览 · 2012-12-28 10:21:06

wangran51 · 2012-12-28 10:21:06 发布

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。SVM理论的学习，请参考jasper的博客。

LIBSVM 是台湾大学林智仁(Chih-Jen Lin)博士等开发设计的一个操作简单、易于使用、快速有效的通用 SVM 软件包,可以解决分类问题(包括 C−SVC 、ν−SVC )，回归问题(包括 ε − SVR 、v− SVR ) 以及分布估计(one − class − SVM ) 等问题,提供了线性、多项式、径向基和 S 形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。LIBSVM 是一个开源的软件包,。他不仅提供了 LIBSVM 的 C++语言的算法源代码,还提供了 Python、Java、R、MATLAB、Perl、Ruby、LabVIEW以及 C#.net 等各种语言的接口,可以方便的在 Windows 或 UNIX 平台下使用,也便于科研工作者根据自己的需要进行改进(譬如设计使用符合自己特定问题需要的核函数等)。

文本分类，大致分为如下几件事情：样本，分词，特征提取 ，向量计算 ，分类训练 ，测试和调试 。

1.样本选择

搜狗语料 http://www.sogou.com/labs/dl/c.html ，下精简版吧，如果实验用用，这足够了，你要下107M的也可以。当然，你也可以自己找语料，不过麻烦点而已，把各大门户网站的对应频道下的文章都爬下来。

2.分词

Bamboo分词，这是基于CRF++的分词模块，既然是研究统计学习，分词也得用基于统计的不是，如果还是用一字典来分词，那就太out啦。

http://code.google.com/p/nlpbamboo/wiki/GettingStarted 。安装完毕bamboo，还要下载训练好的模型（这个模型是基于人民日报1月语料）

http://code.google.com/p/nlpbamboo/downloads/list ，下载index.tar.bz2，解压到/opt/bamboo/index下。

因为咱主要目的是研究分类，不是分词，就不要去搞分词的训练了，如果想训练可以看我的另外一篇博客：CRF++中文分词指南。

nlpbamboo安装的几个要点

1、CRF++使用默认目录安装

2、编译完nlpbamboo后执行下/opt/bamboo/bin/bamboo看看bamboo是否安装成功

如果提示ERROR: libcrfpp.so.0: cannot open shared object file: No such file or directory需要执行以下操作

ln -s /usr/local/lib/libcrfpp.so.* /usr/lib/
ldconfig

3、安装PHP扩展后下载index.tar.bz2这个模型，然后在php.ini中添加

bamboo.parsers = crf_seg

因为官方的 index.tar.bz2 中只包含 crf_seg 的 model，所以不加 crf_pos 那些；否则php将无法

可以试试：/opt/bamboo/bin/bamboo -p crf_seg filename，如果成功证明装好了。

稍微注意以下，搜狗的词库是gb2312的，所以，请转为utf8，再分词，这是python写的函数：输入一个文件名，转为utf8，再分词，分词文件以.seg为后缀。

[python]view plaincopy 
   
 def seg(fn):  
     if not os.path.isfile(fn+'.utf8'):  
     cmd = 'iconv -f gb2312 -t utf8 -c %s > %s.utf8' %(fn,fn)  
     print cmd  
     os.system(cmd)  
     cmd = '/opt/bamboo/bin/bamboo -p crf_seg %s.utf8 > %s.seg' % (fn,fn)  
     print cmd  
     os.system(cmd)   

分词结果如下：

一家刚刚成立两年的网络支付公司，它的目标是成为市值 100亿美元的上市公司。
这家公司叫做快钱，说这句话的是快钱的 CEO 关国光。他之前曾任网易的高级副总裁，负责过网易的上市工作。对于为什么选择第三方支付作为创业方向，他曾经对媒体这样说： “ 我能看到这个胡同对面是什么，别人只能看到这个胡同。 ” 自信与狂妄只有一步之遥 ―― 这几乎是所有创业者的共同特征，是自信还是狂妄也许需要留待时间来考证。

3.特征提取

svm不是在高维模式识别具有优势吗，咋还要特征提取呢，把所有词都当成特征不就行了吗？对于词库来说，十几万的词是很常见的，把对类别区分度（GDP，CPI，股票对经济类的区分度就高，其他一些高频词，如我们，大家，一起等就没有区分度）高的词挑选出来，一来可以减少计算量，二来应该是可以提高分类效果。

据说，开方检验（CHI）信息增益（IG）对于挑选特征好，我选择的是CHI。两者的概念，请google。

首先统计词在文档中的次数

[python]view plaincopy 
   
 #ingore some term  
 def ingore(s):  
     return s == 'nbsp' or s == ' ' or s == ' ' or s == '/t' or s == '/n' /  
            or s == '，' or s == '。' or s == '！' or s == '、' or s == '―'/  
            or s == '？'  or s == '＠' or s == '：' /  
            or s == '＃' or s == '%'  or s == '＆' /  
            or s == '（' or s == '）' or s == '《' or s == '》' /  
            or s == '［' or s == '］' or s == '｛' or s == '｝' /  
            or s == '*' or s == ',' or s == '.'  or s == '&' /  
            or s == '!' or s == '?' or s == ':' or s == ';'/  
            or s == '-' or s == '&'/  
            or s == '<' or s == '>' or s == '(' or s == ')' /  
            or s == '[' or s == ']' or s == '{' or s == '}'    
      
 #term times  
 def getterm(fn):  
     fnobj = open(fn,'r')  
     data = fnobj.read()  
     fnobj.close()  
     arr = data.split(' ')  
     docterm = dict()  
     for a in arr:     
     a = a.strip(' /n/t')  
     if not ingore(a) and len( a.decode('utf-8')) >=2:  
         times = docterm.get(a)  
         if times:  
         docterm[a] = times + 1  
         else:  
         docterm[a] = 1        
     return docte  
 #cls_term:cls,term,artcount  
 #term_cls:term,cls,artcount  
 def stat(cls,fn,cls_term,term_cls):  
     docterm = getterm(fn)  
     termdi = cls_term.get(cls)  
     if not termdi:  
     termdi  = dict()  
     cls_term[cls] = termdi  
     #term,times  
     for t in docterm.iterkeys():  
     artcount = termdi.get(t)  
     if not artcount:  
         artcount = 0      
     termdi[k] = artcount + 1  
     clsdi = term_cls.get(t)  
     if not clsdi:  
         clsdi = {}  
         term_cls[k] = clsdi  
     artcount = clsdi.get(cls)  
     if not artcount:  
         artcount = 0  
     clsdi[cls] = artcount + 1  

分别计算每个词的a/b/c/d

a：在这个分类下包含这个词的文档数量

b：不在该分类下包含这个词的文档数量

c：在这个分类下不包含这个词的文档数量

d：不在该分类下，且不包含这个词的文档数量

因为前面统计了每个类下，每个词，文章数和每个词，每个类，文章数。所以很容易得到a,b,c,d的值。

z1 = a*d - b*c
x2 = (z1 * z1 * float(N)) /( (a+c)*(a+b)*(b+d)*(c+d) )

开方检验计算公式

计算之后，排序，并取出前1000个词（这里指的每个类别的特征词）。

li = sorted(termchi.iteritems(), key=lambda d:d[1], reverse = True)

循环每个分类，并把每个类别的特征合并（合并成一个文件，作为特征词典），合并后存为feature文件，第一列是序号，第二列是对应的词，序号就是特征号。

1       逐项
2       深市
3       九寨沟
4       岛内
5       期望
6       第20分钟
7       合理
8       谢杏芳
9       赛迪
10      毛泽东

注：特征选择的目的就是选择在该类下，不在其他类下的特征，但是重复是避免不了的，合并的文件肯定是排重过的。先选择每个类下的1000个词，假如10个类，则共选择10 * 1000个词，然后去重，并生成特征的唯一id。

4.训练和测试样本组织

搜狐语料的1990篇中的1890作为训练集，100篇作为测试集，分别形成train和test文件，libsvm的训练集的格式为：

lable1 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...

lable2 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...

对应到文本分类上就是：类别ID 特征序号（第3步计算的特征序号）：特征值（TFIDF值）......

如，我摘了一行，这是一篇文章的例子，8就是类别ID，189是特征“189 指导"的序号，0.171153是特征值：

8 189:0.171153 253:0.081381 298:0.630345 504:0.135512 562:79.423503 578:0.072219 698:0.078896 710:0.036074 740:0.215368 868:0.263524 1336:0.114355 1365:0.076494 1372:0.085780 1555:0.572497 1563:3.932806 1598:0.114717 1685:0.129870 1972:0.193693 2282:0.061828 2865:0.026699 2897:0.099020 3040:0.039621 3041:0.258073 3191:0.091276 3377:0.125544 3454:0.062189 3623:0.139698 3653:0.128304 3932:2.990233 4353:0.202133 4394:0.312992 4420:0.356354 4424:0.482424 4522:0.447795 4675:3.618182 4767:0.065334 4848:0.270417 4875:0.213588 4941:0.407453 5004:0.070447 5125:0.717893 5214:3.222299 5250:0.052897 5251:0.281352 5310:2.010101 5357:0.203956 5474:0.034037 5504:0.193900 5861:0.859426 6120:1.320504 6129:0.107941 6364:0.184225 6373:0.287843 6379:0.080727 6385:0.712241 6847:0.209023 7007:0.147802 7121:1.320504 7547:0.248161 7636:0.108981

采用TFIDF的算法，数据处理和特征选择类似，计算每个类，每篇文档，每个词的次数，以包含这个词的文档数。每篇文章的每个特征项，用TF/DF的值作为特征值。（后记：用TF * IDF，然后用svm-scale缩放到0,1之间，效果比TF/DF要好，准确率能达到82%。，计算方式如下：

    tf = float(times) / total
    idf = math.log( N / float(term_count[term]) )
    term_times[term] = tf * idf

）

[python]view plaincopy 
   
 #doc_term: class doc term times  
 #term_doc: term doccount  
 def tfidf(doc_term,term_doc):  
     print 'begin compute tf * idf'  
     for cls,docdi in doc_term.iteritems():  
     for doc,termdi in docdi.iteritems():  
         total = 0  
         for term,times in termdi.iteritems():  
         total += times  
         for term,times in termdi.iteritems():  
         tf = float(times) / total  
         df = float(term_doc[term]) / N  
         termdi[term] = tf / df  

注意：用CHI是提取类别的特征词，而这里用TFIDF是计算文档的特征向量，前者是要体现类别的区分度，后者要体现文档的区分度，两者概念和所做的事情不一样，所以采用的方法也不一样。

5.用libsvm训练

你看，忙活了半天，还没有到libsvm呢，其实前面几步很麻烦的，libsvm的资料不少，但是都是一个几行数据的简单例子，这不具有实际应用的价值，只有把样本，分词，特征提取/特征计算搞定了，分类才能做好。

下载libsvm：http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+zip

解压，make

svm-scale：特征缩放的工具 svm-train：训练工具 svm-predict：测试工具

toos/grid.py：寻找参数的工具

用默认参数试试：

./svm-train train.s model.s

./svm-predict test.s model.s result.s

结果

Accuracy = 74.3889% (1339/1800) (classification)

不算太理想，也不算太差。如果只是2个类，结果能到95%。我想可以从如下几个方面改进：

增加分词的样本数，训练更好的分词模型。
特征提取后，用人工进行调整，因为很多词对于类别区分度不高。
用grid.py寻找合适的参数。

参考资料：

jasper的博客，SVM理论的学习资料：http://www.blogjava.net/zhenandaci/category/31868.html

通俗易懂，要好好读读。

libsvm的官方网站：http://www.csie.ntu.edu.tw/~cjlin/libsvm/

看了理论性的东西，最好实践以下，libsvm就是很好的实践工具。

Vapnik的两本书，我买了第二本，发现公式太多，好晦涩。准备买第一本，据说第一本比较浅显易懂一些

《统计学习理论的本质》

http://product.dangdang.com/product.aspx?product_id=20602023&ref=search-0-A

《统计学习理论》

http://product.dangdang.com/product.aspx?product_id=20529098&ref=search-0-A

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生