-
Python coffee break - 文档特征选择
资源介绍
(1)剔除停用词
停用词是指在文档中大量出现,但对表征文档特征几乎无用的词语,例如汉
语中的“我”、“怎样”、“它”、“最终”等,这些词语在文档中出现的频率很高,但只是起
到了搭建文档句子结构的作用,对文档具体特征的表述却不起任何作用,反而会
影响文档特征的提取。所以在中文分词后,需要剔除掉这些网页停用词,这样不
但可以大大降低网页向量的维度,还可以提高网页关键词的密度。而副除停用词
首先要构建停用词表,停用词表主要包括文档中常用的副词、连词、语气词等。
(2)文档特征选择
剔除网页停用词后,一定程度上降低了网页向量的维度,但还远远达不到现
实中对网页向量维度的要求,所以还要选择适当的方法剔除噪音词语,进而达到
对网页向量降维的目的。一般降低向量维度都遵循一个原则,留下代表文档特征
的词语。而选择文档特征词的方法有很多,例如互信息、信息增益等,其中比较
经典的一种方法是算法。具体算法思想是:在一个文档的集合 U中,包含了 N
篇文档,其中文档可用 d1,d2,d3,dN表示,在一篇文档中又包含了很多个词,这
些词可用 T1,T2,T3,Tn表示。对于文档 dj中的词语 ti,tfij表示词语丨在文档 dj中
出现的频率;idfi表示在文档集合中,总文档数与包含词语 ti的文档数比值的对
数;而 tfidfij示词语在文档 dj中的权重值。
文档中词语值 tf的计算方法见上式一,其中 ni代表词语在文档 dj中出现的
次数,Nt代表文档 dj中包含的词语总数,而两者的比值即为词语 ti在文档中出现
的频率,tf值越高代表这个词语在文档中的重要性越大,反之亦然。文档中词语
idf值的计算方法见上式二。其中 N代表文档集合中文档的总数,Nw代表文档集
合 U中包含词语 ti的文档篇数,两者比值的对数值即为词语的 idf值,其中 idf
值越大,代表含有这个词语的文档数越少,词语特征性越强,即词语在文档中的
重要性越大,反之亦然。而 tfidf值的计算方法见下式:
tfidfij=tfij×idfi
- 上一篇: (C#)百度人脸识别离线SDK
- 下一篇: cImage-master.zip