-
一种用于有效计算文本相似度的算法称为simhash
资源介绍
simhash
高效的文本相似度去重算法实现
simhash是什么
Google发明的的文本去重算法,适合于大批量文档的相似度计算
主要步骤
对文本分词,得到N维特征向量(默认为64维)
为分词设置权重(tf-idf)
为特征向量计算哈希
对所有特征向量加权,累加(目前仅进行非加权累加)
对累加结果,大于零置一,小于零置零
得到文本指纹(fingerprint)
- 上一篇: Simhash java实现
- 下一篇: 文本相似度计算的Simhash算法的实现与改进.pdf