当前位置:主页 > 资源下载 > 32 > simhash.zip下载

simhash.zip下载

更新：2024-06-17 09:47:32
大小：9.03MB
推荐：★★★★★
来源：网友上传分享
类别：互联网 - 行业
格式：ZIP

反馈 / 投诉

资源介绍

simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法，适合于大批量文档的相似度计算。流程介绍 simhash是由 Charikar 在2002年提出来的，为了便于理解尽量不使用数学公式，分为这几步： 1、分词，把需要判断文本分词形成这个文章的特征单词。 2、hash，通过hash算法把每个词变成hash值，比如“美国”通过hash算法计算为 100101,“51区”通过hash算法计算为 101011。这样我们的字符串就变成了一串串数字。 3、加权，通过 2步骤的hash生成结果，需要按照单词的权重形成加权数字串，“美国”的hash值为“100101”，通过加权计算为“4 -4 -4 4 -4 4” “51区”计算为 “ 5 -5 5 -5 5 5”。 4、合并，把上面各个单词算出来的序列值累加，变成只有一个序列串。 “美国”的 “4 -4 -4 4 -4 4”，“51区”的 “ 5 -5 5 -5 5 5” 把每一位进行累加， “4+5 -4+-5 -4+5 4+-5 -4+5 4+5”“9 -9 1 -1 1 9” 5、降维，把算出来的 “9 -9 1 -1 1 9”变成 0 1 串，形成最终的simhash签名。

上一篇: SimHash-java实现及海明距离
下一篇: 图书管理系统源代码(java实现）.docx

相关推荐

12-02 JAVA_API_1.8 中文版下载
12-02 Java音视屏播放器绝对完美版zip下载
12-02 JAVA JDK1.8_API(官方下载).zip
12-02 java1.8中文版本的开发文档下载
12-02 java APIchm中文版下载
12-02 java 1.8 API 中文版下载
12-02 好的软件人员一生必看的六十本书，介绍了迄今为止最好的60本经典教材，pdf下载
12-02 Java API官方文档中文版.CHM下载
12-02 java API CHM 中文版下载
12-02 中文版javaAPI（chm格式）下载

simhash.zip下载

资源介绍

热门标签

资源声明