登录 注册
当前位置:主页 > 资源下载 > 50 > 一种用于有效计算文本相似度的算法称为simhash

一种用于有效计算文本相似度的算法称为simhash

  • 更新:2024-06-17 09:47:50
  • 大小:2.05MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

simhash 高效的文本相似度去重算法实现 simhash是什么 Google发明的的文本去重算法,适合于大批量文档的相似度计算 主要步骤 对文本分词,得到N维特征向量(默认为64维) 为分词设置权重(tf-idf) 为特征向量计算哈希 对所有特征向量加权,累加(目前仅进行非加权累加) 对累加结果,大于零置一,小于零置零 得到文本指纹(fingerprint)