登录 注册
当前位置:主页 > 资源下载 > 10 > JAVA语言开发的Gwenson-robot是一个应用级分布式爬虫搜索引擎机器人

JAVA语言开发的Gwenson-robot是一个应用级分布式爬虫搜索引擎机器人

  • 更新:2024-06-17 09:56:08
  • 大小:7.51MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

word源码java Gwenson-robot爬虫机器人 这是一个使用JAVA语言开发的可分布式的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8 [TOC] 我的项目应用部署地址 ​ 该项目都用到了哪些技术? ​ spring boot、spring data redis、jsoup、word、mybatis、spring data elasticsearch、spring mvc、bootstrap、JSP等等 ​ 工程项目结构的介绍 common 模块项目是一个公共工具类依赖包模块。 项目结构介绍: common └─src └─main └─java └─com └─gwenson └─common ├─dao │ └─redis ├─model └─utils search-robot模块项目是一个基于spring boot框架的爬虫机器人模块。 项目结构介绍: searc