-
JAVA语言开发的Gwenson-robot是一个应用级分布式爬虫搜索引擎机器人
资源介绍
word源码java
Gwenson-robot爬虫机器人
这是一个使用JAVA语言开发的可分布式的爬虫机器人,利用redis的list实现匀速爬取目标,并实现了url去重和目标内容去重。其中目标内容去重是先利用word分词然后再利用simhash算法得到一个SimHashCode值,再利用抽屉原理判断海明距离从而得到相似度。注意:使用JDK1.8
[TOC]
我的项目应用部署地址
该项目都用到了哪些技术?
spring
boot、spring
data
redis、jsoup、word、mybatis、spring
data
elasticsearch、spring
mvc、bootstrap、JSP等等
工程项目结构的介绍
common
模块项目是一个公共工具类依赖包模块。
项目结构介绍:
common
└─src
└─main
└─java
└─com
└─gwenson
└─common
├─dao
│
└─redis
├─model
└─utils
search-robot模块项目是一个基于spring
boot框架的爬虫机器人模块。
项目结构介绍:
searc