-
Java实现的Web搜索引擎,采用了TF-IDF(术语频率-逆文档频率)算法
资源介绍
网页搜寻引擎
演示版
视频-https:
介绍
它是Java中的Web搜索引擎,它接受10000多个网站作为输入,对其进行索引,并根据查询返回前10页。 它具有诸如爬网程序,索引编制,解析,拼写检查和查询建议之类的功能。 这些概念用于开发此Web搜索引擎
倒排索引
TST(三元搜索Trie)用于存储索引文档
词频-反向文档频率,用于衡量一个单词相对于其他文档而言有多重要
搜寻器中的HashSet,用于检查是否在固定时间内对网址进行了爬网
HashMap保留文档ID和文档信息记录
Sorting(Collections.sort-mergesort)对排名页面进行排序
正则表达式将文档拆分为单词
汤
编辑距离以进行拼写检查。
怎么跑
在Eclipse中导入项目
在项目中包括外部库Jsoup
跑步
- 上一篇: 正则表达式帮助文档(正则表达式)
- 下一篇: 合并PDF软件.rar