登录 注册
当前位置:主页 > 资源下载 > 5 > Java实现的Web搜索引擎,采用了TF-IDF(术语频率-逆文档频率)算法

Java实现的Web搜索引擎,采用了TF-IDF(术语频率-逆文档频率)算法

  • 更新:2024-06-22 19:14:20
  • 大小:282.04MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

网页搜寻引擎 演示版 视频-https: 介绍 它是Java中的Web搜索引擎,它接受10000多个网站作为输入,对其进行索引,并根据查询返回前10页。 它具有诸如爬网程序,索引编制,解析,拼写检查和查询建议之类的功能。 这些概念用于开发此Web搜索引擎 倒排索引 TST(三元搜索Trie)用于存储索引文档 词频-反向文档频率,用于衡量一个单词相对于其他文档而言有多重要 搜寻器中的HashSet,用于检查是否在固定时间内对网址进行了爬网 HashMap保留文档ID和文档信息记录 Sorting(Collections.sort-mergesort)对排名页面进行排序 正则表达式将文档拆分为单词 汤 编辑距离以进行拼写检查。 怎么跑 在Eclipse中导入项目 在项目中包括外部库Jsoup 跑步