-
自己动手写搜索引擎(罗刚著).doc下载
资源介绍
自己动手写搜索引擎 1
第1章 了解搜索引擎 1
1.1 Google神话 1
1.2 体验搜索引擎 1
1.3 你也可以做搜索引擎 4
1.4 本章小结 4
第2章 遍历搜索引擎技术 5
2.1 30分钟实现的搜索引擎 5
2.1.1 准备工作环境(10分钟) 5
2.1.2 编写代码(15分钟) 6
2.1.3 发布运行(5分钟) 9
2.2 搜索引擎基本技术 14
2.2.1 网络蜘蛛 14
2.2.2 全文索引结构 14
2.2.3 Lucene 全文检索引擎 15
2.2.4 Nutch网络搜索软件 15
2.2.5 用户界面 17
2.3 商业搜索引擎技术介绍 17
2.3.1 通用搜索 17
2.3.2 垂直搜索 18
2.3.3 站内搜索 19
2.3.4 桌面搜索 21
2.4 本章小结 21
第3章 获得海量数据 22
3.1 自己的网络蜘蛛 22
3.1.1 BerkeleyDB介绍 27
3.1.2 抓取网页 28
3.1.3 MP3 抓取 29
3.1.4 RSS 抓取 30
3.1.5 图片抓取 33
3.1.6 垂直行业抓取 34
3.2 抓取数据库中的内容 36
3.2.1 建立数据视图 36
3.2.2 JDBC数据库连接 36
3.2.3 增量抓取 40
3.3 抓取本地硬盘上的文件 41
3.3.1 目录遍历 41
3.4 本章小结 42
第4章 提取文档中的文本内容 43
4.1 从HTML文件中提取文本 43
4.1.1 HtmlParser介绍 51
4.1.2 结构化信息提取 54
4.1.3 网页去噪 60
4.1.4 网页结构相似度计算 63
4.1.5 正文提取的工具FireBug 64
4.1.6 正文提取的工具NekoHTML 66
4.1.7 正文提取 68
4.2 从非HTML文件中提取文本 73
4.2.1 TEXT文件 73
4.2.2 PDF文件 73
4.2.3 Word文件 82
4.2.4 Rtf文件 82
4.2.5 Excel文件 83
4.2.6 PowerPoint文件 84
4.3 流媒体内容提取 85
4.3.1 音频流内容提取 85
4.3.2 视频流内容提取 87
4.4 抓取限制应对方法 89
4.5 本章小结 90
第5章 自然语言处理 91
5.1 中文分词处理 91
5.1.1 Lucene 中的中文分词 91
5.1.2 Lietu中文分词的使用 92
5.1.3 中文分词的原理 92
5.1.4 查找词典算法 95
5.1.5 最大概率分词方法 98
5.1.6 新词发现 101
5.1.7 隐马尔可夫模型 102
5.2 语法解析树 104
5.3 文档排重 105
5.4 中文关键词提取 106
5.4.1 关键词提取的基本方法 106
5.4.2 关键词提取的设计 107
5.4.3 从网页提取关键词 107
5.5 相关搜索 107
5.6 拼写检查 110
5.6.1 英文拼写检查 110
5.6.2 中文拼写检查 112
5.7 自动摘要 116
5.7.1 自动摘要技术 117
5.7.2 自动摘要的设计 117
5.7.3 Lucene中的动态摘要 124
5.8 自动分类 125
5.8.1 Classifier4J 126
5.8.2 自动分类的接口定义 127
5.8.3 自动分类的SVM方法实现 128
5.8.4 多级分类 128
5.9 自动聚类 131
5.9.1 聚类的定义 131
5.9.2 K均值聚类方法 131
5.9.3 K均值实现 133
5.10 拼音转换 138
5.11 语义搜索 139
5.12 跨语言搜索 143
5.13 本章小结 144
第6章 创建索引库 145
6.1 设计索引库结构 146
6.1.1 理解 Lucene 的索引库结构 146
6.1.2 设计一个简单的索引库 148
6.2 创建和维护索引库 149
6.2.1 创建索引库 149
6.2.2 向索引库中添加索引文档 149
6.2.3 删除索引库中的索引文档 151
6.2.4 更新索引库中的索引文档 151
6.2.5 索引的合并 151
6.2.6 索引的定时更新 152
6.2.7 索引的备份和恢复 153
6.2.8 修复索引 154
6.3 读写并发控制 154
6.4 优化使用 Lucene 155
6.4.1 索引优化 155
6.4.2 查询优化 157
6.4.3 实现时间加权排序 162
6.4.4 实现字词混合索引 163
6.4.5 定制Similarity 170
6.4.6 定制Tokenizer 171
6.5 查询大容量索引 173
6.6 本章小结 174
第7章 用户界面设计与实现 175
7.1 Lucene 搜索接口(search代码) 175
7.2 搜索页面设计 176
7.2.1 用于显示搜索结果的 taglib 176
7.2.2 用于搜索结果分页的 taglib 178
7.2.3 设计一个简单的搜索页面 180
7.3 实现搜索接口 183
7.3.1 布尔搜索 183
7.3.2 指定范围搜索 183
7.3.3 设置过滤条件 188
7.3.4 搜索结果排序 188
7.3.5 搜索页面的索引缓存与更新 190
7.4 实现关键词高亮显示 191
7.5 实现多维视图 194
7.6 实现相似文档搜索 200
7.7 实现AJAX自动完成 203
7.7.1 总体结构 203
7.7.2 服务器端处理 203
7.7.3 浏览器端处理 205
7.7.4 服务器端改进 206
7.7.5 部署总结 217
7.8 jQuery实现的自动完成 217
7.9 集成其他功能 223
7.9.1 拼写检查 223
7.9.2 分类统计 223
7.9.3 相关搜索 223
7.9.4 再次查找 226
7.9.5 搜索日志 226
7.10 搜索日志分析 228
7.11 本章小结 231
第8章 其他高级主题 232
8.1 使用Solr实现分布式搜索 232
8.1.1 Solr服务器端的配置与中文支持 232
8.1.2 把数据放进Solr 237
8.1.3 删除数据 240
8.1.4 客户端搜索界面 241
8.1.5 Solr索引库的查找 242
8.1.6 索引分发 246
8.1.7 Solr搜索优化 246
8.1.8 Solr中字词混合索引 249
8.1.9 相关检索 253
8.1.10 搜索结果去重 255
8.1.11 分布式搜索 260
8.1.12 SolrJ查询分析器 264
8.1.13 扩展SolrJ 276
8.1.14 扩展Solr 277
8.1.15 Solr的.net客户端 285
8.1.16 Solr的php客户端 286
8.2 图片搜索 291
8.2.1 图像的OCR识别 292
8.3 竞价排名 296
8.4 Web图分析 297
8.5 使用并行程序分析数据 302
8.6 RSS搜索 303
8.7 本章小结 304
参考资源 305
书籍 305
网址 305
本书中的章节和代码对照表 306
- 上一篇: HLA Evolved-新一代HLA标准关键技术综述
- 下一篇: 粒子滤波算法及其应用