-
北京大学网络体系结构实习项目,涉及搜索-wbia-的报告及源码
资源介绍
北京大学网络体系结构实习-搜索-wbia-报告及源码
内含《 BBS“十大”博物馆及检索系统(Hoten) 》的所有相关文档,包括爬虫源码、分词、建索引、界面。
还有《基于时间的活动分类搜索》的项目计划书。
1.1 项目背景
1.1.1 项目动机
我们曾经有一个想法,就是想做BBS系统信息的收集与检索系统。但是,一个朋友告诉我,我们每天都很“忙”,连看新闻的时间都没有,哪还有时间去看不起BBS,我们每天上进心BBS,假如不是发表文章的话,无非就是想关注一下今日的“十大”而已。后来,我们再调查了许多同学,发现他们上进心BBS的兴趣都会包含十大,于是就催生出了我们这个想法——做BBS“十大”博物馆及检索系统,取英文名为:Hoten。我们相信:
关注最热的话题
我们激发用户的兴趣
获取最有价值的信息
抓取9大高校官方bbs当日十大热门话题
同时在线用户数高达4.6万[1],日访问量约15万
民间主流媒体的头版头条
话题覆盖各个方面,代表民间关注的热点
目前在市面上没有专门对热门BBS系统的十大进行搜索、保存并整理的系统,因此我们的工作具有一定的实际意义。
1.1.2 项目目标
抓取9大高校官方bbs当日十大热门话题
民间主流媒体的头版头条
项目能有良好的扩展,任意添加想关注的BBS
不仅项目有添加BBS的扩展功能,用户最终也可以定制自己关注的BBS系统。
我们做能上线的系统,形成一个联合大学生BBS
如果遇到任何问题,或者想转载,可以到我的主页留言:http://blog.sina.com.cn/gusui ,或者直接给我来邮件:ouyangj0@gmail.com 谢谢:)