-
CVPR_paper_search_tool:由Facebook Research的fastText支持的自动文件聚类与搜索工具
资源介绍
使用 ,针对ICCV / CVPR论文的自动文档聚类和搜索工具
屏幕
产品特点
通过文本语料库构建单词/短语数据集
通过fasttext训练单词嵌入向量
建立dcoument向量并减少数据量
集群化和可视化每个文档
通过关键字搜索文档
通过类似的文件查找文件
脚步
0.刮
从刮取纸张信息(标题,摘要和PDF)。 然后提取单词以建立语料库。 对该示例进行HTML / PDF的抓取有些偏离主题,因此我从该存储库中删除了这些抓取代码。
从每个PDF中提取文本后,我们将对数据进行如下预处理。
用“ / n”删除“-”以连接被CR除的单词。
然后将“-”替换为“”。
将所有其他非字符代码替换
- 上一篇: Lin_Semantics-Preserving_Hashing_for_2015_CVPR_paper
- 下一篇:没有了