登录 注册
当前位置:主页 > 资源下载 > 49 > 从百度百科中文页面抓取信息,提取三元组数据,进而构建中文知识图谱的工具是WEB_KG

从百度百科中文页面抓取信息,提取三元组数据,进而构建中文知识图谱的工具是WEB_KG

  • 更新:2024-08-22 13:57:02
  • 大小:1.45MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

开源web知识图谱项目 爬取百度百科中文页面 解析三元组和网页内容 建立中文知识图谱 建立百科bot(重建中) 更新20200720 Windows上的部署参考,感谢LMY-nlp0701! 更新20191121 迁移代码到爬虫框架scrapy 优化了抽取部分代码 数据持久化迁移到mongodb 修复chatbot失败问题 开放neo4j后台界面,可以查看知识图谱成型效果 提示 如果是项目问题,请提问题。 如果涉及到不方便公开的,请发邮件。 ChatBot请访问 成型的百科知识图谱访问,用户名:neo4j,密码:123。效果如下: 环境 python 3.6 re:url正则匹配 scrapy:网页爬虫和网页解析 neo4j:知识图谱图数据库,安装可以参考 pip install neo4j-driver:neo4j python驱动 pip install pymongodb:mongodb的python支持 mongodb数据库:安装参考 代码执行: cd WEB_KG/baike scrapy crawl baike 执行界面(按ctrl + c停止): 知识图谱效果图