登录 注册
当前位置:主页 > 资源下载 > 10 > 释义句压缩技术NLP-Sentence-Compression,运用深层链接的双语短语对齐方法

释义句压缩技术NLP-Sentence-Compression,运用深层链接的双语短语对齐方法

  • 更新:2024-12-13 23:31:44
  • 大小:95.17MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:其它 - 开发技术
  • 格式:ZIP

资源介绍

释义压缩 这是一个 NLP 课程研究项目,研究使用深层链接双语短语对齐和跨域平行语料库来改善释义句子压缩结果。 准备数据 获得平行句 使用的平行语料库是: 圣经语料库需要从初始的 XML 格式进行预处理,可以使用以下命令完成: python bible_parser.py 代币化 为了从并行语料库中对句子进行分词,根目录中提供了分词器脚本。 运行脚本需要一些额外的依赖项。 通过sudo pip install nltk下载 nltk 库。 在终端中运行python和nltk.download() 。 这将打开一个安装目录,您可以从中安装必要的 punkt 标记器模型。 最后,您可以运行标记生成器脚本。 python tokenizer.py <input filename 1> ...