-
释义句压缩技术NLP-Sentence-Compression,运用深层链接的双语短语对齐方法
资源介绍
释义压缩
这是一个 NLP 课程研究项目,研究使用深层链接双语短语对齐和跨域平行语料库来改善释义句子压缩结果。
准备数据
获得平行句
使用的平行语料库是:
圣经语料库需要从初始的 XML 格式进行预处理,可以使用以下命令完成:
python bible_parser.py
代币化
为了从并行语料库中对句子进行分词,根目录中提供了分词器脚本。
运行脚本需要一些额外的依赖项。
通过sudo pip install nltk下载 nltk 库。
在终端中运行python和nltk.download() 。 这将打开一个安装目录,您可以从中安装必要的 punkt 标记器模型。
最后,您可以运行标记生成器脚本。
python tokenizer.py <input filename 1>
- 上一篇: NEU表面缺陷检测数据集大全
- 下一篇: WMT14数据集