-
并行和单语语料库的过滤与清理工具parallel-corpora-tools,适用于机器翻译及其它自然语言处理任务
资源介绍
Corpora清洁工具
用于过滤和清洗并行和单语语料库的工具,以训练更好的(神经)机器翻译系统。
受到 的“数据过滤和数据预处理”部分。 该存储库包含一些更基本的脚本,这些脚本可以帮助摆脱并行语料库中的大部分垃圾。
附带的工具
并行语料库的工具
用于单语语料库的工具
要求
带有Python
PHP
pip install subword-nmt
pip install langid
刊物
如果使用此工具,请引用以下文章:
MatīssRikters(2018)。 “ ”第八届人类语言技术会议论文集-波罗的海观点(Baltic HLT 2018)(2018)。
@inproceedings { Rikters2018BalticHLT ,
author = { Rikters, Matīss } ,
booktitle = { In Proceedings of the 8th
- 上一篇: 干净的数据——数据清洗与入门(内附图书)
- 下一篇: 测试用的闲聊语料