登录 注册
当前位置:主页 > 资源下载 > 10 > 并行和单语语料库的过滤与清理工具parallel-corpora-tools,适用于机器翻译及其它自然语言处理任务

并行和单语语料库的过滤与清理工具parallel-corpora-tools,适用于机器翻译及其它自然语言处理任务

  • 更新:2024-12-13 23:14:14
  • 大小:20KB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:自然语言处理 - 人工智能
  • 格式:ZIP

资源介绍

Corpora清洁工具 用于过滤和清洗并行和单语语料库的工具,以训练更好的(神经)机器翻译系统。 受到 的“数据过滤和数据预处理”部分。 该存储库包含一些更基本的脚本,这些脚本可以帮助摆脱并行语料库中的大部分垃圾。 附带的工具 并行语料库的工具 用于单语语料库的工具 要求 带有Python PHP pip install subword-nmt pip install langid 刊物 如果使用此工具,请引用以下文章: MatīssRikters(2018)。 “ ”第八届人类语言技术会议论文集-波罗的海观点(Baltic HLT 2018)(2018)。 @inproceedings { Rikters2018BalticHLT , author = { Rikters, Matīss } , booktitle = { In Proceedings of the 8th