当前位置:主页 > 资源下载 > 10 > 并行和单语语料库的过滤与清理工具parallel-corpora-tools，适用于机器翻译及其它自然语言处理任务

并行和单语语料库的过滤与清理工具parallel-corpora-tools，适用于机器翻译及其它自然语言处理任务

更新：2024-12-13 23:14:14
大小：20KB
推荐：★★★★★
来源：网友上传分享
类别：自然语言处理 - 人工智能
格式：ZIP

反馈 / 投诉

资源介绍

Corpora清洁工具用于过滤和清洗并行和单语语料库的工具，以训练更好的（神经）机器翻译系统。受到的“数据过滤和数据预处理”部分。该存储库包含一些更基本的脚本，这些脚本可以帮助摆脱并行语料库中的大部分垃圾。附带的工具并行语料库的工具用于单语语料库的工具要求带有Python PHP pip install subword-nmt pip install langid 刊物如果使用此工具，请引用以下文章： MatīssRikters（2018）。 “ ”第八届人类语言技术会议论文集-波罗的海观点（Baltic HLT 2018）（2018）。 @inproceedings { Rikters2018BalticHLT , author = { Rikters, Matīss } , booktitle = { In Proceedings of the 8th

上一篇: 干净的数据——数据清洗与入门（内附图书）
下一篇: 测试用的闲聊语料

相关推荐

12-02 并行和单语语料库的过滤与清理工具parallel-corpora-tools，适用于机器翻译及其它自然语言处理任务

并行和单语语料库的过滤与清理工具parallel-corpora-tools，适用于机器翻译及其它自然语言处理任务

资源介绍

热门标签

资源声明