-
细分至Task层面的自然语言处理及知识图谱相关语料库,欢迎大家提交PR
资源介绍
把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。
数据使用范围、授权请参考原始发布源(如果有的话),如有侵权,请联系我删除。
有的数据源(网站、论文)提供了多语语料,为避免重复,只在中文或外语对应章节列出(比如翻译)。如有多语资源,会在相应章节进行说明(如需要特定任务的数据集,可以分别在中文和外语语料对应章节进行查看)。
我这里“问答”和“阅读理解”划分的标准是:输入是一段背景信息或者加上用户query,输出是从背景信息抽取的答案(或者判定不能回复)或者填空,这样的数据集归类为“阅读理解”;“问答”可以看做是对话的另外一种形式。
关注公众号:尘世美小茶馆,获取更多丰富资源。
目录:
1.4.2 MSRA命名实体识别数据集
1.4.3 人民日报命名实体识别数据集
1.4.4 微博命名实体识别数据集
1.4.5 影视-音乐-书籍实体标注数据
1.4.6 Bo
- 上一篇: python 语料收集
- 下一篇: 用Python进行自然语言处理(中文)