-
数据集Topical-Chat:适用于开放域对话,包含丰富的人类知识
资源介绍
话题聊天
我们介绍了Topical-Chat,这是一个以知识为基础的人与人之间的对话数据集,其基础知识涵盖8个广泛的主题,并且对话伙伴没有明确定义的角色。
主题聊天大致包括两种类型的文件:
(1)对话文件-这些是.json文件,其中包含Amazon Mechanical Turk(也称为Turkers)上两个工作人员之间的对话。
(2)阅读集合文件-这些是.json文件,其中包含来自不同数据源(*,Reddit和《华盛顿邮报》)的知识部分,这些知识部分由特定Turker负责阅读和引用,因为它们正在进行对话。
为了获得阅读集,我们提供了一个简单的1脚本解决方案(build.py),用于从必要的数据源中提取文本以构建完整的阅读集。
有关数据集和基准测试的更多详细信息,请参见
设置环境以构建数据
Ensure that your Python Interpreter >= 3.7