-
大型数据集:用于对话AI的对话数据集
资源介绍
会话数据集
用于对话响应选择的大型数据集的集合。
该存储库提供了用于创建可重现的数据集的工具,用于训练和评估会话响应模型。 这包括:
-37亿条基于话题对话的评论
电影和电视字幕超过4亿行(提供英语和其他语言)
-亚马逊产品中超过360万个问题-答案对
机器学习方法最适合诸如此类的大型数据集。 在PolyAI,我们在庞大的对话数据集上训练对话响应模型,然后将这些模型适应对话AI中特定领域的任务。 在庞大的数据集上对大型模型进行预训练的一般方法在图像社区中早已流行,现在在NLP社区中正在兴起。
除了提供原始处理的数据外,我们还提供脚本和说明来自行生成数据。 这使您可以查看并可能操纵预处