登录 注册
当前位置:主页 > 资源下载 > 35 > 马来语数据集:马来西亚马来语文本语料库,https:malaya.readthedocs.ioenlatestDataset.html下载

马来语数据集:马来西亚马来语文本语料库,https:malaya.readthedocs.ioenlatestDataset.html下载

  • 更新:2024-07-26 12:07:50
  • 大小:236.96MB
  • 推荐:★★★★★
  • 来源:网友上传分享
  • 类别:数据集 - 行业研究
  • 格式:ZIP

资源介绍

马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa*的一些随机文本。 我们请一些语言学家来监督。 词汇->从翻译中学习不足->自信学习->来自人类的5次迭代。 执照 根据知识共享署名4.0国际许可,可以下载Malay-Dataset用于研究。 这项工作是根据。 仅使用此标签标记的数据 受此许