-
PyTorch实现了CLUENER2020中用于命名实体识别的BiLSTM、BERT和Roberta(搭配CRF)模型
资源介绍
Chinese NER Project
本项目为CLUENER2020任务baseline的代码实现,模型包括
BiLSTM-CRF
BERT-base + X (softmax/CRF/BiLSTM+CRF)
Roberta + X (softmax/CRF/BiLSTM+CRF)
本项目BERT-base-X部分的代码编写思路参考 。
项目说明参考知乎文章:
Dataset
实验数据来自。这是一个中文细粒度命名实体识别数据集,是基于清华大学开源的文本分类数据集THUCNEWS,选出部分数据进行细粒度标注得到的。该数据集的训练集、验证集和测试集的大小分别为10748,1343,1345,平均句子长度37.4字,最长50字。由于测试集不直接提供,考虑到leaderboard上提交次数有限,本项目使用CLUENER2020的验证集作为模型表现评判的测试集。
CLUENER2020共有10个
- 上一篇: STM32xiaoche.rar
- 下一篇: 使用机器学习预测股市:长期短期记忆-研究论文