-
中文命名实体识别,涵盖多种模型的具体实现,如HMM、CRF、BiLSTM以及BiLSTM + CRF
资源介绍
中文命名实体识别
数据集
本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。
美 B-LOC
国 E-LOC
的 O
华 B-PER
莱 I-PER
士 E-PER
我 O
跟 O
他 O
谈 O
笑 O
风 O
生 O
该数据集就位于项目目录下的ResumeNER文件夹里。
运行结果
下面是多种不同的模型以及这Ensemble这四个模型预测结果的准确率(取最好):
HMM
慢性肾功能衰竭
双线性STM
BiLSTM + CRF
合奏
召回率
91.22%
95.43%
95.32%
95.72%
95.65%
准确率
91.49%
95.43%
95.37%
95.74%
95.69%
F1分数
91.30%
95.42%
95.32%
95.70%
95.64%
最后一列Ensemble是将这四个模型的预测结果结合起来,使用“