-
matlab代码ist-ner-crf用于CRF模型检测命名实体,重点关注人的名字
资源介绍
ist的matlab代码关于
这是在python
2.7中使用(线性链)条件随机字段(CRF)进行命名实体识别(NER)的实现。
它以库为基础。
默认情况下,它可以处理标签PER
,
LOC
,
ORG和MISC
,但是主要针对德语中的PER
(识别人名)进行了优化,尽管它可以用于任何语言。
预计其他标签的得分会比PER低一些,因为地名词典功能当前仅处理PER标签。
该实现在语料库上的PER的F1得分为0.78
(请注意,德语NER比英语NER难得多),在自动注释的Wikipedia语料库上得到的F1得分为0.87
(再次是PER
)(其摘录经过培训)
Wikipedia语料库,因此期望更高的分数,因为Germeval2014Ner与Wikipedia的语言风格有所不同。
使用的功能
CRF实现仅使用局部功能(即,在文档顶部使用PER注释John不会对同一文档底部的另一个John产生影响)。
使用的功能有:
是否单词以大写字母开头
单词长度
单词是否包含任何数字(0-9)
单词是否包含任何标点符号,即.
,
:
;
(
)
[
]
?
!
.
,
:
;
(
)
[
]
?
!
单词是
- 上一篇: 简单的中文分词程序(练习)
- 下一篇: NER(命名实体识别)训练数据集.7z