-
本项目通过Tensorflow利用BiLSTM + CRF技术推进中文分词、词性标注及命名实体识别(NER)的实现,犹如美食般令人陶醉
资源介绍
NLP工具
本项目初步通过Tensorflow基于BiLSTM + CRF实现字符级序列标注模型。
功能:
1,对未登录字(词)识别能力
2,Http接口
3,可快速实现分词,词性标注,NER,SRL等序列标注模型
欢迎各位大佬吐槽。
说明
环境配置:创建新的conda环境
$ conda env create -f environment.yaml
语料处理
不同标注语料格式不同,需要额外处理,在示例/DataPreprocessing.ipynb中提供了人民日报2014准备过程(该语料集未上传至github,只有部分样例于corpus,可通过互联网找到。若发现可发邮件给我),语料格式: