-
HanLP:汉语语言处理的源代码
资源介绍
HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善,性能高效,架构清晰,语料时新,可自定义的特点。
HanLP提供下列功能:
中文分词
HMM-两字组(速度与精度最佳平衡;一百兆内存)
最短路分词,N-最短路分词
由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)
感知机分词,CRF分词
词典分词(侧重速度,每秒数千万字符;省内存)
极速词典分词
所有分词器都支持:
索引全切分模式
用户自定义词典
兼容繁体中文
训练用户自己的领域模型
词性标注
HMM词性标注(速度快)
感知机词性标注,CRF词性标注(精度高)
命名实体识别
基于HMM角色标注的命名实体识别(速度快)
中国人名识别,音译人名识别,日本人名识别,地名识别,实体机构名识别
基于线性模型的命名实体识别(精度高)
感知机命名实体识别,CRF命名实体识别
关键词提取
TextRank关键词提取
自动摘要
TextRank自动摘要
短语提取
基于互信息和左右信息熵的短语提取
拼音转换
多音字,声母,韵母,声调
简繁转换
简繁分歧词(简体,繁体,*正体,香港繁体)
文本推荐
语义推荐,拼音推荐,字词推荐
依存句法分析
基于神经网络的高性能依存句法分析器
基于ArcEager转移系统的柱搜索依存句法分析器
文本分类
情感分析
文本聚类
KMeans,Repeated Bisection,自动推断聚类数目k
word2vec
词向量训练,加载,词语相似度计算,语义运算,查询,KMEANS聚类
文档语义相似度计算
语料库工具
部分默认模型训练自小型语料库,鼓励用户自行训练。模块所有提供训练接口,语料可参考98年人民日报语料库。
在提供丰富功能的同时,HanLP内部模块坚持低耦合,模型坚持惰性加载,服务坚持静态提供,词典坚持明文发布,使用非常方便。默认模型训练自全世界最大规模的中文语料库,同时自带一些语料处理工具,帮助用户训练自己的模型。
- 上一篇: cifar-10-binary part2
- 下一篇: Caffe数据集:CIFAR10之一