当前位置:主页 > 资源下载 > 50 > HanLP：汉语语言处理的源代码

HanLP：汉语语言处理的源代码

更新：2024-09-15 13:26:38
大小：94.28MB
推荐：★★★★★
来源：网友上传分享
类别：机器学习 - 人工智能
格式：ZIP

反馈 / 投诉

资源介绍

HanLP是一系列模型与算法组成的NLP工具包，由大快搜索主导并完全开源，目标是普及自然语言处理在生产环境中的应用.HanLP具备功能完善，性能高效，架构清晰，语料时新，可自定义的特点。 HanLP提供下列功能：中文分词 HMM-两字组（速度与精度最佳平衡;一百兆内存）最短路分词，N-最短路分词由字构词（侧重精度，全世界最大语料库，可识别新词;适合NLP任务）感知机分词，CRF分词词典分词（侧重速度，每秒数千万字符;省内存）极速词典分词所有分词器都支持：索引全切分模式用户自定义词典兼容繁体中文训练用户自己的领域模型词性标注 HMM词性标注（速度快）感知机词性标注，CRF词性标注（精度高）命名实体识别基于HMM角色标注的命名实体识别（速度快）中国人名识别，音译人名识别，日本人名识别，地名识别，实体机构名识别基于线性模型的命名实体识别（精度高）感知机命名实体识别，CRF命名实体识别关键词提取 TextRank关键词提取自动摘要 TextRank自动摘要短语提取基于互信息和左右信息熵的短语提取拼音转换多音字，声母，韵母，声调简繁转换简繁分歧词（简体，繁体，*正体，香港繁体）文本推荐语义推荐，拼音推荐，字词推荐依存句法分析基于神经网络的高性能依存句法分析器基于ArcEager转移系统的柱搜索依存句法分析器文本分类情感分析文本聚类 KMeans，Repeated Bisection，自动推断聚类数目k word2vec 词向量训练，加载，词语相似度计算，语义运算，查询，KMEANS聚类文档语义相似度计算语料库工具部分默认模型训练自小型语料库，鼓励用户自行训练。模块所有提供训练接口，语料可参考98年人民日报语料库。在提供丰富功能的同时，HanLP内部模块坚持低耦合，模型坚持惰性加载，服务坚持静态提供，词典坚持明文发布，使用非常方便。默认模型训练自全世界最大规模的中文语料库，同时自带一些语料处理工具，帮助用户训练自己的模型。

上一篇: cifar-10-binary part2
下一篇: Caffe数据集：CIFAR10之一

相关推荐

HanLP：汉语语言处理的源代码

资源介绍

热门标签

资源声明