-
elang是一款用于语言模型的单词嵌入工具,支持英语和印尼语
资源介绍
用于语言模型的Word嵌入实用程序
Elang是一个首字母缩写词,它结合了短语Embedding(E)和Language(Lang)Models 。 它的目标是帮助NLP(自然语言处理)研究人员,Word2Vec从业人员,教育者和数据科学家在训练语言模型和解释词嵌入中的关键概念方面更具生产力。
从0.1版本开始的主要功能可以分为以下几类:
语料库建设工具
build_from_wikipedia_random :使用来自*的随机文章来构建英语/印尼语语料库
build_from_wikipedia_branch :通过在Wikipedia上构建“主题分支”来构建英语/印尼语语料库
文字处理工具
remove_stopwords_id :删除停用词(印尼文)
remove_region_id :删除区域实体(印尼文)
remove_calendar_id :删除日历单词