当前位置:主页 > 资源下载 > 50 > 基于中文*文本数据训练的词向量模型：WordEmbedding-WikiChinese

基于中文*文本数据训练的词向量模型：WordEmbedding-WikiChinese

更新：2024-06-09 15:34:26
大小：4KB
推荐：★★★★★
来源：网友上传分享
类别：其它 - 开发技术
格式：ZIP

反馈 / 投诉

资源介绍

基于中文*文本数据训练词向量一，数据获取本词向量利用的是中文*的语料进行训练。语料地址：（大小1.16G）也可以在我的网盘上下载：链接：提取码：ihu4 二，数据转换原数据的格式是xml，我们可以将其转换为txt。这里使用的是gensim自带的WikiCorpus，首先读取xml文件到input_file中，然后其中的get_texts方法会生成一个get_texts器，每一个继承蕴含了一篇文章，这样我们就可以将其写入新的txt文件中了。三，繁体数据转换为简体数据该Wiki数据是繁体中文数据，我们要把他们转换为简体中文数据。利用zhconv包。四，分词利用结巴分词。五，去除非中文词一些单词中会包含非中文的词，我们要利用正则表达式将该词移除。判断是否中文词的正则表达式为： ^[\u4e00-\u9fa5]+$ 六，词向量训练利用from gens

上一篇: Extending.and.Embedding.PHP
下一篇: Extending_and_Embedding_PHP.chm

相关推荐

12-02 基于中文*文本数据训练的词向量模型：WordEmbedding-WikiChinese

基于中文*文本数据训练的词向量模型：WordEmbedding-WikiChinese

资源介绍

热门标签

资源声明