当前位置:主页 > 资源下载 > 50 > Paoding中文分词包中包含了实例、参考手册以及Lucene实例

Paoding中文分词包中包含了实例、参考手册以及Lucene实例

更新：2024-10-26 15:32:20
大小：5.83MB
推荐：★★★★★
来源：网友上传分享
类别：Linux - 操作系统
格式：ZIP

反馈 / 投诉

资源介绍

效果体验使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求，庖丁提供了一个shell文件，使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包，在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可。下以windows为例： u 显示帮助 E:\Paoding-Analysis>analyzer.bat ? u 分词对话当没有在命令行参数种输入分词内容或待分词的文章时，analyzer.bat进入分词对话模式，使用者可以多次输入或粘贴不同的文字内容，查看分词效果，如： E:\Paoding-Analysis>analyzer.bat paoding> | 此时使用者可以在光标所在所在位置(|)输入或粘贴待分词的内容(以分号结束)，按下Enter键换行，analyzer.bat便可以输出分词结果。比如： paoding> 中文分词; 1: 中文/分词/ 分词器net.paoding.analysis.analyzer.PaodingAnalyzer 内容长度 4字符，分 2个词分词耗时 0ms -------------------------------------------------- 分词完毕后，又会进入以上对话模式。键入:e或:q退出会话 (包括:符号) 。键入:?显示帮助(包括:符号) 。 u 对文件进行分词 analyzer.bat允许对指定的文件进行分词体验。文件以路径名给出可以使绝对地址、相对当前目录的地址，或以classpath:为前缀的类路径地址。示例如下: paoding> :-f E:/content.txt paoding> :-f E:/content.txt -c gbk paoding> :-f E:/content.txt -c gbk -m max 开始使用庖丁中文分词需要一套词典，这些词典需要统一存储在某个目录下，这个目录称为词典安装目录。词典安装目录可以是文件系统的任何目录，它不依赖于应用程序的运行目录。将词典拷贝到词典安装目录的过程称为安装词典。增加、删除、修改词典目录下的词典的过程称为自定制词典。在linux下，我们可以考虑将词典安装在一个专门存储数据的分区下某目录，以笔者为例，笔者将/data作为系统的一个独立分区，笔者便是将词典保存在/data/paoding/dic下。在windows下，我们可以考虑将词典安装在非系统盘的另外分区下的某个目录，以笔者为例，笔者可能将词典保存在E:/data/paoding/dic下。使用者安装辞典后，应该设置系统环境变量PAODING_DIC_HOME指向词典安装目录。在linux下，通过修改/etc/profile，在文件末尾加上以下2行，然后保存该文件并退出即可。 PAODING_DIC_HOME=/data/paoding/dic export PAODING_DIC_HOME 在windows下，通过“我的电脑”属性之“高级”选项卡，然后在进入“环境变量”编辑区，新建环境变量，设置“变量名”为PAODING_DIC_HOME；“变量值”为E:/data/paoding/dic 第3步，把paoding-analysis.jar拷贝到应用运行时的类路径(classpath)下。使用集成开发环境(IDE)开发应用的使用者，需要把paoding-analysis.jar拷贝到工程中，然后使用IDE向导引入该Jar包，以便开发应用时IDE能够认识它。至此，便可以在应用代码中使用庖丁提供的中文分析器了。提醒：以下示例代码中的IDNEX_PATH表示索引库地址，读者运行以下代码前，应该赋与一个不重要的地址，比如/data/paoding/test_index 或E:/paoding_test_index，以免一时疏忽将重要数据丢失。

上一篇: VMware Tools linux.iso
下一篇: linux精彩问答——为你解惑

相关推荐

12-02 Paoding中文分词包中包含了实例、参考手册以及Lucene实例

Paoding中文分词包中包含了实例、参考手册以及Lucene实例

资源介绍

热门标签

资源声明