易截截图软件、单文件、免安装、纯绿色、仅160KB

中科院分词工具imdict chinese analyzer学习 java分词

下载链接http://ictclas.org/Down_OpenSrc.asp
简单介绍:
 imdict-chinese-analyzer是 imdict智能词典的智能中文分词模块,作者高小平,算法基于隐马
尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中文分词程序
的重新实现(基于Java),可以直接为lucene搜索引擎提供中文分词支持。
应用:
下到的压缩包解压后就是一个java工程,eclipse直接导入即可,但由于其开发的环境是UTF8所以
要将eclipse的工作空间的编码也设置为utf8,test包里面的AnalyzerTest就是其用法,看了以后
就可以直接用了
功能:中文分词、停止词过滤
优点:开源,分词速度快,效率高
缺点:不支持自己添加词库,不支持词性标注(开发人员自己说是为了提高速度),data文件夹仅
自带了两个字典coredict核心字典、bigramdict词关系字典,这是两个最重要的词典,没有地名和
人名的词典,所以要识别人名地名比较麻烦,据说要用层次hmm,先粗分在细分。
深入学习:主类是net.imdict.analysis.chinese中的ChineseAnalyzer.java它继承了lucene的
Analyzer类,有两个构造方法:public ChineseAnalyzer()、public ChineseAnalyzer
(Set<String> stopWords)第二个构造方法支持停用词,最重要的是tokenStream函数,它用了
SentenceTokenizer和new WordTokenizer,前一个是将文章分成句子,后一个是将句子分成单词,
单词和句子都是用Lucene的Token(词)的类存储的,(Token是一个抽象类,TokenStream是Token
类的子类,但也是一个抽象类,Tokenizer和TokenFilter则是TokenStream的具体实现,他们实现
了TokenStream的next()方法,Tokenizer的next方法返回的是原始的、切分出来的词,而
TokenFilter方法返回的是一个经过过滤的词条,他们结合起来形成Lucene分析器的核心结构)如
Token token = new Token(),然后通过token.reinit(buffer.toString(), tokenStart,
tokenEnd, "sentence");中间两个参数是Token存储的字符串的起止位置,以0开始计数,引用
token中字符串的函数是token.term(),真正调用分词核心算法的WordSegmenter的
segmentSentence方法对句子进行分词,在WordTokenizer类中调用它得到分词结果。在往下层的代
码我就没看了。
两个改动:
(1)ChineseAnalyzer只能对文件进行分词,如何对一个字符串进行分词,改动如下
/*  TokenStream ts = ca.tokenStream("sentence", new InputStreamRe


相关文档:

Java中集合容器类List和Set的用法

List的用法
List包括List接口以及List接口的所有实现类。因为List接口实现了Collection接口,所以List接口拥有Collection接口提供的所有常用方法,又因为List是列表类型,所以List接口还提供了一些适合于自身的常用方法,如表1所示。
表1  List接口定义的常用方法及功能
从表1可以看出,List接口提供的适合于自身的 ......

JNA实现Java调用Fortran

在成功实现Java调用C++之后,接下来想到能否通过JNA实现Java调用Fortran,今天试验了一下,还是比较容易的。
网上有一个Java调用F95的例子,但是我考虑不仅要实现F95的调用,还要实现F77的调用,所以费了一些周折。
问题的关键在于F77为过程名自动添加了一个尾部的下划线,所以sub1这个过程,到Java一端,就变成了sub1_, ......

ImageMagick for java 使用Jmagick处理高质量图片

在做pdf文档转成jpg的时候,发现了Jmagick的创建高质量的图片的一个java类库,自己以前使用另外的一个类库,感觉这个更好点,就试着用了下,感觉不错
1.使用的windows下的jmagick-win-6.3.9-Q16.zip 地址是:http://downloads.jmagick.org/6.3.9/
2.doc对应的api地址:http://downloads.jmagick.org/jmagick-doc/
3.安装Ima ......

Java中startWith方法的使用!


今天看Java代码时,看到了字符串有一个方法是startsWith(String str)当时觉得见名之意,很简单吗,然后就自己动手做了一下,没想到发现了一个startsWith()方法的重载,startsWith(String str,int Index),当时上网去查了一下没有后边这个方法,于是自己做了一下测试,现在给出如下详细解释,startsWith(String str)就是检查形参 ......

java 面向对象思想编程

第一章              概述
版权声明
此文档由王健旭(http://www.wangjianxu.com  ginger547@gmail.com )负责整理总结,并对该文档保有有限责任权利,此文档只能用于学习以及教学,请勿用作商业用途,因此而
产生的法律问题,本人一概不负责。 本 ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号