易截截图软件、单文件、免安装、纯绿色、仅160KB

作为java的一个库来使用wvtool

该WVTool可作为一个独立的Java库或RapidMiner环境的一个插件来使用。在这里,我们将主要讨论WVTool作为一个java库来使用是如何实现的。
1.1 安装
作为Java库使用WVTool,首先从SourceForge上WVTool/ homepage1上下载wvtool包 ,解压缩档案,并把wvtool.jar文件和所有的jar文件放置到lib子目录中。
要使WVTool能应用起来,需要处理两种基本步骤:
1.         从给定的一组文本文件来创建一个词表(定义向量空间的维度);
2.         基于创建的词表创建向量空间。词表中包含的所有词条连同一些统计数字(例如,在有多少文件,词条)都被用来矢量化 。矢量化的词表中的词条用来决定向量空间的维度和权值。
以上两个步骤需要两个基本输入参数。首先,输入样本文件清单,告诉系统处理哪些文本文件;第二,配置对象,它告诉系统各个步骤所使用的处理方法。
1.2 定义Input
Input列表告诉WVTool哪些学习文本文件应该处理。列表中每项包含以下信息:
 
l       URI的文本资源。目前,这可以是本地文件/目录或网址
如果是本地目录文件,在此目录中的所有文件都被处理(包含子目录) 。作为WVTool的扩展,其他类型的URI也可以处理的很好,只要用户提供了一个方法来处理它们(见2.3 )
l         文本的语言类型(可选)
l         文件类型(可选)
文件类型分为文本文件(txt)、pdf文件(pdf)、网页文件(htm/html)和xml文件(xml)
l         解析文本的字符集比如UTF-8(可选)
l         对象位置序号(可选)
文本将被处理成为对象,如主题。这种信息通常是用于文本自动分类,但也可以用来作为和词条关联做他用。这个对象序号范围从0到M - 1 ,其中m是对象数目
 
在下面的例子中,Input列表通过调用addEntry创建了三个对象,三个对象是建立两个指向文件的本地文件系统和一个指向一个网页。
//创建三个对象,初始化Input列表
WVTFileInputList list = new WVTFileInputList(3);
//添加对象
list.addEntry( new WVTDocumentInfo("data/alt.atheism","txt",English,0));
list.addEntry( new WVTDocumentInfo("data/soc.rel


相关文档:

【转】DWR中Java方法的参数及返回值

1、调用没有返回值和参数的Java方法
1.1、dwr.xml的配置
Xml代码
<dwr>  
  <allow>  
    <create creator="new" javascript="testClass" >  
      <param name="class" value="com.dwr.Test ......

稿子分门别类:Java编程

渣滓回收的悖论
所谓“成也萧何败萧何”。Java的渣滓回收确确实实带到了很多好处,为开发带回了方便。但是在一些高性能、高并发的情况下,渣滓回收确变为了钳制Java使用的瓶颈。当前JDK的渣滓回收算法,始终没法解决渣滓回收时的暂停问题,由于这个暂停严重影响了程序的呼应时间,促成堵塞或积聚。这也是后续JDK ......

Java面试题(一)


1.抽象:
  抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面。抽象并不打算了解全部问题,而只是选择其中的一部分,暂时不用部分细节。抽象包括两个方面,一是过程抽象,二是数据抽象。
2.继承:
  继承是一种联结类的层次模型,并且允许和鼓励类的重用,它提供了一种明确 ......

Java面试题(5)

72、EJB的角色和三个对象
 一个完整的基于EJB的分布式计算结构由六个角色组成,这六个角色可以由不同的开发商提供,每个角色所作的工作必须遵循Sun公司提供的EJB规范,以保证彼此之间的兼容性。这六个角色分别是EJB组件开发者(Enterprise Bean Provider)、应用组合者(Application Assembler)、部署者(Deployer)、EJ ......

Java面试题(8)

123、设计4个线程,其中两个线程每次对j增加1,另外两个线程对j每次减少1。写出程序。
以下程序使用内部类实现线程,对j增减的时候没有考虑顺序问题。
public class ThreadTest1{
   private int j;
   public static void main(String args[]){
ThreadTest1 tt=new ThreadTest1();
Inc inc=tt. ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号