SQL Server全文索引的个人总结(下) 关于中文分词
SQL Server全文索引的个人总结(下)-关于中文分词
(2005-11-14 04:32:01)
转载
分类:深度研究
在使用SQL Search的过程中,还发现了一个问题:它对中文,是按字分词的,下面我解释一下:
比如对'博客堂成员很多是MVP'这句话,假如一个个的字的作索引,会比使用'博客堂','成员',MVP'几个词作索引生成的索引大很多,这样不仅浪费空间,也影响索引的效率和准确度。假如英文是按照字母而不是单词作索引,估计世界上如今就没有全文索引,也没有google了。
但是中文在分词上,相比英文有天然的屏障,英文的单词之间有间隔,但是中文不是,必须使用计算机的人工智能把句子分成一个个的词,有些时候,根据句子本身还不够,还必须根据上下文,或者一些日常知识才能判断。比如 乒乓球拍/卖/完了 和 乒乓球/拍卖/完了 ,电脑咋能知道是哪个意思并正确分词呢!
根据使用的结果,SQL Search对中文使用的应该是按字分词(可能是因为原来是英文引擎的缘故),比方说你要查'马克',它会把'马克思'也给你倒腾出来。
我的一个123M的数据库,全文索引有55M,每次全文查询都比较慢(当然机器也很次)。
--------------------------------------------------------------------------------------------------
关于按字分词:
应该还是怡红公子的说法比较妥当,大家看看这个句子:
操作系统能否用汇骗语言改写限制它对每个端口的使用率
为了验证分词,故意使用错误的分词,假如都可以索引出该句子,就说明是按字分词的。比如使用 '用汇' ?查询,也可以查出句子,所以得出了SQLServer按字分词的结论,我没有进一步检查,但是现在发现使用'写限',使用'统能'就无法查出来了,证明SQLServer中还是有简单分词的,只是分词结果不理想。
此外,SQLServer还可以使用第三方的产品增强分词的能力。
--------------------------------------------------------------------------------------------------
假如对分词有兴趣的朋友,这里有一些代码可以看,使用发现分词正确率还是很高的,不过要注册才可以得到:http://www.nlp.org.cn/project/project.php?proj_id=6
发表于 2004年3月19日 11:22
不光有,我们还可以在程序中使用(不过我记不太清楚SQL Server Fulltext用的索引是不是和Index Server一样了):
using System;
using System.Runtime.InteropServices;
namespace FullTextAPI
{
[Flags]
public enum WordBreakType //
相关文档:
1.字符串函数
长度与分析用
datalength(Char_expr) 返回字符串包含字符数,但不包含后面的空格
substring(expression,start,length) 不多说了,取子串
right(char_expr,int_expr) 返回字符串右边int_expr个字符
字符操作类
upper(char_expr) 转为大写
lower(char_expr) 转为小写
space(int_expr) 生成int_expr个空格 ......
Load the SQL Server 2005 Driver for JDBC before you load the SQL Server 2000 Driver for JDBC. To do this, use the DriverManager class as in the following code example.
Class.forName("com.microsoft.sqlserver.jdbc.SQLServerDriver"); // 2005 version
Class.forName("com.microsoft.jdbc.sqlserver.SQLSe ......
SQL面试题(1)
create table testtable1
(
id int IDENTITY,
department varchar(12)
)
select * from testtable1
insert into testtable1 values('设计')
insert into testtable1 values('市场')
insert into testtable1 values('售后')
/*
结果
id department
1 设计
2 市场
3& ......
public static void main(String[] args) {
Session session = null;
Transaction tx = null;
List list = null;
&nb ......