小试SAP HANA SP05 对中文的分词处理

Former Member · ‎01-22-2013

很高兴看到SAP HANA SP05已经提供了中文的TEXT Analytics 的功能，那么这个对中国用户意味着什么呢？

找了台服务器做了个测试，给大家参考一下。

首先确认系统里支持哪些语言的分词检索：

SELECT * FROM "SYS"."M_TEXT_ANALYSIS_LANGUAGES";

(其实在SP4某个版本以后就已经开始支持了)

好，然后我们来测试建立一个表，建立一个全文索引看我们的神奇的中文分词功能

DROP SCHEMA GRP CASCADE;

CREATE SCHEMA GRP ;

SET SCHEMA GRP ;

CREATE COLUMN TABLE TESTTABLE(

ID INTEGER PRIMARY KEY,

LANGU CHAR(2),

TEXT1 NCLOB

);

DROP FULLTEXT INDEX FT_TESTTABLE_TEXT1;

CREATE FULLTEXT INDEX FT_TESTTABLE_TEXT1 ON TESTTABLE(TEXT1) TEXT ANALYSIS ON CONFIGURATION 'LINGANALYSIS_FULL' LANGUAGE COLUMN "LANGU";

随便取IT.SOHU.COM 搜了个句子插入到表中。

insert into testtable values(1,'zh','一年前，几乎所有的互联网公司都迫不及待地上马手机项目，以“品牌定制安卓ROM+硬件第三方外包”的方式进行。不过现在看来，基本所有的互联网手机已经沦为鸡肋，这一模式也成为急功近利后必死的一大例证。当然，你要是手里有大规模用户和牛掰的销售渠道，那就另说了。')

然后你就可以来看看我们的内置的中文分词功能了。

SELECT * FROM "$TA_FT_TESTTABLE_TEXT1";

这样你就可以看到系统将中文的句子分解成词，并且还标注了词性，比如互联网，公司都标注成名词，几乎，所有这些是副词以及介词。怎么样神奇吧？

不错且慢，大体上是可以满足我们的要求了，可是可能还存在一些问题。其实HANA 分词的原理呢是基于国际上一个公开的分词标准字典来分词的。

如果字典维护的不合理，不全面，那么SAP HANA也就无能为力了。但是在我看来有这个功能总比没有好，而且内置的这个功能总比我们自己来写这个函数效率高，所以自己也可以用C++,JAVA来写一个分词的函数。

最后，我想说的是其实这个功能是非常有前途的，当然还需要再开发不少功能。

我能想到的功能有：

1) 为1号店，大众点评网等有很多评论的网站，通过这个功能来分析评论的语句，采用一些情感分析的算法，可以大体计算出来这个人的评论是好的还是坏的。

2) 为舆情系统服务。（此处省略10000字，别打我）

3) 为消费品大公司分析微博上有关某个品牌的言论，比如我们用HANA提供一个函数，帮助宝洁分析微博上有提到他们产品的微博，并分析这些微博的言论的好与坏，同时根据微博账户的归属地来提供高级的分析。

先写到这里，如果各位有好的想法可以跟我联系，我们PAC(SAP Partner Adoption Center) 也许可以帮助你实现你们想做的。

Charles Guo

小试SAP HANA SP05 对中文的分词处理

Get Your SAP HANA Idea Incubator Badge Today!

SCN Mission - SAP HANA Quiz Challenge is now retired

Share your #HANAStory and Win