Technology Blogs by SAP
Learn how to extend and personalize SAP applications. Follow the SAP technology blog for insights into SAP BTP, ABAP, SAP Analytics Cloud, SAP HANA, and more.
cancel
Showing results for 
Search instead for 
Did you mean: 
Former Member

很高兴看到SAP HANA SP05已经提供了中文的TEXT Analytics 的功能,那么这个对中国用户意味着什么呢?

找了台服务器做了个测试,给大家参考一下。

首先确认系统里支持哪些语言的分词检索:

SELECT * FROM "SYS"."M_TEXT_ANALYSIS_LANGUAGES";


(其实在SP4某个版本以后就已经开始支持了)

好,然后我们来测试建立一个表,建立一个全文索引看我们的神奇的中文分词功能

DROP SCHEMA GRP CASCADE;

CREATE SCHEMA GRP ;

SET SCHEMA GRP ;

CREATE COLUMN TABLE TESTTABLE(

     ID               INTEGER PRIMARY KEY,

     LANGU     CHAR(2),

     TEXT1     NCLOB

);

DROP FULLTEXT INDEX FT_TESTTABLE_TEXT1;

CREATE FULLTEXT INDEX FT_TESTTABLE_TEXT1 ON TESTTABLE(TEXT1) TEXT ANALYSIS ON CONFIGURATION 'LINGANALYSIS_FULL' LANGUAGE COLUMN "LANGU";

         随便取IT.SOHU.COM 搜了个句子插入到表中。

insert into testtable values(1,'zh','一年前,几乎所有的互联网公司都迫不及待地上马手机项目,以“品牌定制安卓ROM+硬件第三方外包”的方式进行。不过现在看来,基本所有的互联网手机已经沦为鸡肋,这一模式也成为急功近利后必死的一大例证。当然,你要是手里有大规模用户和牛掰的销售渠道,那就另说了。')

然后你就可以来看看我们的内置的中文分词功能了。

SELECT * FROM "$TA_FT_TESTTABLE_TEXT1";

这样你就可以看到系统将中文的句子分解成词,并且还标注了词性,比如 互联网 ,公司都标注成名词,几乎,所有 这些是副词以及介词。怎么样神奇吧?

不错且慢,大体上是可以满足我们的要求了,可是可能还存在一些问题。其实HANA 分词的原理呢是基于国际上一个公开的分词标准字典来分词的。

如果字典维护的不合理,不全面,那么SAP HANA也就无能为力了。但是在我看来有这个功能总比没有好,而且内置的这个功能总比我们自己来写这个函数效率高,所以自己也可以用C++,JAVA来写一个分词的函数。

最后,我想说的是其实这个功能是非常有前途的,当然还需要再开发不少功能。

我能想到的功能有:

1) 为1号店,大众点评网等有很多评论的网站,通过这个功能来分析评论的语句,采用一些情感分析的算法,可以大体计算出来这个人的评论是好的还是坏的。

2) 为舆情系统服务。 (此处省略10000字,别打我)

3) 为消费品大公司分析微博上有关某个品牌的言论,比如我们用HANA提供一个函数,帮助宝洁分析微博上有提到他们产品的微博,并分析这些微博的言论的好与坏,同时根据微博账户的归属地来提供高级的分析。

先写到这里,如果各位有好的想法可以跟我联系,我们PAC(SAP Partner Adoption Center) 也许可以帮助你实现你们想做的。

Charles Guo

8 Comments