Skip to Content

很高兴看到SAP HANA SP05已经提供了中文的TEXT Analytics 的功能,那么这个对中国用户意味着什么呢?

找了台服务器做了个测试,给大家参考一下。

首先确认系统里支持哪些语言的分词检索:

SELECT * FROM “SYS”.“M_TEXT_ANALYSIS_LANGUAGES”;

无标题1.png

(其实在SP4某个版本以后就已经开始支持了)

好,然后我们来测试建立一个表,建立一个全文索引看我们的神奇的中文分词功能

DROP SCHEMA GRP CASCADE;

CREATE SCHEMA GRP ;

SET SCHEMA GRP ;

CREATE COLUMN TABLE TESTTABLE(

     ID               INTEGER PRIMARY KEY,

     LANGU     CHAR(2),

     TEXT1     NCLOB

);

DROP FULLTEXT INDEX FT_TESTTABLE_TEXT1;

CREATE FULLTEXT INDEX FT_TESTTABLE_TEXT1 ON TESTTABLE(TEXT1) TEXT ANALYSIS ON CONFIGURATION ‘LINGANALYSIS_FULL’ LANGUAGE COLUMN “LANGU”;

         随便取IT.SOHU.COM 搜了个句子插入到表中。

insert into testtable values(1,’zh’,’一年前,几乎所有的互联网公司都迫不及待地上马手机项目,以“品牌定制安卓ROM+硬件第三方外包”的方式进行。不过现在看来,基本所有的互联网手机已经沦为鸡肋,这一模式也成为急功近利后必死的一大例证。当然,你要是手里有大规模用户和牛掰的销售渠道,那就另说了。’)

然后你就可以来看看我们的内置的中文分词功能了。

SELECT * FROM “$TA_FT_TESTTABLE_TEXT1”;

无标题2.png

这样你就可以看到系统将中文的句子分解成词,并且还标注了词性,比如 互联网 ,公司都标注成名词,几乎,所有 这些是副词以及介词。怎么样神奇吧?

不错且慢,大体上是可以满足我们的要求了,可是可能还存在一些问题。其实HANA 分词的原理呢是基于国际上一个公开的分词标准字典来分词的。

如果字典维护的不合理,不全面,那么SAP HANA也就无能为力了。但是在我看来有这个功能总比没有好,而且内置的这个功能总比我们自己来写这个函数效率高,所以自己也可以用C++,JAVA来写一个分词的函数。

最后,我想说的是其实这个功能是非常有前途的,当然还需要再开发不少功能。

我能想到的功能有:

1) 为1号店,大众点评网等有很多评论的网站,通过这个功能来分析评论的语句,采用一些情感分析的算法,可以大体计算出来这个人的评论是好的还是坏的。

2) 为舆情系统服务。 (此处省略10000字,别打我)

3) 为消费品大公司分析微博上有关某个品牌的言论,比如我们用HANA提供一个函数,帮助宝洁分析微博上有提到他们产品的微博,并分析这些微博的言论的好与坏,同时根据微博账户的归属地来提供高级的分析。

先写到这里,如果各位有好的想法可以跟我联系,我们PAC(SAP Partner Adoption Center) 也许可以帮助你实现你们想做的。

Charles Guo

To report this post you need to login first.

8 Comments

You must be Logged on to comment or reply to a post.

  1. Warner Wang

    这里面我觉得分词字典需要在各个领域进行更新和维护,然后就是要有一个系统化的架构来实现那些应用,评估的结果是可用。 这个很客观。

    (0) 
  2. David Duan

    不过,除了已经购买了HANA的企业用户可以利用它作为一个额外的红包外,如果没有选择HANA的用户,HANA的文本分析功能有何特色呢?如果我只想要一个文本分析工具,为什么选择HANA?

    这是我的疑问。 🙂

    (0) 

Leave a Reply