很高兴看到SAP HANA SP05已经提供了中文的TEXT Analytics 的功能,那么这个对中国用户意味着什么呢?
找了台服务器做了个测试,给大家参考一下。
首先确认系统里支持哪些语言的分词检索:
SELECT * FROM "SYS"."M_TEXT_ANALYSIS_LANGUAGES";
(其实在SP4某个版本以后就已经开始支持了)
好,然后我们来测试建立一个表,建立一个全文索引看我们的神奇的中文分词功能
DROP SCHEMA GRP CASCADE;
CREATE SCHEMA GRP ;
SET SCHEMA GRP ;
CREATE COLUMN TABLE TESTTABLE(
ID INTEGER PRIMARY KEY,
LANGU CHAR(2),
TEXT1 NCLOB
);
DROP FULLTEXT INDEX FT_TESTTABLE_TEXT1;
CREATE FULLTEXT INDEX FT_TESTTABLE_TEXT1 ON TESTTABLE(TEXT1) TEXT ANALYSIS ON CONFIGURATION 'LINGANALYSIS_FULL' LANGUAGE COLUMN "LANGU";
随便取IT.SOHU.COM 搜了个句子插入到表中。
insert into testtable values(1,'zh','一年前,几乎所有的互联网公司都迫不及待地上马手机项目,以“品牌定制安卓ROM+硬件第三方外包”的方式进行。不过现在看来,基本所有的互联网手机已经沦为鸡肋,这一模式也成为急功近利后必死的一大例证。当然,你要是手里有大规模用户和牛掰的销售渠道,那就另说了。')
然后你就可以来看看我们的内置的中文分词功能了。
SELECT * FROM "$TA_FT_TESTTABLE_TEXT1";
这样你就可以看到系统将中文的句子分解成词,并且还标注了词性,比如 互联网 ,公司都标注成名词,几乎,所有 这些是副词以及介词。怎么样神奇吧?
不错且慢,大体上是可以满足我们的要求了,可是可能还存在一些问题。其实HANA 分词的原理呢是基于国际上一个公开的分词标准字典来分词的。
如果字典维护的不合理,不全面,那么SAP HANA也就无能为力了。但是在我看来有这个功能总比没有好,而且内置的这个功能总比我们自己来写这个函数效率高,所以自己也可以用C++,JAVA来写一个分词的函数。
最后,我想说的是其实这个功能是非常有前途的,当然还需要再开发不少功能。
我能想到的功能有:
1) 为1号店,大众点评网等有很多评论的网站,通过这个功能来分析评论的语句,采用一些情感分析的算法,可以大体计算出来这个人的评论是好的还是坏的。
2) 为舆情系统服务。 (此处省略10000字,别打我)
3) 为消费品大公司分析微博上有关某个品牌的言论,比如我们用HANA提供一个函数,帮助宝洁分析微博上有提到他们产品的微博,并分析这些微博的言论的好与坏,同时根据微博账户的归属地来提供高级的分析。
先写到这里,如果各位有好的想法可以跟我联系,我们PAC(SAP Partner Adoption Center) 也许可以帮助你实现你们想做的。
Charles Guo
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.
User | Count |
---|---|
13 | |
10 | |
10 | |
7 | |
7 | |
6 | |
5 | |
5 | |
5 | |
4 |