Technology Blogs by SAP
Learn how to extend and personalize SAP applications. Follow the SAP technology blog for insights into SAP BTP, ABAP, SAP Analytics Cloud, SAP HANA, and more.
cancel
Showing results for 
Search instead for 
Did you mean: 
Former Member
0 Kudos

翻译自:Big Data Analytics  HANA vs HADOOP IMPALA on AWS

假如你有兴趣知道,我曾尝试比较过HANAHADOOP Impala。我用来总结比较两者的幻灯片分享在Google docs

https://docs.google.com/file/d/0Bxydpie8Km_fWTd3RmJTbjVHd00/edit?usp=sharing


就像你们所知道的那样,在大数据分析领域最近有着重大突破,在市场上有许多新的解决方案出现,包括在HADOOP上的开放源码解决方案。要想简单了解HADOOP,请参阅http://blogs.sap.com/innovation/big-data/what-is-hadoop-018605


HADOOP用来处理非常大的资料组。大量的数据是可以处理的,但是工作需要被安排计划好。

HADOOP最大的好处是开放源码,并且运行在可以负担得起的可扩展的基础架构上。及时报告是个不足之处,因为报告有事会花几分钟而不是几秒。


近来,ClouderaHADOOP发布了一个新的开放源码及时报告解决方案叫做Impala。它同时提供选项使用Column储存表格(PARQUET)来优化查询运行时间。Cloudera Impala 1.0 GA2013429日发布了。

http://blog.cloudera.com/blog/2013/05/cloudera-impala-1-0-its-here-its-real-its-already-the-standard...

随着云计算的到来,测试新产品变得异常简单。

我用HANA已经一年了,我非常爱它。想要你自己的HANA box,请参阅http://scn.sap.com/docs/DOC-28294

在过去的几个月里我也用AWS设置了一个小HADOOP集群来测试Impala(从早期的BETA发布起)

http://blog.cloudera.com/blog/2013/03/how-to-create-a-cdh-cluster-on-amazon-ec2-via-cloudera-manager...


我已经用13918节点集群(每个节点代表了不同的云机器)测试过Impala了。【有些公司像是YahooTwitterFacebook也许使用上万个节点】相比而言,HANAAWS上运行只依靠一个机器。


我不考虑HANA & HADOOPIMPALA竞争产品,只是不同的工具针对不同的目的,就算有些是共通的。

我注重SQL读次、行限制和两种解决方案的差价,它们都是运行在AWS的云机器上。为了区分它们,我使用样本SAP SPL数据和TPC-H数据,它们都加载着6000万记录。想了解TPC-H的细节,参阅http://www.tpc.org/tpch/

到现在为止,分析只注重单个表的查询。我可能会扩大比较的范围如果有相关反馈。

如果你在阅读中发现不准确的表述或信息,请通知我。我非常乐意更新我的幻灯片。