翻译自:Big Data Analytics  HANA vs HADOOP IMPALA on AWS

假如你有兴趣知道,我曾尝试比较过HANAHADOOP Impala。我用来总结比较两者的幻灯片分享在Google docs

https://docs.google.com/file/d/0Bxydpie8Km_fWTd3RmJTbjVHd00/edit?usp=sharing


就像你们所知道的那样,在大数据分析领域最近有着重大突破,在市场上有许多新的解决方案出现,包括在HADOOP上的开放源码解决方案。要想简单了解HADOOP,请参阅http://blogs.sap.com/innovation/big-data/what-is-hadoop-018605


HADOOP用来处理非常大的资料组。大量的数据是可以处理的,但是工作需要被安排计划好。

HADOOP最大的好处是开放源码,并且运行在可以负担得起的可扩展的基础架构上。及时报告是个不足之处,因为报告有事会花几分钟而不是几秒。


近来,ClouderaHADOOP发布了一个新的开放源码及时报告解决方案叫做Impala。它同时提供选项使用Column储存表格(PARQUET)来优化查询运行时间。Cloudera Impala 1.0 GA2013429日发布了。

http://blog.cloudera.com/blog/2013/05/cloudera-impala-1-0-its-here-its-real-its-already-the-standard-for-sql-on-hadoop/

随着云计算的到来,测试新产品变得异常简单。

我用HANA已经一年了,我非常爱它。想要你自己的HANA box,请参阅http://scn.sap.com/docs/DOC-28294

在过去的几个月里我也用AWS设置了一个小HADOOP集群来测试Impala(从早期的BETA发布起)

http://blog.cloudera.com/blog/2013/03/how-to-create-a-cdh-cluster-on-amazon-ec2-via-cloudera-manager/


我已经用13918节点集群(每个节点代表了不同的云机器)测试过Impala了。【有些公司像是YahooTwitterFacebook也许使用上万个节点】相比而言,HANAAWS上运行只依靠一个机器。


我不考虑HANA & HADOOPIMPALA竞争产品,只是不同的工具针对不同的目的,就算有些是共通的。

我注重SQL读次、行限制和两种解决方案的差价,它们都是运行在AWS的云机器上。为了区分它们,我使用样本SAP SPL数据和TPC-H数据,它们都加载着6000万记录。想了解TPC-H的细节,参阅http://www.tpc.org/tpch/

到现在为止,分析只注重单个表的查询。我可能会扩大比较的范围如果有相关反馈。

如果你在阅读中发现不准确的表述或信息,请通知我。我非常乐意更新我的幻灯片。

To report this post you need to login first.

Be the first to leave a comment

You must be Logged on to comment or reply to a post.

Leave a Reply