翻译自:Big Data Analytics HANA vs HADOOP IMPALA on AWS
假如你有兴趣知道,我曾尝试比较过HANA和HADOOP Impala。我用来总结比较两者的幻灯片分享在Google docs:
https://docs.google.com/file/d/0Bxydpie8Km_fWTd3RmJTbjVHd00/edit?usp=sharing
就像你们所知道的那样,在大数据分析领域最近有着重大突破,在市场上有许多新的解决方案出现,包括在HADOOP上的开放源码解决方案。要想简单了解HADOOP,请参阅http://blogs.sap.com/innovation/big-data/what-is-hadoop-018605
HADOOP用来处理非常大的资料组。大量的数据是可以处理的,但是工作需要被安排计划好。
HADOOP最大的好处是开放源码,并且运行在可以负担得起的可扩展的基础架构上。及时报告是个不足之处,因为报告有事会花几分钟而不是几秒。
近来,Cloudera在HADOOP发布了一个新的开放源码及时报告解决方案叫做Impala。它同时提供选项使用Column储存表格(PARQUET)来优化查询运行时间。Cloudera Impala 1.0 GA在2013年4月29日发布了。
http://blog.cloudera.com/blog/2013/05/cloudera-impala-1-0-its-here-its-real-its-already-the-standard...
随着云计算的到来,测试新产品变得异常简单。
我用HANA已经一年了,我非常爱它。想要你自己的HANA box,请参阅http://scn.sap.com/docs/DOC-28294
在过去的几个月里我也用AWS设置了一个小HADOOP集群来测试Impala(从早期的BETA发布起)
http://blog.cloudera.com/blog/2013/03/how-to-create-a-cdh-cluster-on-amazon-ec2-via-cloudera-manager...
我已经用1、3、9和18节点集群(每个节点代表了不同的云机器)测试过Impala了。【有些公司像是Yahoo,Twitter和Facebook也许使用上万个节点】相比而言,HANA在AWS上运行只依靠一个机器。
我不考虑HANA & HADOOP、IMPALA竞争产品,只是不同的工具针对不同的目的,就算有些是共通的。
我注重SQL读次、行限制和两种解决方案的差价,它们都是运行在AWS的云机器上。为了区分它们,我使用样本SAP SPL数据和TPC-H数据,它们都加载着6000万记录。想了解TPC-H的细节,参阅http://www.tpc.org/tpch/
到现在为止,分析只注重单个表的查询。我可能会扩大比较的范围如果有相关反馈。
如果你在阅读中发现不准确的表述或信息,请通知我。我非常乐意更新我的幻灯片。
You must be a registered user to add a comment. If you've already registered, sign in. Otherwise, register and sign in.
User | Count |
---|---|
38 | |
19 | |
13 | |
13 | |
11 | |
10 | |
10 | |
10 | |
8 | |
8 |