Hive，Spark和流式计算

发布时间：2021-05-05 10:35:48 所属栏目：动态来源：互联网

导读：在随后的几年中，Hadoop相关的大数据处理技术继续得到增强。Facebook开源的Hive分析工具用更高层和抽象的语言来描述算法和数据处理流程，能够用SQL语句进行大数据分析，这大大降低了使用者门槛，也提升了大数据技术的应用效率。不要小看这项改进，它让全世界

在随后的几年中，Hadoop相关的大数据处理技术继续得到增强。Facebook开源的Hive分析工具用更高层和抽象的语言来描述算法和数据处理流程，能够用SQL语句进行大数据分析，这大大降低了使用者门槛，也提升了大数据技术的应用效率。不要小看这项改进，它让全世界大多数现有的数据分析人员可以轻易掌握大数据技术。

2009年，加州大学伯克利分校的AMP实验室开发了Spark开源集群计算框架，通过完善API和库，提供更完善的能力和通用性。而且Spark的特色是能够将数据存储在内存中，所以数据处理和查询效率要比利用硬盘存储的MapReduce框架快百倍。目前，Spark已经加入Apache Software Foundation，成为Apache开源项目中的明星项目，被大数据技术领域作为最重要的工具框架。

至此为止的技术栈基本解决了针对海量数据批量进行处理和分析的需求。比如零售业企业如果需要研究顾客和交易数据，从而对顾客群进行特征细分，这些技术就足够了。但是，数字化技术的发展总是会刺激出更高级的需求。比如，在线上零售中，商品和顾客的行为数据是永续不断在发生的，我们希望在数据发生的时刻就立即进行计算，及时地给顾客推送一张个性化的优惠券，而不是定时进行某种批量计算，这时候就需要大数据技术的一个分支—流式计算。

流式计算的常用框架包括Storm和Spark Stream和Flink，他们在零售和电子商务行业中的交易分析、金融风控、物联网中的态势监控、车联网中的自动驾驶等领域都被广泛应用。2019年，阿里巴巴用1亿美元收购了Flink，是因为我们用的淘宝天猫中的搜索、商品推荐，包括双11的实时监控大屏数据都是由Flink来驱动的。Flink用几乎无延迟的速度截获双十一最后一秒钟结束后的GMV数值，可见它在实时处理数据方面的性能。

（编辑：揭阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

金山云发布第一款免费	高德打车AR实景找车功
该怎么抓牢中国体育产	元宇宙产业委等联合发