阿里云E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。
EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。EMR的SmartData组件是EMR Jindo引擎的主要存储部分,为EMR各个计算引擎提供统一的存储优化、缓存优化、计算缓存加速优化和多个存储功能扩展。
以往在使用Hadoop和Spark等分布式处理系统时,您通常需要执行如下步骤。
在上述EMR使用流程中,真正跟用户的应用逻辑相关的是步骤8~10,而步骤1~7都是前期准备工作,但这些前期准备工作都非常冗长繁琐。E-MapReduce提供了集群管理工具的集成解决方案,例如,主机选型、环境部署、集群搭建、集群配置、集群运行、作业配置、作业运行、集群管理和性能监控等。通过E-MapReduce,您可以从繁琐的集群构建相关的采购、准备和运维等工作中解放出来,只关心自己应用程序的处理逻辑即可。
此外,E-MapReduce还为您提供了灵活的搭配组合方式,您可以根据自己的业务特点选择不同的集群服务。例如,如果您的需求是对数据进行日常统计和简单的批量运算,则可以只选择在E-MapReduce中运行Hadoop服务;如果您有流式计算和实时计算的需求,则可以在Hadoop服务基础上再加入Spark服务。
HMaster等服务,可以根据集群的使用场景,选择高可用集群或非高可用集群。测试环境可以选择非高可用集群,生产环境建议选择高可用集群。高可用集群可以选择2个或3个Master节点,当选择2个Master节点时,HDFS JournalNode和ZooKeeper会部署在Core的emr-worker-1节点。生产环境建议创建高可用集群时选择3个Master节点。
3、Task节点:部署了YARN NodeManager,用于YARN计算,可以通过弹性伸缩的方式灵活扩容或缩容。
Gateway集群,部署了Hadoop的客户端文件,您可以通过Gateway提交作业,避免直接登录集群产生的安全和客户端环境隔离问题。您需要先创建Hadoop集群,然后创建Gateway集群关联至Hadoop集群。
以上内容整理自阿里云文档 -
这是肯定的,我们只需要前往中的“免费试用”即可看到可以免费试用的E-MapReduce(8核32G内存),支持Hadoop/Spark/Presto/Druid/Flink/Alink等开源组件和JindoFS加速数据湖计算。具体如下图所示:
特别说明:试用E-MapReduce产品,需购买包年包月的。购买时默认不自动续费,只要不勾选点击续费,试用结束则不会扣钱,试用结束后数据保留7天且会短信通知,7天后依然没有续费则自动释放消失。
阿里云优惠活动:云服务器低至3.6折,云数据库低至19.9元起,云上公司注册低至1元起,logo设计低至9.9元,无影云桌面4核8G低至1元起,短信套餐包5000条低至165元,
温馨提示:文章内容来自互联网资源,不代表boke112百科赞同其观点和对其真实性负责!
版权声明:本文内容来源于互联网资源,由 boke112百科 整理汇总,发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请与老古(QQ:)联系,老古将及时更正、删除,谢谢!