弹性 MapReduce

产品简介

弹性 MapReduce(EMR)结合云技术和 Hadoop、Hive、Spark、Hbase、Presto、Flink、Druid、ClickHouse 等社区开源技术,提供安全、低成本、高可靠、可弹性伸缩的云端泛 Hadoop 大数据架构。您可以在数分钟内创建安全可靠的专属 Hadoop 集群,以分析位于集群内数据节点或对象存储 COS 上的 PB 级海量数据。


2



目录

一、应用场景

二、产品功能

三、产品特性

四、弹性 MapReduce 基本问题 


一、应用场景

1、流式数据处理

在程序/工具中通过 API、SDK 把位于业务服务器上实时产生的数据 Push 到 CMQ 消息中间件之后,可在 EMR 产品中选择合适的流式数据处理引擎来分析数据,以实现对业务变动的实时告警;还可以把分析结果实时同步到 TencentDB 等存储引擎,以便于通过 RayData 等数据可视化产品对业务状态进行实时可视化检测。

2、分析 COS 数据

可通过 EMR 产品快速分析存储于 COS 上的海量数据,以实现彻底的存储计算分离。通过这样的设计,可充分利用 COS 提供的丰富数据同步工具,同时还可以让多个不同版本 Hadoop 集群分析同一份数据,以满足数据一致性及历史原因导致的多版本 Hadoop 集群共存的问题。

3、离线数据分析

把游戏、Web 应用、手机 App 等业务服务器上的海量日志同步到 EMR 的数据节点或 COS 后,可借助于 Hue 等工具,使用 Hive、Spark、Presto 等主流计算框架快速获取数据洞察力。可使用 Sqoop 等工具加载分散于各 TencentDB 或其他存储引擎的数据,并把分析后的数据同步到 TencentDB,为 RayData 这样的数据可视化产品提供数据支撑。


二、产品功能

1、弹性伸缩

分钟级集群创建。通过控制台数分钟就可创建一个安全、稳定的云端托管 Hadoop 集群。

分钟级集群扩缩容。仅需数分钟即可对现有 EMR 集群进行平滑扩缩容,以适应互联网业务需求的快速变化。

API 支持。支持通过 API 方式便捷的在程序中创建、扩/缩容、销毁 EMR 集群。

2、存储计算分离

集群内存储计算分离。集群内支持按照存储节点、计算节点的模式来规划云端 Hadoop 集群,以支持客户对计算节点的随意伸缩来降低硬件成本。

基于 COS 的存储计算分离。支持把待分析海量数据存放于 COS,在通过 COS 规模化效应降低存储成本的同时,您还可以创建不同 EMR 版本分析同一份数据,这将为您带来极度的架构灵活性。

3、运维支撑

监控与多渠道告警。提供完善的监控运维体系,对包含 Spark、Hive、Presto 等在内的组件异常和任务异常的秒级感知,以保障大数据集群的稳健运行。

技术服务支持。在提供完善技术文档之外,还支持包含邮件、QQ、微信等渠道在内的技术服务体系,为客户提供完备的技术支持。

4、安全

EMR 创建的 CVM 子机同时会创建安全组来限制外网访问。各组件 Web UI 均通过其中一台有外网 IP 的子机进行访问,并且通过用户名和密码进行验证,有外网 IP 的子机安全组只开放 SSH 端口和代理访问端口。


112


三、产品特性

1、弹性伸缩

借助优雅扩缩容能力,可按时间或按负载平滑调整 CVM、容器等集群计算资源,助力企业高效应对复杂多变的业务场景。

2、性能卓越

基于向量化计算、索引优化、透明加速等性能优化技术,大幅提升开源组件性能。

3、成本节约

借助于 EMR 弹性扩展能力按需调整集群规模,大幅减少资源闲置成本;支持竞价实例、混合计费,可显著节约企业运营成本。

4、高效运维

提供丰富的运维工具及监控指标、多维度自定义配置告警,可视化检索日志等智能化运维能力,大幅提升运维效率。

5、安全可靠

VPC 网络隔离和安全组保证网络安全可信,支持 Kerberos 身份认证,支持基于 Ranger 的数据权限控制。

6、开源稳定

提供高性能、高稳定性的 Hive、Spark、HBase、Flink、Doris、Iceberg 等开源大数据组件。


四、弹性 MapReduce 基本问题

1、如何预估集群规模?

假设您的一次运算以 SQL 执行为例,如果想要在确定的时间里查询到结果需要的 vcore 为64个,内存为128GB,业务要求一次要支持10个并发,那么需要的资源为 vcore 640个,内存1280GB,假设采用24核48GB的设备,那么需要的计算设备量为:1280 / 48约等于27台。

2、如何选择集群存储介质?

EMR 集群支持如下存储介质,普通本地盘、SSD 本地盘、普通云硬盘,SSD 云硬盘以及对象存储 COS,您可以根据实际需要来选择存储介质:

如果您的应用场景是大规模数据仓库分析,对时延不是那么敏感,建议您使用 COS 作为底层存储。

如果您非常熟悉 HDFS 而且使用 COS 迁移成本过高,您也可以使用普通云盘。

如果您的应用是海量列式数据库 Hbase,需要高效写入和查询,建议您使用本地 SSD 盘或者 SSD 云硬盘。

3、如何处理任务执行时内存溢出?

提交 MR 任务或者通过 Hive 执行 SQL 脚本时发生内存溢出可以通过设置以下参数处理:

set mapreduce.map.java.opts=-Xmx4096m;

set mapreduce.reduce.java.opts=-Xmx4096m;

可以根据计算需要调整内存参数,如果是 Hive 也可写在 ~/.hiverc 文件下,提交的时候会自动执行。

如果您还不明白,欢迎关注右侧二维码了解更多...

扫一扫 添加客服微信

评论

cache
Processed in 0.073877 Second.
cache
Processed in 0.073877 Second.