
阿里云EMR 2.0:打造新一代开源大数据平台
1.34MB |
更新于2024-08-03
| 91 浏览量 | 举报
收藏
“阿里云EMR 2.0:重新定义新一代开源大数据平台.pdf”
阿里云EMR(Elastic MapReduce)2.0是一款基于开源大数据技术的云原生平台,旨在解决传统大数据处理中的痛点,如性能、成本、运维效率和数据可靠性。EMR 2.0在原有基础上进行了重大升级,提供了全新的特性和功能,以适应不断发展的大数据需求。
自2016年以来,EMR经历了多个重要里程碑,包括公有云商业化版本的发布、打破CloudSort世界纪录、国际化进程、TPC-DS性能登顶以及JindoFS的发布,这些都展示了EMR在大数据领域的技术创新和领导地位。2020年后,EMR进一步推出了Starrocks和Doris等组件,增强了数据分析能力,并且在2022年发布了新版控制台,提升了用户体验和架构性能。
EMR 2.0新特性主要集中在以下几个方面:
1. **全新平台体验**:集群创建和扩容速度显著提升,达到2倍以上和3倍以上的优化,支持弹性扩展至千台以上节点。同时,加入了故障节点迁移和集群诊断工具,提高了系统的稳定性和可维护性。
2. **全托管服务**:EMR Notebook(基于Jupyter)提供了一个集成的开发环境,Workflow(Dolphinscheduler)支持工作流管理,Dataworks则为数据开发和治理提供了平台。这些工具降低了用户的运维成本,使得数据开发和管理更加高效。
3. **资源形态创新**:EMR支持ECS(包括Intel, AMD, 倚天)、神龙和ECI等不同类型的硬件资源,通过EMRonECS和EMRonACK(Kubernetes)实现了对传统计算和容器化计算的支持。EMRServerless的引入,使得资源利用率和性价比得到大幅提升。
4. **存储与分析**:采用OSS-HDFS(由JindoData驱动)作为存储资源,提供高性能的数据处理。新版数据湖、Datalake、OLAP、实时数据流(Dataflow)和DataServ则涵盖了从数据存储到分析的全方位场景,满足了多样化的大数据分析需求。
5. **数据分析与服务**:除了传统的批量分析外,EMR 2.0还支持实时流处理和复杂的数据服务,使得数据能够更快地转化为业务价值。
通过这些创新,阿里云EMR 2.0不仅重新定义了开源大数据平台,也构建了下一代开源大数据基础设施,为企业提供了一站式的大数据解决方案,实现性能优化、成本节约、运维简化和数据治理的有效管理。
相关推荐








九层之台起于累土
- 粉丝: 401
最新资源
- Java面试笔试题精编:掌握这些,面试更自信
- MyEclipse6中配置及部署Websphere6工程的实践指南
- J2EE OA项目开发详细文档资料分享
- 嵌入式TCP/IP协议栈lwip1.1.0的优秀实现
- C++实现操作系统的存储管理:页式虚拟存储与FIFO算法
- T264代码开源分享:avc-src-0.14版本
- C#2.0企业QQ系统源码解析与模块设计
- Oracle SQL内置函数详细解析
- Delphi 7.0 中使用Codesoft 7.0 打印条码流程详解
- 80C51单片机控制的超声波避障小车系统设计
- 晨曦铃声广播系统:全新升级,功能体验升级!
- Freemarker IDE插件0.9.14版本发布
- 高效办公自动化系统的详细使用指导
- ASP.NET版搜索引擎蜘蛛捕捉技术解析
- 构建Apache服务器的便捷工具SmartApache
- 探索Spring Web Flow 2.0.2.RELEASE的特性
- 明仔科技企业网站管理系统:全功能无限制版
- 免费视频编辑神器:vcd CUTTER软件介绍
- C#仿QQ聊天软件开发:源码解读与交流
- 阿里巴巴支付宝接口.net版本及实物交易服务示例
- 一键下载论坛RAR资源的高效工具
- SWFP软件使用体验:高稳定性值得推荐
- 深入解析Tapestry、JSF与Struts框架比较
- GDI实现内存正弦曲线显示详解