
饿了么大数据平台:建设历程、挑战与技术选型

饿了么大数据平台分享由毕洪宇主讲,于2017年8月19日举行,该演讲主要探讨了饿了么公司在大数据平台建设中的经验和挑战。在2015年5月,饿了么成立专门的大数据团队,致力于提供30分钟送达的美好生活服务。他们的大数据平台涵盖了离线计算、实时计算以及逻辑架构和数据流向的设计。
在大数据平台现状部分,平台处理的数据量庞大,离线计算集群规模达到100至1000个节点,每天处理的不考虑副本的数据达到100TB,拥有超过9万个表和400个报表,同时执行着2万个MapReduce和Spark任务,计算数据吞吐量高达3PB/day。实时计算部分,集群规模在10到100个节点之间,支持高吞吐率的数据处理,包括Kafka每秒处理1M条记录。
面对的主要挑战包括人员不足、工作量大以及如何实现个性化服务(即“千人千面”),他们采取“Fire and Forget”的策略来提高效率和质量,同时致力于平台的稳定性和持续扩展。在技术选型上,饿了么团队根据不同的场景和需求进行了细致的权衡:
1. 对于海量数据的Ad-hoc查询,Presto因其良好的性能和稳定性被考虑,尽管团队对其了解稍显熟练;相比之下,Spark SQL虽然在社区支持和使用成本上具有优势,但在稳定性和学习成本上稍逊一筹。
2. 在海量存储和批处理需求上,HBase和Cassandra都被评估过,HBase在国内社区更活跃,而Cassandra在国外社区更为成熟,Cassandra的运维成本低且功能更易用,成为优选之一。
3. 对于实时计算引擎,团队选择了Storm作为首选,其次是Spark Streaming,而Flink则位列最后,Spark Streaming在社区支持上占据优势。
饿了么大数据平台的构建过程中,团队注重了技术的选择和优化,以适应不断增长的数据需求和业务挑战,同时也在探索如何在有限的资源下实现高效、稳定和灵活的数据处理能力。通过这些分享,我们可以了解到一个大型互联网公司如何运用大数据技术驱动业务发展。
相关推荐



Erjin_Ren
- 粉丝: 13
最新资源
- 构建基于ASP的综合电子商务平台
- 基于Java+JSP+Struts的简易员工管理系统开发
- C8051F320开发板套件测试程序详解
- Java简易画图工具实验教程
- eclipse RCP小示例程序的设计与实现
- 个性化ASP分页方法:带省略号的实现技巧
- Visual C++网络通信配套高级编程代码解析
- 掌握EXE4J工具:将Java程序转化为Windows可执行文件
- 深入探究jQuery UI 1.7源码及开发工具包
- 电子科技大学内核课程:课件与实验指南
- 清华大学C++面向对象程序设计基础PPT解析
- 局域网聊天宝V1.10,免费的局域网通讯工具
- TCPMP插件在WINCE5.0环境下解码显示JPEG图片技术解析
- 极品公交时刻表应用:查询北京西安等城市公交
- Windows系统下驱动程序编写与开发工具指南
- C#编程实例宝典:200个开发技巧源码解析
- 淘宝图片批量处理软件:轻松批量调整大小
- 网站前台开发必备:CSS、JS与DHTML参考手册
- Delphi实现的仿Windows计算器应用
- CCNA实验手册:全套30个实验完全指南
- 新版QQ在线咨询插件发布,简化客服流程
- 免费开源JimCRM:全面提升企业销售与服务效率
- 学OpenGL编3D游戏编程源代码解析
- 华为HCNE认证全套教程及题库高清PDF