
Apache Kylin与Parquet集成:高性能OLAP分析
下载需积分: 11 | 3.09MB |
更新于2024-07-16
| 21 浏览量 | 举报
收藏
"Kylin on Parquet.pdf 是一份由Kyligence工程师王汝鹏在2020.04.13分享的文档,主要介绍了开源OLAP分析引擎Kylin对Parquet存储的支持以及使用Spark构建cube的技术细节。文档涵盖了架构设计、选择Parquet的原因、cube构建与查询流程、性能表现以及现场演示等内容。"
Apache Kylin是一个高效的大数据OLAP引擎,最初设计时使用Hive作为元数据存储,Hadoop MapReduce作为计算引擎,而数据存储在HBase中。然而,随着大数据技术的发展,Kylin引入了对Parquet的支持,这是一种列式存储格式,能够提供更好的性能和效率。
**Parquet的优势**
1. **分布式查询执行**: Kylin on Parquet实现了分布式查询执行,降低了单一故障点的问题,提升了系统的可用性和扩展性。
2. **调试友好**: 使用Spark作为引擎后,可以通过DataFrame添加断点进行调试,使得问题定位更为便捷。
3. **真正的列式存储**: Parquet是一种列式存储格式,对于分析查询来说,可以显著提高读取速度,因为列式存储只需读取所需列的数据,而非整个行。
4. **操作维护简单**: 相比于HBase,Parquet的管理和操作更加简便,更适用于大数据分析场景。
**Kylin on Parquet的架构变化**
1. **插件化设计**: Kylin引入Parquet并不意味着完全摒弃原有架构,而是采用了插件化设计,允许用户根据需求选择不同的存储和计算引擎。
2. **Spark引擎**: 采用Spark替代MapReduce作为cube构建的计算引擎,Spark提供了更强大的计算能力,同时具备良好的交互性和易用性。
3. **REST服务器和SQL路由**: 通过REST API和SQL接口,Kylin提供了一种统一的方式来处理来自各种3rd Party应用(如Webapp,移动应用)的查询请求。
**Cubebuild&Query流程**
1. **Cube构建**: Kylin使用预计算技术创建多维立方体,以加速查询。在Parquet支持下,这一过程可能更快,因为Spark可以并行处理大量数据。
2. **查询处理**: 用户通过SQL语句发起查询,Kylin解析SQL并生成执行计划,利用Parquet的列式存储优势进行快速过滤、投影和聚合操作。
**性能提升**
1. **查询性能**: 列式存储的Parquet和Spark的组合大大提高了查询速度,尤其对于分析型查询,减少了I/O操作,提高了数据处理效率。
2. **运维成本**: 由于Parquet的易管理和Spark的可调试性,运维成本相对降低,使得整体系统更加健壮。
Kylin on Parquet的引入旨在解决Kylin在HBase上的局限性,通过引入Spark和Parquet,提供了更好的查询性能、易用性和可扩展性,满足大数据场景下快速分析的需求。同时,这种架构变化也为开发者和管理员带来了更友好的开发和维护体验。
相关推荐


















Wu_San
- 粉丝: 4
最新资源
- 开源新款内存补丁制作工具,支持堆动态补丁和智能InlineHook
- 易语言实现wai网挂机宝傻瓜式网络验证教程
- 渗透测试初学者指南:黑帽黑客工具与安全风险防范
- 易语言实现密码校验功能 1.0
- 渗透测试必备:Java招聘公司笔试试题与Hacker Roadmap
- SQA-Project:软件质量保证课程项目开发与团队协作
- sskey技术移植至JavaScript的实现方法
- BruteForce工具在JavaScript中的应用:生成字符排列
- fancy-server: 构建花哨的Markdown服务器展示工具
- 非洲流媒体网站新进展:AfricaStreamBeta1发布
- node-slack-web-api:掌握如何在Slack中发布消息
- GrassMudHorse编程语言:Haskell实现与应用教程
- Python实现Weechat消息自动同步与通知
- TorchLight:Bukkit插件 - 手持火炬实现萤石块动态跟随
- OpenForge 2.0模块升级:符文领主的崛起之救世主罪孽
- 易语言Python混合开发必备库:精易Python支持库_P27
- 通过PHP脚本实现Viper SmartStart车辆远程控制
- Python结合Rust:打造高效C扩展演讲分享
- 重现论文结果:R2-learner递归模型代码解析
- 从化石SCM到Gource的自定义日志转换器
- WANsim:模拟 WAN 网络连接的简易脚本工具
- OVCS(.net平台)视频会议系统核心功能与部署
- Android社交购物新体验:朋友间的共享与购买
- AI智能扫雷帮助程序源码发布