
大数据
文章平均质量分 60
SenCube
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache HOP (Hop Orchestration Platform) VS Data Integration (通常被称为 Kettle)
适用场景如果你需要一个现代、灵活、易于集成的 ETL 平台,特别是在大数据环境中,那么 Apache HOP 可能是一个更好的选择。如果你更倾向于一个直观、易用的图形化工具,并且希望快速开发和部署数据集成任务,那么 Data Integration (Kettle) 可能更适合你。技术背景对于技术背景较强、熟悉 Java 和 RESTful API 的团队来说,HOP 的学习曲线可能不会太高。原创 2024-08-16 17:37:59 · 1325 阅读 · 0 评论 -
Apache Spark 的基本概念和在大数据分析中的应用
弹性分布式数据集(Resilient Distributed Dataset,简称RDD):RDD 是 Spark 中的基本数据结构,它是一个分布式的不可变数据集合,可以在并行计算中进行操作和处理。总的来说,Apache Spark 是一个功能强大的大数据分析引擎,可以处理大规模数据集,支持多种数据处理和分析场景,是大数据分析中的重要工具之一。数据清洗和预处理:Spark 提供了丰富的数据处理和转换操作,可以对大规模数据进行清洗和预处理,如数据过滤、聚合、整理等。原创 2024-05-11 10:22:01 · 516 阅读 · 1 评论 -
Spark DataSet常用action,及操作汇总
DataSet 的函数详细API常见此链接Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describ...原创 2018-09-14 21:29:23 · 416 阅读 · 0 评论 -
Spark DataFrame:提取某列并修改/ Column更新、替换
原文链接1.concat(exprs: Column*): Columnfunction note: Concatenates multiple input columns together into a single column. The function works with strings, binary and compatible array columns.我的问题: d...原创 2018-12-20 20:36:19 · 12541 阅读 · 0 评论