spark sql map():_*函数

原创

已于 2023-02-07 17:01:00 修改 · 970 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sql #hive

于 2023-02-07 16:52:52 首次发布

需求想计算hive中每个字段的长度
或者想将hive表中每个字段的类型都转化为Double时，怎么办呢？

一种方法可能是for循环
另一种方法是spark sql的map函数可以解决

for循环

val colNames = df.columns
var df1 = df

for (colName <- colNames) {

  df1 = df1.withColumn(colName, col(colName).cast(DoubleType))

}

df1.show()

通过map():_*
上面的方法效率较低，发现scala有array:_*这样的传参语法，而df的select方法也支持这样传，因此可以有如下的写法：

case1: 将df中的字段类型都转化为double

val colNames = df.columns
val cols = colNames.map(f => col(f).cast(DoubleType))

df.select(cols: _*).show()

case2: 计算df中字段的长度

val strLen = udf((entity_id:String) => (entity_id.length))
val fe_list = Array("entity_id", "rule")
spark.sql("select * from vc.ad_rule_result where day='2020-11-10'")
.select(fe_list.map(c=>strLen(col(c))):_*).show(100)

case3: 对指定的列进行加密

def encode(col: S

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿君聊风控

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark SQL中get_json_object函数返回的字符串变短问题及解决方案

2301_79326559的博客

09-18

615

get_json_object函数用于从JSON字符串中提取指定字段的值，但在某些情况下，返回的字符串可能会截断或变短，导致数据丢失或结果不正确。上述代码中，我们首先使用from_json函数将JSON字符串解析为结构化的数据，并将其命名为"parsed_json"。使用from_json函数可以确保正确解析JSON数据，并获取完整的字符串值。通过使用Spark SQL中的explode函数或from_json函数，我们可以解决get_json_object函数返回字符串变短的问题。

spark sql函数集

weixin_44330861的博客

07-29

1513

callUDF(udfName: String, cols: Column*): 调用UDFudf: 定义UDF。

参与评论您还未登录，请先登录后发表或查看评论

java spark map函数,spark map & flatmap function

weixin_29378273的博客

03-13

711

本篇我们介绍一些spark流式计算的基础概念，并实现一个例子加以说明。spark streamingspark streaming 是以spark为核心的流式处理框架，内部通过批处理的方式对数据加以加工。工作方式：生态： Dstream:a DStream is represented as a sequence ofRDDs. map和flatmap任何数据在spark中都表示为RDD。ma...

Spark SQL 内置函数（二）Map Functions（基于 Spark 3.2.0）

Shockang的博客

11-21

8056

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文 element_at(array, index) 描述返回 array 中下标为 index 的元素（数组下标从 1 开始）。如果下标小于 0，从后向前计算，即 -1 代表数组中的最后一个元素。如果索引大于数组长度或者spark.sql.ansi.enabled 设置成 false，则函数返回 N

Spark SQL 中对 Map 类型的操作函数示例详解

最新发布

u011250186的博客

07-01

Spark SQL 中对 Map 类型的操作函数示例详解

spark常用命令 Spark SQL – map() vs mapPartitions() | flatMap()

weixin_42817995的博客

04-03

618

注意1：DataFrame没有可与DataFrame一起使用的map（）转换，因此您需要先将DataFrame转换为RDD。注意2：如果您有大量初始化，请使用PySpark mapPartitions（）转换而不是map（），就像mapPartitions（）一样，大量初始化仅对每个分区执行一次，而不对每个记录执行一次。 map()例子1 首先，让我们从列表中创建一个RDD。 from pyspark.sql import SparkSession spark = SparkSession.bu.

Hive/SparkSQL中Map、Array的基本使用和转换

TRX的博客

01-02

4172

语法: map (key1, value1, key2, value2, …)说明：根据输入的key和value对构建map类型。

【spark原理系列】import spark.implicits._ 和import org.apache.spark.sql._原理示例源码分析

wang2leee的博客

09-14

813

在Spark中，`Implicits`是一个隐式转换的工具类，它提供了一些隐式转换函数和隐式参数，用于方便地进行数据类型的自动转换和上下文环境的隐式传递。

Spark自定义函数之max_by()实现

果果的爸爸

02-02

5046

需求：求同一班级，年龄最大的学生的姓名自定义聚合函数需要实现UserDefinedAggregateFunction，以下是该抽象类的定义，加了一点注释继承类的源代码 - UserDefinedAggregateFunction /* * Licensed to the Apache Software Foundation (ASF) under one or mor

spark sql map类型转换 map＜string,float＞转成 map＜int,float＞

qq_44426756的博客

10-10

570

【代码】spark sql map类型转换 map＜string,float＞转成 map＜int,float＞

SQL数组常用函数记录(Map篇)

weixin_40809627的博客

07-29

1767

MAP又被称为字典，格式如{key1:value1,key2:value2,…}形式，一般以k:v成对出现。1、map构造输出实例2、获取map 获取map字段的所有key值，或者所有value值map_keys(map字段) -- 返回map字段里所有的key值，输出为数组--> 输出示例：["14","28","180","365","7","90","60","30"]map_values(map字段) -- 返回map字段里左右的value值，输出为数组。

spark学习-16-Spark的Map()和FlatMap()函数使用

远有青山

10-14

1963

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_21383435/article/details/77477681 1。先看图解释：map函数和faltMap（）函数都会像是工厂一样，对你每个元素都做处理 map会将每一条输入映射为一个新对象。{苹果，梨子}.map(去皮） ...

map() 函数

Evan_Blog的博客

10-25

1682

map(function, iterable) python中的map函数会根据提供的函数对指定序列做映射，第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。注意： Python 2.x 返回列表。 Python 3.x 返回迭代器。 ...

spark-sql操作array和map和struct类型数据

热门推荐

mys_35088的博客

05-30

1万+

原文链接（很nice的一篇文章）：https://blog.csdn.net/wang_wbq/article/details/79678168 数组\列表array、字典map这两种数据类型的索引首先我们还是先构造数据结构与DataFrame： scala> case class A(a: String, b: Int) defined class A ...

map函数学习

sunny的博客

08-03

1482

函数定义：map(function, iterable, ...)Apply function to every item of iterable and return a list of the results. If additional iterable arguments are passed, function must take that many arguments and is ap

深入理解Spark编程中的map方法

m0_70131998的博客

01-21

1141

方法，你可以在Spark应用程序中利用函数式编程的优点，包括无状态计算、不可变性和纯函数的组合与抽象。方法时，我们可以将其视为一种编程思想，它体现了一种函数式编程的范式。函数式编程是一种编程范式，它强调将计算视为数学上的函数计算，避免使用可变状态和副作用。先上结论：不拘泥于形式，给一个东西，一顿操作，返回一个东西。且对每一条数据都相同的处理，处理完会生成新的东西，不改变之前你传进来的东西。这个东西你可以理解为任何形式的数据，如map里的，对象，各种形式文件等等。方法提供了一种方式来应用这种函数式编程范式。

Spark SQL 中数据类型为Map的注意事项

Ran_记忆犹新的博客

06-05

5960

在使用SparkSQL进行处理数据时，将数据保存为Map，并读取出Map的数据数据列聚合操作后拼接为一个字符集合：BSV ANGLIA_1~BSV ANGLIA---_2 SELECT MMSI, IMO, concat_ws("~",collect_set(concat_ws("_",ShipName,name_num))) as shipNum, max(time) as last_t...

Spark：map与flatMap区别

不花的花和尚的博客

10-07

1215

本文介绍了Spark中map(func)和flatMap(func)这两个函数的区别及具体使用。函数原型 1.map(func) 将原数据的每个元素传给函数func进行格式化，返回一个新的分布式数据集。(原文：Return a new distributed dataset formed by passing each element of the source through a ...

Spark SQL基础教程：常用操作与数据导出

Spark SQL 是Apache Spark中的一个模块，它提供了一个基于列的编程模型，使得用户能够更容易地在大规模数据集上进行结构化查询和分析。本文将详细介绍如何在Spark环境中使用SQL进行数据处理、转换和操作。 1. 数据...