大数据:sparkSQL,DataFrame,schema,toDF,createDataFrame,pandas,读取read.format.schema.load

文章强调了在当前就业市场中,掌握大数据技术和特定数据库如Oracle的重要性。特别是对于寻求开发、测开岗位或者备考网络警察公务员的求职者,学习SparkSQL和数据挖掘基础是必不可少的。文中提到了如何使用SparkSQL操作数据,包括structField定义、DataFrame转换以及数据读取方法,还提醒学习Oracle数据库对于提升竞争力和满足特定行业需求的关键作用。

大数据:sparkSQL

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


大数据:sparkSQL

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
structField定义字段
整体是structType,相当于定义一个表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用最原始的pandas构建数据
然后一句话转化为分布式DataFrame

在这里插入图片描述

在这里插入图片描述
api读取外部数据
在这里插入图片描述
schema最好是构建structType标准的列和类型
它默认txt的一行是一个列哦

然后读取
在这里插入图片描述
json自带schema信息
json就直接load
在这里插入图片描述
在这里插入图片描述
csv文件呢
option是sep分隔符
header是表头,我们有表头
encoding是字符编码utf-8
表头就直接投射schema了,可以直接用逗号分割写字段名
牛的,这spark直接read,就行了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
序列化数据

这算法有说过怎么序列化

在这里插入图片描述
pycharm插件
在这里插入图片描述
可以查看parquet文件


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

冰露可乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值