spark连接Oracle数据库,Spark通过jdbc采用分区的方式从oracle读数据

最新推荐文章于 2024-06-17 19:55:55 发布

是桃大

最新推荐文章于 2024-06-17 19:55:55 发布

阅读量2k

点赞数

文章标签： spark连接Oracle数据库

本文介绍了如何使用Spark通过jdbc连接Oracle数据库并采用分区方式读取大量数据。通过设置不同的分区条件，如时间字段区间和数值字段的边界，可以实现多线程并行读取，提升效率。同时，需要注意合适的分区数量以避免对Oracle数据库造成过大压力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark通过jdbc可以从oracle中直接读取数据，返回dataframe。有时由于数据量较大，我们可以采用分区方式通过jdbc多线程并行从oracle中读取数据。

- oracle中的数据如下

TIME字段是年月，为字符串类型，ACCOUNT_BOOK为INT类型

8fa1557d2143

image.png

object OraclePartitionReadTest {

def main(args: Array[String]): Unit = {

val spark = spark = SparkSession.builder()

.appName(appName)

.master("local")

.getOrCreate()

// 1. 通过jdbc从oracle中直接读取数据，不分区

val dfReadFromOra = spark.read.jdbc(url, "tableName", properties)

println(dfReadFromOra.count())

/* 2. 通过设定字段的条件来划分分区。

如下把TIME字段，按日期区间划分为两个子区间，[2018-01，2018-12]为一个区间，[2019-01，2019-12]为一个区间。定义一个字符串数组来存放区间，区间个数即为spark从oracle读取数据时的分区个数。

val whereClause = Array("TIME>='2018-01' AND TIME <= '2018-13'", "TIME >= '2019-01' AND TIME <

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

是桃大

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据：Spark直连Oracle数据库

weixin_42913025的博客

10-17

1366

前面我们已经把大数据平台搭建完成了，接下来是怎么应用大数据这件威力巨大的武器了。因为作者目前在一家传统型制造企业，很多业务和数据都是基于传统关系型数据库展开的，数据源大部分都存在Oracle、Mysql、PostgreSQL等传统关系型数据库，所以如何跟大数据平台建立联系，或者说让大数据技术更接地气，是应用大数据技术最好的实践。本文从一个初学者的角度去实践Spark访问Oracle数据库的过程。 ...

spark通过jdbc方法连接数据库

Buevara的博客

08-18

4786

jdbc()方法 Spark SQL支持数据源使用JDBC从其他数据库读取数据。与使用JdbcRDD相比，应优先使用此功能。这是因为结果以DataFrame的形式返回，并且可以轻松地在Spark SQL中进行处理或与其他数据源合并。 JDBC数据源也更易于从Java或Python使用，因为它不需要用户提供ClassTag。（请注意，这与Spark SQL JDBC服务器不同，后者允许其他应用程序使用Spark SQL运行查询）。该方法位于 : org.apache.spark.sql中的 Data

参与评论您还未登录，请先登录后发表或查看评论

Spark：连接oracle

weixin_33790053的博客

01-04

599

代码： val file = "/root/dir/jhzf.properties" val tableName = "spark_timetime" import java.util.Properties val properties = new Properties() import java.io.FileInputStream propert...

spark读取Oracle教程

左手coding，右手cooking

06-18

5390

一、pom.xml中配置 <dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.3</version> </dependency> 二、show the code...

SparkSQL读取/写入MySQL/Oracle数据(分区并行读取)

weixin_44455388的博客

10-23

6407

** SparkSQL读取MySQL数据 ** 一、sparkSQL读取MySQL数据 1、第一种方式 def main(args: Array[String]): Unit = { //获取sparkSession val sparkSession = SparkSession.builder().appName(this.getClass.getSimpleName.filt...

sparkSQL 连接Oracle

lilele12211104的专栏

09-10

1995

注意要将oracle.jdbc.OracleDriver ojdbc8.jar 放到spark目录D:\Users\lill001\projects\spark-2.4.3-bin-hadoop2.7\jars 下。 sparkSQL 连接 oracle # -*- coding: utf-8 -*- from pyspark.sql import SparkSession from py...

Spark RDD 操作数据库

qq_64486230的博客

06-17

856

头歌实验：Spark RDD操作数据库

大数据应用1：Spark分析处理Oracle大表

狒狒也是程序猿的专栏

08-09

1937

0、制造测试数据 https://blog.csdn.net/lizhangyong1989/article/details/45013509 生产一千万条测试数据总共四个字段，每次插入一百万的数据耗时110秒左右 create table TestTable as select rownum as id, to_char(sysdate + rownum / 24 / 3600,...

Databricks 第3篇：pyspark.sql 通过JDBC连接数据库

悦光阴的博客

01-08

1222

Databricks Runtime 包含Azure SQL 数据库的 JDBC 驱动程序，本文介绍如何使用数据帧 API 连接到使用 JDBC 的 SQL 数据库，通过 JDBC 接口进行的读取操作和更新操作。在Databricks的Notebook中，spark是Databricks内置的一个SparkSession，可以通过该SparkSession来创建DataFrame、引用Data...

spark读取oracle

weixin_39182877的博客

12-29

1673

import org.apache.spark.sql.SparkSession object SparkToOracle { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .master("local[2]") .appName("Ora...

Spark直连Oracle数据库（五）

invjsk的专栏

11-16

666

spark从oracle读取数据写到hbase

qq_28429443的博客

08-29

1892

package com.analysis import java.sql.DriverManager import java.text.SimpleDateFormat import org.apache.hadoop.hbase.client.Put import org.apache.hadoop.hbase.io.ImmutableBytesWritable import org....

Spark——Spark读写Oracle

aof

04-29

1699

<dependency> <groupId>com.oracle.database.jdbc</groupId> <artifactId>ojdbc8</artifactId> <version>12.2.0.1</version> </dependency> def readOracle(spark: SparkSession): Unit = { val prop = new

SparkSql如何拉取oracle数据

别人笑我太疯癫，我笑他人看不穿。

05-07

681

首先在你的pom中添加如下依赖 <dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc6</artifactId> <version>11.2.0.3</version> </dependency> 之后准备sparksql容器对象 val spark = SparkSession .builder() .ma

spark2读取oracle工具类,spark读取oracle数据调优

weixin_36071439的博客

04-03

449

使用spark自带的上下界限来分区的不均匀性导致传输慢(木桶效应):scala> a.split("\\n").map(x=>x.toInt)res25: Array[Int] = Array(123447, 154643, 30561, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 216305, 114099, 254177, 5186719, 46387, 1163...

sparksql 读取Oracle一张表的数据

weixin_44912627的博客

05-25

1113

<dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc14</artifactId> <version>10.2.0.4.0</version> </dependency> 记得添加oracle的驱动添加链接描述 import org.apache.spark.SparkConf import org.apache.

sparkSQL 连接读取Oracle数据库

最新发布

04-09

### Spark Insert 连接超时解决方案在处理 Spark 插入操作时遇到的连接超时问题，通常与目标数据库的最大连接数限制有关。以下是针对此类问题的具体分析和解决措施： #### 数据库连接数限制引发的问题当使用 `SparkSession` 的 `write` 方法向数据库（如 Oracle）插入数据时，如果数据被划分为多个分区，则每个分区都会尝试建立独立的数据库连接[^2]。这种分布式写入机制可能导致数据库连接数迅速超出其配置的最大值，从而引发连接超时或其他相关异常。 #### 解决方案概述为了有效应对这一问题，可以从以下几个方面入手调整 Spark 配置或优化作业逻辑： 1. **减少分区数量** 减少数据集的分区数目可以显著降低并发数据库连接的数量。可以通过 `repartition` 或 `coalesce` 方法实现这一点。例如： ```python df.repartition(num_partitions).write.format("jdbc").mode("append").save() ``` 此处的 `num_partitions` 应根据实际需求设定为较小值，以确保不会超过数据库允许的最大连接数。 2. **批量提交模式** 启用 JDBC 批量提交功能有助于提升性能并减少网络开销。具体可通过如下选项启用批处理： ```scala df.write.option("batchsize", batch_size_value).format("jdbc").mode("append").save() ``` 参数 `batchsize` 定义每次事务提交的数据行数，合理设置该值可以在效率与资源消耗之间取得平衡[^2]。 3. **自定义分区器** 若某些特定场景下无法简单依赖内置函数来管理分区分布，则考虑编写定制化的 Partitioner 类型进一步精细化控制各分区内数据布局及其对应物理节点上的执行行为[^3]。 4. **增强容错能力** 增加 shuffle 操作过程中 IO 层面的相关参数阈值也有助于缓解瞬态压力造成的潜在失败风险。比如调节以下属性值： - `spark.shuffle.io.maxRetries`: 默认三次重试机会不足以应付复杂环境下的不确定性因素；将其扩大至更高水平（如六十次）或许有所帮助。 - `spark.shuffle.io.retryWait`: 对应等待间隔同样建议延长以便给予更多喘息空间完成任务恢复过程[^1]。 5. **监控与诊断工具的应用** 利用 Spark UI 提供的强大可视化界面深入剖析整个流程各个环节的表现特征，特别是关注 Shuffle Read/Write 统计指标是否存在明显偏差现象提示存在隐匿的数据倾斜隐患待排查消除[^1]。 --- ### 示例代码片段展示如何应用部分策略组合解决问题下面给出一段综合运用上述提到的技术手段的实际案例演示脚本作为参考模板： ```python from pyspark.sql import SparkSession # 初始化 Spark 会话实例 spark = SparkSession.builder \ .appName("InsertIntoDatabase") \ .config("spark.executor.memory", "8g") \ .getOrCreate() df = spark.read.csv("/path/to/input/files") # 调整核心参数适应当前负载特性要求 spark.conf.set("spark.sql.shuffle.partitions", "50") spark.conf.set("spark.shuffle.io.maxRetries", "60") spark.conf.set("spark.shuffle.io.retryWait", "60s") # 实施必要的预处理步骤过滤冗余字段缩减传输规模负担 filtered_df = df.filter((col("column_name") >= lower_bound) & (col("column_name") <= upper_bound)) # 动态重新规划全局结构形态适配下游接口预期输入格式标准 finalized_df = filtered_df.coalesce(10) # 开始正式导出动作前先验证最终状态满足既定条件后再继续推进后续环节运作链条衔接顺畅无阻滞情况发生 if finalized_df.count() > 0: finalized_df.write \ .option("url", jdbc_url) \ .option("dbtable", table_name) \ .option("user", username) \ .option("password", password) \ .option("batchsize", "1000") \ .format("jdbc") \ .mode("append") \ .save() else: print("No data to be inserted.") ``` --- ### 总结说明通过对 Spark 写入外部关系型数据库期间所面临的主要挑战进行全面梳理归纳提炼得出针对性强且易于落地实施的一系列改进举措集合体列明于此供大家借鉴采纳实践检验效果反馈持续完善形成良性循环促进整体技术水平不断提高进步向前发展迈进一大步！相关问题