spark连接Oracle数据库,Spark通过jdbc采用分区的方式从oracle读数据

本文介绍了如何使用Spark通过jdbc连接Oracle数据库并采用分区方式读取大量数据。通过设置不同的分区条件,如时间字段区间和数值字段的边界,可以实现多线程并行读取,提升效率。同时,需要注意合适的分区数量以避免对Oracle数据库造成过大压力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

spark通过jdbc可以从oracle中直接读取数据,返回dataframe。有时由于数据量较大,我们可以采用分区方式通过jdbc多线程并行从oracle中读取数据。

- oracle中的数据如下

TIME字段是年月,为字符串类型,ACCOUNT_BOOK为INT类型

8fa1557d2143

image.png

object OraclePartitionReadTest {

def main(args: Array[String]): Unit = {

val spark = spark = SparkSession.builder()

.appName(appName)

.master("local")

.getOrCreate()

// 1. 通过jdbc从oracle中直接读取数据,不分区

val dfReadFromOra = spark.read.jdbc(url, "tableName", properties)

println(dfReadFromOra.count())

/* 2. 通过设定字段的条件来划分分区。

如下把TIME字段,按日期区间划分为两个子区间,[2018-01,2018-12]为一个区间,[2019-01,2019-12]为一个区间。定义一个字符串数组来存放区间,区间个数即为spark从oracle读取数据时的分区个数。

*/

val whereClause = Array("TIME>='2018-01' AND TIME <= '2018-13'", "TIME >= '2019-01' AND TIME <

### Spark Insert 连接超时解决方案 在处理 Spark 插入操作时遇到的连接超时问题,通常与目标数据库的最大连接数限制有关。以下是针对此类问题的具体分析和解决措施: #### 数据库连接数限制引发的问题 当使用 `SparkSession` 的 `write` 方法向数据库(如 Oracle)插入数据时,如果数据被划分为多个分区,则每个分区都会尝试建立独立的数据库连接[^2]。这种分布式写入机制可能导致数据库连接数迅速超出其配置的最大值,从而引发连接超时或其他相关异常。 #### 解决方案概述 为了有效应对这一问题,可以从以下几个方面入手调整 Spark 配置或优化作业逻辑: 1. **减少分区数量** 减少数据集的分区数目可以显著降低并发数据库连接的数量。可以通过 `repartition` 或 `coalesce` 方法实现这一点。例如: ```python df.repartition(num_partitions).write.format("jdbc").mode("append").save() ``` 此处的 `num_partitions` 应根据实际需求设定为较小值,以确保不会超过数据库允许的最大连接数。 2. **批量提交模式** 启用 JDBC 批量提交功能有助于提升性能并减少网络开销。具体可通过如下选项启用批处理: ```scala df.write.option("batchsize", batch_size_value).format("jdbc").mode("append").save() ``` 参数 `batchsize` 定义每次事务提交的数据行数,合理设置该值可以在效率与资源消耗之间取得平衡[^2]。 3. **自定义分区器** 若某些特定场景下无法简单依赖内置函数来管理分区分布,则考虑编写定制化的 Partitioner 类型进一步精细化控制各分区数据布局及其对应物理节点上的执行行为[^3]。 4. **增强容错能力** 增加 shuffle 操作过程中 IO 层面的相关参数阈值也有助于缓解瞬态压力造成的潜在失败风险。比如调节以下属性值: - `spark.shuffle.io.maxRetries`: 默认三次重试机会不足以应付复杂环境下的不确定性因素;将其扩大至更高水平(如六十次)或许有所帮助。 - `spark.shuffle.io.retryWait`: 对应等待间隔同样建议延长以便给予更多喘息空间完成任务恢复过程[^1]。 5. **监控与诊断工具的应用** 利用 Spark UI 提供的强大可视化界面深入剖析整个流程各个环节的表现特征,特别是关注 Shuffle Read/Write 统计指标是否存在明显偏差现象提示存在隐匿的数据倾斜隐患待排查消除[^1]。 --- ### 示例代码片段展示如何应用部分策略组合解决问题 下面给出一段综合运用上述提到的技术手段的实际案例演示脚本作为参考模板: ```python from pyspark.sql import SparkSession # 初始化 Spark 会话实例 spark = SparkSession.builder \ .appName("InsertIntoDatabase") \ .config("spark.executor.memory", "8g") \ .getOrCreate() df = spark.read.csv("/path/to/input/files") # 调整核心参数适应当前负载特性要求 spark.conf.set("spark.sql.shuffle.partitions", "50") spark.conf.set("spark.shuffle.io.maxRetries", "60") spark.conf.set("spark.shuffle.io.retryWait", "60s") # 实施必要的预处理步骤过滤冗余字段缩减传输规模负担 filtered_df = df.filter((col("column_name") >= lower_bound) & (col("column_name") <= upper_bound)) # 动态重新规划全局结构形态适配下游接口预期输入格式标准 finalized_df = filtered_df.coalesce(10) # 开始正式导出动作前先验证最终状态满足既定条件后再继续推进后续环节运作链条衔接顺畅无阻滞情况发生 if finalized_df.count() > 0: finalized_df.write \ .option("url", jdbc_url) \ .option("dbtable", table_name) \ .option("user", username) \ .option("password", password) \ .option("batchsize", "1000") \ .format("jdbc") \ .mode("append") \ .save() else: print("No data to be inserted.") ``` --- ### 总结说明 通过对 Spark 写入外部关系型数据库期间所面临的主要挑战进行全面梳理归纳提炼得出针对性强且易于落地实施的一系列改进举措集合体列明于此供大家借鉴采纳实践检验效果反馈持续完善形成良性循环促进整体技术水平不断提高进步向前发展迈进一大步! 相关问题
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值