Spark 1.5.1：利用jdbc从MySQL高效读写数据

PDF文件

下载需积分: 50 | 5.15MB | 更新于2024-09-10 | 99 浏览量 | 举报 2 收藏

立即下载

在本文中，我们将深入探讨如何使用Apache Spark的JDBC API从MySQL数据库读取和保存数据，特别是在Spark 1.4.0及以后的版本中，由于官方API的变化。作者首先提到了一个旧的源码库（https://github.com/sujee81/SparkApps），但指出该库不再适用于最新的Spark版本。因此，推荐使用`sqlContext.read().jdbc()`和`sqlContext.write().jdbc()`方法，这两个方法更符合Spark 1.5.1及以上版本的使用规范。文章首先介绍了源码的获取方式，通过从`https://github.com/jiekechoo/spark-jdbc-apps.git`克隆项目，这个项目包含四个子模块：spark-load-from-db（用于从数据库读取）、spark-save-to-db（用于将数据保存到数据库）、spark-stats（涉及数据分析）以及spark-jdbcrdd（可能与RDD操作有关）。作者强调了项目的依赖管理，父项目POM文件定义了共用组件如SLF4J（Simple Logging Facade for Java）、Spark 1.5.1版本以及MySQL 5.1.32驱动。在`spark-save-to-db`模块中，主要依赖Spark的核心组件spark-core和Spark SQL，以及MySQL的JDBC驱动，这表明了代码中将使用Spark的SQL API来执行SQL查询并将结果写入MySQL。此外，由于Spark的SQL接口允许处理DataFrame或Dataset，所以可能会涉及到DataFrame的创建、转换和持久化操作。在实际操作中，用户需要设置JDBC连接参数，包括URL、用户名、密码以及表名，然后使用`sqlContext.read().jdbc()`方法加载数据，这可能涉及数据类型映射、过滤和转换。同样，使用`sqlContext.write().jdbc()`时，可以指定目标表的模式、分区策略等，确保数据的高效写入。这篇文章提供了Spark JDBC操作MySQL数据库的实用指南，适合那些希望在Spark环境下进行大数据处理，并需要与MySQL交互的开发者。通过理解并应用这些技术，用户可以充分利用Spark的强大计算能力，实现数据的高效读取、处理和存储。

2016/1/12

【SPARK】使用Spark(jdbc)从MySQL读取和保存数据|SECTONG|赛克通博客

http://blog.sectong.com/blog/spark_jdbc_load_save.html 3/13

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"

<groupId>com.sectong</groupId>

<artifactId>spark-apps-parent</artifactId>

<version>1.0-SNAPSHOT</version>

</parent>

<artifactId>spark-save-to-db</artifactId>

<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

</properties>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.10</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.10</artifactId>

<version>${spark.version}</version>

</dependency>

<groupId>mysql</groupId>

<artifactId>mysql-connector-java</artifactId>

<version>${mysql.version}</version>

</dependency>

</dependencies>

<build>

<groupId>org.apache.maven.plugins</groupId>

<artifactId>maven-compiler-plugin</artifactId>

<compilerArgument>-Xlint:all</compilerArgument>

剩余12页未读，继续阅读

freegq_7000

粉丝: 0

Spark 1.5.1：利用jdbc从MySQL高效读写数据

Spark jdbcRDD(java)

spark-excel：一个用于通过Apache POI读取Excel文件的Spark插件

spark jdbc 读取并发优化

spark读取hbase数据，并使用spark sql保存到mysql

Spark JDBC并发优化：提升MySQL数据读取性能

spark读取mysql数据报错com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure

spark从mysql读取数据

spark sql通过jdbc连接mysql读写数据

python使用spark读取mysql数据

pycharm中如何手动添加jdbc驱动并实现spark.read.jdbc

最新资源