使用python的pandas读取数据库中数据，初始化到dataframe的速度过慢问题解决思路...

转载于 2018-07-08 11:42:37 发布 · 3.2k 阅读

10 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/607391

文章标签：

#python #数据库 #大数据

本文对比了使用pandas自带的read_sql方法与通过JDBC查询方式从Oracle数据库中读取大量数据的性能差异。发现使用JDBC查询方式能显著提高效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原生方法

100万数据，在oracle数据库中，使用最方便的pandas自带的read_sql方法

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
db_df1=pd.read_sql('select * from my_table1',db_engine)

代码是方便了，不过用了快10分钟，dataframe才初始化完成

通过JDBC查询的方式

import pandas as pd
import sqlalchemy as sql
db_engine=sql.create_engine('oracle://test01:test01@test001db')
conn=ora_engine.raw_connection()
cursor=conn.cursor()
queryset=cursor.execute('select * from my_table1')
columns=[for i[0] in queryset.description]
jdbc_data=queryset.fetchall()
db_df1=pd.DataFrame(jdbc_data,columns=["A1","B2","C3"])

db_df1.columns=columns
db_df1.append(df_data)

多几行代码，不过2分钟就完成了dataframe的初始化动作，看来pandas自身的方式是需要优化的，不应该官方的方式对比常规方式有好几倍的性能差异的。

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值