MySQL插入千万级记录

场景:当产品中需要对用户进行过滤的时候,需要对用户添加白名单。如果一次需要导入千万级的用户量,普通的SQL插入/更新耗时长久,执行效率低下。为加快数据库的插入效率,需要对程序和数据库设置进行优化。

1. 为什么批量插入比逐条插入快

一条SQL的执行过程可参见:MySQL语句执行过程_西木风落-CSDN博客

数据库的一个插入动作,包含了连接,传输,执行,提交/回滚等的动作。

  • 网络传输方面来说,批量插入多条数据,更省空间。
  • 连接数量来说,批量插入使用一个连接,在使用数据库连接池情况下,逐个插入可能会占用多个连接。
  • 通过合并SQL语句,同时也能减少SQL语句解析的次数;
  • 从事务方面来说,逐条插入每次都会新建一个事务,批量插入只会使用一个事务。
  • 从日志方面来说,由于逐条插入每次都会插入binlog事务日志,合并后日志量减少了,降低日志刷盘的数据量和频率,从而提高效率。
  • 如果存在主键索引,逐条多线程插入抢锁竞争激烈;

批量插入比逐条插入并不一定快,比如插入的数据是业务表,每行的数据量较大,且该表访问频繁,插入1条的时候可能不会锁表,而插入10000行的时候,会遇到锁表的情况。如果并发插入,甚至发生死锁。

2. 插入语句优化

2.1 合并sql插入

INSERT INTO `tb` (`id`, `name`) VALUES ('1', 'lianggzone'); 
INSERT INTO `tb` (`id`, `name`) VALUES ('2', 'lianggzone'); 

-- 转换成

INSERT INTO `tb` (`id`, `name`) VALUES  ('1', 'lianggzone'), ('2', 'lianggzone');

2.2 在一个事务中插入

start transaction;
INSERT INTO `tb` (`id`, `name`) VALUES  ('1', 'lianggzone'), ('2', 'lianggzone');

INSERT INTO `tb` (`id`, `name`) VALUES  ('3', 'lianggzone'), ('4', 'lianggzone');
commit;

2.3 insert into 改成insert delayed into

INSERT DELAYED INTO,是客户端提交数据给MySQL,MySQL返回OK状态给客户端,这时并不是已经将数据插入表,而是存储在内存里面等待排队。当mysql有空余时,再插入。这样的好处是,提高插入的速度,客户端不需要等待太长时间。坏处是,不能返回自动递增的ID,以及系统崩溃时,MySQL还没有来得及插入数据的话,这些数据将会丢失。

3. 配置优化

3.1 尽量将数据一次性写入DataFile和减少数据库的checkpoint操作

  • 将 innodb_flush_log_at_trx_commit 配置设定为0;

        0:表示每秒钟将日志缓存写到日志文件,但是事务提交的时候不做操作;

        1:表示日志缓存每一次事务提交都写入日志文件,并且日志文件会刷新到磁盘;

        2:表示日志缓存每一次事务提交都会写入日志文件,但不执行磁盘操作。 

  • 增大innodb_log_buffer_size:此配置项作用是设定innodb 数据库引擎写日志缓存区,增大可以减少数据库写数据文件次数。
  • 增大innodb_log_file_size:此配置项作用是设定innodb 数据库引擎UNDO日志的大小,增大配置可以减少数据库checkpoint操作。
  • 增大bulk_insert_buffer_size:修改Max_allowed_packet=8M(默认1M),Net_buffer_length=8k,此配置的作用是可以增大insert 语句的大小,便于批量插入。

3.2 数据库表可以先去除索引

      可以先去除索引,添加完数据后再把索引加上;

3.3 注意事项

事务需要控制大小,事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项,超过这个值会把innodb的数据刷到磁盘中,这时,效率会有所下降。所以比较好的做法是,在数据达到这个这个值前进行事务提交。

4. 直接采用load data方式

### MySQL 处理千万级数据时的性能优化 对于大规模的数据集(如千万级别),MySQL 的性能优化至关重要。以下是针对此场景的一些最佳实践: #### 1. **合理设计表结构** - 使用合适的字段类型,例如 `INT` 而不是 `BIGINT` 来节省空间[^1]。 - 避免过度使用大字段(如过长的 `VARCHAR` 或 `TEXT` 类型)。如果某些列可能为空,则可以考虑将其设置为可选字段。 #### 2. **索引优化** - 创建复合索引来加速频繁使用的查询条件组合。 - 定期分析并删除冗余或无用的索引,以减少维护成本。 - 对于范围查询,注意 B-Tree 索引的特点,避免不必要的全扫描。 #### 3. **分库分表** - 当单张表的数据量过大时,可以通过水平拆分的方式将数据分布到多个物理表中。 - 可采用哈希算法或其他逻辑规则来决定每条记录归属的具体子表。 #### 4. **利用预处理语句 (Prepared Statements)** - Prepared Statements 提高了 SQL 执行效率,因为它减少了每次执行新请求时解析开销[^3]。 - 特别适合批量插入或者更新操作,在这种情况下能够显著降低网络传输次数以及服务器端重复编译的时间消耗。 #### 5. **调整缓冲区大小及其他参数配置** - 增加 InnoDB 缓冲池 (`innodb_buffer_pool_size`) 和其他重要内存区域分配比例,使得热数据尽可能驻留在 RAM 中而不是硬盘上。 - 设置合理的连接数限制(`max_connections`)防止资源耗尽;同时启用慢日志功能追踪低效查询行为以便后续改进。 #### 6. **引入缓存机制** - 结合 Redis 这样的内存数据库作为中间层存储经常访问但变化不频繁的信息片段[^2]。 - 实施 CQRS 架构模式区分命令模型与查询模型,进一步增强系统的响应速度和服务质量。 #### 7. **硬件升级与分布式架构支持** - 如果预算允许的话,增加 CPU 核心数量、提高 SSD 存储容量都是有效的手段之一。 - 同时也可以探索多数据中心部署方案以达到更高的可用性和灾难恢复能力。 ```sql -- 示例:创建带覆盖索引的查询 CREATE INDEX idx_user_email ON users(email); SELECT id, email FROM users WHERE email='[email protected]'; ``` ---
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值