Wireshark 分析SQL 批量插入慢的问题

🕗 发布于 2024-11-17 08:37 wireshark sql 测试工具

有一个数据导入程序需要导入大量的数据，使用 Spring JdbcTemplate 的批量操作功能进行数据批量导入，但是发现性能非常差，和普通的单条 SQL 执行性能差不多。

创建一个表：

CREATE TABLE `testuser` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `name` varchar(255) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4

使用 JdbcTemplate 的 batchUpdate 方法，批量插入 10000 条记录到 testuser 表。

@RunWith(SpringRunner.class)
@SpringBootTest
@Slf4j
public class JDBCTest {

    @Autowired
    private JdbcTemplate jdbcTemplate;


    @Test
    public void test() {

        long begin = System.currentTimeMillis();

        String sql = "INSERT INTO `testuser` (`name`) VALUES (?)";

        //使用JDBC批量更新
        jdbcTemplate.batchUpdate(sql, new BatchPreparedStatementSetter() {

            @Override
            public void setValues(PreparedStatement preparedStatement, int i) throws SQLException {

                log.info("批次：{}", i);

                //第一个参数(索引从1开始)，也就是name列赋值
                preparedStatement.setString(1, "usera" + i);
            }

            @Override
            public int getBatchSize() {
                //批次大小为10000
                return 10000;
            }
        });

        log.info("cost : {} ms", System.currentTimeMillis() - begin);
    }
}

执行程序后可以看到，1 万条数据插入耗时 93 秒：

2024-11-16 22:41:20.688  INFO 18043 --- [main] com.redis.demo.JDBCTest                  : cost : 93678 ms

对于批量操作，我们希望程序可以把多条 insert SQL 语句合并成一条，或至少是一次性提交多条语句到数据库，以减少和 MySQL 交互次数、提高性能。

那么，我们的程序是这样运作的吗？

打开 Wireshark，启动后选择需要捕获的网卡（因为我连接的是远程服务器的 MySQL，这里选择 utun4，如果是本地，选择loopback）

Wireshark是一个非常流行的网络封包分析工具，它能够捕获各种网络数据包并显示其详细信息。

在这里插入图片描述

然后，Wireshark 捕捉这个网卡的所有网络流量，在上方的显示过滤栏输入 tcp.port == 3306，来过滤出所有 3306 端口的 TCP 请求。

可以看到，程序运行期间和 MySQL 有大量交互。

因为 Wireshark 直接把 TCP 数据包解析为了 MySQL 协议，所以下方窗口可以直接显示 MySQL 请求的 SQL 查询语句。

我们看到，testuser 表的每次 insert 操作，插入的都是一行记录：

在这里插入图片描述

这就说明，我们的程序并不是在做批量插入操作，和普通的单条循环插入没有区别。

调试程序进入PreparedStatement 源码查看。

在这里插入图片描述

红线中判断了 rewriteBatchedStatements 参数是否为 true，是才会开启批量的优化。

优化方式有 2 种：

优先把 insert 语句优化为一条语句，也就是 executeBatchedInserts 方法；
再尝试把 insert 语句优化为多条语句一起提交，也就是 executePreparedBatchAsMultiStatement 方法。

实现批量提交优化的关键，在于 rewriteBatchedStatements 参数，我们修改连接字符串，并将其值设置为 true。

spring.datasource.url=jdbc:mysql://ip:3306/db?useUnicode=true&characterEncoding=utf-8&serverTimezone=UTC&useSSL=false&rewriteBatchedStatements=true

重新按照之前的步骤打开 Wireshark 验证，可以看到：

这次的 insert 语句被拼装成了一个 SQL；
这个 TCP 包因为太大被分割成了 113 个片段传输，#402 请求是最后一个片段，其实际内容是 insert 语句的最后一部分内容。

为了查看整个 TCP 连接的所有数据包，可以在请求上点击右键，选择 Follow->TCP Stream。

可以看到从 MySQL 认证开始到 insert 语句的所有数据包的内容：

在这里插入图片描述

查看最开始的握手数据包可以发现，TCP 的最大分段大小（MSS）是 1424 字节，而我们的 MySQL 超长 insert 的数据一共 138933 字节，因此被分成了 113 段传输，其中最大的一段是 1360 字节，低于 MSS 要求的 1424 字节。

在这里插入图片描述

最后可以看到插入 1 万条数据仅耗时 1915 毫秒，性能提升了 50 倍：

2024-11-16 20:49:53.875  INFO 12157 --- [main] com.redis.demo.JDBCTest                  : took : 1915 ms

参考资料：
《Java 业务开发错误 100 例》

原文地址：https://blog.csdn.net/yqq962464/article/details/143824535

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：线性代数[ 矩阵矩阵的初等变换线性方程组 ]第二三章
下一篇：STM32设计井下瓦斯检测联网WIFI加Zigbee多路节点协调器传输

PCL 三维重建 RBF移动立方体三维重建算法
RBF（径向基函数）Marching Cubes算法是一种基于RBF插值的方法，用于从点云数据中提取三维表面。这种算法结合了传统的Marching Cubes算法和径向基函数的优势，能够处理复杂的点云
阅读更多2024-11-19
Argo workflow 拉取git 并使用pvc共享文件
第一个任务（拉取 Git 仓库）：这个任务将使用 git 命令克隆指定的 Git 仓库。第二个任务（读取 Git 文件）：这个任务会读取第一个任务拉取的 Git 仓库中的文件。我们将使用 Argo W
阅读更多2024-11-19
java计算机毕业设计选题参考3000篇
【294】springboot+jpa+layui学生住宿管理系统mysql学生寝室分配系统含文档。基于微信小程序的社区车位租赁系统的设计与实现+springboot后台weixin200。【483】
阅读更多2024-11-19
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
《Python网络安全项目实战》项目6 编写密码工具程序_练习题(2)答案
阅读更多2024-11-19
三种方式js的引入
1.js的组成部分：BOM(browser object model)浏览器对象模型、DOM(document object model)文档对象模型、ECMAScript。2.js的引入方式:行内式
阅读更多2024-11-19
使用MQTTX连接新版ONENet
使用mqtt连接新版的onenet 教程包含产品创建设备创建，关键参数获取，token软件获取，token生成，mqttx软件的下载与使用数据流的上传等手把手操作帮助你上云
阅读更多2024-11-19
深度学习之其他常见的生成式模型
自回归模型通过对图像数据的概率分布pdataxpdatax进行显式建模，并利用极大似然估计优化模型。pdatax∏i1npxi∣x1x2xi−1pdataxi1∏npxi∣x1x2..
阅读更多2024-11-19
MySQL表的新增与查询
这里的值要和列的个数和类型相匹配使用'或者"来表示字符串。
阅读更多2024-11-19
Vue-组件三大组成&组件通信
style的默认样式是作用到哪里的？scoped的作用是什么？style中推不推荐加scoped？data写成函数的目的是什么？组件通信，就是指组件与组件之间的数据传递组件的数据是独立的，无法直接访问
阅读更多2024-11-19
Python爬虫学习路线精简大纲！！！
Python爬虫学习路线精简大纲！！！
阅读更多2024-11-19

Wireshark 分析SQL 批量插入慢的问题

相关文章