MySQL中char和varchar的区别

🕗 发布于 2024-02-27 14:38 mysql 数据库

1.从字符和字节的区别开始

字节(Byte)是计量单位，表示数据量多少，是计算机信息技术用于计量存储容量的一种计量单位。

字符(Character)计算机中使用的字母、数字、字和符号等，比如'A'、'B'、'$'、'&'，'中'等。

那么比如: 'A'是占多少个字节的呢？在不同编码中，结果是不一样的。

GBK编码，一个英文字符占一个字节，中文2字节，单字符最大可占用2个字节。
UTF-8编码，一个英文字符占一个字节，中文3字节，单字符最大可占用3个字节。
utf8mb4编码，一个英文字符占一个字节，中文3字节，单字符最大占4个字节（如emoji表情4字节）。

mysql支持的编码集和默认的编码

常用的是utf8,而MySQL的“utf8”实际上不是真正的UTF-8。

mysql的“utf8”只支持每个字符最多三个字节，而真正的UTF-8是每个字符最多四个字节。

以前版本mysql使用的是utf8，现在官方把以前最多3字节的utf8改成了utf8mb3。而utf8mb4才是完整的utf8（一个字符最多可以占4个字节）。

MySQL在5.5.3之后增加了utf8mb4的编码，mb4就是most bytes 4的意思，专门用来兼容四字节的unicode。

所以所有在使用“utf8”的MySQL和MariaDB用户都应该改用“utf8mb4”。

说明：后面进行测试的mysql都是上图的版本8.0.36。

2.char和varchar类型对比

这两种都是字符串，char是定长，varchar是变长的。

char(N)，varchar(N)中的N表示什么？N个字节还是N个字符？

在version4中长度单位是字节，而在version5及以后版本中是字符。

一个中文字占3个字符，表明char(4)中的4表示的是最长是4个字符。

char(N),varchar(N)中的N最大可以是多少？

char

char(N)中的N值最大是255。

对于char类型来说，最多只能存放的字符个数为255，和编码无关，任何编码最大容量都是255。

varchar

而varchar(N)中，很多文章写最大是65536,这是错误的。

MySQL行默认最大65535字节，是所有列共享（相加）的，所以varchar的最大值受此限制。

表中只有单列字段情况下，varchar一般最多能存放(65535 - 3)个字节，varchar的最大有效长度通过最大行数据长度和使用的字符集来确定，通常的最大长度是65532个字符（当字符串中的字符都只占1个字节时，能达到65532个字符）；

为什么是65532个字符？算法如下（有余数时向下取整）：

最大长度(字符数) = （行存储最大字节数 - null标识列占用字节数 - 长度标识字节数） / 字符集单字符最大字节数


该列允许是null的时候，null占用字节数为1
长度标识字节数是因为varchar的头部需要存储该列该字符串的长度。长度大于255的时候就需要2字节。

char,varchar中尾随空格的情况

char类型插入的时候，末尾有空格的话，会去除空格；若插入的字符长度不足默认用空格填满，
检索和获取时会自动去除。

varchar类型插入的时候，末尾有空格的话，不会去除空格。

用concat函数来测试，char类型的进行concat的话，是没有空格，而varchar是有空格的。

也通过select....where...来进行查找。

排序规则collate对char,varchar中尾随空格的影响

上述情况都是发生在我们默认的collate(排序规则)。

排序规则是由使用的编码集来确定的，而我们使用的编码集是utf8mb4,而其默认的collate是utf8mb4_0900_ai_ci。

排序规则以 _ci 结尾，表示不区分大小写（Case Insentive），_cs 表示大小写敏感，_bin 表示通过存储字符的二进制进行比较。

我们先来看看PAD SPACE与NO PAD的具体意义：

PAD SPACE：在排序和比较运算中，忽略字符串尾部空格。
NO PAD：在排序和比较运算中，字符串尾部空格当成普通字符，不能忽略。

我们把callate修改成PAD SPACE模式测试下：

name字段的callate修改成utf8mb4_bin,其Pad_attribute是PAD SPACE。

没有特别情况，我们一般是使用默认情况，就记住这个排序规则。

3.char和varchar在innodb引擎层的存储

Innodb存储引擎支持多种行格式（REDUNDANT、COMPACT、DYNAMIC、COMPRESSED），不同行格式存储方式存在差异。这里是基于默认行格式DYNAMIC。

varchar

在表test_varchar插入以下数据(单字节的字母和多字节的中文)。

mysql> show create table test_varchar\G;
*************************** 1. row ***************************
       Table: test_varchar
Create Table: CREATE TABLE `test_varchar` (
  `id` int NOT NULL,
  `code` varchar(100) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci


mysql> insert into test_varcahr values(1,'aaaaa'),(2,'hellohello'),(3,'我我我我我我');

然后到/var/lib/mysql目录位置，之后找到使用的该数据库，然后在该数据库找到使用的表test_varchar。

之后使用命令 hexdump -C test_varchar.ibd

红框内的05和0a和12(十进制就是18)分别表示的是对应字符串的长度(字节数)5,10,18。绿色下划线部分为实际存储的数据aaaaa和hello，'我'的十六进制是E68891。(可以在mysql中 select hex('我');查看)。

说明varchar类型对于单字节编码、多字节编码，都是存储了字符长度+实际的字符。

char

在表test_char插入以下数据(6字节，30字节，10字节）

mysql> show create table test_char\G;
*************************** 1. row ***************************
       Table: test_char
Create Table: CREATE TABLE `test_char` (
  `id` int NOT NULL,
  `code` char(20) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci
1 row in set (0.00 sec)

mysql> insert into test_char values(1,'我aaa'),(2,'我我我我我我我我我我'),(3,'bbbbbbbbbb');

code字段是char(20),表明该字段最多可以存储20*4=80字节大小的数据。

可以看到，红色的是数据大小，14,1e,14。表明char类型的，innodb也是保存了字符长度的。而长度不够80字节的，末尾是用0x20(即是空格)来插入。

而这也有个情况，不是每次都是开辟80字节的空间来存储的。从这个实验来看，是这样:要是插入的大小不足设置的数值20(这里char(N)的N是20）,就只开辟20字节的空间存储，超过20字节了，就开辟实际大小的空间来存储（1e就是十进制30）。

char和varchar的存储总结

都是存储长度大小和实际数据。
对于CHAR(N)字段，如果实际存储数据小于N字节，会填充空格到N个字节。

网上说的对于innodb引擎，建议使用varchar就是这个原因吧。

4.用char还是varchar

经过上面的分析，我们可知，UTF8MB4 字符集 1 个字符最大存储 4 个字节。所以从底层存储看，在多字节字符集下，CHAR 和 VARCHAR 底层的实现完全相同，都是变长存储！

所以建议大部分可以使用varchar。

但是要是就确定是这么多字节的，那当然是使用char的。

还有种情况：知道该字段的最大长度，并且该字段需要频繁修改的。比如使用char(50)，则插入记录后就分配了50个字节，后续修改不会造成页分裂、页空隙等情况;而varchar(50)由于没有提前分配存储空间，后续修改时可能出现页分裂，进而导致性能下降。

原文地址：https://blog.csdn.net/m0_57408211/article/details/136251681

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：130 如何通过vs2017开发linux c++程序
下一篇：前端页面可视化大屏适配方案

leetcode289:生命游戏
根据，简称为，是英国数学家约翰·何顿·康威在 1970 年发明的细胞自动机。给定一个包含m × n个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1即为（live），或0即为
阅读更多2024-10-20
MongoDB数据恢复
注意：两个MongoDB的版本要一致，本文使用的是mongo:4.2.24。先把K8S上面的MongoDB 容器停止（可以把副本改成0）。1、将容器挂载MongoDB的数据目录备份到本地。经常是数据文
阅读更多2024-10-20
C#中实现事务
C#中实现事务
阅读更多2024-10-20
【LeetCode每日一题】——560.和为 K 的子数组
给你一个整数数组 nums 和一个整数 k ，请你统计并返回该数组中和为 k 的子数组的个数。子数组是数组中元素的连续非空序列。
阅读更多2024-10-20
「漏洞复现」满客宝智慧食堂系统 selectUserByOrgId 未授权访问漏洞
请勿利用文章内的相关技术从事非法测试，由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任。工具来自网络，安全性自测，如有侵权请联系删除。本次
阅读更多2024-10-20
React面试题目（从基本到高级）
React前端面试常见题目涵盖了React的基础概念、组件、状态管理、生命周期、性能优化等多个方面。
阅读更多2024-10-20
12.个人博客系统（Java项目基于spring和vue）
1 在校学习的学生，可用于日常学习使用或是毕业设计使用 2 毕业一到两年的开发人员，用于锻炼自己的独立功能模块设计能力，增强代码编写能力。 3 亦可以部署为商化项目使用。 4 需要完整资料及源码
阅读更多2024-10-20
YoloV8改进策略：注意力改进|DeBiFormer，可变形双级路由注意力|引入DeBiLevelRoutingAttention注意力模块（全网首发）
本次改进的核心在于将DeBiLevelRoutingAttention模块嵌入到YoloV8的主干网络中，具体位置是在SPPF（Spatial Pyramid Pooling Fast）模块之后。这一
阅读更多2024-10-20
word取消自动单词首字母大写
情况说明：在word输入单词后首字母会自动变成大写取消单词首字母大写步骤：（1）点击菜单栏文件（2）点击“更多”——>“选项”（3）点击“校对”——>“自动更正选项”（4）取消“句首字母大
阅读更多2024-10-20
web前端网页用户注册页面
【代码】web前端网页用户注册页面。
阅读更多2024-10-20