TiDB 6.x 新特性解读 | Collation 规则

🕗 发布于 2024-04-27 21:14 国内数据库

对数据库而言，合适的字符集和 collation 规则能够大大提升使用者运维和分析的效率。TiDB 从 v4.0 开始支持新 collation 规则，并于 TiDB 6.0 版本进行了更新。本文将深入解读 Collation 规则在 TiDB 6.0 中的变更和应用。

引

这里的“引”，有两层含义，这第一层是“ 引言”，从 TiDB v6.0 发版说明中可以了解到，TiDB 6.0 引入了很多新特性，同时也引入了新的发版模型，本文将对 TiDB 6.0 新特性一睹为快。

第二层含义是“抛砖引玉”，开源社区的力量是无穷尽的，希望有更多人可以参与到开源中来，那么如何参与开源，其实途径远不止提交代码一种，比如，在 AskTUG 社区提问、回答、互动，再如，发现 TiDB 官方文档有 Bug 或信息不完整，提出 Issue 和解决方案，又如，参与 TiDB 6.0 Book Rush! 活动，做版本评测、案例文章等等。

默认启用新 Collation 规则

1	`TiDB 从 v4.0` `开始支持新 collation 规则，在大小写不敏感、口音不敏感、padding 规则上与 MySQL 行为保持一致。`

TiDB 6.0 默认采用新的 Collation 规则。新 Collation 规则虽已在 TiDB 4.0 引入，但一直都是默认关闭项，只有集群初始化时才能变更。可通过系统表看到该变量值的设定。

TiDB [(none)] 18:45:27> select * from mysql.tidb where variable_name = 'new_collation_enabled';

+-----------------------+----------------+----------------------------------------------------+

| VARIABLE_NAME | VARIABLE_VALUE | COMMENT |

+-----------------------+----------------+----------------------------------------------------+

| new_collation_enabled | True | If the new collations are enabled. Do not edit it. |

+-----------------------+----------------+----------------------------------------------------+

1 row in set (0.003 sec)

查看 I_S.collations 表，可以知道 TiDB 6.0 已支持 11 种规则，较之前未启用新 collation 框架的版本新增了 5 种规则，分别是 gbk_bin, gbk_chinese_ci, utf8_general_ci， utf8_unicode_ci, utf8mb4_unicode_ci。

由于很多旧系统使用的是 GBK 字符集，所以在做系统重构的项目，尤其涉及到数据迁移的情况时，对于 GBK 字符集的支持就显得尤为重要和实用。当然，对于新项目，建议使用 UTF8mb4。

TiDB [(none)] 18:45:51> select version()\G

*************************** 1. row ***************************

version(): 5.7.25-TiDB-v6.0.0

1 row in set (0.001 sec)

TiDB [(none)] 18:46:00> SELECT * FROM information_schema.collations;

+--------------------+--------------------+------+------------+-------------+---------+

+--------------------+--------------------+------+------------+-------------+---------+

| ascii_bin | ascii | 65 | Yes | Yes | 1 |

| binary | binary | 63 | Yes | Yes | 1 |

| gbk_bin | gbk | 87 | | Yes | 1 | (#28645)

| gbk_chinese_ci | gbk | 28 | Yes | Yes | 1 | (#28645)

| latin1_bin | latin1 | 47 | Yes | Yes | 1 |

| utf8_bin | utf8 | 83 | Yes | Yes | 1 |

| utf8_general_ci | utf8 | 33 | | Yes | 1 |

| utf8_unicode_ci | utf8 | 192 | | Yes | 1 | (#18678)

| utf8mb4_bin | utf8mb4 | 46 | Yes | Yes | 1 |

| utf8mb4_general_ci | utf8mb4 | 45 | | Yes | 1 |

| utf8mb4_unicode_ci | utf8mb4 | 224 | | Yes | 1 | (#18678)

+--------------------+--------------------+------+------------+-------------+---------+

11 rows in set (0.001 sec)

TiDB [test] 19:05:14> SHOW CHARACTER SET;

+---------+-------------------------------------+-------------------+--------+

+---------+-------------------------------------+-------------------+--------+

| ascii | US ASCII | ascii_bin | 1 |

| binary | binary | binary | 1 |

| gbk | Chinese Internal Code Specification | gbk_chinese_ci | 2 |

| latin1 | Latin1 | latin1_bin | 1 |

| utf8 | UTF-8 Unicode | utf8_bin | 3 |

| utf8mb4 | UTF-8 Unicode | utf8mb4_bin | 4 |

+---------+-------------------------------------+-------------------+--------+

6 rows in set (0.001 sec)

而在 TiDB v5.4 未启用新 Collation 的结果为：

TiDB-v5.4 [test] 10:17:22> select version()\G

*************************** 1. row ***************************

version(): 5.7.25-TiDB-v5.4.0

1 row in set (0.001 sec)

TiDB-v5.4 [test] 10:19:39> SELECT * FROM information_schema.collations;

+----------------+--------------------+------+------------+-------------+---------+

+----------------+--------------------+------+------------+-------------+---------+

| utf8mb4_bin | utf8mb4 | 46 | Yes | Yes | 1 |

| latin1_bin | latin1 | 47 | Yes | Yes | 1 |

| binary | binary | 63 | Yes | Yes | 1 |

| ascii_bin | ascii | 65 | Yes | Yes | 1 |

| utf8_bin | utf8 | 83 | Yes | Yes | 1 |

| gbk_bin | gbk | 87 | Yes | Yes | 1 |

+----------------+--------------------+------+------------+-------------+---------+

6 rows in set (0.001 sec)

新 Collation 注意事项

对于 TiDB 6.0 之前的版本，该配置项的默认值一直为 false ，但可以在集群初始化之前就改变其设定，如此就可以在集群初始化之后使用新的 collation 框架。

service_configs:

tidb:

new_collations_enabled_on_first_bootstrap: true

不过，这里要强调注意的是，当 TiDB 集群跨大版本升级时，需要检查配置项。以免出现上下游集群字符校验规则不一致而导致数据不同步或查询结果不一致的情况。另外，当使用 BR 进行数据备份、恢复时，也需要注意 Collation 的设置，保证备份前、恢复后的集群设置相同，防止出现因配置项 new_collations_enabled_on_first_bootstrap 设定不同而报错。

Collation Bug 修复

TiDB 6.0 中修复了2个关于 Collation 的 Bug，分别与比较函数和 JSON 相关，下面举两个小案例对其进行测试。

修复带有 collation 的 greatest 或 least 函数结果出错的问题 #31789

测试用例：

DROP TABLE IF EXISTS t1;

CREATE TABLE t1 (

c1 char(20) CHARACTER SET utf8 COLLATE utf8_bin,

c2 char(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin);

INSERT INTO t1 VALUES ('UUtJeaV','snRXXCZHBPW');

SET names utf8mb4 collate utf8mb4_bin;

SELECT greatest( c1, c2 ) as expr1 FROM t1;

SELECT least( c1, c2 ) as expr1 FROM t1;

SET names utf8mb4 collate utf8mb4_general_ci;

SELECT greatest( c1, c2 ) as expr1 FROM t1;

SELECT least( c1, c2 ) as expr1 FROM t1;

测试结果：

TiDB v5.4.0

TiDB v6.0.0

2. 修复了 json 类型在 builtin-func 中推导 collation 错误的问题 #31320

修复这个问题的主要代码如下，期望表现是与 MySQL 一致，在使用 JSON 类型的内部方法时，应当始终使用 utf8mb4_bin 规则。

// The collation of JSON is always utf8mb4_bin in builtin-func which is same as MySQL

// see details https://github.com/pingcap/tidb/issues/31320#issuecomment-1010599311

if isJSON {

dstCharset, dstCollation = charset.CharsetUTF8MB4, charset.CollationUTF8MB4

}

测试用例：

DROP TABLE IF EXISTS t2;

CREATE TABLE t2 (c1 json);

INSERT INTO t2 VALUES ('{\"测试\": \"你好\"}');

SELECT collation(c1), collation(upper(c1)), collation(elt(1, c1, 0x12)) FROM t2;

测试结果：

在 TiDB v5.4 中的测试结果为：

新增内置函数 `CHARSET()`

TiDB 6.0 新增了一个新内置函数，用来判定入参的字符集，这与 Collation 是相关联的，所以一并举例演示。注：从 Issue #3931 记录来看，这个需求早在 2017 年就提出来了，但是到 6.0 才合并到主干代码。

TiDB [test] 23:54:42> select version()\G

*************************** 1. row ***************************

version(): 5.7.25-TiDB-v6.0.0

1 row in set (0.001 sec)

TiDB [test] 00:03:51> set names utf8mb4;

Query OK, 0 rows affected (0.000 sec)

TiDB [test] 00:03:58> select charset(1);

+------------+

| charset(1) |

+------------+

| binary |

+------------+

1 row in set (0.001 sec)

TiDB [test] 00:04:03> select charset('1');

+--------------+

| charset('1') |

+--------------+

| utf8mb4 |

+--------------+

1 row in set (0.001 sec)

文档拾遗

正如开篇所提到的，参与开源的途径有很多种，我们从开源中收益，自然也要回馈社区。

举一个实际例子，在写本文查阅文档时，就发现了 Collations 这节在 v6.0 (DMR) 版本下的查询结果集与实际不符，于是便进行了反馈。

在 GitHub 上提交了 Issue，处理速度也很快，第二天就已经完成初步修改，现处 Merge 到 master。

末

本文对 Collation 特性在 TiDB 6.0 中的变更进行了汇总阐释及举例说明，当前 TiDB 所提供的几种 Collation 已经可以支撑大部分业务场景，和大部分系统迁移需求建议在项目设计之初，就选用普适类型的字符集和规则，毕竟效率是提升生产力的重要因素之一。

原文地址：https://blog.csdn.net/Ly768768/article/details/138109796

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：HTTP与SOCKS-哪种协议更适合您的代理需求？
下一篇：免费ChatGPT合集——亲测免费

网络协议之Ethernet
Ethernet协议作为局域网技术的核心，自1970年代诞生以来，经历了从10Mbps到更高速率的不断演进。它采用CSMA/CD协议管理数据传输，支持多种拓扑结构，以星型为主。以太网凭借其高速率、高稳
阅读更多2024-11-18
解析流式处理技术在实时数据ETL的具体应用
流处理技术可以对这些数据流进行初步筛选，只将有价值的数据传递给后续的分析系统，从而减轻后续系统的负担，提高整体的处理效率。例如，在网络日志数据处理中，流处理系统可以先过滤掉一些无关的日志信息（如一些常
阅读更多2024-11-18
【JavaEE进阶】CSS
CSS 能够对⽹⻚中元素位置的排版进⾏像素级精确控制, 实现美化⻚⾯的效果. 能够做到⻚⾯的样式和结构分离.⼀个类可以被多个标签使⽤, ⼀个标签也能使⽤多个类(多个类名要使⽤空格分割, 这种做法可以让
阅读更多2024-11-18
【Linux】Socket编程基础
socket编程预备知识
阅读更多2024-11-18
C# 中的异常处理：编写健壮的应用程序
异常是在程序执行过程中发生的一种非正常情况。当程序无法正常执行某段代码时，会抛出一个异常对象。异常对象包含了有关错误的详细信息，如错误类型、错误消息和堆栈跟踪等。
阅读更多2024-11-18
npm : 无法加载文件 C:\Program Files\nodejs\npm.ps1，因为在此系统上禁止运行脚本。
RemoteSigned 就可以实现访问。
阅读更多2024-11-18
【代码pycharm】动手学深度学习v2-04 数据操作 + 数据预处理
老师课上用的jupyter我用pycharm实现的
阅读更多2024-11-18
【HarmonyOS】鸿蒙系统在租房项目中的项目实战（二）
从今天开始，博主将开设一门新的专栏用来讲解市面上比较热门的技术 “鸿蒙开发”，对于刚接触这项技术的小伙伴在学习鸿蒙开发之前，有必要先了解一下鸿蒙，从你的角度来讲，你认为什么是鸿蒙呢？它出现的意义又是什
阅读更多2024-11-18
删除缓存之后，浏览器显示登录新设备
当C盘缓存被清除时，这些存储的Token也会被删除，导致浏览器无法识别之前的登录状态，因此需要重新登录。清除缓存后，如果Refresh Token也丢失，用户可能需要重新登录以获取新的Token。综上
阅读更多2024-11-18
Java Function 的妙用：化繁为简的魔法师！
在 Java 开发中，Function是一个非常重要的函数式接口，它的存在让代码从繁琐走向简洁，从普通迈向优雅。今天，我们就来聊聊Function的那些“妙用”，以及它如何帮助开发者写出更简洁、更强大
阅读更多2024-11-18

TiDB 6.x 新特性解读 | Collation 规则

引

默认启用新 Collation 规则

新 Collation 注意事项

Collation Bug 修复

新增内置函数 CHARSET()

文档拾遗

末

相关文章

新增内置函数 `CHARSET()`