自学内容网 自学内容网

码点和码元的区别--Unicode标准的【码点】和【码元】

Unicode是通用字符编码标准是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
Unicode标准定义了一个统一的多语言文本字符集(即Unicode字符集)。
Unicode标准定义了三种字符编码方案:UTF-8、UTF-16、UTF-32。
因此,在Unicode标准中每个字符的码点是唯一的。但每个字符可以有多种编码,不同编码方案的码元大小是不一样的。
在这里插入图片描述

码点(code point)与码元(code unit)是JDK 5.0开始引入的,与Unicode标准编码相关的两个专业术语。

  • 码元,也称代码单元,是编码方案中码点的最小单元,一个码点(字符)需要用一个或多个码元进行编码。在一个编码方案中每个码元具有固定的大小,其中,UTF-8方案的码元是1字节、UTF-16方案的码元是2字节,而UTF-32方案的码元是4字节。
  • 码点表示一个字符的整型值(字符编码值)。Unicode标准编码的码点在代码空间中的取值范围自0x0000 至 0x10FFFF,每个码点可对应(定义)一个字符。Unicode码点是用十六进制数值再加上前缀“U+”来表示,例如,U+0041是字符’A’的码点,U+4E2D是汉字字符’中’的码点。

原文地址:https://blog.csdn.net/weixin_42369079/article/details/142533700

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!