Unicode与UTF-8的关系

🕗 发布于 2024-09-21 01:11 字符编码 UTF-8 Unicode

Unicode又称统一码，万国码。uni是一个英文词根，原型是one, 表示“单一, 一个”，所以unicode本意是“一个码”，就是让每个字符都有一个唯一的编码。它就像个武林盟主，把世上所有的语言符号一勺烩，一统了编码江湖。不过缺点也很明显，为了统一，牺牲了效率，常用2个字节存储一个符号（生僻字符可能需要4字节）。这样对于本来只占用一个字节的英文字母来说（ASCII编码），相当于增加一倍的存储空间。西方人一向都是这也要，那也要，可不会吃这亏。

为了解决这个问题，UTF-8出现了，UTF是Unicode Transformation Format的缩写，表示Unicode的一种转换格式。它的特点是编码可长可短，根据字符的实际长度来分配存储空间。具体怎么分配的呢？足见西方人“我不上天堂谁上天堂？”的处事智慧。

经过一番折腾，实现的效果如下：

①西方字符的UTF-8码与原来的ASCII编码完全一致，一点亏也不吃。

②中文字符的Unicode码转成UTF-8码由的2个字节变成了3个字节。

谁占便宜了谁吃亏一目了然，可怜的我们被人收割了还用得不亦乐乎。

UTF-8编码既能节省空间，又不会出现乱码，真是好用得不要不要了！

不过UTF-8编码也有点儿小问题，就是长度变来变去的，计算机处理起来不太方便，为了解决这个问题，处理前需要预先要将UTF-8转换为Unicode。

也就是说，在计算机内存中，统一使用Unicode编码，需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

举两个例子：

(1)记事本。“.txt”文件中保存是UTF-8，读取文件时转换为Unicode并存入内存。保存文件的时再把Unicode转换为UTF-8。

(2)浏览网页。服务器会把Unicode内容转换为UTF-8格式的，再传输到浏览器。

原文地址：https://blog.csdn.net/jjmhx/article/details/142352543

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

分布式系统学习笔记
除了分布式爬虫系统，还有许多分布式系统值得学习和实践，它们在不同领域有广泛应用，积累相关经验对找工作非常有帮助。
阅读更多2024-11-18
SQL初步注入
基于时间的延迟，构造一个拼接语句： vince' and if(substr(database(),1,1)='X' (猜测 vince' and if(substr(database(),1,1)=
阅读更多2024-11-18
跨平台WPF框架Avalonia教程十一
这个例子展示了如何覆盖Panel元素的默认布局行为，并创建从Panel派生的自定义布局元素。该例子定义了一个简单的自定义Panel元素，称为PlotPanel，它根据两个硬编码的x和y坐标来定位子元素
阅读更多2024-11-18
【MySQL】MySQL数据库入门：构建你的数据基石
🦅数据库基础🍑个人主页：Jupiter.🚀 所属专栏：MySQL初阶探索：构建数据库基础。
阅读更多2024-11-18
如何查看python源代码
众所周知，Python内建了许多函数模块，并且我们可能还会安装许多第三方模块等等。在该类或方法上按住“ctr+鼠标左键”可以快速查看源代码。想要查看每个功能的解释，用help(type(对象名))输入
阅读更多2024-11-18
基于java的健身馆网站
项目编号：springbootA063随着网络科技的不断发展以及人们经济水平的逐步提高，网络技术如今已成为人们生活中不可缺少的一部分，而信息管理系统是通过计算机技术，针对用户需求开发与设计，该技术尤其
阅读更多2024-11-18
WebLogic 介绍
WebLogic 支持完整的 Java EE 规范，包括 JSP、Servlet、EJB（Enterprise JavaBeans）、JMS（Java Message Service）、JNDI（Ja
阅读更多2024-11-18
简单学点位运算（Java）
【代码】简单学点位运算（Java）
阅读更多2024-11-18
使用MATLAB进行随机信号处理
MATLAB是一款强大的数学计算软件，广泛应用于工程、科学和经济等领域。其中，随机信号处理是MATLAB其中一个重要的应用领域。本文将探讨随机信号的基本概念、生成方法以及MATLAB中如何处理随机信号
阅读更多2024-11-18
CSP/信奥赛C++语法基础刷题训练（11）：洛谷P5743：猴子吃桃
CSP/信奥赛C++语法基础刷题训练（11）：洛谷P5743：猴子吃桃
阅读更多2024-11-18

Unicode与UTF-8的关系

相关文章