序列化与反序列化的本质

🕗 发布于 2024-07-27 12:07 windows 服务器 运维

1. 将对象存储到本地

假如有一个student类，我们定义了好几个对象，想要把这些对象存储下来，该怎么办呢

from typing import List
class Student:
name: str
age: int
phones: List[str]
s1 = Student("xiaoming",10,["huawei","xiaomi"])

一个极其简单的想法是把这些对象的值拼接到一起编程字符串存储下来，字段与字段之间使用逗号隔开，list的字段则使用#号隔开，想要使用什么字符自己定，只要约定好即可

# xiaoming,10,huawei#xiaomi

res = ','.join(s1.name,s1.age,'#'.join(s1.phones))
with open('s1.txt','w') as f:
f.write(res)

读取这个字符串后按照我们的约定再反解析出来每个字段

with open('s1.txt','r') as f:
res = f.read()

name,age,phones = res.split(',')
phones = phones.split('#')

s1 = Student(name, age, phones)

这样我们就又可以得到这个对象了。

存储数据的过程就是序列化，解析数据的过程就是反序列化

2. 字符串编码

我们把对象转换成字符串存到了本地文件中，并且可以打开这个文件看到我们的字符串。一切好像都很自然。其实中间存在了一个小gap，我们知道计算机只认识二进制，为啥存储的时候没有变成bytes，反而可以是字符串呢？我们把open函数补全一点儿

with open('s1.txt','w',encoding='utf-8') as f:
f.write(res)

可以看到多了一个encoding的参数，就是使用utf-8的方式把这段字符串编码成二进制数据。

计算机只认识二进制，要想传输一个对象，必须将其转换成二进制格式。英文有26个字符，还有一些常用的符号，一个想当然的方法就是让每个字符对应一个数字，这就是ASCII码表，例如

二进制	十进制	十六进制	图形
0010 0000	32	20	（空格）(␠)
0010 0001	33	21	!
0100 0001	65	41	A
0110 0001	97	61	a

英文是解决了，中文呢？日文呢？俄文呢？为了把所有的文本统一，搞出了一个unicode码本，每个文本都对应了一个二进制。unicode使用4个字节表示一个字符，这对于英文来说就非常的浪费内存，英国人跟英国人交流基本都是英文，他们浏览网站看到的也基本是英文，同样对于中文来说也一样。所以就提出了utf-8的【编码方式】，utf-8是一种变长编码方式，对于英文来说只需要一个字节就可以了，中文只需要3个字节。

在这里插入图片描述

这里需要注意的是，utf-8是一种unicode的编码方式，打个比方，每个人的手机号都是11位的，但是如果你办了亲情网，只需要3位就可以标识自己的老公，老婆，父母了。11位的手机号相当于unicode，可以表示全国所有的人，而亲情网则可以认为是utf-8编码，得到的那3位就是utf-8编码后的号码。

通过unicode码本可以把字符映射成unicode二进制
通过utf-8编码，可以把unicode二进制转换成更短的二进制

我就想，为啥不直接使用utf-8作为码本呢

所以不要觉得是我们把字符串写到本地了，其实这个字符串通过utf-8编码已经变成二进制存储到本地了。
也不要觉得我们直接打开的是字符串，其实通过notepad打开的是二进制，只不过notepad给我们使用utf-8解码了。将这个二进制重新映射成了unicode，通过unicode找到对应的字符给我们显示了出来。

编码转换

使用统一的unicode编码后，每个人看到的就不会是乱码了，俄文日文都可以在我们的电脑上正确的展示出来了。utf-8需要3个字节表示一个中文，但其实只需要2个字节就可以了，utf-8对中文而言也是有点浪费了，所以提出了gbk编码，只需要2个字节来表示中文。引文只是对中文进行编码，如果想要显示俄文那么就会是乱码。
我们请求网页的时候都会告知这个网页的编码方式，一般都是utf-8的，这样兼容性很好，任意字符都可以显示，也有gbk编码的。

如果一个文本使用utf-8编码，使用gbk格式打开就会乱码，同样，如果使用gbk编码，使用utf-8就会乱码。我们可以先使用对应的编码方式打开，这样得到其实就是unicode码，然后再使用想要的编码方式去保存。

这么说来的话，unicode算是一种事实标准了

4. json序列化

回过头来，我们把对象转换成字符串存储到了本地，也可以根据存储的规则反推出原来的对象，这个过程称之为序列化和反序列化，用逗号分隔的格式一般称为csv。更多会使用json格式来进行序列化。

import json
from typing import List

class Phone:
name: str
time: str

class Student:
name: str
age: int
phones: List[Phone]
p1 = Phone("xiaomi", "2024")
p2 = Phone("huawei", "2008")
s1 = Student("xiaoming",10,[p1, p2])

res = {}

res['name'] = s1.name
res['age'] = s1.age
res['phones'] = [{'name':"xiaomi",'time':"2024"},{'name':"huawei",'time':"2008"}]

res_str = json.dumps(res) # 把对象转换成字符串

with open('s1.txt','w') as f:
f.write(res_str)

with open('s1.txt','r') as f:
obj = json.loads(f.read())

s2 = Student()
s2.name = obj['name']
s2.age = obj['age']
phones2 = []
for phone in obj['phones']:
phones2.appen(Phone(phone.name,phone.time))
s2.phones = phones2

首先把对象转换成json支持的类型，json支持list，tuple，dict，int，str等基础类型
通过json的dumps函数我们可以把对象转换成字符串，并写到本地

proto序列化

protobuf本质就是一个【数据结构】，例如下面定义一个student的pb文件

syntax = "proto2";
package tutorial;

message Phone{
  optional string name = 1;
  optional string time = 2;
}

message Student {
  optional string name = 1;
  optional int32 age = 2;
  repeated Phone phones = 3;
}

message可以认为就是class，repeated其实就是list
同样

将原始对象转成pb格式的对象
使用seriral序列化函数转换成字符串，并写入到本地

2. proto生成相应的类

proto文件最终通过proto会生产相应的类文件，如果是c++的话就是student.pb.cc和student.pb.h。

protoc --proto_path=. --cpp_out=. ./student.proto

如果是python则是student_pb2.py。

protoc --proto_path=. --python_out=. ./student.proto

proto_path是搜索proto的路径，而cpp_out是生产.cc和.h的路径，最后则是我们的proto路径。在这里的相对路径是相对于protoc执行的路径而言的，哪里执行命令，哪里就是工作路径。
例如proto文件存储在/a/b/test/addressbook.proto，执行protoc的路径是/c/d，此时proto_path和cpp_out使用的相对路径都是相对于/c/d而言的。

原文地址：https://blog.csdn.net/he_wen_jie/article/details/140572662

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C++ | Leetcode C++题解之第283题移动零
下一篇：vscode 调试web后端

linux线程cp模型，posix信号量，线程池，线程封装，单例模型，懒汉饿汉实现方式，自旋锁，读者写者模型
前面的同步，我们并没有一个很好的场景来模拟同步，只是简单的将有序的现象输出出来；现在我们来讲解一个比较合理且常见的模型——生产者消费者模型；
阅读更多2024-09-07
Qt/C++开源项目 TCP服务器调试助手（源码分享+发布链接下载）
该TCP服务器调试助手是用于测试和监控基于TCP协议的网络通信工具，能够帮助开发者便捷地进行网络通信调试。通过简洁的界面设计，用户可以轻松配置、管理TCP端口的连接，收发消息并进行数据监控分析。123
阅读更多2024-09-07
vue3整合antv x6实现图编辑器快速入门
例如：在上面节点基础上，我们有一个新的需求：给节点加上右键菜单。X6 支持使用 SVG、HTML 来渲染节点内容，在此基础上，我们还可以使用 React、Vue 组件来渲染节点，这样在开发过程中会非常
阅读更多2024-09-07
linux使用samba共享目录，其他虚拟机和windows都可以访问
linux使用samba共享目录，其他虚拟机和windows都可以访问
阅读更多2024-09-07
Linux系统编程实现ls -l | wc -l指令
由于该指令是通过管道的形式实现的，所以我们要使用系统函数pipe。ls -l |wc -l的作用就是统计当前目录有多少文件。由于父子间通过管道实现，所以存在读写阻塞问题，不用担心僵尸进程的产生，所以可
阅读更多2024-09-07
MySQL表操作及约束
MySQL表操作及约束
阅读更多2024-09-07
1.2CubeMAX创建FREERTOS入门示例
内核参数设置，用户根据自己的实际应用来裁剪定制。：相关宏的定义，可以自建一些常量在工程中使用。User Constants（用户常量）：定时器和信号量的创建。：用于查看堆使用情况。：任务与队列
阅读更多2024-09-07
YOLOv9改进策略【注意力机制篇】| PSA极化自我关注：实现高质量像素回归
本文记录的是基于PSA注意力模块的YOLOv9目标检测方法研究。PSA模块。本文将其应用到YOLOv9的检测任务中，使模型能够更好地捕捉图像中的细节信息，以实现目标检测任务中准确识别和定位。
阅读更多2024-09-07
爆改YOLOv8|利用yolov10的SCDown改进yolov8-下采样
yolov8改进，yolov10, 下采样SCDown, 即插即用
阅读更多2024-09-07
PDF样本图册转换为一个链接，随时打开无需印刷
想象一下，您手中有一本厚重的样本图册，里面包含了丰富多样的内容，如产品介绍、项目方案、学术论文等。在过去，您需要逐一翻阅、筛选，甚至为了便于查看，不得不将其印刷出来。如今，借助先进的数字化技术，还能实
阅读更多2024-09-07