Hadoop里面MapReduce的序列化与Java序列化比较

🕗 发布于 2024-09-21 05:30 hadoop 大数据 分布式 mapreduce big data

什么是序列化？

jvm中的一个对象，不是类，假如你想把一个对象，保存到磁盘上，必须序列化，你把文件中的对象进行恢复，是不是的反序列化。

假如你想把对象发送给另一个服务器，需要通过网络传输，也必须序列化，到另一侧要反序列化。

说到序列化，我们想到了Java的序列化。一个类实现了Serializable 接口即可。

Java对象什么时候需要序列化？
1）需要保存到本地的时候
2）需要在网络之间传输的时候

package com.bigdata;

import java.io.Serializable;
/**
 * @Author laoyan
 * @Description TODO
 * @Date 2022/8/1 11:43
 * @Version 1.0
 */
public class User implements Serializable {

    private String name;
    private int age;

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

大数据技术Hadoop并没有采用java的序列化机制，而是自己又整了一套自己的序列化机制。为什么？

Java的序列化携带的信息太多了，文件太大了，不便于在网络之间传输。
User 使用Java --> 100KB
User 使用大数据的序列化 --> 5KB

大数据采用的序列化机制是 Writable 接口。

为什么非得序列化呢？因为需要在网路之间传输。

Java数据类型	Hadoop序列化的数据类型	释义
byte	ByteWritable	字节类型
short	ShortWritable	短整型
int	IntWritable	整型
long	LongWritable	长整型
float	FloatWritable	单精度浮点型
double	DoubleWritable	双精度浮点型
boolean	BooleanWritable	布尔型
String	Text	字符串
array	ArrayWritable	数组
Map	MapWritable	Map
null	NullWritable	空

java的八大基本数据类型： byte short int long float double char boolean

只需要记住：String --> Text即可。null --> NullWritable，仅仅是为了在某个地方占位，符合语法而已。

2、测试java序列化 VS Hadoop序列化大小比较

java序列化

package com.bigdata;

import java.io.Serializable;


public class User implements Serializable {

    private String name;
    private int age;

    public User(String name, int age) {
        this.name = name;
        this.age = age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

Hadoop的序列化

package com.bigdata;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;


public class UserWritable implements Writable {

    private String name;
    private int age;

    public UserWritable(String name, int age) {
        this.name = name;
        this.age = age;
    }

    // 序列化
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeUTF(name);
        out.writeInt(age);
    }

    // 反序列化
    @Override
    public void readFields(DataInput in) throws IOException {

        // 进行反序列化的时候，读取的顺序一定要跟序列化的时候的顺序一致，否则报错
        name = in.readUTF();
        age = in.readInt();
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }
}

使用对象流对比

package com.bigdata;

import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.ObjectOutputStream;


public class TestXLH {

    public static void main(String[] args) throws Exception {
        User user = new User("zhangsan",20);
        ObjectOutputStream objectOutputStream = new ObjectOutputStream(new FileOutputStream("D:/user1.txt"));
        objectOutputStream.writeObject(user);
        objectOutputStream.close();

        UserWritable user2 = new UserWritable("zhangsan",20);
        ObjectOutputStream objectOutputStream2 = new ObjectOutputStream(new FileOutputStream("D:/user2.txt"));
        // 此时是序列化对象去write 对象流，此处需要注意
        user2.write(objectOutputStream2);
        objectOutputStream2.close();

    }
}

java序列化的结果：

hadoop序列化的结果：

原文地址：https://blog.csdn.net/Yz9876/article/details/142368509

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：个人小结（2.0）
下一篇：WPF 依赖属性改变触发响应事件

大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
LLaMA-Factory ——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型，并且提供了丰富的训练算法，包括增量预训练、多模态指令监督微调、奖励模型训练等。
阅读更多2024-09-24
TM-align蛋白质聚类数据格式转化
可以进一步把不符合要求的结构过滤掉，从而得到的数据集可以用于结构预测或蛋白质设计的模型研究。第一列为编号，第二列为聚类的代表序列，第三列为所有的其它同源序列，逗号隔开。其中，第一列为聚类的代表序列，第
阅读更多2024-09-24
掌上高考爬虫逆向分析
掌上高考爬虫逆向分析
阅读更多2024-09-24
笔记整理—内核！启动！—linux应用编程、网络编程部分（4）linux文件属性
整理一下学习的内容，个人观点可能存在错误。对linux的文件属性进行介绍，并说明用什么函数可用对文件的属性进行查看以及修改。
阅读更多2024-09-24
DC-DC选型
Buck、Boost、Buck-boost同步非同步隔离与非隔离电源效率模式选择选型总结
阅读更多2024-09-24
OpenAI GPT-3 API: What is the difference between davinci and text-davinci-003?
OpenAI GPT-3 API：davinci 和 text-davinci-003 有什么区别
阅读更多2024-09-24
C语言内存函数
仔细想一下，就能知道当把1、2先拷贝放到arr+2和arr+3的地址处，其实原来数组的3和4就被1和2覆盖了，所以之后再来拷贝arr1+2和arr1+3地址处的元素到arr1+4和arr1+5所指向的
阅读更多2024-09-24
实现HTML两栏布局
是一个弹性单位，代表“分数”，它会根据剩余空间的比例来分配宽度。：表示第二列会占据剩余的所有空间。浮动 + margin。
阅读更多2024-09-24
MyBatis-Plus 实体类注解
如果逻辑删除标记的值不为 0 和 1，可以通过全局配置进行自定义。db-config:logic-not-delete-value: 0 # 未删除的值logic-delete-value: 2 #
阅读更多2024-09-24
Matplotlib-数据可视化详解
可视化介绍数据可视化是指直观展现数据，它是数据处理过程的一部分。把数值绘制出来更方便比较。借助数据可视化，能更直观地理解数据，这是直接查看数据表做不到的数据可视化有助于揭示数据中隐藏的模式，数据分析时
阅读更多2024-09-24

Hadoop里面MapReduce的序列化与Java序列化比较

什么是序列化？

2、测试java序列化 VS Hadoop序列化大小比较

相关文章