G-Set（增长集合，Grow-Only Set）

🕗 发布于 2024-10-18 11:44 数据结构

一、概念

G-Set（增长集合，Grow-Only Set）是一种冲突自由复制数据类型（Conflict-Free Replicated Data Type, CRDT），用于在分布式系统中同步和合并数据，而不需要中央协调器。G-Set 支持两种操作：添加（add）和查询（query）。一旦元素被添加到 G-Set 中，它就不能被删除，这就是为什么它被称为“增长集合”。

1.1 G-Set 的特点

不可变性：一旦元素被添加到集合中，它就永远存在于集合中，不能被删除。
幂等性：多次添加同一个元素的效果和添加一次该元素的效果相同。
交换性：元素的添加顺序不影响最终的集合状态。
冲突无关：在不同节点上并行添加元素不会导致冲突，所有的更改最终都会被合并到每个节点的副本中。

1.2 G-Set 的应用场景

G-Set 非常适合于需要合并来自不同节点的数据，而这些数据不需要删除操作的场景。例如：

分布式计数器：计数器的每次增加可以视为向 G-Set 中添加一个元素。
曾在线用户集合：记录哪些用户曾经在线，即使他们后来下线了。
标签系统：在一个分布式系统中为对象添加标签，不需要删除标签的功能。

1.3 G-Set 的局限性

由于 G-Set 是一个只增不减的集合，它的主要局限性在于无法从集合中删除元素。这可能导致随着时间的推移，集合的大小不断增长，占用更多的存储空间。为了解决这个问题，CRDT 研究中引入了其他类型的集合，如 OR-Set（可观察移除集合），它允许元素被添加和删除，同时仍然保持冲突无关的特性。

1.4 实现示例

在 Java 中，一个简单的 G-Set 实现可以使用 HashSet 来完成：

import java.util.HashSet;
import java.util.Set;

public class GSet<E> {
    private final Set<E> set = new HashSet<>();

    public void add(E element) {
        set.add(element);
    }

    public boolean contains(E element) {
        return set.contains(element);
    }

    public Set<E> getElements() {
        return new HashSet<>(set);
    }
}

这个实现提供了添加元素和查询元素是否存在的基本操作。由于使用了 HashSet，这个 G-Set 实现自然就具有了幂等性和交换性的特点。

二、示例

2.1 G-Set 的应用场景：分布式计数器

在分布式系统中，使用 G-Set 实现计数器的一个常见方法是将每次计数增加视为向集合中添加一个唯一标识符（例如，时间戳、UUID等）。这样，计数器的值就等于集合中元素的数量。下面是一个具体的示例：

2.1.1 场景描述

假设有一个在线文章阅读平台，需要统计一篇文章的阅读次数。由于平台是分布式的，文章可以同时被多个节点上的用户阅读。为了确保阅读次数的准确性，平台决定使用 G-Set 来实现分布式计数器。

2.1.2 实现步骤

初始化：对于每篇文章，初始化一个空的 G-Set。
阅读操作：当一个用户阅读文章时，系统生成一个唯一标识符（例如，用户ID+时间戳），并将其添加到文章对应的 G-Set 中。
计数查询：要获取文章的阅读次数，只需计算 G-Set 中元素的数量。

2.1.3 示例代码

import java.util.HashSet;
import java.util.Set;

public class ArticleReadCounter {
    private final Set<String> readSet = new HashSet<>();

    // 用户阅读文章时调用此方法
    public void addRead(String userId) {
        String uniqueId = userId + "-" + System.currentTimeMillis();
        readSet.add(uniqueId);
    }

    // 获取文章的阅读次数
    public int getReadCount() {
        return readSet.size();
    }
}

2.1.4 示例使用

public class Main {
    public static void main(String[] args) {
        ArticleReadCounter counter = new ArticleReadCounter();

        // 模拟用户阅读文章
        counter.addRead("user1");
        counter.addRead("user2");
        counter.addRead("user3");

        // 获取并打印阅读次数
        System.out.println("Article read count: " + counter.getReadCount());
    }
}

2.1.5 分布式环境下的合并

在分布式环境下，每个节点都可以有自己的 G-Set 实例。当需要合并两个节点的计数器时，可以将两个 G-Set 的元素合并到一个新的 G-Set 中，这个新的 G-Set 包含了所有唯一的阅读事件。由于 G-Set 是冲突无关的，这种合并操作是安全的，不会丢失数据，也不会产生冲突。

跟踪一个在线文章阅读平台的文章阅读次数，其中每次阅读都由一个唯一的事件ID表示，该ID由用户ID和时间戳组合而成。

2.1.5.1 分布式环境设置

假设我们的分布式系统有三个节点展示网页信息：Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪文章的阅读事件。

Node A 的 G-Set 包含：{"user1-1622547600", "user2-1622547605"}
Node B 的 G-Set 包含：{"user3-1622547610", "user4-1622547615"}
Node C 的 G-Set 包含：{"user2-1622547605", "user5-1622547620"}

这里，"user2-1622547605" 在 Node A 和 Node C 中都出现了，展示了在分布式系统中，同一个阅读事件可能被多个节点观察到的情况。

2.1.5.2 合并过程

为了得到全局的文章阅读次数，我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中，由于 G-Set 的特性，即使某些阅读事件在多个节点中被记录，它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含：{"user1-1622547600", "user2-1622547605", "user3-1622547610", "user4-1622547615", "user5-1622547620"}

2.1.5.3 计数结果

文章的总阅读次数等于合并后的 G-Set 中元素的数量，即 5 次。

2.1.5.4 示例代码

import java.util.HashSet;
import java.util.Set;

public class DistributedCounter {
    // 模拟合并过程
    public static Set<String> mergeSets(Set<String>... sets) {
        Set<String> mergedSet = new HashSet<>();
        for (Set<String> set : sets) {
            mergedSet.addAll(set);
        }
        return mergedSet;
    }

    public static void main(String[] args) {
        // 初始化节点的 G-Sets
        Set<String> nodeASet = new HashSet<>(Set.of("user1-1622547600", "user2-1622547605"));
        Set<String> nodeBSet = new HashSet<>(Set.of("user3-1622547610", "user4-1622547615"));
        Set<String> nodeCSet = new HashSet<>(Set.of("user2-1622547605", "user5-1622547620"));

        // 合并 G-Sets
        Set<String> mergedSet = mergeSets(nodeASet, nodeBSet, nodeCSet);

        // 计算并打印总阅读次数
        System.out.println("Total article reads: " + mergedSet.size());
    }
}

2.1.6 注意

这种方法的缺点是随着阅读次数的增加，G-Set 的大小也会不断增长，可能会占用大量的存储空间。在实际应用中，需要根据具体情况考虑是否适合使用 G-Set 实现分布式计数器，或者寻找其他更高效的解决方案。

2.2 G-Set 的应用场景：曾在线用户集合

在分布式系统中，使用 G-Set 来跟踪在线用户集合是一个很好的应用场景。在这个场景中，每当用户上线，系统就会将该用户的唯一标识符（如用户ID）添加到 G-Set 中。由于 G-Set 是一个只增不减的集合，这意味着一旦用户ID被添加，它就会永久保留在集合中。这对于跟踪曾经在线的用户非常有用，但请注意，这不适用于实时跟踪当前在线用户，因为用户下线后，其ID仍然保留在集合中。

2.2.1 示例代码

import java.util.HashSet;
import java.util.Set;

public class OnlineUserTracker {
    private final Set<String> onlineUsers = new HashSet<>();

    // 用户上线时调用此方法
    public void userOnline(String userId) {
        onlineUsers.add(userId);
    }

    // 检查用户是否曾经上线过
    public boolean hasUserEverBeenOnline(String userId) {
        return onlineUsers.contains(userId);
    }

    // 获取曾经上线过的用户总数
    public int getTotalUsersEverOnline() {
        return onlineUsers.size();
    }
}

2.2.2 示例使用

public class Main {
    public static void main(String[] args) {
        OnlineUserTracker tracker = new OnlineUserTracker();

        // 模拟用户上线
        tracker.userOnline("user1");
        tracker.userOnline("user2");
        tracker.userOnline("user3");

        // 检查特定用户是否曾经上线过
        System.out.println("Has user2 ever been online? " + tracker.hasUserEverBeenOnline("user2"));

        // 获取并打印曾经上线过的用户总数
        System.out.println("Total users ever online: " + tracker.getTotalUsersEverOnline());
    }
}

2.2.3 分布式环境下的合并

在分布式环境下，每个节点都可以维护自己的在线用户 G-Set。当需要同步或合并两个节点的在线用户集合时，可以简单地将两个 G-Set 的元素合并到一个新的 G-Set 中。这个新的 G-Set 包含了所有唯一的用户ID，从而确保了数据的一致性和完整性。

每当用户上线时，系统就会将该用户的唯一标识符（如用户ID）添加到 G-Set 中。由于 G-Set 是一个只增不减的集合，这意味着一旦用户ID被添加，它就会永久保留在集合中，适用于跟踪曾经上线的用户。

2.2.3.1 分布式环境设置

假设我们的分布式系统有三个节点：Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪在线用户。

Node A 的 G-Set 包含在线用户：{"user1", "user2"}
Node B 的 G-Set 包含在线用户：{"user3", "user4"}
Node C 的 G-Set 包含在线用户：{"user2", "user5"}

这里，"user2" 在 Node A 和 Node C 中都出现了，展示了在分布式系统中，同一个用户可能在多个节点上线的情况。

2.2.3.2 合并过程

为了得到聊天室的全局在线用户集，我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中，由于 G-Set 的特性，即使某些用户ID在多个节点中被记录，它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含在线用户：{"user1", "user2", "user3", "user4", "user5"}

2.2.3.3 示例代码

import java.util.HashSet;
import java.util.Set;

public class OnlineUserTracker {
    // 模拟合并过程
    public static Set<String> mergeOnlineUsers(Set<String>... userSets) {
        Set<String> mergedSet = new HashSet<>();
        for (Set<String> set : userSets) {
            mergedSet.addAll(set);
        }
        return mergedSet;
    }

    public static void main(String[] args) {
        // 初始化节点的 G-Sets
        Set<String> nodeAUsers = new HashSet<>(Set.of("user1", "user2"));
        Set<String> nodeBUsers = new HashSet<>(Set.of("user3", "user4"));
        Set<String> nodeCUsers = new HashSet<>(Set.of("user2", "user5"));

        // 合并 G-Sets
        Set<String> mergedUsers = mergeOnlineUsers(nodeAUsers, nodeBUsers, nodeCUsers);

        // 打印合并后的在线用户集
        System.out.println("Merged online users: " + mergedUsers);
    }
}

2.2.4 注意

G-Set 适用于跟踪用户的在线状态，但由于其只增不减的特性，它不适合用于实时监控当前在线用户。
随着时间的推移，G-Set 的大小可能会不断增长，这可能会导致存储空间的问题。在实际应用中，需要考虑这一点，并根据具体需求选择合适的数据结构。

2.3 G-Set 的应用场景：标签系统

在分布式系统中，使用 G-Set 实现标签系统是一个很好的应用场景。在这个场景中，每当需要给一个对象（如文章、图片等）添加标签时，系统就会将该标签的唯一标识符（如标签名）添加到与该对象关联的 G-Set 中。由于 G-Set 是一个只增不减的集合，这意味着一旦标签被添加，它就会永久保留在集合中，适用于标签的累积和历史记录。

2.3.1 示例代码

import java.util.HashMap;
import java.util.HashSet;
import java.util.Map;
import java.util.Set;

public class TagSystem {
    // 使用 Map 来存储每个对象及其关联的 G-Set
    private final Map<String, Set<String>> objectTags = new HashMap<>();

    // 给对象添加标签
    public void addTagToObject(String objectId, String tag) {
        // 获取或创建与对象关联的 G-Set
        Set<String> tags = objectTags.computeIfAbsent(objectId, k -> new HashSet<>());
        // 将标签添加到 G-Set 中
        tags.add(tag);
    }

    // 获取对象的所有标签
    public Set<String> getTagsForObject(String objectId) {
        return objectTags.getOrDefault(objectId, new HashSet<>());
    }
}

2.3.2 示例使用

public class Main {
    public static void main(String[] args) {
        TagSystem tagSystem = new TagSystem();

        // 给对象添加标签
        tagSystem.addTagToObject("article1", "Technology");
        tagSystem.addTagToObject("article1", "Innovation");
        tagSystem.addTagToObject("article2", "Travel");
        tagSystem.addTagToObject("article1", "2023");

        // 获取并打印对象的标签
        System.out.println("Tags for article1: " + tagSystem.getTagsForObject("article1"));
        System.out.println("Tags for article2: " + tagSystem.getTagsForObject("article2"));
    }
}

2.3.3 分布式环境下的合并

在分布式环境下，每个节点都可以维护自己的标签 G-Set。当需要同步或合并两个节点的标签集合时，可以简单地将两个 G-Set 的元素合并到一个新的 G-Set 中。这个新的 G-Set 包含了所有唯一的标签，从而确保了数据的一致性和完整性。

在这个场景中，每当需要给一个对象（如文章、图片等）添加标签时，系统就会将该标签的唯一标识符（如标签名）添加到与该对象关联的 G-Set 中。由于 G-Set 是一个只增不减的集合，这意味着一旦标签被添加，它就会永久保留在集合中。

2.3.3.1 分布式环境设置

假设我们的分布式系统有三个节点：Node A、Node B 和 Node C。每个节点都维护着自己的 G-Set 实例来跟踪对象的标签。

Node A 的 G-Set 包含对象 “Article1” 的标签：{"Tech", "Innovation"}
Node B 的 G-Set 包含对象 “Article1” 的标签：{"2023", "Tech"}
Node C 的 G-Set 包含对象 “Article1” 的标签：{"Innovation", "Environment"}

这里，标签 “Tech” 和 “Innovation” 在多个节点中出现了，展示了在分布式系统中，同一个标签可能被多个节点添加的情况。

2.3.3.2 合并过程

为了得到对象 “Article1” 的全局标签集，我们需要将这三个节点的 G-Set 合并。合并操作是将所有节点的 G-Set 中的元素合并到一个新的集合中，由于 G-Set 的特性，即使某些标签在多个节点中被记录，它们在合并后的集合中只会出现一次。

合并后的 G-Set 将包含对象 “Article1” 的标签：{"Tech", "Innovation", "2023", "Environment"}

2.3.3.3 示例代码

import java.util.HashSet;
import java.util.Set;

public class TagSystem {
    // 模拟合并过程
    public static Set<String> mergeTags(Set<String>... tagSets) {
        Set<String> mergedSet = new HashSet<>();
        for (Set<String> set : tagSets) {
            mergedSet.addAll(set);
        }
        return mergedSet;
    }

    public static void main(String[] args) {
        // 初始化节点的 G-Sets
        Set<String> nodeATags = new HashSet<>(Set.of("Tech", "Innovation"));
        Set<String> nodeBTags = new HashSet<>(Set.of("2023", "Tech"));
        Set<String> nodeCTags = new HashSet<>(Set.of("Innovation", "Environment"));

        // 合并 G-Sets
        Set<String> mergedTags = mergeTags(nodeATags, nodeBTags, nodeCTags);

        // 打印合并后的标签集
        System.out.println("Merged tags for Article1: " + mergedTags);
    }
}

2.3.4 注意

G-Set 适用于累积对象的标签，但由于其只增不减的特性，它不适合用于需要频繁删除标签的场景。
随着时间的推移，每个对象关联的 G-Set 的大小可能会不断增长，这可能会导致存储空间的问题。在实际应用中，需要考虑这一点，并根据具体需求选择合适的数据结构。

原文地址：https://blog.csdn.net/wangnanwlw/article/details/142996657

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：SQL注入总结
下一篇：限制游客在wordpress某分类下阅读文章的数量

无极低码课程【mysql windows下安装要点】
MySQL 是世界上最流行的开源关系型数据库管理系统之一。本教程将指导您在Windows操作系统上安装MySQL 5.7。
阅读更多2024-10-18
FLINK SQL时间属性
在Flink SQL中，时间属性是一个核心概念，它主要用于处理与时间相关的数据流。Flink支持三种时间属性：事件时间（event time）、处理时间（processing time）和摄入时间（i
阅读更多2024-10-18
爬虫逆向-js进阶(续写，搭建网站)
【代码】爬虫逆向-js进阶(续写，搭建网站)
阅读更多2024-10-18
kafka入门
Apache Kafka最初由LinkedIn开发并于2011年开源，主要解决大规模数据的实时流式处理和数据管道问题。kafka是一个分布式的发布-订阅消息系统，可以快速地处理高吞吐量的数据流，并将数
阅读更多2024-10-18
PHP 表达式 Exception::__toString
在PHP中，Exception类是所有异常的基类。它提供了一套标准的异常处理机制，包括捕获异常、获取异常信息、处理异常等。Exception类本身及其子类（如等）都可以被抛出以表示不同类型的错误情况。
阅读更多2024-10-18
java面试-每日随机(1014)
当从节点符合故障转移资格后，更新触发故障选举的时间，只有到达该时间后才能执行后续流程，这里之所以采用延迟触发机制，主要是通过对多个从节点使用不同的延迟选举时间来支持优先级问题。故障节点变为客观下线后，
阅读更多2024-10-18
每天花2分钟学数字化转型，第三讲：数智化
智能化是指事物在网络、大数据、物联网和人工智能等技术的支持下(数字化产生的结果)，所具有的能满足人的各种需求的属性(系统直接进行决策，并指挥相应的部门执行决策)。通俗一点来说，智能化将决策机制模型化后
阅读更多2024-10-18
JVM类加载机制，一文搞懂相关细节！
初始化：执行类构造器阶段，由编译器自动收集类中所有类变量的赋值动作和静态代码块，通常这个阶段才是真正的为变量赋值正确的初始值，这是类加载的最后阶段，只有在类被主动使用时才会触发初始化。在 Java 虚
阅读更多2024-10-18
K8s快速入门
原来我们的应用程序需要访问数据库的话，一般的做法是将数据库的地址和端口等连接信息写到配置文件或者环境变量中，然后在应用程序中读取这些配置信息，这样配置信息就和应用程序耦合在一起了，当数据库的地址或者端
阅读更多2024-10-18
Leetcode 1489. 找到最小生成树里的关键边和伪关键边
给你一个 n 个点的带权无向连通图，节点编号为 0 到 n-1 ，同时还有一个数组 edges ，其中 edges[i] = [fromi, toi, weighti] 表示在 fromi 和 toi
阅读更多2024-10-18