java面试-场景题

🕗 发布于 2024-07-20 20:37 java 面试

一、集合

1. java中如何给一个超大的一个亿左右的list数据去重？

我当时的回答是使用HashSet或Stream流的distinct语法。但是面试官好像更注重内存的消耗问题。

使用HashSet：
HashSet 是一个不允许有重复元素的集合。你可以将List中的元素添加到HashSet中，然后再将HashSet转换回List（如果你需要的话）。但请注意，这种方法只适用于可以安全地在HashSet中存储的元素（即实现了正确的hashCode()和equals()方法的对象）。

List<YourType> originalList = ... // 你的原始列表
Set<YourType> set = new HashSet<>(originalList);
List<YourType> uniqueList = new ArrayList<>(set);

但是，如果List中的元素非常大（例如，每个元素都是一个复杂的对象），那么将整个List添加到HashSet中可能会消耗大量内存。

流式处理（Stream API）：
如果你使用的是Java 8或更高版本，你可以使用Stream API进行去重。但是，流式处理可能不适用于非常大的数据集，因为它需要在内存中构建中间结果。

List<YourType> uniqueList = originalList.stream().distinct().collect(Collectors.toList());

与HashSet方法类似，这种方法也依赖于元素的hashCode()和equals()方法的正确实现。

bigSet：参考：https://blog.csdn.net/qq_44591181/article/details/138843109
个人柑橘bigSet更适合存数字的去重

import java.util.ArrayList;
import java.util.BitSet;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

class MyObject {
    private int id; // 假设对象有一个唯一的ID属性

    // 构造函数、getter、setter等...
}

public class ListDeduplicationWithBitmapForObjects {

    // 假设我们有一个函数可以将对象映射到唯一的整数ID
    public static int getIdFromObject(MyObject obj) {
        return obj.getId(); // 示例：直接返回对象的ID属性
    }

    public static List<MyObject> deduplicateListWithBitmap(List<MyObject> list) {
        // 假设我们知道可能的最大ID是maxValue（实际情况中需要根据数据确定）
        int maxValue = ...; // 例如，如果你的ID范围是0到100000000，则maxValue = 100000000

        // 创建一个BitSet，大小为maxValue+1
        BitSet bitSet = new BitSet(maxValue + 1);

        // 遍历原始List，并将对象的ID设置为true在BitSet中
        for (MyObject obj : list) {
            int id = getIdFromObject(obj);
            if (id >= 0 && id <= maxValue) { // 确保ID在有效范围内
                bitSet.set(id);
            }
        }

        // 创建一个新的List来存储去重后的对象（如果需要的话）
        List<MyObject> deduplicatedList = new ArrayList<>();

        // 如果你需要保留去重后的对象列表，你可能需要额外的数据结构来存储对象与ID的映射
        // 这里只是一个简单的示例，我们假设你可以从ID直接获取到对象（这通常不现实）

        // 遍历BitSet（如果需要的话，可以将ID转换回对象并添加到deduplicatedList中）
        // 但在这个简单的示例中，我们仅打印去重后的ID
        for (int i = bitSet.nextSetBit(0); i >= 0; i = bitSet.nextSetBit(i + 1)) {
            // MyObject obj = getObjectFromId(i); // 假设你有这样的函数可以从ID获取对象
            System.out.println(i); // 或者打印出对象的ID
            // deduplicatedList.add(obj); // 如果需要的话，将对象添加到列表中
        }

        // 注意：这个示例没有返回去重后的对象列表，因为它取决于你如何存储和检索对象
        // 根据你的具体需求，你可能需要实现getObjectFromId函数或其他逻辑来恢复对象

        return null; // 或者返回一个空的deduplicatedList，取决于你的需求
    }

    public static void main(String[] args) {
        // 示例：创建一个包含重复对象的List
        List<MyObject> list = new ArrayList<>();
        // ... 添加对象到list中 ...

        // 去重（并可能打印结果，取决于你的实现）
        deduplicateListWithBitmap(list);
    }
}

内存占用比较：
在内存消耗有限制的场景中，使用BitSet来去重确实可以比使用HashSet更加节省内存，特别是在处理大量整数或可以映射到整数的对象时。但是，节省的内存量取决于具体的数据集和整数ID的分布情况。

以下是使用BitSet与HashSet去重时内存消耗的对比：

BitSet：

BitSet使用位（bit）来表示每个可能的元素是否出现过。因此，如果你知道可能的ID范围是0到maxValue，那么BitSet将使用(maxValue + 1) / 8个字节（因为一个字节有8位）。
BitSet不会为那些未使用的ID分配内存，因此它的内存使用是固定的，并且基于ID范围的上限。
HashSet：

HashSet使用哈希表来存储对象，每个对象都映射到一个哈希桶（bucket）。哈希表的大小通常是基于负载因子（load factor）和预期的元素数量来动态调整的。
对于整数，如果直接使用HashSet，那么每个Integer对象本身就需要一定的内存（大约16到24字节，取决于JVM和JVM设置）。此外，哈希表本身也需要额外的内存来存储桶数组和链表或红黑树（用于解决哈希冲突）。
对于对象，HashSet会存储对象的引用，所以实际的内存消耗还取决于对象的大小。
内存占用的减少量：

如果你的ID范围是连续的，并且你知道这个范围，那么BitSet的内存消耗将是固定的，并且通常远低于HashSet。
假设maxValue是100,000,000，BitSet将需要大约12.5MB（(100,000,000 + 1) / 8 / 1024 / 1024）。而使用HashSet存储这么多Integer对象将需要显著更多的内存。
如果对象本身很大，那么HashSet的内存消耗将更高。
注意事项：

BitSet只适用于可以映射到整数ID的对象，并且这些ID的范围是已知的且相对较小的。
BitSet不支持直接存储对象，因此如果你需要保留去重后的对象列表，你需要额外的数据结构（如HashMap）来存储对象与ID之间的映射。
HashSet提供了更通用的去重功能，可以处理任何类型的对象，而不仅仅是整数或可以映射到整数的对象。
在选择使用哪种方法时，请考虑你的具体需求，包括内存限制、数据类型、对象大小以及是否需要保留去重后的对象列表等因素。

原文地址：https://blog.csdn.net/HSH541/article/details/140565502

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：[rustlings]13_error_handling
下一篇：排序算法(3)之冒泡排序

B-树特点以及插入、删除数据过程
查找插入位置：通过树的层级结构，从根节点到叶子节点进行查找，确定插入位置。插入元素：如果目标叶子节点有空间，直接插入元素。节点分裂：如果插入导致节点超出最大容量，将节点分裂并将中间元素推送到父节点。递
阅读更多2024-11-15
JWT深度解析：Java Web中的安全传输与身份验证
JSON Web Token（JWT）是一种轻量级的身份验证和授权标准，它允许在各方之间安全地传输信息。JWT作为一种安全传输信息和身份验证的解决方案，在Java Web开发中扮演着重要角色。它通过紧
阅读更多2024-11-15
AR眼镜方案_AR智能眼镜阵列/衍射光波导显示方案
采用光波导技术的AR眼镜显示方案，核心结构通常由光机、波导和耦合器组成。光机内的微型显示器通过一系列透镜将光线耦入波导镜片，使光线在波导中以全反射形式传播，并最终通过耦合器投射到人眼。因此，系统尺寸得
阅读更多2024-11-15
Invar-RAG：基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中直接应用大型语言模型（Large Language Models, LLMs）时面临的挑战。特征局部性问
阅读更多2024-11-15
决策树基本 CART Python手写实现
【代码】决策树基本 CART Python手写实现。
阅读更多2024-11-15
Redis
String：简单键值存储，适合计数器、单一属性缓存。Hash：结构化存储，适用于存储对象数据（如用户信息）。List：有序队列，适合消息队列、任务队列。Set：无序集合，用于去重、唯一性统计、共同好
阅读更多2024-11-15
2、家庭网络发展现状
也就是wifi网络的更远覆盖，众所周知，经过节点mesh组网之后，速率会有一定下降，这也就是说mesh组网必须是5G组网或者有线组网，这样才可保证用户的体验，否则即使延伸了wifi信号覆盖，也会导致速
阅读更多2024-11-15
游戏引擎学习第10天
RDTS是一种低级的、高精度的方式，用于访问处理器的时间戳计数器。它广泛用于性能分析、基准测试和高精度计时。需要注意的是，在使用时可能会受到 CPU 频率变化和多核同步等问题的影响，在这种情况下，RD
阅读更多2024-11-15
Spring Data Redis常见操作总结
Spring Data Redis常见操作总结
阅读更多2024-11-15
css三角制作（二十课）
CSS 这根神奇的魔法棒，就能把三角变出来 so easy！
阅读更多2024-11-15

java面试-场景题

一、集合

1. java中如何给一个超大的一个亿左右的list数据去重？

相关文章