怎样在 PostgreSQL 中优化对模糊搜索的性能？

🕗 发布于 2024-07-10 20:59 postgresql 数据库

文章目录

一、理解模糊搜索
二、性能优化策略
三、具体示例
四、性能测试和监控
五、总结

美丽的分割线

PostgreSQL

在 PostgreSQL 中，模糊搜索是一种常见但可能性能不佳的操作，特别是当数据量较大时。然而，通过一些技术和策略，可以显著提高模糊搜索的性能。

美丽的分割线

一、理解模糊搜索

模糊搜索通常是指使用通配符（如 %）或特定的模式匹配函数（如 LIKE、SIMILAR TO 等）来查找不精确匹配的数据。例如：

SELECT * FROM users WHERE name LIKE '%John%';

这种类型的查询在搜索字符串可能出现在任何位置时很方便，但它经常导致全表扫描，因为数据库无法有效地利用索引来优化搜索。

美丽的分割线

二、性能优化策略

1. 索引优化

部分匹配索引：对于经常使用的模糊搜索模式，如果存在固定的前缀部分，可以创建基于该前缀部分的索引。例如，如果大多数查询是类似于 'John%' （以 “John” 开头）的模式，可以创建一个索引：
```
CREATE INDEX idx_name_start ON users (name) WHERE name LIKE 'John%';
```
这样，当执行以 “John” 开头的搜索时，数据库可以使用这个索引来提高性能。

全文搜索索引：PostgreSQL 提供了全文搜索功能，通过 tsvector 和 tsquery 数据类型以及相关的操作符和函数来实现。例如：

-- 创建一个全文搜索索引
ALTER TABLE users ADD COLUMN name_search tsvector;
UPDATE users SET name_search = to_tsvector(name);
CREATE INDEX idx_name_search ON users USING gin (name_search);

-- 执行全文搜索查询
SELECT * FROM users WHERE name_search @@ to_tsquery('John');

全文搜索在处理复杂的文本匹配和自然语言查询时非常强大，但需要根据数据特点和查询需求进行适当配置。

2. 数据存储和规范化

减少要搜索的数据量：如果可能，将经常用于模糊搜索的列的数据分离到单独的表中，以减少需要扫描的数据行。
数据规范化：确保数据没有冗余和不一致，避免重复的数据值，这有助于提高查询性能。

3. 查询重写和条件优化

分解复杂条件：如果查询条件很复杂，尝试将其分解为多个简单的条件，并适当使用临时表或 WITH 子句来优化性能。
避免不必要的通配符：尽量限制通配符的使用，只在确实需要的情况下使用。例如，如果知道搜索字符串通常在开头或结尾，就只在相应的位置使用通配符。

4. 参数化查询

避免在查询中直接嵌入值，而是使用参数化查询。这有助于数据库缓存查询计划，提高执行效率。例如，使用 PREPARE 和 EXECUTE 语句或在应用程序中使用参数绑定。

5. 硬件和配置优化

增加内存：确保服务器有足够的内存来缓存数据和索引，减少磁盘 I/O。
调整数据库配置参数：如 shared_buffers、work_mem 等参数，根据服务器的硬件资源和工作负载进行优化。

美丽的分割线

三、具体示例

假设有一个 products 表，其中包含 product_name 列，并且需要对该列进行模糊搜索。

示例 1：部分匹配索引优化

如果大多数查询是寻找以特定字符串开头的产品名称，例如 'Apple %'，可以创建如下索引：

CREATE INDEX idx_product_name_start ON products (product_name) WHERE product_name LIKE 'Apple %';

然后执行以下查询：

SELECT * FROM products WHERE product_name LIKE 'Apple %';

在这种情况下，数据库可以利用索引来快速定位以 “Apple” 开头的产品名称。

示例 2：全文搜索优化

首先，创建全文搜索相关的列和索引：

ALTER TABLE products ADD COLUMN product_search tsvector;
UPDATE products SET product_search = to_tsvector(product_name);
CREATE INDEX idx_product_search ON products USING gin (product_search);

执行全文搜索查询：

SELECT * FROM products WHERE product_search @@ to_tsquery('laptop');

这个查询将利用全文搜索索引来查找包含 “laptop” 相关词汇的产品名称。

示例 3：查询重写和条件分解优化

假设原来的查询是：

SELECT * FROM products WHERE (product_name LIKE '%laptop%' OR product_name LIKE '%computer%') AND price > 500;

可以重写为：

WITH laptop_products AS 
    (SELECT * FROM products WHERE product_name LIKE '%laptop%'),
computer_products AS 
    (SELECT * FROM products WHERE product_name LIKE '%computer%')
SELECT * FROM laptop_products UNION SELECT * FROM computer_products WHERE price > 500;

通过将复杂的条件分解，并使用 UNION 操作符，可能会提高查询性能。

美丽的分割线

四、性能测试和监控

在实施优化策略后，进行性能测试和监控是至关重要的，以验证优化的效果并发现可能的新问题。

1. 使用 EXPLAIN 分析查询计划

EXPLAIN SELECT * FROM users WHERE name LIKE '%John%';

EXPLAIN 命令将显示数据库如何执行查询的计划，包括是否使用了索引、进行了全表扫描等信息，帮助了解查询的执行过程和可能的性能瓶颈。

2. 性能基准测试

创建一组具有代表性的测试用例和数据量，在优化前后分别执行相同的查询，并测量执行时间、CPU 使用率、内存使用等指标，以量化性能的改进。

3. 监控系统资源

使用操作系统的性能监控工具（如 top、vmstat 等）或数据库自带的监控功能（如 PostgreSQL 的 pg_stat_activity、pg_stat_database 等视图）来观察数据库服务器的资源使用情况，如 CPU 负载、内存占用、磁盘 I/O 等，以便及时发现并解决资源瓶颈问题。

美丽的分割线

五、总结

对 PostgreSQL 中模糊搜索性能的优化是一个综合性的任务，需要根据具体的数据特征、查询模式和系统环境来选择合适的策略。通过合理的索引设计、数据存储优化、查询重写以及性能测试和监控，可以显著提高模糊搜索的性能，提升数据库应用的整体响应速度和用户体验。

注意，每种优化策略都有其适用场景和局限性，并且在实际应用中，可能需要结合多种方法来达到最佳的性能效果。同时，随着数据量和查询需求的变化，也需要定期重新评估和调整优化策略。

美丽的分割线

🎉相关推荐

PostgreSQL

原文地址：https://blog.csdn.net/zenson_g/article/details/140284037

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

防火墙----iptables
防火墙会从以上至下的顺序来读取配置的策略规则，在找到匹配项后就立即结束匹配工作并去执行匹配项中定义的行为（即放行或阻止）。如果在读取完所有的策略规则之后没有匹配项，就去执行默认的策略。iptables
阅读更多2024-11-18
Python代码热流系统进行建模分析
从指定的Excel文件中读取与热流相关的数据，包括管径、长度、压力、流量、入口过冷焓等参数。根据读取的数据，利用库计算多种水的物性参数，如饱和焓值、密度、比热容、粘度等。通过一系列复杂的物理公式和迭代
阅读更多2024-11-18
二、vue指令
点击展开或收起时，把内容区域显⽰或者隐藏。v-bind:属性名="vue变量"指代事件对象传给事件处理函数。⽅便通过变量控制⼀套标签出现。修饰符给事件扩展额外功能。修饰符名即可使⽤
阅读更多2024-11-18
信奥学习规划（CSP-J/S)
CSP - J/S（非专业级软件能力认证 - 入门级 / 提高级）的信奥学习规划
阅读更多2024-11-18
ctfshow DSBCTF web部分wp
需要值不同而 md5 相同，有长度限制不能进行强碰撞，尝试数组绕过也不行，这里注意到可以让其类型不同而值相同进行绕过，构造 pop 链最后得到 flag。
阅读更多2024-11-18
【Linux】进程的优先级
cpu资源分配的先后顺序，就是指进程的优先权（priority）。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用，可以改善系统性能。还可以把进程运行到指定的CP
阅读更多2024-11-18
Linux—进程学习-02
进程相关的概念的学习【利用系统调用fork创建子进程】【利用fork实现多进程】【操作系统层面上进程状态运行、阻塞、挂起的理解和学习】【Linux操作系统具体的进程状态的理解和学习（R、S、T、t、D
阅读更多2024-11-18
HMI FUXA测试
FUXA是基于Web的，过程（SCADA、HMI、看板等）可视化软件。可创建现代的过程可视化，使用独立的设计器，显示机器和实时数据。。
阅读更多2024-11-18
基于Java Springboot城市交通管理系统
城市交通管理系统的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品，体验高科技时代带给人们的方便，同时也能让用户体会到与以往常规产品不同的体验风格。这就意味
阅读更多2024-11-18
pytorch中的ImageFolder 用法
是 PyTorch 中模块提供的一个常用类，用于从文件夹中加载图像数据。它是一种非常方便的方式来加载按文件夹结构组织的图像数据集。这个类能够自动将文件夹中的子目录作为标签，并且将其中的图像文件加载为
阅读更多2024-11-18

怎样在 PostgreSQL 中优化对模糊搜索的性能？

文章目录

一、理解模糊搜索

二、性能优化策略

1. 索引优化

2. 数据存储和规范化

3. 查询重写和条件优化

4. 参数化查询

5. 硬件和配置优化

三、具体示例

示例 1：部分匹配索引优化

示例 2：全文搜索优化

示例 3：查询重写和条件分解优化

四、性能测试和监控

1. 使用 EXPLAIN 分析查询计划

2. 性能基准测试

3. 监控系统资源

五、总结

相关文章