【文档搜索引擎】项目核心思路，模块划分和分词的概念

🕗 发布于 2024-11-27 13:49 搜索引擎

文章目录

核心思路
- 倒排索引
获取 Java 文档
模块划分
分词

项目目标：实现一个针对 Java 文档的搜索引擎
https://docs.oracle.com/javase/8/docs/api/index.html

像百度，搜狗，bing 这些搜索引擎，都是属于“全站搜索”，搜索整个互联网上所有的网站
还有一类搜索引擎，称为“站内搜索”，只针对某个网站内部的内容进行搜索

核心思路

对于一个搜索引擎来说，首先需要获取到很多的网页，然后再根据用户输入的查询词，在这些网页中进行查找

涉及到的关键问题：

搜索引擎的页面是怎么获取到的？
- 此处主要是涉及到“爬虫”这样的程序

[!quote] 爬虫
就是一个 http 客户端，去发送一些 http 请求，获取一些 http 响应的结果，这里的结果就是各种各样的网站

用户输入了查询词之后，如何让查询词和当前的这些网页进行匹配呢？
- 假设当前已经爬取到了 1 亿个网页（HTML 网页），用户输入了“蛋糕”这样的查询词
- 如果使用暴力搜索的话，就需要把“蛋糕”这个查询词在这 1 亿个网页中进行字符串查找。这样效率非常低，不可能达到秒出结果的效果
- 这时候就需要一种特殊的数据结构——倒排索引

倒排索引

文档（document）：指的是每个待搜索的网页
正排索引：指的是文档id到文档内容之间的一个映射关系
- 给你一个文档 id，你就能找到这个文档对应的内容
倒排索引：指的是词到文档id 列表的映射关系
- 因为一个词可能在很多文档里面都出现了，所以得到的是一个文档 id 列表

获取 Java 文档

把相关的网页文档获取到，这样才能制作正排索引和倒排索引

可以通过爬虫技术，来获取这些文档。

爬虫是否要学一下 Python 之类的？

所谓的爬虫，只是一个 http 客户端
只要这个编程语言能够访问网络，那么就可以实现爬虫

爬虫是获取到网页页面的一种“通用的手段”，但是针对 Java 文档来说，我们有更简单的方案

可以直接从官方网站上下载文档的压缩包
因此我们就不必通过爬虫来实现了

实现爬虫程序是存在法律风险的。每个网站都会提供一个 robots.txt 文件，这个文件里面就会告诉你哪些内容允许爬取，爬取这个白名单之外的内容，都是属于非法行为

文档下载链接：(https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html)[https://www.oracle.com/java/technologies/javase-jdk8-doc-downloads.html]

在本地基于离线文档来制作索引，实现搜索。当用户在搜索结果页点击具体的搜索结果的时候，就自动跳转到在线文档的页面

模块划分

索引模块

扫描下载到的文档，分析文档的内容，构件出正排索引+倒排索引，并且把索引内容保存到文件中
加载制作好的索引，并提供一些 API，实现查正排和查倒排这样的功能

搜索模块

调用索引模块，实现一个搜索的完整过程

输入：用户的查询词
输出：完整的搜索结果（包含很多条记录，每个记录就有标题、描述、展示 URL，并且点击能够跳转）

Web 模块

需要实现一个简单的 Web 程序，能工通过这种网页的形式来和用户进行交互

包含了后端和前端

分词

用户在搜索引擎中，输入的查询词，不一定真的就是一个词，也可能是一句话。分词就是把一个完整的句子，给切分成多个词：

天天/在/学校/当/牛马
对于分词这个操作，人是很容易完成的。但是我们是要通过代码进行分词，这就会困难很多，尤其是中文（太博大精深）
- 我一把把车把把住
- 我也想过过过儿过过的生活
- 下雨天留客，天留我不留

我们可以基于一些现成的第三方库来实现分词

原文地址：https://blog.csdn.net/Yeeear/article/details/144064441

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：docker入门学习笔记
下一篇：量子安全与经典密码学：一些现实方面的讨论

Webpack之后，Rollup如何引领前端打包新潮流？（1）
快速开始使用 Rollup 进行 JavaScript 模块的打包和优化。Rollup 的摇树优化和多种输出格式使其成为构建现代 JavaScript 应用和库的强大工具。
阅读更多2024-11-27
使用Python实现智能食品安全追溯系统的深度学习模型
本项目旨在利用深度学习技术，通过分析食品的供应链数据，实现智能食品安全追溯。具体步骤包括：数据准备数据预处理模型构建模型训练模型评估与优化实际应用通过本文的介绍，我们展示了如何使用Python构建一个
阅读更多2024-11-27
pytest之收集用例规则与运行指定用例
收集用例规则：搜索所有以test_开头的测试文件，以Test开头的测试类，以test_开头的测试函数执行用例规则：从-v 参数输出的执行信息我们就应该能发现，运行指定的目录下用例使用命令 pytes
阅读更多2024-11-27
C语言实例之9斐波那契数列实现
斐波那契数列（Fibonacci sequence），又称黄金分割数列，因数学家莱昂纳多・斐波那契（Leonardo Fibonacci）以兔子繁殖为例子而引入，故又称为 “兔子数列”。它的特点是从第
阅读更多2024-11-27
热门金融大模型整理
FinRobot，一个支持多种金融专用 AI 代理的开源平台，每个代理均由 LLM 驱动。平台架构包括：金融 AI 代理层，将复杂问题逻辑分解以形成金融思维链；金融 LLM 算法层，为任务定制模型策略
阅读更多2024-11-27
电烙铁焊接STM32芯片、贴片元器件、手册指南！！！
对于常见的贴片元器件，常见方法是使用风枪进行处理，如果没有疯抢，使用电烙铁焊接贴片元器件的过程中，首先需要再焊盘上溶一点锡，然后使用镊子夹住贴片元器件，在焊盘上这个时候烙铁融化焊盘上的锡，镊子夹着元器
阅读更多2024-11-27
2024数学建模亚太赛【C题】赛题详细解析
研究应从多个维度（如宠物类型、市场需求等）对行业数据进行全面分析，同时结合全球产业特点与中国市场现状，制定切实可行的商业发展策略。使用散点图、箱线图、热力图等方法分析变量间的关系，例如市场需求与宠物类
阅读更多2024-11-27
学习HTML第三十三天
学习HTML第三十三天
阅读更多2024-11-27
用 C++ 写一个 AWS Lambda Hello World
如果使用 Python, Java 写 Lambda 时觉得还不得快，不想要明显的预热过程，也许 1000 毫秒的任务只想要 600 毫秒就能完成，内存还希望再压缩一些，那着实能在每月千百万次 Lam
阅读更多2024-11-27
SpringBoot 项目中使用 spring-boot-starter-amqp 依赖实现 RabbitMQ
SpringBoot 项目中使用 spring-boot-starter-amqp 依赖实现 RabbitMQ
阅读更多2024-11-27