低级爬虫实现-记录HCIP云架构考试

🕗 发布于 2024-12-08 23:54 爬虫

因工作需要考HCIP云架构（HCIP-Cloud Service Solution Architect）证书, 特意在淘宝上买了题库，考过了。

事后得知自己被坑了，多花了几十大洋。

所以想着在授权期内将题库“爬”下来，共享给大家。
因为整个过程蛮有意思，所以简单记录下。

思路

题库是以微信小程序的形式出现，我不会真正的网络爬虫，也不知道微信小程序怎么爬，所以想着通过截图+OCR的方式将其转换成文字，整理成markdown形式，再通过mkdoc转换成网页。

题库有答题模式和背题模式，也有按照题型进行分类，我们选择背题模式，以单选题为例。

在这里插入图片描述

实现

自动截图

import glob
import os.path
import time

import pyautogui

tx_dict = {
    '1': '单选',
    '2': '多选',
    '3': '判断',
    '4': '填空',
}
tx = input("输入题型编号（1.单选 2.多选 3.判断 4.填空）:\n")

lx = tx_dict.get(tx)
if not lx:
    raise Exception()
output_dir = f'output/{lx}'
os.makedirs(output_dir, exist_ok=True)

# 计算翻页次数
nums = int(input('输入题目数量:\n'))


def next_page():
    """
    模拟滑动到下一页
    :return:
    """
    pyautogui.moveTo(560, 1000)
    pyautogui.dragTo(60, 1000, 0.2, button='left')
    time.sleep(1)


if __name__ == '__main__':
    for i in range(0, nums):
        pyautogui.screenshot(f"{output_dir}/{i}.png", region=(32, 266, 750, 1310))
        next_page()

看下效果：
在这里插入图片描述

去水印

采集水印色素，对相似度接近的色素进行白色替换处理：

import glob
import os

from PIL import Image

# 设置一个颜色差异阈值，这里以50为例
threshold = 50
# 水印色素
watermark_rgb = (232, 232, 232)


def abs_delta(r1, g1, b1, target):
    return (abs(target[0] - r1) + abs(target[1] - g1) + abs(target[2] - b1)) < threshold


origin_file_pattern = f"output/单选/*.png"
target_dir = f"output/单选/water"
os.makedirs(target_dir, exist_ok=True)
pngs = glob.glob(origin_file_pattern)
for png in pngs:
    img = Image.open(png)

    # 获取图片的宽度和高度
    width, height = img.size

    for y in range(height):
        for x in range(width):
            r, g, b = img.getpixel((x, y))
            if abs_delta(r, g, b, watermark_rgb):
                img.putpixel((x, y), (255, 255, 255))  # 将接近白色的像素改为白色，也可改为背景色近似值

    # 保存处理后的图片，将输出路径替换为实际想要保存的地方
    output_path = f"{target_dir}/{os.path.basename(png)}"
    img.save(output_path)

效果如下：

在这里插入图片描述

OCR

由于图片较多，对批量处理和准确度要求较高，通过比较各种工具，最终选择了Umi-OCR

使用比较简单，截个图示意一下就行了：

在这里插入图片描述

校正

输出文字后就是漫长的文字校正过程了，包括识别错误、换行处理等等

生成文档

我选择的是mkdocs，主要用来生成静态网页，类似于gitbook，方便传播，使用教程就不赘述了，网上有很多。

效果也不展示了，因为我还在漫长的校正步骤中，哪位大神有好的校正方法可以联系我呀，痛苦如狗！！！！！！！！！

原文地址：https://blog.csdn.net/Young4Dream/article/details/144252276

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Redis 之内存管理
下一篇：万字长文解读深度学习——VQ-VAE和VQ-VAE-2

.NET(C#) 如何配置用户首选项及保存用户设置
.NET(C#) 如何配置用户首选项及保存用户设置
阅读更多2024-12-14
【最新】北大数字普惠金融指数数据集-省市县（2011-2023年）
郭峰,王靖一,王芳,孔涛,张勋,程志云.测度中国数字普惠金融发展:指数编制与空间特征[J].经济学(季刊),2020,19(04):1401-1418.时间跨度：省级和城市级指数时间跨度为2011-2
阅读更多2024-12-14
GESP202412 四级【Recamán】题解（AC）
a11ak−1−kkakak−1−kak−1k小杨想知道 Recamán 数列的前n项从小到大排序后的结果。手动计算非常困难，小杨希望你能帮他解决这个问题。
阅读更多2024-12-14
IDEA遇到EasyConnect中的网络资源无法访问的问题
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。原文链接：https://blog.csdn.net/wanshanyu_/article/de
阅读更多2024-12-14
双目摄像头标定方法
此时已经完成标定，左下角为反投影误差，右边为外参可视化。将双目左右目拍的图像上传（左右目最好不少于20张）此时回到主页面，即可看到成功导出。把这些误差大的删除即可。
阅读更多2024-12-14
Servlet、omcat服务器架构与工作原理
Servlet是运行在服务器端的Java程序，它的主要职责之一是接收并处理来自客户端（如浏览器）的HTTP请求。当客户端发送一个请求到服务器时，Servlet可以解析请求中的信息，例如请求的URL路径
阅读更多2024-12-14
Vue生命周期钩子函数：深入解析与实践
作为高级Vue前端开发人员，对Vue组件的生命周期钩子函数有着深刻的理解是至关重要的。生命周期钩子函数是指在Vue组件的创建、更新、销毁等过程中，Vue自动调用的一系列方法。通过这些钩子函数，我们可以
阅读更多2024-12-14
安卓开发--使用android studio发布APP
app发布
阅读更多2024-12-14
数据结构与算法学习笔记----拓扑排序
@ author: 明月清了个风。
阅读更多2024-12-14
python 将数据保存到现有的Excel文件的新工作表
out_file = ‘query.xlsx’df1 = pd.DataFrame(out_data)若直接写入：df1.to_excel(out_file, index=False, sheet_n
阅读更多2024-12-14

低级爬虫实现-记录HCIP云架构考试

思路

实现

自动截图

去水印

OCR

校正

生成文档

相关文章