爬虫新姿势——使用Chrome Devtools写一个小说爬虫

🕗 发布于 2024-11-14 11:10 爬虫 chrome devtools 前端 python 开发语言

目前，绝大部分的爬虫教程都是基于Python和Node.js。其实，只要有Chrome浏览器,使用Chrome F12打开的的Devtools就能随时随地轻轻松松写一个爬虫，完全不用装其它语言环境。今天就介绍一下只使用Chrome Devtools来爬取网站www.biqudu.com/31_31729/小说并保存为文本文件的爬虫。

如何在Chrome Devtools里面写爬虫代码

Devtools提供了Snippets功能让我们可以在这里写JavaScript代码，步骤参考下图：

步骤说明

打开source标签
左侧选择Snippets标签
点击New Snippets新建一个Snippets
开始写代码
点击运行代码
查看控制台输出

准备爬虫工具函数

1.加载第三方库

根据Url加载一个第三方库，可以用这个函数加载jquery,underscore等工具库，加载完成后就可以在代码中使用这些库了，本例中使用这个函数加载async异步并发控制库。


async function loadLibrary(url) {
    return new Promise((resolve, reject) => {
        let script = document.createElement('script');
        script.onload = resolve;
        script.onerror = reject;
        script.src = url;
        document.body.appendChild(script);
    });
}

2.下载文件到本地

将string下载到文本文件


function saveFile(string, fileName) {
    var a = document.createElement('a');
    a.download = fileName;
    var blob = new Blob([string], {
        type: 'text/plain'
    });
    a.href = window.URL.createObjectURL(blob);
    a.click();
}

3.下载HTML

使用了Fetch api,根据url下载一个html文本文件并转换成DOM元素后返回,返回的元素具有DOM api,例如 querySelector,方便对节点的提取和分析。


async function getHtml(url) {
    let response = await fetch(url);
    let htmlText = await response.text();
    let html = document.createElement('html');
    html.innerHTML = htmlText;
    return html;
}

准备爬虫业务函数

1.获取小说的所有章节信息

分析小说主页www.biqudu.com/31_31729/,

通过document.querySelectorAll('#list dd a') 可以获取包含所有章节名称和链接的a标签元素。


async function getDirectory(url) {
    let page = await getHtml(url);
    let directory = Array.from(page.querySelectorAll('#list dd a'));
    //去除顶部最新12个章节
    return directory.slice(12);
}

2.获取一个章节的内容

分析小说章节 www.biqudu.com/31_31729/21…,章节内容位于ID为content的DIV元素中


async function getSection({ href, innerText: title }) {
    console.log(`开始获取 ${title}`);
    let html = await getHtml(href);
    let content = html.querySelector('#content');
    Array.from(content.querySelectorAll('script')).forEach(scriptTag => content.removeChild(scriptTag));
    var text = title + '\r\n' + content.innerText + '\r\n';
    return text;
}

完整代码

因为小说有几百几千章节，不可能一个一个章节下载，那样速度太慢了。也不能一下子全下载。所以
爬取时使用了async异步并发控制库(这个async和async function里面的async只是名字一样而已),并发数量为6，设置大了也没用因为Chrome浏览器对同一域名下的同时请求数量是6。

完整代码运行步骤

Chrome浏览器打开小说主页如：www.biqudu.com/31_31729/
在小说主页页面打开Devtools 新建snippets并将下面的完整代码粘贴进去
点击运行代码开始爬取小说


(async function () {
    // https://www.biqudu.com/31_31729/
    async function loadLibrary(url) {
        return new Promise((resolve, reject) => {
            let script = document.createElement('script');
            script.onload = resolve;
            script.onerror = reject;
            script.src = url;
            document.body.appendChild(script);
        });
    }

    function saveFile(string, fileName) {
        var a = document.createElement('a');
        a.download = fileName;
        var blob = new Blob([string], {
            type: 'text/plain'
        });
        a.href = window.URL.createObjectURL(blob);
        a.click();
    }

    async function getHtml(url) {
        let response = await fetch(url);
        let htmlText = await response.text();
        let html = document.createElement('html');
        html.innerHTML = htmlText;
        return html;
    }

    async function getDirectory(url) {
        let page = await getHtml(url);
        let directory = Array.from(page.querySelectorAll('#list dd a'));
        //去除顶部最新12个章节
        return directory.slice(12);
    }

    async function getSection({ href, innerText: title }) {
        console.log(`开始获取 ${title}`);
        let html = await getHtml(href);
        let content = html.querySelector('#content');
        Array.from(content.querySelectorAll('script')).forEach(scriptTag => content.removeChild(scriptTag));
        var text = title + '\r\n' + content.innerText + '\r\n';
        return text;
    }

    async function run() {
        let asyncLibUrl = 'https://cdn.bootcss.com/async/2.1.4/async.js';
        await loadLibrary(asyncLibUrl);
        let directory = await getDirectory(location.href);
        let q = window.async.queue(async function (section, taskDone) {
            try {
                section.text = await getSection(section);
            } catch (e) {
                console.error(e);
                section.text = "章节下载失败：" + e;
            } finally {
                taskDone();
            }
        }, 6);//并发送设成6

        q.drain = function () {
            let name = document.querySelector('#maininfo h1').innerText + '.txt';
            console.log(`小说《${name}》下载完成`);
            let content = "";
            directory.forEach(function ({ text }) {
                content += text;
            });
            saveFile(content, name);
        }

        q.push(directory);
    }

    await run();

}());

原文地址：https://blog.csdn.net/WANGWUSAN66/article/details/143700920

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Redis设计与实现学习笔记第十七章集群
下一篇：移动应用开发：实现简易调查问卷

VBA学习笔记：基础知识
若提示宏被禁止，解决办法之一：工具-宏-安全性-安全级-中，关闭excel重新打开，启用宏。Dim arr(1 to 10) As Integer 数组。Dim x As Integer 整数。Dim
阅读更多2024-11-16
swoole mysql连接池使用
并不支持连结池的功能。连结池通常是数据库连接池的一种，它能够管理多个数据库连接，避免了频繁创建和关闭连接的开销，提高了系统的性能。释放连接，以便其他协程可以使用。这样就实现了连接的复用，提高了系统的性
阅读更多2024-11-16
Jmeter中的监听器（三）
假设我们需要测试一个Web应用，并使用比较断言来验证两个请求的响应数据是否一致，然后使用“比较断言可视化器”来查看比较结果。假设我们需要测试一个Web应用，并使用断言来验证响应数据的正确性，然后使用“
阅读更多2024-11-16
Area-Composition模型部署指南
Area-Composition模型可以通过输入不同的提示词，然后根据各部分提示词进行融合生成图片。本文详细介绍了如何实现该模型的本地部署。
阅读更多2024-11-16
3.task1 suimove helloword 上链
水龙头”通常指的是一种分发加密货币或代币的机制，尤其是通过小额赠送或奖励的方式来吸引用户参与。网络问题，切换为国内源。move.toml中修改。
阅读更多2024-11-16
Unity类银河战士恶魔城学习总结（P126 Item ToolTip物品提示）
本章节实现了把鼠标放到物品上面就会显示物品属性
阅读更多2024-11-16
游戏如何应对内存修改
由于进行内存修改需要提供root权限，GG修改器常运行虚拟机、虚拟框架等环境，在获取root权限后，可以使用magisk实现对游戏隐藏进程，来躲避游戏检测，让传统的检测手段失效，对抗难度大幅度提升。内
阅读更多2024-11-16
C#从入门到放弃
C#是一个编程语言。
阅读更多2024-11-16
NCC前端调用查询弹框
选择左侧查询区拖拽指右侧，并添加对应的查询模板字段，注意右上角区域编码要维护card_query。2. 动态建模平台- 开发配置- 应用管理 - 应用注册下找到对应的单据模板。6. 卡片下调用
阅读更多2024-11-16
UI库架构设计
工程架构：monorepo，core + components + hooks +utils …测试，单元测试，vitest，jest+react-testing-library。构建打包：rollu
阅读更多2024-11-16