Puppeteer的高级用法：如何在Node.js中实现复杂的Web Scraping

🕗 发布于 2024-09-26 04:43 node.js 前端 Puppeteer JavaScript 爬虫

背景/引言

在现代Web开发中，数据采集已成为一项重要技术，尤其是在财经领域。以“东财股吧”（https://guba.eastmoney.com）为例，该网站汇聚了大量股民的实时讨论和财经信息，为投资决策提供了丰富的参考数据。Puppeteer是一个强大的Node.js库，允许开发者以编程方式控制无头Chrome浏览器，进行高效、复杂的Web Scraping。本文将探讨Puppeteer的高级用法，特别是在财经数据采集中的应用，结合代理IP技术以提高爬虫的可靠性和效率。

正文

1. Puppeteer简介

Puppeteer为开发者提供了一套丰富的API，可以用来控制浏览器进行数据抓取、页面操作和自动化测试。其无头模式允许在不显示图形界面的情况下运行，适合于服务器环境下的爬虫。

2. 代理IP的使用

为了避免IP封禁和提高抓取效率，我们可以使用代理IP技术。以下示例中，我们将使用爬虫代理，设置域名、端口、用户名和密码。

3. 设置User-Agent和Cookies

User-Agent和Cookies在模拟真实用户行为时至关重要。我们将在代码中设置这些参数以提高抓取的成功率。

实例

以下是使用Puppeteer进行财经数据采集的示例代码，以“东财股吧”为目标进行数据分析和存储：

const puppeteer = require('puppeteer');
const fs = require('fs');

// 代理设置 亿牛云爬虫代理 www.16yun.cn
const proxy = {
  host: 'your-proxy-domain', // 爬虫代理的域名
  port: 'your-proxy-port',     // 爬虫代理的端口
  username: 'your-username',   // 爬虫代理的用户名
  password: 'your-password'     // 爬虫代理的密码
};

(async () => {
  // 启动浏览器
  const browser = await puppeteer.launch({
    headless: true, // 无头模式
    args: [
      `--proxy-server=http://${proxy.username}:${proxy.password}@${proxy.host}:${proxy.port}` // 代理配置
    ]
  });

  const page = await browser.newPage();

  // 设置User-Agent
  await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3');

  // 设置Cookies
  await page.setCookie({
    name: 'example_cookie',
    value: 'cookie_value',
    domain: 'guba.eastmoney.com'
  });

  // 访问东财股吧页面
  await page.goto('https://guba.eastmoney.com', {
    waitUntil: 'networkidle2' // 等待网络空闲
  });

  // 抓取数据
  const data = await page.evaluate(() => {
    const posts = Array.from(document.querySelectorAll('.article-item')); // 获取文章项
    return posts.map(post => ({
      title: post.querySelector('.article-title').innerText, // 文章标题
      author: post.querySelector('.author').innerText,       // 作者
      date: post.querySelector('.date').innerText,           // 日期
      content: post.querySelector('.content').innerText      // 内容
    }));
  });

  // 将数据保存到JSON文件
  fs.writeFileSync('guba_data.json', JSON.stringify(data, null, 2));
  console.log('数据已保存至 guba_data.json');

  await browser.close(); // 关闭浏览器
})();

结论

本文介绍了Puppeteer在Node.js中的高级用法，展示了如何结合代理IP技术、User-Agent和Cookies实现复杂的Web Scraping，以“东财股吧”为例进行数据分析和存储。通过这些技术，开发者能够提高数据抓取的成功率和效率，为后续的数据分析和决策提供可靠的支持。

原文地址：https://blog.csdn.net/ip16yun/article/details/142515964

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：蒙语学习快速方法，速记蒙语单词怎么学习更高效！
下一篇：vue3腾讯云实时音视频通话 ui集成方案TUIcallkit

LeetCode 172. 阶乘后的零
给定一个整数 n ，返回 n!结果中尾随零的数量。= 120 ，有一个尾随 0。= 6 ，不含尾随 0。
阅读更多2024-09-28
Redis的过期删除策略
Redis 定期删除策略并不会遍历删除每个过期键，而是采用随机抽取的方式删除过期键，同时为了保证过期扫描不影响 Redis 主业务，Redis 的定期删除策略中还提供了最大执行时间，以保证 Redis
阅读更多2024-09-28
React & 理解 re-render 的作用、概念，并提供详细的例子解释
React & 理解 re-render 的作用、概念，并提供详细的例子解释
阅读更多2024-09-28
C++杂项
将之前实现的顺序表、栈、队列都更改成模板类顺序表运行结果：栈运行结果：队列。
阅读更多2024-09-28
数组三种操作方法的对比
参数修改第一个ChangeIt方法（z = null;）不修改原数组，只改变了局部变量z的引用。方法修改了数组的元素，影响原数组内容。第二个ChangeIt方法通过创建新引用A，也成功修改了原数组的内
阅读更多2024-09-28
前海石公园的停车点探寻
前海石公园是真的很美，很多看海人，很多钓鱼佬，很多抓螃蟹的人，很多挖沙子的人，很多拍照的人，尤其是没有大太阳的时间段或每天傍晚或每个放假的时候人气超高，故前海石公园停车真的很紧张。就在前海石公园停车场
阅读更多2024-09-28
109.游戏安全项目：信息显示二-利用游戏通知辅助计算基址
游戏逆向游戏安全游戏攻防 c++ 反游戏外挂保姆级攻略 Windows
阅读更多2024-09-28
Vue3.X + SpringBoot小程序 | AI大模型项目 | 饮食陪伴官
Food Buddy，饮食陪伴官项目。这是一款专注于饮食管理的uniapp程序。在传统饮食管理APP的基础上，融入了AI伙伴，这个全新的尝试不仅能增加饮食管理的趣味性，更重要的能增加用户解决自身问题
阅读更多2024-09-28
Python Web 与大数据分析平台的集成与应用
在现代数据分析领域，Python凭借其丰富的生态系统，已成为与大数据平台集成的重要工具。大数据平台如Hadoop和Spark为数据存储与处理提供了强大的基础设施，而Python则提供了简洁的编程体验与
阅读更多2024-09-28
Simple Calculator(简单计算器：算法初阶，代码基础，“纯”手撕)
如果你的目标是编写一个易于理解和维护的代码，第一个calculate函数可能更适合。如果你追求代码的简洁性和效率，第二个calculate函数可能更符合你的需求。两个实现都是有效的，并且都可以作为学习
阅读更多2024-09-28

Puppeteer的高级用法：如何在Node.js中实现复杂的Web Scraping

背景/引言

正文

1. Puppeteer简介

2. 代理IP的使用

3. 设置User-Agent和Cookies

实例

结论

相关文章