【爬虫】基于Go1.19的站点模板爬虫

🕗 发布于 2024-07-24 12:16 go1.19 python 爬虫 go javascript

一、准备工作

二、编写爬虫基本框架

1. 导入必要的包

随着网络信息的爆炸性增长，如何从海量的网页数据中提取有价值的信息成为了一个重要的课题。Go语言以其简洁、高效、并发的特性，在网络编程、爬虫开发等领域越来越受到开发者的青睐。本文将介绍如何使用Go 1.19版本编写一个简单的站点模板爬虫，以抓取并解析指定网站的内容。

一、准备工作

在开始编写爬虫之前，我们需要做一些准备工作：

安装Go 1.19：确保你的Go环境已经更新到1.19版本。可以从Go官网下载并安装。
了解目标站点：分析你希望抓取的网站结构，包括URL规则、页面结构等。
选择合适的库：Go生态中有很多优秀的库可以辅助我们进行网络请求、HTML解析等，如net/http、golang.org/x/net/html或更强大的第三方库如colly、goquery等。

在本教程中，我们将使用net/http进行网络请求，结合golang.org/x/net/html进行HTML解析。

二、编写爬虫基本框架

1. 导入必要的包

package main  
  
import (  
    "fmt"  
    "io/ioutil"  
    "net/http"  
    "strings"  
  
    "golang.org/x/net/html"  
)

2. 发送HTTP请求

定义一个函数用于发送HTTP GET请求并返回响应体内容。

func fetchURL(url string) (string, error) {  
    resp, err := http.Get(url)  
    if err != nil {  
        return "", err  
    }  
    defer resp.Body.Close()  
  
    body, err := ioutil.ReadAll(resp.Body)  
    if err != nil {  
        return "", err  
    }  
  
    return string(body), nil  
}

3. 解析HTML

使用golang.org/x/net/html库解析HTML内容，提取所需信息。这里以提取页面中的所有链接为例。

func parseHTML(htmlContent string) {  
    doc, err := html.Parse(strings.NewReader(htmlContent))  
    if err != nil {  
        fmt.Println("Error parsing HTML:", err)  
        return  
    }  
  
    var visit func(n *html.Node)  
    visit = func(n *html.Node) {  
        if n.Type == html.ElementNode && n.Data == "a" {  
            for _, a := range n.Attr {  
                if a.Key == "href" {  
                    fmt.Println("Found link:", a.Val)  
                }  
            }  
        }  
        for c := n.FirstChild; c != nil; c = c.NextSibling {  
            visit(c)  
        }  
    }  
  
    visit(doc)  
}

4. 主函数

在主函数中，我们将上述功能串联起来，完成整个爬取流程。

func main() {  
    url := "http://example.com" // 替换为你的目标URL  
    htmlContent, err := fetchURL(url)  
    if err != nil {  
        fmt.Println("Error fetching URL:", err)  
        return  
    }  
  
    parseHTML(htmlContent)  
}

三、运行与测试

将上述代码保存为.go文件，并在命令行中运行。确保你的网络环境可以访问目标网站，并观察控制台输出，看是否成功抓取并解析了页面中的链接。

四、扩展与优化

增加错误处理：更细致地处理HTTP请求错误、HTML解析错误等。
使用并发：利用Go的goroutine和channel特性，实现并发爬取多个页面，提高效率。
设置请求头：根据需要设置合适的请求头，如User-Agent，以避免被目标网站封禁。
处理JavaScript渲染的页面：对于JavaScript动态生成的页面内容，可能需要使用如Selenium或Puppeteer等工具进行渲染后再抓取。

原文地址：https://blog.csdn.net/qq_33502371/article/details/140625365

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Element-ui :el-table 中表尾合计行
下一篇：力扣23.合并K个升序链表

[产品管理-85]：《产品经理从入门到精通》- 创业公司的产品经理
目录一、概述1、创业公司产品经理的角色与定位2、创业公司产品经理的核心能力3、创业公司产品经理的实战技巧4、创业公司产品经理的挑战与应对策略二、创业公司的产品经理与大公司产品经理的比较1、工作环境与资
阅读更多2024-11-18
《TCP/IP网络编程》学习笔记 | Chapter 13：多种 I/O 函数
《TCP/IP网络编程》学习笔记 | Chapter 13：多种 I/O 函数
阅读更多2024-11-18
解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件
勾选并填入代理URL，可以先做检查连接：
阅读更多2024-11-18
STM32读写内部FLASH
本文是学习野火的指南针开发板过程的学习笔记，可能有误，详细请看B站野火官方配套视频教程（这个教程真的讲的很详细，请给官方三连吧）在STM32芯片内部有一个FLASH存储器，它主要用于存储代码，我们在电
阅读更多2024-11-18
【STM32】基于SPI协议读写SD，详解！
因为项目需要，使用stm32读写sd卡，这一块网上的资料很多，但是比较杂乱。有些是不能跑，有些是代码可以跑，但是相关的注释或者配置方法、流程不够清晰明确，于是花了几天时间，研究了几个成功案例之后，总结
阅读更多2024-11-18
Java基础（9）本地API
哈喽大家好啊，Java基础的学习马上就要告一段落了，今儿分享的是一些Java常用的本地API，让我们开始吧。
阅读更多2024-11-18
Spring gateway 路由配置在数据库
#spring gateway ServerRoute实体类。##spring gateway 查询动态路由mapper。##Spring gateway 动态路由Service。##spring g
阅读更多2024-11-18
i春秋-FUZZ（python模板注入、base64编码命令执行）
i春秋-FUZZ（python模板注入、base64编码命令执行）
阅读更多2024-11-18
Spring 4.3 源码导读
Spring 4 是一个功能强大的 Java 应用程序框架，广泛用于企业级应用开发。理解其核心代码有助于开发者更好地使用和优化 Spring 框架。
阅读更多2024-11-18
【Rabbitmq篇】RabbitMQ⾼级特性----消息确认
介绍RabbitMQ⾼级特性----消息确认
阅读更多2024-11-18

【爬虫】基于Go1.19的站点模板爬虫

一、准备工作

二、编写爬虫基本框架

1. 导入必要的包

2. 发送HTTP请求

3. 解析HTML

4. 主函数

三、运行与测试

四、扩展与优化

相关文章