C# 解析 HTML 实战指南

🕗 发布于 2025-01-20 08:18 c# html 开发语言

在网页开发和数据处理的场景中，经常需要从 HTML 文档里提取有用的信息。C# 作为一门强大的编程语言，提供了丰富的工具和库来实现 HTML 的解析。这篇博客就带你深入了解如何使用 C# 高效地解析 HTML。

一、为什么要在 C# 中解析 HTML

在实际项目中，无论是进行网页数据采集、网页内容分析，还是开发网页爬虫，都离不开对 HTML 的解析。例如，电商平台可能需要从竞品网站上采集商品价格和库存信息；新闻聚合应用可能需要从各大新闻网站提取文章标题、正文和发布时间。通过 C# 解析 HTML，能够自动化地获取这些关键数据，大大提高工作效率。

二、C# 解析 HTML 的常用工具和库

HtmlAgilityPack：这是 C# 中最常用的 HTML 解析库之一，它提供了简单易用的 API，能够将 HTML 文档解析成一个 DOM（文档对象模型）树，方便开发者通过 XPath 或 CSS 选择器来提取节点和属性。

AngleSharp：另一个功能强大的 HTML 解析库，支持现代的 HTML5 标准，并且在性能上表现出色。它同样可以构建 DOM 树，同时还提供了丰富的事件处理机制，方便处理复杂的网页结构。

三、使用 HtmlAgilityPack 解析 HTML

安装库：最简单的方式是通过 NuGet 包管理器。在 Visual Studio 中，右键点击项目，选择 “管理 NuGet 程序包”，搜索 “HtmlAgilityPack” 并安装。

基本解析示例：下面是一个使用 HtmlAgilityPack 从 HTML 字符串中提取所有链接的代码示例：


using HtmlAgilityPack;

class Program

{

static void Main()

{

string html = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>";

HtmlDocument doc = new HtmlDocument();

doc.LoadHtml(html);

HtmlNodeCollection links = doc.DocumentNode.SelectNodes("//a");

if (links!= null)

{

foreach (HtmlNode link in links)

{

string href = link.GetAttributeValue("href", "");

Console.WriteLine($"Link: {href}");

}

}

}

}

在这段代码中，首先创建了一个HtmlDocument对象并加载 HTML 字符串。然后使用SelectNodes方法结合 XPath 表达式//a来选取所有的<a>标签节点，最后遍历这些节点并提取href属性的值。

提取复杂结构的数据：假设我们要从一个电商网页中提取商品信息，包括商品名称、价格和图片链接。HTML 结构可能如下：


<div class="product">

<img src="product1.jpg" alt="Product Name">

<h2 class="product-name">Product 1</h2>

<span class="price">$19.99</span>

</div>

使用 HtmlAgilityPack 提取数据的代码如下：


using HtmlAgilityPack;

class Product

{

public string Name { get; set; }

public string Price { get; set; }

public string ImageUrl { get; set; }

}

class Program

{

static void Main()

{

string html = "<div class='product'><img src='product1.jpg' alt='Product Name'><h2 class='product-name'>Product 1</h2><span class='price'>$19.99</span></div>";

HtmlDocument doc = new HtmlDocument();

doc.LoadHtml(html);

HtmlNode productNode = doc.DocumentNode.SelectSingleNode("//div[@class='product']");

if (productNode!= null)

{

Product product = new Product();

HtmlNode imgNode = productNode.SelectSingleNode(".//img");

if (imgNode!= null)

{

product.ImageUrl = imgNode.GetAttributeValue("src", "");

}

HtmlNode nameNode = productNode.SelectSingleNode(".//h2[@class='product-name']");

if (nameNode!= null)

{

product.Name = nameNode.InnerText;

}

HtmlNode priceNode = productNode.SelectSingleNode(".//span[@class='price']");

if (priceNode!= null)

{

product.Price = priceNode.InnerText;

}

Console.WriteLine($"Name: {product.Name}, Price: {product.Price}, ImageUrl: {product.ImageUrl}");

}

}

}

这里使用SelectSingleNode方法结合 XPath 表达式来精确选取需要的节点，并提取相应的属性和文本内容。

四、使用 AngleSharp 解析 HTML

安装库：同样通过 NuGet 包管理器搜索并安装 “AngleSharp”。

基本解析示例：使用 AngleSharp 提取所有链接的代码如下：


using AngleSharp;

using System.Threading.Tasks;

class Program

{

static async Task Main()

{

string html = "<html><body><a href='https://www.example.com'>Example Link</a></body></html>";

var context = BrowsingContext.New();

var document = await context.OpenAsync(req => req.Content(html));

var links = document.QuerySelectorAll("a");

foreach (var link in links)

{

string href = link.GetAttribute("href");

Console.WriteLine($"Link: {href}");

}

}

}

在这段代码中，通过BrowsingContext.New()创建一个浏览上下文，然后使用OpenAsync方法加载 HTML 字符串并得到一个IDocument对象。接着使用QuerySelectorAll方法结合 CSS 选择器来选取所有的<a>标签，最后提取href属性。

五、总结与注意事项

通过上述示例，我们可以看到 C# 在解析 HTML 方面有强大的工具支持。在实际应用中，需要注意以下几点：

网页结构的变化：网页结构可能会经常更新，所以在编写解析代码时，要尽量使用灵活的 XPath 或 CSS 选择器，以适应结构的变化。

合法性检查：在处理提取到的数据时，要进行合法性检查，确保数据的准确性和完整性。

性能优化：当处理大量 HTML 文档时，要注意性能优化，例如合理使用缓存、批量处理等。

希望这篇博客能帮助你掌握 C# 解析 HTML 的技巧，在实际项目中高效地处理网页数据。如果在实践过程中有任何问题，欢迎在评论区留言交流。

原文地址：https://blog.csdn.net/XiaoWang_csdn/article/details/145248855

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：深入了解 systemd：Linux 系统的启动与管理大师
下一篇：嵌入式硬件篇---基本组合逻辑电路

大模型GUI系列论文阅读 DAY2：《ScreenAgent：一种基于视觉语言模型的计算机控制代理》
因此，为了实现这一目标，首先需要为视觉语言模型（VLM）代理创建一个真实的交互环境，然后引导模型与环境形成一个持续的交互流程，并通过训练提高代理的性能。【Kolb，2014】的启发，使代理能够进行反思
阅读更多2025-01-21
重学分屏之进入分屏进入动画Splash Screen图层剖析
本文主要带大家认识了一个新的StartingWindowType：STARTING_WINDOW_TYPE_SOLID_COLOR_SPLASH_SCREEN，它主要就代表当前SplashWindow
阅读更多2025-01-21
PyTorch使用教程(15)-常用开源数据集简介
公开、免费且大规模的计算机视觉开源数据集扮演着至关重要的角色，它们为科研人员提供了标准化的训练平台，加速了模型开发与验证进程，并推动了整个领域的知识共享与技术创新。
阅读更多2025-01-21
Linux：生产者消费者模型
现实生活中，我们也会有像生物世界的生产者和消费者的概念，但是我们的消费者在大多数情况下并不和生产者直接联系，就比如说食物，不能说我今天去找供货商要十个面包，然后我还得在那等他把十个面包生产完了再走，虽
阅读更多2025-01-21
QT 占位符的用法
QString(“Elapsedtime:%1seconds”).arg(elapsed_seconds.count())的作用是动态生成字符串，按顺序用arg()的参数替换字符串中的占位符%1。%1
阅读更多2025-01-21
Ubuntu安装docker
对于部署企业级应用，
阅读更多2025-01-21
20250120 深入了解 Apache Flink 的 Checkpointing
当任务因故障而中断时，Flink可以从最近一次成功的Checkpoint恢复，继续任务执行，而无需重新处理已经完成的数据。当任务重启时，Flink会从最近的偏移量开始重新消费数据，确保数据不会丢失或重
阅读更多2025-01-21
AUTOSAR从入门到精通-自动驾驶测试技术（二）
自动驾驶是交通强国等众多国家战略的聚焦点，科学的测试与评价是推动自动驾驶技术进步的重要基础和核心保障。2020年，国家发改委等11部委联合发布《智能汽车创新发展战略》，明确“完善测试评价技术”是自动驾
阅读更多2025-01-21
数据结构——AVL树的实现
Hello，大家好，这一篇博客我们来讲解一下数据结构中的AVL树这一部分的内容，AVL树属于是数据结构的一部分，顾名思义，AVL树是一棵特殊的搜索二叉树，我们接下来要讲的这篇博客是建立在了解搜索二叉树
阅读更多2025-01-21
食品加工厂的高效“引擎“，canopen转ethercat网关快速稳定应用
随着技术的不断进步，伺服电机的应用将更加广泛，推动食品加工行业向更高效、智能和环保的方向发展。通过不断优化和创新，伺服电机将在未来的食品加工中发挥更大的作用，为满足日益增长的市场需求提供强有力的支持。
阅读更多2025-01-21