lxml 解析xml\html

🕗 发布于 2024-12-26 09:53 java 网络 服务器

from lxml import etree

# XML文档示例
xml_doc = """
<root>
    <book>
        <title>Python编程指南</title>
        <author>张三</author>
    </book>
    <book>
        <title>Python高级编程</title>
        <author>李四</author>
    </book>
</root>
"""

# 创建ElementTree对象并解析XML文档
root = etree.fromstring(xml_doc)

# 使用XPath定位元素并打印内容
books = root.xpath('//book')
for book in books:
    title = book.xpath('title/text()')[0]
    author = book.xpath('author/text()')[0]
    print(f"书名：{title}，作者：{author}")

# HTML文档示例
html_doc = """
<html>
<body>
    <h1>标题</h1>
    <p>段落1</p>
    <p>段落2</p>
</body>
</html>
"""

# 创建HTML解析器并解析HTML文档
parser = etree.HTMLParser()
root = etree.fromstring(html_doc, parser)

# 遍历HTML元素并打印内容
for element in root.iter():
    print(element.tag, element.text)

from lxml import html
import requests
 
# 发送HTTP请求获取网页内容
response = requests.get('https://example.com')
html_content = response.content
 
# 使用lxml解析HTML内容并提取信息
tree = html.fromstring(html_content)
title = tree.xpath('//title/text()')[0]
paragraphs = tree.xpath('//p/text()')
print('标题:', title)
print('段落:')
for p in paragraphs:
    print(p)

原文地址：https://blog.csdn.net/daxiashangxian/article/details/144726505

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：dolphinscheduler服务RPC负载均衡源码解析(二)基于多种不同算法的负载均衡策略实现源码解析
下一篇：Spring学习(一)——Sping-XML

HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐
HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐
阅读更多2024-12-26
Python PyMupdf 去除PDF文档中Watermark标识水印
使用PyMuPdf去除watermark型PDF水印。
阅读更多2024-12-26
前端如何将pdf等文件传入后端
来输入文件。其中type指后端url，accept来限制传入类型。
阅读更多2024-12-26
HarmonyOS NEXT 实战之元服务：静态案例效果---最近播放音乐
HarmonyOS NEXT 实战之元服务：静态案例效果---最近播放音乐
阅读更多2024-12-26
JVM简介—1.Java内存区域
如果Java堆中的内存并不是规整的，已使用的内存和空闲的内存相互交错，那就没有办法进行指针碰撞了，此时虚拟机就必须要维护一个列表，记录上哪些内存块是可用的，在分配的时候从列表中找到一块足够大的空间划分
阅读更多2024-12-26
左神算法基础巩固--1
时间复杂度为一个算法流程中，常数操作数量的一个指标。常用O(读作big O)来表示。具体来说，先要对一个算法流程非常熟悉，然后去写出这个算法流程中，发生了多少常数操作，进而总结出常数操作数量的表达式。
阅读更多2024-12-26
2025考研加油！Jing也加油哦！
幸运儿们，上岸！！！加油！！！Jing也是！！！
阅读更多2024-12-26
HDFS与HBase有什么关系？
甚至如果不考虑文件系统的分布式或稳定性等特性的话，完全可以用简单的本地文件系统，甚至内存文件系统来代替。可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce。传统的
阅读更多2024-12-26
shell 编程(五)
df 命令时unix 和类unix系统中用于显示文件系统磁盘空间使用情况的命令，df 是disk free的缩写，它可以显示磁盘上每个挂载点的使用情况，包括总容量，已用空间，可用空间以及挂载点信息。
阅读更多2024-12-26
RHCE-第六章：DNS域名解析服务器
DNS（Domain Name System）是互联网上的一项服务，它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便的访问互联网。DNS系统使用的是网络的查询，那么自然需要有监听的po
阅读更多2024-12-26

lxml 解析xml\html

相关文章