爬虫学习2

🕗 发布于 2024-11-05 02:23 学习 python

数据解析

正则表达式

量词：

import re
 #searcch只会匹配到第一次匹配的内容
 #result = re.search(r"\d+","今年32")
 #print(result.group())
#result = re.findall(r"\d+","我是一个abcdeafg")
#print(result)

#search只会匹配到第一次匹配的内容
#result = re.finditer(r"\d+","我是18岁，我有20000000000000000000块")
#for item in result:#从迭代器中拿内容
#    print(item.group())

#match在匹配的时候，是从字符串的开头进行匹配的，类似这正则前面加上了^
#result = re.match(r"\d+","我叫周杰伦","今年32岁,我的班级是5年4班")
#print(result)

#预加载，提前把正则对象加载完毕
#obj = re.compile(r"\d+")
#result = obj.findall("我叫周杰伦，今年32岁，我的班级是5年纪4班")
#print(result)

#想要提取数据必须小括号括起来，可以单独起名字
#（？P<名字>正则）
#提取数据的时候，需要group("名字")
s = """
<div class= '西游记'><span id='10010'>中国联通</span></div>
<div class= '西游记'><span id='10010'>中国移动</span></div>
"""
obj = re.compile(r"<span id='(?P<haha>\d+)'>(?P<name>.*?)</span")
result = obj.finditer(s)
for item in result:
    id = item.group("haha")
    print(id)
    name = item.group("name")
    print(name)

#1.拿到页面源代码
#2.编写正则，提取页面数据
#3.保存数据
import requests
import re
url = "https://movie.douban.com/chart"
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
#resp.encodeing = 'utf-8'#解决乱码问题
pageSource = resp.text
#print(pageSource)
#编写正则表达式
#re.s可以让正则中的.匹配换行符
obj = re.compile(r'<div class="item">.*?<span class="title">(?P<name>.*?)</span>',re.S)

#进行正则匹配
result = obj.finditer(pageSource)
for item in result:
    print(item.group("name"))#那结果

from lxml import etree
xml = """
<book>
    <id>1</id>
    <name>野花遍地香</name>
    <price>1.23</price>
    <nick>臭豆腐</nick>
    <author>
        <nick id="10086">周大强</nick>
        <nick id="10010">周芷若</nick>
        <nick class="joy">周杰伦</nick>
        <nick class="jolin">蔡依林</nick>
        <div>
            <nick>惹了</nick>
        </div>
    </author>
    <partner>
        <nick id="ppc'>胖胖陈</nick>
        <nick id="ppbc">胖胖不陈</nick>
    </partner>
</book>
"""
#此时练习只能用XMLxml
et = etree.XML(xml)
result = et.xpath("/book") #/表示根节点
result = et.xpath("/book/name") # 在xpath中间的/表示的是儿子#
result = et.xpath("/book/name/text()")[0]# text()拿文本并result = et.xpath("/book//nick") # //表示的是子孙后代#
result = et.xpath("/book/*/nick/text()") #* 通配符，谁都行
result = et.xpath("/book/author/nick[@class='jay']/text()")
result = et.xpath("/book/partner/nick/@id")#
print(result)

#此时练习只能用xml

原文地址：https://blog.csdn.net/m0_52484587/article/details/143448870

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：一篇文章理解CSS垂直布局方法
下一篇：高效实现聚水潭·奇门售后数据集成MySQL案例详解

imageio 图片转mp4
imageio 图片转mp4
阅读更多2024-11-08
RAG（检索增强生成）的实现流程；RAG怎么实现检索增强的
它通过将传统的检索技术与现代的生成式模型结合，在用户提出问题时，首先从海量数据中检索相关信息，再基于这些信息生成更精准的答案。：将加载的文档分割成更小的段落或部分，有助于提高检索的准确性和效率。RAG
阅读更多2024-11-08
刷新认知！国产大模型已超GPT-4
一个很重要的认知应该被刷新：中国的大模型已经超越了GPT-4在2023年的版本，并且与GPT-4在8月份的版本处于同一水平。这表明中国的大模型已经完全可用，中国AI正在赶上甚至超越国际领先水平！
阅读更多2024-11-08
ArcGIS Pro SDK （二十四）任务
【代码】ArcGIS Pro SDK （二十四）任务。
阅读更多2024-11-08
linux 下调试 mpu6050 三轴加速度
供自己备忘；
阅读更多2024-11-08
黑马程序员linux学习【持续更新】
Linux已经安装并且配置好了，接下来我们要来学习Linux的基本操作指令。而在学习之前，我们还需要做一件事情，由于我们企业开发时，Linux服务器一般都是在远程的机房部署的，我们要操作服务器，不会每
阅读更多2024-11-08
基于Java Web的传智播客crm企业管理系统的设计与实现
本文研究的是通过构建CRM企业管理系统的优势进行信息化管理，通过调查和分析现在企业业务的相关信息，综合对大部分企业的现状和未来发展趋势进行分析，进而提出比较好的管理策略和方针。5.1 在校学生管理（查
阅读更多2024-11-08
31-自定义地图：分层地图
carla教程
阅读更多2024-11-08
2024 信友队 noip 冲刺 10.8
考虑一个数字能被选择的条件。假设我们已经把 kkk 个数选进答案子序列中，那么对于没选择的数 iii，它能被选当且仅当 [i,n][i,n][i,n] 中有剩下没选的所有数字。我们考虑对于每个 iii
阅读更多2024-11-08
探索 Java 中 String 类的常用方法
String类的这些常用方法为处理字符串提供了极大的便利。掌握这些方法，可以帮助你更有效地编写代码，处理各种字符串相关的问题。在实际开发中，合理利用这些方法，可以提高代码的可读性和效率。
阅读更多2024-11-08

爬虫学习2

相关文章