《0基础》学习Python——第二十一讲__网络爬虫/＜4＞爬取网页数据

🕗 发布于 2024-07-21 15:07 python 学习爬虫 pycharm 文件读写

爬取网页数据（获取网页信息全过程）

1、爬取豆瓣电影的电影名称、导演、主演、年份、国家、评价

2、首先我们先爬取页面然后再获取信息

1、爬取网页源码

import requests
from lxml import etree
if __name__ == '__main__':

    #UA伪装
    head={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    #获取url
    url='https://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.css'

    #发送请求
    response=requests.get(url,headers=head)
    #返回数据类型
    cont_text=response.text
    # print(cont_text)#打印数据，用于查看是否爬取成功

上述代码即表示爬取了豆瓣电影那一页的网页源码

2、下面将去找想爬取的数据所在标签的位置

因为要爬取一整页面所有的电影而不是单个电影信息，所以需要找到该组电影标签的主标签，如下部分即可发现，将鼠标移到每个li标签下，都会对应左边的每个单独的电影

所以我们就可以通过for循环定位到每个li标签下然后在爬取每个li标签内的电影数据，

找到所有的li标签后在上一级去找有没有单独的属性class或者id，如果找到一个class内容，复制class对应属性的内容，长按Ctrl+F打开查找，看看是否是在总标签下是否是唯一的，这样可以避免去数每一个标签在什么位置，

如上图可发现上述的class对应的属性“grid_view”是独一无二的，那么可以直接通过多层地址直接到达这个标签

3、实操代码

通过以下代码即可获取到所有的电影名称，其中的div[2]表示这个div标签是在当前的上一级标签下是第2个标签，//表示属性定位直接定位到当前目录，./表示在当前目录下，/表示下一级目录，

import requests
from lxml import etree
if __name__ == '__main__':

    #UA伪装
    head={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    #获取url
    # url='https://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.css'
    url = 'https://movie.douban.com/top250'
    #发送请求
    response=requests.get(url,headers=head)
    #返回数据类型
    cont_text=response.text
    # print(cont_text)#打印数据，用于查看是否爬取成功

    #解析数据
    tree=etree.HTML(cont_text)
    #获取单个电影所对应标签的主标签
    # lst=tree.xpath('//ol[@class="grid_view"]/li')#即打印所有li标签下的内容
    ls1 = tree.xpath('//ol[@class="grid_view"]/li')
    # print(ls1)
    for li in ls1:  #通过循环遍历所有的li标签，即所有的电影数据
        name_book=li.xpath('./div/div[2]/div[1]/a/span[]/text()')  #通过text（）打印数据
        print(name_book)

其打印结果为

4、返回结果处理

xpath返回的是列表，里面有很多不需要的符号，所以需要再对name_book=li.xpath('./div/div[2]/div[1]/a/span[1]/text()')这段代码在做处理，首先通过join函数去除括号，name_book="".join(li.xpath('./div/div[2]/div[1]/a/span[1]/text()'))

打印结果为

这就是我们需要的电影名字内容，下面将获取导演、、数据，通过下列代码获取这些信息

strs = ''.join(li.xpath(".//div[@class='bd']/p[1]/text()"))
        print(strs)

其输出结果为下列内容

但是有很多空格，同样需要对它进行处理，可以使用strip函数去除左右两边的空格

strs = ''.join(li.xpath(".//div[@class='bd']/p[1]/text()")).strip()
        print(strs)

但是我们需要的是单独的导演、主演、时间、国家、、，这些是一个完整的字符串，所以需要额外把这些字符串取出来进行额外处理，得到分开的单独数据：

比如取出第一段字符，那么首先可以发现有很多空格，所以使用strip去除，然后调用正则化去处理这段数据，代码如下，其中分别取出时间、国家、导演、主演、剧情

import re
strs="""
                            导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins /...
                            1994 / 美国 / 犯罪 剧情
                        """
#中文的正则取值：[\u4e00-\u9fa5]
a=strs.strip() #去除左右空格
time_film=re.match(r'([\s\S]+?)(\d+)([\s\S]+?)',a).group(2) #利用正则的分组关系去除第二组内容，即(\d+)数字的内容，即时间
country=''.join(a.split('/')[-2].split()) #利用/符号切割这个完整字符串，然后取出倒数第二个数据，即国家的数据
juqing=''.join(a.split('/')[-1].split())#利用/符号切割这个完整字符串，然后取出倒数第一个数据，即剧情的数据
daoyan=re.match(r'导演: ([A-Za-z\u4e00-\u9fa5·]+)(\s\S*?)',a).group(1) #使用中文的正则表达式得到导演主演的数据
zhuyan=re.match(r'([\s\S]+?)主演: ([A-Za-z\u4e00-\u9fa5·]+)([\s\S]+?)',a).group(2)
print(time_film)
print(country)
print(juqing)
print(daoyan)
print(zhuyan)

其输出结果如下：

即将那一大串字符串全部处理成了独立的我们需要的数据，然后只要把这些代码放入爬虫的那一部分即可，

import re
import requests
from lxml import etree
if __name__ == '__main__':

    #UA伪装
    head={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    #获取url
    # url='https://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.css'
    url = 'https://movie.douban.com/top250'
    #发送请求
    response=requests.get(url,headers=head)
    #返回数据类型
    cont_text=response.text
    # print(cont_text)#打印数据，用于查看是否爬取成功

    #解析数据
    tree=etree.HTML(cont_text)
    #获取单个电影所对应标签的主标签
    # lst=tree.xpath('//ol[@class="grid_view"]/li')#即打印所有li标签下的内容
    ls1 = tree.xpath('//ol[@class="grid_view"]/li')
    # print(ls1)
    for li in ls1:  #通过循环遍历所有的li标签，即所有的电影数据
        name_book="".join(li.xpath('./div/div[2]/div[1]/a/span[1]/text()')) #通过text（）打印数据
        # print(name_book)
        strs = ''.join(li.xpath(".//div[@class='bd']/p[1]/text()")).strip()
        # print(strs)
        a = strs.strip()
        time_film = re.match(r'([\s\S]+?)(\d+)([\s\S]+?)', a).group(2)
        country = ''.join(a.split('/')[-2].split())
        juqing = ''.join(a.split('/')[-1].split())
        daoyan = re.match(r'导演: ([A-Za-z\u4e00-\u9fa5·]+)(\s\S*?)', a).group(1)
        zhuyan = re.match(r'([\s\S]+?)主演: ([A-Za-z\u4e00-\u9fa5·]+)([\s\S]+?)', a).group(2)

        print(time_film)
        print(country)
        print(juqing)
        print(daoyan)
        print(zhuyan)

其得到的结果如下，可以发现其结果有错误，

如下图可以发现这部电影没有主演，只有一个主字，那么就说明我们的正则有缺陷，但是我们也可以跳过这一个电影，因为在大批量的电影中总会有那么一个两个不一样的区别，不能将所有的数据都拿出来额外在做正则，这样也不切实际，所以我们可以使用try语句去判断一下，然后跳过这一步电影的数据

5、完整代码如下

import re
import requests
from lxml import etree
if __name__ == '__main__':


    fp=open('./douban_film.txt','w',encoding='utf-8') #创建一个文件用来存放电影数据
    #UA伪装
    head={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    #获取url
    # url='https://img3.doubanio.com/cuphead/movie-static/charts/top_movies.b4c3a.css'
    url = 'https://movie.douban.com/top250'
    #发送请求
    response=requests.get(url,headers=head)
    #返回数据类型
    cont_text=response.text
    # print(cont_text)#打印数据，用于查看是否爬取成功

    #解析数据
    tree=etree.HTML(cont_text)
    #获取单个电影所对应标签的主标签
    # lst=tree.xpath('//ol[@class="grid_view"]/li')#即打印所有li标签下的内容
    ls1 = tree.xpath('//ol[@class="grid_view"]/li')
    # print(ls1)
    for li in ls1:  #通过循环遍历所有的li标签，即所有的电影数据
        name_book="".join(li.xpath('./div/div[2]/div[1]/a/span[1]/text()')) #通过text（）打印数据
        # print(name_book)
        strs = ''.join(li.xpath(".//div[@class='bd']/p[1]/text()")).strip()
        # print(strs)
        a = strs.strip()
        time_film = re.match(r'([\s\S]+?)(\d+)([\s\S]+?)', a).group(2)
        try:
            country = ''.join(a.split('/')[-2].split())
            juqing = ''.join(a.split('/')[-1].split())
            daoyan = re.match(r'导演: ([A-Za-z\u4e00-\u9fa5·]+)(\s\S*?)', a).group(1)
            zhuyan = re.match(r'([\s\S]+?)主演: ([A-Za-z\u4e00-\u9fa5·]+)([\s\S]+?)', a).group(2)
        except Exception as e:
            pass

        print(name_book+"#"+time_film+"#"+daoyan+"#"+zhuyan+"#"+country+"#"+juqing+"\n")

        #讲捕获的数据全部写入文件内
        fp.write(  
            name_book + "#" + time_film + "#" + daoyan + "#" + zhuyan + "#" + country + "#" + juqing + "\n"
        )
    fp.close()

左侧发现存放所创建的文本文件，打开后可得到存进去的数据：

原文地址：https://blog.csdn.net/qq_64603703/article/details/140569004

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：笔记：Enum中FlagsAttribute特性的用法
下一篇：C++题解(12) 信息学奥赛一本通：2073：【例2.16 】三角形面积

【已为网站上传证书,却显示不安全】
【已为网站上传证书,却显示不安全】
阅读更多2024-11-16
Jtti：服务器总是自动重启怎么办?
1.查看系统日志：通过查看系统日志文件(如/var/log/syslog、/var/log/messages或Windows Event Viewer)获取错误信息，找出重启原因。解决方案：查看系统日
阅读更多2024-11-16
Scala的Array(1)
Scala的Array表示长度不可变的数组，若需要定义可变数组需要倒包。
阅读更多2024-11-16
Scala中的Array
Array是一种在Scala中用于存储固定大小，相同类型元素的数据结构，Array是可变。类型有两种：Array表示长度不可变的数组，和ArrayBuffer表示长度可变的数组。(一)Array的定义
阅读更多2024-11-16
llama factory lora 微调 qwen2.5 7B Instruct模型
项目背景甲方提供一台三卡4080显卡需要进行qwen2.5 7b Instruct模型进行微调。以下为整体设计。要使用对进行，流程与之前提到的模型类似。LoRA 微调是一种高效的微调方法，通过低秩
阅读更多2024-11-16
大数据中的时序数据，以及时序数据架构设计解决方案
时序数据架构设计需根据具体的应用场景、数据量和实时性要求来选择合适的方案。如果数据量较小且不需要实时处理，关系型数据库可能足够；如果数据量大且需要高效实时查询，可以选择时序数据库；而对于大规模分布式处
阅读更多2024-11-16
Linux网络——网络初识
在谈及网络之前，我们要先对学的知识有一个了解网络的本质就是获取数据，而系统的本质就是加工数据。
阅读更多2024-11-16
革新预测领域：频域融合时间序列预测，深度学习新篇章，科研涨点利器
2024发论文&模型涨点之——频域+时间序列频域+时间序列不仅能提供更丰富的信息，还能提高模型性能和预测准确性。对于论文er来说，是个可发挥空间大、可挖掘创新点多的研究方向。当前，学术界的目光
阅读更多2024-11-16
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
本地启动浏览器，并禁用web安全性，解决本地启动时，服务端强制要求https协议导致请求不通的问题
阅读更多2024-11-16
推荐一款来自韩国的影音全能播放器：KMPlayer播放器
来自韩国的影音全能播放器，与Mplayer一样从linux平台移植而来的Kmplayer(简称KMP)几乎可以播放您系统上所有的影音文件。通过各种插件扩展KMP可以支持层出不穷的新格式。强大的插件功能
阅读更多2024-11-16