python-爬虫实例（4）：获取b站的章若楠的视频

🕗 发布于 2024-07-23 02:49 python 人工智能 笔记

前言

道路千万条，安全第一条

爬虫不谨慎，亲人两行泪

前言

道路千万条，安全第一条

爬虫不谨慎，亲人两行泪

获取b站的章若楠的视频

不要问，问就是博主喜欢，嘿嘿嘿嘿（流口水）

一、话不多说，先上代码

# 请求b站视频
import json
import requests
from lxml import etree

if __name__ == '__main__':
    head = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"
        ,
        # 防盗链
        "Referer": "https://www.bilibili.com/"
        ,
        "Cookie": "buvid3=3EEF3EE1-472C-F430-105F-0E4F321F331C25161infoc; b_nut=1720613925; _uuid=46847D108-EFD1-9828-99910-32119EADB6EB26022infoc; enable_web_push=DISABLE; buvid4=E9918A3A-008D-2748-2B1F-78B04E8CCA5825688-024071012-IYJQtQw8DTdtrI0uY1UGvQ%3D%3D; buvid_fp=adf3cfaf35396cd4f051041d58ea252d; DedeUserID=455536180; DedeUserID__ckMd5=ece5cba51b3582b0; header_theme_version=CLOSE; rpdid=|(Y|RJRRJ~m0J'u~k|YuR|k); hit-dyn-v2=1; CURRENT_BLACKGAP=0; CURRENT_FNVAL=4048; CURRENT_QUALITY=80; b_lsid=FA4254F2_190DA67F5A6; bmg_af_switch=1; bmg_src_def_domain=i0.hdslb.com; SESSDATA=464ec009%2C1737203167%2C4093c%2A72CjCcAmS6QdnftcRgMbranRB57RDcvOgVEYQ2eANilbiZTke2ujiipqzyDhLaHzdf-lQSVnBETDB6RC1iRTBPOXE0MXJvWndtQ2J5M0ttRUdsNzV4eDBOS0ZHSnJFNGstUXdoZV9YWlFDMUN6WktnVWdyZzNXTHoxX3ZHMEQ4WnBRVFhuS3FWdlZRIIEC; bili_jct=7dcc1afe4e9061803755fe502bd89493; home_feed_column=5; browser_resolution=1528-750; bili_ticket=eyJhbGciOiJIUzI1NiIsImtpZCI6InMwMyIsInR5cCI6IkpXVCJ9.eyJleHAiOjE3MjE5MTAzODcsImlhdCI6MTcyMTY1MTEyNywicGx0IjotMX0.ZBTc3IhjtIXKw31_mMRIL58EBBFttxFrh9PXvDeNu74; bili_ticket_expires=1721910327; sid=5oumv249; bp_t_offset_455536180=956974561008549888"
    }

    url = "https://www.bilibili.com/video/BV1Ya411x7YS/?spm_id_from=333.788.recommend_more_video.-1&vd_source=c37b332e3068ca57bd61f05c52b41922"

    response = requests.get(url, headers=head)

    vid = response.text

    tree = etree.HTML(vid)

    with open("bilibili.html", "w", encoding="utf8") as bili:
        bili.write(vid)

    vid_info = "".join(tree.xpath("//head/script[4]/text()"))[20:]
    # print(vid_info)   # 是一个json大字符串

    info_dict = json.loads(vid_info)
    # print(info_dict)  # 变成字典

    video_url = info_dict["data"]["dash"]["video"][0]["baseUrl"]  # 获取视频的网址
    audio_url = info_dict["data"]["dash"]["audio"][0]["baseUrl"]  # 获取音频的网址

    video_content = requests.get(video_url, headers=head).content
    audio_content = requests.get(audio_url, headers=head).content

    with open("zhangruonan.wmv", "wb") as a:
        a.write(video_content)

    with open("zhangruonan.mp4", "wb") as b:
        b.write(audio_content)

    pass

可以看见，这次代码多了不少东西，还有些变得不一样了，没事，我们一步步分析。

二、爬虫四步走

1.UA伪装

这次UA伪装的头部代码多了不少，"Cookie"和"Referer"，这些其实都是b站的反扒机制。而且这次也不用随机生成UA了，而是使用检查里的，因为随机生成的可能是APP端的，这个用不了。

先登录自己的b站账号，再获取Cookie，因为每个用户的Cookie是不一样的

获取UA,

获取referer。

2.获取url

在该界面按f12进入检查界面，若是检查界面没东西的话就刷新网页，然后往上翻到第一个，复制url粘贴到pycharm即可

3.发送请求

流水的url，铁打的发送请求。

response = requests.get(url, headers=head)

4.获取响应数据进行解析并保存

这次不一样的地方在于，视频和音频的url在head的第四个script标签下。
而里面的文本内容在去除前面的"window.__playinfo__="后，取出来的是个json大字符串。
用json.loads方法将字符串转换成字典，再通过字典的键去除里面的视频和音频的url。
b站的视频和音频网址都放在固定的键内，用上面给的代码即可取出来。
取出来之后再次发送请求，获取数据。
注意！！！图片，视频和音频都是二进制内容，所以用content属性获取。
最后，以写二进制内容的方式存入文件中，注意文件的类型，音频是MP4，视频是MP4或者是wmv。

总结

作者的废话：

章若楠太好看啦！

封面图片：

原文地址：https://blog.csdn.net/weixin_65047977/article/details/140618819

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：45 AP-AC 上线
下一篇：多线程---进阶(八股文)---文章后面写了面试会如何问和答案(!!!)

B-树特点以及插入、删除数据过程
查找插入位置：通过树的层级结构，从根节点到叶子节点进行查找，确定插入位置。插入元素：如果目标叶子节点有空间，直接插入元素。节点分裂：如果插入导致节点超出最大容量，将节点分裂并将中间元素推送到父节点。递
阅读更多2024-11-15
JWT深度解析：Java Web中的安全传输与身份验证
JSON Web Token（JWT）是一种轻量级的身份验证和授权标准，它允许在各方之间安全地传输信息。JWT作为一种安全传输信息和身份验证的解决方案，在Java Web开发中扮演着重要角色。它通过紧
阅读更多2024-11-15
AR眼镜方案_AR智能眼镜阵列/衍射光波导显示方案
采用光波导技术的AR眼镜显示方案，核心结构通常由光机、波导和耦合器组成。光机内的微型显示器通过一系列透镜将光线耦入波导镜片，使光线在波导中以全反射形式传播，并最终通过耦合器投射到人眼。因此，系统尺寸得
阅读更多2024-11-15
Invar-RAG：基于不变性对齐的LLM检索方法提升生成质量
在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中直接应用大型语言模型（Large Language Models, LLMs）时面临的挑战。特征局部性问
阅读更多2024-11-15
决策树基本 CART Python手写实现
【代码】决策树基本 CART Python手写实现。
阅读更多2024-11-15
Redis
String：简单键值存储，适合计数器、单一属性缓存。Hash：结构化存储，适用于存储对象数据（如用户信息）。List：有序队列，适合消息队列、任务队列。Set：无序集合，用于去重、唯一性统计、共同好
阅读更多2024-11-15
2、家庭网络发展现状
也就是wifi网络的更远覆盖，众所周知，经过节点mesh组网之后，速率会有一定下降，这也就是说mesh组网必须是5G组网或者有线组网，这样才可保证用户的体验，否则即使延伸了wifi信号覆盖，也会导致速
阅读更多2024-11-15
游戏引擎学习第10天
RDTS是一种低级的、高精度的方式，用于访问处理器的时间戳计数器。它广泛用于性能分析、基准测试和高精度计时。需要注意的是，在使用时可能会受到 CPU 频率变化和多核同步等问题的影响，在这种情况下，RD
阅读更多2024-11-15
Spring Data Redis常见操作总结
Spring Data Redis常见操作总结
阅读更多2024-11-15
css三角制作（二十课）
CSS 这根神奇的魔法棒，就能把三角变出来 so easy！
阅读更多2024-11-15

python-爬虫实例（4）：获取b站的章若楠的视频

前言

道路千万条，安全第一条

爬虫不谨慎，亲人两行泪

获取b站的章若楠的视频

一、话不多说，先上代码

二、爬虫四步走

1.UA伪装

2.获取url

3.发送请求

4.获取响应数据进行解析并保存

总结

相关文章