Python爬虫项目 | 一、网易云音乐热歌榜歌曲

🕗 发布于 2024-11-14 19:44 python 爬虫

文章目录

1.文章概要
2.具体讲解
3 总结

1.文章概要

学习Python爬虫知识，实现简单的一个小案例，网易云音乐热歌榜歌曲

1.1 实现方法

本文使用Python中常用的requests库来实现的

1.2 实现代码

以下是本项目全部代码

# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os

filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

    with open(filename + song_name + '.mp3', mode='wb') as f:
        f.write(music_content)
    print(song_id, song_name)
    print('爬虫任务已完成')

1.3 最终效果

爬取结果

2.具体讲解

2.1 使用的Python库

1.requests：一个简单易用的 Python 库，用于发送 HTTP 请求；
2.os: Python 的一个内置库，提供了许多操作文件和目录的功能；
3.re：用于处理正则表达式，它提供了一系列功能强大的函数，用于字符串的搜索、替换、匹配等操作;

2.2 代码说明

2.2.1 创建目录保存文件

# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os
filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

在PC上创建filename目录(这里我用的是Windows系统),用于保存后续爬取下来的音乐文件；

2.2.2 爬取网易云音乐热歌榜单歌曲

url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

爬取音乐核心代码块
url：这里我选择的是热歌榜单，你也可以直接替换为你想要爬取的榜单，直接运行也是可以的;
headers：模拟浏览器行为访问上述url，这个没啥可说的；
response：获取响应，这里是get了url和headers
html_data：获取音乐数据，通过正则表达式匹配音乐id和音乐名称；
music_url：下载音乐路径，可以在浏览器打开试听音乐；

2.3 过程展示

在这里插入图片描述

3 总结

本案例是采用了requests库来简单获取数据，下载音乐，过程还是相对简单的；更复杂的内容，可能需要其他技术来实现，继续学习。

看到这里了，我只希望能点个赞，谢谢

原文地址：https://blog.csdn.net/weixin_39347873/article/details/143735095

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：1.7 JS性能优化
下一篇：jsmind 思维导图 + monaco-editor + vue3 + ts

目标检测(object detection)
目标检测广泛应用在多个领域：无人驾驶，机器人…那么如何去定位一个目标的位置呢？
阅读更多2024-11-15
目标检测评估指标详解
特别是IoU，它在目标检测中用于评估预测框的定位准确性，是其他指标（如TP、FP、FN等）的基础。1.正样本（Positive Sample）：在目标检测任务中，指的是那些确实包含目标物体的图像区域。
阅读更多2024-11-15
《目标检测》R-CNN网络基础（RCNN，Fast-RCNN）
训练阶段多，训练耗时：微调CNN⽹络+训练SVM+训练边框回归器。预测速度慢: 使⽤GPU, VGG16模型处理⼀张图像需要47s。占⽤磁盘空间⼤：5000张图像产⽣⼏百G的特征⽂件。数据的形状变化
阅读更多2024-11-15
第5章: 图像变换与仿射操作
在 Pillow 中，我们将此矩阵简化为六个参数。# 创建自定义仿射变换案例：生成透视效果通过调整仿射变换矩阵的参数，可以创建透视效果，使图像看起来像从不同角度拍摄。# 创建透视效果。
阅读更多2024-11-15
itss认证的作用
认证的作用
阅读更多2024-11-15
什么是HTTP，什么是HTTPS？HTTP和HTTPS都有哪些区别？
什么是HTTP，什么是HTTPS？HTTP和HTTPS都有哪些区别？
阅读更多2024-11-15
kafka中topic的数据抽取不到hdfs上问题解决
将json文件抽取到kafka的消息队列（topic）中，再从topic中将数据抽取到hdfs。我们在从kafka中topic的数据抽到hdfs上的时候会出现 flume不报错，但也不抽取的情况。其实
阅读更多2024-11-15
聊天服务器(5)数据库环境搭建和编程
设置中文。
阅读更多2024-11-15
Ubuntu 22.04.4 LTS + certbot 做自动续签SSL证书(2024-11-14亲测)
在运行上述命令时，Certbot 可能会提示您选择一个或多个域名，并询问您是否希望将所有流量重定向到 HTTPS。Certbot 是一个易于使用的客户端，它可以自动获取和安装 SSL/TLS 证书，以
阅读更多2024-11-15
探秘 RPC：揭开远程过程调用的实现原理
概念理解RPC 旨在让开发人员在构建分布式系统时，无需过多关注底层网络通信的细节，就能够像在本地调用函数那样去调用远程服务器上的服务或方法。例如，在一个电商系统中，订单服务可能部署在一台服务器上，而库
阅读更多2024-11-15