python爬虫题目

🕗 发布于 2024-10-11 15:47 python 爬虫 开发语言

网站
https://project-iprj6705f17ebcfad66461658c5c-8000.preview.node01.inscode.run/

第一道题爬取api并且保存

import requests,re
import json
url = "https://project-iprj6705f17ebcfad66461658c5c-8000.preview.node01.inscode.run/tasks/api/"
headers= {

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'
}

res = requests.get(url,headers=headers).json()
with open('1.json','w') as f:
    f.write(json.dumps(res,ensure_ascii=False))

第二道爬取所有图片

from urllib.parse import urljoin
import requests,re
from urllib.parse import urlparse
import json
url = "https://project-iprj6705f17ebcfad66461658c5c-8000.preview.node01.inscode.run/tasks/api/"
headers= {

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'
}

res = requests.get(url,headers=headers).json()
list1 = res['articles']
list2=[]
for i in list1:
    list2.append(i['image'])
base_url ="https://"+urlparse(url).netloc

for image in list2:
    image_url = urljoin(base_url,image)
    img = requests.get(image_url).content
    img_name = image.split("/")[-1]
    with open(img_name,'wb') as f:
        f.write(img)

第三道爬取题目和摘要

import requests,csv
from lxml import etree
with open("data.csv","w",newline='',encoding='gbk') as f:
    writer = csv.writer(f)
    writer.writerow(["题目","再要"])
url = "https://project-iprj6705f17ebcfad66461658c5c-8000.preview.node01.inscode.run/tasks/article/list/"
headers= {

'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36'
}

res = requests.get(url,headers=headers)
html = etree.HTML(res.text)
wen_zhang = html.xpath('//div[@class="lab-block"]//a//@href')
with open("data.csv","w",newline='',encoding='gbk') as f:
    writer = csv.writer(f)
    writer.writerow(["ti","zai"])



for i in wen_zhang:
    url_l = "https://project-iprj6705f17ebcfad66461658c5c-8000.preview.node01.inscode.run/"+i
    result = requests.get(url_l,headers=headers)
    select = etree.HTML(result.text)
    timu = select.xpath('//h2/text()')[0]
    zaiyao = select.xpath('//p//text()')
    result = "".join(zaiyao)
    with open("data.csv", "a", newline='',encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow([timu, result])

原文地址：https://blog.csdn.net/qq_42307546/article/details/142812071

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：如何在uniAPP中编写页面
下一篇：互联网协议（IP）中最常用的端口

MySQL数据库备份与恢复：全面指南
MySQL数据库的备份与恢复是确保数据安全的核心环节。在选择备份策略时，需要考虑数据库的大小、性能需求、可用性要求等因素。对于中小型数据库，逻辑备份简单易行，适合频繁的备份需求。而对于大型数据库，物理
阅读更多2024-10-11
vue2和vue3中的组件间通信知识点总结
我是父组件我听到了子组件的秘密: {{ msg }}点我给父组件说我的秘密
阅读更多2024-10-11
编译src.rpm源码包的方法
in `/root/rpmbuild/BUILD/mlnx-ofa_kernel-5.8/obj/default/compat 指示了config.log的位置。以rpm -ivh /tmp/mlnx
阅读更多2024-10-11
工业4G路由R10提升物流仓储效率
综上所述，工业4G路由R10通过其强大的功能和灵活的应用，为物流仓储行业的数字化转型提供了有力支持。无论是从提升库存管理效率、优化作业流程，还是从提高安全性和客户满意度的角度来看，R10都展现出了巨大
阅读更多2024-10-11
干部管理系统：实现干部全生命周期管理
通过全面化的信息管理、规范化的选拔任用、科学化的考核评估、及时化的预警提醒、深入化的数据分析和集成化的系统设计，干部管理系统为组织人事部门提供了强有力的支持和保障，推动了干部管理工作的科学化、规范化和
阅读更多2024-10-11
【OceanBase诊断调优】—— 错误码 5065 和 5066 的区别
oceanbase 错误码 5065 和 5066 的区别
阅读更多2024-10-11
mmap和ioremmap解析
addr：如果addr为NULL，内核会自动选择一个起始地址作为映射的起点。如果addr不为NULL，则内核会尝试将映射放置在指定的起始地址处。如果指定的地址无效或与已有映射冲突，则mmap（）调用会
阅读更多2024-10-11
【AI-20】训练服务器和推理服务器
（一）任务排队与优先级管理。（二）性能监控与优化。（三）便于管理和维护。
阅读更多2024-10-11
python数据分析
Python之所以成为数据分析领域的热门选择，主要得益于其丰富的库和工具，这些库和工具使得数据清洗、可视化、统计建模和机器学习等任务变得更加简单和高效。
阅读更多2024-10-11
OneDrive 全新时代：AI、生产力和回忆触手可及
2024年10月8日微软召开了一场关于OneDrive 的新功能发布会，推出了一系列强大的新功能，旨在帮助您更智能地工作、保持井然有序并重温生活中最美好的时刻 - 所有这些都通过 AI 的魔力实现。借
阅读更多2024-10-11

python爬虫题目

相关文章