爬虫案例——爬取腾讯社招

🕗 发布于 2024-10-09 09:12 爬虫

案例需求：

1.爬取腾讯社招的数据（搜索 | 腾讯招聘）包括岗位名称+链接+时间+公司名称

2.爬取所有页（翻页）

3.利用jsonpath进行数据解析

4.保存数据：txt文本形式和excel文件两种形式

解析：

1.分析该网站同步还是异步？——异步（查看xhr）

2.找到正确的数据包——看响应内容

3.复制请求地址

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1727929418908&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=3&pageSize=10&language=zh-cn&area=cn

4.删除不必要的，找到正确的（可删可不删）

https://careers.tencent.com/tencentcareer/api/post/Query?

5.该网站反爬手段比较强，给其进行伪装

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
}

data = {
    'timestamp': '1648355434381',
    'countryId': '',
    'cityId': '',
    'bgIds': '',
    'productId': '',
    'categoryId': '',
    'parentCategoryId': '40001',
    'attrId': '',
    'keyword': '',
    'pageIndex': i,
    'pageSize': '10',
    'language': 'zh-cn',
    'area': 'cn'
}

6.保存在excel文件中，创建对象

wb = workbook.Workbook()  # 创建Excel对象
ws = wb.active  # 激活当前表
ws.append(['职称', '链接', '时间', '公司名称'])

进行excel保存

def save_excel(z,l,s,g):
    my_list = [z,l,s,g]  # 以列表形式写入
    ws.append(my_list)
    wb.save('腾讯社招.xlsx')

进行本地文本保存

def save_text(n,u,t,p):
    with open('腾讯社招.txt','a',encoding='utf-8')as f:
        f.write(n+'\n')
        f.write(u+'\n')
        f.write(t+'\n')
        f.write(p+'\n')

7.使用jsonpath解析数据

names = jsonpath(r, '$..RecruitPostName')
urls = jsonpath(r, '$..PostURL')
times = jsonpath(r, '$..LastUpdateTime')
pronames = jsonpath(r, '$..ProductName')

8.处理解析的数据

for name, url, time, protime in zip(names, urls, times, pronames):
    # print(name,url,time,protime)
    save_text(name, url, time, protime)
    save_excel(name, url, time, protime)

9.翻页分析

for i in range(1,6):
    print("第{}页已经保存完毕！！！".format(i))
    # url = 'https://careers.tencent.com/search.html'
    data = {
        'timestamp': '1648355434381',
        'countryId': '',
        'cityId': '',
        'bgIds': '',
        'productId': '',
        'categoryId': '',
        'parentCategoryId': '40001',
        'attrId': '',
        'keyword': '',
        'pageIndex': i,
        'pageSize': '10',
        'language': 'zh-cn',
        'area': 'cn'
    }

示例代码：

import requests
from jsonpath import jsonpath
from openpyxl import workbook
import time
#"http://careers.tencent.com/jobdesc.html?postId=1685827130673340416"
def get_data():
    response = requests.get(url, headers=headers, params=data)
    r = response.json()
    return r

def parse_data(r):
    names = jsonpath(r, '$..RecruitPostName')
    urls = jsonpath(r, '$..PostURL')
    times = jsonpath(r, '$..LastUpdateTime')
    pronames = jsonpath(r, '$..ProductName')
    for name, url, time, protime in zip(names, urls, times, pronames):
        # print(name,url,time,protime)
        save_text(name, url, time, protime)
        save_excel(name, url, time, protime)
# 保存数据
def save_text(n,u,t,p):
    with open('腾讯社招.txt','a',encoding='utf-8')as f:
        f.write(n+'\n')
        f.write(u+'\n')
        f.write(t+'\n')
        f.write(p+'\n')

def save_excel(z,l,s,g):
    my_list = [z,l,s,g]  # 以列表形式写入
    ws.append(my_list)
    wb.save('腾讯社招.xlsx')
if __name__ == '__main__':
    wb = workbook.Workbook()  # 创建Excel对象
    ws = wb.active  # 激活当前表
    ws.append(['职称', '链接', '时间', '公司名称'])
    url = 'https://careers.tencent.com/tencentcareer/api/post/Query?'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
    }
    for i in range(1,6):
        print("第{}页已经保存完毕！！！".format(i))
        # url = 'https://careers.tencent.com/search.html'
        data = {
            'timestamp': '1648355434381',
            'countryId': '',
            'cityId': '',
            'bgIds': '',
            'productId': '',
            'categoryId': '',
            'parentCategoryId': '40001',
            'attrId': '',
            'keyword': '',
            'pageIndex': i,
            'pageSize': '10',
            'language': 'zh-cn',
            'area': 'cn'
        }
        time.sleep(2)
        h=get_data()
        parse_data(h)

运行结果：

同样也可以添加代理来进行

添加代理

zhima_api = 'http://http.tiqu.letecs.com/getip3?num=1&type=1&pro=&city=0&yys=0&port=1&pack=225683&ts=0&ys=0&cs=0&lb=1&sb=0&pb=4&mr=1&regions=&gm=4'
proxie_ip = requests.get(zhima_api).json()['data'][0]
print(proxie_ip)
# 将提取后的IP处理成字典形式 构造完整HTTP代理
proxies = {
        'http': 'http://' + str(proxie_ip['ip']) + ':' + str(proxie_ip['port']),
        #'https': 'https://' + str(proxie_ip['ip']) + ':' + str(proxie_ip['port'])
}

原文地址：https://blog.csdn.net/qq_53256193/article/details/142685097

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：AI学习指南深度学习篇-生成对抗网络的数学原理
下一篇：有点晕，inline， crossinline,noinline小计

成为一名厉害的黑客，必须知道的12个步骤，黑客入门
与许多较老的UNIX书籍不同，这是一本相对较新的Linux书籍，这本书是由Michael Kerrisk编写的，他是Linux手册的维护成员之一，与许多作者一样，他从1987年开始研究UNIX，并从2
阅读更多2024-10-10
麒麟桌面版v10 SP1以docker方式安装达梦数据库
的构建版本信息：使用的是麒麟（Kylin）桌面版系统，具体版本为Kylin-Desktop V10-SP1-hwe，构建日期为2021年8月20日。直接 GitHub 下载：docker/compos
阅读更多2024-10-10
【Unity游戏开发】PlayerInput最佳实践，自动生成actions代码
新输入系统主要有两种方式，一种是全局的InputActions直接用new获取另一种是在组件上挂载PlayerInpput，好处是可以区分不同玩家，精细的禁用单个行为，但是使用比较麻烦最重要的还是要用
阅读更多2024-10-10
ubuntu 18.04虚拟机以太网网段与地平线J6板端连接配置
板端ip可以ping通，同时联网也可以。选择自动获取IP地址。
阅读更多2024-10-10
k8s部署学习
8s的架构一个kubernetes集群主要是由控制节点(master)、工作节点(node)构成，每个节点上都会安装不同的组件1 master：集群的控制平面，负责集群的决策ApiServer : 资
阅读更多2024-10-10
【技术支持】家里智能电视不能联网重置小米路由器之路
本文记录了由于家庭中小米盒子网络问题，进而引发使用小米路由器重置网络的一系列操作
阅读更多2024-10-10
python 自学总结
位置传递的不定长， def 函数名（*args）: 传进的所有参数都会被args变量收集，它会根据传进参数的位置合并为一个元组，args是元组的类型，这就是位置传递。# 关键字传递的不定长 de
阅读更多2024-10-10
JavaScript 第2章基本语法
通过这些示例，读者可以更好地理解JavaScript的基本语法，并学会如何在实际的业务场景中应用这些语法。通过这些示例，读者可以进一步理解JavaScript中的变量声明、数据类型、运算符以及语句的使
阅读更多2024-10-10
java内置的四种函数式接口
四种内置函数式接口
阅读更多2024-10-10
系统移植二和网卡移植实验和私有驱动LED的移植
驱动文件的集成：通过修改 Kconfig 和 Makefile 文件，将驱动集成到内核中，并在 menuconfig 中显示配置项。驱动的编译方式：可以选择将驱动编译到内核中（内建）或编译为模块（动态
阅读更多2024-10-10

爬虫案例——爬取腾讯社招

相关文章