Python爬虫使用实例-jsyks

🕗 发布于 2024-10-09 06:55 python 爬虫 开发语言

目标地址：

https://www.jsyks.com/kmy-mnks

例如：

url='https://www.jsyks.com/kmy-mnks' # kmy-mnks 科目一-模拟考试
url='https://www.jsyks.com/kms-mnks' # kms-mnks 科目四-模拟考试

一、获取资源

先从本题分析里面得到解析答案【通过div.Exam ul li里面列表的c值得到href】
在这里插入图片描述

查看本题解析

https://tiba.jsyks.com/Post/c6f5b.htm

在这里插入图片描述

在这里插入图片描述
由此：

http://tiba.jsyks.com/Post/"+$(a).attr("c")+".htm

取得c值即可知道解析答案的url地址。

二、发送请求

url='https://www.jsyks.com/kms-mnks'
driver = webdriver.Firefox()
driver.get(url)

三、数据解析

pip install selenium

更新定位方法：
find_element_by_css_selector() 是 Selenium WebDriver 提供的一种方法，用于通过 css 选择器定位页面元素。在最新的 Selenium 版本中，这个方法已经被弃用，并被新的方法所替代。在 Selenium 4 之后，推荐使用 find_element() 方法配合 By 类。

from selenium.webdriver.common.by import By
element = driver.find_element(By.CSS_SELECTOR, "your_css_selector")

例如：使用 find_element() 方法和 By.CSS_SELECTOR 常量来定位页面上的一个 css 选择器是"button.submit" 的元素，并对其执行点击操作。

from selenium import webdriver
from selenium.webdriver.common.by import By
driver = webdriver.Chrome()
driver.get("http://www.example.com")
# 找到页面上的一个元素，比如一个按钮
element = driver.find_element(By.CSS_SELECTOR, "button.submit")
# 对找到的元素进行操作，比如点击
element.click()
# 关闭浏览器
driver.quit()

四、实现代码

科目四模拟考：

import requests
import parsel
from selenium import webdriver
from selenium.webdriver.common.by import By

url='https://www.jsyks.com/kms-mnks'
driver = webdriver.Firefox()
# 没啥大问题，运行正常，只是会出现一句 The version of firefox cannot be detected. Trying with latest driver version
driver.get(url)
driver.maximize_window()# 最大化浏览器
#lis = driver.find_element(By.CSS_SELECTOR, '.Content li')
#lis = driver.find_elements_by_css_selector('div.Exam ul.Content li')
#lis = driver.find_elements(By.CSS_SELECTOR, '.Content li').text
lis = driver.find_elements(By.CSS_SELECTOR,  '.Content li')
#answer_url = [f'http://tiba.jsyks.com/Post/{li.get_attribute("c")}.htm' for li in lis]
#print(lis)
#for li in lis:
#    path= f'http://tiba.jsyks.com/Post/{li.get_attribute("c")}.htm'
#    answer_url = answer_url.append(path)
def get_all_answer(answer_url_list):
    answer_list = []
    for answer_url in answer_url_list:
        html_data = requests.get(url=answer_url).text
        #print(html_data)
        selcetor = parsel.Selector(html_data)
        question = selcetor.css('#question h1 strong a::text').get()
        answer = selcetor.css('#question h1 u::text').get()
        if answer=='对':
            answer='正确'
        elif answer=='错':
            answer='错误'
        else:               #elif len(answer)>2: # 多选
            answer=answer
        dict={'问题':question, '答案':answer}
        #print(dict)
        answer_list.append(dict)
    return answer_list
#answer_url_list=[f'http://tiba.jsyks.com/Post/{li.get_attribute("c")}.htm' for li in lis]
answer_url=[f"http://tiba.jsyks.com/Post/{li.get_attribute('c')}.htm" for li in lis]
answer_list =get_all_answer(answer_url)
page=1
for li, answer in zip(lis,answer_list):
    elements = li.find_elements(By.CSS_SELECTOR,  'b') # 查找<b>

    num=1
    for i in elements:
        choose = i.text
        if len(choose)>2:
            choose=choose[:1] #取最前面的那个A B C D
        if choose in answer['答案']:
            driver.find_element(By.CSS_SELECTOR,  f'#LI{page} b:nth-child({num+2})').click()
        num+=1
        #print(choose)
    page+=1

driver.find_element(By.CLASS_NAME,  'btn_JJ').click()
print('----------- finished -----------')

运行结果
科目四考试为满分
科目一考试为99
在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_45693567/article/details/142730361

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：代码随想录day22：回溯part4
下一篇：Spring 循环依赖

自动化测试selenium篇（二）
本文主要写了selenium中对浏览器操作的一些具体步骤；
阅读更多2024-10-09
雷池+frp 批量设置proxy_protocol实现真实IP透传
内网部署safeline，通过frp让外网访问内部web网站服务，让safeline记录真实外网攻击IP
阅读更多2024-10-09
LeetCode：871. 最低加油次数（DP Java）
最难的就是想出状态转移公式了，f[i]表示选 i 个加油站，可以走的最大距离。先根据距离排序加油站。遍历加油站，然后遍历f，f现在的有值个数最大就是当前遍历的加油站全选，所以从j = i开始，从后向前
阅读更多2024-10-09
【C++】类和对象（上）
•class为定义类的关键字，Stack为类的名字，{}中为类的主体，注意类定义结束时后⾯分号不能省略。类体中内容称为类的成员：类中的变量称为类的属性或成员变量;类中的函数称为类的⽅法或者成员函数。•
阅读更多2024-10-09
【中间件】—一篇说明白API网关&常用API网关推荐
计算机网络中，网关（Gateway）又称网间连接器、协议转化器。类比计算机网络中的网关来说，在微服务环境中，Api网关是所有服务的流量入口，网关在接收到请求后进行处理，再转发到对应的服务；服务处理请求
阅读更多2024-10-09
DBA | 如何将 .mdf 与 .ldf 的数据库文件导入到SQL Server 数据库中?
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]如何将 (.mdf) 和 (.ldf) 的SQL Server 数据库文件导入到当前数据库中?Step 1.登录到 Sql Server 服务器中
阅读更多2024-10-09
DBA | 如何将 .bak 的数据库备份文件导入到SQL Server 数据库中?
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]如何将（.bak）的SQL Server 数据库备份文件导入到当前数据库中?Step 1.登录到 Sql Server 服务器中，打开 SQL S
阅读更多2024-10-09
使用JavaScript进行数据可视化图表案例
项目名称：销售数据可视化目标：使用JavaScript创建一个动态交互式图表，展示公司的销售数据趋势。技术栈HTML/CSS：用于页面结构和样式。JavaScript：实现数据处理和图表生成。Char
阅读更多2024-10-09
【AI学习】Mamba学习（五）：《HiPPO: Recurrent Memory with Optimal Polynomial Projections》
HiPPO是一个通用框架，用于通过投影到多项式基上对连续信号和离散时间序列进行在线压缩。给定一个指定过去每个时间步长重要性的度量，HiPPO会产生一个自然在线函数近似问题的最优解
阅读更多2024-10-09
泛型的实现方式
泛型使编译器可以在编译期间对类型进行检查以提高类型安全，减少运行时由于对象类型不匹配引发的异常，泛型也提高了程序代码的可读性。
阅读更多2024-10-09

Python爬虫使用实例-jsyks

一、获取资源

二、发送请求

三、数据解析

四、实现代码

相关文章