自学内容网 自学内容网

python 爬虫学习

requst库访问

from requests import *
response=get("https://19j.tv/")
print(response)

若访问成功,状态码为200,访问失败,则查询状态码,http和https的状态码是一样的
http状态码
可以采取伪造请求头的方式绕过,右键检查元素,随便找个user-agent
在这里插入图片描述

from requests import *
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36'
}
response=get("https://19j.tv/",headers=headers)
print(response)

HTML语言

常用 HTML 标签

结构性标签

  • <html>: 定义整个 HTML 文档的根元素。
  • <head>: 包含文档的元数据(如字符集、标题、链接等)。
  • <body>: 包含文档的主要内容。
  • <title>: 定义文档的标题,显示在浏览器标签栏中。
  • <header>: 定义页面头部区域,通常用于放置导航、标题等内容。
  • <footer>: 定义页面底部区域,通常用于放置版权信息、联系方式等。
  • <nav>: 定义导航链接区域。
  • <section>: 定义文档中的一个节(例如章节、区域等)。
  • <article>: 定义独立的内容单元,可以是博客文章、新闻条目等。
  • <aside>: 定义页面的侧边栏,通常包含与主要内容相关的辅助信息。

文本格式化标签

  • <h1><h6>: 定义标题标签,<h1> 是最大标题,<h6> 是最小标题。
  • <p>: 定义段落。
  • <br>: 插入换行符。
  • <b>: 加粗文本(已被 <strong> 替代)。
  • <i>: 斜体文本(已被 <em> 替代)。
  • <strong>: 定义重要的文本,通常表现为加粗。
  • <em>: 定义强调文本,通常表现为斜体。
  • <u>: 下划线文本。
  • <mark>: 标记文本(高亮显示)。
  • <del>: 删除线文本。
  • <ins>: 插入文本。

超链接与图像

  • <a>: 定义超链接,href 属性指定链接目标。
    • 示例: <a href="https://www.example.com">点击这里</a>
  • <img>: 插入图像,src 属性指定图片路径,alt 属性指定替代文本。
    • 示例: <img src="image.jpg" alt="示例图片">

列表标签

  • <ul>: 定义无序列表。
  • <ol>: 定义有序列表。
  • <li>: 定义列表项。
  • 示例:
    <ul>
      <li>第一项</li>
      <li>第二项</li>
    </ul>
    

HTML练习

照着敲一敲咯

<!DOCTYPE html>
<html>
    <head>
      <title>lally home</title>
    </head>
    <body>
      <h1>
      这是一级标题    
      </h1>
      <h2>
        这是二级标题
      </h2>
      <h3>
        这是三级标题
      </h3>
      <p>this is txt <br>this is txt</p>
      <img src="">
      <a href="https:www.baidu,com">百度链接</a>
      <a href="https:www.baidu,com" target="_blank">百度链接(在新标签页中打开)</a>
    </body>
</html>

BeautifulSoup处理数据

pip install bs4
在这里插入图片描述

findall函数负责筛选出所有的p元素,而attrs则是通过键值对进一步筛选,通过筛选就可以爬取大部分的信息了,学爬虫本意是想免费看片,但是爬取视频部分没搞会,干脆先放一放,哪天想起来了再深造


原文地址:https://blog.csdn.net/2301_79035389/article/details/145116444

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!