python实现网站TDK扫描

🕗 发布于 2025-01-23 08:50 python 开发语言

import re
import urllib3
import os
import yagmail
import requests
import logging
from concurrent.futures import ThreadPoolExecutor
import time
import threading
import xlwt
import xlrd
import socket
from xlutils.copy import copy
from urllib3.exceptions import InsecureRequestWarning
 
# 禁用安全请求警告
urllib3.disable_warnings(InsecureRequestWarning)
 
# 获取状态码、标题
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.6613.85 Safari/537.36',
}
 
def get_ip(url):
    url = url.strip('\n').replace('http://', '').replace('https://', '')
    myaddr = socket.getaddrinfo(url, 'http')
    return myaddr[0][4][0]
 
def get_codetitle(url):
    code = "无法访问"
    title = " "
    resurl = " "
    description = " "
    keywords = " "
    try:
        res = requests.get(url, headers=header, verify=False, allow_redirects=True, timeout=(3, 12))
        res.encoding = res.apparent_encoding
        code = res.status_code
        title = re.findall(r"(?<=\<title\>)(?:.|\n)+?(?=\<)", res.text, re.IGNORECASE)[0].strip()
        description = re.findall(r"(?<=\<meta name=\"description\" content=\")(?:.|\n)+?(?=\" \/\>|\"\/\>)", res.text, re.IGNORECASE)[0].strip()
        keywords = re.findall(r"(?<=\<meta name=\"keywords\" content=\")(?:.|\n)+?(?=\" \/\>|\"\/\>)", res.text, re.IGNORECASE)[0].strip()
        resurl = res.url
    except requests.RequestException as error:
        logging.error('%s网址无效或者IP被封锁: %s', url, error)
 
    try:
        ip = get_ip(url)
    except socket.error as error:
        logging.error('获取IP失败: %s', error)
        ip = 'null'
 
    return resurl, code, title, description, keywords, ip
 
def write(url):
    codetitle = get_codetitle(url)
    resurl, code, title, description, keywords, ip = map(str, codetitle)
    logging.info('%s | %s | %s | %s', url, code, title, ip)
    with lock:
        with xlrd.open_workbook(os.path.join(path, savefilename + '.xls')) as word_book:
            sheets = word_book.sheet_names()
            work_sheet = word_book.sheet_by_name(sheets[0])
            old_rows = work_sheet.nrows
            new_work_book = copy(word_book)
            new_sheet = new_work_book.get_sheet(0)
            i = old_rows
            new_sheet.write(i, 0, url)
            new_sheet.write(i, 1, resurl)
            new_sheet.write(i, 2, code)
            new_sheet.write(i, 3, title)
            new_sheet.write(i, 4, description)
            new_sheet.write(i, 5, keywords)
            new_sheet.write(i, 6, ip)
            new_work_book.save(os.path.join(path, savefilename + '.xls'))
 
def process_urls(input_file, output_file):
    with open(input_file, "r") as f:
        lines = f.readlines()
 
    with open(output_file, "w") as f2:
        for line in lines:
            line = line.strip('\n').strip()
            if not line.startswith('http://') and not line.startswith('https://'):
                f2.write('http://' + line + '\n')
            else:
                f2.write(line + '\n')
 
def send_email(duration):
    try:
        yag = yagmail.SMTP(user=os.getenv("EMAIL_USER"), password=os.getenv("EMAIL_PASS"), host='smtp.qq.com', port=465)
        contents = [f'TDK获取时间：{duration}秒']
        subject = 'TDK获取完成通知'
        receiver = ["705276383@qq.com"]
        yag.send(to=receiver, subject=subject, contents=contents)
        yag.close()
    except Exception as error:
        logging.error('发送邮件失败: %s', error)
 
if __name__ == "__main__":
    n = 0
    path = os.getcwd()
    logging.captureWarnings(True)
    logging.basicConfig(level=logging.INFO)
    requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
    start = time.time()
    lock = threading.Lock()
    savefilename = time.strftime("%Y-%m-%d %H.%M.%S")
    myxls = xlwt.Workbook()
    sheet1 = myxls.add_sheet(u'title', cell_overwrite_ok=True)
    sheet1.write(0, 0, "源地址")
    sheet1.write(0, 1, "跳转地址")
    sheet1.write(0, 2, "状态码")
    sheet1.write(0, 3, "标题")
    sheet1.write(0, 4, "描述")
    sheet1.write(0, 5, "关键词")
    sheet1.write(0, 6, "IP")
    myxls.save(os.path.join(path, savefilename + '.xls'))
 
    process_urls(os.path.join(path, "url.txt"), os.path.join(path, "url-run.txt"))
 
    with open(os.path.join(path, 'url-run.txt'), 'r', encoding='utf-8') as f:
        urls_data = [data.strip().strip('\\') for data in f]
 
    with ThreadPoolExecutor(max_workers=100) as executor:
        for url in urls_data:
            executor.submit(write, url=url)
 
    end = time.time()
    logging.info("总耗时: %s 秒", end - start)
 
    send_email(end - start)

以上python代码是基于python3.13版，后续如有其他版本升级可自行调整。
注意事项：需要在代码同级目录下建一个url.txt文档，将需要扫描的地址填入，每个地址单独一行。扫描完之后会生成一个excel表文档，一般会在代码的同级目录下，以当前日期和时间命名。

原文地址：https://blog.csdn.net/Gurs_HuaNian/article/details/145308351

免责声明：本站文章内容转载自网络资源，如侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【趣学SQL】第二章：高级查询技巧 2.2 子查询的高级用法——SQL世界的“俄罗斯套娃“艺术
下一篇：[矩阵扩散]

Maven的下载安装配置
maven的下载安装配置。
阅读更多2025-01-23
99.6 金融难点通俗解释：股息率（DV）
不能只看分到的鸡蛋多少要看母鸡年龄大小要看母鸡品种好坏要看未来下蛋能力。
阅读更多2025-01-23
xceed PropertyGrid 如何做成Visual Studio 的属性窗口样子
这是一个完整可以运行的例子。其实要做成vs 那样的，路途很遥远，这里只是举个例子，需要重写很多模板，像前面的代码中就是定义了Event 选择的模板。类似这样的，我百度了一下，发现使用Xceed 不错。
阅读更多2025-01-23
揭开C++ 继承的神秘面纱：深度剖析类的“血脉”传承
继承概念、定义，基类和派生类之间的转换，继承中的作用域，派生类的默认成员函数。继承与友元，继承与静态函数，继承的多继承及菱形问题，继承和组合。
阅读更多2025-01-23
Linux 内核学习 3b - 和copilot 讨论pci设备的物理地址在内核空间和用户空间映射到虚拟地址的区别
内核通过内存映射（memory mapping）将设备的物理地址映射到内核的虚拟地址空间中，而用户程序通过系统调用（如 mmap）将设备的物理地址映射到自己的虚拟地址空间中。ioremap() 函数的
阅读更多2025-01-23
Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
Git是目前最流行的分布式代码版本管理平台，简单好用、稳定可靠的特性，得到行业广泛认可应用。尤其在可视化管理工具普及，以及集成到开发工具背景下，新手几乎不需要专门学习Git，通过了解几个简单按钮功能，
阅读更多2025-01-23
论文：深度可分离神经网络存内计算处理芯片
相较于传统的卷积神经网络，深度可分离卷积具有如下四个优势：1，更少的参数：可减少输入通道数量，从而有效地减少卷积层所需的参数；2，更快的速度：运行速度比传统卷积快；3，更加易于移植：计算量更小，更易于
阅读更多2025-01-23
MDX语言的嵌入式系统
MDX语言是一种专门为嵌入式系统开发设计的编程语言，旨在提高开发效率、运行效率和设备的可维护性。MDX语言结合了高级语言的易用性和低级语言的高效性，适合开发资源受限的嵌入式设备，如微控制器和实时操作系
阅读更多2025-01-23
告别繁琐的Try-Catch！优雅的异常处理解决方案
统一异常处理机制解决传统try...catch...finally导致的代码冗余、可读性差、缺乏统一性问题，通过全局处理器捕获分类异常，提升代码简洁性、可读性，集中管理，便于调试监控，是提升代码质量的
阅读更多2025-01-23
国产工作平替软件推荐
支持PDF阅读与批注，支持zotero、ChatGPT、翻译以及语法检查等各种强大插件（妥妥的助力学术论文写作），支持Win、macOS、iOS以及Android等各种常见客户端（还有网页版），移动版
阅读更多2025-01-23

python实现网站TDK扫描

相关文章