CVE漏洞爬虫脚本

🕗 发布于 2024-07-11 15:51 爬虫

前言：前阵子公司非要把CVE漏洞信息拉倒本地，说方便安全员们查看，其实在莫慌看来，大可不必，90%的CVE漏洞其实不具备现实利用的可能性的（不代表不能被利用），但是你说它没有意义也是不对的，比如将CVE漏洞和资产做好关联，当资产的版本信息刚好触发CVE是不是就能第一时间获得通知了！

废话不多说，说下CVE爬虫的逻辑，CVE漏洞库是存放在git上面的，它会定时打一个增量包和打一个全量包，我们如果需要历史漏洞信息，可以下载全量包（官网也可以下载全量包），下面给大家展示是我随手写的增量包的漏洞下载，和全量包手工导入数据库的代码（数据库字段代码未放出，相比对各位老哥来说自己写个mysql插入不难），大家随心取用。

# -*- coding: utf-8 -*-
# @File    : cve_spider.py
# 爬取cve数据源：先拼接当天的cve zip包链接，然后解压读取里面的json文件，解析并导入数据库

import datetime
import shutil
import os,json
import requests
import zipfile
from logger import Logger #日志代码，可以去掉相关代码
from cve_pars import get_file_list,cve_details
def search_string_in_file(file_path, target_string):  
    with open(file_path, 'r') as f:  
        for line in f:  
            if target_string in line:  
                return True  
    return False

def main():
    flag =0 #0代表成功1代表失败
    # 计算昨天日期
    yesterday = datetime.date.today() - datetime.timedelta(days=1)
    # 获取当天的cve数据源
    url = 'https://github.com/CVEProject/cvelistV5/releases/download/cve_{}_at_end_of_day/{}_delta_CVEs_at_end_of_day.zip'.format(yesterday,yesterday)
    if search_string_in_file('cveflawsurls.txt', url):
        print(f"已经下载过,不再重复下载{url}");
        return
    try:   
        r = requests.get(url, timeout=10)
    except:
        print('请求超时')
        Logger.error(f" error：CVE链接请求超时")
    if r.status_code == 200:
        with open(str(yesterday) + '.zip', 'wb') as f:
            f.write(r.content)
        
        # 解压zip包到data目录
        with zipfile.ZipFile(str(yesterday) + '.zip', 'r') as z:
            z.extractall()
            #z.close()
        #zip文件备份到data目录
        try:
            os.rename(str(yesterday) + '.zip', './data/' + str(yesterday) + '.zip')
        except Exception as e:
            print(e)
            Logger.error(f" error：{e}")
        #解析deltaCves中的json文件
        file_list = get_file_list(r'./deltaCves')
        for file in file_list:
            with open(file, 'rb') as f:
                data = json.load(f)
                cve_details(data)
        #删除deltaCves目录
        try:
            shutil.rmtree('./deltaCves')
        except Exception as e:
            print(e)
            Logger.error(f" error：{e}")
    else:
        print('下载链接失败')
        flag = 1
    if flag == 0:
        #如果没有其他错误将下载的链接用覆盖模式存储cveflawurls.txt里面吗，避免重复爬取
        with open('cveflawsurls.txt', 'w') as f:
            f.write(url)

if __name__ == '__main__':
    os.chdir(os.path.split(os.path.realpath(__file__))[0])
    if not os.path.exists('cveflawsurls.txt'):
        with open('cveflawsurls.txt','w') as f:
            f.write('')
    main()

# -*- coding: utf-8 -*-
# @File    : cve_pars.py
import json,os
from filetomysql import sql #这里换成自己写的数据库插入函数
import time

# 提取并打印关键信息
def cve_details(cve_data):
    cve_id = cve_data['cveMetadata']['cveId']
    cve_stat = cve_data['cveMetadata']['state']
    cve_date = ""  #更新日期
    product_name = "" #受影响产品
    refurls = "" #参考链接
    cve_desc = "" #漏洞描述
    problem_type="" #问题类型
    severity="" #严重程度
    cvss_score = "" #CVSS评分
    print("CVE ID:", cve_id)
    print("状态:", cve_stat)
    
    try:
        cve_date = cve_data['cveMetadata']['dateUpdated'][:10]
        # print("更新日期:", cve_date)
    except:
        pass

    try:
        product_name=cve_data['containers']['cna']['affected'][0]['product']
        # print("受影响产品:", product_name)
    except:
        pass

    try:
        cve_desc =cve_data['containers']['cna']['descriptions'][0]['value']
        # print("漏洞描述",cve_desc)
    except:
        pass

    try:
        for ref in cve_data['containers']['cna']['references']:
            refurls+=ref['url']+"\n"    
        # print("参考链接",refurls)
    except:
        pass

    try:
        problem_type=cve_data['containers']['cna']['problemTypes'][0]['descriptions'][0]['description']
        #print("问题类型:",problem_type)
    except:
        pass

    try:
        severity=cve_data['containers']['cna']['metrics'][0]['cvssV3_1']['baseSeverity']
        #print("严重程度:", severity)
    except:
        pass

    try:
        cvss_score=cve_data['containers']['cna']['metrics'][0]['cvssV3_1']['baseScore']
        #print("CVSS评分:", cvss_score)
    except:
        pass
    sql =NewsSeclet()
    sql.cvevulDB(cve_id,cve_stat,severity,product_name,cve_desc,refurls,problem_type,cvss_score,cve_date)


#获取指定目录下面的文件列表
def get_file_list(path):
    file_list = []
    for root, dirs, files in os.walk(path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list


if  __name__ == "__main__":
    file_list = get_file_list(r'./deltaCves')
    for file in file_list:
        #time.sleep(1)
        with open(file, 'rb') as f:
            data = json.load(f)
            cve_details(data)

原文地址：https://blog.csdn.net/u014247926/article/details/140325536

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：科普文：深入理解Mybatis
下一篇：thinkphp8框架源码精讲

关于selenium元素找不到的问题（Unable to locate element: {“method“:“xpath“,“selector“:“）
过了两周，查看日志发现，裂开了，又不好使了，然后，我重新运行了一遍，想找找问题，结果他又好使了。我真的裂开，裂开了啊，再然后下载页面，发现他会出现两种页面，并且页面源代码完全不同？之前一个任务让用se
阅读更多2024-11-17
iOS 键盘弹出视图精准上移
注意，我们可以自行设置一个适当的buffer,我这里是40，就是输入框距离。1 视图精准位移，需要计算出输入框距离屏幕底部的距离，然后。计算出输入框需要上移的距离，就是整个视图需要上移的距离,键盘有一
阅读更多2024-11-17
Intern大模型训练营（八）：Llamaindex RAG 实践
首先在Intern Studio中申请30% A100的开发机。进入开发机后，创建新的conda环境，命名为llamaindex复制完成后，在本地查看环境。运行conda命令，激活llamaindex
阅读更多2024-11-17
Spring事务管理
Spring事务管理是Spring框架中的一个重要功能，用于管理数据库事务。它提供了一种声明式的方式来管理事务，简化了开发人员的工作。
阅读更多2024-11-17
介绍一下整数在内存的储存形式(c基础)
把整数以二进制形式写出在前面补零(保证32位)把整数以二进制形式写出在前面补零（第一位为符号位负数为1，正数为0。第一位（左）为符号位补1。（即1变为0，0变为1)
阅读更多2024-11-17
Linux驱动开发第2步_“物理内存”和“虚拟内存”的映射
“新字符设备的GPIO驱动”和“设备树下的GPIO驱动”都要用到寄存器地址，使用“物理内存”和“虚拟内存”映射时，非常不方便，而pinctrl和gpio子系统的GPIO驱动，非常简化。因此，要重点学习
阅读更多2024-11-17
LLMs 激活函数篇
LLMs 激活函数
阅读更多2024-11-17
学习python的第十天之数据类型——dict字典
Python 中的字典（Dictionary）是一个非常强大的内置数据类型，它用来存储键值对（key-value pairs）信息。字典是无序的，这意味着它们不会记录你添加键值对的顺序；然而，从 Py
阅读更多2024-11-17
基于Java Springboot校园共享单车
为了节省时间和提高工作效率，越来越多的人选择利用互联网进行线上打理各种事务，然后线上管理系统也就相继涌现。基于这种情况，我们需要这样一个界面简单大方、功能齐全的系统来解决用户问题，满足用户需求。课题主
阅读更多2024-11-17
HashMap面试知识点
HashMap链表的插入的方式是是头插法，在多线程的情况下，容易产生环形链表，查询时就会产生死循环问题。HashMap的插入法改为了尾插法，但是多线程情况下依然会产生一些问题，例如前面说到的put()
阅读更多2024-11-17

CVE漏洞爬虫脚本

相关文章