学习最佳实践G4F中的编程技术：cookie读取和管理

🕗 发布于 2024-09-29 15:19 学习 python

GPT4Free项目源码地址：GitHub - xtekky/gpt4free: The official gpt4free repository | various collection of powerful language models

阅读这段代码，代码在：gpt4free/g4f/cookies.py at main · xtekky/gpt4free · GitHub

from __future__ import annotations

import os
import time
import json

try:
    from platformdirs import user_config_dir
    has_platformdirs = True
except ImportError:
    has_platformdirs = False
try:
    from browser_cookie3 import (
        chrome, chromium, opera, opera_gx,
        brave, edge, vivaldi, firefox,
        _LinuxPasswordManager, BrowserCookieError
    )
    has_browser_cookie3 = True
except ImportError:
    has_browser_cookie3 = False

from .typing import Dict, Cookies
from .errors import MissingRequirementsError
from . import debug

class CookiesConfig():
    cookies: Dict[str, Cookies] = {}
    cookies_dir: str = "./har_and_cookies"

DOMAINS = [
    ".bing.com",
    ".meta.ai",
    ".google.com",
    "www.whiterabbitneo.com",
    "huggingface.co",
    "chat.reka.ai",
]

if has_browser_cookie3 and os.environ.get('DBUS_SESSION_BUS_ADDRESS') == "/dev/null":
    _LinuxPasswordManager.get_password = lambda a, b: b"secret"

def get_cookies(domain_name: str = '', raise_requirements_error: bool = True, single_browser: bool = False) -> Dict[str, str]:
    """
    Load cookies for a given domain from all supported browsers and cache the results.

    Args:
        domain_name (str): The domain for which to load cookies.

    Returns:
        Dict[str, str]: A dictionary of cookie names and values.
    """
    if domain_name in CookiesConfig.cookies:
        return CookiesConfig.cookies[domain_name]

    cookies = load_cookies_from_browsers(domain_name, raise_requirements_error, single_browser)
    CookiesConfig.cookies[domain_name] = cookies
    return cookies

def set_cookies(domain_name: str, cookies: Cookies = None) -> None:
    if cookies:
        CookiesConfig.cookies[domain_name] = cookies
    elif domain_name in CookiesConfig.cookies:
        CookiesConfig.cookies.pop(domain_name)

def load_cookies_from_browsers(domain_name: str, raise_requirements_error: bool = True, single_browser: bool = False) -> Cookies:
    """
    Helper function to load cookies from various browsers.

    Args:
        domain_name (str): The domain for which to load cookies.

    Returns:
        Dict[str, str]: A dictionary of cookie names and values.
    """
    if not has_browser_cookie3:
        if raise_requirements_error:
            raise MissingRequirementsError('Install "browser_cookie3" package')
        return {}
    cookies = {}
    for cookie_fn in [_g4f, chrome, chromium, opera, opera_gx, brave, edge, vivaldi, firefox]:
        try:
            cookie_jar = cookie_fn(domain_name=domain_name)
            if len(cookie_jar) and debug.logging:
                print(f"Read cookies from {cookie_fn.__name__} for {domain_name}")
            for cookie in cookie_jar:
                if cookie.name not in cookies:
                    if not cookie.expires or cookie.expires > time.time():
                        cookies[cookie.name] = cookie.value
            if single_browser and len(cookie_jar):
                break
        except BrowserCookieError:
            pass
        except Exception as e:
            if debug.logging:
                print(f"Error reading cookies from {cookie_fn.__name__} for {domain_name}: {e}")
    return cookies

def set_cookies_dir(dir: str) -> None:
    CookiesConfig.cookies_dir = dir

def get_cookies_dir() -> str:
    return CookiesConfig.cookies_dir

def read_cookie_files(dirPath: str = None):
    def get_domain(v: dict) -> str:
        host = [h["value"] for h in v['request']['headers'] if h["name"].lower() in ("host", ":authority")]
        if not host:
            return
        host = host.pop()
        for d in DOMAINS:
            if d in host:
                return d

    harFiles = []
    cookieFiles = []
    for root, dirs, files in os.walk(CookiesConfig.cookies_dir if dirPath is None else dirPath):
        for file in files:
            if file.endswith(".har"):
                harFiles.append(os.path.join(root, file))
            elif file.endswith(".json"):
                cookieFiles.append(os.path.join(root, file))

    CookiesConfig.cookies = {}
    for path in harFiles:
        with open(path, 'rb') as file:
            try:
                harFile = json.load(file)
            except json.JSONDecodeError:
                # Error: not a HAR file!
                continue
            if debug.logging:
                print("Read .har file:", path)
            new_cookies = {}
            for v in harFile['log']['entries']:
                domain = get_domain(v)
                if domain is None:
                    continue
                v_cookies = {}
                for c in v['request']['cookies']:
                    v_cookies[c['name']] = c['value']
                if len(v_cookies) > 0:
                    CookiesConfig.cookies[domain] = v_cookies
                    new_cookies[domain] = len(v_cookies)
            if debug.logging:
                for domain, new_values in new_cookies.items():
                    print(f"Cookies added: {new_values} from {domain}")
    for path in cookieFiles:
        with open(path, 'rb') as file:
            try:
                cookieFile = json.load(file)
            except json.JSONDecodeError:
                # Error: not a json file!
                continue
            if not isinstance(cookieFile, list):
                continue
            if debug.logging:
                print("Read cookie file:", path)
            new_cookies = {}
            for c in cookieFile:
                if isinstance(c, dict) and "domain" in c:
                    if c["domain"] not in new_cookies:
                        new_cookies[c["domain"]] = {}
                    new_cookies[c["domain"]][c["name"]] = c["value"]
            for domain, new_values in new_cookies.items():
                if debug.logging:
                    print(f"Cookies added: {len(new_values)} from {domain}")
                CookiesConfig.cookies[domain] = new_values

def _g4f(domain_name: str) -> list:
    """
    Load cookies from the 'g4f' browser (if exists).

    Args:
        domain_name (str): The domain for which to load cookies.

    Returns:
        list: List of cookies.
    """
    if not has_platformdirs:
        return []
    user_data_dir = user_config_dir("g4f")
    cookie_file = os.path.join(user_data_dir, "Default", "Cookies")
    return [] if not os.path.exists(cookie_file) else chrome(cookie_file, domain_name)

代码解读

这段代码是一个用于加载和管理浏览器cookies的Python模块。它支持从多种浏览器（如Chrome、Chromium、Firefox等）中读取cookies，并能够将它们存储在内存中以便于后续使用。同时，它还支持从HAR（HTTP Archive）文件和JSON格式的cookie文件中读取cookies。以下是代码的详细解读：

导入模块

导入os、time、json等标准库模块。
尝试导入platformdirs和browser_cookie3库，如果导入失败，则设置相应的标志变量为False。
从当前包的其他模块导入类型定义、错误类和调试功能。

类和全局变量

CookiesConfig类：用于存储和管理cookies的配置，包括一个字典cookies用于缓存加载的cookies，以及一个字符串cookies_dir用于指定存储HAR和cookie文件的目录。
DOMAINS列表：包含了一系列特定的域名，用于在处理HAR和cookie文件时识别相关cookies。

函数

get_cookies：根据域名加载cookies，如果已缓存则直接返回，否则从浏览器中加载并缓存。
set_cookies：设置或删除指定域名的cookies。
load_cookies_from_browsers：辅助函数，用于从各种支持的浏览器中加载cookies。
set_cookies_dir和get_cookies_dir：设置和获取cookies目录。
read_cookie_files：从指定的目录（或默认目录）中读取HAR文件和JSON格式的cookie文件，并更新CookiesConfig.cookies缓存。
_g4f：一个特定于“g4f”浏览器的cookies加载函数，如果platformdirs库可用，则尝试从g4f浏览器的配置目录中加载cookies。

关键点

兼容性：代码通过检查platformdirs和browser_cookie3库的存在性来处理兼容性问题，如果缺少这些库，则通过设置标志变量和抛出异常来通知用户。
缓存机制：使用CookiesConfig.cookies字典来缓存已加载的cookies，以避免重复加载。
灵活性：支持从多种浏览器和文件格式中读取cookies，提供了灵活的cookies管理方式。
错误处理：在加载cookies时，通过捕获异常来处理可能出现的错误，并提供了调试日志功能以便于问题排查。

使用场景

这段代码可以用于需要跨浏览器读取和管理cookies的场景，例如自动化测试、网络爬虫等。通过读取和设置浏览器的cookies，可以模拟用户的登录状态或绕过一些基于cookies的访问限制。

知识点解析

尝试导入某个模块时用异常处理（Exception Handling）

尝试导入：
```
try:
    from platformdirs import user_config_dir
    has_platformdirs = True
```
这部分代码尝试从platformdirs包中导入user_config_dir函数。如果导入成功，那么user_config_dir函数将被引入当前命名空间中，并且变量has_platformdirs将被设置为True，表示platformdirs包是可用的。
异常处理：
```
except ImportError:
    has_platformdirs = False
```
如果在尝试导入user_config_dir时发生了ImportError（这通常意味着platformdirs包没有安装，或者Python无法找到它），那么except块中的代码将被执行。这里，它将变量has_platformdirs设置为False，表示platformdirs包不可用。

这种写法的优点在于它允许程序在缺少某些依赖时仍然能够继续运行，而不是因为缺少依赖而完全崩溃。这对于编写需要兼容不同环境或配置的库和应用程序特别有用。

比如在一台MAC机执行上面命令，导入了user_config_dir，执行user_config_dir(),则可以拿到应用目录：

>>> user_config_dir()
'/Users/xxxxuser/Library/Application Support'

目录里面就存放了Cache、Cookie等各种信息。

在一台FreeBSD系统，执行user_config_dir()拿到的存盘目录则是.config

>>> user_config_dir()
'/home/xxuser/.config'

同样的，brower_cookie3 也使用了这种导入技术：

try:
    from browser_cookie3 import (
        chrome, chromium, opera, opera_gx,
        brave, edge, vivaldi, firefox,
        _LinuxPasswordManager, BrowserCookieError
    )
    has_browser_cookie3 = True
except ImportError:
    has_browser_cookie3 = False

调试

在咨询文心一言的时候报错

将以上源码咨询文心一言的时候，会报错：http://www.whiterabbitneo.com 看起来您上传了一个空页面，请检查网址

原来文心一言使用了阅读助手，阅读助手在浏览http://www.whiterabbitneo.com 的时候看来拿到了空页面。。。。

但是其他域名就没有问题，代码里涉及的网址：

DOMAINS = [
".bing.com",
".meta.ai",
".google.com",
"www.whiterabbitneo.com",
"huggingface.co",
"chat.reka.ai",
]

原文地址：https://blog.csdn.net/skywalk8163/article/details/142531975

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：决策树算法在机器学习中的应用
下一篇：系统架构设计师教程第11章 11.1 信息物理系统技术概述笔记

MySQL数据库基础
在过去的mysql中主要是使用的utf8mb3，但是mysql显示的就是utf8，中mysql8中区分显示了。类似于不同的编译器，虽然C/C++的代码是一样的，但是预处理、编译、汇编、链接这些过程却不
阅读更多2024-09-30
Percona Monitoring and Management
Percona Monitoring and Management (PMM)是一款开源的专用于管理和监控MySQL、MongoDB、PostgreSQL。
阅读更多2024-09-30
鸿蒙开发（NEXT/API 12）【已连接穿戴设备查询】手机侧应用开发
Wear Engine提供查询用户已连接的穿戴设备列表（即支持Wear Engine能力且与手机侧运动健康App处于连接状态的穿戴设备）的接口。
阅读更多2024-09-30
Redis数据库
本篇文章介绍了redis的相关知识，并使用springboot集成redis，实现缓存和分布式锁，后续会对文章勘误及更新~~
阅读更多2024-09-30
旧版的存档
【代码】旧版的存档。
阅读更多2024-09-30
Spring Boot 封装统一返回结果及全局异常处理
为了更细致地控制异常处理，我们可以定义一些自定义异常。然后，在全局异常处理器中添加对自定义异常的处理。通过封装统一的返回结果和全局异常处理，我们可以让Spring Boot应用更加健壮和易于维护。这种
阅读更多2024-09-30
【C++】IO流
C++IO流，包含输入输出流、文件流、字符流
阅读更多2024-09-30
低至1元/小时：国庆七天，30元通关《黑神话：悟空》！
随着《黑神话：悟空》自8月20日全球同步上线，正式登陆PC、PS5平台以来，以其精湛的画面和流畅的战斗体验，在发售三天后，该作的全平台销量超过1000万套，打破中国游戏历史记录，被媒体称为“中国首款3
阅读更多2024-09-30
阿里巴巴国际站获取商品详情item_get接口技术分享
item_get API接口是阿里巴巴开放平台提供的一个重要接口，它允许商家通过API调用，获取阿里巴巴平台上的商品详细信息。这些信息包括商品标题、价格、库存、属性、描述等，为商家提供了全面、准确的商
阅读更多2024-09-30
软件测试谣言二三事，认真你就输了
软件测试的职业寿命，取决于互联网行业能存活多久，至少目前看来，这个职业没有消失的风险，至于你能在这个职业待多久，那取决于你自己的能力，我见过不少超过35岁的老员工还在测试的职位上兢兢业业。以广州为例，
阅读更多2024-09-30