于BERT的中文问答系统10

🕗 发布于 2024-10-07 22:01 bert 深度学习 人工智能

实现了一个基于BERT的中文问答系统，该系统能够区分给定问题的回答是由人类还是由ChatGPT生成的。以下是代码的主要功能和一些需要注意的事项：

主要功能

数据集加载：

XihuaDataset 类用于从 .json 或 .jsonl 文件中加载数据，并使用 BERT 的 tokenizer 对文本进行编码。
支持两种格式的数据文件：JSON 和 JSON Lines。
数据加载器：

get_data_loader 函数创建一个 DataLoader，用于批量加载数据集中的数据。
模型定义：

XihuaModel 类继承自 torch.nn.Module，使用预训练的 BERT 模型作为基础，并在其上添加了一个线性分类层，用于二分类任务（判断回答是人类的还是 ChatGPT 的）。
训练函数：

train 函数负责模型的训练过程，包括前向传播、损失计算、反向传播和参数更新。
使用 BCEWithLogitsLoss 作为损失函数，适用于二分类任务。
主训练函数：

main_train 函数初始化模型、优化器和数据加载器，并执行多个训练周期。
训练完成后，将模型的权重保存到文件中。
GUI 界面：

XihuaChatbotGUI 类使用 Tkinter 创建了一个简单的图形用户界面。
用户可以输入问题，点击“获取回答”按钮后，模型会判断回答是人类的还是 ChatGPT 的，并显示结果。
还提供了一个“训练模型”按钮，允许用户选择新的数据文件并重新训练模型。

import os
import json
import jsonlines
import torch
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from transformers import BertModel, BertTokenizer
import tkinter as tk
from tkinter import filedialog
import logging

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# 获取项目根目录
PROJECT_ROOT = os.path.dirname(os.path.abspath(__file__))

# 数据集类
class XihuaDataset(Dataset):
    def __init__(self, file_path, tokenizer, max_length=128):
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.data = self.load_data(file_path)

    def load_data(self, file_path):
        data = []
        if file_path.endswith('.jsonl'):
            with jsonlines.open(file_path) as reader:
                for item in reader:
                    data.append(item)
        elif file_path.endswith('.json'):
            with open(file_path, 'r') as f:
                data = json.load(f)
        return data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        item = self.data[idx]
        question = item['question']
        human_answer = item['human_answers'][0]
        chatgpt_answer = item['chatgpt_answers'][0]

        inputs = self.tokenizer(question, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)
        human_inputs = self.tokenizer(human_answer, return_tensors='pt', padding='max_length', truncation=True

原文地址：https://blog.csdn.net/weixin_54366286/article/details/142732313

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：C语言——宏定义相关
下一篇：开篇：为什么要学习Mybatis？

智能路由器hack技术
OpenWrt 可以被描述为一个嵌入式的 Linux 发行版，（主流路由器固件有 dd-wrt,tomato,openwrt三类）而不是试图建立一个单一的、静态的系统。OpenWrt的包管理提供了一个
阅读更多2024-10-08
练习题 - Scrapy爬虫框架 Settings 项目配置
在某些情况下，目标网站可能会根据请求头的特定信息来判断请求是否合法。请配置一个 Scrapy 爬虫，设置自定义请求头，包括Referer和。自定义请求头可以通过配置项进行设置。可以在中定义请求头的内容
阅读更多2024-10-08
js拼接html代码在线工具
js拼接html代码在线工具
阅读更多2024-10-08
实例分割、语义分割和 SAM（Segment Anything Model）
实例分割、语义分割和都是图像处理中的重要技术，它们的目标是通过分割图像中的不同对象或区域来帮助识别和分析图像，但它们的工作方式和适用场景各有不同。
阅读更多2024-10-08
如何将 cryptopp库移植到UE5内
这段时间在折腾UE5.4.4，学习的过程中，准备把cryptopp移植到游戏的工程内，但UE的编译环境和VS的编译环境完全不同，能在VS下顺利编译的cryptopp代码，移植之后，全在报错，错误千奇百
阅读更多2024-10-08
Linux: network: 典型网络延迟图，CPU导致；
这个可能的原因就是，进来的包被queue在了二层之前：或者是当前VM的网卡或者驱动，或者是网络上的某个设备。警告后续的分析，在主机上的vnet抓包看，发现包已经转发到了VM层，也就是收进来的包被缓存
阅读更多2024-10-08
redis-数据类型
这里的key使用的是用户id，然后偏移量表示天数，value和之前一致，便于统计某个用户累计签到（与之前统计系统某一段时间用户签到量做对比）节点在操作锁资源的时候，setnx lock uuid，操作
阅读更多2024-10-08
机器学习——自监督学习与无监督学习
自监督学习和无监督学习是解决数据标注不足问题的重要工具。无监督学习通过聚类、降维等方法揭示数据的内在结构，而自监督学习则通过构建辅助任务利用未标注数据来提高模型在下游任务中的表现。通过本文，我们不仅讨
阅读更多2024-10-08
ARM（5）内存管理单元MMU
假如内存不足会怎么样？内存碎片问题怎么解决？多个程序指向相同的地址如何处理？
阅读更多2024-10-08
Redis：cpp.redis++通用接口
讲解Redis的C++客户端redis++
阅读更多2024-10-08

于BERT的中文问答系统10

主要功能

相关文章