BERT的中文问答系统（羲和1.0）

🕗 发布于 2024-10-15 10:00 bert 人工智能 深度学习

确保项目目录结构清晰，我们可以通过以下步骤来组织代码和生成项目目录结构。我们将项目分为几个主要部分：数据、模型、日志、图标、源代码等。

项目目录结构
code

project_root/
├── data/
│   └── train_data.jsonl
├── models/
│   └── xihua_model.pth
├── logs/
│   └── <date_time>/
│       └── 羲和.txt
├── icons/
│   ├── xihe.png
│   └── ling.png
├── src/
│   ├── main.py
│   ├── xihua_dataset.py
│   ├── xihua_model.py
│   ├── xihua_gui.py
│   ├── utils.py
│   └── train.py
└── README.md

代码拆分
1.
main.py
主入口文件，负责启动GUI。

python

import os
import tkinter as tk

# 获取项目根目录
PROJECT_ROOT = os.path.dirname(os.path.abspath(__file__))
SRC_DIR = os.path.join(PROJECT_ROOT, 'src')

# 导入模块
from src.xihua_gui import XihuaChatbotGUI

if __name__ == "__main__":
    # 启动GUI
    root = tk.Tk()
    app = XihuaChatbotGUI(root)
    root.mainloop()

xihua_dataset.py
数据集类的定义。

python

import os
import json
import jsonlines
from transformers import BertTokenizer
import logging

class XihuaDataset:
    def __init__(self, file_path, tokenizer, max_length=128):
        self.tokenizer = tokenizer
        self.max_length = max_length
        self.data = self.load_data(file_path)

    def load_data(self, file_path):
        data = []
        if file_path.endswith('.jsonl'):
            with jsonlines.open(file_path) as reader:
                for i, item in enumerate(reader):
                    try:
                        if self.validate_item(item):
                            data.append(item)
                    except jsonlines.jsonlines.InvalidLineError as e:
                        logging.warning(f"跳过无效行 {
     i + 1}: {
     e}")
        elif file_path.endswith('.json'):
            with open(file_path, 'r') as f:
                try:
                    data = [item for item in json.load(f) if self.validate_item(item)]
                except json.JSONDecodeError as e:
                    logging.warning(f"跳过无效文件 {
     file_path}: {
     e}")
        return data

    def validate_item(self, item):
        required_keys = ['question', 'xihe_answers', 'ling_answers']
        if all(key in item for key in required_keys):
            return True
        logging.warning(f"跳过无效项: 缺少必要键 {
     required_keys}")
        return False

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        item = self.data[idx]
        question = item['question']

        # 确保 xihe_answers 和 ling_answers 都有值
        xihe_answer = item.get('xihe_answers', [])
        ling_answer = item.get('ling_answers', [])

        if not xihe_answer and ling_answer:
            xihe_answer = ling_answer
        elif not ling_answer and xihe_answer:
            ling_answer = xihe_answer

        xihe_answer = xihe_answer[0] if xihe_answer else ""
        ling_answer = ling_answer[0] if ling_answer else ""

        try:
            inputs = self.tokenizer(question, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)
            xihe_inputs = self.tokenizer(xihe_answer, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)
            ling_inputs = self.tokenizer(ling_answer, return_tensors='pt', padding='max_length', truncation=True, max_length=self.max_length)
        except Exception as e:
            logging.warning(f"跳过无效项 {
     idx}: {
     e}")
            return self.__getitem__((idx + 1) % len(self.data))

        return {
   
            'input_ids': inputs['input_ids'].squeeze(),
            'attention_mask': inputs['attention_mask'].squeeze(),

原文地址：https://blog.csdn.net/weixin_54366286/article/details/142851138

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：2025秋招NLP算法面试真题(二十二)-大模型参数高效微调技术总结与对比
下一篇：全面解析数据仓库：发展历程、核心作用与未来趋势

AI+智慧电池数据集
6+智慧电池AI数据集，涉及电池充放电、烟雾检测、隔膜检测、生产温度预测等多应用领域
阅读更多2024-10-15
【力扣刷题实战】链表的中间结点
文章目录目录力扣题目：链表的中间结点题目描述示例 1：示例 2：解题思路问题理解算法选择具体思路解题要点完整代码（C语言）兄弟们共勉！！！每篇前言
阅读更多2024-10-15
深入理解UML类图：掌握类与关系的设计奥秘
类表示系统中的一种实体，主要是由名称、属性和操作组成。在UML中，类表达成一个有三个分隔区的矩形。其中顶端显示类名，中间显示类的属性，尾端显示类的操作。1、类必须各自有不同的类名称正体书写：可以实例化
阅读更多2024-10-15
【makefile】项目管理make & 基本用法
刚才提及的都是编译的目标，所以应该都是输出文件作为目标，而输出文件多多少少都会有依赖文件，而伪目标不是文件，所以他一定没有依赖/这么说其实太绝对后面其实发现不一定。有了伪目标之后，makefile的目
阅读更多2024-10-15
Redis日常运维
作为一名资深运维工程师，了解 Redis 的不同架构模式及其优缺点是非常重要的。此外，监控 Redis 的关键指标也是确保其稳定运行的关键。以下是对这些问题的详细解答。
阅读更多2024-10-15
D37【python 接口自动化学习】- python基础之函数
定义变量的参数是实参，调用函数的参数是形参...
阅读更多2024-10-15
大模型时代产品经理攻略：成功必备的几点深度思考_ai时代先上车
随着人工智能技术的飞速发展，大模型时代已经到来，对产品经理提出了更高的要求和挑战。在这个新的时代背景下，产品经理需要不断思考和探索，以适应和引领市场的变化。
阅读更多2024-10-15
如何提高 PCDN 的网络安全防护能力（壹）
可以显著提高 PCDN 的网络安全防护能力，保障内容分发的安全可靠，为用户提供稳定、放心的服务。如果您对PCDN的技术特点、应用场景、市场竞争和成本投入有深入了解，并且认为它符合您的业务需求和市场定位
阅读更多2024-10-15
计算机网络-RSTP快速生成树基础概念
在启动了环路保护功能后，如果根端口或Alternate端口长时间收不到来自上游设备的BPDU报文时，则向网管发出通知信息（此时根端口会进入Discarding状态，角色切换为指定端口），而Altern
阅读更多2024-10-15
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
Python3 接口自动化测试，HTTPS下载文件(GET方法和POST方法)
阅读更多2024-10-15

BERT的中文问答系统（羲和1.0）

相关文章