[AIGC] Python批量处理Excel中的ASR语音文本数据

🕗 发布于 2024-11-12 09:46 AIGC python excel

文章目录

Python批量处理Excel中的ASR语音文本数据

Python批量处理Excel中的ASR语音文本数据

背景介绍

在实际工作中，我们经常需要处理大量的语音识别(ASR)数据。本文将介绍如何使用Python批量处理Excel中的ASR数据，包括URL解析、API调用以及结果保存等功能。

技术方案

1. 环境准备

首先需要安装以下Python包：

pip install pandas requests

2. 核心功能实现

2.1 ASR文本提取

在这里插入图片描述

def extract_conversation(asr_data):
    try:
        asr_result = asr_data.get('data', {}).get('asrResult', {}).get('asrResult', [])
        conversation_text = ""
        
        for item in asr_result:
            role = item.get('role', '')
            words = item.get('words', '')
            
            if role and words:
                conversation_text += f"{role}：{words}\n"
        
        return conversation_text
    except Exception as e:
        print(f"处理数据时出错: {str(e)}")
        return ""

这个函数负责从API返回的JSON数据中提取对话内容，并按照"角色：内容"的格式进行整理。

2.2 URL处理

def process_single_url(url):
    try:
        url = url.replace('@', '')
        parsed = urlparse(url)
        query_params = parse_qs(parsed.query)
        record_id = query_params.get('id', [''])[0]
        
        if not record_id:
            return None, None
            
        new_url = f"https://xx.com/v1/xx?recordId={record_id}"
        
        response = requests.get(new_url)
        if response.status_code == 200:
            json_data = response.json()
            conversation = extract_conversation(json_data)
            return new_url, conversation
        else:
            print(f"请求失败，状态码: {response.status_code}")
            return new_url, None
            
    except Exception as e:
        print(f"处理URL时出错: {str(e)}")
        return None, None

这个函数处理单个URL，主要完成以下工作：

清理URL中的特殊字符
解析URL获取记录ID
调用API获取ASR文本
提取对话内容

2.3 Excel批量处理

def process_excel_and_get_recordings(excel_file):
    try:
        df = pd.read_excel(excel_file, sheet_name='Sheet2')
        url_column = df.iloc[:, 3]  
        
        new_urls = []
        conversations = []
        total = len(df)
        
        for index, url in enumerate(url_column, 1):
            new_url, conversation_text = process_single_url(url)
            new_urls.append(new_url)
            conversations.append(conversation_text)
            print(f"处理进度: {index}/{total}")
            
        df['new_url'] = new_urls
        df['conversation_text'] = conversations
        
        output_file = excel_file.replace('.xlsx', '_processed.xlsx')
        try:
            df.to_excel(output_file, index=False)
        except PermissionError:
            output_file = os.path.basename(excel_file).replace('.xlsx', '_processed.xlsx')
            df.to_excel(output_file, index=False)
            
    except Exception as e:
        print(f"处理Excel文件时出错: {str(e)}")
        raise

这个函数实现了批量处理的主要逻辑：

读取Excel文件
遍历处理每个URL
保存处理结果到新的Excel文件

异常处理

代码中实现了多层异常处理机制：

单个URL处理失败不影响整体流程
文件保存权限问题的优雅降级处理
详细的错误信息记录

使用方法

if __name__ == "__main__":
    excel_file = 'D:\work\xx\方言.xlsx'  
    process_excel_and_get_recordings(excel_file)

注意事项

确保Excel文件中URL所在列的位置正确（当前代码中默认为第4列）
需要有足够的磁盘权限来保存结果文件
API调用可能需要适当的访问权限和认证信息

总结

这个Python脚本提供了一个完整的解决方案，用于批量处理Excel中的ASR数据。

原文地址：https://blog.csdn.net/qq_41791705/article/details/143677202

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：vscode
下一篇：【前端】Typescript从入门到进阶

Java常用类之包装类
在Java中，包装类是一种将基本数据类型包装成对象的类。Java提供了8个包装类，分别对应8种基本数据类型。这些包装类提供了许多方法，可以方便地操作基本数据类型。包装类的主要作用是在需要使用对象的地方
阅读更多2024-11-14
机器学习基础03
K-Fold交叉验证技术中，整个数据集被划分为K个大小相同的部分。一个Fold被用作验证集，其余的K-1个Fold被用作训练集。K-近邻算法（K-Nearest Neighbors，简称KNN）,根据
阅读更多2024-11-14
使用Python抓取数据的实战指南
通过以上步骤，你已经掌握了使用Python进行基本数据抓取的方法。随着技术的深入，你还可以学习如何使用多线程、异步请求等技术来提高抓取效率，以及如何利用正则表达式、XPath等工具来更精确地提取数据。
阅读更多2024-11-14
安全升级，从漏洞扫描开始：专业级网络安全服务
为了有效应对这些挑战，漏洞扫描服务应运而生，它旨在通过全面、深入的扫描，识别并报告可能使企业面临风险的安全漏洞。本文将详细介绍一款高性价比的漏洞扫描服务，该服务不仅提供现场或远程扫描内网及外网IT资产
阅读更多2024-11-14
将python下载的依赖包传到没网的服务器
然而，有时我们需要在没有网络连接的机器上部署我们的代码，这就涉及到如何将Python下载的依赖包传输到没有网络连接的机器上的问题。将下载的依赖包传输到没有网络连接的机器上，可以使用各种传输工具，例如U
阅读更多2024-11-14
【重生之我要苦学C语言】深入理解指针5
回调函数就是一个如果你把函数的指针(地址)作为参数传递给另一个函数，当这个指针被用来调用其所指向的函数时，被调用的函数就是回调函数回调函数不是由该函数的实现方直接调用，而是在特定的事件或条件发生时由另
阅读更多2024-11-14
UniApp 应用、页面与组件的生命周期详解
本文将深入探讨uni-app中应用、页面与组件的生命周期，通过具体的示例来展示如何利用这些生命周期方法，以实现更高效、更优雅的应用开发。无论是初学者还是有经验的开发者，都能从中获得宝贵的知识和技巧，进
阅读更多2024-11-14
前端--＞ nginx--＞gateway产生的跨域问题分析
3、检查CorsFilter的顺序是否是filterChain第一位，如果不是，看他前面的filter是否可以通过。1、后台服务是否配置cors，或者添加CorsFilter。4、如果无法通过，检查n
阅读更多2024-11-14
力扣515：在每个树行中找最大值
力扣515：在每个树行中找最大值。C语言
阅读更多2024-11-14
【LeetCode】每日一题 2024_11_12 统计满足 K 约束的子字符串数量 I（滑动窗口）
【LeetCode】每日一题 2024_11_12 统计满足 K 约束的子字符串数量 I（滑动窗口）
阅读更多2024-11-14