提升音频转录准确性：VAD技术的应用与挑战

🕗 发布于 2024-12-14 06:51 音视频

引言

在音频转录技术飞速发展的今天，我们面临着一个普遍问题：在嘈杂环境中，转录系统常常将非人声误识别为人声，导致转录结果出现错误。例如，在whisper模式下，系统可能会错误地转录出“谢谢大家”。本文将探讨如何通过声音活动检测（VAD）技术来解决这一问题，并详细分析在实施过程中遇到的两个主要技术挑战。

WKD

背景

音频转录技术的核心目标是将语音内容准确地转换成文本。然而，在实际应用中，背景噪音常常干扰这一过程，使得系统错误地将非人声声音识别为人类语音，从而降低了转录的准确性和可靠性。

解决方案：VAD技术

为了提高转录的准确性，我们采用了声音活动检测（VAD）技术。VAD技术能够区分人声和非人声，帮助过滤掉非人声的噪音，确保转录结果的准确性。

技术挑战与解决方案

问题1：麦克风音频采集数据不对应

在实际应用中，我们发现不同麦克风采集的音频数据在格式和质量上存在差异，这导致了数据不对应问题。为了解决这一问题，我们需要对采集到的音频数据进行转换，以确保它们能够被VAD技术正确处理。

数据转换步骤

采样率统一：将不同采样率的音频数据转换为统一的采样率，以保证数据的一致性。
通道数调整：将多声道音频数据转换为单声道，以适应VAD模型的输入要求。
格式标准化：将音频数据转换为VAD模型所需的格式，例如【1，128，4】的格式。

// 将音频数据转换 16khz 格式

    **static** **func** convertTo16kHzWAV(inputAudio: [Float], engine: AVAudioEngine ) -> [Float]? {

//        guard let audioInputNode = engine.inputNode else { return nil }

        **let** audioInputNode = engine.inputNode

        **let** inputFormat = audioInputNode.outputFormat(forBus: 0)

        

        **guard** **let** inputBuffer = AVAudioPCMBuffer(

            pcmFormat: inputFormat,

            frameCapacity: AVAudioFrameCount(inputAudio.count)

        ) **else** {

            **return** **nil**

        }

        inputBuffer.frameLength = AVAudioFrameCount(inputAudio.count)

        **let** audioBuffer = inputBuffer.floatChannelData?[0]

        **for** i **in** 0 ..< inputAudio.count {

            audioBuffer?[i] = inputAudio[i]

        }

        **let** outputFormat = AVAudioFormat(

            commonFormat: .pcmFormatInt16,

            sampleRate: 16000.0,

            channels: 1,

            interleaved: **false**

        )!

        **guard** **let** resampledPCMBuffer = AVAudioPCMBuffer(

            pcmFormat: outputFormat,

            frameCapacity: AVAudioFrameCount(Double(inputAudio.count) *

                Double(16000.0 / inputFormat.sampleRate))

        ) **else** {

            **return** **nil**

        }

        **let** resampler = AVAudioConverter(from: inputFormat, to: outputFormat)

        **let** inputBlock: AVAudioConverterInputBlock = { _, outStatus **in**

            outStatus.pointee = AVAudioConverterInputStatus.haveData

            **return** inputBuffer

        }

        **var** error: NSError?

        **let** status = resampler?.convert(

            to: resampledPCMBuffer,

            error: &error,

            withInputFrom: inputBlock

        )

        **if** status != .error {

            **let** resampledAudio = Array(UnsafeBufferPointer(

                start: resampledPCMBuffer.int16ChannelData?[0],

                count: Int(resampledPCMBuffer.frameLength)

            ))

            **var** int16Audio: [Float] = []

            **for** sample **in** resampledAudio {

                **let** int16Value = max(-1.0, min(Float(sample) / 32767.0, 1.0))

                int16Audio.append(int16Value)

            }

            **return** int16Audio

        } **else** {

            print("Error during resampling: \(error?.localizedDescription ?? "Unknown error")")

            **return** **nil**

        }

    }

问题2：VAD的机器学习模型与数据格式

VAD技术基于机器学习，对输入数据的格式有特定要求。在机器学习领域，数据的格式直接影响模型的性能。因此，我们需要将音频数据转换为适合VAD模型处理的格式。

数据格式的重要性

1：代表单声道音频数据，这是因为VAD模型通常是基于单声道数据训练的。
128：代表每个时间窗口的采样点数，这个数字可以根据模型的具体要求进行调整。
4：代表每个采样点的比特深度，例如，4可以代表4位的PCM编码，这是为了确保音频数据在转换过程中不失真。

// 将数据转换成 指定 图 格式

    **static** **func** reshapeData(floatData: [Float], targetShape: (Int, Int, Int)) -> [Float] {

       **let** (_, rows, cols) = targetShape

       **let** requiredSize = rows * cols

       // 填充或裁剪数据到需要的大小

       **var** paddedData = floatData

       **if** paddedData.count < requiredSize {

           paddedData.append(contentsOf: Array(repeating: 0.0, count: requiredSize - paddedData.count))

       } **else** **if** paddedData.count > requiredSize {

           paddedData = Array(paddedData.prefix(requiredSize))

       }

       // 输出展平后的数据

       **return** paddedData

   }

结论

通过采用VAD技术并解决麦克风音频采集数据不对应以及数据格式转换的问题，我们可以显著提高音频转录的准确性。这不仅能够减少错误转录的发生，还能提升用户在嘈杂环境中使用音频转录系统的体验。随着技术的不断进步，我们相信VAD技术将在音频处理领域发挥更大的作用，为用户带来更加准确和可靠的转录服务。

原文地址：https://blog.csdn.net/weixin_42429220/article/details/144457235

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：【Hive】-- hive 3.1.3 伪分布式部署（单节点）
下一篇：sqlalchemy异步方法使用

渗透测试之信息收集
免责声明：使用本教程或工具，用户必须遵守所有适用的法律和法规，并且用户应自行承担所有风险和责任。
阅读更多2024-12-14
[C++]类的继承
继承的定义，继承的作用，基类，派生类，继承的访问控制，公有继承，保护继承，私有继承，抽象类与纯虚函数，多级继承与多重继承，继承中的构造函数与析构函数，继承与组合的比较
阅读更多2024-12-14
【Python】使用Selenium的find_element模块获取网页上的大段文字和表格的方法（建议收藏！）
发现了一个使用Selenium的模块，快速获取文字和表格的方法，很实在，以后爬网的时候，就不用beautifulSoup 和 pandas的read_html 混起来用了！
阅读更多2024-12-14
3-机器人视觉-机器人抓取与操作
机器人视觉
阅读更多2024-12-14
【速览】设计模式（更新中）
1994 年，他们出版了《设计模式：可复用面向对象软件的基础》一书，将设计模式的概念应用到程序开发领域中。由于书名太长，人们将其简称为 “四人组（Gang of Four， GoF）的
阅读更多2024-12-14
苹果开发者入门：修复 SwiftUI 中“跑偏的”动画（下）
在本篇博文中，我们通过一个“小栗子”介绍了 SwiftUI 动画效果中潜在不尽如人意的地方，并深挖内在原因给出了简单的修复方案。
阅读更多2024-12-14
同态加密算法详解及Python实现
同态加密是一种特殊的加密技术，允许对密文直接进行运算，并保证运算结果解密后与对明文进行同样运算的结果一致。简单来说，同态加密让我们能够在数据加密的状态下直接进行计算，而无需解密数据。DEx⊕Eyx⊕y
阅读更多2024-12-14
112.【C语言】数据结构之排序(详解插入排序)
使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。
阅读更多2024-12-14
负载均衡oj项目：介绍
负载均衡oj是一个基于bs模式的项目。用户使用浏览器向oj模块提交代码，oj模块会在所有在线的后端主机中选择一个负载情况最低的主机，将用户的代码提交给该主机，该主机进行编译运行，将结果返回浏览器。该项
阅读更多2024-12-14
机器人通信：通信方式、协议、类型、场景
机器人通信是指机器人之间、机器人与人类或机器人与其他系统之间的信号传递和信息交换。其目的是实现协作、控制、监测和数据共享。
阅读更多2024-12-14