Universal-1的主要特点
1、多语种支持:Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言,并且针对这些语言进行了优化,以提高语音识别的准确性。
2、高准确率:在不同条件下,如背景噪音、口音多样性、自然对话和语言变化等,Universal-1都能保持出色的语音到文本的转换准确率。
3、减少幻觉率:与Whisper Large-v3相比, Universal-1将语音数据的幻觉率降低了 30%,即减少了模型在没有声音输入的情况下错误生成文本的情况。
4、快速响应:Universal-1设计了高效的并行推理能力,能够快速处理长音频文件,提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
5、精确的时间戳估计:模型能够提供精确到单词级别的时间戳,这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
6、用户偏好:在用户偏好测试中,用户71%的时间更倾向于Universal-1的输出,表明其在实际使用中更能满足用户的需求。
Universal-1 ASR 模型利用新兴的自监督学习框架,在大量未标记的多语言音频数据以及大规模标记数据集上进行了训练。如图所示,编码器首先基于未标记的数据进行预训练,在各种声学和语言条件下对模型进行预处理。然后,添加一个随机初始化的解码器,对整个网络进行端到端微调以执行 ASR。
Universal-1的性能对比
英语语音转文字准确性:Universal-1在11个数据集中的5个数据集中实现了最低的词错误率(WER),与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
非英语语音转文字准确性:在西班牙语、法语和德语的测试中,Universal-1在15个数据集中的5个上WER更低,显示了其在这些语言上的竞争力。
时间戳准确性:Universal-1在时间戳准确性方面,相比于Whisper Large-v3,将预测时间戳在100毫秒内的单词比例提高了25.5%,从67.2%提升到84.3%。
推理效率:在NVIDIA Tesla T4机器上,Universal-1在没有并行化的情况下比更快的whisper后端快3倍,且在64个并行化推理时,仅需21秒即可转录1小时的音频。
幻觉减少:Universal-1相比于Whisper Large-v3,在转录音频时的幻觉率降低了30%。
人类偏好测试:在人类偏好测试中,评估者在60%的情况下更倾向于Universal-1的输出,而Conformer-2只有24%。
Universal-1的应用场景
1、对话智能平台:能够快速、准确地分析大量客户数据,提供关键的客户声音洞察和分析,无论口音、录音条件或说话人数如何。
2、AI记事本:生成高度准确、无幻觉的会议记录,为基于大型语言模型的摘要、行动项和其他元数据生成提供基础,包括准确的专有名词、发言者和时间信息。
3、创作者工具:为最终用户构建AI驱动的视频编辑工作流程,利用多种语言的精确语音转文字输出,低错误率和可靠的单词时间信息。
4、远程医疗平台