欧易okx交易所官网

全球著名的数字资产交易平台。

上欧易,10元买比特币，新用户注册，领取盲盒奖励

OpenAI发布三款全新语音模型，支持开发语音AI Agent

2025-03-21 okx交易所

今天凌晨1点，OpenAI通过技术直播发布了三款全新语音模型，专门用于开发语音AI Agent。这些模型包括两个语音转文本模型：GPT-40 Transcribe和GPT-4 Mini Transcribe，以及一个文本转语音模型GPT-40 Mini TTS。这一发布为开发者提供了更强大的工具，使得语音交互和语音处理在应用开发中变得更加高效和灵活。

GPT-40 Transcribe和GPT-4 Mini Transcribe是OpenAI推出的语音转文本模型，它们支持高质量的语音识别，可以将语音信息转换为准确的文本。这些模型对于各种需要语音识别的场景，例如自动化的语音转写、语音命令识别等应用，具有非常大的价值。此外，GPT-4 Mini Transcribe在保持较高的准确性的同时，提供了更高效的性能表现，适合对实时性和处理速度有更高要求的开发者。

另一款引人注目的新模型是GPT-40 Mini TTS，这是一款文本转语音模型。与传统的语音合成技术不同，GPT-40 Mini TTS支持开发者控制语音的情绪和风格。这意味着开发者可以根据具体应用场景，定制语音的语气、音调和情感表达，使得语音交互更加生动和人性化。对于需要个性化语音体验的产品，GPT-40 Mini TTS将大大提升用户的沉浸感和互动体验。

此外，OpenAI还为其语音转文本API增添了强大的streaming模式，使得开发者可以将连续的音频流实时输入模型，模型也能够实时返回连续的文本和响应。这一新特性为开发实时语音对话系统、语音会议转写等需要即时反馈的应用场景提供了强有力的支持。通过这种实时交互功能，开发者能够创建更加高效、准确且灵活的语音应用，满足用户对实时性和高质量输出的需求。

OpenAI的新语音模型发布不仅扩展了其人工智能领域的能力，也为开发者在语音交互应用的构建中提供了更多的创作空间。无论是在语音识别、语音生成还是实时交互领域，这些模型都为创新性应用的开发提供了强大的技术支持。随着这些工具的普及，语音AI Agent的应用前景将变得更加广阔，未来可能会在更多行业中得到应用。