OpenAI 发布 Realtime API 三款新语音模型

OpenAI 在 Realtime API 中推出三款新模型,旨在提升语音应用的推理能力与实时交互体验。

GPT-Realtime-2 是旗舰级语音交互模型,支持实时语音对话,可同时处理文本和音频输入输出。输入定价为每百万 token 32 美元,输出定价为每百万 token 64 美元,与上一代 gpt-realtime 定价持平。

GPT-Realtime-Translate 是全新的实时语音翻译模型,能够以接近说话者语速进行实时翻译,支持多语种场景。按分钟计费,单价为每分钟 0.034 美元(约合每秒 0.00057 美元)。

GPT-Realtime-Whisper 是新的流式语音转文本模型,可在说话过程中实时转录语音,适用于会议记录、字幕生成等场景。按分钟计费,单价为每分钟 0.017 美元(约合每秒 0.00028 美元)。

三款模型均通过 Realtime API 提供服务,开发者可使用 WebRTC、WebSocket 或 SIP 协议接入。此前 OpenAI 已于 2025 年 8 月发布 gpt-realtime 并将 Realtime API 转为正式版本(GA),支持 MCP 服务器、图片输入和 SIP 电话等功能。

来源:OpenAI Blog

相关推荐