OpenAI 发布 Realtime API 三款新语音模型

OpenAI 在 Realtime API 中推出三款新模型，旨在提升语音应用的推理能力与实时交互体验。

GPT-Realtime-2 是旗舰级语音交互模型，支持实时语音对话，可同时处理文本和音频输入输出。输入定价为每百万 token 32 美元，输出定价为每百万 token 64 美元，与上一代 gpt-realtime 定价持平。

GPT-Realtime-Translate 是全新的实时语音翻译模型，能够以接近说话者语速进行实时翻译，支持多语种场景。按分钟计费，单价为每分钟 0.034 美元（约合每秒 0.00057 美元）。

GPT-Realtime-Whisper 是新的流式语音转文本模型，可在说话过程中实时转录语音，适用于会议记录、字幕生成等场景。按分钟计费，单价为每分钟 0.017 美元（约合每秒 0.00028 美元）。

三款模型均通过 Realtime API 提供服务，开发者可使用 WebRTC、WebSocket 或 SIP 协议接入。此前 OpenAI 已于 2025 年 8 月发布 gpt-realtime 并将 Realtime API 转为正式版本（GA），支持 MCP 服务器、图片输入和 SIP 电话等功能。

来源：OpenAI Blog