OpenAI干翻所有語音助手！GPT-4o模型實時語音視頻交互強到恐怖，完全免費開放

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：OpenAI干翻所有語音助手！GPT-4o模型實時語音視頻交互強到恐怖，完全免費開放
關鍵字：模型,解讀,用戶,語音,文本
文章來源：算法邦
內容字數：9473字

內容摘要：

智東西5月14日報道，今日凌晨1點，搶在谷歌年度開發者大會Google I/O開幕前，OpenAI舉辦春季線上直播，宣布將推出桌面版ChatGPT，并發布全新旗艦AI模型GPT-4o。
GPT-4o向所有人免費開放，可實時跨文本、音頻、視覺（圖像與視頻）進行推理，API定價只有GPT-4 Turbo的一半，速度達到GPT-4 Turbo的2倍。付費的ChatGPT Plus用戶將獲得5倍調用額度，并能最早訪問其全新macOS桌面App和下一代語音及視頻功能。這次OpenAI對AI機器人ChatGPT的升級依然“直擊人心”，實時語音翻譯能力自然流暢，感覺能直接取代同聲傳譯了。
不僅反應快、回答準，它還能按要求改變說話語氣，從冰冷機械到幽默嬌羞都信手拈來，而且能隨時高歌一曲，聽起來與真人無異。
除了語音外，GPT-4o可以進行實時視頻交互了！比如通過視頻影像理解線性方程，還學會了“看臉色行事”，能通過人的表情和語調理解并判斷出人的情緒。▲GPT-4o識別了視頻中的文字并作出嬌羞的反應
更有甚者，它能直接看你的屏幕，并根據看到的內容回答你的提問。比如當你展示一段代碼，它會進行理解并告

原文鏈接：OpenAI干翻所有語音助手！GPT-4o模型實時語音視頻交互強到恐怖，完全免費開放