國內首個原生融合多模態大模型。
原標題:原生融合多模態上的突破,讓商湯大模型打破Scaling Laws撞墻「魔咒」
文章來源:機器之心
內容字數:7805字
AI大模型發展瓶頸與多模態融合的未來
1. **大模型發展瓶頸:** 文章指出,大型語言模型(LLM)的發展似乎遇到了瓶頸。GPT-5的發布延遲以及其他公司類似的困境表明,訓練成本高昂(數千萬美元),訓練時間漫長(數月),GPU和電力資源不足,以及可訪問數據逐漸枯竭,都成為了阻礙。OpenAI前首席科學家Ilya Sutskever也表示,找到正確的擴展方向至關重要。
2. **多模態大模型的興起:** 谷歌Gemini 1.5 Pro超越GPT-4o,標志著大模型競賽的“逆襲”。多模態大模型成為新的發展方向,它能夠處理多種類型的信息(文本、圖像、語音、視頻),并具備強大的多模態推理和跨模態遷移能力。這被認為是AI未來發展的必由之路,因為只有讓機器擁有對物理世界多維度信息的感知,才能發展出類似人類的分析判斷能力。
3. **商湯“日日新”融合大模型的突破:** 商湯科技發布的“日日新”融合大模型實現了原生融合模態訓練的突破,打破了大語言模型和多模態模型分立的局面。其交互版SenseNova-5o支持實時音視頻對話,擁有良好的記憶力,并能處理多種模態的輸入和輸出,拓展了新的應用場景,例如教育輔助。
4. **“日日新”模型的優勢及測試:** 文章通過實際測試,展示了“日日新”模型在理解圖片含義、解答數學題、分析圖表等方面的能力。它能夠識別并理解圖片中的幽默和文化背景,并具備強大的邏輯推理能力。此外,SenseNova-5o的響應速度快,交互流暢自然。
5. **“日日新”模型的商業化及成本優勢:** 商湯“日日新”融合大模型已開放API調用,SenseNova-5o也面向視覺交互場景開放商用。值得關注的是,與分別訓練語言大模型和多模態模型相比,訓練“日日新”的成本降低了40%。
6. **AI擴展定律及未來展望:** 文章認為,當前基于互聯網數據預訓練的方法很快會到達瓶頸,但真實世界的數據量遠大于互聯網數據。開發結合多模態的AI模型,才能更好地利用這些數據。商湯“日日新”模型的成功,為AI未來的發展帶來了前所未有的想象空間,例如空間結構輸入、機器人與LLM的結合等。
7. **中國AI發展的機遇:** 文章最后提到,中國在AI領域的快速發展,以及龐大的產業體系和需求,正在成為驅動AI發展的決定性力量。商湯科技在模型算法、算力、行業經驗和工程落地能力等方面具備優勢,其多模態大模型已落地在多個場景。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺