Vidu1.5 已拉開技術代差。
原標題:視覺模型智能涌現后, Scaling Law 不會到頭
文章來源:AI科技評論
內容字數:9375字
Vidu1.5的技術突破與Scaling Law的挑戰
在自然語言處理領域,Scaling Law已經顯示出其局限性,單純依賴模型規模和數據量的提升已不再有效。而在多模態模型領域,Vidu1.5的發布則標志著這一領域的Scaling Law才剛剛起步,展示了更強的上下文能力和多主體一致性。
1. Vidu1.5的創新特性
Vidu1.5在多模態生成中展示了顯著的技術進步,能夠通過上傳不同角度的圖片,實現單主體形象的高度一致性。同時,Vidu在多主體控制方面的突破使得用戶可以自然融合不同元素,提升了視頻生成的質量。
2. 無微調的大一統架構
Vidu采用無微調的大一統技術架構,突破了傳統視頻模型的微調方案。這一架構的設計相當于重新構建了發動機,解決了視頻生成中主體一致性的問題。與此相比,其他模型仍停留在預訓練調的階段。Vidu的設計哲學與大語言模型的發展路徑相似,強調通用性和統一性。
3. 上下文能力的提升
Vidu1.5在上下文能力上也取得了顯著進展,能夠理解并生成多主體之間的連貫內容。這種能力的提升使得模型在處理復雜場景時更加靈活,允許用戶輸入更長的上下文信息,從而生成更具合邏輯和一致性的視頻內容。
4. 行業競爭與未來方向
盡管生數科技面臨來自大廠的競爭壓力,但其明確的目標和持續的技術創新使其在多模態模型領域保持領先。未來,生數計劃繼續拓展其技術邊界,包括4D模型和音頻的整合,力求在通用多模態大模型上取得更大突破。
總的來說,Vidu1.5的發布不僅展示了多模態生成的新高度,也為未來的技術創新奠定了基礎,預示著視頻模型的發展將迎來新的機遇。
聯系作者
文章來源:AI科技評論
作者微信:
作者簡介:雷峰網旗下AI新媒體。聚焦AI前沿研究,關注AI工程落地。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...