Sora 團(tuán)隊(duì)負(fù)責(zé)人 Aditya Ramesh 對話謝賽寧丨壓縮一切!視覺與語言模態(tài)的融合?
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Sora 團(tuán)隊(duì)負(fù)責(zé)人 Aditya Ramesh 對話謝賽寧丨壓縮一切!視覺與語言模態(tài)的融合?
關(guān)鍵字:模型,圖像,文本,語言,政策
文章來源:大數(shù)據(jù)文摘
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自智源社區(qū)
2024 年 6 月 14 日,一年一度的智源大會又迎來重磅嘉賓。
當(dāng)紅視頻生成大模型「Sora」團(tuán)隊(duì)的負(fù)責(zé)人Aditya Ramesh在2024智源大會開幕式上發(fā)表了題為「Language as the Scaffolding for Visual Intelligence」的主旨演講。他介紹了生成式建模領(lǐng)域近年來的發(fā)展歷程以及未來的前進(jìn)方向,分享了 OpenAI 從研發(fā) DALL·E、iGPT、CLIP 到 Sora 的一次次研究指導(dǎo)思想的轉(zhuǎn)變,講述其團(tuán)隊(duì)為何一步步將生成式模型做向極致。站在人工智能 3.0 的拐點(diǎn),Aditya Ramesh 的寶貴經(jīng)驗(yàn)具有巨大的啟發(fā)意義。
下面是智源社區(qū)對 Aditya Ramesh 演講主要內(nèi)容的編譯:
大模型初探:DALL·E——擴(kuò)展模型規(guī)模的啟示
2021 年 2 月,我們發(fā)布了著名的「文生圖」人工智能系統(tǒng) DALL·E,它是一個(gè)同時(shí)使用文本和量化壓縮后的圖像以自回歸方式訓(xùn)練的 Transformer 模型。該系統(tǒng)可以將文字描述映射為量化的創(chuàng)作各種風(fēng)格的逼真圖像。之所以決定開展該項(xiàng)目,是因?yàn)槲覀兛吹绞褂?Tra
原文鏈接:Sora 團(tuán)隊(duì)負(fù)責(zé)人 Aditya Ramesh 對話謝賽寧丨壓縮一切!視覺與語言模態(tài)的融合?
聯(lián)系作者
文章來源:大數(shù)據(jù)文摘
作者微信:BigDataDigest
作者簡介:普及數(shù)據(jù)思維,傳播數(shù)據(jù)文化