中國(guó)的開(kāi)源版 sora:4090 內(nèi)單卡運(yùn)行,A6000 可微調(diào)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:中國(guó)的開(kāi)源版 sora:4090 內(nèi)單卡運(yùn)行,A6000 可微調(diào)
關(guān)鍵字:視頻,模型,報(bào)告,字幕,數(shù)據(jù)
文章來(lái)源:AI科技評(píng)論
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
智譜版 Sora「清影」正式開(kāi)源,第一個(gè)開(kāi)源的商用級(jí)視頻生成模型。7 月 26 日,智譜發(fā)布AI 生視頻產(chǎn)品「清影」,30秒將任意文圖生成視頻,并上線在他們的AI助手「智譜清言」上,被譽(yù)為是國(guó)內(nèi)首個(gè)人人可用的Sora。發(fā)布 6 天,「清影」生成視頻數(shù)就突破百萬(wàn)量級(jí)。
今天,智譜AI宣布將與「清影」同源的視頻生成模型——CogVideoX開(kāi)源,以期讓每一位開(kāi)發(fā)者、每一家企業(yè)都能地開(kāi)發(fā)屬于自己的視頻生成模型,從而推動(dòng)整個(gè)行業(yè)的快速迭代與創(chuàng)新發(fā)展。
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來(lái)格局。然而,截至目前,仍未有一個(gè)開(kāi)源的視頻生成模型,能夠滿足商業(yè)級(jí)應(yīng)用的要求。
CogVideoX開(kāi)源模型包含多個(gè)不同尺寸大小的模型,目前智譜開(kāi)源CogVideoX-2B,它在FP-16精度下的推理僅需18GB顯存,微調(diào)則只需要40GB顯存,這意味著單張4090顯卡即可進(jìn)行推理,而單張A6000顯卡即可完成微調(diào)。
CogVideoX-2B的提示詞上限為226個(gè)token,視頻長(zhǎng)度為6秒,幀率為8幀/秒,視頻分辨率
原文鏈接:中國(guó)的開(kāi)源版 sora:4090 內(nèi)單卡運(yùn)行,A6000 可微調(diào)
聯(lián)系作者
文章來(lái)源:AI科技評(píng)論
作者微信:
作者簡(jiǎn)介: