從零開(kāi)始，用英偉達(dá)T4、A10訓(xùn)練小型文生視頻模型，幾小時(shí)搞定

AIGC動(dòng)態(tài)11個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：從零開(kāi)始，用英偉達(dá)T4、A10訓(xùn)練小型文生視頻模型，幾小時(shí)搞定
關(guān)鍵字：數(shù)據(jù),模型,圖像,視頻,生成器
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

選自 levelup.gitconnected
作者：Fareed Khan
機(jī)器之心編譯
編輯：杜偉、大盤(pán)雞很翔實(shí)的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及許多其他已經(jīng)發(fā)布或未來(lái)將出現(xiàn)的文本生成視頻模型，是繼大語(yǔ)言模型 (LLM) 之后 2024 年最流行的 AI 趨勢(shì)之一。
在這篇博客中，作者將展示如何將從頭開(kāi)始構(gòu)建一個(gè)小規(guī)模的文本生成視頻模型，涵蓋了從理解理論概念、到編寫(xiě)整個(gè)架構(gòu)再到生成最終結(jié)果的所有內(nèi)容。
由于作者沒(méi)有大算力的 GPU，所以?xún)H編寫(xiě)了小規(guī)模架構(gòu)。以下是在不同處理器上訓(xùn)練模型所需時(shí)間的比較。作者表示，在 CPU 上運(yùn)行顯然需要更長(zhǎng)的時(shí)間來(lái)訓(xùn)練模型。如果你需要快速測(cè)試代碼中的更改并查看結(jié)果，CPU 不是最佳選擇。因此建議使用 Colab 或 Kaggle 的 T4 GPU 進(jìn)行更高效、更快速的訓(xùn)練。
構(gòu)建目標(biāo)
我們采用了與傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型類(lèi)似的方法，即在數(shù)據(jù)集上進(jìn)行訓(xùn)練，然后在未見(jiàn)過(guò)數(shù)據(jù)上進(jìn)行測(cè)試。在文本轉(zhuǎn)視頻的背景下，假設(shè)有一個(gè)包含 10 萬(wàn)個(gè)狗撿球和貓追老鼠視頻的訓(xùn)練數(shù)據(jù)集，然

原文鏈接：從零開(kāi)始，用英偉達(dá)T4、A10訓(xùn)練小型文生視頻模型，幾小時(shí)搞定