AI項目和框架

Ditto

Ditto是基于Flask的應(yīng)用程序生成器,用戶基于簡單的自然語言描述創(chuàng)建多文件的Web應(yīng)用程序。工具用一個簡單的LLM循環(huán)和一些輔助工具自動化編碼過程,將用戶的...
閱讀原文

Flux.1 Lite

Flux.1 Lite是Freepik團隊推出的輕量級AI模型,目前處于alpha版本。Flux.1 Lite是基于80億參數(shù)的transformer架構(gòu),從FLUX.1-dev模型中提取而來。Flux.1 Lite...
閱讀原文

Phidata

Phidata是開源的AI智能體框架,幫助開發(fā)者構(gòu)建具有記憶、知識、工具和推理能力的智能代理系統(tǒng)。支持創(chuàng)建能夠協(xié)同工作的代理團隊,提供用戶界面實現(xiàn)與代理的交...
閱讀原文

Allegro

Allegro是由Rhymes AI推出的先進的文本到視頻生成模型,能將簡單的文本輸入轉(zhuǎn)換成高達720p分辨率、每秒15幀、長度達6秒的高質(zhì)量視頻內(nèi)容。模型在視頻生成領(lǐng)域...
閱讀原文

FakeShield

FakeShield是北京大學(xué)研究人員推出的多模態(tài)大型語言模型框架,能檢測和定位圖像偽造??蚣苣茉u估圖像的真實性,生成被篡改區(qū)域的掩碼,提供基于像素級和圖像...
閱讀原文

MaskGCT

MaskGCT是趣丸科技與香港中文大學(xué)(深圳)合作推出的語音合成大模型,基于掩碼生成模型與語音表征解耦編碼的技術(shù),實現(xiàn)在聲音克隆、跨語種合成、語音控制等任...
閱讀原文

GLM-4-Voice

GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據(jù)用戶指令靈活調(diào)整語音的情感、語調(diào)、語速和方言等特征...
閱讀原文

Unbounded

Unbounded是谷歌和北卡羅來納大學(xué)教堂山分校共同推出的無限人生模擬游戲。游戲突破傳統(tǒng)視頻游戲的局限,用生成模型,如大型語言模型(LLM)和視覺生成模型,創(chuàng)...
閱讀原文

AutoGLM

AutoGLM是智譜AI團隊最新推出的 “Phone Use” AI智能體,基于圖形用戶界面(GUI)實現(xiàn)自主任務(wù)完成。AutoGLM能模擬人類在手機操作,執(zhí)行如社交媒體互動、在線...
閱讀原文

EveryoneNobel

EveryoneNobel是一個開源AI工具,為每個人生成個性化的諾貝爾獎風(fēng)格圖像。EveryoneNobel基于ComfyUI框架,結(jié)合HTML模板和圖像生成技術(shù),用戶只需上傳肖像照片...
閱讀原文

TextHarmony

TextHarmony是華東師范大學(xué)和字節(jié)跳動共同推出的多模態(tài)生成模型,擅長理解和生成視覺文本。模型基于Slide-LoRA技術(shù),動態(tài)聚合特定于模態(tài)和模態(tài)無關(guān)的LoRA專家...
閱讀原文

BlinkShot

BlinkShot是實時AI圖像生成器,能迅速生成高質(zhì)量的圖像。用戶只需輸入提示,BlinkShot能在幾毫秒內(nèi)生成圖像。工具基于Together AI的Flux Schnell技術(shù),支持自...
閱讀原文

NotebookLlama

NotebookLlama是Meta推出的將PDF文檔轉(zhuǎn)換成播客內(nèi)容的開源項目。項目基于一系列自動化步驟實現(xiàn),用LLaMa模型進行PDF預(yù)處理、生成播客腳本、增加戲劇化元素及...
閱讀原文

WonderWorld

WonderWorld是斯坦福大學(xué)和麻省理工學(xué)院共同推出的創(chuàng)新性3D場景生成框架,能從單張圖片快速生成多樣化且連貫的3D虛擬世界?;诤诵牡腇ast LAyered Gaussian ...
閱讀原文

Meissonic

Meissonic是由阿里巴巴集團、Skywork AI等多所大學(xué)合作推出的文本到圖像合成模型。基于掩蔽圖像建模技術(shù),結(jié)合多模態(tài)和單模態(tài)Transformer層、高級位置編碼策...
閱讀原文