AI項目和框架

OmniParser

OmniParser是微軟研究院推出的屏幕解析工具,將用戶界面的屏幕截圖轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。工具專門設(shè)計用在提高基于大型語言模型(如GPT-4V)的UI代理系統(tǒng)的性能...
閱讀原文

Ditto

Ditto是基于Flask的應(yīng)用程序生成器,用戶基于簡單的自然語言描述創(chuàng)建多文件的Web應(yīng)用程序。工具用一個簡單的LLM循環(huán)和一些輔助工具自動化編碼過程,將用戶的...
閱讀原文

Flux.1 Lite

Flux.1 Lite是Freepik團(tuán)隊推出的輕量級AI模型,目前處于alpha版本。Flux.1 Lite是基于80億參數(shù)的transformer架構(gòu),從FLUX.1-dev模型中提取而來。Flux.1 Lite...
閱讀原文

Phidata

Phidata是開源的AI智能體框架,幫助開發(fā)者構(gòu)建具有記憶、知識、工具和推理能力的智能代理系統(tǒng)。支持創(chuàng)建能夠協(xié)同工作的代理團(tuán)隊,提供用戶界面實(shí)現(xiàn)與代理的交...
閱讀原文

Allegro

Allegro是由Rhymes AI推出的先進(jìn)的文本到視頻生成模型,能將簡單的文本輸入轉(zhuǎn)換成高達(dá)720p分辨率、每秒15幀、長度達(dá)6秒的高質(zhì)量視頻內(nèi)容。模型在視頻生成領(lǐng)域...
閱讀原文

FakeShield

FakeShield是北京大學(xué)研究人員推出的多模態(tài)大型語言模型框架,能檢測和定位圖像偽造。框架能評估圖像的真實(shí)性,生成被篡改區(qū)域的掩碼,提供基于像素級和圖像...
閱讀原文

MaskGCT

MaskGCT是趣丸科技與香港中文大學(xué)(深圳)合作推出的語音合成大模型,基于掩碼生成模型與語音表征解耦編碼的技術(shù),實(shí)現(xiàn)在聲音克隆、跨語種合成、語音控制等任...
閱讀原文

GLM-4-Voice

GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實(shí)時語音對話,能根據(jù)用戶指令靈活調(diào)整語音的情感、語調(diào)、語速和方言等特征...
閱讀原文

Unbounded

Unbounded是谷歌和北卡羅來納大學(xué)教堂山分校共同推出的無限人生模擬游戲。游戲突破傳統(tǒng)視頻游戲的局限,用生成模型,如大型語言模型(LLM)和視覺生成模型,創(chuàng)...
閱讀原文

AutoGLM

AutoGLM是智譜AI團(tuán)隊最新推出的 “Phone Use” AI智能體,基于圖形用戶界面(GUI)實(shí)現(xiàn)自主任務(wù)完成。AutoGLM能模擬人類在手機(jī)操作,執(zhí)行如社交媒體互動、在線...
閱讀原文

EveryoneNobel

EveryoneNobel是一個開源AI工具,為每個人生成個性化的諾貝爾獎風(fēng)格圖像。EveryoneNobel基于ComfyUI框架,結(jié)合HTML模板和圖像生成技術(shù),用戶只需上傳肖像照片...
閱讀原文

TextHarmony

TextHarmony是華東師范大學(xué)和字節(jié)跳動共同推出的多模態(tài)生成模型,擅長理解和生成視覺文本。模型基于Slide-LoRA技術(shù),動態(tài)聚合特定于模態(tài)和模態(tài)無關(guān)的LoRA專家...
閱讀原文

BlinkShot

BlinkShot是實(shí)時AI圖像生成器,能迅速生成高質(zhì)量的圖像。用戶只需輸入提示,BlinkShot能在幾毫秒內(nèi)生成圖像。工具基于Together AI的Flux Schnell技術(shù),支持自...
閱讀原文

NotebookLlama

NotebookLlama是Meta推出的將PDF文檔轉(zhuǎn)換成播客內(nèi)容的開源項目。項目基于一系列自動化步驟實(shí)現(xiàn),用LLaMa模型進(jìn)行PDF預(yù)處理、生成播客腳本、增加戲劇化元素及...
閱讀原文

WonderWorld

WonderWorld是斯坦福大學(xué)和麻省理工學(xué)院共同推出的創(chuàng)新性3D場景生成框架,能從單張圖片快速生成多樣化且連貫的3D虛擬世界。基于核心的Fast LAyered Gaussian ...
閱讀原文