AI項目和框架

GLM-4-Voice

GLM-4-Voice是智譜AI推出的端到端情感語音模型,能直接理解和生成中英文語音,支持實時語音對話,能根據(jù)用戶指令靈活調(diào)整語音的情感、語調(diào)、語速和方言等特征...
閱讀原文

Unbounded

Unbounded是谷歌和北卡羅來納大學教堂山分校共同推出的無限人生模擬游戲。游戲突破傳統(tǒng)視頻游戲的局限,用生成模型,如大型語言模型(LLM)和視覺生成模型,創(chuàng)...
閱讀原文

AutoGLM

AutoGLM是智譜AI團隊最新推出的 “Phone Use” AI智能體,基于圖形用戶界面(GUI)實現(xiàn)自主任務完成。AutoGLM能模擬人類在手機操作,執(zhí)行如社交媒體互動、在線...
閱讀原文

EveryoneNobel

EveryoneNobel是一個開源AI工具,為每個人生成個性化的諾貝爾獎風格圖像。EveryoneNobel基于ComfyUI框架,結合HTML模板和圖像生成技術,用戶只需上傳肖像照片...
閱讀原文

TextHarmony

TextHarmony是華東師范大學和字節(jié)跳動共同推出的多模態(tài)生成模型,擅長理解和生成視覺文本。模型基于Slide-LoRA技術,動態(tài)聚合特定于模態(tài)和模態(tài)無關的LoRA專家...
閱讀原文

BlinkShot

BlinkShot是實時AI圖像生成器,能迅速生成高質(zhì)量的圖像。用戶只需輸入提示,BlinkShot能在幾毫秒內(nèi)生成圖像。工具基于Together AI的Flux Schnell技術,支持自...
閱讀原文

NotebookLlama

NotebookLlama是Meta推出的將PDF文檔轉(zhuǎn)換成播客內(nèi)容的開源項目。項目基于一系列自動化步驟實現(xiàn),用LLaMa模型進行PDF預處理、生成播客腳本、增加戲劇化元素及...
閱讀原文

WonderWorld

WonderWorld是斯坦福大學和麻省理工學院共同推出的創(chuàng)新性3D場景生成框架,能從單張圖片快速生成多樣化且連貫的3D虛擬世界。基于核心的Fast LAyered Gaussian ...
閱讀原文

Meissonic

Meissonic是由阿里巴巴集團、Skywork AI等多所大學合作推出的文本到圖像合成模型。基于掩蔽圖像建模技術,結合多模態(tài)和單模態(tài)Transformer層、高級位置編碼策...
閱讀原文

Zamba2-7B

Zamba2-7B是Zyphra公司推出的小型語言模型,基于創(chuàng)新的架構在保持輸出質(zhì)量的同時實現(xiàn)快速的推理速度和低內(nèi)存占用。模型在處理圖像描述等任務時表現(xiàn)出色,適合...
閱讀原文

PersonaTalk

PersonaTalk是字節(jié)跳動推出的基于注意力機制的兩階段框架,用在實現(xiàn)高保真度和個性化的視覺配音。PersonaTalk能在合成與目標音頻精準唇形同步的視頻的同時,...
閱讀原文

OpenSPG

OpenSPG是螞蟻集團聯(lián)合OpenKG社區(qū)推出的基于SPG框架的知識圖譜引擎。OpenSPG融合LPG的結構性和RDF的語義性,克服RDF/OWL語義復雜難以落地的問題,繼承LPG結構...
閱讀原文

LongVU

LongVU是Meta AI團隊推出的長視頻理解模型,基于時空自適應壓縮機制。解決處理長視頻時受限于大型語言模型(LLM)上下文大小的挑戰(zhàn)。LongVU基于跨模態(tài)查詢和...
閱讀原文

SynthID Text

SynthID Text 是谷歌DeepMind 推出的文本水印技術,用在識別和驗證由大型語言模型(LLM)生成的文本。基于細微調(diào)整生成過程中的Token概率分數(shù)嵌入幾乎無法察...
閱讀原文

Video-XL

Video-XL是北京智源人工智能研究院聯(lián)合上海交大、中國人民大學、中科院、北郵和北大的研究人員共同推出的專為小時級視頻理解設計的超長視覺理解模型。基于視...
閱讀原文