AI項目和框架

Stream-Omni

Stream-Omni是中國科學院計算技術(shù)研究所智能信息處理重點實驗室、中國科學院人工智能安全重點實驗室及中國科學院大學聯(lián)合推出的類似GPT-4o的大型語言視覺語音...
閱讀原文

OneRec

OneRec 是快手推出的新型端到端生成式推薦系統(tǒng)。采用編碼器-解碼器架構(gòu),通過稀疏 Mixture-of-Experts(MoE)技術(shù)提升模型容量,保持高效的計算性能。與傳統(tǒng)...
閱讀原文

Kimi-Researcher

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主強化學習(end-to-end agentic RL)技術(shù)訓練的新一代 Agent 模型,專為深度研究任務(wù)而設(shè)計。能...
閱讀原文

Self Forcing

Self Forcing 是 Adobe Research 與德克薩斯大學奧斯汀分校聯(lián)合推出的新型自回歸視頻生成算法,解決傳統(tǒng)生成模型在訓練與測試時的暴露偏差問題。通過在訓練階...
閱讀原文

SongGeneration

SongGeneration是騰訊AI Lab推出的AI音樂生成大模型。模型支持解決音樂AIGC領(lǐng)域中的音質(zhì)、音樂性與生成速度等關(guān)鍵問題,SongGeneration基于LLM-DiT融合架構(gòu),...
閱讀原文

Skywork-SWE-32B

Skywork-SWE-32B是昆侖萬維開源的32B規(guī)模的軟件工程(SWE)自主代碼智能體基座模型。模型專注于軟件工程任務(wù),特別是倉庫級代碼修復(fù)能力,能在多輪交互和長文...
閱讀原文

Office-PowerPoint-MCP-Server

Office-PowerPoint-MCP-Server 是基于 Model Context Protocol(MCP)的開源工具,專門用在演示文稿的自動化創(chuàng)建和編輯。工具基于 python-pptx 庫實現(xiàn)對 Powe...
閱讀原文

MeWM

MeWM(Medical World Model)是創(chuàng)新的醫(yī)學模型,由香港科技大學(廣州)等機構(gòu)提出,通過模擬疾病動態(tài)來輔助臨床決策。由策略模型、動態(tài)模型和逆向動態(tài)模型組...
閱讀原文

EX-4D

EX-4D是字節(jié)跳動(ByteDance)旗下Pico團隊推出的新型4D視頻生成框架,能從單目視頻輸入生成極端視角下的高質(zhì)量4D視頻。框架基于獨特的深度防水網(wǎng)格(DW-Mesh...
閱讀原文

LinGen

LinGen是普林斯頓大學和Meta共同推出的新型文本到視頻生成框架。框架基于線性復(fù)雜度的MATE模塊(包含MA-branch和TE-branch),替換傳統(tǒng)Diffusion Transformer...
閱讀原文

Midjourney V1

Midjourney V1 是 Midjourney 公司推出的首個AI視頻生成模型。支持用戶將靜態(tài)圖像轉(zhuǎn)化為動態(tài)視頻。用戶上傳圖片或在 Midjourney 中生成圖片基于“Animate”按鈕...
閱讀原文

EmbodiedGen

EmbodiedGen 是用于具身智能(Embodied AI)應(yīng)用的生成式 3D 世界引擎和工具包。能快速生成高質(zhì)量、低成本且物理屬性合理的 3D 資產(chǎn)和交互環(huán)境,幫助研究人員...
閱讀原文

SurveyForge

SurveyForge是上海AI Lab聯(lián)合復(fù)旦大學、上海交通大學等機構(gòu)推出的創(chuàng)新框架,用在自動化生成高質(zhì)量學術(shù)綜述。框架基于兩階段設(shè)計,大綱生成和內(nèi)容生成。在大綱...
閱讀原文

Hailuo 02

Hailuo 02 是 MiniMax 公司推出的全新AI視頻生成模型,是Hailuo 01的升級版本。這個模型目前在圖生視頻、文生視頻的榜單位于第二,超越快手的可靈以及谷歌的V...
閱讀原文

LeVo

LeVo是騰訊AI實驗室推出的AI唱歌模型,具備強大的音色克隆能力,僅需3秒音頻即可精準復(fù)制目標音色,包括音調(diào)、情感和韻律,無需大量訓練數(shù)據(jù)。LeVo支持分軌生...
閱讀原文
11920212223146