AI項目和框架
LazyGraphRAG:圖形增強生成檢索框架助力高效視覺搜索與內容生成
LazyGraphRAG是微軟研究院推出的圖形增強生成增強檢索(RAG)框架,是GraphRAG的迭代版本。LazyGraphRAG在數據索引成本上大幅降低,是GraphRAG的0.1%,同時用...
LEOPARD:騰訊AI Lab推出的視覺語言模型賦能多模態理解與生成
LEOPARD是騰訊AI Lab西雅圖實驗室推出的視覺語言模型,專為理解和處理含有大量文本的多圖像任務設計。LEOPARD基于兩個主要技術創新:一是策劃約一百萬條專門...
書生InternThinker:突破性強推理模型助力智能決策與復雜問題解決
書生InternThinker是上海人工智能實驗室推出的強推理模型,具備自主生成高智力密度數據和元動作思考能力。基于長思維能力和自我反思、糾正機制,在數學、代碼...
Pangea:多語言多模態大語言模型的創新特性與應用前景
Pangea是卡內基梅隆大學團隊推出的多語言多模態大型語言模型(LLM),能提升全球語言和文化多樣性的覆蓋。模型包含600萬條指令的多樣化數據集,支持39種語言...
Windsurf:智能編碼助手提升編程效率與協作能力
Windsurf 是Codeium公司推出的AI編程工具,具備實時協作功能,支持多系統,提供了強大的上下文感知能力。Windsurf融合了協作式 Copilots 和獨立操作的 Agents...
LTX Video:Lightricks推出開源AI視頻生成模型,輕松創建高質量視頻內容
LTX Video是Lightricks推出的開源AI視頻生成模型,能在4秒內生成5秒的高質量視頻,速度超過觀看速度。基于2億參數的DiT架構,確保幀間平滑運動和結構一致性,...
EvolveDirector:阿里與南洋理工攜手開發高效文本到圖像生成模型技術
EvolveDirector是阿里巴巴和南洋理工大學聯合推出的創新框架,用公開資源和高級模型的API接口訓練一個高性能的文本到圖像生成模型。框架基于與現有高級模型的...
Kandinsky-3:靈活適應多種圖像生成任務的開源文本到圖像生成框架
Kandinsky-3是基于潛在擴散模型的文本到圖像(T2I)生成框架,以高質量和逼真度在圖像合成領域脫穎而出。Kandinsky-3能適應多種圖像生成任務,包括文本引導的...
CAVIA:多視角視頻生成框架打造沉浸式視覺體驗
CAVIA是蘋果公司、得克薩斯大學奧斯汀分校、谷歌聯合推出的多視角視頻生成框架,能將單一輸入圖像轉換成多個時空一致的視頻序列。框架基于引入視角集成注意力...
Flex3D:創新的雙階段3D生成框架推動虛擬內容創作的新時代
Flex3D是由Meta的GenAI團隊和牛津大學研究團隊推出的創新的兩階段3D生成框架,能基于任意數量的高質量輸入視圖,解決從文本、單張圖片或稀疏視圖圖像生成高質...
StoryTeller:全自動長視頻描述生成系統提升內容創作效率與質量
StoryTeller是字節跳動、上海交通大學和北京大學共同推出的系統,能基于音頻視覺角色識別技術改善長視頻描述的質量和一致性。系統結合低級視覺概念和高級劇情...
DELIFT:數據驅動的高效語言模型指令微調技術提升智能交互體驗
DELIFT(Data Efficient Language model Instruction Fine-Tuning)是新型算法,用在優化大型語言模型(LLMs)在指令調優、任務特定微調和持續微調三個關鍵階...
HART:自回歸視覺生成模型推動圖像生成的創新與精準
HART(Hybrid Autoregressive Transformer)是麻省理工學院研究團隊推出的自回歸視覺生成模型。能直接生成1024×1024像素的高分辨率圖像,質量媲美擴散模型。H...
WebDreamer:利用大語言模型提升網絡規劃效率的創新框架
WebDreamer是俄亥俄州立大學和Orby AI研究團隊推出的基于模型規劃的網絡智能體,基于大型語言模型(LLMs),特別是GPT-4o,作為世界模型預測網站上的交互結果...
BALROG:評估大型語言模型與視覺語言模型在復雜動態環境中推理能力的基準測試工具
BALROG是評估大型語言模型(LLMs)和視覺語言模型(VLMs)在游戲上的推理能力,特別是模型在動態環境中的規劃、空間推理和探索能力。基于一系列挑戰性的游戲...