AI項目和框架
谷歌推出的評估大模型能力的基準測試
FACTS Grounding是谷歌DeepMind推出的評估大型語言模型(LLMs)能力的基準測試,衡量模型根據給定上下文生成事實準確且無捏造信息的文本的能力。FACTS Ground...
開源漫畫圖片文字翻譯工具,多語言翻譯無縫嵌入原圖
Manga Image Translator是開源的漫畫圖片文字翻譯工具,能一鍵翻譯漫畫和圖片中的文字。Manga Image Translator基于OCR技術識別文本,結合機器翻譯將文字轉換...
AI Safeguard聯合卡內基梅隆和斯坦福開源的輕量級多模態模型
Ivy-VL是AI Safeguard聯合卡內基梅隆大學和斯坦福大學推出的輕量級多模態AI模型,專為移動端和邊緣設備設計。模型擁有3B參數量,相較于其他多模態大模型,顯...
清華和騰訊共同推出的圖像序列著色模型
ColorFlow是清華大學和騰訊ARC實驗室共同推出的圖像序列著色模型,能精細化地保持圖像序列中個體身份的同時進行著色。基于檢索增強、上下文學習和超分辨率技...
AI工作流可視化構建器,拖放節點設計復雜工作流
NodeTool是開源的AI工作流可視化構建器。NodeTool集成廣泛的AI工具和模型,基于簡單、可視化的界面,讓用戶無需編碼即可快速原型設計和測試。NodeTool支持在...
中科院聯合多所高校機構推出增強多模態音樂生成的框架
VMB(Visuals Music Bridge)是中國科學院信息工程研究所、中國科學院大學網絡空間安全學院、上海人工智能實驗室、上海交通大學等機構推出的多模態音樂生成框...
微軟聯合清華推出的多模態生成模型
LatentLM是微軟研究院和清華大學共同推出的多模態生成模型,能統一處理離散數據(如文本)和連續數據(如圖像、音頻)。模型用變分自編碼器(VAE)將連續數據...
Lyra:提升多模態交互體驗的SmartMore創新解決方案
Lyra是香港中文大學、SmartMore和香港科技大學推出的高效多模態大型語言模型(MLLM),專注于提升語音、視覺和語言模態的交互能力。Lyra基于開源大型模型、多...
Large Action Models:微軟行動大模型開發框架助力高效智能應用構建與部署
Large Action Models(LAMs)是微軟推出大型行動模型的開發框架,能執行真實世界行動的智能系統,LAMs超越傳統LLMs(Large Language Models,大型語言模型)...
Meta 開源的圖像生成框架,精確控制人物的外觀和姿勢
Leffa(Learning Flow Fields in Attention)是 Meta AI推出的用在可控人物圖像生成框架,基于在注意力機制中引入流場學習,精確控制人物的外觀和姿勢。Leffa...
Apollo:Meta與斯坦福大學攜手推出創新多模態模型,實現圖像與文本的深度融合與理解
Apollo是Meta和斯坦福大學合作推出的大型多模態模型(LMMs),專注于視頻理解。Apollo基于系統研究,揭示視頻理解在LMMs中的關鍵驅動因素,推出“Scaling Cons...
BrushEdit:智能指令驅動的圖像編輯與修復框架全面提升創作效率與質量
BrushEdit是騰訊和北京大學等機構聯合推出的先進圖像編輯框架,是BrushNet模型的高級迭代版本。框架結合多模態大型語言模型(MLLMs)和雙分支圖像修復模型,...
博查推出的語義排序模型
Bocha Semantic Reranker是博查AI推出的語義排序模型,能提升搜索應用和RAG應用中的搜索結果準確性。Bocha Semantic Reranker模型基于文本語義,對初步排序的...
Veo 2:高分辨率4K視頻生成的先進AI模型,助力創意無限
Veo 2 是 Google DeepMind 推出的 AI 視頻生成模型,能根據文本或圖像提示生成高質量視頻內容。Veo 2支持高達 4K 分辨率的視頻制作,理解鏡頭控制指令,能模...