AI項目和框架

Zamba2-7B

Zamba2-7B是Zyphra公司推出的小型語言模型,基于創新的架構在保持輸出質量的同時實現快速的推理速度和低內存占用。模型在處理圖像描述等任務時表現出色,適合...
閱讀原文

PersonaTalk

PersonaTalk是字節跳動推出的基于注意力機制的兩階段框架,用在實現高保真度和個性化的視覺配音。PersonaTalk能在合成與目標音頻精準唇形同步的視頻的同時,...
閱讀原文

OpenSPG

OpenSPG是螞蟻集團聯合OpenKG社區推出的基于SPG框架的知識圖譜引擎。OpenSPG融合LPG的結構性和RDF的語義性,克服RDF/OWL語義復雜難以落地的問題,繼承LPG結構...
閱讀原文

LongVU

LongVU是Meta AI團隊推出的長視頻理解模型,基于時空自適應壓縮機制。解決處理長視頻時受限于大型語言模型(LLM)上下文大小的挑戰。LongVU基于跨模態查詢和...
閱讀原文

SynthID Text

SynthID Text 是谷歌DeepMind 推出的文本水印技術,用在識別和驗證由大型語言模型(LLM)生成的文本。基于細微調整生成過程中的Token概率分數嵌入幾乎無法察...
閱讀原文

Video-XL

Video-XL是北京智源人工智能研究院聯合上海交大、中國人民大學、中科院、北郵和北大的研究人員共同推出的專為小時級視頻理解設計的超長視覺理解模型。基于視...
閱讀原文

Embed3

Embed3是Cohere公司推出的行業領先的多模態AI搜索模型,能從文本和圖像生成嵌入向量,幫助企業快速準確地搜索復雜報告、產品目錄和設計文件等多模態資產。Emb...
閱讀原文

DriveDreamer4D

DriveDreamer4D是用在提升自動駕駛場景4D重建質量的框架,基于世界模型先驗增強4D駕駛場景的表示。框架能基于真實世界的駕駛數據合成新的軌跡視頻,用明確結...
閱讀原文

Animate-X

Animate-X是基于LDM的通用動畫框架,能將靜態圖像轉化為動態視頻,擅長處理擬人化角色。 通過引入姿勢指示器,增強了對運動模式的捕捉能力,包括隱式和顯式運...
閱讀原文

MarDini

MarDini是新型的視頻擴散模型,融合掩碼自回歸(MAR)和擴散模型(DM)的優勢,用在大規模視頻生成。模型能處理任意數量和位置的掩碼幀,支持視頻插值、圖像...
閱讀原文

SDXL-EcomID

SDXL-EcomID是阿里媽媽推出的開源項目,從單個參考圖像生成定制的個性圖像。融合PuLID和InstantID的優點,優化背景一致性、面部關鍵點控制和面部真實性,提高...
閱讀原文

DreamClear

DreamClear是中國科學院自動化研究所和字節跳動團隊聯合推出的高性能圖像修復技術,專注于隱私安全的數據集管理,能將低質量(LQ)圖像恢復為高質量(HQ)圖像。
閱讀原文

GitHub Spark

GitHub Spark是GitHub推出的AI編程工具,支持GPT-4o、Claude Sonnet 3.5等四款編程模型。用戶無需任何代碼和部署環境,基于自然語言描述需求,能在桌面或移動...
閱讀原文

SimpleQA

SimpleQA是OpenAI推出的基準測試,用在評估大型語言模型回答簡短、尋求事實問題的能力。SimpleQA包含4326個問題,每個問題設計為只有一個正確答案,易于評分”...
閱讀原文

VtripGPT

VtripGPT是視旅科技推出的專注于旅游領域的AI大模型,基于深度合成服務為旅游對話生成提供智能支持。模型基于Transformer架構,結合旅游行業數據和常規知識進...
閱讀原文