AI項目和框架
Sketch2Lineart:將手繪草圖瞬間轉化為精美線條畫的智能工具
Sketch2Lineart是基于人工智能的繪畫工具,能將簡單的手繪草圖轉換成清晰的線條畫。通過自動生成草圖描述并據此繪制線條畫,支持調整細節適應不同風格。用戶...
Fancy123:創新3D網格生成技術實現高效建模與精準細節捕捉
Fancy123是華中科技大學和華南理工大學推出的3D網格生成技術,基于即插即用的變形技術從單張圖片生成高質量的3D網格。該方法包含兩個增強模塊和反投影操作,...
Mooncake:創新推理架構推動大模型智能應用的新時代
Mooncake是月之暗面Kimi聯合清華大學等機構共同開源的大模型推理架構。采用以KVCache為中心的分布式架構,通過分離預填充和解碼集群,充分利用GPU集群中未充...
QwQ-32B-Preview:超越O1模型的阿里開源AI推理產品實現高效精準的智能決策
QwQ-32B-Preview(QwQ-32B)是阿里巴巴開源的實驗性研究AI模型,以強大的推理能力著稱,尤其在數學和編程領域表現卓越。QwQ-32B-Preview包含325億參數,能處...
InfiMM-WebMath-40B:超大規模多模態數據集驅動智能應用的全新可能性
InfiMM-WebMath-40B 是字節跳動和中國科學院聯合開源的超大規模多模態數據集,旨在提升多模態模型的圖文混合推理能力,在數學領域。數據集從 Common Crawl 中...
OneDiffusion:雙向圖像合成與理解的無縫擴散模型創新解決方案
OneDiffusion是AI2推出的多功能大規模擴散模型,能無縫支持雙向圖像合成和理解,涵蓋文本到圖像生成、條件圖像生成、圖像理解等多種任務?;趯⑺袟l件和目...
LongAlign:港大推出的長文本與圖像高效對齊技術革新
LongAlign是香港大學研究團隊推出的文本到圖像(T2I)擴散模型的改進方法,能提升長文本輸入的對齊精度。LongAlign用段級編碼技術,將長文本分割處理,適應編...
ebook2audiobookXTTS:多語言開源電子書轉有聲書AI工具,輕松轉換16種語言的文本為生動音頻
ebook2audiobookXTTS是開源的AI工具,能將電子書轉換為有聲書。ebook2audiobookXTTS支持多種電子書格式,如epub、pdf、mobi等,用Coqui XTTS技術實現高質量的...
Optima:提升通信效率與任務管理的創新訓練框架
Optima是清華大學推出的優化基于大型語言模型(LLM)的多智能體系統(MAS)的框架。基于一個迭代的生成、排名、選擇和訓練范式,顯著提高通信效率和任務效果...
MuCodec:超低比特率音樂編解碼器實現高保真音質與極致壓縮效率
MuCodec是清華大學深圳國際研究生院、騰訊AI實驗室和香港中文大學的研究人員共同推出的超低比特率音樂編解碼器,能實現音樂的高效壓縮與高保真重建。MuCodec...
ACE:全能圖像生成與編輯模型賦能創意無限可能
ACE(All-round Creator and Editor)是阿里巴巴集團Tongyi Lab推出的基于擴散變換器的全能圖像生成和編輯模型。ACE引入長上下文條件單元(LCU)和統一條件格...
ViewExtrapolator:新型視圖合成技術實現高質量視覺體驗與靈活場景重建
ViewExtrapolator是南洋理工大學、UCAS研究團隊共同推出的新視角外推方法,基于穩定視頻擴散(Stable Video Diffusion, SVD)的生成先驗合成遠超出訓練視圖范...
OpenScholar:智能學術搜索工具助力高效研究與知識發現
OpenScholar是華盛頓大學和艾倫AI研究所共同推出的檢索增強型語言模型(LM),能幫助科學家基于檢索和綜合科學文獻中的相關論文回答問題。系統用大規模的科學...
SmolVLM:輕量級視覺語言模型助力多模態任務的高效解決方案
SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設備端推理設計。以20億參數量,實現了高效內存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同...
Edify 3D:革新3D生成技術助力創意無限可能
Edify 3D 是 NVIDIA 推出的先進3D資產生成方案,能從文本提示或參考圖像快速合成高質量的3D模型。Edify 3D能在兩分鐘內生成具有詳細幾何形狀、清晰拓撲結構、...