AI項目和框架
書生·萬象InternVL 2.5:創新驅動的多模態大語言模型提升智能交互體驗
書生·萬象InternVL 2.5是上海AI實驗室的OpenGVLab團隊推出的開源多模態大型語言模型(MLLM)系列。該系列模型在InternVL 2.0的基礎上進行顯著增強,特別是在...
開源文本轉語音工具,ChatTTS擴展版支持語音克隆
ChatTTSPlus是ChatTTS的擴展版本,基于集成TensorRT加速、語音克隆和移動模型部署等先進技術,提升語音合成的性能和靈活性。在Windows平臺上,能實現超過3倍...
FineWeb 2:多語言預訓練數據集助力全球NLP應用的創新與發展
FineWeb 2是Hugging Face推出的多語言預訓練數據集,覆蓋超過1000種語言。FineWeb 2基于定制化的數據管道處理,包括語言識別、去重、內容過濾和PII匿名化,適...
EXAONE 3.5:LG推出的開源AI模型助力精準長文本處理與幻覺問題減少
EXAONE 3.5是LG AI研究院推出的開源AI模型,包含24億、78億和320億參數的三個版本。EXAONE 3.5擅長長文本處理,在基準測試中表現優異,特別是在實際應用、長...
中科院聯合美團推出的交互式駕駛世界模型數據集
DrivingDojo是中國科學院自動化研究所與美團無人車團隊合作推出的數據集,用在訓練和研究復雜的自動駕駛交互式世界模型。數據集包含18,000個視頻片段,覆蓋完...
上海大合騰訊等高校推出的3D服裝生成技術
ClotheDreamer是上海大學、上海交通大學、復旦大學和騰訊優圖實驗室共同推出的3D服裝生成技術,能根據文本描述生成高保真、可穿戴的3D服裝資產。ClotheDreame...
構建視頻智能體AI框架,用自然語言執行搜索、總結等復雜視頻任務
Director是構建視頻智能體的框架,用戶能用自然語言命令執行復雜的視頻任務,如視頻搜索、編輯、合成和生成,并能即時流式傳輸結果。基于VideoDB的“視頻即數...
DeepSeek V2.5 的最終版微調模型,支持聯網搜索
DeepSeek-V2.5-1210是DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最終版微調模型。模型基于Post-Training迭代,在數學、編程、寫作和角色...
AI視頻修復處理工具,修復缺失、支持四倍超分辨率
VISION XL是高效的視頻修復和超分辨率工具,基于潛在擴散模型技術,專注于解決高清視頻的逆問題。工具能修復視頻缺失部分、去除模糊,顯著提升視頻清晰度,最...
SPDL:高效便捷的開源AI模型數據加載解決方案助力深度學習創新
SPDL(Scalable and Performant Data Loading)是 Meta AI 推出的開源數據加載工具,能提高 AI 模型訓練效率。基于多線程技術,實現高吞吐量數據加載,減少計...
Adobe 聯合 MIT 推出的自回歸實時視頻生成技術
CausVid是Adobe和MIT共同推出的自回歸實時視頻生成技術,能實現視頻的即時播放。基于蒸餾預訓練的雙向擴散模型構建出自回歸生成模型,減少視頻生成的延遲,首...
GenMAC:多代理協作框架推動文本到視頻生成技術的創新與應用
GenMAC是香港大學、清華大學和微軟研究院推出的多代理協作的迭代框架,用在解決文本到視頻生成中的復雜場景生成問題。基于將任務分解為設計、生成和重新設計...
開源AI會議助手,提供實時建議、智能摘要、快速回顧關鍵信息
Amurex是AI會議助手,基于實時建議、智能摘要、關鍵要點提取、遲到加入回顧和完整會議記錄等功能,幫助用戶提升會議效率。作為開源工具,Amurex強調透明度、...
北大健康推出的 AI 健康科普應用
易健EasyHealth是北京大學健康傳播專業師生推出的微信小程序,基于大語言模型技術打造的健康科普智能問答系統。程序提供AI智能問答、情感智能算法、健康檔案...
智源研究院開源的無標注視頻學習3D生成模型
See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大規模無標注的互聯網視頻進行學習,實現從視頻中生成3D內容。與傳統依賴相機...