AI項目和框架

DisPose

DisPose是北京大學、中國科學技術大學、清華大學和香港科技大學的研究團隊共同推出的,提高人物圖像動畫質量的控制技術,基于從骨骼姿態和參考圖像中提取有效...
閱讀原文

MetaMorph

MetaMorph是多模態大模型(MLLM),通過指令微調(Instruction Tuning)實現視覺理解和生成。它提出了一種名為Visual-Predictive Instruction Tuning(VPiT)...
閱讀原文

Bamba-9B:Mamba2架構驅動的高效解碼語言模型展現卓越性能與靈活應用

Bamba-9B是IBM、普林斯頓大學、卡內基梅隆大學和伊利諾伊大學香檳分校聯合推出的,基于Mamba2架構的僅解碼語言模型模型。模型在完全開放的數據集上訓練,能提...
閱讀原文

HelloMeme:面部表情與姿態遷移技術驅動的Stable Diffusion 1.5模型實現全新創作體驗

HelloMeme是基于最新的Diffusion生成技術的框架,實現表情與姿態的遷移,HelloMeme集成空間編織注意力(Spatial Knitting Attentions)機制,基于Stable Diff...
閱讀原文

ERA-42:星動紀元全新端到端原生機器人大模型實現智能化交互與高效任務執行

ERA-42是北京星動紀元推出的端到端原生機器人大模型,與自研的五指靈巧手星動XHAND1結合,能完成100多種復雜靈巧操作任務。ERA-42無需預編程,具備快速學習新...
閱讀原文

Baichuan4-Finance:全鏈路金融領域智能增強大模型助力精準決策與風險管理

Baichuan4-Finance是百川智能推出的全鏈路金融領域增強大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance?;贐aichuan4-Turbo,用領域自約束訓練,在...
閱讀原文

VSI-Bench

VSI-Bench(Visual-Spatial Intelligence Benchmark)是李飛飛、謝賽寧及他們的研究團隊推出的視覺空間智能基準測試集,研究者構建用在評估多模態大型語言模...
閱讀原文

Bamba-9B

Bamba-9B是IBM、普林斯頓大學、卡內基梅隆大學和伊利諾伊大學香檳分校聯合推出的,基于Mamba2架構的僅解碼語言模型模型。模型在完全開放的數據集上訓練,能提...
閱讀原文

Univer

Univer是開源的全棧框架,支持創建和編輯電子表格、文檔及幻燈片,為用戶提供統一且強大的辦公解決方案。Univer能在瀏覽器和Node.js環境中運行,易于集成到各...
閱讀原文

Kheish

Kheish是開源的、基于大型語言模型(LLM)的多智能體編排平臺,用多個專門的角色(智能體)和靈活的工作流協調復雜任務的各個步驟,如提案生成、審核、驗證和...
閱讀原文

3D-Speaker

3D-Speaker是阿里巴巴通義實驗室語音團隊推出的多模態開源項目,基于結合聲學、語義、視覺信息,實現高精度的說話人識別和語種識別。3D-Speaker提供工業級模...
閱讀原文

ERA-42

ERA-42是北京星動紀元推出的端到端原生機器人大模型,與自研的五指靈巧手星動XHAND1結合,能完成100多種復雜靈巧操作任務。ERA-42無需預編程,具備快速學習新...
閱讀原文

Baichuan4-Finance

Baichuan4-Finance是百川智能推出的全鏈路金融領域增強大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用領域自約束訓練,在...
閱讀原文

LeviTor

LeviTor是南京大學、螞蟻集團、浙江大學等機構推出的圖像到視頻合成技術,結合深度信息和K-means聚類點控制視頻中3D物體的軌跡,無需顯式的3D軌跡跟蹤。LeviT...
閱讀原文

AgentScope

AgentScope是阿里巴巴集團開源的多智能體開發平臺,幫助開發者輕松構建和部署多智能體應用。AgentScope提供高易用性、高魯棒性和分布式支持,內置多種模型API...
閱讀原文
19293949596156