AI項目和框架

MobileLLM

MobileLLM是Meta為移動設備用例優(yōu)化設計的十億參數(shù)以下的大型語言模型,能解決云成本上升和延遲問題。MobileLLM基于深薄架構、嵌入共享和分組查詢注意力機制...
閱讀原文

SmolLM2

SmolLLM2是Hugging Face推出用在設備端應用的緊湊型大型語言模型,提供1.7B、360M、135M三個不同參數(shù)級別的模型,適應不同的應用場景和資源限制。模型在理解...
閱讀原文

Genmoai-smol

Genmoai-smol是開源視頻生成模型,是Genmoai的txt2video模型的工作進展分支,專為單GPU設備優(yōu)化,減少顯存占用,在資源有限的設備上能進行視頻創(chuàng)作。模型用高...
閱讀原文

VirSci

VirSci(Virtual Scientists)是上海人工智能實驗室推出的多智能體AI科學研究工具,基于模擬科學家團隊的合作過程加速科研創(chuàng)新。系統(tǒng)基于大型語言模型(LLMs...
閱讀原文

Self-Lengthen

Self-Lengthen是阿里巴巴千問團隊推出的創(chuàng)新的迭代訓練框架,能提升大型語言模型(LLMs)生成長文本的能力。框架基于兩個角色,生成器和擴展器協(xié)同工作,生成...
閱讀原文

Amphion

Amphion是開源的音頻、音樂和語音生成工具包,是香港中文大學(深圳)副教授武執(zhí)政團隊聯(lián)合上海人工智能實驗室和深圳市大數(shù)據(jù)研究院共同推出的。工具包支持可...
閱讀原文

LongReward

LongReward是清華大學、中國科學院、智譜AI聯(lián)合推出的,基于AI反饋改進長文本大型語言模型(LLMs)性能的方法。LongReward從有用性、邏輯性、忠實性和完整性...
閱讀原文

Fish Agent

Fish Agent是FishAudio推出的創(chuàng)新的端到端語音處理模型,集成自動語音識別(ASR)和文本到語音(TTS)技術,無需傳統(tǒng)的語義編碼器/解碼器,即可實現(xiàn)語音到語...
閱讀原文

MeetingMind

MeetingMind是AI驅(qū)動的會議助手,基于錄音和文件上傳功能自動轉(zhuǎn)錄會議音頻,從中提取關鍵信息,如任務、決策和問題,幫助用戶輕松捕獲和分析會議內(nèi)容,采取行...
閱讀原文

星辰大模型

星辰大模型平臺是中國電信推出的AI大模型集合平臺,覆蓋語義、視覺、語音等多模態(tài)領域。包含不同參數(shù)量級的模型,支持長文本處理,具備多語種語音識別和多任...
閱讀原文

Fast GraphRAG

Fast GraphRAG 是微軟推出的高效的知識圖譜檢索框架,旨在提供可解釋性和高精度的代理驅(qū)動檢索工作流。它結合了檢索增強生成(RAG)技術和知識圖譜,提升大型...
閱讀原文

Stagehand

Stagehand是簡單和可擴展的AI網(wǎng)頁瀏覽框架,是Playwright的繼承者,提供act、extract和observe三個簡單的API,支持自然語言驅(qū)動的網(wǎng)頁操作。Stagehand提供一...
閱讀原文

VideoTuna

VideoTuna是集成多種AI視頻生成模型的代碼庫,支持文本到視頻、圖像到視頻和文本到圖像的轉(zhuǎn)換。VideoTuna提供預訓練、持續(xù)訓練、后訓練對齊和微調(diào)等全面視頻...
閱讀原文

ComfyUI-MochiEdit

ComfyUI-MochiEdit是基于ComfyUI和Genmo Mochi的開源視頻編輯工具,基于將視頻轉(zhuǎn)換為噪聲、重新采樣實現(xiàn)視頻編輯,支持局部編輯和視頻轉(zhuǎn)視頻功能。用戶能調(diào)整...
閱讀原文

HiCo

HiCo是360 AI研究院推出的基于擴散模型的層次化可控布局到圖像生成模型,HiCo基于多分支結構設計,實現(xiàn)對對象位置和文本描述的精確控制。HiCo的關鍵特點在于...
閱讀原文