AI項目和框架

BlueLM-V-3B:ViVo與香港中文大學攜手創新算法與系統協同設計方法提升產品智能化水平

BlueLM-V-3B是vivo AI Lab和香港中文大學MMLab聯合推出的算法和系統協同設計方法,支持高效部署多模態大型語言模型(MLLM)至移動設備。模型以小尺寸(2.7B語...
閱讀原文

XiYan-SQL:阿里推出文本到SQL多生成器集成框架實現智能化數據查詢與管理

XiYan-SQL是阿里巴巴推出的自然語言到SQL(NL2SQL)框架,基于多生成器集成策略,結合提示工程和監督微調,提升SQL查詢生成質量。XiYan-SQL引入M-Schema半結...
閱讀原文

KuaiFormer:智能音響重塑你的聽覺體驗

KuaiFormer是快手技術團隊推出的基于Transformer的檢索框架,用在大規模內容推薦系統。基于重新定義檢索流程,從傳統的分數估計任務轉變為Transformer驅動的“...
閱讀原文

EyeDiff:基于文本到圖像擴散模型的多模態眼科圖像生成技術

EyeDiff是文本到圖像的擴散模型,基于自然語言提示生成多模態眼科圖像,提高常見和罕見眼病的診斷準確性。模型在多個大規模數據集上訓練,能準確捕捉關鍵病變...
閱讀原文

MikuDance:動態風格化角色藝術的混合動力動畫生成技術

MikuDance是基于擴散模型的動畫生成技術,整合混合運動動力學來動畫化風格化的角色藝術。MikuDance基于混合運動建模和混合控制擴散技術,解決高動態運動和參...
閱讀原文

MATRIX-Gen:多智能體模擬系統引領智能決策新時代

MATRIX-Gen是上海交通大學和牛津大學研究團隊推出的多智能體模擬系統,基于模擬1000多個具有獨立身份和人格的AI智能體組成的社會,生成多樣化且高質量的訓練...
閱讀原文

BodyTalk:智能視頻配音工具實現語音與唇形、面部表情與肢體動作的完美同步

BodyTalk是Panjaya推出的AI視頻配音工具,基于生成性AI技術,將視頻中的人物聲音轉換為其他語言,自動調整視頻中人物的面部表情和肢體動作,自然地匹配新的語...
閱讀原文

Windsurf Editor:智能編程助手提升開發效率與代碼質量

Windsurf Editor 是 Codeium 推出的首款“代理式”集成開發環境(IDE),基于深度集成AI技術,提供與人類開發者協作的 AI Copilot 和獨立處理復雜任務的 AI Age...
閱讀原文

OmniParse:智能數據解析平臺助力高效提取與分析非結構化數據

OmniParse是數據解析平臺,將非結構化數據轉換為結構化、可操作的數據,優化適用于GenAI(大型語言模型)應用。OmniParse支持約20種文件類型,包括文檔、表格...
閱讀原文

Promptim:智能優化庫助力自動迭代配置生成與性能提升

Promptim是實驗性的AI提示優化庫,基于自動化流程提升AI系統在特定任務上的提示效果。用戶提供初始提示、數據集和自定義評估器,Promptim能自動運行優化循環...
閱讀原文

TinyTroupe:多智能體角色模擬庫助力智能交互與協作創新

TinyTroupe是microsoft推出的實驗性Python庫,用在模擬具有特定個性、興趣和目標的人工代理(TinyPersons),在模擬環境(TinyWorld)中進行互動。TinyTroupe...
閱讀原文

Thinking Claude:AI思維革新工具讓機器更懂人類思維方式

Thinking Claude是基于深度思考協議和瀏覽器擴展工具,增強AI模型Claude-3.5的“深度思維”能力的項目,讓其思考邏輯更接近人類。支持AI以自然、未經過濾的方式...
閱讀原文

OmniVision:高效輕量化的邊緣多模態模型實現智能化應用

OmniVision是緊湊的多模態模型,擁有968M參數,專為邊緣設備優化。OmniVision能處理視覺和文本輸入,基于LLaVA架構改進,顯著減少圖像token數量,降低延遲和...
閱讀原文

Free Video-LLM:高效視頻語言模型實現無需訓練的智能內容生成

Free Video-LLM是創新的無需訓練的高效視頻語言模型,基于提示引導的視覺感知技術,實現對視頻內容的高效理解。模型用預訓練的圖像LLMs,無需額外訓練即可適...
閱讀原文

LogoCreator:快速生成專業定制商標的開源AI Logo設計工具

LogoCreator是開源的logo生成器,基于Together AI提供的Flux Pro 1.1技術快速創建專業風格的logo。項目用Next.js和TypeScript構建應用框架,Shadcn和Tailwind...
閱讀原文
199100101102103146