AI項目和框架

Moshi

Moshi是由法國的的人工智能研究實驗室Kyutai推出的一款端到端實時音頻多模態AI模型,擁有聽、說、看的能力,并能模擬70種不同的情緒和風格進行交流。作為對標...
閱讀原文

EchoMimic

EchoMimic是阿里螞蟻集團推出的AI數字人開源項目,賦予靜態圖像以生動語音和表情。通過深度學習模型結合音頻和面部標志點,創造出高度逼真的動態肖像視頻。不...
閱讀原文

MimicMotion

MimicMotion是騰訊的研究人員推出的一個高質量的人類動作視頻生成框架,利用置信度感知的姿態引導技術,確保視頻幀的高質量和時間上的平滑過渡。此外,MimicM...
閱讀原文

FunAudioLLM

FunAudioLLM是阿里巴巴通義實驗室推出的開源語音大模型項目,包含SenseVoice和CosyVoice兩個模型。SenseVoice擅長多語言語音識別和情感辨識,支持超過50種語...
閱讀原文

Chameleon

Chameleon 是 Meta(Facebook 的母公司)的人工智能研究團隊 FAIR(Facebook AI Research)發布的一個能理解和生成任意序列的圖像和文本的混合多模態模型。擁...
閱讀原文

Mem0

Mem0 是一款開源的大語言模型記憶增強工具,能夠讓 AI 擁有長期、適應性強的記憶。通過自適應記憶系統,AI能實現跨應用記住用戶的偏好和交互,提供連貫且不斷...
閱讀原文

STORM AI

STORM AI 是斯坦福大學推出的開源AI寫作工具,可在幾秒鐘內將一個主題轉換為長篇文章/研究論文,完全免費,是?Perplexity Pages?的一種?替代品?。STORM AI 利...
閱讀原文

DCLM-7B

DCLM-7B是由蘋果公司聯合研究團隊推出的70億參數開源小模型,性能超越Mistral-7B,接近Llama 3和Gemma。最近,蘋果公司作為 DataComp-LM(DCLM)項目的研究機...
閱讀原文

LivePortrait

LivePortrait是快手推出的開源人像動畫生成框架,專注于高效、可控地將驅動視頻的表情和姿態遷移至靜態或動態人像,創造出富有表現力的視頻。該技術通過隱式...
閱讀原文

Llama3.1

Llama 3.1是Meta最新發布的開源AI模型,包括8B、70B和405B三個版本,其中405B版本以其4050億參數量成為目前最大的開源模型之一。Llama 3.1支持128K的上下文長...
閱讀原文

GPT-4o Long Output模型

GPT-4o Long Output模型是OpenAI最新推出的超長輸出AI模型,支持高達64k tokens的長文本輸出,相當于約200頁小說。相較于原GPT-4o模型,輸出能力提升16倍,但...
閱讀原文

MindSearch

MindSearch是上海人工智能實驗室聯合研發團隊推出的開源AI搜索框架,結合了大規模信息搜集和整理能力。利用InternLM2.5 7B對話模型,MindSearch能在3分鐘內從...
閱讀原文

Diffree

Diffree是由OpenGVLab推出的AI貼圖框架,能根據用戶的文字描述,在圖片中自動找到合適的位置添加新對象。通過智能掩碼預測,無需手動繪制,即可確定新對象的...
閱讀原文

FLUX.1

FLUX.1是由Stable Diffusion創始團隊推出的開源AI圖像生成模型,擁有12B參數,是迄今為止最大的文生圖模型。包含三種變體:頂級性能的FLUX.1 [pro]、開源非商...
閱讀原文

Stable Fast 3D

Stable Fast 3D(SF3D)是Stability AI推出的一種創新3D網格重建技術,能在0.5秒內從單張圖片生成高質量的3D模型。Stable Fast 3D采用先進的Transformer網絡...
閱讀原文