AI項目和框架

Qwen2

Qwen2是由阿里云通義千問團隊開源的新一代大語言模型,該系列涵蓋了從0.5B到72B不等的五個規模模型,在中文和英文基礎上增加了27種語言的高質量數據,大幅提...
閱讀原文

Follow-Your-Emoji

Follow-Your-Emoji是由香港科技大學、騰訊混元和清華大學的研究人員推出的一個基于擴散模型的人像動畫框架,利用擴散模型為參考肖像添加目標表情序列,實現動...
閱讀原文

ToonCrafter

ToonCrafter是由騰訊AI實驗室、香港中文大學和香港城市大學的研究人員開源的卡通動畫視頻插值工具,突破了傳統卡通動畫制作中線性運動的假設限制,采用創新的...
閱讀原文

MimicBrush

MimicBrush是由阿里巴巴、香港大學和螞蟻集團的研究人員推出的AI圖像編輯融合框架,允許用戶通過簡單的操作,在源圖像上指定需要編輯的區域,并提供一個包含...
閱讀原文

Hallo

Hallo是由復旦大學、百度公司、蘇黎世聯邦理工學院和南京大學的研究人員共同提出的一個AI對口型肖像圖像動畫技術,可基于語音音頻輸入來驅動生成逼真且動態的...
閱讀原文

Unique3D

Unique3D是由清華大學團隊開源的一個單張圖像到3D模型轉換的框架,通過結合多視圖擴散模型和法線擴散模型,以及一種高效的多級上采樣策略,能夠從單張圖片中...
閱讀原文

琴樂大模型

琴樂大模型是由騰訊AI Lab與騰訊TME天琴實驗室共同研發的人工智能音樂創作大模型,該模型通過輸入中英文關鍵詞、描述性語句或音頻,能夠直接生成立體聲音頻或...
閱讀原文

Diffutoon

Diffutoon是由阿里巴巴和華東師大的研究人員推出的一個將視頻轉換為卡通動漫風格的AI框架,基于擴散模型的可編輯卡通著色技術,能夠將真實感視頻轉換成動漫風...
閱讀原文

ExVideo

ExVideo是由阿里巴巴和華東師大的研究人員推出的一種視頻合成模型的后調優技術,能夠擴展現有視頻合成模型的時間尺度,以生成更長的視頻。該團隊基于Stable V...
閱讀原文

Toucan TTS

Toucan TTS是由德國斯圖加特大學自然語言處理研究所(IMS)開發的文本到語音合成工具箱,支持超過7000種語言,包括多種方言和變體,提供多說話人語音合成、語...
閱讀原文

MOFA-Video

MOFA-Video是由騰訊AI實驗室和東京大學的研究人員開源的一個可控性的圖像生成視頻的模型,該技術利用生成運動場適應器對圖像進行動畫處理以生成視頻。
閱讀原文

CriticGPT

CriticGPT是OpenAI發布的一個新型人工智能模型,基于GPT-4構建,專門用于審查和識別大型語言模型(如ChatGPT)生成的代碼中的錯誤。CriticGPT通過人類反饋強...
閱讀原文

Gemma 2

Gemma 2是谷歌DeepMind推出的新一代開源人工智能模型,包含90億和270億參數版本。該模型以卓越的性能、高效的推理速度和廣泛的硬件兼容性為特點,能夠與參數...
閱讀原文

FreeAskInternet

FreeAskInternet是一個免費開源的本地AI搜索引擎,整合了GPT-3.5等先進的大型語言模型(LLM)和SearXNG元搜索引擎,為用戶提供搜索和智能答案生成服務。
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成...
閱讀原文