AI項目和框架

LLaMA-Omni

LLaMA-Omni 是中國科學院計算技術研究所和中國科學院大學研究者推出的新型模型架構,用于實現與大型語言模型(LLM)的低延遲、高質量語音交互。通過集成預訓...
閱讀原文

SCoRe

SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一種創新的多輪強化學習方法,旨在提高大型語言模型(LLM)的自我糾錯能力。通過...
閱讀原文

AiNiee

AiNiee 是一款AI翻譯工具,能一鍵自動翻譯RPG、SLG游戲、Epub、TXT格式的小說、Srt、Lrc字幕文件等。工具支持多格式文件,接入多個主流AI接口平臺,如OpenAI...
閱讀原文

ANTO

ANTO是一款開源的Windows桌面字幕翻譯工具,用于翻譯SRT格式的視頻字幕文件。集成多種翻譯引擎,如谷歌翻譯、DeepL、微軟翻譯、百度翻譯和有道翻譯等,用戶根...
閱讀原文

OpenMusic

OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技術的高質量文生音樂模型。基于先進的AI算法,根據文本描述生成高質量的音樂作...
閱讀原文

SFR-RAG

SFR-RAG是由Salesforce AI Research推出的一款大型語言模型,專注于提升機器在理解和生成文本方面的應用能力。模型特別強調對上下文的忠實理解,在檢索增強生...
閱讀原文

onewebot2

oneWebot2是一款微信AI機器人一鍵運行軟件包,用戶下載exe文件后,雙擊即可啟動,無需復雜的Python環境配置。有圖形化界面,簡化配置流程,非技術用戶輕松設...
閱讀原文

GOT-OCR2.0

GOT-OCR 2.0是一種先進的光學字符識別(OCR)模型,推動OCR技術進入2.0時代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長上下文解碼器組成,能處理包括文本、...
閱讀原文

豆包PixelDance

豆包PixelDance是字節跳動最新推出的AI視頻生成模型,采用DiT結構,支持文生視頻和圖生視頻。它能理解復雜指令,生成長達10秒的連貫視頻片段,涵蓋多主體交互...
閱讀原文

豆包Seaweed

豆包Seaweed是字節跳動推出的AI視頻生成模型,支持文生視頻和圖生視頻兩種模式。基于Transformer結構,利用時空壓縮技術進行訓練,原生支持多分辨率輸出,適...
閱讀原文

PortraitGen

PortraitGen是中國科學技術大學研究團隊推出的一款AI人像視頻編輯工具。基于3D高斯濺射技術和神經高斯紋理機制,將2D人像視頻轉換為4D高斯場,實現高質量的3D...
閱讀原文

MMMLU

MMMLU(多語言大規模多任務語言理解)是由OpenAI推出的一個開源數據集,旨在評估和提升人工智能模型在不同語言、認知和文化背景下的性能而設計。MMMLU建立在...
閱讀原文

Llama 3.2

Llama 3.2是Meta公司最新推出的開源AI大模型系列,包括小型和中型視覺語言模型(11B和90B參數)以及輕量級純文本模型(1B和3B參數)。Llama 3.2模型專為邊緣...
閱讀原文

MIMO

MIMO是阿里巴巴集團智能計算研究所推出的可控角色視頻合成的新型AI框架,基于空間分解建模技術,將2D視頻轉換為3D空間代碼,實現對角色、動作和場景的精確控...
閱讀原文

豆包AI視頻模型

豆包AI視頻模型是字節跳動推出的兩款AI視頻生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT結構,擅長理解復雜指令,生成連貫、多主體交互的視頻片段...
閱讀原文