AI項(xiàng)目和框架

華知大模型5.0

華知大模型5.0是同方知網(wǎng)與華為云聯(lián)合推出的AI大模型,具備多模態(tài)理解和生成能力。華知大模型5.0的最大亮點(diǎn)在于多維模型的構(gòu)建能力,涵蓋從7B到135B不等的多...
閱讀原文

LVCD

LVCD(Large Video Color Diffusion)是一個(gè)專為動(dòng)畫視頻線稿上色設(shè)計(jì)的視頻擴(kuò)散框架,能將黑白線稿自動(dòng)轉(zhuǎn)化為彩色動(dòng)畫視頻。LVCD使用了一種先進(jìn)的擴(kuò)散模型,...
閱讀原文

LLaMA-Omni

LLaMA-Omni 是中國(guó)科學(xué)院計(jì)算技術(shù)研究所和中國(guó)科學(xué)院大學(xué)研究者推出的新型模型架構(gòu),用于實(shí)現(xiàn)與大型語(yǔ)言模型(LLM)的低延遲、高質(zhì)量語(yǔ)音交互。通過(guò)集成預(yù)訓(xùn)...
閱讀原文

SCoRe

SCoRe(Self-Correction via Reinforcement Learning)是谷歌DeepMind推出的一種創(chuàng)新的多輪強(qiáng)化學(xué)習(xí)方法,旨在提高大型語(yǔ)言模型(LLM)的自我糾錯(cuò)能力。通過(guò)...
閱讀原文

AiNiee

AiNiee 是一款A(yù)I翻譯工具,能一鍵自動(dòng)翻譯RPG、SLG游戲、Epub、TXT格式的小說(shuō)、Srt、Lrc字幕文件等。工具支持多格式文件,接入多個(gè)主流AI接口平臺(tái),如OpenAI...
閱讀原文

ANTO

ANTO是一款開源的Windows桌面字幕翻譯工具,用于翻譯SRT格式的視頻字幕文件。集成多種翻譯引擎,如谷歌翻譯、DeepL、微軟翻譯、百度翻譯和有道翻譯等,用戶根...
閱讀原文

OpenMusic

OpenMusic 是一款基于 QA-MDT(Quality-aware Masked Diffusion Transformer)技術(shù)的高質(zhì)量文生音樂(lè)模型。基于先進(jìn)的AI算法,根據(jù)文本描述生成高質(zhì)量的音樂(lè)作...
閱讀原文

SFR-RAG

SFR-RAG是由Salesforce AI Research推出的一款大型語(yǔ)言模型,專注于提升機(jī)器在理解和生成文本方面的應(yīng)用能力。模型特別強(qiáng)調(diào)對(duì)上下文的忠實(shí)理解,在檢索增強(qiáng)生...
閱讀原文

onewebot2

oneWebot2是一款微信AI機(jī)器人一鍵運(yùn)行軟件包,用戶下載exe文件后,雙擊即可啟動(dòng),無(wú)需復(fù)雜的Python環(huán)境配置。有圖形化界面,簡(jiǎn)化配置流程,非技術(shù)用戶輕松設(shè)...
閱讀原文

GOT-OCR2.0

GOT-OCR 2.0是一種先進(jìn)的光學(xué)字符識(shí)別(OCR)模型,推動(dòng)OCR技術(shù)進(jìn)入2.0時(shí)代。GOT-OCR 2.0端到端的模型由高壓縮編碼器和長(zhǎng)上下文解碼器組成,能處理包括文本、...
閱讀原文

豆包PixelDance

豆包PixelDance是字節(jié)跳動(dòng)最新推出的AI視頻生成模型,采用DiT結(jié)構(gòu),支持文生視頻和圖生視頻。它能理解復(fù)雜指令,生成長(zhǎng)達(dá)10秒的連貫視頻片段,涵蓋多主體交互...
閱讀原文

豆包Seaweed

豆包Seaweed是字節(jié)跳動(dòng)推出的AI視頻生成模型,支持文生視頻和圖生視頻兩種模式。基于Transformer結(jié)構(gòu),利用時(shí)空壓縮技術(shù)進(jìn)行訓(xùn)練,原生支持多分辨率輸出,適...
閱讀原文

PortraitGen

PortraitGen是中國(guó)科學(xué)技術(shù)大學(xué)研究團(tuán)隊(duì)推出的一款A(yù)I人像視頻編輯工具。基于3D高斯濺射技術(shù)和神經(jīng)高斯紋理機(jī)制,將2D人像視頻轉(zhuǎn)換為4D高斯場(chǎng),實(shí)現(xiàn)高質(zhì)量的3D...
閱讀原文

MMMLU

MMMLU(多語(yǔ)言大規(guī)模多任務(wù)語(yǔ)言理解)是由OpenAI推出的一個(gè)開源數(shù)據(jù)集,旨在評(píng)估和提升人工智能模型在不同語(yǔ)言、認(rèn)知和文化背景下的性能而設(shè)計(jì)。MMMLU建立在...
閱讀原文

Llama 3.2

Llama 3.2是Meta公司最新推出的開源AI大模型系列,包括小型和中型視覺語(yǔ)言模型(11B和90B參數(shù))以及輕量級(jí)純文本模型(1B和3B參數(shù))。Llama 3.2模型專為邊緣...
閱讀原文