AI項目和框架

Valley

Valley是字節(jié)跳動推出的多模態(tài)大模型,用于處理涉及文本、圖像和視頻數(shù)據(jù)的多樣化任務。Valley在內(nèi)部電子商務和短視頻基準測試中取得了最佳成績,并在OpenCom...
閱讀原文

ModernBERT

ModernBERT是Answer.AI、LightOn、約翰斯·霍普金斯大學、英偉達和HuggingFace聯(lián)合推出的現(xiàn)代編碼器-only Transformer模型,是對經(jīng)典BERT模型的一次重大升級。...
閱讀原文

cobalt

cobalt是開源的流媒體下載工具,提供純凈、簡潔無廣告的體驗。cobalt支持全平臺視頻、音頻和圖片下載,包括主流視頻網(wǎng)站、社交媒體和音樂平臺。cobalt提供個...
閱讀原文

CogAgent-9B

CogAgent-9B是基于 GLM-4V-9B 訓練的專用Agent任務模型,僅依賴屏幕截圖作為輸入,無需HTML等文本表征。CogAgent-9B支持高分辨率圖像處理,具備雙語(中英文...
閱讀原文

AGUVIS

AGUVIS是香港大學、Salesforce 聯(lián)合推出的統(tǒng)一的純視覺框架,專為自主GUI智能體設計,能在各種平臺(如網(wǎng)頁、桌面、移動設備)上操作。AGUVIS基于圖像觀察和...
閱讀原文

Diff-Instruct

Diff-Instruct是先進的知識轉(zhuǎn)移方法,用于從預訓練的擴散模型中提取知識,指導其他生成模型的訓練。它基于一種新的散度度量——積分Kullback-Leibler (IKL) 散...
閱讀原文

VidTok

VidTok(Video Tokenizer)是微軟開源的先進的視頻分詞器,通過高效的算法將視頻內(nèi)容轉(zhuǎn)換成一系列“視頻詞”。支持連續(xù)和離散分詞化,具有靈活的壓縮率和多樣化...
閱讀原文

DeepSeek V3

DeepSeek V3是知名私募巨頭幻方量化旗下人工智能公司深度求索(DeepSeek)開源的最新版AI模型,在多語言編程能力上的進步顯著。在aider多語言編程測評中的表...
閱讀原文

3DHM

3DHM(3D Human Motions)是先進的3D人體動作生成技術,加州大學伯克利分校的研究人員推出。能從單張人物照片生成具有3D控制的動態(tài)人體視頻,實現(xiàn)從靜態(tài)圖像...
閱讀原文

DRT-o1

DRT-o1是騰訊研究院推出的一系列AI模型,通過長鏈思考推理(CoT)技術顯著提升了文學作品的翻譯質(zhì)量,尤其在處理比喻和隱喻等修辭手法時。模型能更深入地理解...
閱讀原文

FastExcel

FastExcel是基于Java的開源庫,提供快速、簡潔且能解決大文件內(nèi)存溢出問題的Excel處理工具。FastExcel兼容EasyExcel,提供性能優(yōu)化、bug修復,新增如讀取指定...
閱讀原文

FinRobot

FinRobot是開源的AI代理平臺,專注于金融領域的應用。基于大型語言模型(LLMs)來構建能進行復雜分析和決策的金融專業(yè)AI代理。平臺通過金融思維鏈(CoT)提示...
閱讀原文

Browser Use

Browser Use是專門為大語言模型服務的智能瀏覽器工具,創(chuàng)新的Python工具庫,讓AI代理能像人類一樣自然地瀏覽和操作網(wǎng)頁。Browser Use支持多標簽頁管理、視覺...
閱讀原文

WiS

WiS(Who is Spy)是淘天集團和阿里的技術研究團隊推出的創(chuàng)新在線AI競賽平臺,專門設計用在測試和分析基于大型語言模型(LLMs)的多智能體系統(tǒng)(MAS)。WiS模...
閱讀原文

ASAL

ASAL(Automated Search for Artificial Life)是用基礎模型自動化搜索人工生命(ALife)系統(tǒng)。ASAL是Sakana AI及MIT、OpenAI等機構聯(lián)合推出的,主要基于三種...
閱讀原文
18081828384146