AI項目和框架

VidTok

VidTok(Video Tokenizer)是微軟開源的先進的視頻分詞器,通過高效的算法將視頻內容轉換成一系列“視頻詞”。支持連續和離散分詞化,具有靈活的壓縮率和多樣化...
閱讀原文

DeepSeek V3

DeepSeek V3是知名私募巨頭幻方量化旗下人工智能公司深度求索(DeepSeek)開源的最新版AI模型,在多語言編程能力上的進步顯著。在aider多語言編程測評中的表...
閱讀原文

3DHM

3DHM(3D Human Motions)是先進的3D人體動作生成技術,加州大學伯克利分校的研究人員推出。能從單張人物照片生成具有3D控制的動態人體視頻,實現從靜態圖像...
閱讀原文

DRT-o1

DRT-o1是騰訊研究院推出的一系列AI模型,通過長鏈思考推理(CoT)技術顯著提升了文學作品的翻譯質量,尤其在處理比喻和隱喻等修辭手法時。模型能更深入地理解...
閱讀原文

FastExcel

FastExcel是基于Java的開源庫,提供快速、簡潔且能解決大文件內存溢出問題的Excel處理工具。FastExcel兼容EasyExcel,提供性能優化、bug修復,新增如讀取指定...
閱讀原文

FinRobot

FinRobot是開源的AI代理平臺,專注于金融領域的應用。基于大型語言模型(LLMs)來構建能進行復雜分析和決策的金融專業AI代理。平臺通過金融思維鏈(CoT)提示...
閱讀原文

Browser Use

Browser Use是專門為大語言模型服務的智能瀏覽器工具,創新的Python工具庫,讓AI代理能像人類一樣自然地瀏覽和操作網頁。Browser Use支持多標簽頁管理、視覺...
閱讀原文

WiS

WiS(Who is Spy)是淘天集團和阿里的技術研究團隊推出的創新在線AI競賽平臺,專門設計用在測試和分析基于大型語言模型(LLMs)的多智能體系統(MAS)。WiS模...
閱讀原文

ASAL

ASAL(Automated Search for Artificial Life)是用基礎模型自動化搜索人工生命(ALife)系統。ASAL是Sakana AI及MIT、OpenAI等機構聯合推出的,主要基于三種...
閱讀原文

QVQ

QVQ是阿里基于Qwen2-VL-72B構建的開源多模態推理模型,結合視覺理解和復雜問題解決能力,提升人工智能的認知能力。QVQ在視覺推理任務中展現出增強的能力,尤...
閱讀原文

Open Notebook

Open Notebook是開源、注重隱私的谷歌NotebookLM替代工具,能幫助用戶管理研究工作流程,生成AI輔助筆記,并與內容互動。Open Notebook支持多筆記本、多模型...
閱讀原文

PC Agent

PC Agent是上海交通大學和Generative AI Research Lab (GAIR)聯合推出的先進AI系統。系統基于模擬人類認知過程,執行如組織研究材料、起草報告和創建演示文稿...
閱讀原文

Midscene.js

Midscene.js是基于AI技術的自動化SDK,通過用大型語言模型(LLM)簡化UI自動化測試中的命令。用戶用自然語言描述交互步驟或預期數據格式,Midscene.js將執行...
閱讀原文

Granite 3.1

Granite 3.1是IBM推出的新一代語言模型,具有強大的性能和更長的上下文處理能力。Granite 3.1模型家族有 4 種不同的尺寸和 2 種架構:密集模型2B和8B參數模型...
閱讀原文

Sketch2Sound

Sketch2Sound是Adobe 研究院和西北大學推出的AI音頻生成技術,能基于聲音模仿和文本提示生成高品質音效。Sketch2Sound從聲音模仿中提取響度、亮度和音高三個...
閱讀原文
19091929394155