AI項目和框架

screenpipe

screenpipe是一款基于AI技術，全天候監控用戶電腦屏幕和麥克風的開源軟件。通過捕捉屏幕活動和音頻，用AI進行智能分析，提升工作效率和保障數據隱私。screenp...

閱讀原文

AI工具

1年前 (2024)

Pyramid-Flow

Pyramid-Flow是一種先進的視頻生成模型，由北京大學、快手科技和北京郵電大學的研究人員聯合推出。模型根據文本提示生成長達10秒、分辨率高達1280x768、幀率2...

閱讀原文

AI工具

1年前 (2024)

Aria

Aria是由Rhymes AI團隊推出全球首個開源多模態原生混合專家（MoE）模型，能理解和處理文本、代碼、圖像和視頻等多種輸入模態。模型在多模態和語言任務上展現...

閱讀原文

AI工具

1年前 (2024)

Swarm

Swarm是由OpenAI推出的一個實驗性框架，旨在構建、編排和部署多智能體系統。基于輕量級的Agent和handoff機制，簡化智能體之間的協調和執行過程，讓控制更加精...

閱讀原文

AI工具

1年前 (2024)

百度智能云一見

百度智能云一見是百度智能云推出的視覺大模型平臺，旨在基于領先的視覺大模型技術和豐富的場景化算法方案，實現專業級視覺AI應用的平民化。平臺打通從模型生...

閱讀原文

AI工具

1年前 (2024)

libcom

libcom 是一個由上海交通大學 (BCMI) 實驗室推出的圖像合成工具箱。旨在解決前景和背景之間的不一致性問題，如外觀、幾何和語義上的不匹配，生成逼真的合成圖...

閱讀原文

AI工具

1年前 (2024)

F5-TTS

F5-TTS是由上海交通大學開源的一款高性能文本到語音（TTS）系統，基于流匹配的非自回歸生成方法，結合擴散變換器（DiT）技術。系統在沒有額外監督的情況下，...

閱讀原文

AI工具

1年前 (2024)

CursorCore

CursorCore是一個基于大型語言模型（LLMs）的編程輔助框架，用對話式交互幫助程序員更高效地編寫和修改代碼。框架整合編程過程中的各種信息，包括代碼歷史、...

閱讀原文

AI工具

1年前 (2024)

MM1.5

MM1.5是蘋果公司推出的多模態大型語言模型，旨在增強文本豐富圖像理解、視覺指代和定位以及多圖像推理能力。模型基于數據為中心的訓練方法，在大規模預訓練、...

閱讀原文

AI工具

1年前 (2024)

Surya

Surya是一款功能強大的開源OCR（光學字符識別）工具包，專門設計用在文檔識別，支持超過90種語言的識別。Surya能準確識別出文檔中的文本，分析文本的閱讀順序...

閱讀原文

AI工具

1年前 (2024)

Illuminate

Illuminate 是一個由谷歌開發的項目，能將學術論文轉化為人工智能生成的音頻討論。項目基于谷歌強大的語言模型 Gemini，將論文內容轉換成引人入勝的對話，使...

閱讀原文

AI工具

1年前 (2024)

Loong

Loong是由香港大學和字節跳動聯合推出的一種新型長視頻生成模型，能生成外觀一致、動態豐富、場景過渡自然的分鐘級長視頻。模型基于自回歸大型語言模型（LLM...

閱讀原文

AI工具

1年前 (2024)

ScriptViz

ScriptViz是由斯坦福大學研究人員推出的一款劇本可視化輔助工具，基于大型電影數據庫MovieNet，根據劇本文本和對話檢索出相匹配的電影畫面，將編劇的文字描述...

閱讀原文

AI工具

1年前 (2024)

MLE-bench

MLE-bench 是 OpenAI 推出的一個基準測試工具，旨在衡量AI代理（AI Agent）在機器學習工程任務中的表現。測試包含75個來自 Kaggle 的競賽任務，覆蓋自然語言...

閱讀原文

AI工具

1年前 (2024)

GTSinger

GTSinger是由浙江大學研究團隊推出的大型開源高質量歌聲數據集，旨在支持多樣化的歌聲任務。GTSinger包含80.59小時的專業錄音棚錄制的歌聲，涵蓋九種不同語言...

閱讀原文

AI工具

1年前 (2024)

1…141 142143144 145…155