標簽:自然語言處理

MM1.5

MM1.5是蘋果公司推出的多模態(tài)大型語言模型,旨在增強文本豐富圖像理解、視覺指代和定位以及多圖像推理能力。模型基于數(shù)據(jù)為中心的訓(xùn)練方法,在大規(guī)模預(yù)訓(xùn)練、...
閱讀原文

攬睿星舟

攬睿星舟是一個云端AI訓(xùn)推一體算力平臺,由翼方健數(shù)自主研發(fā)。提供高性價比的GPU計算資源、開箱即用的訓(xùn)推環(huán)境及AI工具鏈,旨在解決AI協(xié)作過程中的安全信任問...
閱讀原文

Surya

Surya是一款功能強大的開源OCR(光學字符識別)工具包,專門設(shè)計用在文檔識別,支持超過90種語言的識別。Surya能準確識別出文檔中的文本,分析文本的閱讀順序...
閱讀原文

Loong

Loong是由香港大學和字節(jié)跳動聯(lián)合推出的一種新型長視頻生成模型,能生成外觀一致、動態(tài)豐富、場景過渡自然的分鐘級長視頻。模型基于自回歸大型語言模型(LLM...
閱讀原文

MLE-bench

MLE-bench 是 OpenAI 推出的一個基準測試工具,旨在衡量AI代理(AI Agent)在機器學習工程任務(wù)中的表現(xiàn)。測試包含75個來自 Kaggle 的競賽任務(wù),覆蓋自然語言...
閱讀原文

LightRAG

LightRAG是由香港大學研究團隊推出的一種檢索增強生成(Retrieval-Augmented Generation, RAG)系統(tǒng),基于整合圖結(jié)構(gòu)索引和雙層檢索機制,提升大型語言模型在...
閱讀原文

T2V-Turbo

T2V-Turbo是一種先進的文本到視頻生成模型,由Google、UC Santa Barbara(加利福尼亞大學圣塔芭芭拉分校)、和University of Waterloo(滑鐵盧大學)的研究人...
閱讀原文

OpenR

OpenR是一個由倫敦大學學院(UCL)、上海交通大學、利物浦大學、香港科技大學(廣州)和西湖大學聯(lián)合開源的全鏈條訓(xùn)練框架,旨在提升大型語言模型(LLM)的復(fù)...
閱讀原文

Agent-S

Agent-S 是創(chuàng)新的代理框架,旨在基于圖形用戶界面(GUI)實現(xiàn)人機交互的自動化。Agent-S 基于模擬人類的操作方式,用鼠標和鍵盤直接與計算機交互,處理復(fù)雜的...
閱讀原文

Voiceflow

Voiceflow是一個無代碼對話式人工智能平臺,旨在幫助用戶快速創(chuàng)建和部署AI代理,以自動化客戶服務(wù)和提升用戶體驗。通過直觀的拖放界面,用戶可以設(shè)計復(fù)雜的對...
閱讀原文

scenario

scenario是一個專為游戲開發(fā)者設(shè)計的AI平臺,基于先進的人工智能技術(shù),可以幫助用戶快速生成風格一致且高質(zhì)量的游戲資產(chǎn),如角色、場景和道具等。用戶可以上...
閱讀原文

fal

al是一個面向開發(fā)者的AI平臺,專注于生成音頻、視頻和圖像。fal提供高性能的推理引擎,支持實時應(yīng)用,采用靈活的按需付費模式。fal支持跨平臺集成,提供實時...
閱讀原文

PodLM

PodLM是一款創(chuàng)新的AI播客生成器,基于先進的AI技術(shù),讓用戶能輕松地將網(wǎng)頁內(nèi)容、文本或文檔轉(zhuǎn)換成高質(zhì)量的播客節(jié)目。工具提供一個用戶友好的界面,沒有音頻制...
閱讀原文

Baichuan-Omni

Baichuan-Omni 是由百川智能推出的一款開源的 7B 多模態(tài)大型語言模型(MLLM),能同時處理和分析圖像、視頻、音頻和文本等多種模態(tài)的數(shù)據(jù)。Baichuan-Omni 提...
閱讀原文

VAPI

VAPI是一個為開發(fā)者設(shè)計的語音AI平臺,基于提供簡單易用的API,讓開發(fā)者快速將語音識別和語音合成功能集成到各種應(yīng)用中。VAPI 基于先進的機器學習技術(shù),確保...
閱讀原文
1565758596067