標簽:內(nèi)容創(chuàng)作輔助

ARTalk

ARTalk是東京大學(xué)和日本理化學(xué)研究所推出的新型語音驅(qū)動3D頭部動畫生成框架,基于自回歸模型實現(xiàn)實時、高同步性的唇部動作和自然的面部表情及頭部姿勢生成。A...
閱讀原文

Pipecat

Pipecat是開源的Python框架,專注于構(gòu)建語音和多模態(tài)對話代理。基于內(nèi)置的語音識別、文本轉(zhuǎn)語音(TTS)和對話處理功能,簡化AI服務(wù)的復(fù)雜協(xié)調(diào)、網(wǎng)絡(luò)傳輸、音...
閱讀原文

PersonaMagic

PersonaMagic 是創(chuàng)新的高保真人臉定制技術(shù),通過階段調(diào)節(jié)的文本條件策略實現(xiàn)個性化圖像生成。基于簡單多層感知機(MLP)網(wǎng)絡(luò)學(xué)習(xí)一系列動態(tài)嵌入,在特定時間...
閱讀原文

HuatuoGPT-o1

HuatuoGPT-o1是香港中文大學(xué)(深圳)和深圳大數(shù)據(jù)研究院聯(lián)合推出的,針對醫(yī)學(xué)領(lǐng)域開發(fā)的復(fù)雜推理模型,基于復(fù)雜的推理能力提高解決醫(yī)學(xué)問題的性能。模型用兩...
閱讀原文

星火標翼

星火標翼是科大訊飛推出的智能投標輔助工具,集標書知識構(gòu)建、標書編寫檢查于一體的智能投標輔助應(yīng)用。依托星火大模型解析投標所需資質(zhì)、業(yè)績、方案等內(nèi)容,...
閱讀原文

CogAgent-9B

CogAgent-9B是基于 GLM-4V-9B 訓(xùn)練的專用Agent任務(wù)模型,僅依賴屏幕截圖作為輸入,無需HTML等文本表征。CogAgent-9B支持高分辨率圖像處理,具備雙語(中英文...
閱讀原文

MetaMorph:智能多模態(tài)產(chǎn)品提升用戶體驗與交互效率

MetaMorph是多模態(tài)大模型(MLLM),通過指令微調(diào)(Instruction Tuning)實現(xiàn)視覺理解和生成。它提出了一種名為Visual-Predictive Instruction Tuning(VPiT)...
閱讀原文

Liner:智能推薦與信息管理的全能助手

Liner是專為學(xué)生和研究人員打造的AI搜索引擎,致力于提升研究效率。Liner提供可信來源、自動引用生成、事實核查和篩選功能,幫助用戶快速、準確地獲取信息。L...
閱讀原文

LongLLaVA:多模態(tài)上下文混合架構(gòu)大語言模型的創(chuàng)新應(yīng)用與特點解析

LongLLaVA是多模態(tài)大型語言模型(MLLM),基于混合架構(gòu)結(jié)合Mamba和Transformer模塊,能高效處理大量圖像,特別擅長視頻理解和高分辨率圖像分析。LongLLaVA在...
閱讀原文

代悟:智能搜索引擎助力開發(fā)者高效獲取精準信息

代悟是專為開發(fā)者打造的AI搜索引擎。基于深度學(xué)習(xí)技術(shù)和知識圖譜,幫助開發(fā)者快速、精準地獲取技術(shù)信息和解決方案。基于整合海量的開發(fā)文檔、代碼庫和社區(qū)問...
閱讀原文

Promptim:智能優(yōu)化庫助力自動迭代配置生成與性能提升

Promptim是實驗性的AI提示優(yōu)化庫,基于自動化流程提升AI系統(tǒng)在特定任務(wù)上的提示效果。用戶提供初始提示、數(shù)據(jù)集和自定義評估器,Promptim能自動運行優(yōu)化循環(huán)...
閱讀原文

Void:開源AI編碼工具的智能補全與建議功能

Void 是基于 Visual Studio Code 構(gòu)建的開源文本編輯器,集成AI技術(shù)增強編程體驗。Void支持代碼自動補全、內(nèi)聯(lián)編輯、AI 驅(qū)動的代碼搜索,直接與大型語言模型...
閱讀原文

Grok-1

Grok-1 是由馬斯克旗下的人工智能初創(chuàng)公司 xAI 開發(fā)的一款大型語言模型,是一個混合專家(MoE)模型,擁有 3140 億參數(shù),使其成為目前參數(shù)量最大的開源大語言...
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數(shù)規(guī)模的版本。該大模型利用層...
閱讀原文

GPT-4o

GPT-4o是OpenAI最新推出的一款先進的人工智能模型,具備強大的多模態(tài)推理能力,能夠處理語音、文本和視覺信息。該模型能夠?qū)崟r響應(yīng)用戶輸入,并且在音頻交互...
閱讀原文
123