標簽:信息檢索
AniDoc:自動化草圖到彩色動畫轉化的創新視頻擴散模型
AniDoc是香港科技大學、螞蟻集團、南京大學、浙江大學和香港大學共同推出的簡化2D動畫上色AI模型,基于視頻擴散模型自動將草圖序列轉換成彩色動畫,遵循參考...
Pi:多種生成方式的智能創作平臺助力高效內容創作
Pi(Presentation Intelligence)是AI-Native的互動內容創作和共享平臺,基于AI簡化演示文檔的創作過程。Pi支持多種內容生成方式,包括一句話生成、文件導入...
Lamucal:智能音樂創作助手實時生成和弦、吉他譜、歌詞與旋律
Lamucal是AI驅動的音樂創作工具,能實時生成任何歌曲的和弦、吉他譜、歌詞和旋律。Lamucal支持互動學習,用戶能將音樂轉換成可演奏的和弦,并基于AI翻唱功能...
Promptriever:智能家居助手提升生活質量的五大關鍵特點
Promptriever 是約翰斯·霍普金斯大學和Samaya AI聯合推出的新型檢索模型,能像語言模型一樣接受自然語言提示,用直觀的方式響應用戶的搜索需求。Promptriever...
SmolVLM:輕量級視覺語言模型助力多模態任務的高效解決方案
SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設備端推理設計。以20億參數量,實現了高效內存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同...
DeepSeek-R1-Lite:DeepSeek推理模型預覽版全面提升智能分析與預測能力
DeepSeek-R1-Lite是DeepSeek推出的推理模型預覽版,DeepSeek-R1-Lite用強化學習訓練,具備長思維鏈推理能力,能實時展示推理思考過程,性能在多個基準測試中...
RAG-Diffusion:區域感知文本到圖像生成技術的創新應用與優勢分析
RAG-Diffusion是南京大學團隊推出的區域感知文本到圖像生成方法。基于區域硬綁定和區域軟細化兩個階段,實現對圖像中各個區域的精確控制和細節優化。RAG-Diff...
MSQA:大規模多模態3D場景推理數據集
MSQA(Multi-modal Situated Question Answering)是大規模多模態情境推理數據集,提升具身AI代理在3D場景中的理解與推理能力。數據集包含251K個問答對,覆蓋...
什么是嵌入向量(Embedding Vectors):人工智能的基本概念與應用領域
嵌入向量(Embedding Vectors)是一種將數據(如文本、圖像、用戶信息)映射到高維空間中的數字向量的技術。能夠捕捉數據間的相似性和關系,使得相似的數據點...