AI項目和框架
無需微調的推理框架,提升擴散模型生成能力首次實現8K分辨率圖像
FreeScale是南洋理工大學、阿里巴巴集團和復旦大學推出無需微調的推理框架,提升預訓練擴散模型生成高分辨率圖像和視頻的能力。FreeScale基于處理和融合不同...
西工大聯合微軟和香港大學推出的說唱樂生成模型
Freestyler是西北工業大學計算機科學學院音頻、語音與語言處理小組(ASLP@NPU)、微軟及香港中文大學深圳研究院大數據研究所共同推出的說唱樂生成模型,能直...
Snap聯合港科大等機構推出的移動端文生圖模型
SnapGen是Snap Inc、香港科技大學、墨爾本大學等機構聯合推出的文本到圖像(T2I)擴散模型,能在移動設備上快速生成高分辨率(1024x1024像素)的圖像,且只需...
kimi推出的 k1 系列強化學習模型
k1 視覺思考模型是kimi推出的k1系列強化學習AI模型,原生支持端到端圖像理解和思維鏈技術,將能力擴展到數學之外的更多基礎科學領域。k1模型在圖像理解、數學...
360 推出國產自研 AI 大模型,多項評測優于GPT-4o
360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有顯著提升,特別是在數學和邏輯推理任務上表現出色。模型通過合成數據優化、模型后訓練和“慢思考”范式實...
騰訊微信推出的多模態大模型
POINTS 1.5 是騰訊微信發布的多模態大模型,是POINTS 1.0的升級版本。 模型繼續沿用了POINTS 1.0中的LLaVA架構,由一個視覺編碼器、一個投影器和一個大型語言...
Step-1o:國內首個千億參數端到端語音大模型震撼發布,性提升語音識別與合成能力
Step-1o是階躍星辰推出的國內首個千億參數端到端語音大模型。模型支持語音、文本等混合形式的輸入和輸出,可以快速反應并隨時打斷,提供最便捷的互動體驗;同...
Insight-V:多模態模型提升長鏈視覺推理能力的創新解決方案
Insight-V是南洋理工大學、騰訊公司和清華大學的研究者們共同推出的多模態模型,能提升多模態大型語言模型在長鏈視覺推理方面的能力?;诳蓴U展的數據生成流...
SVDQuant:高效擴散模型后訓練量化技術提升AI性能與推理速度
SVDQuant是MIT研究團隊推出的后訓練量化技術,針對擴散模型,將模型的權重和激活值量化至4位,減少內存占用加速推理過程。SVDQuant引入高精度的低秩分支吸收...
Meta 推出控制數字智能體動作的人工智能模型
Meta Motivo 是 Meta 公司推出的AI模型,能提升元宇宙體驗的真實性。Meta Motivo基于控制虛擬人形智能體的全身動作,模擬人類行為,增強用戶互動。模型采用無...
微軟推出的14B參數小語言模型,擅長數學等領域的復雜推理
Phi-4是微軟推出的14億參數小型語言模型,在數學等領域的復雜推理以及傳統語言處理方面表現出色。Phi-4用數據質量為核心訓練重點,大量融入合成數據,提升模...
AI文本引導圖像編輯框架,0.23秒內實現高質量的圖像編輯
SwiftEdit是由VinAI Research團隊推出的文本引導的圖像編輯工具,基于創新的一步擴散技術,能在0.23秒內實現快速且高質量的圖像編輯。工具的核心優勢在于一步...
AI 客戶端,基于 MCP 支持多語言和自動化安裝
ChatMCP 是基于模型上下文協議(MCP)的 AI 聊天客戶端,支持與各種大型語言模型(LLM)如 OpenAI、Claude 和 OLLama 等進行交互。ChatMCP具備自動化安裝 MCP...
谷歌推出支持多模態交互、低延遲實時互動的AI接口
Multimodal Live API 是谷歌推出的低延遲、雙向交互的AI接口,支持文本、音頻和視頻輸入,用音頻和文本形式輸出,能幫助開發者構建具有實時音頻和視頻流功能...
用于測試不同LLM編程能力的在線平臺
CodeArena是在線平臺,基于讓多個大型語言模型(LLM)同時構建相同的應用程序,實時顯示排名結果,比較LLM生成代碼的能力。CodeArena平臺主要評估和比較不同L...
粵公網安備 44011502001135號