標簽:自然語言理解

LaDeCo

LaDeCo是西安交通大學和微軟研究院聯合推出的自動圖形設計構圖方法,基于將設計任務分解為層次化的步驟來實現。LaDeCo對輸入的設計元素進行層規劃,將它們分...
閱讀原文

twee

twee是專為英語教師設計的AI驅動在線平臺,提供一系列教學輔助工具。twee能快速生成針對任何YouTube視頻的問題、不同主題和水平的對話、故事、信件和文章。tw...
閱讀原文

探一下

探一下是支付寶推出的新一代AI視覺搜索產品,基于自研的多模態大模型技術,能夠“用AI之眼探索萬物”,提供快速、有用、趣味的生成式搜索服務。用戶可以通過AI...
閱讀原文

Mind GPT-3o

Mind GPT-3o是理想汽車推出的多模態端到端大模型,融合語音、視覺和語言理解技術,實現高效實時交互。Mind GPT-3o具備記憶、規劃、工具使用和表達能力,能提...
閱讀原文

Bamba-9B:Mamba2架構驅動的高效解碼語言模型展現卓越性能與靈活應用

Bamba-9B是IBM、普林斯頓大學、卡內基梅隆大學和伊利諾伊大學香檳分校聯合推出的,基于Mamba2架構的僅解碼語言模型模型。模型在完全開放的數據集上訓練,能提...
閱讀原文

Doctronic

Doctronic是提供在線AI醫生服務的平臺,為用戶提供快速、免費的初步健康咨詢。Doctronic基于一系列問題收集用戶的健康信息,幫助診斷癥狀或討論健康問題。用...
閱讀原文

LeviTor

LeviTor是南京大學、螞蟻集團、浙江大學等機構推出的圖像到視頻合成技術,結合深度信息和K-means聚類點控制視頻中3D物體的軌跡,無需顯式的3D軌跡跟蹤。LeviT...
閱讀原文

顛覆視覺認知:Florence-VL引領多模態大語言模型的新紀元

通過融合不同深度的特征,Florence-VL實現了更全面的視覺理解。
閱讀原文

Lyra:提升多模態交互體驗的SmartMore創新解決方案

Lyra是香港中文大學、SmartMore和香港科技大學推出的高效多模態大型語言模型(MLLM),專注于提升語音、視覺和語言模態的交互能力。Lyra基于開源大型模型、多...
閱讀原文

Large Action Models:微軟行動大模型開發框架助力高效智能應用構建與部署

Large Action Models(LAMs)是微軟推出大型行動模型的開發框架,能執行真實世界行動的智能系統,LAMs超越傳統LLMs(Large Language Models,大型語言模型)...
閱讀原文

EMOVA:華為諾亞方舟多模態處理模型全面提升智能交互與應用效率

EMOVA(EMotionally Omni-present Voice Assistant)是多模態全能模型,是香港科技大學、香港大學和華為諾亞方舟實驗室等機構共同推出的。EMOVA能處理圖像、...
閱讀原文

Devika AI:智能AI助手助力高效執行復雜任務

Devika AI是印度Stition AI團隊推出的開源AI軟件開發工具,能理解并執行復雜的人類指令,將其分解為步驟,進行研究和信息搜集,最終編寫代碼以實現目標。Devi...
閱讀原文

NVLM:英偉達推出的多模態大型語言模型賦能跨領域智能交互與應用

NVLM是NVIDIA推出的前沿多模態大型語言模型(LLMs),在視覺-語言任務上達到與頂尖專有模型(如GPT-4o)和開放訪問模型(如Llama 3-V 405B和InternVL 2)相匹...
閱讀原文

QwQ-32B-Preview:超越O1模型的阿里開源AI推理產品實現高效精準的智能決策

QwQ-32B-Preview(QwQ-32B)是阿里巴巴開源的實驗性研究AI模型,以強大的推理能力著稱,尤其在數學和編程領域表現卓越。QwQ-32B-Preview包含325億參數,能處...
閱讀原文

ACE:全能圖像生成與編輯模型賦能創意無限可能

ACE(All-round Creator and Editor)是阿里巴巴集團Tongyi Lab推出的基于擴散變換器的全能圖像生成和編輯模型。ACE引入長上下文條件單元(LCU)和統一條件格...
閱讀原文