標簽:多模態交互

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

Kimi-Dev

Kimi-Dev是Moonshot AI推出的開源代碼模型,專為軟件工程任務設計。模型擁有 72B 參數量,編程水平比最新的DeepSeek-R1還強,和閉源模型比較也表現優異。在 S...
閱讀原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升級版多模態AI模型,具體版本號為 Gemini 2.5 Pro Preview 05-06。模型在編程能力上取得重大突破...
閱讀原文

Embodied Reasoner

Embodied Reasoner是浙江大學、中國科學院軟件研究所、阿里巴巴集團等機構推出的新型的具身交互推理模型,基于視覺搜索、推理和行動協同完成復雜任務。模型基...
閱讀原文

訊飛星辰MaaS

訊飛星辰MaaS是科大訊飛推出的AI大模型定制微調平臺,創建你的專屬定制大模型。訊飛星辰MaaS匯集20多個行業內知名的優質模型,如星火大模型、Llama3、DeepSee...
閱讀原文

Qwen2.5-VL-32B

Qwen2.5-VL-32B是阿里巴巴開源的多模態模型,參數規模為32B。模型在Qwen2.5-VL系列的基礎上,基于強化學習優化,具備更符合人類偏好的回答風格、顯著提升的數...
閱讀原文

騰訊混元Turbo S

騰訊混元Turbo S是騰訊推出的新一代快思考模型。模型采用創新的Hybrid-Mamba-Transformer融合架構,有效降低了傳統Transformer的計算復雜度,減少了KV-Cache...
閱讀原文

騰訊混元T1

T1(Thinker)是騰訊混元推出的最新深度思考模型,已正式上線接入騰訊元寶。模型專注于邏輯推理和深度思考,支持聯網搜索功能,能從互聯網信源、微信公眾號、...
閱讀原文

OmniHuman

OmniHuman 是字節跳動推出的端到端多模態條件化人類視頻生成框架,能基于單張人類圖像和運動信號(如音頻、視頻或兩者的組合)生成逼真的人類視頻。OmniHuman...
閱讀原文

微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」!

原標題:微軟華人團隊最新研究:從LLM到LAM,讓大模型真正具有「行動力」! 文章來源:新智元 內容字數:6294字微軟大型行動模型LAM:AI從“聊天”到“行動”的跨...
閱讀原文

GUI Agent綜述 : 2-GUI Agent的三大技術基石

本文主要介紹鑄就GUI Agent的三大技術基石。
閱讀原文

LLaVA-o1:開源視覺語言模型助力智能理解與生成內容

LLaVA-o1是北京大學、清華大學、鵬城實驗室、阿里巴巴達摩院以及理海大學(Lehigh University)組成的研究團隊推出的開源視覺語言模型,基于Llama-3.2-Vision...
閱讀原文

PixVerse V2.5

PixVerse V2.5是愛詩科技最新推出的AI視頻生成工具,通過模型優化提升了視頻生成的速度和畫質,支持4K分辨率。新版本增加了Performance模式、運動筆刷、運鏡...
閱讀原文

混元DiT

混元DiT(Hunyuan-DiT)是由騰訊混元團隊開發的一款高性能的文本到圖像的擴散Transformer模型,具備細粒度的中英文理解能力,能夠根據文本提示生成多分辨率的...
閱讀原文
12