標(biāo)簽:多模態(tài)大模型
WPS接入DeepSeek,秒變辦公神器!
WPS 大家經(jīng)常用來日常寫作,雖然本身提供了AI功能,但可惜需要會(huì)員,本文教你三分鐘接入最火的DeepSeek,讓W(xué)PS秒變辦公神器。 DeepSeek API申請(qǐng)地址:http:/...
AI賺錢副業(yè)~AI生成影視解說,半個(gè)月漲粉變現(xiàn)3.5W+!
這兩年大家都在感嘆生活不易,然而我想說的是,機(jī)會(huì)還是有的,但問題不在于有沒有,而在于你是否能夠認(rèn)準(zhǔn)機(jī)會(huì),然后抓住它。 接觸過很多咨詢項(xiàng)目的人,發(fā)現(xiàn)...
大語言模型簡史:從Transformer(2017)到DeepSeek-R1(2025)的進(jìn)化之路
原標(biāo)題:大語言模型簡史:從Transformer(2017)到DeepSeek-R1(2025)的進(jìn)化之路 文章來源:人工智能學(xué)家 內(nèi)容字?jǐn)?shù):24587字大型語言模型(LLM)發(fā)展簡史:...
最強(qiáng)全模態(tài)模型Ola-7B橫掃圖像、視頻、音頻主流榜單,騰訊混元Research&清華&NTU聯(lián)手打造
Ola 的核心設(shè)計(jì)在于其漸進(jìn)式模態(tài)對(duì)齊策略。
單卡3090幫你一口氣看完《黑悟空》,港大百度打造超長視頻理解引擎VideoRAG
研究團(tuán)隊(duì)還建立了全新的 LongerVideos 基準(zhǔn)數(shù)據(jù)集。
統(tǒng)一SAM2和LLaVA!字節(jié)豆包提出Dense Video多模態(tài)大模型Sa2VA
第一個(gè)結(jié)合SAM-2和LLaVA-like的視頻多模態(tài)大模型。
年末重磅!ByteDance Research視頻理解大模型「眼鏡猴」正式發(fā)布
補(bǔ)齊多模態(tài)最后一塊短板,Tarsier2 反超 GPT4o、Gemini-1.5-Pro!
階躍星辰再拿多模態(tài)榜首,全方位升級(jí)發(fā)布六款模型
由月更加速到日更,階躍模型迭代駛?cè)搿缚燔嚨馈埂?/div>
閱讀原文 僅縮小視覺Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬Token!清華大學(xué),香港大學(xué),上海AI Lab新突破
V2PE 的提出將為視覺 - 語言模型的發(fā)展帶來新的機(jī)遇。
前微軟亞研院視覺專家胡瀚加入騰訊,負(fù)責(zé)混元多模態(tài)大模型
胡瀚是計(jì)算機(jī)視覺領(lǐng)域通用架構(gòu)Swim Transformer的核心作者之一。
謝賽寧、李飛飛「空間智能」新作:多模態(tài)大模型仍難突破空間推理
原標(biāo)題:謝賽寧、李飛飛「空間智能」新作:多模態(tài)大模型仍難突破空間推理 文章來源:人工智能學(xué)家 內(nèi)容字?jǐn)?shù):8364字多模態(tài)大語言模型的空間推理能力研究 本...
決策背后的秘密:探索首個(gè)多模態(tài)大模型的魔法與科學(xué)之謎
首個(gè)深入探索多模態(tài)大模型(MLLM)的可解釋性綜述,從數(shù)據(jù)、模型、訓(xùn)練推理多個(gè)視角剖析多模態(tài)人工智能的決策邏輯,揭示其 “魔法” 背后的科學(xué)依據(jù)。
天池 Better Synth 多模態(tài)大模型數(shù)據(jù)合成挑戰(zhàn)賽盛大開幕
原標(biāo)題:天池 Better Synth 多模態(tài)大模型數(shù)據(jù)合成挑戰(zhàn)賽盛大開幕 文章來源:小夏聊AIGC 內(nèi)容字?jǐn)?shù):3565字第四屆 Data-Juicer 數(shù)據(jù)挑戰(zhàn)賽盛大開啟 據(jù)AITOP100...
12