AIGC動態歡迎閱讀
原標題:今日arXiv最熱大模型論文:13位作者,200篇文獻,騰訊最新綜述高效多模態大模型:性能要強,規模要小
關鍵字:模型,高效,視覺,騰訊,圖像
文章來源:夕小瑤科技說
內容字數:0字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年在過去一年里,多模態大語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中展現了卓越性能。OpenAI的GPT-4V和Google的Gemini的驚人表現拉高了人們對MLLMs的期待。
他們的成功很大程度歸功于scaling law,即投入的數據、計算能力或模型越大,模型的性能就越強。
然而,就像一臺重型機器需要巨大的能源支持和高昂的“維護費”,龐大的模型規模和高昂的訓練與推理成本限制了MLLMs在學術界和工業界的廣泛應用,更別說在邊緣設備上運行。
據計算,訓練MiniGPT-v2在使用NVIDIA A100 GPU的情況下也需要超過800個小時。除此之外,推理過程的資源消耗也是個大頭。以一個典型場景為例,當模型輸入為336×336像素的圖像和40個token的文本提示時,使用LLaVA-1.5和Vicuna-13B LLM核心進行推理,這個過程需要高達18.2萬億次的浮點運算(FLOPS)和41.6GB的內存。
這促使學者不得不開始研究如何降低MLLM的資源消耗,使其能在更廣泛的場景下得到應用,同時還要盡量保持其高性能,也就是高效輕量級的MLLM
原文鏈接:今日arXiv最熱大模型論文:13位作者,200篇文獻,騰訊最新綜述高效多模態大模型:性能要強,規模要小
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189
相關文章
