港科大在讀博士劉兆洋：從 InternGPT 到 ControlLLM，基于大語言模型的多模態理解與生成能力構建

AIGC動態2年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：港科大在讀博士劉兆洋：從 InternGPT 到 ControlLLM，基于大語言模型的多模態理解與生成能力構建
關鍵字：模型,語言,工具,用戶,工作
文章來源：算法邦
內容字數：2045字

內容摘要：

1月17日晚7點，智猩猩推出「多模態大模型線上閉門會」。本次閉門會由阿里巴巴通義實驗室 NLP 高級算法專家嚴明參與出品，并聚焦于大語言模型工具調用 ControlLLM、長視頻理解視覺語言模型 LLaMA-VID和多模態文檔理解大模型 mPLUG-DocOwl，香港科技大學在讀博士劉兆洋、香港中文大學在讀博士李彥瑋和阿里巴巴通義實驗室高級算法工程師文束將參與主講。
其中，劉兆洋將圍繞主題《從 InternGPT 到 ControlLLM，基于大語言模型的多模態理解與生成能力構建》進行直播講解。
本次分享將圍繞大語言模型工具調用的最新進展以及相關工作進行展開，主要包括：InternGPT 和 ControlLLM。
InternGPT 作為早期大語言模型工具調用的探索工作，率先嘗試基于指尖設備構建多模態交互系統，讓用戶通過點擊、框選、拖動等方式與 ChatGPT 交流，并解決視覺任務。ControlLLM 是全新的工具調用框架，基于 Thoughts-on-Graph 任務規劃范式，讓大型語言模型 (LLMs) 能夠利用多模態工具，解決更復雜的真實世界任務。
這兩個工作都展示了如何通過

原文鏈接：港科大在讀博士劉兆洋：從 InternGPT 到 ControlLLM，基于大語言模型的多模態理解與生成能力構建