1元錢就能處理248張圖
原標題:豆包升級了“眼睛”,看APP截圖就能寫代碼了!超低價讓多模態AI普惠
文章來源:量子位
內容字數:6829字
豆包大模型全面升級:視覺、語音、語言能力顯著提升
本文總結了金磊撰寫的文章,介紹了豆包大模型的最新升級,重點在于其視覺、語音和語言能力的提升,以及在實際應用中的落地情況。
視覺能力升級:豆包·視覺理解模型驚艷亮相
豆包發布了新的視覺理解模型,其核心亮點在于內容識別更強、理解與推理增強以及視覺描述細膩。它能夠識別OCR、圖像知識、動作情緒、位置狀態等,尤其對中國傳統文化理解更深。在與GPT-4的對比測試中,豆包在復雜物體識別、反向猜Prompt等方面表現更優,尤其在處理AIME數學競賽題上展現了強大的邏輯推理能力。此外,豆包在提取復雜表格數據方面也表現出色,遠超GPT-4。
語音能力升級:豆包·音樂模型生成完整音樂
豆包的語音模型——豆包·音樂模型,現已能夠生成長達3分鐘的完整音樂,并支持多種曲風、心情和特征的創作。用戶不僅可以用文字Prompt,還可以用圖片來作曲,展現了其強大的音樂生成能力和對圖像內容的理解能力。
語言能力升級:大語言模型全面提升
豆包的大語言模型在各個方面都有顯著提升,與小半年前相比,綜合能力提升了32%,數學能力提升43%,專業知識提升54%,代碼能力提升58%。這使得豆包能夠更好地理解和處理各種語言任務。
應用落地:HiAgent和扣子賦能企業
豆包大模型已經廣泛應用于科教、金融、醫療、企業服務和汽車等多個行業,并與眾多頭部企業達成合作。其日均tokens使用量已突破4萬億大關。為了方便企業應用,豆包推出了HiAgent和扣子兩大工具,分別提供應用模板和開發者生態,降低了企業使用AI的門檻,加速了應用落地。
價格優勢:大幅降低使用成本
豆包·視覺理解模型的價格大幅降低,僅需0.003元/千tokens,性價比極高。
總而言之,豆包大模型在視覺、語音和語言三個方面都實現了顯著的升級,并通過HiAgent和扣子等工具,有效降低了企業應用門檻,展現了其強大的技術實力和市場競爭力。
聯系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破