豆包升級(jí)了“眼睛”,看APP截圖就能寫(xiě)代碼了!超低價(jià)讓多模態(tài)AI普惠
1元錢(qián)就能處理248張圖

原標(biāo)題:豆包升級(jí)了“眼睛”,看APP截圖就能寫(xiě)代碼了!超低價(jià)讓多模態(tài)AI普惠
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):6829字
豆包大模型全面升級(jí):視覺(jué)、語(yǔ)音、語(yǔ)言能力顯著提升
本文總結(jié)了金磊撰寫(xiě)的文章,介紹了豆包大模型的最新升級(jí),重點(diǎn)在于其視覺(jué)、語(yǔ)音和語(yǔ)言能力的提升,以及在實(shí)際應(yīng)用中的落地情況。
視覺(jué)能力升級(jí):豆包·視覺(jué)理解模型驚艷亮相
豆包發(fā)布了新的視覺(jué)理解模型,其核心亮點(diǎn)在于內(nèi)容識(shí)別更強(qiáng)、理解與推理增強(qiáng)以及視覺(jué)描述細(xì)膩。它能夠識(shí)別OCR、圖像知識(shí)、動(dòng)作情緒、位置狀態(tài)等,尤其對(duì)中國(guó)傳統(tǒng)文化理解更深。在與GPT-4的對(duì)比測(cè)試中,豆包在復(fù)雜物體識(shí)別、反向猜Prompt等方面表現(xiàn)更優(yōu),尤其在處理AIME數(shù)學(xué)競(jìng)賽題上展現(xiàn)了強(qiáng)大的邏輯推理能力。此外,豆包在提取復(fù)雜表格數(shù)據(jù)方面也表現(xiàn)出色,遠(yuǎn)超GPT-4。
語(yǔ)音能力升級(jí):豆包·音樂(lè)模型生成完整音樂(lè)
豆包的語(yǔ)音模型——豆包·音樂(lè)模型,現(xiàn)已能夠生成長(zhǎng)達(dá)3分鐘的完整音樂(lè),并支持多種曲風(fēng)、心情和特征的創(chuàng)作。用戶(hù)不僅可以用文字Prompt,還可以用圖片來(lái)作曲,展現(xiàn)了其強(qiáng)大的音樂(lè)生成能力和對(duì)圖像內(nèi)容的理解能力。
語(yǔ)言能力升級(jí):大語(yǔ)言模型全面提升
豆包的大語(yǔ)言模型在各個(gè)方面都有顯著提升,與小半年前相比,綜合能力提升了32%,數(shù)學(xué)能力提升43%,專(zhuān)業(yè)知識(shí)提升54%,代碼能力提升58%。這使得豆包能夠更好地理解和處理各種語(yǔ)言任務(wù)。
應(yīng)用落地:HiAgent和扣子賦能企業(yè)
豆包大模型已經(jīng)廣泛應(yīng)用于科教、金融、醫(yī)療、企業(yè)服務(wù)和汽車(chē)等多個(gè)行業(yè),并與眾多頭部企業(yè)達(dá)成合作。其日均tokens使用量已突破4萬(wàn)億大關(guān)。為了方便企業(yè)應(yīng)用,豆包推出了HiAgent和扣子兩大工具,分別提供應(yīng)用模板和開(kāi)發(fā)者生態(tài),降低了企業(yè)使用AI的門(mén)檻,加速了應(yīng)用落地。
價(jià)格優(yōu)勢(shì):大幅降低使用成本
豆包·視覺(jué)理解模型的價(jià)格大幅降低,僅需0.003元/千tokens,性?xún)r(jià)比極高。
總而言之,豆包大模型在視覺(jué)、語(yǔ)音和語(yǔ)言三個(gè)方面都實(shí)現(xiàn)了顯著的升級(jí),并通過(guò)HiAgent和扣子等工具,有效降低了企業(yè)應(yīng)用門(mén)檻,展現(xiàn)了其強(qiáng)大的技術(shù)實(shí)力和市場(chǎng)競(jìng)爭(zhēng)力。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

粵公網(wǎng)安備 44011502001135號(hào)