Qianfan-VL – 百度開源的視覺理解模型
核心亮點(diǎn):百度智能云千帆發(fā)布的Qianfan-VL是一款面向企業(yè)級(jí)多模態(tài)應(yīng)用的大型視覺理解模型,提供3B、8B、70B三種尺寸,具備卓越的通用能力,并在OCR、教育等垂直領(lǐng)域得到深度優(yōu)化。該模型支持復(fù)雜圖表理解、視覺推理、數(shù)學(xué)解題等任務(wù),為企業(yè)提供高精度視覺理解解決方案。
Qianfan-VL:引領(lǐng)企業(yè)級(jí)多模態(tài)視覺理解新紀(jì)元
百度智能云千帆隆重推出Qianfan-VL,一款專為企業(yè)級(jí)多模態(tài)應(yīng)用場(chǎng)景量身打造的尖端視覺理解大模型。Qianfan-VL以其卓越的通用能力和在OCR、教育等垂直領(lǐng)域的專項(xiàng)強(qiáng)化能力,為企業(yè)級(jí)應(yīng)用注入強(qiáng)大的視覺智能。
多維度實(shí)力,滿足多樣化需求
Qianfan-VL提供3B、8B和70B三種不同規(guī)模的模型版本,旨在滿足從端側(cè)實(shí)時(shí)應(yīng)用到復(fù)雜推理計(jì)算等各類企業(yè)需求。無(wú)論您的應(yīng)用場(chǎng)景規(guī)模如何,總有一款Qianfan-VL能與之完美契合。
OCR與文檔理解的革新者
在OCR識(shí)別方面,Qianfan-VL展現(xiàn)出全場(chǎng)景的精準(zhǔn)識(shí)別能力,無(wú)論是手寫體、數(shù)學(xué)公式還是自然場(chǎng)景中的文字,都能被高效捕捉。對(duì)于卡證票據(jù),模型能進(jìn)行結(jié)構(gòu)化信息提取,大幅提升數(shù)據(jù)錄入效率。同時(shí),其在復(fù)雜版面文檔理解方面表現(xiàn)尤為突出,能夠智能分析文檔結(jié)構(gòu),精準(zhǔn)解析表格和圖表,實(shí)現(xiàn)文檔的智能問答與結(jié)構(gòu)化解析,徹底改變企業(yè)文檔處理的面貌。
智能思考,深度推理
Qianfan-VL的8B和70B版本更是集成了強(qiáng)大的思考推理能力。通過(guò)激活特殊的思維鏈(Chain-of-Thought)能力,模型能夠處理復(fù)雜的圖表理解、視覺推理以及數(shù)學(xué)解題等挑戰(zhàn)性任務(wù)。它能夠巧妙地融合視覺信息與外部知識(shí)進(jìn)行組合推理,并清晰地展示解題思路與步驟,為企業(yè)提供深度智能的決策支持。
通用能力,跨越界限
除了垂直領(lǐng)域的專長(zhǎng),Qianfan-VL在通用多模態(tài)任務(wù)上也表現(xiàn)出色,涵蓋物體識(shí)別、圖像描述、視覺問答等。模型支持中英文混合理解,并具備優(yōu)秀的跨模態(tài)對(duì)齊能力,為各類智能應(yīng)用的開發(fā)提供了堅(jiān)實(shí)的基礎(chǔ)。
技術(shù)內(nèi)核:精湛架構(gòu)與高效訓(xùn)練
Qianfan-VL的技術(shù)基石在于其精湛的多模態(tài)架構(gòu)。3B模型基于Qwen2.5架構(gòu),而8B和70B模型則構(gòu)建于Llama 3.1之上。通過(guò)對(duì)3T中英文語(yǔ)料進(jìn)行詞表擴(kuò)充與本地化增強(qiáng),模型能夠?qū)崿F(xiàn)流暢的中英文混合理解。基于InternViT的初始化,Qianfan-VL支持動(dòng)態(tài)分塊處理不同分辨率的圖像,最高可達(dá)4K分辨率輸入。MLP適配器則巧妙地實(shí)現(xiàn)了視覺與語(yǔ)言模態(tài)的無(wú)縫銜接,確保信息傳遞的精準(zhǔn)與高效。
其能力增強(qiáng)訓(xùn)練管線采用了四階段策略,循序漸進(jìn)地提升模型的通用與領(lǐng)域能力。同時(shí),高精度數(shù)據(jù)合成技術(shù)構(gòu)建了面向多模態(tài)任務(wù)的大規(guī)模數(shù)據(jù)合成管線,涵蓋OCR、數(shù)學(xué)解題、圖表理解等核心任務(wù),通過(guò)精細(xì)的pipeline設(shè)計(jì)和中間過(guò)程數(shù)據(jù)構(gòu)造,實(shí)現(xiàn)了高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)模化生產(chǎn)。
在訓(xùn)練層面,Qianfan-VL采用了數(shù)據(jù)并行、張量并行、流水線并行(DP、TP、PP)的三維并行組合,并借助動(dòng)態(tài)負(fù)載均衡、梯度同步優(yōu)化、ZeRO-3狀態(tài)分片等技術(shù),顯著提升了訓(xùn)練效率。尤其值得一提的是,模型在百度自研的昆侖芯P800芯片上完成全流程計(jì)算任務(wù),通過(guò)通信算子與矩陣乘法算子的硬件分離設(shè)計(jì),實(shí)現(xiàn)了通信計(jì)算并行,大幅提升了硬件利用率。
在推理優(yōu)化方面,Qianfan-VL在昆侖芯、GPU等芯片上實(shí)現(xiàn)了高效率推理,并支持高達(dá)5000卡的單任務(wù)并行計(jì)算,確保模型在實(shí)際應(yīng)用中能夠提供卓越的處理性能。
探索更多:項(xiàng)目地址
深入了解Qianfan-VL的更多信息,請(qǐng)?jiān)L問:
- 項(xiàng)目官網(wǎng):https://baidubce.github.io/Qianfan-VL/
- GitHub倉(cāng)庫(kù):https://github.com/baidubce/Qianfan-VL
- HuggingFace模型庫(kù):https://huggingface.co/collections/baidu/qianfan-vl-68d0b9b0be8575c17267c85c
- arXiv技術(shù)論文:https://github.com/baidubce/Qianfan-VL/blob/main/docs/qianfan_vl_report_comp.pdf
應(yīng)用前景廣闊,賦能千行百業(yè)
Qianfan-VL的應(yīng)用場(chǎng)景極為廣泛。在OCR識(shí)別領(lǐng)域,它能精準(zhǔn)識(shí)別各類文檔、票據(jù)、手寫筆記等中的文字信息,為企業(yè)文檔處理和數(shù)據(jù)錄入提供高效解決方案。在數(shù)學(xué)解題場(chǎng)景,模型能夠通過(guò)視覺識(shí)別數(shù)學(xué)題目并進(jìn)行推理計(jì)算,為教育領(lǐng)域提供智能輔導(dǎo)工具。在文檔理解方面,Qianfan-VL能自動(dòng)解析文檔結(jié)構(gòu),提取關(guān)鍵信息,提升企業(yè)文檔管理和信息檢索效率。此外,在圖表分析場(chǎng)景,模型能從各種圖表中提取數(shù)據(jù)并進(jìn)行分析,為數(shù)據(jù)分析和決策提供有力支持。

粵公網(wǎng)安備 44011502001135號(hào)