百度智能云千帆團(tuán)隊(duì)正式發(fā)布了全新視覺(jué)理解模型 ——Qianfan-VL,并且全面開(kāi)源!這一系列模型包括3B、8B 和70B 三種不同尺寸,旨在滿(mǎn)足企業(yè)級(jí)多模態(tài)應(yīng)用的需求,經(jīng)過(guò)深度優(yōu)化,展現(xiàn)出超強(qiáng)的視覺(jué)理解能力。
Qianfan-VL 模型不僅具備優(yōu)秀的基礎(chǔ)能力,還針對(duì)行業(yè)的高頻需求進(jìn)行了專(zhuān)項(xiàng)提升,比如光學(xué)字符識(shí)別(OCR)和教育場(chǎng)景的應(yīng)用,使得其在實(shí)際使用中表現(xiàn)更加出色。該模型是基于開(kāi)源模型進(jìn)行開(kāi)發(fā),并在百度自研的昆侖芯 P800上完成了全流程計(jì)算,強(qiáng)大的算力支持確保了模型能夠高效處理復(fù)雜的數(shù)據(jù)和算法。
這款新模型有三大顯著特點(diǎn)。首先,多尺寸選擇讓不同規(guī)模的企業(yè)和開(kāi)發(fā)者都能找到合適的解決方案,3B、8B 和70B 三種規(guī)格可滿(mǎn)足各種應(yīng)用需求。其次,8B 和70B 模型具備思考推理能力,通過(guò)特殊 token 激活,能夠處理復(fù)雜圖表理解、視覺(jué)推理和數(shù)學(xué)解題等多種任務(wù)。最后,在 OCR 和文檔理解方面表現(xiàn)優(yōu)異,不僅可以精準(zhǔn)識(shí)別手寫(xiě)體和復(fù)雜版面,還能進(jìn)行信息的結(jié)構(gòu)化提取。
在基準(zhǔn)測(cè)試中,Qianfan-VL 系列模型展現(xiàn)了出色的通用能力和特定任務(wù)的優(yōu)秀表現(xiàn)。無(wú)論是視覺(jué)理解,還是專(zhuān)業(yè)領(lǐng)域的問(wèn)答,這款模型在各項(xiàng)測(cè)試中都顯示出了令人印象深刻的精確度和表現(xiàn)。尤其是在 OCR 與文檔理解領(lǐng)域,其全場(chǎng)景識(shí)別能力和復(fù)雜文檔分析能力,為企業(yè)級(jí)應(yīng)用提供了高精度的解決方案。
此外,Qianfan-VL 的數(shù)學(xué)解題能力也值得一提,8B 和70B 模型在處理復(fù)雜的推理任務(wù)時(shí),結(jié)合視覺(jué)信息與外部知識(shí)展現(xiàn)出優(yōu)越的性能。在實(shí)際應(yīng)用場(chǎng)景中,它能夠提取關(guān)鍵信息并進(jìn)行數(shù)據(jù)分析,助力企業(yè)進(jìn)行智能決策。
Qianfan-VL 的推出標(biāo)志著百度在視覺(jué)理解領(lǐng)域的一次重大突破,期待其在各行業(yè)的落地應(yīng)用將引發(fā)新的浪潮。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們