北京月之暗面科技有限公司宣布全新多模態(tài)圖片理解模型moonshot-v1-vision-preview正式發(fā)布,該模型完善了moonshot-v1模型系列的多模態(tài)能力,助力Kimi更好地理解世界。
Vision模型具備強大的圖像識別能力,能準確識別圖像中的復(fù)雜細節(jié)和細微差別,無論是食物還是動物,都能區(qū)分出相似但不相同的對象。例如,面對16張相似的人眼較難區(qū)分的藍莓松餅和吉娃娃圖片,Vision模型能精確地區(qū)分和識別。
Vision模型還擁有國內(nèi)領(lǐng)先的高級圖像識別能力,在OCR文字識別和圖像理解場景中表現(xiàn)優(yōu)異,比普通文件掃描和OCR識別軟件更加準確,能識別收據(jù)單、快遞單等潦草的手寫內(nèi)容。
Vision視覺模型支持多輪對話、流式輸出、工具調(diào)用、JSON Mode、Partial Mode等特性,但暫不支持聯(lián)網(wǎng)搜索,不支持創(chuàng)建帶有圖片內(nèi)容的Context Cache,但支持使用已創(chuàng)建成功的Cache調(diào)用Vision模型,不支持URL格式的圖片,目前僅支持使用base64編碼的圖片內(nèi)容。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們