豆包大模型團(tuán)隊(duì)正式宣布,首個(gè)面向多語言開發(fā)環(huán)境的代碼修復(fù)評測基準(zhǔn) Multi-SWE-bench 已開源。
該數(shù)據(jù)集擴(kuò)展了 SWE-bench 的能力,首次覆蓋 Python 之外的 7 種主流編程語言(Java、Go、Rust、C、C++、TypeScript、JavaScript),構(gòu)建了真實(shí)的跨語言代碼修復(fù)任務(wù)。Multi-SWE-bench 包含 1,632 個(gè)實(shí)例,均來自 GitHub issue,并經(jīng)過專業(yè)開發(fā)者審核,具備清晰問題描述與可復(fù)現(xiàn)測試環(huán)境。
其引入的任務(wù)難度分級機(jī)制,涵蓋從簡單修改到復(fù)雜多文件操作,旨在系統(tǒng)評估大模型的多語言泛化能力,推動自動編程技術(shù)向支持多語言、解決真實(shí)問題的通用智能體邁進(jìn)。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們