12月6日至7日,第十屆語言服務(wù)高級論壇在廣州大學(xué)舉行。會上,粵語語料庫建設(shè)與大模型評測實驗室重磅發(fā)布了其研發(fā)的 AI-DimSum 多模態(tài)粵語語料庫平臺,標(biāo)志著在全球擁有上億用戶的粵語在數(shù)字化發(fā)展中邁入新階段。
突破低資源困境 廣州大學(xué)教授齊佳音介紹,粵語在網(wǎng)絡(luò)世界中屬于“低資源語言”。該平臺圍繞“數(shù)字中文建設(shè)”和“大灣區(qū)文化數(shù)字化”需求,構(gòu)建了一個基于嶺南文化、面向AI應(yīng)用的多模態(tài)語料數(shù)據(jù)生態(tài)系統(tǒng),遵循“標(biāo)準(zhǔn)先行、數(shù)據(jù)可溯、服務(wù)可用”原則。
一體化、模塊化基礎(chǔ)設(shè)施 AI-DimSum平臺由語料采集、標(biāo)注、大模型對接、確權(quán)檢索、質(zhì)量評估、管理及應(yīng)用商店等七個子系統(tǒng)構(gòu)成,實現(xiàn)了從數(shù)據(jù)采集到模型接入與應(yīng)用發(fā)布的一體化、模塊化流程。
海量語料支撐 該語料庫匯聚了豐富的多模態(tài)資源,為AI訓(xùn)練提供堅實基礎(chǔ):
文本:超過100萬字(涵蓋新聞、文學(xué)等)。
音視頻:完成3000小時高保真語音標(biāo)注及1TB以上音視頻資料。
影視:包含《功夫熊貓》《大圣歸來》《外來媳婦本地郎》等帶有粵語字幕與標(biāo)注的作品。
評測:構(gòu)建了超過20萬道粵語大模型內(nèi)容安全多模態(tài)評測題。
該平臺的發(fā)布將極大提升粵語在大模型時代的應(yīng)用能力和文化傳承價值。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們