界面新聞2023年7月8日從2023世界人工智能大會“大模型時代下的數(shù)據(jù)要素流通”主題論壇上獲悉,上海數(shù)交所官網(wǎng)已經(jīng)于7月7日正式上線語料庫,累計掛牌近30個語料數(shù)據(jù)產(chǎn)品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。
語料庫是大模型訓練不可或缺的要素。
上海數(shù)交所總經(jīng)理湯奇峰認為,大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題?!罢Z料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數(shù)交所希望通過自己的努力加強數(shù)據(jù)要素建設提升語料庫建設效率。”
為此,上海數(shù)據(jù)交易所在上線語料庫的同時,牽頭發(fā)起語料數(shù)據(jù)生態(tài)創(chuàng)新合作伙伴計劃。
據(jù)其透露,上海數(shù)據(jù)交易所首批合作伙伴包括上海人工智能實驗室、商湯科技、中國知網(wǎng)、瀾舟科技、OpenKG、拓爾思、新致和蜜度,旨在引導不同行業(yè)、不同領域、具有一定規(guī)模的高質量語料數(shù)據(jù)產(chǎn)品掛牌交易,推動人工智能大模型技術創(chuàng)新與應用落地,進一步豐富語料庫多樣性,助力數(shù)據(jù)要素市場建設。
上海數(shù)交所總經(jīng)理湯奇峰表示,大模型建設中,語料庫是一個非常重要的方向,語料庫采購已經(jīng)在不少大模型企業(yè)成本中占據(jù)重要比重,上海數(shù)交所希望以市場配置的方式組織數(shù)據(jù)要素推動語料庫建設。
上海數(shù)交所建設語料庫主要考慮兩個維度,一是語料庫的質量,另一個是語料庫的開放程度?!氨热缬械钠髽I(yè)具有海量高質量數(shù)據(jù)資源,開放意愿度也很高,但需要組織大量社會第三方企業(yè)幫助組織相關的大模型訓練,我們針對四類數(shù)據(jù)產(chǎn)品開發(fā)情況不同、實際需求不同的供方企業(yè)制定了差異化工作策略,著力打造語料數(shù)據(jù)生態(tài)?!睖娣逭f。
目前,上海正在引導、扶持企業(yè)積極發(fā)展以大模型為代表的人工智能技術。
上海市經(jīng)濟和信息化委員會信息化推進處處長錢曉在會上透露,2022年上海市數(shù)據(jù)核心企業(yè)突破1200家,核心產(chǎn)業(yè)規(guī)模近3400億元;建設了上海數(shù)據(jù)交易所,累計掛牌數(shù)據(jù)產(chǎn)品超1300個,率先提出數(shù)商體系,數(shù)商新業(yè)態(tài)蓬勃興起,全國首個數(shù)據(jù)要素產(chǎn)業(yè)集聚區(qū)在張江啟動建設。
他表示,未來將繼續(xù)加強技術創(chuàng)新,形成行業(yè)領先的高質量語料標準操作流程和技術規(guī)范;完善組織機制,形成包括圖書館、媒體、互聯(lián)網(wǎng)平臺、大數(shù)據(jù)企業(yè)等在內的核心數(shù)據(jù)伙伴群;做好評估機制,加快構建高質量數(shù)據(jù)集的評價指標體系。