中國人民大學科學研究處、中國人民大學信息資源管理學院:錢明輝、楊建梁
當人工智能走出實驗室、邁向產(chǎn)業(yè)化的深水區(qū),數(shù)據(jù)已不僅是模型訓練的原材料,更是支撐智能系統(tǒng)不斷演進的核心資源。隨著大模型、多模態(tài)、具身智能等新范式持續(xù)推進,傳統(tǒng)由單一機構提供數(shù)據(jù)的方式已難以滿足對數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量、更新頻率和語義深度的多重需求。在這一背景下,以開放數(shù)據(jù)集為基礎、以多元主體協(xié)同機制為支撐的“開放數(shù)據(jù)集生態(tài)”逐漸成型。這一生態(tài)不僅推動了人工智能技術的規(guī)?;瘧茫舱谥厮軘?shù)據(jù)治理模式與社會協(xié)同機制。
相關閱讀:
數(shù)據(jù)萃?。骸叭摺睌?shù)據(jù)集構建的點睛之筆
知識蒸餾與數(shù)據(jù)萃取:開發(fā)人工智能訓練所需的“動態(tài)食譜”與“黃金食材”
分布式數(shù)據(jù)集與聯(lián)邦學習:人工智能持續(xù)生長的協(xié)作之道
數(shù)據(jù)與數(shù)據(jù)集:面向新一代人工智能“聚沙成塔”
多模態(tài)數(shù)據(jù)集構建:為人工智能的世界模型筑基
一、開放數(shù)據(jù)集生態(tài)構建:來源結構與實踐探索
開放數(shù)據(jù)集是指在符合安全、隱私和倫理規(guī)范的前提下,向社會公眾開放訪問、使用、標注和再開發(fā)的數(shù)據(jù)資源集合,涵蓋文本、圖像、音頻、視頻等多種模態(tài)。根據(jù)來源與用途可大致分為四類:一是政府開放數(shù)據(jù),包括地理信息、公共服務、政務文件、統(tǒng)計年鑒等,強調(diào)公共可治理性;二是科學研究數(shù)據(jù),涵蓋高能物理、基因組學、天文觀測等領域,注重可驗證性與共享精神;三是行業(yè)運行數(shù)據(jù),如制造流程、金融交易、物流配送等,體現(xiàn)行業(yè)知識密度與流程特性;四是社會眾包數(shù)據(jù),如用戶上傳圖片、開放問答、平臺交互日志等,富含社群認知特征與場景多樣性。
在全球范圍內(nèi),開放數(shù)據(jù)生態(tài)建設已積累了較為豐富的經(jīng)驗。美國通過Data.gov平臺集中發(fā)布環(huán)境、交通、教育等政務數(shù)據(jù)集,NASA、USGS等機構則向科研人員開放遙感、氣象、地質(zhì)等高價值科學數(shù)據(jù)集。歐盟以《開放數(shù)據(jù)指令》為政策抓手,構建了跨國數(shù)據(jù)共享機制,推動成員國間數(shù)據(jù)互通。Kaggle、UCI等學術平臺則廣泛提供機器學習、計算機視覺、自然語言處理等標準數(shù)據(jù)集,支撐機器學習和算法驗證。
中國的開放數(shù)據(jù)體系起步較晚但發(fā)展迅速。國家統(tǒng)計局、自然資源部、生態(tài)環(huán)境部等政府部門已上線多個數(shù)據(jù)平臺,涵蓋統(tǒng)計、地圖、水文、氣象等領域;在科研領域,“國家科技資源共享服務平臺”“科創(chuàng)中國”等項目整合了高校和研究機構的數(shù)據(jù)資源;產(chǎn)業(yè)方面,百度、阿里、華為等頭部企業(yè)陸續(xù)開放語音識別、圖像識別、自然語言處理等任務數(shù)據(jù)集,推動AI基礎模型訓練。然而,國內(nèi)數(shù)據(jù)平臺在標準規(guī)范、接口透明度、更新頻率等方面仍有改進空間,高價值行業(yè)數(shù)據(jù)(如醫(yī)療、金融)受限于隱私與安全監(jiān)管,仍未實現(xiàn)有效開放。
這一生態(tài)系統(tǒng)的形成,是技術變革、資源配置與治理需求共同推動的結果。從技術角度看,大模型需要從泛化智能走向行業(yè)智能,必須依賴真實、豐富的場景數(shù)據(jù);從資源角度看,數(shù)據(jù)分散存儲在政府、企業(yè)和個人中,單一機構難以獨立完成高質(zhì)量數(shù)據(jù)供給;從治理角度看,數(shù)據(jù)壟斷與數(shù)據(jù)鴻溝問題日益突出,推動建立以公共價值為導向的開放機制成為現(xiàn)實選擇。由此,也不難發(fā)現(xiàn)開放數(shù)據(jù)集生態(tài)在當前的戰(zhàn)略價值。在國家層面,開放數(shù)據(jù)集生態(tài)是實現(xiàn)數(shù)據(jù)主權與技術自立的重要抓手;在產(chǎn)業(yè)層面,開放數(shù)據(jù)集生態(tài)連接算法能力與落地場景,是技術轉(zhuǎn)化為生產(chǎn)力的關鍵紐帶;在社會層面,開放數(shù)據(jù)集生態(tài)為提升治理效率和公共服務質(zhì)量提供了底層支撐。從全球來看,開放數(shù)據(jù)集生態(tài)也正成為國際合作、文化交流和治理對話的重要基礎,體現(xiàn)出從資源共享走向制度共建的深層邏輯。
二、開放數(shù)據(jù)集生態(tài)框架:關鍵角色與分工定位
開放數(shù)據(jù)集生態(tài)的建設是一項系統(tǒng)性工程,需要多方參與、協(xié)同推進。在開放數(shù)據(jù)集生態(tài)中存在關鍵角色:
第一類是數(shù)據(jù)提供者,主要包括政府部門、科研院所、醫(yī)療機構、企業(yè)組織等,負責數(shù)據(jù)的產(chǎn)生、脫敏處理和基礎標準化,是開放數(shù)據(jù)集生態(tài)的源頭。
第二類是平臺運營方,如國家或地方的數(shù)據(jù)平臺、行業(yè)協(xié)會建設的數(shù)據(jù)湖、社區(qū)驅(qū)動的開源數(shù)據(jù)集項目,承擔數(shù)據(jù)的整合、發(fā)布、接口設計和質(zhì)量控制,是連接供需的樞紐。
第三類是數(shù)據(jù)使用者,包括高校、科研團隊、AI企業(yè)等,他們通過使用數(shù)據(jù)推動技術研發(fā)與模型訓練,同時提出反饋與改進建議,促進數(shù)據(jù)集迭代。
第四類是制度建設與監(jiān)管方,如立法機構、數(shù)據(jù)治理委員會、隱私保護組織,制定相關政策標準,確保數(shù)據(jù)開放合法合規(guī),維護各方權益。
第五類是公眾與眾包參與者,包括數(shù)據(jù)標注人員、普通用戶、自愿上傳者等,他們通過參與標注、驗證和反饋等行為,激發(fā)數(shù)據(jù)生態(tài)的活力與持續(xù)性。
圖 1 開放數(shù)據(jù)集生態(tài)關鍵角色
以一個智能醫(yī)療影像診斷項目為例,當某地區(qū)突發(fā)罕見傳染病時,醫(yī)療機構與科研單位作為核心數(shù)據(jù)提供者,可以率先開放匿名化處理的CT影像數(shù)據(jù),企業(yè)同步共享設備采集的歷史影像庫,經(jīng)統(tǒng)一標準格式轉(zhuǎn)換后形成基礎數(shù)據(jù)集。
平臺運營方依托國家醫(yī)學數(shù)據(jù)中心打造專項平臺,通過分級訪問接口、沙箱環(huán)境與自動化質(zhì)檢系統(tǒng)連接供需兩端。例如,平臺運營方可以設置差異化權限機制——普通研究者僅能訪問部分樣本,授權機構則可以獲得完整的數(shù)據(jù)支持。
數(shù)據(jù)使用者在實際應用中持續(xù)驅(qū)動生態(tài)優(yōu)化。例如,醫(yī)療AI企業(yè)在模型訓練中發(fā)現(xiàn)兒童病例識別準確率不足60%,隨即提出分年齡段數(shù)據(jù)增強訴求,促使平臺開辟兒童病例專用通道;高校團隊研發(fā)的新型標注工具提升肺泡病變標注效率,并反向注入數(shù)據(jù),這可以進一步強化數(shù)據(jù)集的價值密度。
監(jiān)管方通過動態(tài)規(guī)則守護系統(tǒng)安全邊界。隱私保護組織開發(fā)的加密模塊確保數(shù)據(jù)查詢的最小單元量,避免個人身份泄露風險。醫(yī)療倫理委員會設置的智能熔斷機制,則能對異常數(shù)據(jù)訪問行為實施必要的實時干預。
公眾參與同樣賦予生態(tài)獨特活力。醫(yī)學院學生通過模擬診斷實踐課程貢獻標注軌跡,康復患者自愿上傳隨訪影像完善療效評估體系,形成公眾智慧與專業(yè)知識的共振。尤為關鍵的是,當放射科專家同時以數(shù)據(jù)使用者與提供者身份推動“臨床反饋-模型迭代”的雙周循環(huán)機制時,監(jiān)管方同步出臺《動態(tài)更新規(guī)范》,在保障系統(tǒng)持續(xù)進化的同時防控未知風險。這種多角色身份轉(zhuǎn)換與協(xié)同演化,最終催生出融合原始數(shù)據(jù)與群體智能的加密知識圖譜,既服務于診斷模型升級,又反哺新一代醫(yī)療設備研發(fā)。
在開放數(shù)據(jù)集生態(tài)中,這些參與方的角色并非一成不變,而是多元身份并存、協(xié)同演化。例如,科研人員既可能作為數(shù)據(jù)使用者,也可能通過課題研究反哺高質(zhì)量數(shù)據(jù)集開發(fā);政府既是平臺建設者,也是規(guī)則制定者。當前,開放數(shù)據(jù)集的生態(tài)架構也正從“數(shù)據(jù)收集—平臺聚合—模型訓練”線性路徑,轉(zhuǎn)向“數(shù)據(jù)共建—知識共創(chuàng)—智能共融”的網(wǎng)絡結構,形成數(shù)據(jù)流、知識流與價值流交織的閉環(huán)體系。
三、開放數(shù)據(jù)集生態(tài)演化:潛在挑戰(zhàn)與未來展望
盡管開放數(shù)據(jù)集生態(tài)前景廣闊,但其發(fā)展仍面臨諸多挑戰(zhàn)。我國南方某經(jīng)濟大省作為數(shù)據(jù)開放的先行省份,在開放數(shù)據(jù)集生態(tài)建設方面積累了寶貴的試點經(jīng)驗,同時也經(jīng)歷了諸多不易:
一是數(shù)據(jù)可得性與結構性失衡。高價值數(shù)據(jù)大多集中在政府與大型企業(yè),受限于隱私、法律或利益因素難以廣泛開放;而對數(shù)據(jù)需求強烈的中小機構與科研團隊,則難以獲取足量、結構化、可用性高的數(shù)據(jù)資源,造成供需錯位。很多省市大量存在數(shù)據(jù)集零下載問題,部分地方的零下載率超過50%。一些地方政府發(fā)布的“機構權責清單信息”等數(shù)據(jù)集因缺乏實用價值而被長期閑置,企業(yè)業(yè)務創(chuàng)新急需的交通、醫(yī)療等動態(tài)數(shù)據(jù)卻未充分開放。
二是標準缺失與技術協(xié)同不足。當前,不同平臺之間依然缺少統(tǒng)一的數(shù)據(jù)格式與接口標準,不同數(shù)據(jù)集之間難以互通共享。數(shù)據(jù)脫敏不徹底、元數(shù)據(jù)缺失、版本追溯困難、質(zhì)量評估體系薄弱等問題制約了數(shù)據(jù)集的可信度與可用性。數(shù)據(jù)質(zhì)量參差不齊,缺乏完善的評估體系和追溯機制;平臺間互操作性差,制約了數(shù)據(jù)集的整合利用。此外,制度滯后也加劇了開發(fā)者的不確定性,限制了數(shù)據(jù)集的廣泛使用。在一些地方政府的數(shù)據(jù)開放平臺中,往往只有三、四成數(shù)據(jù)集采用可機讀的CSV格式,遠低于國家要求的90%,大量XLS/XLSX文件需人工解析,增加了數(shù)據(jù)集利用的技術門檻。MIT研究顯示,全球主流AI訓練數(shù)據(jù)集(如C4、Dolma)中,25%的網(wǎng)頁因robots.txt限制或服務條款矛盾,導致數(shù)據(jù)抓取合法性存疑,加劇了數(shù)據(jù)碎片化。
三是生態(tài)激勵與可持續(xù)性不足。在現(xiàn)有的框架下,缺乏對數(shù)據(jù)貢獻方的明確的激勵機制,也沒有形成“數(shù)據(jù)即資產(chǎn)”的價值認知體系。與此同時,平臺維護成本高、用戶活躍度不足等問題,可能導致生態(tài)“建而不用”“用而不養(yǎng)”,對平臺維護方缺乏可持續(xù)商業(yè)模式,易陷入“流量低迷—維護乏力—服務降級”的惡性循環(huán),影響生態(tài)粘性與整體質(zhì)量。在一些地方政府數(shù)據(jù)開放平臺中,有超過6成以上的數(shù)據(jù)集未被及時更新,部分地方因所發(fā)布的開放數(shù)據(jù)集維護成本高、維護不及時而導致數(shù)據(jù)時效性下降。國內(nèi)大多數(shù)的數(shù)據(jù)交易平臺中,往往是僅有小部分企業(yè)持續(xù)貢獻數(shù)據(jù)更新。
為此,未來開放數(shù)據(jù)集生態(tài)應朝著更加智能化、制度化與普惠化的方向演進。
首先,未來開放數(shù)據(jù)生態(tài)的智能化協(xié)同機制將構筑數(shù)據(jù)要素流通的革新范式。依托聯(lián)邦學習架構、多方安全計算協(xié)議與智能合約機制的復合技術矩陣,未來開放屬于生態(tài)將構建起數(shù)權明晰且價值貫通的智慧協(xié)作網(wǎng)絡,探索數(shù)據(jù)可用不可見的新型實踐路徑。這種技術融合不僅破解了傳統(tǒng)數(shù)據(jù)共享中隱私保護與價值釋放的二元對立,更通過分布式智能節(jié)點的有機協(xié)同,形成覆蓋數(shù)據(jù)萃取、知識沉淀與價值聚合的全鏈路增值體系。
其次,未來開放數(shù)據(jù)集生態(tài)的制度化運作體系將鑄就生態(tài)治理的堅實基座。為此,需要構建起包含數(shù)據(jù)主權分級框架、質(zhì)量認證體系、算法治理規(guī)范、倫理審查機制的四維制度架構,形成剛柔并濟的治理范式。其中既涵蓋數(shù)據(jù)要素三權分置等產(chǎn)權制度改革,也包含動態(tài)演進的監(jiān)管沙盒機制。通過規(guī)范性與靈活性并重的制度設計,在公共利益與私人權益之間探尋動態(tài)平衡點,使治理體系兼具制度剛性與實踐彈性。
最后,未來開放數(shù)據(jù)集生態(tài)的普惠化進程將重構數(shù)字社會的參與范式。借助分布式眾包平臺與社區(qū)共創(chuàng)機制,推動公眾完成從“數(shù)據(jù)集消費者”向“數(shù)據(jù)集共建者”的角色躍遷。這種轉(zhuǎn)變既體現(xiàn)在公眾通過可視化工具參與城市治理的數(shù)字民主實踐,也反映在區(qū)塊鏈賦能的貢獻確權體系之中。當每位參與者的數(shù)據(jù)行為都能映射為可量化的價值坐標,當專業(yè)知識與群體智慧在交互中持續(xù)反哺,最終將孵化出人機共生、多元共治的數(shù)據(jù)集生態(tài)共同體。
總結而言,開放數(shù)據(jù)集生態(tài)是未來人工智能技術演進與治理創(chuàng)新的重要平臺。它不僅為模型訓練提供高質(zhì)量數(shù)據(jù)資源,更通過協(xié)同機制連接起政府、產(chǎn)業(yè)、科研與社會的多方力量,構建出一個有機生長的智能共同體。誰能率先建成高質(zhì)量、制度化、可持續(xù)的開放數(shù)據(jù)體系,誰就將在智能時代搶占創(chuàng)新高地與治理主動權。
基金項目:國家社會科學基金重點項目“基于數(shù)智融合的信息分析方法創(chuàng)新與應用”;國家檔案局科技項目“基于生成式人工智能的檔案數(shù)據(jù)化關鍵方法及其應用研究”。
致謝:感謝中國人民大學信息資源管理學院博士研究生郭姝麟在本文完成過程中所提供的資料收集與整理支持。