中國人民大學(xué)科學(xué)研究處、中國人民大學(xué)信息資源管理學(xué)院:錢明輝、楊建梁
在新一代人工智能加速演進(jìn)的過程中,數(shù)據(jù)不再只是信息的原料,更成為驅(qū)動(dòng)智能系統(tǒng)持續(xù)進(jìn)化的“第一性資源”。如果算法構(gòu)成了智能大腦的結(jié)構(gòu)框架,那么數(shù)據(jù)則是決定其認(rèn)知邊界與價(jià)值取向的核心要素。厘清數(shù)據(jù)與數(shù)據(jù)集之間的關(guān)系,明確不同類型數(shù)據(jù)集的結(jié)構(gòu)特征與應(yīng)用場景,并深刻認(rèn)識(shí)其在模型訓(xùn)練、系統(tǒng)部署和技術(shù)治理中的作用,已成為智能時(shí)代基礎(chǔ)能力體系構(gòu)建的重要起點(diǎn)。從單點(diǎn)采集到結(jié)構(gòu)組織,從模型輸入到系統(tǒng)輸出,數(shù)據(jù)的價(jià)值正在從底層積累中持續(xù)釋放,推動(dòng)人工智能從感知智能向認(rèn)知智能穩(wěn)步邁進(jìn)。
相關(guān)閱讀:
高響應(yīng)數(shù)據(jù)集:人工智能新時(shí)代的關(guān)鍵要素
高對(duì)齊數(shù)據(jù)集:人工智能新時(shí)代的文明守護(hù)
高密度數(shù)據(jù)集:人工智能新時(shí)代的進(jìn)化引擎
數(shù)據(jù)萃?。骸叭摺睌?shù)據(jù)集構(gòu)建的點(diǎn)睛之筆
知識(shí)蒸餾與數(shù)據(jù)萃?。洪_發(fā)人工智能訓(xùn)練所需的“動(dòng)態(tài)食譜”與“黃金食材”
分布式數(shù)據(jù)集與聯(lián)邦學(xué)習(xí):人工智能持續(xù)生長的協(xié)作之道
一、數(shù)據(jù)之內(nèi)涵:似曾相識(shí)的概念體系
在人工智能工程體系中,“數(shù)據(jù)”已不再是單一的信息元素,而是構(gòu)成整個(gè)智能系統(tǒng)認(rèn)知能力的基礎(chǔ)單元,其內(nèi)涵也演化為一套涵蓋采集、組織、建模、流通等多個(gè)層面的系統(tǒng)性術(shù)語體系。要實(shí)現(xiàn)對(duì)數(shù)據(jù)資產(chǎn)的高效構(gòu)建與科學(xué)治理,首要任務(wù)是厘清與數(shù)據(jù)相關(guān)的一系列似是而非的概念,搭建起有邏輯、有層次的數(shù)據(jù)工程認(rèn)知框架。
數(shù)據(jù)的生成始于對(duì)現(xiàn)實(shí)世界的感知,它通常來自傳感器、用戶輸入、網(wǎng)絡(luò)行為等等,是智能系統(tǒng)進(jìn)行分析和推理的原始素材。數(shù)據(jù)源指的就是這些信息的獲取通道,既包括線下的物理設(shè)備,也涵蓋各種類型的線上系統(tǒng)和平臺(tái)。隨著數(shù)據(jù)的生成,元數(shù)據(jù)也隨之形成——它記錄了數(shù)據(jù)的屬性、格式、時(shí)間、來源等信息,是實(shí)現(xiàn)數(shù)據(jù)管理和追蹤的基礎(chǔ)性工具。
原始數(shù)據(jù)只有經(jīng)過組織和處理,才能真正為人工智能所用。數(shù)據(jù)集是在特定目標(biāo)下,對(duì)數(shù)據(jù)進(jìn)行清洗、標(biāo)注與分類后形成的集合,是各類人工智能模型訓(xùn)練和測試的基本資源。而數(shù)據(jù)庫則主要用于支持日常業(yè)務(wù),強(qiáng)調(diào)結(jié)構(gòu)化存儲(chǔ)與高效查詢,常用于實(shí)時(shí)交互與信息系統(tǒng)之中。相比之下,數(shù)據(jù)倉庫更偏向于戰(zhàn)略分析,它通過整合不同來源的數(shù)據(jù),采取預(yù)先定義模式(Schema-on-Write)來展開固定分析,支撐企業(yè)級(jí)的長期決策。數(shù)據(jù)湖是集中存儲(chǔ)海量原始格式(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)數(shù)據(jù)的存儲(chǔ)系統(tǒng),采取按需定義模式(Schema-on-Read),可以支持多樣分析場景。
為了讓系統(tǒng)“理解”這些數(shù)據(jù),就需要構(gòu)建邏輯結(jié)構(gòu)。數(shù)據(jù)模型用于描述數(shù)據(jù)之間的關(guān)系,是數(shù)據(jù)庫、數(shù)據(jù)倉庫得以運(yùn)行的底層設(shè)計(jì)。隨著數(shù)據(jù)資產(chǎn)的增長,數(shù)據(jù)目錄成為數(shù)據(jù)管理中的關(guān)鍵性工具,它就像“數(shù)據(jù)地圖”,幫助用戶快速檢索、調(diào)用與管理數(shù)據(jù)資源。
數(shù)據(jù)不僅需要存儲(chǔ)和建模,還要能在不同系統(tǒng)間高效流通。數(shù)據(jù)接口起到連接作用,確保各平臺(tái)間的數(shù)據(jù)交換順暢無阻。在網(wǎng)絡(luò)傳輸過程中,信息通常被打包為多個(gè)數(shù)據(jù)包進(jìn)行傳輸,以提升傳輸效率與穩(wěn)定性。貫穿整個(gè)流程的數(shù)據(jù)流,則體現(xiàn)了數(shù)據(jù)從采集到應(yīng)用的動(dòng)態(tài)路徑,是實(shí)現(xiàn)實(shí)時(shí)處理與邊緣計(jì)算的核心機(jī)制。
伴隨著數(shù)據(jù)在生成、組織、管理與流通各環(huán)節(jié)中的角色不斷躍升,其本質(zhì)也從傳統(tǒng)信息資源逐步轉(zhuǎn)化為具有戰(zhàn)略價(jià)值的關(guān)鍵要素。數(shù)據(jù)資產(chǎn)的內(nèi)涵正是如此:它是企業(yè)或組織擁有或控制的、具備經(jīng)濟(jì)價(jià)值的數(shù)據(jù)資源,能夠通過算法分析、智能應(yīng)用或市場交易等方式轉(zhuǎn)化為可度量的現(xiàn)實(shí)效益。與傳統(tǒng)資產(chǎn)相比,數(shù)據(jù)資產(chǎn)展現(xiàn)出可審計(jì)、可運(yùn)營、可變現(xiàn)的獨(dú)特特征,不僅成為算法能力的輸入源,更是推動(dòng)智能系統(tǒng)持續(xù)演進(jìn)的“引擎”。
總的來說,這些概念共同構(gòu)成了現(xiàn)代數(shù)據(jù)體系的技術(shù)底座。從數(shù)據(jù)的感知采集到系統(tǒng)中的組織、建模、傳輸與調(diào)度,每一個(gè)環(huán)節(jié)都不可或缺。它們不僅保障了人工智能系統(tǒng)的運(yùn)行效率與決策能力,更為數(shù)據(jù)集的高質(zhì)量構(gòu)建、規(guī)范管理與價(jià)值釋放奠定了堅(jiān)實(shí)基礎(chǔ),是推動(dòng)AI系統(tǒng)實(shí)現(xiàn)從“算法驅(qū)動(dòng)”走向“數(shù)據(jù)牽引”的關(guān)鍵支撐力量。
表1 數(shù)據(jù)相關(guān)概念解析
二、數(shù)據(jù)集類型:多元視角的分門別類
在人工智能應(yīng)用日趨精細(xì)化與多元化的背景下,數(shù)據(jù)集的類型劃分早已超越“結(jié)構(gòu)化與否”的傳統(tǒng)維度,轉(zhuǎn)而呈現(xiàn)出更加立體化的分類邏輯。理解不同類型數(shù)據(jù)集的特點(diǎn)與適用場景,不僅是高質(zhì)量數(shù)據(jù)工程的前提,也是在實(shí)際部署中實(shí)現(xiàn)人工智能模型精度與效率雙提升的關(guān)鍵。
從數(shù)據(jù)結(jié)構(gòu)的組織方式來看,數(shù)據(jù)集可分為結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化三類。結(jié)構(gòu)化數(shù)據(jù)集以嚴(yán)格對(duì)齊的二維表結(jié)構(gòu)為核心(如關(guān)系型數(shù)據(jù)庫表、CSV文件),典型如金融交易流水表或企業(yè)訂單記錄,可直接通過SQL進(jìn)行管理;半結(jié)構(gòu)化數(shù)據(jù)集以動(dòng)態(tài)標(biāo)簽或鍵值對(duì)為核心(如JSON日志、XML配置文件),需解析嵌套字段(如使用Spark處理物聯(lián)網(wǎng)設(shè)備時(shí)序日志),適用于網(wǎng)頁爬取或靈活存儲(chǔ)場景;非結(jié)構(gòu)化數(shù)據(jù)集則以無格式約束的原始文件為主體(如醫(yī)療影像、語音錄音、文本語料),依賴CV/NLP等技術(shù)提取特征(如ResNet處理圖像、BERT分析文本)。另外,在實(shí)際場景中時(shí)常存在多類型混合的形態(tài),如自動(dòng)駕駛數(shù)據(jù)集一般包含相互映射的結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。
按數(shù)據(jù)模態(tài)領(lǐng)域劃分,數(shù)據(jù)集可包括數(shù)值類、文本類、圖像類、音視頻類、空間數(shù)據(jù)類、圖結(jié)構(gòu)類和多種模態(tài)混合類。數(shù)值類數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的典型形式,通常來源于傳感器讀數(shù)、財(cái)務(wù)報(bào)表、用戶行為日志等,廣泛應(yīng)用于金融風(fēng)控、工業(yè)預(yù)測、醫(yī)療監(jiān)測等場景。例如,在智能電網(wǎng)系統(tǒng)中,通過歷史功率數(shù)據(jù)集可以實(shí)現(xiàn)對(duì)能源負(fù)荷的精確預(yù)測。文本數(shù)據(jù)集支撐自然語言處理任務(wù),如情感分析、問答系統(tǒng)、法律文本生成,常見語料包括中文維基百科、司法判決文書。圖像數(shù)據(jù)集是計(jì)算機(jī)視覺的核心資源,多應(yīng)用于醫(yī)學(xué)診斷、工業(yè)檢測、交通識(shí)別等領(lǐng)域,如COCO和ChestXray數(shù)據(jù)集。音視頻數(shù)據(jù)集用于訓(xùn)練語音識(shí)別、多模態(tài)感知系統(tǒng),如語音助手、視頻摘要等應(yīng)用場景。地理空間數(shù)據(jù)集包含位置、軌跡與空間分布信息,是智慧城市、自動(dòng)駕駛等系統(tǒng)的重要支撐,如遙感圖像、GPS路徑數(shù)據(jù)。圖結(jié)構(gòu)數(shù)據(jù)集則以節(jié)點(diǎn)與邊表示實(shí)體關(guān)系,服務(wù)于知識(shí)圖譜、社交網(wǎng)絡(luò)、推薦系統(tǒng)等任務(wù),是AI實(shí)現(xiàn)邏輯推理與關(guān)系理解的關(guān)鍵。此外,還有一些數(shù)據(jù)集是融合文本、圖像、音頻、視頻、結(jié)構(gòu)化數(shù)據(jù)等的多模態(tài)混合類數(shù)據(jù)集,用于支撐復(fù)雜任務(wù)中的跨模態(tài)感知與理解,如視覺問答、圖文生成、人機(jī)對(duì)話等復(fù)合應(yīng)用場景。這類數(shù)據(jù)集的建設(shè)不僅對(duì)數(shù)據(jù)融合技術(shù)提出挑戰(zhàn),更成為推動(dòng)大模型多模態(tài)能力突破的關(guān)鍵基石。
從時(shí)間特性來看,數(shù)據(jù)集可劃分為時(shí)序數(shù)據(jù)集與靜態(tài)數(shù)據(jù)集。其中,時(shí)序數(shù)據(jù)集強(qiáng)調(diào)時(shí)間連續(xù)性,適用于預(yù)測與動(dòng)態(tài)建模,如傳感器監(jiān)控、股市行情、氣象變化等;靜態(tài)數(shù)據(jù)集則是由捕捉某一時(shí)點(diǎn)的信息快照構(gòu)成,常用于圖像識(shí)別、人臉比對(duì)、城市建模等靜態(tài)任務(wù)。此外,依據(jù)人工智能模型訓(xùn)練流程的不同階段,數(shù)據(jù)集還可分為訓(xùn)練集、驗(yàn)證集與測試集三類。訓(xùn)練集用于模型學(xué)習(xí)和參數(shù)擬合,是模型能力形成的核心數(shù)據(jù)基礎(chǔ);驗(yàn)證集在訓(xùn)練過程中用于參數(shù)調(diào)優(yōu)與性能監(jiān)控,幫助提升模型的泛化能力;測試集則承擔(dān)最終評(píng)估職責(zé),用于檢驗(yàn)?zāi)P驮谡鎸?shí)場景中的適應(yīng)效果。三者共同構(gòu)成AI模型從訓(xùn)練到部署的閉環(huán)體系。
不難看出,數(shù)據(jù)集已從傳統(tǒng)的“數(shù)據(jù)集合”概念,演化為驅(qū)動(dòng)人工智能系統(tǒng)構(gòu)建、訓(xùn)練、部署、進(jìn)化的基礎(chǔ)性資源。無論是支撐AI模型能力提升,還是實(shí)現(xiàn)行業(yè)應(yīng)用落地,選擇適配場景的數(shù)據(jù)集類型,構(gòu)建科學(xué)合理的數(shù)據(jù)結(jié)構(gòu),都是人工智能工程中不可或缺的基礎(chǔ)環(huán)節(jié)。不同類型的數(shù)據(jù)集服務(wù)于不同的AI需求,其背后反映的是從數(shù)據(jù)原料到智能系統(tǒng)之間日益緊密的耦合關(guān)系。
三、數(shù)據(jù)集意義:人工智能的首要資源
數(shù)據(jù)集作為人工智能系統(tǒng)演化的基礎(chǔ)載體,其作用早已超越“訓(xùn)練材料”的初級(jí)定位。數(shù)據(jù)集不僅是人工智能系統(tǒng)的輸入資源,更是其能力構(gòu)建、價(jià)值表達(dá)與生態(tài)擴(kuò)展的核心基礎(chǔ)。從模型學(xué)習(xí)到產(chǎn)業(yè)落地,從技術(shù)突破到治理進(jìn)化,數(shù)據(jù)集的作用貫穿于人工智能發(fā)展的全鏈條,是推動(dòng)當(dāng)前人工智能技術(shù)范式持續(xù)演進(jìn)的關(guān)鍵變量,其系統(tǒng)意義體現(xiàn)在以下五個(gè)層面:
一是支撐智能算法演進(jìn),構(gòu)建AI模型能力的成長基座。數(shù)據(jù)集是人工智能模型從“零認(rèn)知”走向“類智能”的第一步。質(zhì)量可靠、標(biāo)注精確、覆蓋廣泛的數(shù)據(jù)樣本,為神經(jīng)網(wǎng)絡(luò)提供了充足的學(xué)習(xí)素材,使模型得以從基礎(chǔ)感知任務(wù)逐步跨越到復(fù)雜的語言理解、視覺推理與行為預(yù)測。同時(shí),結(jié)構(gòu)合理的數(shù)據(jù)集還能有效減少過擬合,提高模型的泛化能力,是保障算法穩(wěn)定性與可擴(kuò)展性的核心抓手。
二是加速技術(shù)應(yīng)用落地,提供系統(tǒng)適配現(xiàn)實(shí)的轉(zhuǎn)換接口。無論是語音助手、自動(dòng)駕駛,還是醫(yī)療診斷、金融風(fēng)控,人工智能的系統(tǒng)部署無一不依賴于高質(zhì)量、場景對(duì)齊的數(shù)據(jù)集作為輸入支撐。語音識(shí)別系統(tǒng)需要真實(shí)用戶口音語料,自動(dòng)駕駛算法必須依托各類交通場景圖像進(jìn)行泛化訓(xùn)練,醫(yī)學(xué)輔助系統(tǒng)則高度依賴高分辨率影像與專家標(biāo)注的病例信息。數(shù)據(jù)集不僅幫助算法理解現(xiàn)實(shí),更是技術(shù)能否走出實(shí)驗(yàn)室、服務(wù)實(shí)際場景的決定性因素。
三是連接科學(xué)技術(shù)產(chǎn)業(yè)(STI),構(gòu)建持續(xù)協(xié)同創(chuàng)新的生態(tài)紐帶。標(biāo)準(zhǔn)化、開放化的數(shù)據(jù)集極大降低了算法研發(fā)門檻,使得企業(yè)可以快速驗(yàn)證模型方案,研發(fā)機(jī)構(gòu)也能借助真實(shí)世界數(shù)據(jù)開展落地研究。比如,SQuAD文本問答集、Kaggle平臺(tái)的產(chǎn)業(yè)數(shù)據(jù)集,都在推動(dòng)AI生態(tài)系統(tǒng)”的跨界創(chuàng)新與人才成長方面發(fā)揮了深遠(yuǎn)影響。同時(shí),企業(yè)私有數(shù)據(jù)的專業(yè)深度與科研開放數(shù)據(jù)的通用廣度也形成了互補(bǔ)關(guān)系,共同構(gòu)建了人工智能領(lǐng)域的“雙循環(huán)”創(chuàng)新機(jī)制。
四是保障系統(tǒng)公正可控,鑄就算法合規(guī)治理的技術(shù)前提。人工智能系統(tǒng)的價(jià)值輸出,最終取決于其背后的數(shù)據(jù)輸入。因此,構(gòu)建多樣來源、結(jié)構(gòu)透明、價(jià)值對(duì)齊的數(shù)據(jù)集,成為AI系統(tǒng)可持續(xù)演化的道德基礎(chǔ)與治理前提。例如,在司法文書生成、教育內(nèi)容推薦、金融風(fēng)控評(píng)估等場景中,數(shù)據(jù)集是否涵蓋不同族群、文化背景與行為特征,將直接影響系統(tǒng)的公平性與可信度。標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量評(píng)估機(jī)制與數(shù)據(jù)脫敏處理流程,正在成為AI倫理提升與合規(guī)治理的重要抓手。
五是激發(fā)技術(shù)創(chuàng)新動(dòng)能,成為智能瓶頸突破的高效燃料。高密度、高覆蓋的數(shù)據(jù)集不僅提升了模型訓(xùn)練的效率,更孕育了眾多新的研究方向與方法變革。遷移學(xué)習(xí)、預(yù)訓(xùn)練大模型、對(duì)比學(xué)習(xí)、數(shù)據(jù)蒸餾等新范式的誕生,背后都離不開經(jīng)過規(guī)范治理的大規(guī)模數(shù)據(jù)資源的支撐。反過來,模型能力的提升也能夠反向推動(dòng)數(shù)據(jù)集建設(shè)從簡單積累轉(zhuǎn)向結(jié)構(gòu)重塑,促成“模型與數(shù)據(jù)”雙向驅(qū)動(dòng)的良性閉環(huán)。
“聚沙成塔”不僅是對(duì)數(shù)據(jù)量級(jí)的比喻,更是對(duì)認(rèn)知演化過程的真實(shí)寫照。每一個(gè)精心構(gòu)建的數(shù)據(jù)集,都是人類知識(shí)、經(jīng)驗(yàn)價(jià)值的凝結(jié)體,是智能系統(tǒng)走向可信、可控、可持續(xù)的基礎(chǔ)單元。從感知、建模到?jīng)Q策,從單一任務(wù)到通用智能,從孤立工程到系統(tǒng)治理,一路走來,數(shù)據(jù)集的角色不斷被認(rèn)識(shí)、被重塑、被強(qiáng)化,正在從人工智能開發(fā)的輔助工具躍升為智能體系進(jìn)化的核心要素。當(dāng)數(shù)據(jù)成為戰(zhàn)略資產(chǎn),數(shù)據(jù)集的建設(shè)與治理將決定AI社會(huì)演化的軌跡與速度。唯有以系統(tǒng)性思維構(gòu)建數(shù)據(jù)體系,持續(xù)提升價(jià)值對(duì)齊度、知識(shí)密集度與業(yè)務(wù)響應(yīng)度,才能真正讓人工智能從“能用”走向“好用”,從“看得見”走向“信得過”。未來的AI塔尖,將由今天每一粒數(shù)據(jù)沙粒筑成。
基金項(xiàng)目:國家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“基于數(shù)智融合的信息分析方法創(chuàng)新與應(yīng)用”;國家檔案局科技項(xiàng)目“基于生成式人工智能的檔案數(shù)據(jù)化關(guān)鍵方法及其應(yīng)用研究”。
致謝:感謝中國人民大學(xué)信息資源管理學(xué)院應(yīng)芷安博士后在本文完成過程中所提供的資料收集與整理支持。