中國(guó)人民大學(xué)科學(xué)研究處、中國(guó)人民大學(xué)信息資源管理學(xué)院:錢明輝、楊建梁
在人工智能邁入產(chǎn)業(yè)落地深水區(qū)的當(dāng)下,大量企業(yè)開(kāi)始面臨“數(shù)據(jù)過(guò)載”的困境:無(wú)效數(shù)據(jù)的堆積造成了嚴(yán)重的算力資源浪費(fèi)。當(dāng)數(shù)據(jù)集規(guī)模突破臨界點(diǎn)后,單純的數(shù)據(jù)清洗已難以破解“特征維度詛咒”,有效地構(gòu)建數(shù)據(jù)集正在成為決定算法模型價(jià)值的戰(zhàn)略制高點(diǎn)。這推動(dòng)了數(shù)據(jù)萃?。?/span>Data Distillation)作為新一代數(shù)據(jù)工程范式的形成:基于動(dòng)量?jī)?yōu)化理論與認(rèn)知科學(xué)視角,通過(guò)三項(xiàng)核心機(jī)制實(shí)現(xiàn)數(shù)據(jù)工程的范式躍遷。當(dāng)傳統(tǒng)方法仍陷于統(tǒng)計(jì)層面的特征取舍時(shí),數(shù)據(jù)萃取正在重構(gòu)數(shù)據(jù)集構(gòu)建的底層邏輯,推動(dòng)人工智能系統(tǒng)從“數(shù)據(jù)吞吐”向著“認(rèn)知賦能”邁進(jìn)。
相關(guān)閱讀:
高響應(yīng)數(shù)據(jù)集:人工智能新時(shí)代的關(guān)鍵要素
高對(duì)齊數(shù)據(jù)集:人工智能新時(shí)代的文明守護(hù)
高密度數(shù)據(jù)集:人工智能新時(shí)代的進(jìn)化引擎
一、 數(shù)據(jù)萃取的獨(dú)到之處
數(shù)據(jù)萃取是一種從原始數(shù)據(jù)中定向提取高價(jià)值信息的過(guò)程。與傳統(tǒng)的特征選擇方法不同,數(shù)據(jù)萃取的核心在于通過(guò)領(lǐng)域知識(shí)引導(dǎo),將海量數(shù)據(jù)濃縮為關(guān)鍵信息單元。這一過(guò)程不僅涉及數(shù)據(jù)的篩選,更包括對(duì)數(shù)據(jù)背后業(yè)務(wù)邏輯的深度理解和重構(gòu)。數(shù)據(jù)萃取可以被定義為:基于領(lǐng)域知識(shí)和業(yè)務(wù)目標(biāo),通過(guò)系統(tǒng)性方法從原始數(shù)據(jù)中提取和重構(gòu)最相關(guān)、最有價(jià)值的信息單元,以提高數(shù)據(jù)的業(yè)務(wù)對(duì)齊性和模型的運(yùn)算性能。
在傳統(tǒng)的特征選擇方法中,數(shù)據(jù)工程師通常依賴統(tǒng)計(jì)學(xué)相關(guān)性來(lái)篩選特征。例如,通過(guò)計(jì)算傳感器數(shù)據(jù)的方差或相關(guān)系數(shù)來(lái)決定哪些數(shù)據(jù)是重要的。然而,這種方法往往忽略了數(shù)據(jù)的業(yè)務(wù)背景和實(shí)際應(yīng)用價(jià)值。數(shù)據(jù)萃取則以解決具體業(yè)務(wù)問(wèn)題為目標(biāo),通過(guò)領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn),識(shí)別出對(duì)業(yè)務(wù)目標(biāo)真正有用的數(shù)據(jù)。
以工業(yè)場(chǎng)景為例,假設(shè)業(yè)務(wù)目標(biāo)是減少設(shè)備的停機(jī)時(shí)間。傳統(tǒng)的做法可能是收集所有傳感器的數(shù)據(jù),然后通過(guò)統(tǒng)計(jì)方法篩選出一些重要特征。然而,這種方法可能會(huì)導(dǎo)致大量無(wú)關(guān)數(shù)據(jù)的堆積,增加計(jì)算成本和模型復(fù)雜度。數(shù)據(jù)萃取的邏輯是從維修記錄中識(shí)別出故障前兆信號(hào),結(jié)合傳感器數(shù)據(jù),提取出關(guān)鍵的故障模式。這樣,模型在訓(xùn)練時(shí)只需關(guān)注這些核心數(shù)據(jù),從而提高預(yù)測(cè)準(zhǔn)確率和計(jì)算效率。
在文本分析場(chǎng)景中,數(shù)據(jù)萃取同樣具有重要意義。假設(shè)任務(wù)是讓AI理解一本書(shū)的內(nèi)容。傳統(tǒng)的做法是將整本書(shū)的文本作為輸入,但這不僅增加了計(jì)算負(fù)擔(dān),還可能導(dǎo)致模型在無(wú)關(guān)信息中迷失方向。數(shù)據(jù)萃取則會(huì)提取書(shū)的目錄框架和每個(gè)章節(jié)的核心論點(diǎn),形成一個(gè)高度濃縮的文本摘要。這樣,模型可以更快地理解書(shū)籍的結(jié)構(gòu)和主要內(nèi)容,提高分析效率。
數(shù)據(jù)萃取與傳統(tǒng)方法的本質(zhì)區(qū)別在于其目標(biāo)驅(qū)動(dòng)性和知識(shí)融合性。數(shù)據(jù)萃取不是單純追求數(shù)據(jù)的完整性或特征的多樣性,而是聚焦于解決具體問(wèn)題。同時(shí),數(shù)據(jù)萃取依賴領(lǐng)域?qū)<业慕?jīng)驗(yàn)和知識(shí),通過(guò)這些知識(shí)來(lái)指導(dǎo)數(shù)據(jù)的篩選和重構(gòu),從而確保提取的數(shù)據(jù)具有實(shí)際業(yè)務(wù)價(jià)值。
二、 實(shí)現(xiàn)數(shù)據(jù)萃取的核心過(guò)程
數(shù)據(jù)萃取的實(shí)現(xiàn)過(guò)程可以分為三個(gè)核心步驟:業(yè)務(wù)倒推分析、雙通道過(guò)濾和輕量化封裝。這些步驟共同構(gòu)成了一個(gè)系統(tǒng)性的數(shù)據(jù)處理框架,確保從海量數(shù)據(jù)中提取出最核心、最有價(jià)值的信息。
業(yè)務(wù)倒推分析是數(shù)據(jù)萃取的第一步。這一方法的核心在于從業(yè)務(wù)目標(biāo)出發(fā),逆向拆解所需的數(shù)據(jù)要素。具體來(lái)說(shuō),業(yè)務(wù)倒推分析是在明確業(yè)務(wù)目標(biāo)的基礎(chǔ)上,分析實(shí)現(xiàn)這一目標(biāo)所需的最小數(shù)據(jù)集。例如,假設(shè)業(yè)務(wù)目標(biāo)是提高醫(yī)療診斷的準(zhǔn)確率,那么需要從大量的醫(yī)療影像數(shù)據(jù)中提取出與診斷最相關(guān)的特征,如腫瘤邊界、病變區(qū)域的紋理等。通過(guò)業(yè)務(wù)倒推分析,可以避免盲目收集和處理大量無(wú)關(guān)數(shù)據(jù),從而提高數(shù)據(jù)處理的效率和模型的性能。
雙通道過(guò)濾是數(shù)據(jù)萃取的第二步。這一方法包括正向通道和反向通道兩個(gè)部分。正向通道基于領(lǐng)域知識(shí)預(yù)設(shè)關(guān)鍵特征,反向通道通過(guò)模型誤判案例淘汰無(wú)效數(shù)據(jù)。正向通道的實(shí)現(xiàn)依賴于領(lǐng)域?qū)<业慕?jīng)驗(yàn)和知識(shí),他們可以幫助識(shí)別出哪些數(shù)據(jù)特征是真正重要的。例如,在藥物研發(fā)領(lǐng)域,資深藥化學(xué)家可以指出哪些分子結(jié)構(gòu)參數(shù)對(duì)藥物活性有顯著影響。反向通道則通過(guò)模型的預(yù)測(cè)結(jié)果來(lái)驗(yàn)證數(shù)據(jù)的有效性。當(dāng)模型在某些樣本上出現(xiàn)誤判時(shí),可以追溯這些樣本的數(shù)據(jù)特征,識(shí)別出哪些特征是無(wú)效的或有噪聲的,從而進(jìn)行剔除或優(yōu)化。
輕量化封裝是數(shù)據(jù)萃取的第三步。這一方法的核心在于保留數(shù)據(jù)的可解釋性,避免過(guò)度抽象和壓縮。具體來(lái)說(shuō),需要確保提取的數(shù)據(jù)特征不僅對(duì)模型有用,還能被人類理解和解釋。例如,在工業(yè)質(zhì)檢場(chǎng)景中,提取的傳感器數(shù)據(jù)特征應(yīng)該是物理上有意義的,如振動(dòng)波形、溫度變化等,而不是一些抽象的統(tǒng)計(jì)指標(biāo)。這樣,當(dāng)模型出現(xiàn)誤判時(shí),可以更容易地找到問(wèn)題的根源,并進(jìn)行針對(duì)性的優(yōu)化。
數(shù)據(jù)萃取在構(gòu)建數(shù)據(jù)集的過(guò)程中,所發(fā)揮的作用是多方面的。首先,數(shù)據(jù)萃取通過(guò)業(yè)務(wù)倒推分析,確保數(shù)據(jù)集的構(gòu)建始終圍繞業(yè)務(wù)目標(biāo)展開(kāi),避免了數(shù)據(jù)的冗余和無(wú)效性。其次,雙通道過(guò)濾機(jī)制確保了數(shù)據(jù)集的高質(zhì)量和高可靠性,通過(guò)正向通道和反向通道的結(jié)合,可以持續(xù)優(yōu)化數(shù)據(jù)集的結(jié)構(gòu)和內(nèi)容。最后,輕量化封裝方法保留了數(shù)據(jù)的可解釋性,使得模型的輸出不僅準(zhǔn)確,還能被人類理解和信任。
三、 數(shù)據(jù)萃取支撐“三高”數(shù)據(jù)集構(gòu)建的關(guān)鍵策略
數(shù)據(jù)萃取在構(gòu)建高對(duì)齊、高密度和高響應(yīng)數(shù)據(jù)集中的價(jià)值尤為顯著。這三種數(shù)據(jù)集分別對(duì)應(yīng)不同的業(yè)務(wù)需求和應(yīng)用場(chǎng)景,而數(shù)據(jù)萃取則可以為其構(gòu)建提供關(guān)鍵性的支持。
高對(duì)齊數(shù)據(jù)集是指通過(guò)系統(tǒng)性數(shù)據(jù)工程方法,實(shí)現(xiàn)人工智能系統(tǒng)的價(jià)值導(dǎo)向與目標(biāo)文明體系保持深度協(xié)同的多模態(tài)數(shù)據(jù)集合。在構(gòu)建高對(duì)齊數(shù)據(jù)集時(shí),數(shù)據(jù)萃取的關(guān)鍵策略是通過(guò)價(jià)值觀維度過(guò)濾數(shù)據(jù)。具體來(lái)說(shuō),需要識(shí)別出哪些數(shù)據(jù)特征與人類文明的價(jià)值取向一致,從而確保模型的輸出符合倫理和文化要求。例如,在法律領(lǐng)域,高對(duì)齊數(shù)據(jù)集的構(gòu)建需要確保模型在生成法律文書(shū)時(shí),不會(huì)出現(xiàn)違背司法倫理的內(nèi)容。通過(guò)數(shù)據(jù)萃取,可以從大量的法律案例中提取出體現(xiàn)公平、正義等核心價(jià)值觀的文本段落,作為訓(xùn)練數(shù)據(jù)。這樣,模型在生成法律文書(shū)時(shí),會(huì)更加注重這些價(jià)值觀的體現(xiàn),從而避免不當(dāng)行為的產(chǎn)生。
高密度數(shù)據(jù)集是指通過(guò)知識(shí)的定向提純與場(chǎng)景化重建,將通用大模型轉(zhuǎn)化為領(lǐng)域?qū)<业闹腔廴萜鳌?/span>在構(gòu)建高密度數(shù)據(jù)集時(shí),數(shù)據(jù)萃取的關(guān)鍵策略是將專家認(rèn)知編碼為結(jié)構(gòu)化特征。具體來(lái)說(shuō),需要將領(lǐng)域?qū)<业慕?jīng)驗(yàn)和知識(shí)轉(zhuǎn)化為機(jī)器可理解的特征參數(shù),從而提高模型在專業(yè)領(lǐng)域的認(rèn)知能力。以材料研發(fā)領(lǐng)域?yàn)槔?,傳統(tǒng)的數(shù)據(jù)集往往堆砌材料的硬度、導(dǎo)熱率等常規(guī)參數(shù),而優(yōu)秀的高密度數(shù)據(jù)集會(huì)深入重構(gòu)材料失效的認(rèn)知邏輯。通過(guò)數(shù)據(jù)萃取,可以將工程師對(duì)材料疲勞斷裂的直覺(jué)判斷,轉(zhuǎn)化為位錯(cuò)運(yùn)動(dòng)與晶界反應(yīng)的動(dòng)態(tài)關(guān)聯(lián)模型。這樣,模型在預(yù)測(cè)材料失效時(shí),不僅依賴于表面特征,還能理解背后的物理機(jī)制,從而提高預(yù)測(cè)的準(zhǔn)確性和可靠性。
高響應(yīng)數(shù)據(jù)集是指以垂直業(yè)務(wù)場(chǎng)景需求為核心導(dǎo)向,通過(guò)系統(tǒng)性工程方法構(gòu)建的、有助于訓(xùn)練和增強(qiáng)人工智能大模型專業(yè)能力的多模態(tài)數(shù)據(jù)集合。在構(gòu)建高響應(yīng)數(shù)據(jù)集時(shí),數(shù)據(jù)萃取的關(guān)鍵策略是錨定業(yè)務(wù)指標(biāo)動(dòng)態(tài)調(diào)整數(shù)據(jù)組成。具體來(lái)說(shuō),需要根據(jù)業(yè)務(wù)目標(biāo)的變化,持續(xù)優(yōu)化數(shù)據(jù)集的結(jié)構(gòu)和內(nèi)容,確保模型始終能夠適應(yīng)新的業(yè)務(wù)需求。以電商推薦系統(tǒng)為例,傳統(tǒng)的數(shù)據(jù)集建設(shè)往往依賴于用戶的歷史購(gòu)買記錄和瀏覽行為,但這些數(shù)據(jù)可能無(wú)法捕捉到用戶偏好的細(xì)微變化。通過(guò)數(shù)據(jù)萃取,可以從用戶的頁(yè)面停留時(shí)間、點(diǎn)擊行為等多維度數(shù)據(jù)中,提取出反映用戶偏好的關(guān)鍵特征。同時(shí),需要建立數(shù)據(jù)與業(yè)務(wù)反饋的實(shí)時(shí)對(duì)話通道,當(dāng)模型的推薦效果出現(xiàn)偏差時(shí),能夠及時(shí)調(diào)整數(shù)據(jù)集的結(jié)構(gòu)和內(nèi)容,從而保持推薦算法的高精度和高響應(yīng)性。
當(dāng)前正在發(fā)生的AI范式革命揭示了一個(gè)根本認(rèn)知:數(shù)據(jù)質(zhì)量權(quán)重已超越數(shù)據(jù)規(guī)模,成為決定人工智能上限的核心維度。數(shù)據(jù)萃取通過(guò)三位一體技術(shù)框架(目標(biāo)驅(qū)動(dòng)的業(yè)務(wù)倒推分析、知識(shí)協(xié)同的雙通道過(guò)濾、可解釋導(dǎo)向的輕量化封裝),正在改寫傳統(tǒng)特征工程的底層規(guī)則——特征工程不再是簡(jiǎn)單的數(shù)據(jù)提純,而是實(shí)現(xiàn)人機(jī)認(rèn)知協(xié)同的重要抓手。數(shù)據(jù)萃取方法面向人工智能的創(chuàng)新性在于其將數(shù)據(jù)價(jià)值挖掘從工程實(shí)踐升維至知識(shí)發(fā)現(xiàn),使智能系統(tǒng)同時(shí)具備神經(jīng)網(wǎng)絡(luò)的擬合能力和人類專家的因果判斷。面向算力與智力的融合未來(lái),數(shù)據(jù)萃取所代表的數(shù)據(jù)工程新范式,不僅是大模型時(shí)代的關(guān)鍵數(shù)據(jù)適配策略,更是構(gòu)建可信AI的核心突破點(diǎn),將徹底重構(gòu)人工智能發(fā)展的價(jià)值準(zhǔn)則,使“數(shù)據(jù)量級(jí)”與“模型參數(shù)”的線性競(jìng)爭(zhēng),轉(zhuǎn)化為“領(lǐng)域穿透力”與“認(rèn)知深度”的升維變革。
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“基于數(shù)智融合的信息分析方法創(chuàng)新與應(yīng)用”;國(guó)家檔案局科技項(xiàng)目“基于生成式人工智能的檔案數(shù)據(jù)化關(guān)鍵方法及其應(yīng)用研究”。