趙精武
DeepSeek的出現(xiàn)徹底改變了固有的“高端算力優(yōu)先”的人工智能創(chuàng)新技術(shù)路線(xiàn),其以低廉的成本實(shí)現(xiàn)了與國(guó)外前沿人工智能產(chǎn)品相媲美的性能,“算法模型性能優(yōu)先”也隨之成為新的產(chǎn)業(yè)技術(shù)發(fā)展路線(xiàn)。
這種轉(zhuǎn)變意味著要更加重視訓(xùn)練數(shù)據(jù)的高質(zhì)量供給,因?yàn)椤八惴P托阅軆?yōu)先”技術(shù)路線(xiàn)更依賴(lài)高質(zhì)量的訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行優(yōu)化,而且已公開(kāi)、可抓取的訓(xùn)練數(shù)據(jù)資源即將用盡,亟需能夠反映行業(yè)特征的高質(zhì)量訓(xùn)練數(shù)據(jù)資源。因此,訓(xùn)練數(shù)據(jù)供給機(jī)制的構(gòu)建理應(yīng)作為數(shù)據(jù)基礎(chǔ)制度的立法重心之一,從而用法律規(guī)范訓(xùn)練數(shù)據(jù)的供給方式,提升訓(xùn)練數(shù)據(jù)的供給質(zhì)量。
規(guī)范訓(xùn)練數(shù)據(jù)供給方式所要實(shí)現(xiàn)的目標(biāo),是市場(chǎng)以安全可靠且高效的方式提供訓(xùn)練數(shù)據(jù)資源。首先,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是安全可控的。算法模型訓(xùn)練屬于數(shù)據(jù)處理行為,因而數(shù)據(jù)的供給方和需求方均應(yīng)嚴(yán)格履行個(gè)人信息保護(hù)法、網(wǎng)絡(luò)安全法等法律規(guī)定的數(shù)據(jù)安全保護(hù)義務(wù)。其次,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是合法且沒(méi)有爭(zhēng)議的。高質(zhì)量供給的內(nèi)涵之一便是確保訓(xùn)練數(shù)據(jù)沒(méi)有顯著爭(zhēng)議,否則會(huì)增加法律風(fēng)險(xiǎn),從而降低科技創(chuàng)新資源的供給效率。最后,訓(xùn)練數(shù)據(jù)的供給方式應(yīng)當(dāng)是多元化的。單一的數(shù)據(jù)供給方式不僅無(wú)法提供充分的訓(xùn)練數(shù)據(jù),還可能間接提升人工智能市場(chǎng)的準(zhǔn)入門(mén)檻。
提升訓(xùn)練數(shù)據(jù)供給質(zhì)量所要實(shí)現(xiàn)的目標(biāo),則是數(shù)據(jù)資源供給活動(dòng)應(yīng)當(dāng)滿(mǎn)足“供給數(shù)量充分”和“供給質(zhì)量符合要求”兩個(gè)要件。一方面,當(dāng)下的人工智能產(chǎn)業(yè)發(fā)展主要以大模型為基礎(chǔ),需要海量的訓(xùn)練數(shù)據(jù)作為支撐。另一方面,伴隨著人工智能應(yīng)用方式的場(chǎng)景化、專(zhuān)業(yè)化,其對(duì)訓(xùn)練數(shù)據(jù)質(zhì)量的要求也有所提高。構(gòu)建這種保障機(jī)制的重心,是兼顧科技創(chuàng)新主體的差異化需求以及訓(xùn)練數(shù)據(jù)獲取方式的實(shí)質(zhì)公平性,同時(shí)確保與現(xiàn)行立法體系有效整合。
第一,以科技創(chuàng)新主體為導(dǎo)向,構(gòu)建人工智能訓(xùn)練數(shù)據(jù)公共服務(wù)平臺(tái)。作為人工智能創(chuàng)新的數(shù)字基礎(chǔ)設(shè)施,平臺(tái)的職能之一便是發(fā)現(xiàn)和確認(rèn)各類(lèi)科技創(chuàng)新主體的需求,明確公共訓(xùn)練數(shù)據(jù)資源的分類(lèi)標(biāo)準(zhǔn)。不過(guò),由于政府部門(mén)難以持續(xù)性地對(duì)公共數(shù)據(jù)進(jìn)行清洗、歸集等,因此需要在協(xié)同治理模式下,按照市場(chǎng)需求,對(duì)公共數(shù)據(jù)進(jìn)行去重、糾錯(cuò)、填補(bǔ)空值等管理,以提升數(shù)據(jù)使用質(zhì)量。此外,由于平臺(tái)與算力基礎(chǔ)設(shè)施同屬向市場(chǎng)提供的必要基礎(chǔ)設(shè)施,二者共同作用并影響人工智能創(chuàng)新效率,為避免冗余建設(shè)造成浪費(fèi),更宜將二者一體化建設(shè)。
第二,以市場(chǎng)公平競(jìng)爭(zhēng)為導(dǎo)向,構(gòu)建訓(xùn)練數(shù)據(jù)供給生態(tài)保障體系。我國(guó)現(xiàn)階段人工智能訓(xùn)練數(shù)據(jù)方面面臨的困境,不僅僅是數(shù)據(jù)量不足、質(zhì)量較低,還包括有效的產(chǎn)業(yè)生態(tài)尚未形成。為避免數(shù)據(jù)壟斷等現(xiàn)象,確保中小企業(yè)實(shí)質(zhì)性公平地獲取訓(xùn)練數(shù)據(jù),有必要對(duì)相關(guān)數(shù)據(jù)提供商設(shè)置義務(wù)規(guī)范。如對(duì)于訓(xùn)練數(shù)據(jù)提供商而言,應(yīng)當(dāng)嚴(yán)格禁止其采取強(qiáng)制或變相強(qiáng)制的方式出售捆綁性的訓(xùn)練數(shù)據(jù)產(chǎn)品,并不得采取“二選一”等業(yè)務(wù)模式,對(duì)需求方施加不合理的條件。對(duì)于數(shù)據(jù)標(biāo)注服務(wù)提供商而言,不僅要依據(jù)《生成式人工智能服務(wù)管理暫行辦法》規(guī)定,預(yù)防算法歧視等風(fēng)險(xiǎn),還應(yīng)當(dāng)確保所提供的數(shù)據(jù)滿(mǎn)足完整性、時(shí)效性、準(zhǔn)確性等要求,且與事前約定的數(shù)據(jù)質(zhì)量保持一致。
第三,以數(shù)據(jù)安全保障為導(dǎo)向,構(gòu)建透明可信的訓(xùn)練數(shù)據(jù)供給機(jī)制。已公開(kāi)的個(gè)人信息、包含他人著作權(quán)的作品數(shù)據(jù)能否作為訓(xùn)練數(shù)據(jù)等問(wèn)題,是目前構(gòu)建相關(guān)制度面臨的障礙之一。此外,不安全、不可靠的數(shù)據(jù)交易活動(dòng)同樣會(huì)影響訓(xùn)練數(shù)據(jù)來(lái)源合法性的認(rèn)定。因此,在制度層面確立訓(xùn)練數(shù)據(jù)來(lái)源合法性的判斷標(biāo)準(zhǔn)顯得尤為迫切。這既需要以典型案例、合規(guī)清單等方式指引產(chǎn)業(yè)實(shí)踐,也需要在制度層面設(shè)置涵蓋訓(xùn)練數(shù)據(jù)獲取、使用等各個(gè)業(yè)務(wù)流程的數(shù)據(jù)安全保護(hù)制度。
(作者系北京航空航天大學(xué)法學(xué)院副教授)
編輯:林楠特