在线观看国产入口视频网站大全免费,伊人久久大香线蕉一区

上一期 | 總第957期(2024.03.02-2024.03.08)

數(shù)據(jù)爬取行為的正當(dāng)性邊界及合規(guī)要點(diǎn)

　　文/北京市集佳律師事務(wù)所周丹丹崔夢嘉曹陽

　　隨著人工智能時(shí)代的到來，高質(zhì)量訓(xùn)練數(shù)據(jù)已成為大模型發(fā)展的基礎(chǔ)，如何合法合規(guī)獲取并構(gòu)建高質(zhì)量數(shù)據(jù)集成為業(yè)界越來越關(guān)注的問題。訓(xùn)練數(shù)據(jù)一般來源于網(wǎng)絡(luò)爬取、企業(yè)直接收集、開源數(shù)據(jù)集、商業(yè)途徑購買等渠道，網(wǎng)絡(luò)爬取數(shù)據(jù)系其中最重要的組成部分。數(shù)據(jù)爬取行為的正當(dāng)性及其邊界問題，在近年來數(shù)據(jù)作為重要生產(chǎn)要素的背景下，一直廣為討論。但由于目前數(shù)據(jù)保護(hù)專門立法仍在探索中，在民事法律層面，我國主要通過《反不正當(dāng)競爭法》對數(shù)據(jù)爬取行為予以規(guī)制。本文將結(jié)合現(xiàn)有數(shù)據(jù)爬取司法案例，從數(shù)據(jù)爬取的內(nèi)容、行為手段、爬取后果等角度，結(jié)合利益平衡原則，分析當(dāng)前司法實(shí)務(wù)所劃定的數(shù)據(jù)爬取行為正當(dāng)性邊界，梳理總結(jié)企業(yè)數(shù)據(jù)爬取行為的合規(guī)要點(diǎn)。

　　一、網(wǎng)絡(luò)爬蟲技術(shù)的廣泛應(yīng)用

　　在涉數(shù)據(jù)爬取案件中，均會提到一個名詞即“爬蟲”。此“爬蟲”是一種程序腳本，是互聯(lián)網(wǎng)上爬取各網(wǎng)站、平臺數(shù)據(jù)信息內(nèi)容的程序腳本的統(tǒng)稱，因其英文名稱“Crawler”“Spider”等而獲中文名稱“爬蟲”。

　　行為模式上，爬蟲按照其使用者編寫好的規(guī)則，自動為使用者爬取互聯(lián)網(wǎng)上的數(shù)據(jù)信息內(nèi)容。它們通常使用自動化數(shù)據(jù)抓取技術(shù)來自動訪問網(wǎng)站，并收集、解析和存儲網(wǎng)站上的信息。這些信息可以是結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。在過去20多年，爬蟲技術(shù)已廣泛應(yīng)用于多個領(lǐng)域，如搜索引擎、內(nèi)容聚合、電子商務(wù)比價(jià)或市場研究、社交媒體輿情監(jiān)測、競爭情報(bào)分析等等。

　　二、數(shù)據(jù)爬取行為的正當(dāng)性邊界判斷

　　在涉數(shù)據(jù)爬取類不正當(dāng)競爭糾紛案件中，法院通常從以下四個方面對數(shù)據(jù)爬取行為的正當(dāng)性進(jìn)行判斷：一是判斷數(shù)據(jù)持有者和數(shù)據(jù)獲取者之間是否具有競爭關(guān)系；二是判斷數(shù)據(jù)持有者是否享有受法律保護(hù)的競爭性數(shù)據(jù)權(quán)益；三是判斷數(shù)據(jù)獲取或使用行為是否具有不正當(dāng)性；四是判斷數(shù)據(jù)獲取或使用行為是否損害經(jīng)營者權(quán)益、消費(fèi)者權(quán)益和市場競爭秩序。本文主要從數(shù)據(jù)獲取及使用行為的行為要件和結(jié)果要件上，總結(jié)目前司法實(shí)踐中行為正當(dāng)性判斷考量因素及裁判要旨。

　　（一）數(shù)據(jù)爬取行為不得破壞或繞開技術(shù)措施

　　常見的破壞、繞開技術(shù)措施行為包括：破壞數(shù)據(jù)持有者加密系統(tǒng)；破壞數(shù)據(jù)持有者設(shè)置的身份認(rèn)證系統(tǒng)、用戶登錄系統(tǒng)；偽裝成用戶登錄或模擬用戶行為，欺騙數(shù)據(jù)持有者的身份認(rèn)證系統(tǒng)；破壞、繞開反爬蟲技術(shù)措施，如破壞、繞開封禁措施、IP訪問限制等。

　　在谷米公司訴元光公司“車來了”案【1】中，就元光公司使用爬蟲通過更換IP地址、破解加密算法等技術(shù)方式爬取谷米公司的公交實(shí)時(shí)數(shù)據(jù)，日均300萬至400萬條的行為，法院認(rèn)定元光公司未經(jīng)谷米公司許可，利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)入谷米公司服務(wù)器后臺的方式非法獲取數(shù)據(jù)的行為，具有非法占用他人無形財(cái)產(chǎn)權(quán)益，破壞他人市場競爭優(yōu)勢，并為自己謀取競爭優(yōu)勢的主觀故意，違反了誠實(shí)信用原則，擾亂了競爭秩序，構(gòu)成不正當(dāng)競爭。

　　在新浪微博訴超級星飯團(tuán)案【2】中，法院認(rèn)定云智聯(lián)公司抓取新浪微博非公開數(shù)據(jù)的行為涉及利用技術(shù)手段破壞或繞開微夢公司設(shè)定的訪問權(quán)限，具有不正當(dāng)性。

　　（二）數(shù)據(jù)爬取行為應(yīng)遵守Robots協(xié)議

　　Robots協(xié)議系通過在網(wǎng)站域名根目錄下以文本文檔robots.txt之形式，向爬蟲指引網(wǎng)站所有者對于其網(wǎng)站內(nèi)的內(nèi)容允許抑或禁止爬取的意思表示。該規(guī)范于90年代由網(wǎng)絡(luò)工程師們發(fā)起，迅速形成了搜索引擎領(lǐng)域內(nèi)普遍認(rèn)可、普遍遵守的技術(shù)規(guī)范。中國互聯(lián)網(wǎng)協(xié)會于2012年11月發(fā)布的《互聯(lián)網(wǎng)搜索引擎自律公約》第七條中即明確約定了“遵循國際通行的行業(yè)慣例與商業(yè)規(guī)則，遵守機(jī)器人協(xié)議（Robots協(xié)議）”，第八條規(guī)定“互聯(lián)網(wǎng)站所有者設(shè)置機(jī)器人協(xié)議應(yīng)遵循公平、開放和促進(jìn)信息自由流動的原則，限制搜索引擎抓取應(yīng)有行業(yè)公認(rèn)合理的正當(dāng)理由，不利用機(jī)器人協(xié)議進(jìn)行不正當(dāng)競爭行為，積極營造鼓勵創(chuàng)新、公平公正的良性競爭環(huán)境?！?/p>

　　在我國現(xiàn)有的多個涉數(shù)據(jù)爬取案件中，對于爬蟲使用者違反Robots協(xié)議的行為是否構(gòu)成不正當(dāng)競爭，法院總體上都需要結(jié)合利益平衡原則進(jìn)行綜合判斷。主要的司法觀點(diǎn)如下：

　　1.Robots協(xié)議是搜索引擎行業(yè)普遍遵守的技術(shù)規(guī)范，可以作為公認(rèn)商業(yè)道德的參考

　　2.違反Robots協(xié)議的爬取行為，通常會認(rèn)為具有不正當(dāng)性

　　在百度訴奇虎“360搜索引擎”案【3】中，北京市第一中級人民法院認(rèn)定360搜索引擎推出時(shí)違反Robots協(xié)議爬取百度平臺數(shù)據(jù)內(nèi)容的行為構(gòu)成不正當(dāng)競爭。

　　在新浪微博訴超級星飯團(tuán)案中，法院認(rèn)定“根據(jù)微夢公司提交的新浪微博Robots協(xié)議，以及雙方均認(rèn)可Robots協(xié)議可以約束包括網(wǎng)絡(luò)爬蟲在內(nèi)的機(jī)器人之事實(shí)，云智聯(lián)公司在明知微夢公司限制除白名單以外的機(jī)器人抓取涉案數(shù)據(jù)的情況下仍然實(shí)施抓取涉案數(shù)據(jù)中的公開數(shù)據(jù)，顯然亦具有明顯的主觀惡意”，并結(jié)合其他因素，最終認(rèn)定云智聯(lián)公司抓取新浪微博公開數(shù)據(jù)的行為具有不正當(dāng)性。

　　3.設(shè)置Robots協(xié)議本身具有不正當(dāng)性，也可能影響違反Robots協(xié)議爬取數(shù)據(jù)行為的正當(dāng)性判斷

　　從Robots協(xié)議設(shè)置的原理而言，Robots協(xié)議設(shè)置是否具有正當(dāng)、合理理由，不宜作為數(shù)據(jù)爬取者是否遵循該Robots協(xié)議的前提條件，也不應(yīng)成為數(shù)據(jù)爬取者違反Robots協(xié)議爬取數(shù)據(jù)行為正當(dāng)性判斷需要考量的因素。但在司法實(shí)踐中，法院通常也會對網(wǎng)站經(jīng)營者所設(shè)置之Robots協(xié)議是否正當(dāng)、合理進(jìn)行判斷。

　　百度訴奇虎“360搜索引擎”案中，法院認(rèn)為，百度在奇虎發(fā)出修改百度Robots協(xié)議的要求后應(yīng)在合理期限內(nèi)書面告知拒絕修改的合理理由，在百度未明確提出合理理由的情況下，奇虎在《自律公約》簽訂后實(shí)施的爬取行為不構(gòu)成不正當(dāng)競爭。

　　雖然在奇虎訴百度設(shè)置Robots協(xié)議禁止360搜索引擎爬取案【4】中，法院認(rèn)為百度于《自律公約》簽訂后仍在Robots協(xié)議中專門針對360爬蟲進(jìn)行限制的行為屬于歧視性措施，不具有合理、正當(dāng)?shù)睦碛桑罱K認(rèn)定百度在Robots協(xié)議中針對360爬蟲進(jìn)行歧視性設(shè)置的行為構(gòu)成不正當(dāng)競爭，但Robots協(xié)議中的針對性設(shè)置并非當(dāng)然具有不正當(dāng)性。在字節(jié)跳動訴新浪微博案【5】中，法院認(rèn)定“Robots協(xié)議在某種意義上已經(jīng)成為維系企業(yè)核心競爭力，維系市場有序競爭的一種手段。盡管Robots協(xié)議客觀上可能造成對某個或某些經(jīng)營者的‘歧視’，但在不損害消費(fèi)者利益、不損害公共利益、不損害競爭秩序的情況下，應(yīng)當(dāng)允許網(wǎng)站經(jīng)營者通過Robots協(xié)議對其他網(wǎng)絡(luò)機(jī)器人的抓取進(jìn)行限制，這是網(wǎng)站經(jīng)營者經(jīng)營自主權(quán)的一種體現(xiàn)?！?/p>

　　（三）從數(shù)據(jù)爬取的后果上，不得妨礙、破壞系統(tǒng)的正常運(yùn)行，不得產(chǎn)生實(shí)質(zhì)性替代

　　即使數(shù)據(jù)爬取行為不具有任何不正當(dāng)性，也并不意味著數(shù)據(jù)爬取者可以對所爬取的數(shù)據(jù)任意使用。若從爬取后果的角度，存在妨礙、破壞被爬取的系統(tǒng)的正常運(yùn)行，或后續(xù)的數(shù)據(jù)使用行為對于數(shù)據(jù)持有者的產(chǎn)品產(chǎn)生實(shí)質(zhì)性替代，或損害公共利益、市場競爭秩序，也可能被法院認(rèn)定為具有不正當(dāng)性。

　　關(guān)于數(shù)據(jù)使用行為的正當(dāng)性，有兩個層次：若數(shù)據(jù)來源本身不正當(dāng)，則后續(xù)的數(shù)據(jù)使用行為也難謂正當(dāng)；若數(shù)據(jù)來源本身不存在不正當(dāng)性，也不意味著可以任意使用所爬取的數(shù)據(jù)，而仍應(yīng)合理控制數(shù)據(jù)使用范圍和方式，不得對數(shù)據(jù)持有者產(chǎn)品產(chǎn)生實(shí)質(zhì)性替代效果。

　　在大眾點(diǎn)評訴百度案【6】中，法院認(rèn)定百度公司通過搜索技術(shù)抓取并大量全文展示來自大眾點(diǎn)評網(wǎng)的信息已經(jīng)超過必要的限度，構(gòu)成對大眾點(diǎn)評網(wǎng)的實(shí)質(zhì)性替代，具有不正當(dāng)性。

　　從現(xiàn)有司法案例可以看出，數(shù)據(jù)使用應(yīng)當(dāng)遵循“最少、必要”的原則，即采取對數(shù)據(jù)持有者損害最小的措施，如超出必要限度使用數(shù)據(jù)，造成對數(shù)據(jù)持有者的實(shí)質(zhì)性替代，則構(gòu)成不正當(dāng)競爭。而在對是否超出必要限度進(jìn)行考量時(shí)，可能被法院考慮的因素包括：

　　1.使用方式：對數(shù)據(jù)是否直接搬運(yùn)使用、基本沒有創(chuàng)新性使用；

　　2.替代程度：是否導(dǎo)致消費(fèi)者無需使用數(shù)據(jù)持有者產(chǎn)品，而產(chǎn)生了“替代”；

　　3.最小損害：是否存在明顯損害方式更小的數(shù)據(jù)使用方式而未采??；

　　4.市場效果：是否具有提升消費(fèi)者福利、促進(jìn)市場競爭的正向作用。

　　（四）利益平衡原則在行為正當(dāng)性司法判斷上的運(yùn)用

　　就數(shù)據(jù)爬取行為的規(guī)制，法院主要適用《反不正當(dāng)競爭法》互聯(lián)網(wǎng)專條兜底條款或第二條一般性條款予以規(guī)制。而無論適用哪一條，均會涉及到利益平衡原則的運(yùn)用。根據(jù)《反不正當(dāng)競爭法司法解釋》第三條第二款，“人民法院應(yīng)當(dāng)結(jié)合案件具體情況，綜合考慮行業(yè)規(guī)則或者商業(yè)慣例、經(jīng)營者的主觀狀態(tài)、交易相對人的選擇意愿、對消費(fèi)者權(quán)益、市場競爭秩序、社會公共利益的影響等因素，依法判斷經(jīng)營者是否違反商業(yè)道德?！?/p>

　　有論者提供了數(shù)據(jù)爬取中權(quán)益權(quán)衡的分析框架，【7】對于精細(xì)化衡量數(shù)據(jù)爬取各方權(quán)益具有參考作用。目前雖尚未發(fā)現(xiàn)法院采用如此精細(xì)量化之方式，但法院利益平衡原則一直以來都是數(shù)據(jù)爬取行為正當(dāng)性評述的重點(diǎn)。

　　在筆者所代理的某搜索引擎違反Robots協(xié)議爬取數(shù)據(jù)案中，法院即綜合考慮了被訴搜索引擎違反Robots協(xié)議爬取數(shù)據(jù)作為搜索引擎服務(wù)內(nèi)容予以提供，對搜索結(jié)果設(shè)置聚合產(chǎn)品予以主動推薦，同時(shí)考慮了被訴行為對其他經(jīng)營者合法權(quán)益的損害，對消費(fèi)者利益的損害，及對市場競爭秩序的影響進(jìn)行判斷。

　　在新浪微博訴超級星飯團(tuán)案中，法院認(rèn)定，網(wǎng)絡(luò)平臺對他人抓取其公開數(shù)據(jù)應(yīng)負(fù)有一定程度上的容忍義務(wù)，即對于平臺中的公開數(shù)據(jù)，基于網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)的可集成、可交互之特點(diǎn)，平臺經(jīng)營者應(yīng)當(dāng)在一定程度上容忍他人合法收集或利用其平臺中已公開的數(shù)據(jù)，否則將可能阻礙以公益研究或其他有益用途為目的的數(shù)據(jù)運(yùn)用，有違互聯(lián)網(wǎng)互聯(lián)互通之精神。

　　三．企業(yè)數(shù)據(jù)爬取的合規(guī)要點(diǎn)

　　根據(jù)如上對現(xiàn)有司法案例的分析，本文總結(jié)提煉企業(yè)數(shù)據(jù)爬取行為的如下合規(guī)要點(diǎn)：

　　1.不可突破、繞開技術(shù)措施爬取數(shù)據(jù)，包括模擬用戶身份或行為進(jìn)行系統(tǒng)登錄；

　　2.遵守Robots協(xié)議；

　　3.避免爬取個人信息、他人享有著作權(quán)的作品、商業(yè)秘密等；

　　4.避免大量、高頻地爬取數(shù)據(jù)，防止破壞網(wǎng)站正常經(jīng)營；

　　5.使用數(shù)據(jù)遵循“最小必要原則”，避免產(chǎn)生對數(shù)據(jù)持有者的實(shí)質(zhì)性替代；

　　6.爬取并使用開源數(shù)據(jù)集，需要遵守開源許可證。

　　注釋：

　　【1】（2017）粵03民初822號民事判決書。

　　【2】（2017)京0108民初24512號民事判決書。

　　【3】（2013）一中民初字第2668號民事判決書。

　　【4】（2017）京民終487號民事判決書。

　　【5】（2021）京民終281號民事判決書。

　　【6】（2016）滬73民終242號民事判決書。

　　【7】許可，《數(shù)據(jù)爬取的正當(dāng)性及其邊界》，載《中國法學(xué)》2021年第2期。

此篇文章由北京集佳知識產(chǎn)權(quán)代理有限公司版權(quán)所有,未經(jīng)授權(quán)請勿轉(zhuǎn)載