当前位置: 首页 >> 中文版 >> 业务研究 >> 专业论文
数据时代的断裂与融合 —基于网络爬虫案件刑民分析
作者:浙江舜杰律师事务所 邵杰楠 周梦皓   日期:2022-06-07    阅读:828次

      摘要

      伴随着“无讼”、“企查查”“启信宝”等一系列以公开免费的网络数据资源为优势条件的互联网企业的崭露头角,可以预见到网络数据的市场规模将逐渐扩大,而隐藏在这个现象背后的实际上是网络爬虫技术的逐渐广泛运用。万事万物皆有两面,在网络爬虫技术展现强大技术优势的同时,在利益的驱动以及缺少法律法规对其进行规制的情况下,其在社会上逐渐呈现出被滥用的趋势,由此产生的对国家机密、个人信息、企业商业秘密及知识产权等方面法益的侵害不容小觑。而在国内无论是司法实践还是立法规制的情况都存在缺失,因此可尝试在调整数据访问权限,在立法端认可数据财产属性等方面对这部分缺失进行融合和弥补。

      关键词:网络爬虫、数据合规、数据权利、规制

       一、互联网语境下人机关系投射出的新型法律关系

      哲学家托马斯-霍布斯在其经典著作中这样形容法律,如果没有法律施加的限制性影响,那么在有限资源的条件下这个世界将会出现丛林法则,就是不管对和错,每一个人都将面对每一个人交战,只争胜负,只有政府制定的法律如同拥有无上力量的巨兽利维坦一样,能够防止人们自相残杀[]。与此同时,法律自诞生那一刻起,却从未享受过价值无涉的待遇,人们时刻期待着它能跟随时代的变迁作出持续的回应。2004年美国好莱坞电影《机械公敌》上映,影片讲述了未来世界智能机器人被广泛运用于人类的生产生活,但随着机器人智能程度的提升,它们逐渐觉醒了自我意识并开始威胁人类生存的故事。科幻电影虚构的情节的在万物数字化的今天似乎正在成为现实,从第一台计算机的诞生,到人工智能、虚拟现实、算法、大数据等一系列增强人类同时又替代人类的新事物的出现,机器在智能程度上呈现出台阶式的发展趋势,但当人类在智能程度上对机器不再具有优势地位的时候,人类主宰机器的时代过去之后,人和机器的之间关系也变的日趋微妙。这一种变化在社会中不断蔓延,向着人与人之间,人与社会之间传递,开始酝酿着一系列诸如智能机器侵权责任的追究这样的法律问题。随着机器的智能程度进一步发展,这种关系变化也变的愈发激烈和显著,法律针对这种关系变化所要调整的需求也就愈发迫切。例如智能机器所创作作品的知识产权问题、自动驾驶、远程医疗带来侵权责任纠纷以及大数据时代个人信息数据人格权属性和财产属性等法律问题。这些滥觞于计算机兴起的智能化法律问题,同时也是新时代互联网语境之下法律所需要的回应人们的关切,我们这代法律从业者对于这些新事物、新行为应当勇于承担责任,尝试先行作出相应的价值判断和选择。[]

       二、问题的引出:直面网络爬虫的现实需求

      我们法律工作者熟知的“启信宝、企查查、无讼案例网站、法天使”等,都是利用免费的公开的数据、信息为优势条件,吸引用户注册成会员,并以高附加值的收费服务、广告收入等作为利润的主要来源,这种类型的互联网企业以及其经营模式逐渐在市场上崭露头角。但如同双刃剑一般,近年来,我们时常发现在不同软件、网址,例如裁判文书网、中国铁路客户服务中心12306网站登录、查询时时常需要进行一些高难度的图像识别、文字验证码排序等认证,令人十分困惑。事实上,这是由于抢票软件等恶意软件泛滥,致使网站服务器瘫痪而设置的阻拦其攻击行为的无奈之举,而藏在这些恶意软件之后的便是网络爬虫行为[]。

      实际上,网络爬虫最早被用于搜索引擎,百度公司所运用的爬虫就是“百度蜘蛛”,“百度蜘蛛”通过每天附着在全互联网的海量网页中获取最新的信息并进行收集整理,当用户在其搜索引擎中输入关键词时,百度会对关键词进行算法分析,并根据分析结果将相关网站链接按照特定的逻辑顺序进行排序供用户选择(例如收费的广告排在最前)。网络爬虫还被大量应用于广告行业,网络爬虫通过对浏览网页的用户信息,比如浏览内容、停留时长等信息的爬取。并利用算法对用户进行类型化分析,采取不同的跟踪营销、经营手段,如广告精准投放和大数据杀熟等等。

       三、原理解析:网络爬虫的作业流程及其种类

       网络爬虫,也可称为网络蚂蚁,指的是通过预先设定好的规则和指令,在目标网站、软件中自动搜索、复制、收集、爬取对象信息数据的一种程序或者脚本。实质上,它通过遍历对象网站、软件的内容,根据预设的规则爬取数据并复制下载到本地,是一种高效的下载手段。[]

 

       网络爬虫的组成部分包含控制节点、爬虫节点、资源库三个部分[]。控制节点,也叫做爬虫的中央控制器,主要负责控制和调动爬虫节点进行具体的爬行。而爬虫节点则根据预设的规则对网页数据进行具体的爬行,然后将爬得的资源储存到对应的资源库中。如上图所示,(图片来自网络),图形连接的部分皆可进行互相通信,以便于整个程序进行爬取作业。[]

       网络爬虫最典型的爬取途径就是通过Cookies,这是网络服务器自动生成的用于记录用户曾经登陆过的网站地址,甚至用户在该网站上登陆、浏览的时间,点击了哪些项目等,包括注册的名称和密码等数据。

       根据爬取对象不同,网络爬虫可以分为公开爬虫和授权爬虫,公开爬虫爬取的对象是向公众开放的数据信息,例如裁判文书信息、企业信用信息等,授权爬虫爬取的对象则需要获得目标网站、软件管理者、数据所有者的授权,如个人信息、知识产权信息等。根据获取数据信息范围的不同,又分为通用型网络爬虫和聚焦型网络爬虫,通用型网络爬虫例如百度蜘蛛,存在于全互联网之中爬取海量的不特定信息,这对于爬虫的技术及性能要求非常之高。而聚焦型网络爬虫则与之相反,只存在特定的目标网站、软件之中,以垂直获取的方式爬取有限的数据信息。

      四、量少而集中:网络爬虫的司法实践现状特点

     (一)案由集中。笔者以“网络爬虫”作为关键词在中国裁判文书网中检索案例,查的自2015年的案件总共64件,其中民事案件(含知产)45件、刑事案件8件、行政案件11件,在民事案件中,涉及知识产权的案件较为多数,为20件。案由分布如下图所示。笔者能力有限,只能从公开的资料中检索案例,并不能覆盖目前所有的关于网络爬虫的案件,从初步的检索情况来看,虽然总体案件数量并不多并且案件大多集中于民事领域,包括知识产权中的利用爬虫技术侵犯他人著作权的案件。明显可以看到网络爬虫案件的数量呈现正在逐年增加的态势, 随着网络爬虫的广泛应用,尤其是在目前这个领域法律法规呈现“真空状态”的情况下,预计在不久的将来,这个类型的案件将会呈井喷状态。

       网络爬虫案件检索情况

       

 

      (二)罪名集中。在刑事领域,根据笔者对检索到的8个刑事案件的具体研究,从表格中我们可以看出,自2015年开始,刑事案件数量的增长趋势并不明显,地域分布也不集中,但是就罪名而言,在网络爬虫行为触犯刑事法律规定的情况之下,目前为止总共非法获取计算机信息系统数据罪、侵犯公民个人信息罪、破坏计算机信息系统罪三个罪名来对其进行规制,其中最多涉及到的是利用网络爬虫手段侵犯了公民个人信息。

 网络爬虫刑事案件检索情况

网络爬虫刑事案件检索情况

 

       五、网络爬虫的恶意利用:基于司法实践视角观察

     (一)网络爬虫展现出强大的技术优势

     我们可以分析出,网络爬虫的工作原理和种类,事实上根据笔者了解在现实中运用网络爬虫解决实际问题,尤其是大型互联网公司,都是几种类型的爬虫结合相互的优势特点组合工作,展现出以下几种技术优势:1. 爬取行为的准确性。例如聚焦型网络爬虫,它们根据预设的程序,在爬取网页过程中自动剥离与所需要检索的关键词相对无关的内容,在这个时候,它也会将载有剩余数据信息的网页链接进排序并重复上述行为,直至找出与关键词最为相关的数据信息;2. 爬取的数据来源于海量的互联网资源,内容丰富齐全。例如通用型网络爬虫,它们广泛存在于全互联之中,尤其是在其预设的程序当中设定为将爬取范围设为最广的条件下更是如此。3. 这样一种依靠编写特定程序,设置前置条件就能实现数据资源自由的网络爬虫技术,是与依靠人力、脑力对网络进行检索所不能比拟的,这样的技术手段不仅实现了网络数据资源的高效获取,其所获的数据种类、数量也是最为丰富和齐全的。

     (二)利益驱动下网络爬虫技术逐渐被恶意滥用

     出于以上网络爬虫技术所带来的强大的技术优势,与此同时,随着时代的发展,数据的利用需求与日俱增,由此给网络爬虫技术带来的需求也日益强烈,在利益驱动下,先进技术在行业规范、法律规制滞后的情况下,犹如脱缰猛兽一般不可控制。并且,由于网络爬虫技术本身获取门槛不高,稍有计算机基础即可进行编程,并且网络爬虫技术的源代码在互联网中也很容易获取,这更加促使网络其恶意的滥用和推广。根据网宿科技发布的《2019上半年中国互联网安全报告》,2019年上半年网宿云安全平台共监测并拦截了53.85亿次爬虫攻击,增幅为108.23%,攻击量同比呈翻番式增长;从行业分布来看,其中传媒和咨询行业遭受攻击的比重最大,为41.02%,超过此前受攻击最严重的交通运输业。从攻击形态来看,《报告》显示自从上半年以来,网络爬虫攻击的技术手段与此前相比更为智能化,对反爬虫措施有很多的应对能力和方法来进行规避。

     (三)恶意爬虫技术的危害性

     笔者根据对检索到的网络爬虫刑事案件的分析,截止2021年5月,裁判文书网上公开的刑事案件当主要由非法获取计算机信息系统数据罪、侵犯公民个人信息罪、破坏计算机信息系统罪来进行规制,而且在司法实践中,事实上其危害表现也大多来源于此,首先就是对目标网站而言,被大量爬虫软件的爬取时,网络带宽在短时间内被大量占据,此时网站服务器需要在短时间内处理大量内容,极易造成网站崩溃,例如前些年由于抢票软件兴起,造成高铁12306网站时常崩溃,以至于出现高难度的图片识别来阻止网络爬虫。其次就是恶意的网络爬虫也会在爬行目标网站、软件的同时,侵入计算机系统,以不当方式更改计算机系统原有的信息、文件,对系统造成破坏,甚至危害整个计算机系统的安全,在有些目标网站是国家、政府网站的情况下,若不加以规制,其危害性可能会大大增加。最后就是网络爬虫在获取数据的同时,有可能有意无意地获取了涉及公民个人隐私的信息、涉及国家机密、企业商业秘密、著作权人的著作权、色情淫秽信息等数据,如若不加以控制和干涉,极易滋生犯罪,使得网络爬虫极其容易成为不法分子牟利的工具。

        六、合规性审查:现有网络爬虫的行为规范存在“断裂”

     (一)网络爬虫行为应遵守的法律法规。笔者穷尽图书馆、人大官网、报纸、文献等资源,发现立法在这个领域存在“断裂”一般的空白,不能否认网络爬虫这个概念对一般公众而言过于晦涩且陌生,但随着大数据时代的来临,国家和社会对大数据的应用也日渐广泛,对于网络爬虫在立法层面的规制已经到了不得不做的阶段,我们注意到很多法律法规都在不断颁布和修改。一是《中华人民共和国刑法》、16年颁布17年实施的《中华人民共和国网络安全法》以及正在抓紧时间起草的《个人信息保护法(草案)》等法律,纵观其对于立法内容,事实上并没有具体涉及到对于网络爬虫行为的管理规范,其涉及到网络数据的内容也大多属于原则性描述。如《网络信息安全法》第44条规定禁止盗用个人信息,即便是获得授权获取使用的个人信息,也需要严格审查个人信息提供方自身被授权的状况[] []

     (二)梳理规范网络爬虫行为的行政法规、部门规章。这类文件有依据《中华人民共和国网络安全法》制定的《数据安全管理办法》,20年3月颁布,同年10月实施的《信息安全技术个人信息安全规范》、19年起实施的《儿童个人信息网络保护规定》等。如《数据安全管理办法》第16条规定:“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网络运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”都针对网络爬虫行为作出了相对具体的规定和制约。可以看到这类文件都是这两年才颁布实施,在日常生活中既不为公众所熟知,也没有过对其适用的著名案件,笔者也是经过长时间对大数据法律的关注以及不间断的检索才得知该类法规的颁布。

     (三)民刑领域相关司法解释的补充。根据笔者的检索结果和相关研究,司法实践中在办理案件时则经常会用到《最高人民法院、最高人民检察院关于办理非法利用信息网络、帮助信息网络犯罪活动等刑事案件适用法律若干问题的解释》、《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》等司法解释,在缺少实体法律对其进行规制的情况下,为司法实践对于恶意网络爬虫行为的法律适用提供了很好的补充。而在司法实践中,则通过爬取对象、爬取方式、主观状况等不同标准对其进行刑法规制[]。在民事领域,2020年112月最高人民法院颁布的、2021年1月1日实施的《关于审理利用信息网络侵害人身权益民事纠纷案件适用法律若干问题的规定》中的第十条第一款否定了恶意网络爬虫协议的效力[];第二款则体现了恶意网络爬虫行为的类型以及其行为委托人的连带责任[]这两条不仅对恶意网络爬虫协议的法律效力作出了规定,还对恶意网络爬虫的侵权行为的侵权属性做出了规定。

     (四)网络爬虫的相关行业规范。这里的行业规范一般就是指Robots协议以及类似《互联网搜索引擎服务自律公约》等行业标准。事实上,自网络爬虫诞生之前,就已经存在类似的行业规范,这个行业规范以对外公告的方式向网站访问者(通常是搜索引擎方),本网站哪些数据允许访问者爬取,哪些数据不允许访问者爬取,在网络爬虫访问网站的第一个站点时,就会自动检查储存在该站点下的Robots协议,类似于国家之间自由贸易的黑白名单,其以宣示的形式来告知访问者哪些数据是公共的,哪些数据是禁止访问、爬取的。但是这个规范也只是君子之约,并不能对网站访问者产生实质性的强制力。不过在民商事案件当中,Robots协议依旧可以被认定为行业内约定俗成的规范,违反该协议依旧可能被认定为侵犯被访问者的权利,构成不正当竞争等等,主要能够解决一部分产生于互联网公司之间的纠纷,最典型的案例就是2016年百度公司诉奇虎360违反网络爬虫协议案。百度公司认为奇虎360公司违反其网络爬虫协议,恶意爬取,复制其网站内容信息向自己用户提供。奇虎360公司则认为百度公司滥用网络爬虫协议来限制和排斥同业竞争。法院审理后认定奇虎360公司通过超链接的设置,将百度公司的搜索内容以网页快照的方式向用户提供的行为不当,判决其赔偿百度公司相关损失。

      七、融合:规制恶意网络爬虫的可行性尝试

    (一)压缩、限制数据的开放程度。

     根据上文所述,互联网行业内的自律协议-Robots协议,虽然不具有绝对的强制力限制条件,但是民事案件领域,恶意爬虫行为依旧能够构成对商业秘密、著作权(尤其是其网络信息传播权、即以各种方式将作品信息传播到其他为公众所知晓的区域从而侵害到著作权人的该项权利)、不正当竞争纠纷的侵害。在事实上,数据网站已经拥有了决定网站内数据开放程度的决定权,并需要担负对网站内数据公开以后的责任[]。因此可以这样说,在司法实践中,网站管理者对数据的开放程度约越低,数据的受保护价值就越高,恶意爬虫行为本人认定为需要承担民事责任的乃至刑事责任的可能性就越大[]。因此在涉及网站的Robots协议当中应当尽可能缩小访问者对网站数据的权限范围。首先,在行为许可上将浏览、复制、转发等缩小为仅限浏览。其次,在许可对象上,除个人信息、国家机密、商业秘密、著作权等涉及知识产权的信息缩小或禁止权限以外,还可以对其他数据的访问权限进行缩限。此外,可以在网站上设置《隐私政策》、《使用须知》、《数据使用说明》等形式,对注册用户、游客(即非注册用户)对网站运营者本身作出相应的数据信息的占有、使用进行授权,同时声明、警示他们对网站的数据进行使用权限、范围的具有限制。也就是说,在允许获取本网站数据的情况下,需要做好两个授权,即用户向平台授权,平台向数据获取方授权,并且此类授权必须是明确、明示且详细的,必须满足知情同意原则。

     (二)设置例如身份验证、IP地址限制、图片验证码识别、参数签名等等各类技术措施、手段并不断保持更新。[]

     在司法实践中,恶意爬虫对受侵害网站设置的保护措施的突破、破坏行为,其产生的效果不仅可能有司法者根据受侵害网站对于该数据的保护意愿大小来判断该数据的价值,而且在刑事案件中,恶意爬虫行为对受害者网站的保护措施的突破行为也会使得裁判者在主客观方面对刑事行为的认定产生影响,因为相比于仅仅违反Robots协议的网络爬虫,明知没有授权还强行突破、绕开网站运营者设置的数据保护措施,其行为十分恶劣,主观恶意更是不言自明。也就是说若只是以前文所述,与利用声明、协议等对网站数据信息进行“弱保护”相比,采取技术手段不仅使得公开可利用的数据和不被允许利用的数据之间产生了明确的界限,而且也可以此来确定恶意网络爬虫的行为边界,同时也体现了网站运营者、用户“强烈的”数据保护意愿。而相关司法解释[]早已也强调了对计算机系统的安全措施实施避开、突破而获取数据的行为,视为对计算机系统的“非法侵入”。

     (三)尝试肯定数据的财产属性:在立法司法层面[] 

     实际上,网络爬虫是作为一种技术手段来进行商业活动的特征,它的背后实际上映射了出数据本身的财产属性若数据本身无价值,为何还需要采取如此复杂的去获取它以及规制获取它的行为?并且目前为止有关网络爬虫民事案件的案由大多集中在不正当竞争、知识产权,其侵犯的法益不言自明,包含社会的竞争秩序、经营者、消费者的利益以及知识产权利益,目前我国尚无认可数据的财产性权利的案例,因此笔者认为可大胆尝试在立法、司法领域将数据的财产属性体现出来,这样不仅能够使得公众意识到自身数据的价值,加强对自身数据信息的重视和保护,也能保障公众在自身数据对外流动的过程中受益,加强数据流动性,打破对信息权的垄断[]。



 



来源:省律协专业委员会工作部
责任编辑:雷雨