写点什么

大众点评诉百度,数据爬虫合法边界引关注

作者:本原智数
  • 2024-11-06
    上海
  • 本文字数:6084 字

    阅读完需:约 20 分钟

大众点评诉百度,数据爬虫合法边界引关注

引言

在当今数字化时代,数据如同新的石油,是企业核心竞争力的关键要素。随着信息技术的飞速发展,数据的价值日益凸显,如何合法、高效地获取和利用数据,成为众多企业面临的重大课题。数据爬虫作为一种广泛应用的数据采集工具,在为企业带来便利的同时,也引发了诸多法律争议。2017 年大众点评与百度之间的诉讼案,犹如一颗投入数据法律领域的巨石,激起千层浪,成为探讨数据爬虫合法性的经典案例。这一案件不仅引发了社会各界对数据抓取行为的高度关注,也为行业发展提供了宝贵的法律借鉴,促使企业在复杂的数据环境中审慎应对法律风险,探索可持续发展之路。

一、案件背景

(一)案件信息

案件名称:上海汉涛信息咨询有限公司诉北京百度网讯科技有限公司、上海杰图软件技术有限公司不正当竞争案

案号:(2016)沪 73 民终 242 号(二审);(2015)浦民三(知)初字第 528 号(一审)

审理法院:上海知识产权法院(二审);上海市浦东新区人民法院(一审)

案由:不正当竞争

原告(被上诉人) :上海汉涛信息咨询有限公司(大众点评)

被告(上诉人) :北京百度网讯科技有限公司(百度),上海杰图软件技术有限公司

法院判决:一审判决——1、百度公司于判决生效之日起立即停止以不正当的方式使用汉涛公司运营的大众点评网的点评信息;2、百度公司于判决生效之日起十日内赔偿汉涛公司经济损失 300 万元及制止不正当竞争行为所支付的合理费用 23 万元;3、驳回汉涛公司其余诉讼请求。

百度公司提起上诉,二审判决——驳回上诉,维持原判。

(二)背景案情

2017 年,大众点评起诉百度,指控其在未经授权的情况下抓取平台内容,将之用于百度地图等服务。这一案件成为中国首例引发广泛关注的关于数据爬虫合法性与不正当竞争的司法判例,被称为互联网领域的数据“保卫战”。法院最终判决百度构成不正当竞争,并需赔偿大众点评 300 万元,这一判决为中国互联网领域的反不正当竞争提供了重要的司法先例。

案件的核心争议在于百度通过爬虫技术抓取大众点评网的用户评论和商户信息,用于增强其百度地图产品的功能。百度辩称自己的爬取行为符合大众点评网的“Robots 协议”——一项用于限制或允许搜索引擎抓取的技术标准。然而,大众点评认为,即便满足 Robots 协议,这种抓取行为也属于“不劳而获”,侵犯了其核心竞争资源,破坏了公平竞争

法院判决指出,双方不仅存在竞争关系,而且百度的行为严重破坏了大众点评的竞争优势。尽管点评内容属于公开信息,不构成商业秘密,但法院依据《反不正当竞争法》认定,百度通过“搭便车”的方式获取竞争优势,违背了诚实信用和商业道德

法院认为,百度和大众点评之间不仅是搜索引擎与点评平台的区别,而是在为用户提供 O2O 服务和 LBS 服务上存在直接竞争关系。判决认定百度的行为构成不正当竞争,并裁定百度赔偿大众点评 300 万元人民币,同时停止继续抓取相关数据。


法院的判决依据主要包括以下两个方面:

1.《反不正当竞争法》

《反不正当竞争法》是保护市场竞争秩序、维护企业合法权益的重要法律。在这个案件中,法院依据该法禁止竞争者通过不正当手段获取商业秘密的规定,认定 百度的数据抓取行为构成不正当竞争。

根据《反不正当竞争法》,不正当竞争行为是指经营者在生产经营活动中,违反本法规定,扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为。百度的数据抓取行为被认为违反了该法的公平、诚信原则,通过不正当手段获取了大众点评的商业秘密,损害了大众点评的合法权益,破坏了市场竞争秩序。

2.《著作权法》

《著作权法》对数据库的保护也是法院判决的重要依据之一。数据库是指按照特定的组织方式存储在一起的相关数据的集合。在这个案件中,大众点评平台上的商家信息和用户评价可以被视为一个数据库,其数据内容本身可以受到著作权的保护。

虽然单个的商家信息和用户评价可能难以单独受到著作权保护,但作为一个整体的数据库,其组织方式、整理方法和数据的独特性可能构成著作权法意义上的作品。百度的未经授权抓取行为,侵犯了大众点评对这个数据库的著作权。


二、数据爬虫的合法性分析

(一)法律边界与商业道德

此案揭示了数据爬虫在法律边界上的模糊地带。数据爬虫作为一种自动化工具,主要用于采集网络上公开的数据,其核心技术本身并不违法。然而,在不同情境下使用爬虫会触及复杂的法律边界。法律的难点在于,数据爬虫从公开网页中抓取信息本质上不涉及物理侵入,但当这些数据被大量、无授权地用于商业目的时,就会与多项法律相冲突。在《反不正当竞争法》的框架下,特别是第二条中提到的诚实信用原则和商业道德,保护市场秩序成为核心要点。

公开信息虽无访问障碍,但并不等于可供任意商业利用。若爬取的数据形成竞争壁垒,并导致他人投入资源构建的数据资产被不当使用,这会被视为对竞争公平性的破坏。法院在本案中的处理方式表明,即使信息是公开的,只要这种获取行为损害了他人的竞争优势,就可能构成不正当竞争。

  1. 未授权爬取的法律风险

国内外案例表明,爬虫行为的合法性不仅与是否公开有关,还涉及获取方式、数据用途及其对市场秩序的影响。未经许可的数据爬取可能带来以下法律风险:

  • 侵犯知识产权:即使内容是公开的,数据本身也可能受版权或数据库权利保护。

  • 违反用户协议:大部分网站会在“服务条款”中禁止爬虫行为,如果使用爬虫抓取数据违背了这些条款,则可能构成违约行为。

  • 破坏市场公平:大规模爬取数据用于二次利用,若不支付获取成本或未经许可就形成竞争性服务,可能被法院视为违反商业道德的行为。


  1. 反不正当竞争法

中国法律体系中高度重视商业活动的诚信原则。根据《反不正当竞争法》,企业应在市场中公平竞争,若通过不正当手段获取竞争对手的数据,并导致后者丧失市场竞争优势,则可能构成不正当竞争。这一规定与欧美法律中的“商业伦理”概念类似,但中国法在实践中更多依赖于个案分析与法官的自由裁量。

法院在数据爬虫案件中往往要考量行为是否损害了市场秩序及其他企业的合理利益。例如在“百度爬虫案”中,法院将数据作为企业的重要商业资源保护,认为未经许可爬取这些信息并用于竞争性商业行为,不符合诚实信用原则。这种判决凸显了中国法院试图在技术创新与市场秩序之间寻求平衡 。

  1. 合规建议与商业实践的风险控制

为了避免潜在的法律风险,企业在使用数据爬虫时应采取多种合规措施:

  • 与数据提供方达成合作协议:明确授权爬取和使用数据的范围。

  • 尊重机器人排除标准(robots.txt):即便该协议并无强制力,仍是业界的通行惯例,体现了企业的商业诚信。

  • 数据脱敏和匿名化:特别是涉及个人数据时,应确保符合隐私保护的要求。

  • 风险管理机制:企业可以在内部建立合规管理流程,对爬虫行为进行审核和控制。

  1. 美国:hiQ Labs v. LinkedIn

美国的著名案例 hiQ Labs v. LinkedIn 反映了数据爬虫的复杂性。LinkedIn 与 hiQ Labs 的案件起于 2017 年,LinkedIn 发现 hiQ 长期大量在其平台上通过爬虫技术抓取用户公开个人资料,于是 LinkedIn 采用技术措施阻止 hiQ 在其平台上抓取用户的个人资料。2017 年 5 月,hiQ 以此向地区法院起诉寻求禁令,2017 年 8 月,地区法院支持了 hiQ 的禁令请求。LinkedIn 与 hiQ 由此开始了长达五年的诉讼之旅。在前五次诉讼中, 法院均认为 hiQ“在未经用户允许的情况下,使用其留在 LinkedIn 平台上的个人信息”,不违反《计算机欺诈和滥用法》(Computer Fraud and Abuse Act,CFAA),判决 LinkedIn 均败诉。直到 2022 年 12 月 6 日,双方向地区法院提交和解协议,以和解的方式作出判决结案,在此判决中认定 hiQ 构成对 LinkedIn 用户协议的违约(因为 hiQ 为 LinkedIn 的注册用户),且永久禁止 hiQ 在未经 LinkedIn 书面允许的情况下,以直接或间接方式采用自动化方式在 LinkedIn 平台上抓取数据,且不得使用 LinkedIn 平台上的数据开发商业化服务。 由此可见,如果 hiQ 不是 LinkedIn 的注册用户,则对于 hiQ 通过技术手段抓取 LinkedIn 平台上的数据,依照美国法律,LinkedIn 是无权禁止的,前五次诉讼中 LinkedIn 败诉就是证明。

  1. 欧盟:GDPR 与 《欧洲人工智能法》

欧盟的《一般数据保护条例》(GDPR)在数据采集和使用上设立了严格的合规要求。即使是公开数据的爬取,如果涉及个人数据,也需要满足特定的合法基础,如取得用户的明确同意。相较于美国的自由化趋势,GDPR 更加强调数据主体的隐私权,并对滥用公开数据设置了高额罚款威慑。这种严格的监管促使许多公司在进行数据收集时更加谨慎,以避免侵权风险。

GDPR 将个人数据定义为“与已识别或可识别的自然人相关的任何信息”。网络爬虫在未经个人知情或同意的情况下收集个人数据(包括敏感数据),因此带来了重大数据保护挑战在欧盟,数据保护法律限制了网络爬虫的合法使用。GDPR 将处理定义为对个人数据的任何操作,包括收集、组织、存储、修改、检索、使用和传播。由于网络爬虫涉及这些活动,因此运营者被视为数据控制者,这意味着他们必须遵守控制者的义务,包括拥有合法的数据处理基础、具有合法目的(如训练模型)并遵守透明性、数据最小化、存储限制、准确性、安全性、保密性、完整性和问责原则。根据 GDPR,任何个人数据的处理都必须有合法基础。虽然 《欧洲人工智能法》 旨在建立人工智能系统部署和运营的综合法律框架,但目前尚未为收集个人数据以训练 AI 工具提供具体的法律基础


  1. 中国:合法权益+不正当竞争

在中国,类似百度和大众点评的案件表明,公开数据并不意味着可以任意爬取。法院更关注数据爬取对市场秩序和公平竞争的影响,而非单纯的技术合规性。即使是面向公众的开放平台,未经授权的大规模数据抓取仍可能被视为不正当竞争行为。比如说,2021 年 2 月 2 日,北京知识产权法院就微博诉蚁坊案做出终审判决(案号:(2019)京 73 民终 3789 号),在本案中,法院认定北京微梦创科网络技术有限公司(以下简称:微梦公司)对微博上的用户数据拥有合法权益,且蚁坊公司利用从微博上爬取的用户数据(包括公开数据和未公开数据)从事数据分析服务,与微梦公司具有竞争关系,在蚁坊公司未经微梦公司允许的情况下,擅自爬取微博上的用户数据从事数据分析服务的行为构成不正当竞争。

2023 年 3 月 16 日,北京知识产权法院就抖音诉刷宝案做出终审判决(案号:(2021)京 73 民终 1011 号),在本案中,法院判定抖音平台的短视频整体、用户信息、用户评论等信息的集合构成非独创性数据集合,且由于抖音平台针对上述非独创性数据的收集、存储、加工和传输进行了实质性的投资,因此抖音平台对非独创性数据的集合应该具备合法权益。刷宝在未经抖音平台的允许下,采用爬虫技术在抖音平台上抓取用户个人信息的行为构成不正当竞争。

在与平台数据相关诉讼中,中国法院一般遵循合法权益+不正当竞争行为的认定相结合的路径对平台数据进行保护。

以上三个司法体系的不同规定,对企业的商业实践产生了深远影响。例如,美国的裁决可能促使更多公司将数据置于登录墙之后,以避免被爬取。而在欧盟,企业则需要投入更多资源确保符合 GDPR 的合规性。相比之下,中国的监管重点在于打击通过数据爬取削弱竞争对手的行为,强调商业伦理和公平竞争。


三、实务建议

(一)数据授权与平台协议的全面匹配

绕开技术措施和 API 限制是重大法律风险点。在大众点评与百度的诉讼案例中,百度被被指控通过爬虫非法获取大众点评的数据,违反了其平台协议并构成不正当竞争。这个案例为我们敲响了警钟,提醒企业在数据获取过程中必须高度重视合法性问题,明确要求供应商通过合法渠道获取数据。

  1. API 授权与许可

优先通过官方 API 渠道获取数据,这是确保数据来源合法、稳定且可持续的重要方式。直接爬取网页内容往往存在诸多不确定性和法律风险,因为网页的结构和内容可能随时发生变化,而且未经授权的爬取行为可能违反被爬取平台的使用条款和相关法律法规。在合同中应明确约定,只有在符合平台使用条款的前提下,数据爬取行为才被允许。具体而言,应明确规定供应商在使用 API 时的权限范围、使用目的、使用期限等关键要素,确保数据的获取和使用符合被爬取平台的规定。

  1. 避免规避技术措施

企业不得通过反爬虫手段绕过平台的技术屏障,否则可能构成《反不正当竞争法》中的 “技术措施规避” 行为。技术措施是平台为保护自身数据安全和合法权益而设置的重要防线,企业应当尊重并遵守这些措施。在合同条款中,应明确约定数据来源的合规性,并要求供应商提供证明其数据获取方式符合被爬取平台的授权协议。若涉及数据接口授权,需明确供应商是否有合法调用 API 的权限。此外,企业还应建立内部监督机制,定期对供应商的数据获取行为进行审查,确保其始终遵守合同约定和法律法规。


(二)明确个人信息处理与隐私合规要求

《个人信息保护法(PIPL)》对涉及用户隐私数据的采集、处理和传输设定了严格的合规义务,企业在数据处理过程中必须高度重视个人信息保护,确保合规操作。

  1. 合法授权与明示同意

如数据涉及个人信息,应确保该信息已获得用户的授权或符合法律豁免条款。在合同中必须约定供应商严格遵守 PIPL 的规定,并提供合规性声明。具体而言,企业应要求供应商在采集个人信息时,明确告知用户信息的收集目的、使用范围、存储期限等关键信息,并取得用户的明示同意。同时,企业还应建立用户授权管理机制,确保用户可以随时撤回其授权,并对用户的个人信息进行妥善保管和安全存储。

  1. 数据脱敏与匿名化

要求供应商对个人数据进行脱敏处理或匿名化,以避免侵犯用户隐私并降低法律风险。数据脱敏是指通过对个人信息进行处理,使其无法识别特定个人的过程。匿名化则是指通过对个人信息进行处理,使其无法识别特定个人且不能复原的过程。企业应在合同中明确要求供应商采用适当的脱敏和匿名化技术,确保个人信息的安全性和隐私性。同时,企业还应建立数据安全管理机制,对脱敏和匿名化后的数据进行严格的访问控制和安全防护。

  1. 跨境传输合规

如果采集数据涉及跨境传输,需满足 PIPL 和 GDPR 等法规的合规要求。跨境数据传输涉及到不同国家和地区的法律制度和监管要求,企业必须高度重视合规问题。在进行跨境数据传输前,企业应进行充分的风险评估,确定数据接收方所在国家和地区的法律环境和数据保护水平。同时,企业还应采取适当的安全措施,如加密传输、签订数据保护协议等,确保数据在跨境传输过程中的安全性和隐私性。此外,企业还应建立跨境数据传输管理机制,对跨境传输的数据进行全程跟踪和监控,及时发现和处理可能出现的安全问题。

  1. 个人信息保护的内部管理

企业应建立健全个人信息保护的内部管理制度,明确各部门和岗位的职责和权限,确保个人信息保护工作得到得到有效落实。具体而言,企业应设立专门的个人信息保护机构或岗位,负责制定和实施个人信息保护政策和措施,监督和检查个人信息处理活动的合规性。同时,企业还应加强对员工的培训和教育,提高员工的个人信息保护意识和能力,确保员工在工作中严格遵守个人信息保护的相关规定。

结语

大众点评诉百度案展示了中国法院在互联网领域处理不正当竞争案件的原则:即使数据公开,滥用他人资源获取商业优势仍可能构成不正当竞争。此案为互联网企业敲响了警钟,提醒各方在使用数据爬虫技术时,需平衡技术手段与法律合规之间的关系。未来,随着互联网和人工智能的发展,类似案例的出现将更加频繁,这一判例也将在行业内继续发挥重要的示范作用。



发布于: 刚刚阅读数: 3
用户头像

本原智数

关注

本原智数,提供大模型一站式解决方案 2024-10-12 加入

本原智数致力于高质量数据资源建设及开发利用,提供以数据为核心的大模型一站式解决方案。公司聚焦于互联网、教育科技、自动驾驶、人工智能和大模型的数据治理和产业服务

评论

发布
暂无评论
大众点评诉百度,数据爬虫合法边界引关注_人工智能_本原智数_InfoQ写作社区