爬虫技术:使用网络爬虫技术就是恶意侵权吗？

编辑：sqxzgg 时间：2022-06-19 来源：人人爱宠物网

不一定，看爬的是什么数据，如果是他人的商业价值数据，比如别人费很大劲做的电子书或者写的网络小说，已经声明版权不得没有授权就转载，结果不打招呼用爬虫爬走放自己网站上了，让所有方一旦发现就容易等着吃官司，如果是本身就希望大面积宣传的数据，或者谁也不能证明就是自己的数据，或者说已经是公共的数据，爬来自己用是不会出问题，比如把《论语》原文爬走了，那谁为不能说是某人独享的，百度搜索就是爬虫收录各个网站信息，只是遵从robot规则，在自己网上根目录下剩余声明不让蜘蛛爬数据收录，搜索引擎就不爬了爬虫技术。

精准大数据营销用的是什么技术手段获取意向客户的联系方式？

精准大数据营销其事实上是运用网络爬虫,从淘宝网、京东商城等网址上爬得到商家手机号码后爬虫技术，用以营销推广。除此之外，依靠此软件，根据微信附近的人，客户可随意设置虚拟位置后大批量申请办理朋友，还能“站街”垂钓营销推广。

有安全专家表示，当用户发生上网行为时会发送数据包，内含行为痕迹爬虫技术、手机号等信息。一旦涉及某一方发生泄露，通过抓取这个数据包便可以解析出来用户的敏感信息。爬虫技术则分成合理合法网络爬虫和故意网络爬虫二种。某些说白了的大数据公司自身沒有统计数据来源于，只是根据网络爬虫方式获得别人的统计数据。

在网络空间，数据战争已进入白热化爬虫技术。2019年5月份，国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规定了，“网络运营者以经营为目的收集重要数据或个人敏感信息的，应向所在地网信部门备案。”除此之外，大部分网址早就对故意网络爬虫搭建反爬对策并做出申明严格严禁，有刑事辩护律师直言不讳，“攻克、避开网络平台的反网络爬虫对策、协议书时，或因涉嫌不法获得互联网系统软件统计数据罪、入侵不法操纵互联网系统软件程序流程专用工具罪。”

望采纳爬虫技术！

“51信用卡”被查引爬虫技术争议，是否侵犯个人信息？

“爬虫技能”首要分为两类，一类是揭露爬虫，另一类是授权爬虫，前者是指只能爬取揭露发布的数据信息，比方企业的工商信息、揭露交际途径信息等；而授权爬虫，则是指要求用户提早授权，然后爬取到用户个人的通讯录、邮箱、司法信息、APP运用、电商途径等隐私数据。授权不授权，理应自己说了算，而在公民的日子场景中，许多软件和途径服务能够运用的先决条件，便是用户点击“承认”、完结授权，这也使得“授权不授权”在实践中未必由用户说了算。朱巍表明：

“点‘我赞同’是用信息搜集的一个必经途径，假如不点我赞同便是没有完成授权，那我拿了这个信息肯定是违法的，可是假如点了我赞同之后，究竟哪些信息把它拿出去了，怎样运用、期限是什么？有没有交给用户自己的操控的权力，这个便是咱们所说的合法性正当性和必要性中的必要性规模。”

游戏推广中如何合法使用爬虫技术？

使用爬虫技术的“反面教材”

今日头条服务器被非法抓取数据案

罪名：非法获取计算机信息系统数据罪

上海某网络公司CTO侯某某指使该司技术人员郭某破解北京字节跳动网络技术有限公司的防抓取措施，使用“tt_spider”文件实施视频数据抓取行为，造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定，“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取，并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验，使用伪造UA及IP绕过服务器的访问频率限制。

法院认为，被告单位及相关责任人员采用技术手段获取计算机信息系统中存储的数据，情节严重，其行为已构成非法获取计算机信息系统数据罪，应予惩处。

新浪微博用户信息被非法获取案

案由：不正当竞争纠纷

法院认为，脉脉在合作期间超出许可范围抓取并使用新浪微博用户职业信息、教育信息，并在合作终止后较长一段时间内仍然使用来自新浪微博的用户信息作为脉脉软件中非脉脉用户的相关信息；同时，非法获取并在一度人脉中展示用户手机通讯录联系人与新浪微博用户的对应关系，使大量非脉脉用户的新浪微博信息及好友关系展现在脉脉软件中，便于脉脉软件拓展自身用户群，该行为属于不正当竞争行为。

“爬虫”本无罪，何以被查处？

爬虫本是一项网络搜索技术，根据搜索目的挑选出一批网页，这些网页的链接地址作为种子URL，将这些种子放入待抓取的URL队列中，爬虫从待抓取的URL队列中访问该 URL 对应的页面，并进行页面解析，把链接地址转换为IP地址，然后交给网页下载器负责下载，如此循环，直到URL 队列中的所有URL 爬行完毕或满足系统的一定停止条件为止。

要说爬虫技术为何会被查处，笔者认为应当从如何使用该技术、技术采集的是什么内容两方面进行分析。

使用爬虫技术之合规要求

《刑法》第285第2款对非法获取计算机信息系统数据罪的表述是“侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据”即使用爬虫技术构成本罪的手段行为有两种：一种是“侵入”行为，另一种是采用其他技术手段行为。

“今日头条服务器被非法抓取数据案”中，我们注意到一个关键词语“绕过”，通俗理解就是我原本设置了一个门禁不让你进来的，而你却通过技术手段避开了我设置的门禁系统闯入我的领地。本案中，被告人使用爬虫技术绕过今日头条网站服务器端的身份验证系统，行为性质实际就已经属于非法侵入被害单位的计算机信息系统了。

游戏企业推广中需要使用爬虫技术采集数据时，作为技术人员应当留意数据权利人或控制者是否在计算机信息系统中设置了robots.txt 以及robots.txt 对于爬虫程序的授权范围。robtes.txt，也称为爬虫协议、机器人协议等，全称是“网络爬虫排除标准”（Robots Exclusion Protocol），是国际互联网界为了兼顾保障搜索技术服务于人类，逐步确立起的通行的道德规范。主要内容为：当一个爬虫程序访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，爬虫程序就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的爬虫程序将能够访问网站上所有没有被口令保护的页面。（ “百度百科”，由 “科普中国”科学百科词条编写与应用工作项目审核）。

爬虫技术采集数据之合规要求

根据《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》（下称《计算机解释》）第1条的规定，获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的；获取前述以外的身份认证信息五百组以上的即达到非法获取计算机信息系统数据罪的追诉标准。该解释把非法获取“数据”范围限定在身份认证信息。《计算机解释》第11条第2款本解释所称“身份认证信息”，是指用于确认用户在计算机信息系统上操作权限的数据，包括账号、口令、密码、数字证书等。

“今日头条服务器被非法抓取数据案”中被告人非法抓取的是今日头条的视频数据，并不属于身份认证信息，为何可以定罪？笔者认为，这里涉及到信息和数据的区别问题，数据是信息的载体，是一连串的字符和代码，而信息则是具体展现的内容。信息公开，不等于数据公开。从本罪保护的法益角度进行理解，非法获取计算机信息系统数据罪保护的法益是计算机信息系统的数据安全，只有数据权利人允许公众或他人获取数据，数据才失去法益保护的必要性，爬虫才能去采集这些数据。该案中今日头条并没有对被告方开放接口，显然没有将视频数据公开的意思，理应受到法律的保护。

“公民个人信息”是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息，包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。《网络安全法》规定，经得被收集者同意以及做匿名化处理（剔除个人关联），是合法收集公民个人信息的两项原则。

若使用爬虫技术非法获取的数据是公民个人信息，就可能构成侵犯公民个人信息罪与非法获取计算机信息系统数据罪的竞合，此时，就要择一重罪处罚。比如，通过爬虫获取了公民支付结算的身份认证信息100余组，按计算机信息系统数据罪的追诉标准已经达到“情节特别严重”，量刑档次处三年以上七年以下有期徒刑；按侵犯公民个人信息罪的追诉标准只是达到“情节严重”，量刑档次化是处三年以下有期徒刑或者拘役，因而，以非法获取计算机信息系统数据罪定罪处罚。

爬虫技术与不正当竞争行为

当爬虫技术采集的是“其他数据”例如共享单车客户使用区域数据（以此增加投放车辆的准确性）、公交实时运行大数据、社交媒体用户信息（不涉及身份信息部分）等等，这些不涉及公民身份信息也与虚拟财产无关的数据资源，能否受到法律保护呢？在新浪微博用户信息被非法获取一案中给出了答案，法院对原告主张保护的新浪微博用户信息，通过反不正当竞争法给予了救济。

游戏企业推广中使用爬虫技术抓取游戏平台中的用户评论内容、评分数据，这些内容不仅公开也没有设置反爬虫技术措施，是否可行？笔者认为，不是所有的数据都可以获得反不正当竞争法的保护，至少满足两个条件，一是有用的、有市场价值的数据；二是当事人在创造数据过程中付出了必要劳动和投资。游戏平台中的用户评论区内容、评分数据对玩家而言，能起指引游戏消费的作用；作为平台方而言，仅是提供了一个平台供用户对每款游戏进行评论，并未对评论内容进行加工处理，没有付出必要的劳动，不应当受反不正当竞争法保护，当然，如果游戏平台方设置了限制下载、限制访问次数等反爬虫措施的，则需取得授权方能爬取数据，否则就是侵权行为。

我国《反不正当竞争法》第2条规定，经营者在市场交易中，应当遵循自愿、平等、公平、诚实信用的原则，遵守公认的商业道德。脉脉软件，要求用户注册脉脉账号时上传自己的手机通讯录联系人，从而非法获取该联系人与新浪微博中相关用户的对应关系，将这些人作为脉脉用户的一度人脉予以展示，并将非法抓取的该人新浪微博头像、名称（昵称）、职业信息、教育信息、个人标签等信息用于一度人脉中。脉脉软件主要是一款职场社交应用，新浪微博是一款社交软件，但这些外在形式的不同并不影响双方都提供网络社交服务的实质。脉脉行为攫取他人劳动成果，提供同质化的服务，这种行为对于创新和促进市场竞争没有任何积极意义。而脉脉实施的行为，系未经新浪公司许可，利用网络爬虫技术进入新浪微博的服务器后台的方式来爬取相关数据，这种获取信息的行为本身显然有违公认的商业道德和诚信准则。

综上，笔者建议，爬虫技术的使用应当在合法、合规的前提下进行，“公开信息”并不代表“共享数据”，切莫从“蜘蛛侠”沦为“扒手”！

阅读：

上一篇：胜红蓟别名:土豆地有灰菜用什么除草剂？

下一篇：没有了