当前位置: > 狗狗资讯 > 饲养护理 > 爬虫技术:爬虫在哪里可以学习,出来能找到工作吗?

爬虫技术:爬虫在哪里可以学习,出来能找到工作吗?

编辑:sqxzgg 时间:2021-12-27 来源:人人爱宠物网

爬虫学习不难,如果时间充足完全可以自己学习爬虫技术。没有必要去什么地方学习。

先从Python基础学起,学完就可以进去爬虫的学习了爬虫技术。过程都不难,每天两小时,三个月就可以入门了。以后的就是晋级的事了。

但是对于就业来说的话,只会爬虫很难找到工作,何况你是初学,没有任何项目经验爬虫技术。所以要想就业就必须学习Python的其他方面知识,给自己增加竞争力。比如Python开发,数据分析,有能力了可以在学习机器学习和深度学习的知识。掌握了这些就可以很轻松的找到工作了。

游戏推广中如何合法使用爬虫技术?

使用爬虫技术的“反面教材”

今日头条服务器被非法抓取数据案

罪名爬虫技术:非法获取计算机信息系统数据罪

上海某网络公司CTO侯某某指使该司技术人员郭某破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表爬虫技术、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。

法院认为,被告单位及相关责任人员采用技术手段获取计算机信息系统中存储的数据,情节严重,其行为已构成非法获取计算机信息系统数据罪,应予惩处。

新浪微博用户信息被非法获取案

案由:不正当竞争纠纷

法院认为,脉脉在合作期间超出许可范围抓取并使用新浪微博用户职业信息、教育信息,并在合作终止后较长一段时间内仍然使用来自新浪微博的用户信息作为脉脉软件中非脉脉用户的相关信息;同时,非法获取并在一度人脉中展示用户手机通讯录联系人与新浪微博用户的对应关系,使大量非脉脉用户的新浪微博信息及好友关系展现在脉脉软件中,便于脉脉软件拓展自身用户群,该行为属于不正当竞争行为。

“爬虫”本无罪,何以被查处?

爬虫本是一项网络搜索技术,根据搜索目的挑选出一批网页,这些网页的链接地址作为种子URL,将这些种子放入待抓取的URL队列中,爬虫从待抓取的URL队列中访问该 URL 对应的页面,并进行页面解析,把链接地址转换为IP地址,然后交给网页下载器负责下载,如此循环,直到URL 队列中的所有URL 爬行完毕或满足系统的一定停止条件为止。

要说爬虫技术为何会被查处,笔者认为应当从如何使用该技术、技术采集的是什么内容两方面进行分析。

使用爬虫技术之合规要求

《刑法》第285第2款对非法获取计算机信息系统数据罪的表述是“侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据”即使用爬虫技术构成本罪的手段行为有两种:一种是“侵入”行为,另一种是采用其他技术手段行为。

“今日头条服务器被非法抓取数据案”中,我们注意到一个关键词语“绕过”,通俗理解就是我原本设置了一个门禁不让你进来的,而你却通过技术手段避开了我设置的门禁系统闯入我的领地。本案中,被告人使用爬虫技术绕过今日头条网站服务器端的身份验证系统,行为性质实际就已经属于非法侵入被害单位的计算机信息系统了。

游戏企业推广中需要使用爬虫技术采集数据时,作为技术人员应当留意数据权利人或控制者是否在计算机信息系统中设置了robots.txt 以及robots.txt 对于爬虫程序的授权范围。robtes.txt,也称为爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界为了兼顾保障搜索技术服务于人类,逐步确立起的通行的道德规范。主要内容为:当一个爬虫程序访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,爬虫程序就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的爬虫程序将能够访问网站上所有没有被口令保护的页面。( “百度百科”,由 “科普中国”科学百科词条编写与应用工作项目审核)。

爬虫技术采集数据之合规要求

根据《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(下称《计算机解释》)第1条的规定,获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的;获取前述以外的身份认证信息五百组以上的即达到非法获取计算机信息系统数据罪的追诉标准。该解释把非法获取“数据”范围限定在身份认证信息。《计算机解释》第11条第2款本解释所称“身份认证信息”,是指用于确认用户在计算机信息系统上操作权限的数据,包括账号、口令、密码、数字证书等。

“今日头条服务器被非法抓取数据案”中被告人非法抓取的是今日头条的视频数据,并不属于身份认证信息,为何可以定罪?笔者认为,这里涉及到信息和数据的区别问题,数据是信息的载体,是一连串的字符和代码,而信息则是具体展现的内容。信息公开,不等于数据公开。从本罪保护的法益角度进行理解,非法获取计算机信息系统数据罪保护的法益是计算机信息系统的数据安全,只有数据权利人允许公众或他人获取数据,数据才失去法益保护的必要性,爬虫才能去采集这些数据。该案中今日头条并没有对被告方开放接口,显然没有将视频数据公开的意思,理应受到法律的保护。

“公民个人信息”是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。《网络安全法》规定,经得被收集者同意以及做匿名化处理(剔除个人关联),是合法收集公民个人信息的两项原则。

若使用爬虫技术非法获取的数据是公民个人信息,就可能构成侵犯公民个人信息罪与非法获取计算机信息系统数据罪的竞合,此时,就要择一重罪处罚。比如,通过爬虫获取了公民支付结算的身份认证信息100余组,按计算机信息系统数据罪的追诉标准已经达到“情节特别严重”,量刑档次处三年以上七年以下有期徒刑;按侵犯公民个人信息罪的追诉标准只是达到“情节严重”,量刑档次化是处三年以下有期徒刑或者拘役,因而,以非法获取计算机信息系统数据罪定罪处罚。

爬虫技术与不正当竞争行为

当爬虫技术采集的是“其他数据”例如共享单车客户使用区域数据(以此增加投放车辆的准确性)、公交实时运行大数据、社交媒体用户信息(不涉及身份信息部分)等等,这些不涉及公民身份信息也与虚拟财产无关的数据资源,能否受到法律保护呢?在新浪微博用户信息被非法获取一案中给出了答案,法院对原告主张保护的新浪微博用户信息,通过反不正当竞争法给予了救济。

游戏企业推广中使用爬虫技术抓取游戏平台中的用户评论内容、评分数据,这些内容不仅公开也没有设置反爬虫技术措施,是否可行?笔者认为,不是所有的数据都可以获得反不正当竞争法的保护,至少满足两个条件,一是有用的、有市场价值的数据;二是当事人在创造数据过程中付出了必要劳动和投资。游戏平台中的用户评论区内容、评分数据对玩家而言,能起指引游戏消费的作用;作为平台方而言,仅是提供了一个平台供用户对每款游戏进行评论,并未对评论内容进行加工处理,没有付出必要的劳动,不应当受反不正当竞争法保护,当然,如果游戏平台方设置了限制下载、限制访问次数等反爬虫措施的,则需取得授权方能爬取数据,否则就是侵权行为。

我国《反不正当竞争法》第2条规定,经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。脉脉软件,要求用户注册脉脉账号时上传自己的手机通讯录联系人,从而非法获取该联系人与新浪微博中相关用户的对应关系,将这些人作为脉脉用户的一度人脉予以展示,并将非法抓取的该人新浪微博头像、名称(昵称)、职业信息、教育信息、个人标签等信息用于一度人脉中。脉脉软件主要是一款职场社交应用,新浪微博是一款社交软件,但这些外在形式的不同并不影响双方都提供网络社交服务的实质。脉脉行为攫取他人劳动成果,提供同质化的服务,这种行为对于创新和促进市场竞争没有任何积极意义。而脉脉实施的行为,系未经新浪公司许可,利用网络爬虫技术进入新浪微博的服务器后台的方式来爬取相关数据,这种获取信息的行为本身显然有违公认的商业道德和诚信准则。

综上,笔者建议,爬虫技术的使用应当在合法、合规的前提下进行,“公开信息”并不代表“共享数据”,切莫从“蜘蛛侠”沦为“扒手”!

阅读:

狗狗医疗