非科班出身波斯猫论坛网址最新章节,自学撸出中文分词库HanLP,在GitHub标星1.5万,成为最受欢迎的自然语言处理项目。他将学习经验总结成书《自然语言处理入门》,帮助小白快速入门NLP。针对题主的提问,HanLP自然语言处理类库的开发者何晗的经验很值得借鉴。
截至 2019 年 11月初波斯猫论坛网址最新章节,HanLP项目在 GitHub Star 数达到了 15.6 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP。
贴上GitHub地址波斯猫论坛网址最新章节:://github.com/hankcs/HanLP
何晗在开发这款 NLP 工具包时,还是上海外国语大学一名日语专业的大二学生,HanLP项目脱胎他大学时接的一份兼职,何晗也因缘从一个非科班专业的小白逐步成长为NLP领域的专家。如今,正在攻读CS博士的他(研究方向波斯猫论坛网址最新章节:句法分析、语义分析与问答系统),结合自己的学习历程和HanLP的开发经验创作出版了《自然语言处理入门》一书,得到了周明、刘群、王斌等业内顶级 NLP 专家的推荐。
从着手开发HanLP,到HanLP达到工业使用的水准,何晗对自学NLP有深刻的见解。如果用一句话来总结,那就是波斯猫论坛网址最新章节:自顶而下,从工程去切入,由应用层往下面的基础层拓展,递归补充理论知识,才能事半功倍。以下入门NLP的建议,皆来自于何晗的经验,分享给像题主这样的初学者,希望能对大家有所启发。
一、初学者,请避开自学NLP的常见误区有的初学者排斥基础理论——认为学校教的都是没用的,公司里都用不到;有的初学者对基础理论敬而远之——认为理论太高深了,自己基础不好,学了也白学;有的初学者,特别是已经工作的程序员,基本方向正确但学习路径错误,比较容易走极端:在工作很忙的情况下,只是抱着经典书籍苦啃,直到筋疲力尽项目也毫无进展,从而丧失了学习NLP的兴趣;或者,俗称调库小能手,跟风潮流,缺少理论基础,缺乏独立思考能力(比如,认为深度学习最牛,其他的基础理论都是垃圾;认为CNN/RNN/BERT会调参就行了)。而实际上,自然语言处理是计算机科学、人工智能和语言学学科的交集,这三方面的学科知识都是需要储备的,基础理论的学习必不可少。但很多初学者都是在工作之后才入坑NLP,既难以静下心来啃书啃课,又缺少很好的老师传授知识经验。所以,有效可行的入门方式就是从工程切入,遵循这样的逻辑:延迟加载,只在使用的时候才去加载必要的资料:
你首先看到的是一个摸得着的实际问题,为了解决该问题才去接触一个具体的方案;为了理解这个方案,才会引入必要的背景知识;为了实现这个方案,才会引入相关细节;为了克服这个方案的问题,才会过渡到新的方案。二、想快速入门NLP,边学边做疗效好何晗入门NLP,读过的经典书有:《统计自然语言处理》(宗成庆 著)(对应语言学知识)、《统计学习方法》(李航 著)(对应人工智能知识),《挑战程序设计竞赛》(秋叶拓哉、盐田阳一、北川宜稔 著)(对应计算机算法知识)。
不过,在看经典书籍的过程中,他发现,学习自然语言处理并不需要完全把这几本书看透,最好是可以边看书边做项目。这些书都是非常牛的好书,然而可惜的是,看完书中的章节,不知该如何应用其中的知识点,即使实现了文章中提到的模型,也很难直接将其运用于工程项目。
想必很多初学者都面临类似的学习困惑。为了解决这个问题,何晗动手写了《自然语言处理入门》,目的就是希望学习者看完一章后,便可以将知识点直接用于项目,适合NLP初学者入门并快速布置到生产环境中。成效快,痛苦小,疑问少。
何晗在《自然语言处理入门》一书中,以自己的HanLP开源项目为案例,代码对照公式讲解每一个算法每一个模型,让入门者带着工程思维理解NLP的知识要点,试图在目前市面上艰深晦涩的教科书和简单的入门书之间作出平衡。
《自然语言处理入门》带领学习者从基本概念入手。逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理和工程实现。通过对多种算法的讲解和实现,比较各自的优缺点和适用场景。这些实现并非教学专用,而是生产级别的成熟代码,可以直接用于实际项目。
在理解这些热门问题的算法后,这本书会引导学习者根据自己的项目需求拓展新功能,最终达到理论和实践上的同步入门。
何晗认为,NLP的学习路径,应该尊重一般人的认知规律,而不是学术上的纲目顺序,以此为宗旨来编排图书的内容。因此,面向普通程序员,这本书内容分为以下三大部分:
第一部分介绍一些字符串算法,让普通程序员从算法的角度思考中文信息处理。
第二部分由易到难地讲解一些常用的机器学习模型,让算法工程师晋级为机器学习工程师。由中文分词贯穿始终,构成一种探索式的递进学习。这些模型也并非局限于中文分词,会在第三部分应用到更多的自然语言处理问题上去。
第三部分新增了许多与文本处理紧密相关的算法,让机器学习工程师进化到自然语言处理工程师。特别地,最后一章介绍了当前流行的深度学习方法,起到扩展视野、承上启下的作用。学习者可根据自身情况,灵活跳过部分章节。
何晗在自学过程中走过不少弯路,深知数学语言的艰深晦涩,并且痛恨罗列公式故作高深的文章,所以他在书中只保留了必不可少的公式和推导,并且公式与代码相互印证。配套代码由Java和Python双语言写成,与GitHub上最新代码同步更新,所以你只要具备基本的编程经验,就可以跟随书本零起点入门。
此外,何晗还总结出一份最为详尽的NLP ML“双生树”思维导图,导图中的关联知识点不仅涵盖NLP领域的核心知识,甚至涉及许多前沿研究和应用,印刷尺寸宽60cm,高74cm,随书附赠供学习者参考。
三、进阶NLP的学习资料和工具推荐推荐读这些经典书籍:多读论文,推荐用Google Scholar和Papers检索:克服语言障碍,推荐用欧路词典:追踪前沿动态,推荐NLP-progress,在各项NLP任务上的排行榜网址:://nlpprogress.com/
一个中肯的建议:NLP没有通用的解法,算法不够,语料来补算法不是万能的。(想想:一两个百分点对实际业务有多少帮助,又增加了多少成本?)不要完全相信论文。(a. 不要相信不公开源代码的论文; b. 不要相信公开源代码但数据预处理作假的论文; c. 即使能跑出作者宣称的分数,请考虑:模型是否能泛化到你的行业领域? 又增加了多少成本?)语料极其重要。(a. 语料几乎可以把准确率提升到你期望的任何水准,只要数量质量足够; b. 目前通用语料几乎都是新闻,谁能标注出行业语料,谁就是大王; c. 深度学习时代,无标注的纯文本语料也大有用场; d. 软件工程2.0:用数据编程。)
阅读:
共度时艰,为爱逆行。瑞派华南响应政府号召建立宠物驿站收治被隔离的宠物
一、2个小时,我们火速集结 3月22日下午,对于瑞派的很多员工来说,是深圳大规模疫情防控后稀松平常的一个工作日。但是,一个突如其来的动员令,打破了所有人的宁静。 由于上沙塘晏村
瑞派宠医——陆德来 | 24年坚守科学养宠理念
“我的生活,伴随着一个病例接着一个病例的到来而变得丰富充实。我是乐在其中的,热爱这个可以带给我快乐的职业,也希望通过自己的努力帮助宠物减轻病痛,让更多宠主懂得科学
瑞派宠医——田超 | 行则将至,将精准诊疗进行到底
随着技术发展,宠物医疗也逐步进入专科发展方向,高标准的宠物医疗也需要专科医师精准诊治才能实现。—— 瑞派昱奕动物医院 田超院长 成为优秀专科医生,道阻且长 宠
瑞派宠医——胡炳浩 | 高级兽医师也曾对兽医职业存有偏见
小动物的生命又何尝不珍贵呢?在主人心里,它们就是家中的一份子,是被疼爱的宝贝,更是世间芸芸众生中有感知力的生命个体。—— 瑞派上海果果宠物医院 胡炳浩院长 起初
上海凯利蓝梗俱乐部:安徽合肥拟禁养中华田园犬等38种烈性犬,对此你有什么看法?
合肥市人大网站公布《合肥市养犬管理条例》全文上海凯利蓝梗俱乐部,该条例将于今年6月1日起施行。然而最近很多人了解到《合肥市禁养犬名录(征求意见稿)》向社会征求意见,其中包含中华田园犬上海凯利蓝梗俱乐部、德国牧羊犬、秋田犬、松狮犬等犬种。禁养名录中,包括的犬种分别是:比利时牧羊犬上海凯利蓝梗俱乐部、弗兰德牧羊犬、荷兰牧羊犬、苏俄牧羊犬、中亚牧羊犬、德国牧羊犬、高加索牧羊犬、安纳托利亚牧羊犬、拳师犬、标准牛头梗、美国恶霸犬、斯塔福斗牛梗、土
日本狂犬病发病率:被没有狂犬病的狗狗咬了会不会得狂犬病? 上海狂犬病发病率
新年好日本狂犬病发病率。如果你确定狗狗没有狂犬病,那么恭喜你,你不会感染上狂犬病。狂犬病的传染源主要是病犬、病猫、病狼等,但不一定被他们咬伤就一定会被感染,其发病因素与咬伤部位、创伤程度、伤口处理情况及注射疫苗相关。动物体内有狂犬病毒不一定代表它具有传染性日本狂犬病发病率,如果狗、猫等温血动物在狂犬病发作后的3~5天内100%会死亡,有文献提及有罕见的是8天死亡,而有医学证明只有它死亡前3~5天内才是传染期,这时被咬感染病毒的危险较高。
小博美犬的寿命有多长:饲养博美犬时,有哪些禁忌不能碰? 博美犬寿命有多长时间
你好,博美是非常容易饲养的,要想养出健康的狗狗,只要注意以下几点就可以啦小博美犬的寿命有多长、1.刚抱回来的小博美,身体抵抗力非常弱,领养回来以后不能在15天之内带出门小博美犬的寿命有多长。不要抱回家后,觉得太脏,就给它洗澡,其实这对狗狗不好,最好让她好好睡觉。2.每份食物量的大小取决于狗狗每天所需能量和食物中所含的热量,为避免产生肥胖症,而且还应该随博美犬体重的变化而调整小博美犬的寿命有多长。一定要注意适量,千万不要过量的喂食宠物狗这