宜昌车市  互联星空  网上营业厅  天翼宽带  天翼视讯  三峡论坛  
同城交友  交易市场  三峡旅游  宜昌房产  快捷人才  图片中心  天翼LIV  
  热门推荐:
 
  您现在的位置 主页 > 快捷人才 > 正文
 

中国工程院知识智能联合实验室发布

2018-07-29 14:37  文章来源:未知    字体:


中国工程院知识智能联合实验室发布

        自然语言处理是现代技术最重要的组成部分之一,而最近清华大学和中国工程院知识智能联合实验室发布一份非常全面的 NLP 报告。该报告从 NLP 的概念介绍、研究与应用情况、专家学者概要以及发展趋势这 5 个方向纵览了这一领域的当下与未来,机器之心简要介绍了该报的概要信息,但读者可以从这些方面纵览 NLP 的发展面貌,完整内容请下载查看原报告。

     根据 AMiner 研究报告的摘要所述,分析师们主要从以下五个方向六大章节梳理自然语言处理的发展状况:

  • 自然语言处理概念。首先对自然语言处理进行定义,接着对自然语言的发展历程进行了梳理,对我国自然语言处理现状进行了简单介绍,对自然语言处理业界情况进行介绍。
  • 自然语言处理研究情况。依据 2016 年中文信息学会发布的中文信息处理发展报告对自然语言处理研究中的重要技术进行介绍。
  • 自然语言处理领域专家介绍。利用 AMiner 大数据对自然语言处理领域专家进行深入挖掘,对国内外自然语言处理知名实验室及其主要负责人进行介绍。
  • 自然语言处理的应用及趋势预测。自然语言处理在现实生活中应用广泛,目前的应用集中在语言学、数据处理、认知科学以及语言工程等领域,在介绍相关应用的基础上,对机器翻译未来的发展趋势做出了相应的预测。

1 概述篇

       在概述篇中,该报告重点介绍了自然语言处理的概念、发展历程、我国 NLP 目前的发展状况和业界的研究与应用。

1.1 自然语言处理概念

        自然语言是指汉语、英语、法语等人们日常使用的语言,是自然而然的随着人类社会发 展演变而来的语言,而不是人造的语言,它是人类学习生活的重要工具。概括说来,自然语 言是指人类社会约定俗成的,区别于人工语言,如程序设计的语言。

        自然语言处理,是指用计算机对自然语言的形、音、 义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。实现人机间的信息交流,是人工智能界、计算机科学和语言学界所共同关注的重要问题。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说,自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。

1.2 自然语言处理发展历程

         自然语言处理是包括了计算机科学、语言学心理认知学等一系列学科的一门交叉学科,这些学科性质不同但又彼此相互交叉。因此,梳理自然语言处理的发展历程对于我们更好地了解自然语言处理这一学科有着重要的意义。

 

        从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究,由最初的词向量到 2013 年 word2vec,将深度学习与自然语言处理的结合推向了高潮,并在机器翻译、问答系统、阅读理解等领域取得了一定成功。深 度学习是一个多层的神经网络,从输入层开始经过逐层非线性的变化得到输出。从输入到输出做端到端的训练。把输入到输出对的数据准备好,设计并训练一个神经网络,即可执行预想的任务。RNN 已经是自然语言护理最常用的方法之一,GRU、LSTM 等模型相继引发了一轮又一轮的热潮。

1.3 我国自然语言处理现状

        目前自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。基础性研究主要涉及语言学、数学、计算机学科等领域,相对应的技术有消除歧义、语法形式化等。应用性研究则主要集中在一些应用自然语言处理的领域,例如信息检索、文本分类、机器翻译等。由于我国基础理论即机器翻译的研究起步较早,且基础理论研究是任何应用的理论基础,所以语法、句法、语义分析等基础性研究历来是研究的重点,而且随着互联网网络技术的发展,智能检索类研究近年来也逐渐升温。

1.4 自然语言处理业界发展

 

1. Google

        Google 是最早开始研究自然语言处理技术的团队之一,作为一个以搜索为核心的公司,Google 对自然语言处理更为重视。Google 拥有着海量数据,可以搭建丰富庞大的数据库,可以为其研究提供强大的数据支撑。Google 对自然语言处理的研究侧重于应用规模、跨语言和跨领域的算法,其成果在 Google 的许多方面都被使用,提升了用户在搜索、移动、应用、广告、翻译等方面的体验。

2. 百度

       百度自然语言处理部是百度最早成立的部门之一,研究涉及深度问答、阅读理解、智能 写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘、个性化、反馈学习等。其中,百度自然语言处理在深度问答方向经过多年 打磨,积累了问句理解、答案抽取、观点分析与 聚合等方面的一整套技术方案,目前已经在搜索、度秘等多个产品中实现应用。篇章理解通过篇章结构分析、主体分析、内容标签、情感分析等关键技术实现对文本内容的理解,目前,篇章理解的关键技术已经在搜索、资讯流、糯米等产品中实现应用。百度翻译目前支持全球 28 种语言,覆盖 756 个翻译方向,支持文本、语音、图像等翻译功能,并提供精准人工翻 译服务,满足不同场景下的翻译需求,在多项翻译技术取得重大突破,发布了世界上首个线 上神经网络翻译系统。

3. 阿里巴巴

        阿里自然语言处理为其产品服务,在电商平台中构建知识图谱实现智能导购,同时进行全网用户兴趣挖掘,在客服场景中也运用自然语言处理技术打造机器人客服,例如蚂蚁金融智能小宝、淘宝卖家的辅助工具千牛插件等,同时进行语音识别以及后续分析。阿里的机器翻译主要与其国家化电商的规划相联系,可以进行商品信息翻译、广告关键词翻译、买家采 购需求以及即时通信翻译等,语种覆盖中文、荷兰语、希伯来语等语种,2017 年初阿里正式 上线了自主开发的神经网络翻译系统,进一步提升了其翻译质量。

4. 腾讯

       AI Lab 是腾讯的人工智能实验室,研究领域包括计算机视觉、语音识别、自然语言处理、机器学习等。其研发的腾讯文智自然语言处理基于并行计算、分布式爬虫系统,结合独特的语义分析技术,可满足自然语言处理、转码、抽取、数据抓取等需求,同时,基于文智 API 还可以实现搜索、推荐、舆情、挖掘等功能。在机器翻译方面,2017 年腾讯宣布翻译君 上线「同声传译」新功能,用户边说边翻的需求得到满足,语音识别+NMT 等技术的应用保证了边说边翻的速度与精准性。

       除此之外,该报告还介绍了微软亚洲研究院、Facebook、京东和科大讯飞等在 NLP 方面有非常多研究与应用的机构。

2 技术篇

       自然语言处理的研究领域极为广泛,各种分类方式层出不穷,各有其合理性,我们按照中国中文信息学会 2016 年发布的《中文信息处理发展报告》,将自然语言处理的研究领 域和技术进行以下分类,并选取其中部分进行介绍。

  • 基础技术:词法与句法分析、语义分析、语篇分析、知识图谱、语言认知模型、语言知识表示和深度学习
  • 应用技术:机器翻译、信息检索、情感分析、自动问答、自动文摘、信息抽取、信息推荐与过滤、文本分类与聚类、文字识别

2.1 自然语言处理基础技术

       自然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,以及分词、句法分析和语义分析以及语言认知模型和知识图谱等。

       2.1.1 词法、句法及语义分析

       词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注就是在 给定句子中判断每个词的语法范畴,确定其词性并进行标注。解决兼类词和确定未登录词的 词性问题是标注的重点。进行词性标注通常有基于规则和基于统计的两种方法。一个多义词往往可以表达多个意义,但其意义在具体的语境中又是确定的,词义标注的重点就是解决如何确定多义词在具体语境中的义项问题。标注过程中,通常是先确定语境,再明确词义,方 法和词性标注类似,有基于规则和基于统计的做法。

        判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系是句法分析的主要任务。句法分析通常有完全句法分析和浅层句法分析两种,完全句法分析是通过一系列的句法分析过程最终得到一个句子的完整的句法树。句法分析方法也分为基于规则和基于统计的

        方法,基于统计的方法是目前的主流方法,概率上下文无关文法用的较多。完全句法分析存 在两个难点,一是词性歧义;二是搜索空间太大,通常是句子中词的个数 n 的指数级。浅层句法分析又叫部分句法分析或语块分析,它只要求识别出句子中某些结构相对简单的成分如 动词短语、非递归的名词短语等,这些结构被称为语块。一般来说,浅层语法分析会完成语块的识别和分析、语块之间依存关系的分析两个任务,其中语块的识别和分析是浅层语法分析的主要任务。

        语义分析是指根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句 子意义的某种形式化表示,将人类能够理解的自然语言转化为计算机能够理解的形式语言。句子的分析与处理过程,有的采用「先句法后语义」的方法,但「句法语义一体化」的策略 还是占据主流位置。语义分析技术目前还不是十分成熟,运用统计方法获取语义信息的研究颇受关注,常见的有词义消歧和浅层语义分析。

       自然语言处理的基础研究还包括语用语境和篇章分析。语用是指人对语言的具体运用,研究和分析语言使用者的真正用意,它与语境、语言使用者的知识涵养、言语行为、想法和 意图是分不开的,是对自然语言的深层理解。情景语境和文化语境是语境分析主要涉及的方 面,篇章分析则是将研究扩展到句子的界限之外,对段落和整篇文章进行理解和分析。

       除此之外,自然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研 究。

       2.1.2 知识图谱

        知识图谱,是为了表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示 形式。这一概念的起源可以追溯至语义网络——提出于 20 世纪五六十年代的一种知识表示 形式。语义网络由许多个「节点」和「边」组成,这些「节点」和「边」相互连接,「节点」表示的是概念或对象,「边」表示各个节点之间的关系。

  相关文章
· 中国泸州人才发展大会开幕
· 地平线宣布成立工程院
· 2018中国大学生喜爱雇主榜
· 中国高尔夫球开放选人才
 
  热门新闻
 
· 为职称评审“松绑”让人才“实至名归”
· 以诚相待 寻才建库 专项支持
· 人民日报:地方引进人才“以帽取人”弊端多
· 分享校企合作经验,探讨技能人才培养模式
· 精准健康管理百万人才培养计划
· 足球人才有“晋升”空间
· 走人才强区之路打造人才发展聚集区
· 使海南成为人才荟萃之岛
· 人才培养和人才引进同样重要
· 人才是平台未来发展的重要基石
 
  热门图片
 
   
  中国工程院知识智能联合实验室发布  
   
  必须培养具有国际视野 了解他国文化的人才  
 
 
   
  浙南科技城与美国硅谷人才达成合作意向  
   
  住建委:人才住房不影响公租房  
 
 
   
  强生以VR技术培养专业医疗人才  
   
  “重庆医药学校高端人才骨干师资培训班”  
 
     
友情链接
免责声明:本(栏目、频道等)内容由SP提供, 欢迎大家对侵犯版权等不合法和不健康的内容进行监督和举报
[增值电信业务经营许可证A2.B1.B2-20090001] [文网文[2008]053号] 中国电信湖北公司