语义处置(NLP) 堪称育苗智慧的王冠七彩,是软件工程和育苗智慧应用领域的一个重要的组成部分,
其主要就科学研究人与电脑系统之间,采用语义展开有效通讯的各种理论和方法,简单来说:
电脑系统以采用者的语义形式作为输出,在其内部通过表述演算法展开研磨,计算等系列产品操作后(借以演示人类文明对语义的认知)在回到采用者所期许的结果。
、
语义处置是两门结合社会学、软件工程和微积分于多功能的科学,它不仅局限于科学研究社会学,还是研究能高效率实现语义认知和语义聚合的电脑系统系统,特别是其中的软件商品,因此,晋朝人软件工程的一部分。
随着电脑系统和网络控制技术的产业发展,语义处置控制技术在各应用领域广泛的应用应用领域,如图2所示:在过去的几个世纪末,
产业革命用机械设备起义者了人类文明的双脚,在现今育苗智慧革命中,电脑系统将代替育苗,处置小规模的语义信息,
我们平常常见的浏览器、新闻报道推荐、智能音箱等商品,都是以语义处置控制技术为核心理念的网络和育苗智慧商品。
此外,语义处置控制技术的科学研究也在飞速产业发展变化,每年瞄向ACL的学术论文成十倍增长,语义处置控制技术的应用应用领域效用被不断创下,有意思的任何和演算法着实不断涌现。
此栏为您概要介绍语义处置的产业发展心路历程、主要就考验,以及如何采用飞桨加速顺利完成每项常见的语义处置任务。
毁灭性公钥:这场关于词汇的常见对决
实际上,人们绝非只在近现代才开始科学研究和处置语义,在艰难的历史进程中,对语义恰当处置往往决定了战争的重大胜利或者独裁政权的更迭。
16世纪末的英国内地,爱尔兰和爱尔兰才刚顺利完成统一,君主为爱尔兰女皇伊安娜白一世,爱尔兰女皇玛丽因被视为威胁而遭到囚禁。玛丽女皇和其他爱尔兰贵族谋反,这些贵族们通过信件与玛丽女皇联络,商量营救方案并推翻伊安娜白女皇的统治。为了能更安全地与同伙沟通,玛丽采用了一种传统的文字加密形式 – 凯撒公钥对她们之间的信件展开加密,如图3所示。
这种公钥通过把原文中的字母替换成另外一个字符的形式,达到加密手段。然而他们的阴谋活动早在爱尔兰贵族监控之下,爱尔兰国务大臣弗朗西斯·沃尔辛厄姆爵士通过统计英文字母的出现频率和玛丽女皇密函中的字母频率,找到了破解公钥的规律。最终,玛丽和其他贵族在举兵谋反前夕被捕。这是近现代西方第一次破译公钥,开启了近现代公钥学的先河
语义的产业发展心路历程:
语义有着悠久的产业发展史,可粗略的分为兴起、符号主义、连接主义、和深度学习四个阶段,如下图所示:
兴起时期:
大多数人认为,语义处置的科学研究兴起于1950年前后。在二战中,破解纳粹德国的恩尼格玛公钥成为盟军对抗纳粹的重要战场。经过二战的洗礼,曾经参与过公钥破译的香农和图灵等科学家开始思考语义处置和计算之间的关系。
1948年香农把马尔可夫过程模型(Markov Progress)应用应用领域于建模语义,并提出把热力学中“熵”(Entropy)的概念扩展到语义建模应用领域。香农相信,语义跟其它物理世界的信号一样,是具有统计学规律的,通过统计分析可以帮助我们更好地认知语义。
1950年,艾伦图灵提出著名的图灵测试,标志着育苗智慧应用领域的开端。二战后,受到美苏冷战的影响,美国政府开始重视机器自动翻译的科学研究工作,以便于随时监视苏联最新的科技进展。1954年美国乔治城大学在一项实验中,成功将约60句俄文自动翻译成英文,被视为机器翻译可行的开端。自此开始的十年间,政府与企业相继投入大量的资金,用于机器翻译的科学研究。
1956年,乔姆斯基(Chomsky)提出了“聚合式文法”这一大胆猜想,他假设在客观世界存在一套完备的语义聚合规律,每一句话都遵守这套规律而聚合。总结出这个客观规律,人们就掌握了语义的奥秘。从此,语义的科学研究就被分为了以社会学为基础的符号主义学派,以及以概率统计为基础的连接主义学派。
符号主义时期:
在语义处置产业发展的初期阶段,大量语义科学研究工作者都是聚焦于从社会学角度,分析语义的词法、句法等结构信息,并通过总结这些结构之间的规则,达到处置和采用语义的目的,这一时期的代表人物就是乔姆斯基和他提出的“聚合式文法”。1966年,完全基于规则的对话机器人ELIZA在MIT育苗智慧实验室诞生了,如图6所示。
然而同年,ALPAC(Automatic Language Processing Advisory Committee,自动词汇处置顾问委员会)提出的一项报告中提出,十年来的机器翻译科学研究进度缓慢、未达预期。该项报告发布后,机器翻译和语义的科学研究资金大为减缩,语义处置和育苗智慧的科学研究进入寒冰期。
连接主义时期:
1980年,由于电脑系统控制技术的产业发展和算力的提升,个人电脑系统可以处置更加复杂的计算任务,语义处置科学研究得以复苏,科学研究人员开始采用统计机器学习方法处置语义任务。
起初科学研究人员尝试采用浅层神经网络,结合少量标注数据的方式训练模型,虽然取得了一定的效用,但是仍然无法让大部分人满意。后来科学研究者开始采用育苗提取语义特征的方式,结合简单的统计机器学习演算法解决语义问题。其实现方式是基于科学研究者在不同应用领域总结的经验,将语义抽象成一组特征,采用这组特征结合少量标注样本,训练各种统计机器学习模型(如支持向量机、决策树、随机森林、概率图模型等),顺利完成不同的语义任务。
由于这种方式基于大量应用领域专家经验积累(如解决一个情感分析任务,那么一个很重要的特征 — 是否命中情感词表),以及传统机器学习简单、鲁棒性强的特点,这个时期神经网络控制技术被大部分人所遗忘
深度学习时期:
从2006年深度神经网络反向传播演算法的提出开始,伴随着网络的爆炸式产业发展和电脑系统(特别是GPU)算力的进一步提高,人们不再依赖社会学知识和有限的标注数据,语义处置应用领域迈入了深度学习时代。
基于网络海量数据,并结合深度神经网络的强大拟合能力,人们可以非常轻松地应对各种语义处置问题。越来越多的语义处置控制技术趋于成熟并显现出巨大的商业价值,语义处置和育苗智慧应用领域的产业发展进入了鼎盛时期。
语义处置的产业发展经历了多个历史阶段的演进,不同学派之间相互补充促进,共同推动了语义处置控制技术的加速产业发展。
语义处置控制技术面临的考验
如何让机器像人一样,能够准确认知和采用语义?这是当前语义处置应用领域面临的最大考验。为了解决这一问题,我们需要从社会学和计算两个角度思考。
社会学角度:
语义数量多,形态各异,认知语义对人来说本身也是一种复杂的事情,如同义词、情感倾向、歧义性、
长文本处置、词汇惯性表达等。
同义词问题:
情感倾向问题:
歧义性问题:
对话/篇章等长文本处置问题:
在处置长文本(如一篇新闻报道报道,一段多人对话,甚至于一篇长篇小说)时,需要经常处置各种省略、指代、话题转折和切换等社会学现象,给机器认知语义带来了考验,如图7所示。
探索语义认知的本质问题:
研表究明,汉字的顺序并不定一能影阅响读,比如当你看完这句话后,才发这现里的字全是都乱的。
上面这句话从语法角度来说是完全是错的,但是对大部分人来说是完全不影响认知的,甚至很多人都不会意识到这句话是语法错误的。
计算角度:
语义控制技术的产业发展除了受社会学的制约外,在计算角度也天然存在局限。顾名思义,电脑系统是计算的机器,现有的电脑系统都以浮点数为输出和输出,擅长执行加减乘除类计算。语义本身并不是浮点数,电脑系统为了能存储和显示语义,需要把语义中的字符转换为一个固定长度(或者变长)的二进制编码。
由于这个编码本身不是数字,对这个编码的计算往往不具备微积分和物理含义。例如:把“法国”和“首都”放在一起,大多数人首先联想到的内容是“巴黎”。但是如果我们采用临的巨大考验。
语义处置常见的任务:
语义处置是非常复杂的应用领域,是育苗智慧最为困难的问题之一,常见的任务如图9所示:
词和短语级任务:切词、词性标注、命名实体识别、同义词计算等以词为科学研究对象的任务。
句子和段落级任务:文本倾向性分析、文本相似度计算等以句子为科学研究对象的任务。
对话和篇章级任务:如机器阅读认知、对话 系统等
语义聚合:机器翻译、机器写作等
采用深度学习解决语义处置任务的套路:
采用飞浆探索语义处置:
词语之间的关系word2vec
文本分类和相似度计算。
学习心得:
根据自己的目的,引用某个学术论文中的小故事。