结语为语义处置提供更多了两个多层面的如是说。解释了语义处置是甚么,最常用的语义处置应用领域是什么样和开发语义处置插件的基本方法是甚么。
1.认知语义处置
人类文明透过语义交互,语义包括了许多重要信息。比如说,透过选择不同的词汇,语调和语句的语句能被用来揭露两个人的心情,企图和感情。
此外,譬如书刊,报刊和网志等等的文件格式文件格式中充满了可用作继续执行各式各样任务的重要信息。对于人类文明来说,认知并且从两个文件格式中抽取管用的重要信息和作出基于来自文件格式的这个重要信息的下定决心须要耗费大批的天数。
而这,就是语义处置有所作为的地方。
语义处置被表述为“两个使计算机系统能阅读,认知和抽取人类文明所说语义涵义的育苗智能领域。”
有了语义处置,计算机系统不仅能认知语义,而且还能透过自然语言对人类文明作出澄清。除了用作交互式目的之外,NLP控制技术还广泛用作处置子公司的大批数据,而全自动处置则须要数月甚至数月的天数。
比如,两个人可能须要花数周的天数来从两本两千页的书中育苗抽取重要信息进行总结,但有了语义处置,类似的文件格式全文能在几秒钟内完成。反之亦然,雇用育苗听众评注所有使用者文章,并撰写包涵使用者对某一商品的意见建议的报告是耗费成本非常高的,然而有了语义处置之后,使用者意见建议能被自动从文件格式中抽取,从而使子公司能制定出组织决策。
2 . 语义处置的实际应用领域
从Microsoft的Cortona到Apple的Siri,NLP为各式各样插件提供更多了支持。此栏概要如是说了NLP的一些最常用的插件。
感情分析
NLP通常被用作继续执行文件格式感情预测。文本形式的德国大众意见建议,比如相关某一商品或实体的贴文,网志和文章都包涵了感情。感情预测是指从这些文本中辨识感情。自动辨识相关贴文的公众情绪能帮助子公司下定决心如何改进其商品和保留或弃置何种商品。
流氓软件和非流氓软件的进行分类
Gmail和其他邮件伺服器使用NLP控制技术来准确地区Maubourguet废弃物和流氓软件。这是文件格式进行分类的两个经典之作应用领域,其中文件格式文件格式被划分为原订义类型之一,但非废弃物邮件或流氓软件。
语音到文本的转换
NLP控制技术被广泛的使用到语音与文本的自动双向转换中。在你说出内容时,你不再须要要求某人代你把你讲的内容写下。谷歌的自动语音辨识(https://bit.ly/2N6xYSt) 就是两个很经典之作的语音文本转换的例子。
交互式
须要按键盘按钮并单击鼠标以向计算机系统发出命令的日子已经一去不复返了。NLP 已经能使人类文明和机器人透过语义进行交互。机器人在有了NLP的帮助下不仅能够认知人类文明的语言而且能用语义对人类文明进行澄清。Sophia(https://bit.ly/2YLprtx)就是两个经典之作的透过语义处置与人类文明交互的人形机器人的例子。
增强虚拟助手
正如上面所提到的,
文本翻译
自动文件格式翻译是NLP最强大的应用程序之一。使用文件格式翻译控制技术,人们只需单击几下鼠标,便能将文件格式从一种语言翻译成另一种语言。 Google翻译就是使用NLP控制技术进行文本翻译的最著名例子之一。
文本全文
并非每个人都有天数来阅读冗长的文章,内容全文是须要天数和人力的。有了NLP控制技术,文本文件格式能被自动地总结全文,节省了天数与人力也节约了成本。
文件格式生成
基于深度学习的高级NLP控制技术现在还被用作文件格式生成。近年来,文件格式生成控制技术被用作生成基于(权力的游戏)脚本的诗歌。文件格式生成控制技术目前还处于初始阶段。
3. 学习NLP的路线图
掌握NLP须要天数和精力。不能仅透过阅读两个网志就声称自己是NLP专家。此栏分步如是说怎么
学习NLP。
为了成为两个优秀的NLP专家,须要按顺序按照以下步骤学习。
3.1 了解NLP的全部意义
在开始开发NLP插件之前,你须要知道你实际在做甚么。你应该了解NLP的全部涵义,为何管用和最重要的一些NLP插件。本书的第一章就是为语义处置理论建立基础。
3.2 学习一门编程语言
如果你希望成为一名NLP专家,你须要学会一点编程,这是无法绕过的现实。你必须学会编程才能开发NLP插件。尽管你能使用任何一种编程语言来编程语义插件,但我还是会建议学习Python编程语言。Python是NLP最常用的库之一,具有无数的基本和先进的NLP库。此外,许多NLP插件基于机器学习和深度学习。并且Python是一种提供易于使用的深度学习和机器学习库的语言。简而言之,学习Python。第2章如是说 了面向初学者的Python进阶的速成课程。
3.3 从基础任务开始
从非常基本的NLP插件开始。建议初学者不要立即开始开发NLP插件,相反,应该首先了解最常用和最基本的NLP任务。比如,学习如何继续执行停用词删除、如何将语句划分为单词和如何将段落划分为语句、知道如何为文件格式等中的单词找到一部分语音标签等等。此外,精通文
3.4 了解如何以统计方式表示文件格式
正如之前提到的,大部分的NLP控制技术包涵了深度学习和机器学习的概念,而深度学习与机器学习都是统计学方面的控制技术。为了在NLP中实现这些控制技术,须要用统计学的方式表达文件格式。有多种方法能用来统计地表示文件格式,关于详细重要信息,请参见第7章。
3.5 了解机器学习与深度学习
一旦学习完所有基本的NLP概念后,则须要学习机器学习和深度学习概念,尤其是有监督的机器学习算法。在深度学习算法中,应该注重了解稠密连接的神经网络,递归神经网络(尤其是LSTM)和卷积神经网络的基本工作原理。这些概念将在第3章中进行解释。
3.6 开发高级的NLP应用领域
熟悉了基本的NLP任务并且对深度学习和机器学习有基本的了解后,就可以准备开发高级NLP插件了。对于NLP插件,建议首先使用譬如Logistic回归,Random Forest等机器学习算法开发机器学习插件(比如文件格式进行分类)。一旦开始能熟悉地使用机器学习开发NLP插件,就能转向使用基于深度学习的运用各式各样神经网络的高级插件。本书的第2部分致力于开发基于深度学习和机器学习NLP插件。
3.7 NLP应用领域部署
基于高级NLP的插件与机器学习应用领域程序非常相似。有几种部署此类插件的方法。能使用包涵REST API的专用伺服器,这些伺服器可服务于调用NLP插件。要部署此类插件,须要学习Python Flask,Docker或类似的Web控制技术。此外,还能使用Amazon Web Services或任何其他基于云的部署平台来部署插件。
要成为NLP专家,须要不停地按照上述7个步骤练习继续执行。练习得越多,就能在NLP获得更好的成就。
4.主要的语义处置方法
语义处置的方法分为两大类:基于规则的方法和统计方法。
4.1 基于规则的方法
顾名思义,基于规则的方法是由人类文明表述的规则组成。比如,两个关于感情进行分类的基于规则的方法可能包涵了这样一条规则:如果贴文中肯定词的数量大于否定词的数量,则该贴文能归类为总体上具有积极情绪。
基于规则的方法有其的好处也有不足。其最主要的两个好处是它们具有很高的可解释性。另外,基于规则的方法不须要大批的数据来做训练。而其最主要的两个不足是,这些基于规则的方法不能灵活变通,可能无法扩展到不同的数据集。
4.2 统计学方法
顾名思义,统计方法涉及到用作开发语义处置控制技术的统计算法。机器学习和深度学习方法是NLP统计方法的主要示例。与基于规则的方法相比,统计方法更加灵活和可扩展。使用统计方法的主要缺点是缺乏可解释性,并且须要大批的数据集来训练NLP算法。
下一章将如是说如何设置环境以运行用作继续执行基本NLP任务和开发NLP插件的脚本。
深度阅读– Python [1]
想要了解相关NLP的更多重要信息,请查看以下链接:
https://bit.ly/30UfInA
相关机器学习和深度学习的知识,请参阅以下链接:
了解更多推荐系统、大数据