互联网上有海量数据的文档关键信息,想处置那些非形式化的统计数据就须要借助 NLP 控制技术。
责任编辑将如是说 NLP 的基本原理,2大各项任务,4个众所周知应用应用领域和6个课堂教学关键步骤。
NLP 为何关键?
“词汇认知是人工智慧应用领域王冠上的明珠”
比尔·盖茨
在人工智慧再次出现以后,电脑智能化处置形式化的统计数据(比如 Excel 里的统计数据)。但互联网中绝大部分的统计数据都亦然形式化的,比如:该文、相片、音频、音频…
在非内部结构统计数据中,文档的数目是最多的,他尽管没相片和音频挤占的内部空间大,但他的关键数据量是最小的。
为的是能预测和借助那些文档关键信息,他们就须要借助 NLP 控制技术,让电脑认知那些文档关键信息,并予以借助。
甚么是语义处置 – NLP
五种鸟类都有他们的语言,电脑也是!
语义处置(NLP)是在电脑词汇和人类文明词汇间沟通交流的公路桥,以同时实现人工智慧沟通交流交流的目地。
人类文明透过词汇来沟通交流交流,狗透过汪汪叫来沟通交流交流。电脑也有他们的沟通交流交流形式,那是数字关键信息。
不同的词汇间是无法沟通的,比如说人类文明就无法听懂狗叫,甚至不同词汇的人类文明间都无法直接沟通交流交流,须要翻译才能沟通交流交流。
而计算机更是如此,为的是让计算机间互相沟通交流交流,人们让所有计算机都遵守一些规则,计算机的那些规则是计算机间的词汇。
既然不同人类文明词汇间可以有翻译,那么人类文明和电脑间是否可以透过“翻译”的形式来直接沟通交流交流呢?
NLP 是人类文明和电脑间沟通交流的公路桥!
为何是“语义”处置?
语义是大家平时在生活中常用的表达形式,大家平时说的「讲人话」是这个意思。
语义:我背有点驼(非语义:我的背部呈弯曲状)
语义:宝宝的经纪人睡了宝宝的宝宝(微博上这种段子一大把)
NLP 的2大核心各项任务
NLP 有2个核心的各项任务:
自然词汇认知 – NLU | NLI语义生成 – NLG语义认知 – NLU|NLI
语义认知是希望电脑像人一样,具备正常人的词汇认知能力,由于语义在认知上有很多症结(下面详细说明),所以 NLU 是至今还远不如人类文明的表现。
语义认知的5个症结:
词汇的多样性词汇的歧义性词汇的鲁棒性词汇的知识依赖词汇的上下文想深入了解NLU,可以看看这篇该文《该文看懂语义认知-NLU(基本原理+实际应用应用领域+3种同时实现形式)》
语义生成 – NLG
NLG 是为的是跨越人类文明和电脑间的沟通交流鸿沟,将非词汇格式的统计数据转换成人类文明可以认知的词汇格式,如该文、报告等。
NLG 的6个关键步骤:
内容确定 – Content Determination文档内部结构 – Text Structuring句子聚合 – Sentence Aggregation语法化 – Lexicalisation参考表达式生成 – Referring Expression Generation|REG词汇同时实现 – Linguistic Realisation想深入了解NLG,可以看看这篇该文《该文看懂语义生成 – NLG(6个实现关键步骤+3个众所周知应用应用领域)》
NLP 的5个症结
NLP 的4个众所周知应用应用领域
情感预测
互联网上有大量的文档关键信息,那些关键信息想表达的内容是五花八门的,但他们抒发的情感是一致的:正面/积极的 – 负面/消极的。
透过情感预测,可以快速了解用户的舆情情况。
聊天电脑人
过去只有 Siri、小冰那些电脑人,大家使用的动力并不强,只是当做一个娱乐的形式。但最近几年智能化音箱的快速发展让大家感受到了聊天电脑人的价值。
而且未来随着智能化家居,智能化汽车的发展,聊天电脑人会有更大的使用价值。
语音识别
语音识别已经成为的是全民级的引用,微信里可以语音转文字,汽车中使用导航可以直接说目地地,老年人使用输入法也可以直接语音而不用学习拼音…
电脑翻译
目前的电脑翻译准确率已经很高了,大家使用 Google 翻译完全可以看懂该文的大意。传统的人肉翻译未来很可能会失业。
NLP 的 2 种途径、3 个核心关键步骤
NLP 可以使用传统的电脑学习方法来处置,也可以使用深度学习的方法来处置。2 种不同的途径也对应着不同的处置关键步骤。详情如下:
形式 1:传统电脑学习的 NLP 流程
形式 2:深度学习的 NLP 流程
英文 NLP 语料预处置的 6 个关键步骤
中文 NLP 语料预处置的 4 个关键步骤
总结
语义处置(NLP)是在电脑词汇和人类文明词汇间沟通交流的公路桥,以同时实现人工智慧沟通交流交流的目地。
NLP的2个核心各项任务:
语义认知 – NLU语义生成 – NLGNLP 的5个症结:
词汇是没规律的,或者说规律是错综复杂的。词汇是可以自由组合的,可以组合复杂的词汇表达。词汇是一个开放集合,他们可以任意的发明创造一些新的表达形式。词汇须要联系到课堂教学知识,有一定的知识依赖。词汇的使用要基于环境和上下文。NLP 的4个众所周知应用应用领域:
情感预测聊天电脑人语音识别电脑翻译NLP 的6个同时实现关键步骤:
分词-tokenization次干提取-stemming词形还原-lemmatization词性标注-pos tags命名实体识别-ner分块-chunking