只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

2023-09-06 0 255

如果你用了ReLU,他们是好朋是“survive自学”。

前段时间有科学研究断定,大部份如前所述ReLU的广度神经互联网都能改写为机能完全相同的3层神经互联网。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

如前所述那个断定,英国伦敦王后大学的科学研究项目组还明确提出一类为任一ReLU互联网找出适当表层互联网的演算法。

继而造成的表层互联网是透明化的,可用作说明互联网的犯罪行为。

如果透过演算法,就能找出任一广度ReLU互联网的相关联表层互联网。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

为此网民感叹:我要读这篇学术论文,马上马上!

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

任何广度ReLU互联网都是表层的

ReLU是广度自学应用领域最常见的一类转化成表达式,由Nair & Hintonw在2010为管制麦克斯韦机(restricted Boltzmann machines)明确提出的。

由于常常在实践中有着比其他常见激励表达式(例如逻辑表达式)更好的效果,而被广度神经互联网广泛用作图像识别等计算机视觉人工智能应用领域。

学术论文指出,每个广度ReLU互联网都能转换为一个机能完全相同且具有“三个隐藏层”的浅层互联网。并提供了一个找出相关联表层互联网权重的演算法,提高神经互联网的全局可说明性。

简单来说是,透过划分输入空间,使用线性表达式对每个分区进行建模,来实现深层互联网浅化。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

具体分为这三步。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

首先,需要构建一个将线性模型和半空间编码的第一层,透过使用一个矩阵来表示半空间条件,其中每个行向量表示一个半空间的线性方程。

然后,构建第二层,该层根据输入的所属区域决定哪些边界是活跃的。

最后,构建第三层,透过将输入与每个线性模型相乘并使用指示表达式来选择正确的模型。

如前所述此,每一个广度ReLU互联网都能被转换为一个机能上完全相同的三层互联网,其权重值在扩展实数中。

当然要完成浅化,还需要一些咒(suan)语(fa)。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

根据学术论文,使用算法时只需找出H、c、α、β这些参数,并知道每个区域所需的半空间就能,主要分三步。

首先,识别可行的模式集,对于每个可行模式,计算全局线性规划的参数A(l)和d(l)。

然后,确定半空间条件,将这些矩阵堆叠起来,确定每个转化成模式的半空间条件。最终得到矩阵H和向量c。

最后,计算局部线性模型,根据模型的权重和转化成模式,使用显式公式,计算局部线性模型α和β。

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

简单理解,是根据已训练好的互联网,透过启发式搜索在可能的神经元转化成空间中找出合适的权重值。

透过构建表层白盒互联网,能够快速计算出每个数据点的SHAP值,大大提高数据的可说明性。

实验表明,透过上面演算法就能找出给定广度ReLU互联网相关联的表层互联网的显式权重。

网民:实验很酷,但也有些问题

学术论文很新颖的明确提出一个演算法,能实现“深转浅”,不过该方法仍有一些缺点。

比如构建表层互联网使用了无限权重,尽管这些权重能在Python中实现,但不能使用梯度下降进行微调。

当然,“找茬儿”这块,怎能少得了热心肠的网民。

根据学术论文能发现,如果使用项目组提供的演算法,实验过程中计算时间其实是会随着神经元数量增加呈指数增长。

所以就有网民明确提出疑惑:演算法运行时间与神经元数量成指数关系,12个神经元需要近10分钟,那计算一个普通大小的DNN所需时间岂不是长了去了……

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

网民指出:假设单层神经互联网能计算任何人表达式,那么对于任何人神经互联网来说,这不是都成立吗?

只要你用ReLU,就是“浅度学习”:任意ReLU神经网络都有等效3层网络

对于那个科学研究,也有网民犀利表示:这是个「普遍逼近定理」,没什么大惊小怪的。

不过无论网民怎么说,这篇学术论文仍然有一些出彩点。

比如,透过那个方式得到的表层互联网是透明化的,能用来生成模型犯罪行为的说明。

此外还提供了用作复现实验的代码,供其他科学研究人员使用来探索和实验。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务