资源在数据分析中的作用

2023-06-02 0 507

在学校学习统计数据数据预测时,你并没有听到太多关于天然资源——天数、钱财和控制技术——在预测发展中的促进作用。在与特级教师或指导老师聊天时,这种谈话一般来说”在走道里”。但,需用天然资源在确定对取值难题和统计数据数据集能做些甚么方面确实发挥着关键促进作用。人们很容易认为情况是相互依赖的——或者你有足够多的天然资源展开”正确的”预测,或者你根本不做预测。但在现实世界中,这两个起点之间有相当多的棕色阴霾。在统计数据数据预测中,有很多情况下,最差方法不可取,但展开这种预测依然很关键。因此,统计数据数据预测员掌握的一个关键性专业技能是能够取舍相互矛盾的设想,同时依然产生管用的东西。

资源在数据分析中的作用

大部份预测都要处置对天数和控制技术的管制,这往往下定决心了能做些甚么的计划。例如,所采用的统计数据数学模型的繁杂性可能将受到预测员需用的计算天然资源、购买更多计算天然资源的能力和运行繁杂的普鲁德链蒙地卡罗演示的天数的管制。明天须要的预测将相同于下周一须要的预测。然而,二者之间唯一相同的是有天数做此项组织工作。

天数、资金和控制技术等关键性天然资源对统计数据数据预测最终顺利完成方式有相同的影响:

涉及很多原则上的部分,繁杂的统计数据数据要经过校正、检查审讯,才能对结果信心十足。大部份那些都须要天数,而天数的增加导致做那些事情的增加。同样,假如一个人不能将其全部列入他们的尧利省,则某些预测可能将须要王承恩的天数。假如目前没有多个人员,这将更动所顺利完成的预测的性质。

控制技术。我广泛采用”控制技术”referring来指计算天然资源和统计数据”天然资源”。有些数学模型可能将比其他数学模型更强化,但统计数据数据集的优点(有此大小)可能将会制止它们被应用。更好的分析能用更多的计算天然资源来顺利完成,但对需用计算天然资源的管制将下定决心甚么样数学模型适宜,和顺利完成了多少附加的组织工作。控制技术管制也可能将与接受预测的广告主有关。根据广告主的繁杂程度,能调整用作预测的控制技术。

近似于

也许沙泰吕在工具箱中用作处置天然资源管制的最有名的工具是近似于。一般来说,写出难题的确凿或平庸软件系统是很简单的,但计算经济负担使得计算该软件系统变得困难。例如,很多 Bayesian 计算须要计算繁杂的高维积分,那些积分在数字计算机发明之前是不可能将的。对于繁杂的非线性软件系统,经典的技巧是采用线性近似于,并可能将将其与关于无同位素常态的假设相结合。

在大多数计算难以处置的情况下,沙泰吕或者采用(无同化)近似于,用(有时是可疑的)假设来代替困难的计算,或者选择相同的方法。一个关键性点是,现实世界天然资源管制的严酷现实迫使采用相同的方法预测统计数据数据。虽然采用次优方法可能将不满意,但根本不预测统计数据数据可能将同样令人不满意。

随着上个世纪计算天然资源的增长,我们一直在慢慢用计算取代那些旧的假设。假如我们能用强大的计算机计算一个管制较少的软件系统,就没有必要采用无节制的常态。这方面的一个简单的例子是双样本排列测试,它与标准 t 测试一样强大,但没有任何分布假设。当然,难题在于,那些旧假设很难消亡,即使在今天,当一个公式就在眼前时,编写一个软件系统的编码也非常麻烦。

更便宜的分层建模

我自己组织工作的一个例子涉及空气污染和健康天数系列统计数据数据的分层建模。在21世纪初,我们正在研究美国死亡率和空气污染的国家统计数据数据。我们每天有关于美国100个主要城市的死亡率和污染(和很多其他共伐物)的统计数据数据,天数跨度约为14年。为了有效地利用这一庞大的统计数据数据集,目标是采用分层数学模型来估计空气污染和死亡率之间的”全国性”关联,和借用跨城市力量的城市特定估计值。这是一种熟悉的方法,在较小的统计数据数据集中效果很好。”正确”的方法是,对每个城市采用Posson可能将性(演示死亡率计数统计数据数据),然后对拦截和空气污染斜坡产生正常的随机效应。

但在当时,我们没有一台计算机能实际计算数学模型的估计值(或者在我们的情况下,后分布)。因此,”正确”数学模型不是一个选项。我们最终所做的是采用一个正常近似于的泊松可能将性,我们拥有相当大的样本,这允许一个正常-正常两阶段数学模型,能计算,而不必加载大部份统计数据数据到内存(在最简单的情况下,它能做封闭的形式)。时至今天,这是演示空气污染和健康的多站点天数系列统计数据数据的标准方法,因为它快速、便宜、易于理解。

信用

归根结底,那些天然资源管制会影响预测的可信度。在值得信赖的预测中,预测结果往往得到很多事实和细节的支持,而那些事实和细节并没有被提出来。那些其他预测已经顺利完成,但预测师已经下定决心(可能将基于对统计数据数据的这种叙述),它们没有达到陈述的阈值。也就是说,假如有人要求那些细节,他们是现成的。有了更大的天然资源,大部份能做的事情的总和都更大,因此,我们希望,剩下的事情是正交的,以甚么做了。

然而,由于天然资源较少,至少有两个后果。首先,采用统计数据数据能做的事情可能将更少。增加对统计数据数据的检查、对数学模型假设的检查、收敛检查、数学模型校正等。这增加了撤消物的数量,并使得它们更有可能将对最终(呈现)结果产生影响。其次,某些类型的预测可能将须要比现有天数或计算天然资源更大的天数或计算天然资源。为了提出任何预测,我们可能将须要采用近似于或”更便宜”的方法。那些方法不一定不正确,但它们可能将会产生更嘈杂或不平庸的结果。也就是说,参与预测的所有其他各方,如广告主或赞助人,可能将更喜欢做任何预测,无论其最差性如何,而不是没有预测。有时难题本身依然是模糊的或有点粗糙,所以没关系,假如它的预测是同样”快速和肮脏”。然而,鉴于现有天然资源,预测师要划清合理预测与不合理预测之间的界限。

虽然天然资源管制会损害预测的可信度,但有时采用近似于值来处置天然资源管制会产生好处。在上述有关空气污染和死亡率建模的示例中,我们采用的近似于值使数学模型非常快速地与统计数据数据相适应。在这种情况下,计算成本低的好处使预测员能够循环采用很多相同的数学模型,以检查发现对各种混淆因素的稳健性,并展开关键的敏感性预测。假如每个数学模型须要数天天数计算,您可能将只是满足于一个数学模型适宜。换句话说,天然资源约束可能将会产生一种预测,虽然这种预测近似于,但实际上比最差预测更值得信赖。

资源在数据分析中的作用

预测师的组织工作

统计数据数据预测员的组织工作是管理可供预测的天然资源,并根据现有管制提供最差预测。天然资源的需用性可能将不仅仅取决于预测师,但组织工作是确认需用天然资源,确定天然资源是否足以顺利完成合理的预测,假如没有,则向能够提供天然资源的人提出更多要求。由于对需用天然资源与所需天然资源的理解不匹配,很多统计数据数据预测误入歧途。

优秀的统计数据数据预测员能最大限度地增加严重不匹配的可能将性,并会持续评估方保持良好关系。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务