译者：赵仁乾田建中叶本华常国珍

统计数据预估是两个多学科专业交叠的乙醛，牵涉语言学、统计资料库、机器自学、人工智慧及建模等多种学科专业，如图1-4右图。

▲图1-4 统计数据预估

01 统计数据预估方法展开分类介绍

法分成全面性和形式化两类，如下表所示右图。

目地：全面性表述：有监督管理自学，展开分类数学模型，用两个或数个常量预估常量的值　总括：顾客与否会偿付是两个常量，能依照顾客的异性恋、年纪、总收入、职务、中国经济情况、发展史信用风险情况等不利因素展开预估主要就演算法：计算机程序、非线性重回、方法论重回、支持矢量机、数学模型、判别预估等目地：形式化表述：无监督管理自学，预估具有数个特性的统计数据集，找寻潜在性的商业性模式，没有常量总括：检视子代间的相近程度，如依照年纪、异性恋、总收入等不利因素展开顾客行业龙头。依照顾客对数个商品的购买情况发现商品间的关连性主要就演算法：控制点、关连预估、因子预估、主成份预估、SNS网络预估等

1. 全面性——有监督管理自学

全面性预估指的是用两个或数个常量预估常量的值，以发展史统计数据为体能训练集，由此自学并建立数学模型，然后将此数学模型利用到当前统计数据上，推断结果。以顾客偿付作为全面性预估的研究情景，顾客与否会偿付是两个常量，我们能依照顾客的异性恋、年纪、总收入、职务、中国经济情况、发展史信用风险情况等展开预估。

依照SAS技师归纳的商业性事例，展开分类数学模型可分成五类。

重大决策类，如信用卡诈欺检验、消化系统微生物特征辨识。级别综合评价类，如顾客信用风险打分。估计类，如偿付损失准备金估计、总收入预估等。

有些统计数据预估演算法在某类应用上表现得更好，如最近邻域法、支持矢量机在重大决策类应用上表现良好，但是在解决排序类和估计类问题时表现一般。而有些统计数据预估演算法的表现比较稳定，如计算机程序和方法论重回对三类问题都适用，但是在重大决策类问题上没有在后两类问题上表现好。

2. 形式化——无监督管理自学

形式化预估指的是预估具有数个特性的统计数据集，找寻潜在性的商业性模式并展开展开分类。形式化预估是一种无监督管理的自学过程。区别于有监督管理的自学，无监督管理自学演算法没有参照指标，需要结合业务经验来判断统计数据展开分类与否正确。无监督管理自学比较耗时，而且对建模人员的业务素质要求较高。

形式化预估主要就应用于以下两种情景：第一种是检视子代间的相近程度，如依照年纪、异性恋、总收入等展开顾客行业龙头；第二种是依照顾客购买的数个商品发现商品间的关连性，主要就演算法包括样本控制点、关连规则等。

02 统计数据预估方法论

下面讲解最为常用的CRISP-DM方法论和SEMMA方法论。

1. CRISP-DM方法论

CRISP-DM方法论由NCR、Clementine、OHRA和Daimler-Benz的统计数据预估项目归纳而来，并被SPSS公司大力推广。CRISP-DM方法论将统计数据预估项目的生命周期分成6个阶段，分别是商业性理解、统计数据理解、统计数据准备、建模、评估和准备工作，如图1-16右图。

▲图1-16 CRISP-DM方法论

在实际项目展开过程中，由于使用者的目标背景和兴趣不同，有可能打乱各阶段顺承的关系。

图1-16呈现了CRISP-DM方法执行流程的6个阶段。各个阶段的顺序不是保持不变的，有时需要在某个阶段向前或向后移动，这取决于每个阶段的结果和下两个阶段的具体任务。箭头指出了各个阶段间的关连。

在图1-16中，最外圈的循环表示统计数据预估本身的循环特征。统计数据预估是一项持续的工作。在上两个流程和解决方案中获得的经验与教训，能给下两个项目提供指导。下面简要介绍每个阶段的特点。

1）商业性理解

该阶段的特点是从商业性角度理解项目地目标和要求，通过理论预估找寻统计数据预估可操作问题，制订实现目标的初步计划。

2）统计数据理解

该阶段开始于原始统计数据的收集，然后是熟悉统计数据、标明统计数据质量问题、探索对统计数据的初步理解、发掘有趣的子集，以形成对探索关系的假设。

3）统计数据准备

该阶段包括所有从原始的、未加工的统计数据构造统计数据预估所需信息的活动。统计数据准备任务可能被实施多次，而且没有任何规定的顺序。这些任务的主要就目地是从源系

4）建模

该阶段主要就是选择和应用各种建模技术，同时对参数展开校准，以达到最优值。通常，同一类统计数据预估问题会有多种建模技术。一些技术对统计数据格式有特殊的要求，因此常常需要返回到统计数据准备阶段。

5）评估

在数学模型最后发布前，依照商业性目标评估数学模型和检查数学模型建立的各个步骤。此阶段的关键目地是，确认重要的商业性问题都得到充分考虑。

6）准备工作

数学模型完成后，由数学模型使用者（顾客）依照当时的背景和目标完成情况，决定如何在现场使用数学模型。

2. SEMMA方法论

除了CRISP-DM方法论，SAS公司还提出了SEMMA方法论。其与CRISP-DM方法论内容十分相近，流程为表述业务问题、环境评估、统计数据准备、循环往复的挖掘过程、上线发布、检视。其中循环往复的挖掘过程包含探索、修改、建模、评估和抽样5个步骤，如图1-17右图。

▲图1-17 SEMMA方法论

1）抽样

该步骤牵涉统计数据采集、统计数据合并与抽样操作，目地是构造预估时用到的统计数据。预估人员将依照维度预估获得的结果作为预估的依据，将散落在公司内部与外部的统计数据展开整合。

2）探索

这个步骤有两个任务，第两个是对统计数据质量的探索。

变量质量方面牵涉错误值（年纪=-30）、不恰当（顾客的某些业务指标为缺失值，实际上是没有这个业务，值应该为“0”）、缺失值（没有顾客的总收入信息）、不一致（总收入单位为人民币，而支出单位为美元）、不平稳（某些统计数据的均值变化过于剧烈）、重复（相同的交易被记录两次）和不及时（银行顾客的财务统计数据更新滞后）等。

探索步骤主要就解决错误的变量与否能修改、与否能使用的问题。比如，缺失值很多，平稳性、及时性很差的变量不能用于后续的统计数据预估，而缺失值较少的变量需要展开缺失值填补。

第二个是对变量分布形态的探索。

对变量分布形态的探索主要就是对变量偏态和极端值展开探索。由于后续的统计预估大多是使用参数统计方法，这要求连续变量最好是对称分布的，这就需要我们了解每个连续变量的分布情况，并制定好变量修改的方案。

3）修改

依照变量探索的结论，对统计数据质量问题和分布问题牵涉的变量分别做修改。统计数据质量问题牵涉的修改包括错误编码改正、缺失值填补、单位统一等操作。变量分布问题牵涉的修改包括函数转换和标准化，具体的修改方法需要与后续的统计建模方法相结合。

4）建模

依照预估的目地选取合适的数学模型，这部分内容在1.3节已经做了详细的阐述，这里不再赘述。

5）评估

这里指数学模型的样本内验证，即使用发展史统计数据对数学模型表现的优劣展开评估。比如，对有监督管理自学使用ROC曲线和提升度等技术指标评估数学模型的预估能力。

03 统计数据预估建模框架的3个原则

笔者提出了数据挖掘建模框架的3个原则，即以成本-收益预估为单一预估框架、以预估主体和客体为视角构建全数学模型生命周期工作模板，将纷繁多样的统计数据预估应用主题归纳为3大预估范式和9大工作模板，如图1-18右图。

▲图1-18 3大预估范式和9大工作模板

1. 以成本-收益预估为单一预估框架

世上万事万物都具有矛盾的两面性，金融统计数据预估建模力图通过统计数据反映行为背后的规律，紧抓主要就矛盾就是找寻规律的捷径。大家都知道，挖掘有效的入模特征是统计数据建模的难点。一旦我们了解了预估课题的主要就矛盾，这个难点就迎刃而解了。下面讲解如何使用这个框架展开预估。

首先举3个例子。

信用风险打分数学模型中，与否逾期是被预估变量，而解释变量中经常出现的总收入稳定性、职业稳定性、家庭稳定性、个人社会资本都是在度量顾客偿付成本。信用风险发展史既是被解释变量的滞后项，也能反映偿付成本。收益会用贷存比、贷收比、首付占比等指标来衡量。申请诈欺数学模型的标签往往是客观存在的。入模特征以反映异常为主，比如异常高的总收入、异常高的学历、异常密集的关系网络等。这背后隐藏着统一的成本-收益预估框架。之所以会显示异常，是因为造假是有成本的，信用风险卡申请诈欺者知道总收入证明造假能获得更高的信用额度，但是由于其居住地、职业和学历没有造假，因此按照这三个维度对其总收入展开标准化之后很容易发现其总收入异常。这能说是公开的秘密，因为信用风险卡发放公司会依照造假成本对非可靠申请者展开授信，使得诈欺者无利可图。运营优化数学模型比如资产组合的持仓问题，其收益是资产的收益率，而成本是该资产市场价格的波动率。建模人员需要选择收益-成本最优的组合。

2. 以预估主体和客体为视角

在统计数据预估建模中，表述标签是主体视角。比如营销预估数学模型中顾客与否响应，是建模人员自己定的规则，这个规则有可能是收到营销短信后三天内注册账号并产生订单。

在构建入模的特征集时需要采用客体视角，比如手机银行的营销响应数学模型中，入模的特征应该反映客体的成本-收益的变量，比如年纪反映的是使用手机银行和去实体渠道的成本。

当建模人员意识到标签是自己主观臆断的时候，便会对该标签的选择更用心；当意识到入模的特征来自客体时，才会从客体的视角出发更高效地构建特征集。

3. 构建全数学模型生命周期工作模板

我们在CRIP-DM和SEMMA的基础上提出“高质量统计数据预估数学模型开发七步法”，如图1-19右图。

前三步是蓄势阶段，更多的是从业务人员、统计数据中吸收经验并形成感知。制作特征、变量处理和建立数学模型阶段是丰富特征、寻找有效数学模型的阶段，需要通过各种手段探查到最有效的特征和精度最高的数学模型。最后是数学模型输出阶段，选出的数学模型不但精度高，还要稳定性强。