使用 Minitab 预测分析模块预测抵押贷款违约
Minitab Statistical Software 中的预测分析模块在所有行业中都是非常宝贵的资产。业务价值可以通过预测措施产生,例如客户流失、患者住院时间、成本、风险、利润和许多其他因素。
在本文中,我们将研究银行业中的一个应用程序。对于银行来说,向错误的人提供抵押贷款可能是一个损失数十万美元的错误。鉴于这些风险,银行在决定批准或拒绝他们的抵押贷款申请之前了解他们的客户并对其做出预测是极其重要的。让我们看看 Minitab 的预测分析模块如何通过准确预测客户未来可能违约的情况来最大限度地减少抵押贷款违约的数量。
#了解贷款数据#
以下是分析中使用的观察数据的一部分。对以前的客户抵押贷款有1,645 项观察结果。C1 列显示响应变量或目标,如果该人拖欠抵押贷款,则是,如果没有,则否。其他 9 列包含我们将评估为潜在预测因子的特征。
#抵押贷款违约的现状#
下面的饼图帮助我们更好地了解借款人的抵押贷款违约率。 我们看到 10% 的抵押贷款被拖欠。降低这个百分比可以大大增加利润。
#比较预测模型#
为了应对这一挑战,我们使用 Minitab 预测分析模块。
由于响应为是或否,我们将使用分类模型。如果对连续响应感兴趣,将使用基于树的回归模型。预测分析模块包含三种分类建模类型:
1. CART® 分类
2. 随机森林分类
3. TreeNet 分类
对于分类,评估模型拟合优度的主要指标之一是 ROC 曲线下的面积。该指标越接近 1 越好。模块中的三个建模引擎中的每一个都被利用,并比较了各自的 ROC 曲线下面积值。
TreeNet 分类产生的 ROC 曲线下面积为 0.9695。对于来自其他两个建模引擎的模型,该值优于 ROC 曲线下的区域,这意味着生成的 TreeNet 分类模型是抵押贷款违约的最佳预测模型。TreeNet Gradient Boosting 是 Minitab 中最灵活、屡获殊荣且功能最强大的机器学习工具,它能够始终如一地生成极其准确的模型。在三个建模引擎中,TreeNet 通常倾向于产生最好的结果。
#可视化重要变量#
我们首先将相对变量重要性图作为我们模型输出的一部分。相对变量重要性值的范围从 0% 到 100%,最重要的变量始终为 100%。债务对信用是预测抵押贷款违约最重要的变量,其次是债务对收入,是第二重要的变量。九个特征中的八个在某些方面对模型很重要。
#预测违约概率#
既然我们在 Minitab 中已有模型,我们可以进行预测。我们可以将单个值输入 Minitab 以进行预测,如果一次进行大量预测很有价值,我们可以将值列输入到 Minitab 中。
以下为申请 485,000 美元抵押贷款的个人数据:
• 43 岁
• 81,000 美元的收入
• 9 个信用来源
• 0.68 的债务信贷比率
• 0.73 的债务收入比
• 住宅抵押贷款
• 来自西北地区
• 无家属
我们将这些值输入到预测模型中以获得单个默认值的概率,如下面的预测输出所示。此人拖欠抵押贷款的可能性超过 97%。一旦做出预测,那么您,拥有行业知识的人,就可以解释预测并采取行动。我认为违约概率为 97% 的个人很可能会被拒绝抵押贷款。
在所有预测变量的值都可用时进行预测总是最好的情况,但实际上很多时候预测变量的某些值丢失。Minitab 中的预测分析使我们在发生这种情况时仍然可以轻松地进行预测。在下面的示例中,有几个缺失值。即使有缺失值,我们仍然可以预测该客户拖欠抵押贷款的概率。
我们还有另一个潜在客户申请了 375,000 美元的抵押贷款。我们没有关于该申请人的收入、债务与收入比率、地区和受抚养人数量的数据。但我们确实有以下信息:
• 49 岁
• 4 个信用来源
• 0.31 的债务信贷比率
• 住宅抵押贷款
尽管有缺失值,我们仍然能够做出预测,并看到该客户拖欠抵押贷款的可能性不到 1%,如下所示。
根据分析,此人似乎是抵押贷款的理想人选,因为根据预测模型,他们违约的可能性不到 1%。这只是 Minitab 基于树的机器学习算法如何帮助您解决复杂问题并获得宝贵见解的一个示例。
免责声明:
1、本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
2、本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
3、本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
4、侵权违法和不良信息举报 举报邮箱:cnddit@qq.com
还没有评论,来说两句吧...