希望望这篇文章能帮助我以前从未接触过它SPSS但由于各种原因不得不使用的小伙伴。
从下面五个方面详细讲解SPSS分析银行营销数据流程:
1、项目背景;
2、数据来源;
3、描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/描分析/T检验/相关分析/卡方检验;
4、模型构建(C5.0和C&R树)和评估;
5、意义与应用;
1、项目背景以银行经典营销数据集(营销场景是向客户推荐定期存款业务)为分析样本,分析用户特征、银行存款贷款业务、营销活动等信息,目的是充分挖掘客户需求,描绘客户群体肖像,制定银行营销策略,促进银行业务的发展。
2、数据来源银行营销数据来自阿里巴巴天池平台,数据下载地址:
银行数据集-数据集-阿里云天池有下载地址train_set.csv和test_set.csv这里用两个数据train_set.csv最后,用模型进行分析test_set.csv进行预测。
2.1数据量2137KB大小数据集包含25317条数据和18条字段信息,即25317行*18列。第一列ID只有17个字段信息被分析为无关字段。
2.2关键字段的业务意义2.2.1基本属性?age 年龄?job 职业(分类:admin政客,blue-collar蓝领,entrepreneur企业家,house ** id家政,** nagement管理层,retired已退休,self-employed个体经营,services服务,student学生,technician技术人员,unemployed失业,unknown未知等) ** rital 婚姻状况 (分类: ** rried已婚,single单身,divorced离婚)?education 受教育程度 (分类:pri ** ry初等,secondary中等,tertiary高等,unknown未知等)?default 信用状况(是否有违约 yes or no)?balance 账户余额housing 住房贷款(是否有房贷 yes or no)?loan个人贷款(有没有贷款)yes or no)
2.2.2业务联系?contact联系方式(分类:cellular移动电话,telephone固定电话,unknown未知等)?day 上一个联系日month 上个联系月duration通话时间,秒
2.2.3营销活动?campain:上一次营销活动的联系次数 pdays:上次联系到现在的天数 previous:以往营销活动中累计联系次数 poutcome:上一次营销活动结果(分类:failure 失败,success成功,other其他,unknown未知)
2.2.4目标数据?y(deposit):客户是否有定期存款(分类:1,0)
2.3数据清洗1.数据没有缺失,所以没有数据填充。
2.job中的“admin.“替换为“admin”
3.pdays中存在的“-1没有清洗。
4.R列列名由“y”改为“deposit”
2.4 导入数据(1)添加变量文件源节点,选择train_set.csv”
(2)输出表格,查看数据
3、数据分析是否有定期存款是我们最关心的问题,也是目标变量。我们可以首先分析账户余额与每个维度之间的可能联系,然后分析目标变量是否有定期存款与每个维度之间的关系。
3.1描述性分析应用数据审核节点进行描述性分析,可以综合输出所有数据变量的汇总统计量、直方图和分布图报告,帮助我们快速有效地初步理解数据。
(1)添加类型节点
(2)添加数据审核节点
(3)运行后
以下基本信息可以从上图中获得:
? 客户平均年龄为41岁,最小年龄为18岁,最大年龄为95岁;? 客户账户余额平均值为1358,但标准差很大,说明此项数据的分布很分散;? 通话时间在0~3881s(1h )不同,是最后一次还是累计时间?但通话时间越长,客户潜力越大,相应的存款就越多。 上一次营销活动的联系次数是1~55次数不同,相应的联系次数越多,大约表明客户在上次活动中参与度较高; 上次联系的天数是-1~854天,为什么会有?-1?是数据错误吗? 以往营销活动中累计联系次数为0~275次。
3.2 T检验检验连续变量与分类变量之间的关系:重要性越接近1;
(1) 添加平均值节点,双击选择分组字段depositID如图所示:
(2) 点击运行后
可以看出,是否有定期存款与年龄、账户余额、最后一个联系日、最后一次营销活动、最后一次联系日、以前营销活动中累计联系次数有显著差异。
可知:
? 20岁左右的年轻人和60岁以上的老年人定期存款比例较高。
可知:
?上一次平均账户余额较高的营销活动中的联系次数是0-30二次之间; 有定期存款的客户在上一次营销活动中的联系次数集中在0-20次之间。
3.3 相关分析分析两个连续变量之间的关系:0.95<|r|<1,高度相关。
(1) 添加添加statistics节点,双击,处ID外全选,如图所示:
(2)点击操作
账户余额与年龄、通话时间、以往营销活动中累计联系次数密切相关。
可知:
? 账户余额较多的客户通话时间集中在600秒(10分钟)之内;? 通话时间越长,有定期存款的客户比例越多。
可知:
? 以往营销活动中联系次数在20次以内的定期存款较多,20次以上的无定期存款较多。
3.4 卡方检验两种分类变量之间的关系:概率<=0.05,所以说明有关系。
3.4.1职业(1) 添加矩阵节点,如下图所示
(2) 点击外观勾选百分比
(3) 点击操作
可知:
? 概率<=0.05,职业与定期存款有关;
可知:
? 部分职业客户经济状况较好:管理、退休、企业家等。
可知:
? 学生和退休人员的定期存款比例高于其他职业。
3.4.2婚姻状况具体操作同上(卡方检验)
可知:
? 概率<=0.05,婚姻状况与是否有定期存款有关; 已婚离婚定期存款客户数量约占各自群体的11%;单身定期存款客户数量占单身生活总数的14%; 与其他客户相比,单身客户更倾向于有定期存款。
3.4.3受教育情况具体操作同上(卡方检验)
可知:
? 概率<=0.05,受教育与是否有定期存款有关; 受初等教育和中等教育的客户定期存款约占各自群体的10%;受过高等教育的客户定期存款占15%; 与其他客户相比,受过高等教育的客户有更多的定期存款。
3.4.4是否违约具体操作同上(卡方检验)
可知:
? 概率<=0.05,是否违约与是否有定期存款有关;
可知:
? 违约客户的账户余额情况不乐观,说明他们的经济状况确实不好;
3.4.5住房贷款,个人贷款具体操作同上(卡方检验)
可知:
概率<=0.05,住房贷款、个人贷款与定期存款有关;有住房贷款或个人贷款的客户不容易开设定期存款业务;没有住房贷款和个人贷款的人有更多的账户余额。3.4.6上一次营销活动的结果具体操作同上(卡方检验)
可知:
? 活动成功的客户有大量的定期存款。
3.5 初步结论根据以上分析,我们初步了解到:
age,2060岁以上的年轻人定期存款比例较高;job,学生和退休人员的定期存款比例高于其他职业; ** rital,与其他客户相比,单身客户更倾向于定期存款;education,受教育程度越高,定期存款越多;default,违约客户的账户余额并不乐观,但似乎与定期存款无关;balance,账户余额高的客户很少有定期存款;housing,有住房贷款的客户不容易开设定期存款业务;loan,有个人贷款的客户不容易开设定期存款业务;contact,尚未分析;day,尚未分析;month,尚未分析;duration,通话时间越长,定期存款的客户比例越大;compain,联系不多;pdays,尚未分析;previous,以往营销活动中联系次数在20次以内的定期存款较多,20次以上的无定期存款较多;poutcome,活动结果是客户成功,定期存款多。4.模型构建和评价;4.1 C5.0(1) 添加添加C5.0然后双击节点C5.0”如下图:
(2)运行模型,双击金色模型块,左侧显示模型规则结果,右侧显示预测变量的重要性结果。
最重要的变量是通话时间,其次是上一次营销活动的结果。
(3)单击工具栏
按钮完成后,将更详细的信息显示在下面,包括推理规则的层次和频率。
上图可翻译为:当客户通话时间小于或等于448秒,年龄小于或等于60岁时,最后一次营销活动成功,通话时间超过162秒,住房贷款,最后一次营销活动联系3次以上,客户无定期存款,相应信誉85.7%。
(1) 点击查看器如图所示:
可见模型非常复杂
4.2 C&R树(1)添加“C&R然后双击树节点C&R如下图:
(2)运行模型,双击金色模型块,左侧显示模型规则结果,右侧显示预测变量的重要性结果。
最重要的变量是通话时间,其次是上一次营销活动的结果。
(3)点击查看器如图所示:
模型树深度4,比C5.0简单一些。
4.3 模型评估将分析节点分别添加到两个模型节点后,双击,如下图所示
分析结果如下:
C5.0预测模型的准确率为93%。
C&R树模预测准确率达到90.25%,略低于C5.0模型。
比较以上两种模型,C5.0准确率93%,树深度9,模型复杂;C&R树准确率达90.25%,略低于C5.0但是模型树的深度是4,开发价值更大,所以选择C&R树。
5、意义和应用影响客户是否有定期存款的数据,如银行客户的年龄、职业、受教育程度、贷款、通话时间和上一次营销活动的结果。应用程序C&R树模型算法,建立银行客户决策树模型。
应用决策树模型,根据客户信息判断是否有定期存款,帮助银行为不同客户制定适当的营销策略,促进银行业务的发展。
以下是对该模型的预测。test_set.csv用户是否会办理定期存款业务:
(1)添加预测数据test_set.csv”
(1) ** C&R树金模型结果
(2) 添加类型节点:
(3) 添加输出表:
$R及$RC字段名前缀分别是预测结果和预测信心度
扫码咨询与免费使用
申请免费使用