1、PDF外文:http:/ Applied intelligence, 2005, 22,47-60. 中文 10700 字 一种用于零售银行客户流失分析的数据挖掘方法 作者: 胡晓华 作者单位: 美国费城卓克索大学信息科学学院 摘 要 在金融服务业中解除管制,和新技术的广泛运用 在 金融市场上增加了竞争 优势 。每一个金融服务公司的经营策略的关键是保留现有客户,和挖掘新的潜在客户。数据挖掘技术在这些方面发挥了重要的作用。在本文中,我们采用数据挖掘方法对零售银行客户流失进行分析。我 们讨论了具有挑战性的问题
2、,如倾向性数据、数据按时序展开、字段遗漏检测等,以及一项零售银行损失分析数据挖掘任务的步骤。我们使用枚举法作为损失分析的适当方法,用枚举法比较了决策树,选择条件下的贝叶斯网络,神经网络和上述分类的集成 的数据挖掘模型 。一些有趣的调查结果被报道。而我们的研究结果表明,数据挖掘技术在零售业银行 中的 有效性。 关键词 数据挖掘 分类方法 损失 分析 1. 简介 在金融服务业中解除管制,和新技术的广泛运用在金融市场上增加了竞争优势。每一个金融服务公司经营策略的关键是保留现有客户,和挖掘新的潜在客户 。数据挖掘技术在这些方
3、面中发挥了重要的作用。数据挖掘是一个结合商业知识,机器学习方法, 工具和大量 相关 的准确 信息 的反复过程 ,使隐藏在组织中的企业数据的非直观见解被发现。这个 技术 可以改善现有的进程,发现趋势和帮助制定公司的客户和员工的关系政策。在金融领域,数据挖掘技术已成功地被应用。 谁可能成为下两个月的流失客户? 谁可能变成 你的 盈利客户? 你的 盈利客户经济行为是什么? 什么产品 的不同部分 可能被购买? 不同的群体的价值观是什么? - 2 - 不同部分的特征是什么 和每个部分在个人利益中 扮演的角色是
4、什么? 在本论文 中,我们关注的是应用数据挖掘技术来帮助分析零售银行损失分析。损失分析的目的是确定一组 高流失率 的客户,然后公司可以控制市场活动来改变所需方向的行为(改变他们的行为,降低 流失 率)。 在直接营销活动的数据挖掘中,每一个目标客户是无利可图的,无效的 ,这个概念很容易被理解 。 因为 有限的营销预算和员工, 所以 数据挖掘模型 过去常常被用来 排列客户组成, 且 只有一定比例的客户通过邮件,电话等联系。如果建立 更完善 的数据挖掘模型和定义正确的目标,该公司 便 就能够接触潜在的 高密度 客户流失的集中群体。下面描述了银行流失分析的数据挖掘过程的步 骤:
5、 1.商业问题的定义:在客户保留的领域中商业问题的 明确说明 2.数据审查和初步筛选 3.在现有的数据方面问题 的说明 4.数据集成,编目和格式化 5.数据预处理:( a) 数据清洗 ,数据展开和 定义 时间敏感度的变量定义, 定义 目标变量,( b)统计分析,( C)敏感 度 分析,( d)漏泄检测,( e)特征选择 6.通过分类模型建立数据模型:决策树,神经网络,促进 朴素 贝叶斯网络, 自然选择条件下的 贝叶斯网络,分类器的集成 7.结果表达与分析:用数据挖掘模型来预测当 前用户中 可能的流失客户 &nb
6、sp;8.调度 展示 :定义可能 成为 流失客户的对象 (称为 正式 ) 这篇论文描述了一种用来分析零售银行客户流失的数据挖掘方法。目的是确认规则、趋向、模式和能够被作为潜在的流失指标的群体和提前确定潜在流失客户,因此银行能够采取积极主动地预防措施来降低流失指数。本论文安排如下:首先我们在第二部分定义客户保留区域上的问题和商业问题的 说明 ,接着我们在第三部分讨论数据选择、数据审查和初步筛选,然后是数据集成、数据目录的编辑和数据格式化、数据演变和时间敏感度变量的定义。接着我们讨论敏感度分析、遗漏侦测和特征选择。在第四部分 我们通过 决策树,神经网络和贝叶斯网络 和自然选择条件 下的
7、贝叶斯网络和上述四种分类器的集成来描述 数据模型。在第五部分,我们 主要 讨论调查结果、字段检测 结果。最后,我们在第六部分得出结论。 2. 商业问题 2.1. 主要问题的解释 我们的客户是世界十大零售银行之一,这些银行根据不同的客户提供各种种类的金融产品。本论文中讨论的产品属于一项特定的贷款服务。目前超过 750, 000 的客 - 3 - 户正在使用这项仍有 150 亿美元的资金未解决的产品,这项产品已经有了显著的的高流失率 。 由于高流失率,税收受到了挑战:每个月 呼叫 中心会受到超过 4500 个要求注销银行账户的电话;另外接近 120
8、0 条记录属于缓慢流失(连续超过 12 个月以上处于不平衡状态),同时非法账户对于产品收益率构成了一系列的挑战,由于指数、贷款限额以及佣金的影响,每月零售银行的流失指数总计达到 5700。另外,很多客户只在优惠价时才使用该产品,过期后便作废。每一个账户都有客户管理项目 成本 和客户获得成本,邮递需要在每个客户上花 1 美元,电话营销需要在每个客户上花 5 美元。而刺激成本(比如降低利率来留住客户)能够被考虑,主要取决于你提供了什么样的产品。我们的客户没有主动性的或者反应性。 在大多数情况下, 尽管有人认为价格下降 并不是仅有的或者最好 的策略 , 但是 这还是一种主要的方法。我们以上描述的情况
9、已经使得我们客户的商务和技术部门的管理者们开始审视采取相关知识为基础通过一系列有效的客户分类、客户概况了解、数据挖掘和信用积分的结合来保留更多的客户以达到收益最大化的可能性。在下文中,我们将描述首次使用这个计划的结果。 2.2. 问题定义 在这个部分描述了 在基于现有的数据,时间周期以及目标字段如何理解和定义问题的步骤。 在此步骤上,所有数据挖掘中,最冗长和最费力的部分是数据选择、数据准备、数据结构 1, 6, 7。在生产线上有 五种 流失因素: 缓慢流失客 户:指到冻结帐户时才还款的客户。 自主性 流失因素有多种 行为 表现而在此处可以被 全面 地理解。 快速流失客户:指快速还款后立即通过电话或写信销户的客户。 交叉销售:指的是可能购买现有贷款客户提供的诸如人生保险之类的替代产品的客户。不断增加的联系被认为是减少客户流失的一种手段。 高风险:可能变成高风险的客户。 客户挖掘 :可能放弃我们的产品而选择我们竞争对手产品的客户。这种情况不是单一的个例:一个客户能够在贷款周期中显示这类情况的子集。此时,他 /她能够通过有效的被刺激手段和策略影响来改变他们的行为。鉴于此,这些 客户的态度可以被量化表现在状态图表 1 上。