小微企业信用评估的数据挖掘方法综述

来源：抵帆知识网

小微企业信用评估的数据挖掘方法综述

2016-05-03 14::05 《金融理论与实践》高俊光刘旭朱辰辰

一、序言

小微企业是指小型和微型企业。依据工信部2011年6月发布的小微企业划型标准，截至2013年年底，全国小微企业数量占到企业总数的94.15%，为GDP做出了近60%的贡献，税收占比达到50%，解决就业1.5亿人，新增就业和再就业人口的70%以上集中在小微企业[1]。小微企业作为我国市场经济的重要主体，发挥了不可替代的作用。然而，小微企业的信贷融资约束却成为制约其进一步发展的主要障碍，严重影响小微企业潜在的市场发展和企业创新。究其原因，主要由于银行信贷对企业信用等级有严格要求，而与大中型企业相比，小微企业抗冲击能力弱，且信贷信息不对称问题更加突出，导致小微金融服务面临更大的风险和不确定性。

笔者通过文献梳理和实证研究，发现小微企业信用评估困难的原因可归结为如下三方面：小微企业用于信用评估的数据不充分，缺乏针对小微企业建立的分类方法以及因类别不均导致的分类可靠性不高。基于此，大数据于信用评估领域的应用、信用评估的数据挖掘方法，以及类别不均问题的解决方法逐渐成为近年来小微企业信用评估领域的研究焦点。

二、大数据、数据挖掘与小微企业信用评估

(一)大数据与数据挖掘的基本内涵

2008年，《Nature》杂志出版专刊《Big Data》，系统地介绍了“大数据”所蕴含的潜在价值与挑战，“大数据”正式成为各个学科中的研究热点。2011年，《Science》杂志出版的专刊《Dealing with Data》标志着“大数据”时代的到来，此后，“大数据”这一术语逐渐被用于指代因收集和处理海量数据而产生的机会和挑战[2]。“大数据”的定义主要围绕“数据体量大”“复杂性程度大”和“价值大”三个角度进行界定。

大数据规模庞大，其中隐含着巨大价值，在各行各业都备受关注，特别是那些有着大量原始数据的行业，如医疗业和金融业[3]。然而，大数据要求的数据分析已经远非目前的统计数据处理技术能够实现，唯一的解决方法就是“数据挖掘”。数据挖掘是一个多学科的交叉领域，它利用自动学习或经验配合等方式进行分析，从大量的数据中提取出隐含的、未知的、有价值的潜在信息[4]。与传统数据分析不同，数据挖掘不需事先对数据提出假设，因而更能真实地反映出数据的隐藏特征[5]。近年来数据挖掘技术渐受重视，影响范围逐步扩大，部分学者的研究关注于数据挖掘技术本身的发展，也有学者侧重于解决实际应用中的问题，如在金融领域的应用[6]。

(二)大数据与小微企业信用评估的关系

信用评估属于基本分类问题，其目的是将贷款申请人分为信用良好的申请人与信用不良的申请人。对小微信贷而言，信用评估是对其影响最大的技术和环节，商业银行依据信用评估的结果判断是否向小微企业放贷[7]。现实中，贷款机构一直在回避对小微企业放贷是因为小微企业缺乏相关信息，其信用风险难以评估，从而造成了小微企业的融资困境，抑制小微企业发展[8]。

与此同时，大数据时代，数据已经渗透到各行各业，银行业利用数据来提升竞争能力具有得天独厚的条件，运用科学分析手段对海量数据进行分析和挖掘，可以更好地了解客户特征，从而较好地解决传统信贷风险管理中的信息不对称难题，从根本上改善信用评估结果[9]。然而，现有大数据挖掘算法各有缺陷，尤其是针对小微企业信用评估的大数据挖掘算法尚属空白。因此，亟待发展避免大数据缺陷的小微企业信用评估有效算法，这些缺陷包括类别不均等。

三、小微企业信用评估的数据挖掘方法

自从1941年Durand提出使用判别函数以区分“好”客户和“坏”客户，基于数据构建信用评估模型的人工智能方法在信用评估领域就得到了广泛应用。现有的风险评估模型集合了机器学习技术以处理类别不均的数据、增强预测的准确性，或构建易于理解的学习器，常见的分类方法包括决策树、神经网络、支持向量机及随机森林等。 (一)决策树(Decision Tree)

决策树是经典的分类算法，又称为分类树(离散目标)或回归树(连续目标)。常用的决策树算法包括CHAID、CART、ID3、C4.5和QUEST等[10-12]，其中C4.5是ID3和CART的扩展。将决策树用于小微企业信用评估，将为小微企业提供有价值的评估信息。Wu Tsui-Chih和Hsu Ming-Fu(2012)提出了结合相关向量和决策树的加强决策支持模型(EDSM)，并应用于小微企业信用评级，降低了信用分析成本。张培强(2011)采用ID3算法对信用卡客户实现了较好分类[13]。王磊、范超、解明明(2014)广泛选取了可适用于小企业主信用评估的12种数据挖掘模型，研究表明基于决策树的组合方法表现良好[14]。 (二)神经网络(Neural Network)

神经网络是一种模仿人脑信息加工过程的智能化信息处理技术，由于其非线性和无母数自适应学习的特性，神经网络成为信用评估领域的常见分类器之一。小微企业信息不完善，且真实度缺失，传统评估模型不能较好地对其信贷风险进行预测，神经网络方法因对缺失数据忍耐性高、约束条件少、抗干扰能力强，所以实验的拟合度较好，分类准确性也较高[15]。然而，神经网络也存在许多其自身无法克服的缺陷，例如，对样本量和样本质量的要求较高，易陷入局部极小值点，以及泛化不唯一等。

(三)K-邻近分析法(K-Nearest Neighbor Analysis)

K-邻近算法(KNN)是一种常用的无母数模式识别方法，通常用来解决概率密度函数的估计和分类问题，它不要求数据正态分布，其无母数的特点使其在特征变量空间上对不规则变量的建模成为可能。相比人工智能神经网络ANN，KNN算法简单，易于解释并可达到允许精度。但KNN算法也有其缺点，它计算量较大，且无法产生简明的分类概率公式。为此，许多学者在信用评估应用中开发出了基于KNN的改进模型，例如Chen H L(2011)和Jiang S(2012)等。

(四)支持向量机(Support Vector Machine)

支持向量机(SVM)由Vapnik于1995年提出，它成功地解决了许多领域的分类问题，是目前非常活跃的研究领域之一。与神经网络、决策树等分类器相比，SVM分类器具有小样本、高维数、非线性等优点，且不易陷入局部极小值点。

SVM广泛地应用于信用评价领域，它可以有效地与其他智能技术相结合，如与贝叶斯推理结合的SVM、与粒子群优化算法结合的SVM、遗传不等权重SVM(GAUSVM)[16]和聚类SVM等。这些研究表明，混合模型方法比单独使用SVM或其他技术的结果更好。Danenas等(2011)的汇总研究中，也对许多以SVM为基础进行信用风险评估的研究做了讨论，如随机梯度下降的SVM、核心向量机(CVM)等。研究结果表明，在组合SVM分类器中，参数选择非常重要。 (五)随机森林(Random Forest)

随机森林(RF)是Breiman于1996年提出的一种统计学习理论，大量理论和实证研究都证明RF具有很高的预测准确率，对异常值和噪声具有很好的容忍度，且不易出现过拟合，非常适合于解决先验知识不清、无规则多约束条件和数据不完全的应用问题。RF已成功地应用于各种问题，在信用评估领域也有所涉及。例如，Yeh C C(2012)将RF和粗糙集理论(RST)相结合，该方法分类结果优异并能形成有意义的信用评估规则，Bhattacharyya(2011)的实证研究发现RF在信用卡欺诈检测中显示出优越的性能，Brown I(2012)的对比研究RF表明在信用评估问题上能够比较好地处理类别不均数据集。

四、类别不均对信用评估的影响及解决方案

(一)类别不均对信用评估的影响

大部分传统的学习方法假设存在类别间的先验概率(Prior Probability)和/或误判成本(Misclassification Cost)。然而，现实中，类别间先验概率的比率往往显著倾斜，即数据集中某些类别的样本数量远少于其他类别，这种情况通常被称为类别不均问题。类别不均广泛存在于各种领域，如医疗诊断、雷达图像检测、诈骗检测、信用评估等。传统机器学习方法在处理类别不均分类时，往往对占样本多数的数据(Majority Class，以下简称“多数类”)有很高的识别率，对较少的一类数据(Minority Class，以下简称“少数类”)识别率很低。然而，通常少数类才是最重要的、误分类成本最高的，信用评估问题就是一种典型情

况。信用评估数据中，类别不均问题普遍存在，小量的违约样本对于分类结果具有极为显著的意义。对少数类，即使评估准确性提升1%，也将大幅降低金融机构的损失。

鉴于类别不均学习的重要现实意义，研究者对该问题进行了大量研究，提出的主要解决方案包括数据层面的方案和算法层面的方案，其主要目标是提高少数类的分类精度[1]。 (二)类别不均问题的数据层面解决方案

数据层面的解决方案主要是通过改变训练集样本分布，降低不平衡程度，最简单常见的方法是随机过采样(Over-sampling)和随机欠采样(Under-sampling)。围绕这一领域的研究主要集中于采样方法的创新和采样方法的比较两个方面。首先，两种采样方法各有缺陷，过采样的主要缺点是，若简单地复制原始数据，可能导致过拟合。而欠采样因删除部分训练样本，容易引起信息丢失。针对这些缺点，许多文献对重采样方法进行了改进研究，例如刘胥影等(2009)[18]、林舒杨等(2011)。此外，关于两种采样方法的比较，现有研究并未达成共识，且结果常常相互矛盾。部分研究表明随机过采样的效果更好，另一些研究则相反，还有研究认为，过采样与欠采样的结果相当。 (三)类别不均问题的算法层面解决方案

算法层面解决方案是根据算法在解决类别不均问题时的缺陷，适当地修改算法使之适应类别不均分类问题。算法层面的解决方案主要包括两类：其一为从算法本身入手所进行的创新及改进；其二为从分类工具入手，以各种方式对分类器进行集成，以及将分类器集成与数据层面解决方案整合等。 1.算法创新及改进

为改善类别不均问题的分类效果，很多学者在算法上进行了创新研究。Kennedy K等(2010)提出了一个特定的F值适应法，该方法用特异性替代了精度。Garc í a V，Mollineda R A(2014)构建的新函数可以减缓类别不均的影响，且会对偏向多数类或明显偏向少数类的情况做出惩罚，Chen W C等(2012)提的关联分类算法——PCAR(基于关联规则的概率分类)可以提升对类别不均数据的预测有效性。胡小生等(2013)提出的两层聚类的类别不均数据级联挖掘算法对类别不均数据的分类绩效较高。此外，He X等(2014)指出一类分类(One Class Classification)方法有助于处理类别不均问题，一类SVM(One-class SVM)和支持向量域描述(Support Vector Domain Description，SVDD)是典型的一类分类方法。One-class SVM和SVDD应用于类别不均的研究较为新颖，但仍有一些学者对此做出了努力，例如Wang Z(2015)提出了SVDD-neg，以及Maldonado等(2014)的研究发现，在处理类别不均问题时，对于噪声数据，SVDD优于二分类SVM。 2.多分类器集成

多分类器集成考虑到样本的不同特性，对处理类别不均分类问题有很好的效果。在多分类器集成领域，存在静态分类器组合(SCE)和动态分类器组合(DCE)两类方法，SCE对所有测

试样本选择统一集成方案，DCE则根据每一样本的特性选择不同的分类器组合。DCE策略中，动态分类器筛选(DCS)和动态组合筛选(DES)较为普遍，前者是指对每一样本选择单一最佳分类器，后者是指对每一样本选择不同的分类器组合。研究表明，DCS和DES各有优缺点，对于给定的测试样本，如果基分类器中的某一分类器性能明显占优，DCS更合适，否则DES更合适。

在信用评估领域，多分类器集成作为解决类别不均问题的方案而广受关注，研究普遍认为其分类准确性优于单一分类器。例如，Zhou L等(2010)以最小二乘SVM为基分类器构建组合模型用于信用评估，结果表明，组合策略可以提高分类性能。Palelogo(2010)的研究提出的集成分类技术——Subagging特别适用于高度不平衡的信用评估数据。Yao P，Lu Y.(2011)基于SVM构建多分类器集成信用评估模型，结果表明邻域粗糙集和SVM的集成分类器信用评估能力最好。Akko c S(2012)的研究提出了一个三阶段混合自适应神经模糊推理系统信用评估模型，对比研究表明，该模型在平均分类正确率和误判成本方面均有优异表现。Tomczak J M，Zie?ba M.(2015)应用分类受限波尔兹曼机(Class RBM)构建的多分类器集成信用评估模型显著提升了类别不均问题的分类精度。

五、文献述评

国内外针对信用评估的研究已经形成了较为合理的研究框架，对信用评估中的类别不均问题也进行了多方探索性研究，国内多位学者更是基于我国现状，为解决小微企业的融资问题展开了多方研究，为本研究的开展奠定了基础。但现有研究角度不同，观点不一，理论和实践都有待进一步完善。尤其是针对小微企业信用评估模型和方法的研究还鲜有涉及。总体而言，国内外与本项目相关的研究存在如下几方面的局限，值得进一步探索的方向。 (一)研究仍处于初级理论阶段

自运用大数据解决小微企业征信难问题的理念提出后，国内外学者就这一领域开展了广泛研究，然而如何运用“大数据研究”指导信贷机构的实践工作，几乎仅仅停留于理论阶段。尽管一些大型商业银行正在积极将大数据分析应用于信用评估，但仍处于接受曲线的早期阶段。因而，探索大数据背景下，提升信用评估准确度的模型和方法值得系统和深入的研究。 (二)研究缺乏系统性且发展缓慢

首先，在信用评估的相关研究中涉及大量的分类技术，虽然已有许多成功的应用，但也存在很多失败的例子，现有研究未能说明不同情境的最适宜技术。

其次，同其他金融领域的研究相比，小微企业信贷领域信用评估技术的发展缓慢。国内外鲜有针对这一领域的研究，现有的少量研究多停留在零散的理论探索阶段，缺乏系统性和实践性。有必要针对小微企业信用评估问题，探索适用的方法。 (三)处理类别不均问题的方法争议颇多

类别不均对数据挖掘和知识发现的应用提出重大挑战。然而，该领域的前期研究很多都是零散的、矛盾的，实证结论的可靠性和有效性存在严重问题。文献普遍认同现有解决方案均各有优缺点，但对不同方案的适用领域和适用情境并未有深入研究。

在信用评估领域，多数现有的学习算法和分类器假定或期望类分布平衡或误分类代价相等，且对类别倾斜不够敏感。因此，当处理复杂的不平衡数据集时，这些算法和分类器不能有效地表现数据的分布特征，分类结果不能令人满意，且可能产生误导性结论。 (四)小微企业信用评估的比较研究尚未有涉及

现有研究，缺乏以不同地域小微企业实际数据为基础而展开的比较研究。跨区域的比较研究将可以采他人之长补己所短，有助于解决小微企业征信难问题，并可以对小微企业金融制定提供一定参考。参考文献：

[1]姚铮，胡梦婕，叶敏.社会网络增进小微企业贷款可得性作用机理研究[J].管理世界，2013，(4)：135-149.

[2]Marx V. Biology: The Big Challenges of Big Data[J]. Nature, 2013, 498(7453): 255-260.

[3]Plummer D C, Bittman T J, Austin T, et al. Cloud Computing: Defining and Describing an Emerging Phenomenon[J]. Gartner, 2008.

[4]Dunham M H. Data Mining: Introductory and Advanced Topics[M]. Pearson Education India, 2006.

[5]Cios K J, Pedrycz W, Swiniarski R W. Data Mining and Knowledge Discovery[M]. Springer US, 1998.

[6]朱建平，魏瑾，谢邦昌.金融高频数据挖掘研究评述与展望[J].经济学动态，2011，(6)：59-62，142-148.

[7]杨大光，孔令鑫.小微企业信用评价模型的中外比较及完善[J].中国流通经济，2014，28(9：74-79.

[8]李明贤，罗荷花.信用缺失，融资激励与小微企业发展[J].云南财经大学学报，2013，(4)：142-148.

[9]蔡皎洁，张玉峰.基于数据挖掘银行客户信用风险评级体系研究[J].情报杂志，2010，29(2)：47-50.

[10]Kass G V. An Exploratory Technique for Investigating Large Quantities of Categorical Data[J]. Applied Statistics, 1980, 29(2): 119-127.

[11]Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.

[12]Loh W Y, Shih Y S. Split Selection Methods for Classification Trees[J]. Statisticasinica, 1997, 7(4): 815-840.

[13]张培强.信用卡客户的分类研究[J].生产力研究，2011，(4)：87-88.

[14]王磊，范超，解明明.数据挖掘模型在小企业主信用评分领域的应用[J].统计研究，2014，(10)：-98.

[15]钱慧，梅强，文学舟.小微企业信贷风险评估实证研究[J].科技管理研究，2013，33(14)：220-223.

[16]徐成贤，陈静，王昭.遗传支持向量机及其在人民币汇率变动方向预测中的应用[J].统计与决策，2012，(22)：40-43.

[17]李雄飞，李军，董元方，屈成伟.一种新的不平衡数据学习算法PCBoost[J].计算机学报，2012，35(2)：202-209.

[18]刘胥影，吴建鑫，周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报(自然科学版)，2006，(2)：148-155.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文