摘要:当前面向大样本设计的信用评估模型,大多没有深入探究大样本的分布特征,只是简单地将传统评估方法应用在大样本上.首先提出了用于描述大样本分布特征的相关属性集、边界向量等若干概念及定义,并证明了其主要性质.之后在两个大样本数据集的基础上,研究了样本在相似性方面的分布特征,最后设计了一种大样本混合信用评估模型——HLSCE模型.HLSCE模型认为在大样本数据集中,样本的同一属性在不同局部区域内,对分类性能的贡献是不同的.具体地,HLSCE模型根据各样本与边界向量的相似性差异,结合生物启发式算法,将样本归并划分为若干子集并分别在其上训练基分类器.实证研究表明,HLSCE模型的分类精度相比于现有的代表性信用评估模型更高,同时也具有更为优越的平衡性与稳定性.