avatar

目录
基于大数据的互联挖金融欺诈行为识别研究 阅读

绪论

传统金融中,是以房产、固定资产为抵押物的抵押贷款,以及以应收账款、订单抵押的供应链金融 。而互联网金融中,为达到快速征信,快速办理,摆脱传统金融繁杂的手续过程,更多的是以个人信用为抵押的网络信用贷款。因此服务效率由低到高不断的提升,但是同时也对风险控制提出了更高的挑战、P2P网贷的最大特色是以个人信用为抵押,但事物都具有两面性,这也是该行业所面临的风险点。

当前互联网金融行业中,很多创新业务针对的客户源相对陌生,甚至未曾谋
面。基于目前国内尚未建立完善的个人信用征集、评价、跟踪体系,信用风险在
行业的发展过程中一直备受关注。

在互联网金融行业的信用风险中,欺诈行为占据很大一部分。甚至在市场中
出现了专门办理”欺诈“行为的代办公司。他们对网贷平台的审核流程十分熟悉,
专门对信用资质较差的用户提高信息包装、蓄意造假来帮助他们进行骗贷。所以
传统的征信模式很难在信息搜取时进行甄别。

基于大数据的创新征信模式

前世界最流行的美国个人信用消费评分 FICO 模型即利用大数据手段产生的。以当前最成熟的美国 FICO 信用评分体系为例,在其计算得到消费者最终信用评分前,会利用其 100 余万的数据样本,对客户信用资质、还款能力、道德品行等方面进行量化描述,利用大数据对用户充分了解,对这些指标加权计算总得分。国内同样有“芝麻信用分”等利用相应手段、技术产生的基于互联网、大数据的个人征信新模式。

互联网征信与欺诈识别

信用评分在一定程度上可以反应用户的信用资质,不仅能够挑选出优质客户,
也能同时鉴别信用资质较差的用户。传统征信中,是利用征信手段了解客户是否
拥有信贷的资格,但很难鉴别劣质或蓄意欺诈客户。欺诈人员利用其对信贷流程
的研究,将过程中需要的个人信息虚假包装,从而进行骗贷。将但在互联网环境
下,用户的各种行为数据为识别用户是否具有欺诈风险提供了可能。尤其在基于
大数据的基础上,我们可以从更多的维度、特征来对客户进行信用评分,依靠互
联网征信来达到对欺诈行为预测的目的。无论欺诈人员进行过何种包装,他在互
联网中都会留下痕迹,这对利用还联网征信来进行欺诈识别提供了依据和可能性。
而如何利用大数据环境下,做创新型征信,从而更有利、更准确的识别欺诈
行为也是本文的研究重点。

互联网行为数据与个人信用的关系

于用户的互联网行为涉及其生活的方方面面、反映了其在社交、消费等方面的个人特征,因此收集用户的互联网行为数据并结合“5C”模型可以对授信申请人进行互联网用户行为层面上的信用评估。

互联网用户行为数据

用户的互联网行为有两个层面上的意义:在微观层面上,互联网用户行为是
指用户在互联网上具体的操作行为,例如点击次数、浏览次数、浏览时长、发布
内容等;在宏观层面上,互联网行为是指用户在互联网上使用不同类型的应用、
从而满足其自身某种需求的行为,例如观看视频、网络购物等。对前者的研究主
要针对具体的某个互联网应用,本文的研究主要着眼于宏观层面上的互联网用户
行为,以探求互联网用户行为与用户信用评估的关系。互联网价值的本质是服务,
而互联网服务的载体是各类互联网应用(见表 2.1)。因此,互联网用户在互联网
上的任何活动都可以具体对应到某个互联网应用上,这种现象称为互联网的应用
化。

1

个人信用的“5C模型”

“5C”系统是从品质、能力、资本、担保、条件五个方面评估顾客或客户的
信用品质,从而确定风险程度,是金融机构对客户进行风险评估的常用方法之一。
其具体含义如下:

  1. 品质(Character):是评估用户信用资质的关键指标,代表客户的还款意愿,直接决定了应收账款是否能如期如数归还,因此一般认为信用评估最为重要的因素是品质;
    2.能力(Capacity):代表用户的还款能力,即其流动资产的数量和质量以及与流动负债的比例,通常以用户的已有的信用还款记录等信息为依据进行评判。
    3.资本(Capital):代表用户的财务状况和财务实力,用来描述顾客在偿还借款时可能的财务背景,例如客户的负债比率、流动比率、有形资产净值等财务指标。
    4.抵押(Collateral):代表用户无力支付款项或拒付款项时能被抵偿贷款的固定资产,这对于信用级别较低、资质较差或没有信用记录的用户非常重要。
    5.条件(Condition):代表可能影响用户还款情况的背景与环境,如客户出现经济困难、财务危机时的还款记录,以描述用户在特殊情况下的偿还可能。

    互联网用户行为对个人信用的反映

    通过上述分析我们可以发现,互联网用户行为及其所反映的用户特质与“5C”模型之间是有相关关系的。以互联网用户行为中的网络购物为例,用户在互联网上的网络购物行为数据反映了其经济能力,这对应“5C”模型中的“资本”;此外用户在经济不景气时期的消费记录还能反映其在“5C”模型中的“条件”,长期消费记录也能反映出用户的“品质”和“能力”。因此互联网用户行为能够反映用户的信用水平,是互联网征信机构在评估顾客或客户的信用品质时可以加以利用的信息。

互联网征信的优势

数据来源多

传统征信数据主要来自金融领域财务数据、政府公开信息以及电信和水电煤
气账单等信息,而在大数据征信体系中,数据源更加广泛,数据种类更丰富,数
据的时效性也更强。大数据征信主要采集的不是传统的信贷数据,而是包括社交
媒体的关系数据、电商平台的交易数据、第三方支付的消费数据、各种移动 APP
的地理位置信息等在内的、更加多样的数据。这些数据可以反映信息主体的行为
特征、消费习惯以及社会关系等特征,并据此对用户进行信用风险评估。

覆盖人群广

评估方法多样

基于庞大数据库和机器学习等技术的支持,大数据征信的预测及决策精度可
达到 85%。传统征信方法主要关注用户的历史财务信息,致力于深度挖掘用户
的信用历史。而大数据征信体系利用的是授信对象现阶段的信息数据,获取其实
时的行为特征,并在此基础上预测其未来的履约能力。大数据征信体系不仅使用
多维度的变量(变量库中的变量个数可多达几千甚至上万个),还运用神经网络、
机器学习等先进的数据挖掘方法。这不仅能大大提高信用评估的决策效率,还能
明显降低用户的风险违约率。

应用领域丰富

由于体制和技术的限制等原因,传统征信的征信结果主要应用于金融领域,
而数据来源广泛、数据量庞大的大数据征信却可将信用评估结果应用于社会生活中需要用户信用履约的各个领域:例如租房、租车、订酒店、办签证等各个场景。

征信成本低

传统征信方法由于其方式的老化,当征信对象数量不断上升时,其成本也会
随之增长。但互联网征信模式则不然:互联网征信的成本主要集中在前期投入(例
如购置设备、建立数据库、建立模型等)方面,后期只需对征信平台进行必要的
维护,成本相对固定,因此不会随着用户数量的增长而显著提高。这显示出了互
联网征信规模效应的特点,相比传统征信而言更有利于征信机构的长期运营与发
展。

互联网征信可能存在的问题

用户隐私与信息安全

信用评估模型的准确性

互联网征信所使用的数据体量庞大,且变量之间没有必然的因果联系。如何处理这些杂乱无章的数据、如何并基于数以千计的变量规模建立模型、如何解释并应用这些模型,这些都是互联网征信的核心问题。这不仅需要强大的数据处理和模型开发能力,还需要在实践中不断检验并优化。此外,随之而来的还有对计算机存储及计算能力的挑战。

征信机构的独立性

基于大数据的用户分类方法探究

1.1

文章作者: Eckle
文章链接: https://wowli-up.github.io/2020/05/12/%E5%9F%BA%E4%BA%8E%E5%A4%A7%E6%95%B0%E6%8D%AE%E7%9A%84%E4%BA%92%E8%81%94%E6%8C%96%E9%87%91%E8%9E%8D%E6%AC%BA%E8%AF%88%E8%A1%8C%E4%B8%BA%E8%AF%86%E5%88%AB%E7%A0%94%E7%A9%B6-%E9%98%85%E8%AF%BB/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Eckle的个人网站
打赏
  • 微信
    微信
  • 支付寶
    支付寶

评论