最近机械工业出版了一本《智能风控:评分卡建模原理、方法与风控策略构建》,作者是张伟老师。非常荣幸邀请到张伟老师为大家进行分享,文末扫码即可获取张伟老师完整版分享视频~。这本书于2021年12月1号出版,上图链接可以直接购买
1.数据PIT问题
数据PIT ( Point In Time,时点) 问题是建模过程中常见但是很容易被忽视的问题。对于离线建模,通常基于历史数据建模,所有数据都必须回溯到历史时点,使用历史时点的数 据。这就要求银行在做数据存储时保留变更(修改和删除) 的轨迹历史信息,而不是仅保留当前的最新状态信息,仅保留当前最新状态信息不能实现历史数据和状态的回溯。
忽视数据PIT问题,可能导致变量时间穿越,即用未来的数据预测未来的目标,这种情况会带来建模逻辑错误。
2.数据回溯问题
数据可回溯是指可以回到历史时点得到当时时点的数据。离线建模经常遇到数据不可回溯问题,数据的不可回溯性包括如下3种情况。
1 )时点状态数据原址更新,但未保存历史时点快照。
2) 数据实时API接口服务用完即走,并未落库。
3) 回溯时点之后数据库升级, 例如数据只在回溯时点之后才开始采集。
数据回溯可能存在 “伪回溯” 问题,特别是在采购外部第三方数据前进行数据测试时可能会面临这个问题。“伪回溯” 即表面上看数据回到建模时点,但数据加工逻辑中隐含地使用了当前的数据。在采购外部第三方数据前进行数据测试时需要保持警惕, 避免出现 伪回溯” 问题。“伪回溯” 问题带来的后果是,采购前测试效果很好,上线后效果明显
下降。
3.热数据与冷数据
银行数据有冷数据和热数据之分。热数据是需要被计算节点频繁访问的在线类数据。冷数据是不需要经常访问的数据, 比如企业备份数据、业务与操作日志数据、话单与统计数据。对于已经结清的账户,可以保存在单独的己关户账户表里, 对应的流水数据也可以单独保存, 这样有利于提高存量账户表数据处理性能。
在提取数据及进行数据处理时, 需要有冷数据与热数据的意识, 避免数据提取不全或者数据处理逻辑错误。例如建模会用到客户/账户信息表,一般是提取最新时点信息表,需要确保冷数据的客户/账户仍然保留在表里, 否则会出现关联不上客户信息的情况。
4.松糯合与弱连接
多数情况下, 信贷业务数据都是紧藕合的, 表和表通过明确的主键和外键进行关联,但在某些情况下, 两个数据表之间可能不存在明显的业务关联意义,也就不存在显式的连接关系了。
1 )人行征信数据:人行征信查询一般是独立的外部数据查询前置,信贷申请表与人行征信可能不是通过一个键进行关联的。
2)外部第三方数据:一般是根据用户实体和时间戳进行连接,但本身没有直接的业务关联。
3)设备行为信息:用户在设备上操作行为轨迹, 与本笔业务之间没有直接的关系。
备注:内容来源于《智能风控:评分卡建模原理、方法与风控策略构建》,版权为原作者所有
扫码即可获取张伟老师完整版分享视频~
点击链接即可购买
欢迎添加:
公众号:消费金融风控联盟,ID:xiaojinfengkong
公众号:天天学风控,ID:xuefengkong
Vivian:微信号:risk0392
欢迎加入联盟粉丝通讯录:免费加入+免费发布信息,详情可添加管理萌萌:risk0392回复通讯录
欢迎加入风控干货知识星球:详情可添加管理Vivian:risk0392回复知识星球
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.