数据描述:
数据集采用面板形式,涵盖了60个时期内5,000名美国住宅抵押借款人的贷款发放和表现的观察结果。其中的中心变量是id和time。所选的数据大小能够帮助我们有效地运行多种机器学习的技术。可以在此处下载 50,000 笔贷款的完整样本。
季度期间已经被去识别化,而观察期间为第1到第60期。观察期始于千年之初,并且包括全球金融危机(GFC)时期(大约在第27期)。观察期开始之前的贷款发放时间为负数。例如,orig_time=-2表示观察窗口之前两个周期的贷款发放时间。在此数据集中,我们可以观察到商业周期中的经济扩张与衰退。
在记录了特征变量后的一段时间内,我们可以观测到观察结果。在我们的数据集里,违约、偿付和状态事件都是在同处一行的特征变量之后的一期中被观察到的。而在违约时间和解决时间之间,我们会观察到LGD和相关的贷款追偿数据。
与现实世界一样,有的贷款可能是在观察期开始之前发放的。贷款有可能像证券一样,在银行和投资者之间转移。因此,随着贷款到期或借款人再融资,我们需要审查贷款的观察结果。因此,贷款在发起后不会马上被观察到。
该信息按以下顺序排列:
季度期间已经被去识别化,而观察期间为第1到第60期。观察期始于千年之初,并且包括全球金融危机(GFC)时期(大约在第27期)。观察期开始之前的贷款发放时间为负数。例如,orig_time=-2表示观察窗口之前两个周期的贷款发放时间。在此数据集中,我们可以观察到商业周期中的经济扩张与衰退。
在记录了特征变量后的一段时间内,我们可以观测到观察结果。在我们的数据集里,违约、偿付和状态事件都是在同处一行的特征变量之后的一期中被观察到的。而在违约时间和解决时间之间,我们会观察到LGD和相关的贷款追偿数据。
与现实世界一样,有的贷款可能是在观察期开始之前发放的。贷款有可能像证券一样,在银行和投资者之间转移。因此,随着贷款到期或借款人再融资,我们需要审查贷款的观察结果。因此,贷款在发起后不会马上被观察到。
该信息按以下顺序排列:
- 借款人编号;
- 时间戳;
- 观察时的信息特征变量;
- 贷款发放时的信息特征变量;
- 观察结果。
- id:借款人编号;
- time:观察结果的时间戳;
- orig_time:贷款发起的时间戳;
- first_time:首次观察的时间戳;
- mat_time:到期的时间戳;
- res_time:解决的时间戳;
- balance_time:观察时的未偿贷款余额;
- LTV_time:观察时的贷款价值比,以%为单位;
- interest_rate_time:观察时的利率,以%为单位;
- rate_time:观察时的无风险利率,以%为单位;
- hpi_time:观察时的房价指数,基准年=100;
- gdp_time:观察时的GDP增长,以%为单位;
- uer_time:观察时的失业率,以%为单位;
- REtype_CO_orig_time:房地产类型-共管式公寓:1,否则为:0;
- REtype_PU_orig_time:房地产类型-城市规划建设:1,否则为:0;
- REtype_SF_orig_time:房地产类型-独立住宅:1,否则为:0;
- investor_orig_time:投资借款人:1,否则为:0;
- balance_orig_time:贷款发放时的未偿贷款余额;
- FICO_orig_time:贷款发放时的FICO评分,以%为单位;
- LTV_orig_time:贷款发放时的贷款价值比,以%为单位;
- Interest_Rate_orig_time:贷款发放时的利率,以%为单位;
- state_orig_time:不动产所属的美国州份;
- hpi_orig_time:贷款发放时的房价指数,基准年=100;
- default_time:观察时的违约结果;
- payoff_time:观察时的偿付结果;
- status_time:观察时的违约(1)、偿付(2)和非违约/非偿付(0)的结果;
- lgd_time:违约时的LGD,假定现金流量不折现;
- recovery_res:解决期内回收的所有现金流之和。