前言:

 
 最近在做信贷逾期的项目,使用了xgboost模型,在此大致记录流程,数据细节就不展开了。信贷逾期项目需要提供的用户数据信息预测是否逾期,本质上是一个二分类的问题,在此使用xgboost模型进行预测。

1.数据清洗

      根据数据特点,对表格进行数据清洗,比如去除空值,去除重复值,或者缺失值用中位数进行补充等。

2.划分数据X,Y

    本次为监督学习,X为数据特征,即feature,Y为target, 即是否逾期的结果。

3.划分训练集和测试集
#需要导入包 from sklearn.model_selection import train_test_split #划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(feature, target,
test_size=0.2)
4使用xgboost模型进行预测
import xgboost as xgb xgb_model = xgb.XGBClassifier(learning_rate=0.001,
n_estimators=1000, max_depth=6) #XGBClassifier()括号中可以设置xgboost模型的参数,根据需要自行设置即可。
xgb_model.fit(X_train, y_train) #fit()括号中设置训练参数,根据需要自行设置即可
5模型预测

     第4步得到训练好的模型,现在可以输入格式相同的X,即feature,就可以使用模型预测了。以X_test为例。
xgb_pre = xgb_model.predict(X_test) #括号中需要输入与训练时相同的数据格式
6结果评估

   比较预测的结果和真实的结果,评估模型的好坏。
from sklearn.metrics import roc_auc_score auc_score = roc_auc_score(y_test,
xgb_pre)

技术
©2019-2020 Toolsou All rights reserved,
在算法研究过程中如何进行算法创新七大排序算法(java代码)MYSQL中的索引与事务———javaweb(8)(面试必考)2022蓝桥杯JavaB组省赛试题网络安全-wifi攻防网络层协议——ICMP协议MySQL查询表中指定条件下的最新记录JavaSE笔记(一)Java基础语法mysql 查询条件之外的数据_mysql 查询符合条件的数据qt使用数据库sqlite