机器学习——信用卡反欺诈案例

发布时间:2019-03-19 20:59:29编辑:auto阅读(2043)

    导入类库

     1 import numpy as np
     2 import pandas as pd
     3 from pandas import Series, DataFrame
     4 import matplotlib.pyplot as plt
     5 from sklearn.preprocessing import StandardScaler
     6 from imblearn.over_sampling import SMOTE
     7 from sklearn.ensemble import GradientBoostingClassifier
     8 from sklearn.model_selection import train_test_split
     9 from sklearn.linear_model import LogisticRegression
    10 from sklearn.metrics import confusion_matrix
    11 import itertools
    12 from sklearn.model_selection import GridSearchCV
    13 from sklearn.metrics import auc, roc_curve

    作图函数

     1 def plot_confusion_matrix(cm, classes,
     2                           title='Confusion matrix',
     3                           cmap=plt.cm.Blues):
     4     """
     5     This function prints and plots the confusion matrix.
     6     """
     7     plt.imshow(cm, interpolation='nearest', cmap=cmap)
     8     plt.title(title)
     9     plt.colorbar()
    10     tick_marks = np.arange(len(classes))
    11     plt.xticks(tick_marks, classes, rotation=0)
    12     plt.yticks(tick_marks, classes)
    13 
    14     threshold = cm.max() / 2.
    15     for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
    16         plt.text(j, i, cm[i, j],
    17                  horizontalalignment="center",
    18                  color="white" if cm[i, j] > threshold else "black")  # 若对应格子上面的数量不超过阈值则,上面的字体为白色,为了方便查看
    19 
    20     plt.tight_layout()
    21     plt.ylabel('True label')
    22     plt.xlabel('Predicted label')
    23     plt.show()

    数据获取与解析

    数据为结构化数据,不需要抽特征转化, 但特征Time和Amount的数据规格和其他特征不一样, 需要对其做特征做特征缩放

    1 credit = pd.read_csv('./creditcard.csv')
    2 
    3 print('原始行列 >>>>', credit.shape)  # (284807行, 31列)
    4 # print(credit.head())  # 前5行
    5 # print(credit.dtypes)  # 查看特征(列)类型。结果:数据类型只有float64和int64
    6 # print(credit.isnull().any())    # 判断是否有缺失值。结果:无缺失值,方便后续处理
    7 # print(credit.info())  # 查看数据集详细信息(类型,占用大小,缺失值,行列等)

    特征工程

     

     1 # c_counts = credit['Class'].value_counts()
     2 # print(c_counts, type(c_counts))  # 对Class列分类统计,并判断类型
     3 # print(c_counts.index, c_counts.values)  # 提取索引和值
     4 '''
     5 结果:
     6 0    284315
     7 1       492
     8 Name: Class, dtype: int64
     9 Name: Class, dtype: int64 <class 'pandas.core.series.Series'>
    10 Int64Index([0, 1], dtype='int64') [284315    492]
    11 '''
    12 
    13 # 对c_counts作图进行分析
    14 # plt.figure(figsize=(10, 6))
    15 # 饼图:两种作图方式
    16 # ax = plt.subplot(121)
    17 # c_counts是pandas的Series类型,pandas可以使用plot快速作图
    18 # c_counts.plot(kind='pie', autopct='%0.3f%%', ax=ax)
    19 # plt.pie(c_counts, autopct='%0.3f%%')
    20 
    21 # 柱状图:两种作图方式
    22 # ax = plt.subplot(122)
    23 # c_counts.plot(kind='bar', ax=ax)
    24 # plt.bar(c_counts.index, c_counts.values)
    25 # plt.show()
    26 '''
    27 存在492例盗刷,占总样本的0.17%,
    28 存在明显的数据类别不平衡问题,
    29 可采用过采样(增加数据)的方法处理该问题
    30 '''

     

    特征转换

    将时间从单位每秒化为单位每小时 divmod(7201,3600) 结果:(2, 1) 元组,2为商,1为余数

     

    1 credit['Time'] = credit['Time'].map(lambda x: divmod(x, 3600)[0])
    2 # print(credit['Time'])  # map高级函数:将Time中的每个元素作用于lambda函数

    特征选择

     

     1 # Class列中值为0的为True,值为1为False,生成的cond0行数不变
     2 # cond0 = credit['Class'] == 0
     3 # Class列中值为0的为False,值为1为True,生成的cond0行数不变
     4 # cond1 = credit['Class'] == 1
     5 # print('cond0 >>>>', len(cond0))
     6 # print('cond1 >>>>', len(cond1))
     7 
     8 # 作图分析
     9 # credit['V1'][cond0].plot(kind='hist', bins=500)
    10 # credit['V1'][cond1].plot(kind='hist', bins=50)
    11 # plt.show()
    12 
    13 # 调试查看用
    14 # print("credit['V1'] >>>>", credit['V1'])
    15 # print('cond0 >>>>', cond0)
    16 # print('cond1 >>>>', cond1)
    17 
    18 # 筛选出存在于V1列中且在cond0中为True的值(284315)
    19 # print("credit['V1'][cond0] >>>>", credit['V1'][cond0])
    20 # 筛选出存在于V1列中且在cond0中为True的值(492)
    21 # print("credit['V1'][cond1] >>>>", credit['V1'][cond1])
    22 
    23 ''' 作图分析:将每一个特征根据Class的真假进行划分, 图像中两种图形的重合度越大说明该特征对Class的影响越小, 所以需要剔除掉无用的特征 '''
    24 # cols = ['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10',
    25 #         'V11', 'V12', 'V13', 'V14', 'V15', 'V16', 'V17', 'V18', 'V19', 'V20',
    26 #         'V21', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28']
    27 # 作图:28行,1列,每一行显示一个特征对应的图
    28 # plt.figure(figsize=(12, 2800))
    29 # for i, col in enumerate(cols):
    30 #     ax = plt.subplot(28, 1, i + 1)
    31 # density(normed)标准化数据:将过大或过小的数据统一标准化
    32 #     credit[col][cond0].plot(kind='hist', bins=500, density=True, ax=ax)
    33 #     credit[col][cond1].plot(kind='hist', bins=50, density=True, ax=ax)
    34 #
    35 #     ax.set_title(col)
    36 # plt.show()
    37 
    38 # 待剔除的列(10列)
    39 drops = ['V13', 'V15', 'V20', 'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28']
    40 # 删除指定列(axis=1按列,axis=0按行)
    41 credit2 = credit.drop(labels=drops, axis=1)
    42 print('人眼剔除无用列后 >>>>', credit2.shape)
    43 ''' 不同变量在信用卡被盗刷和信用卡正常的不同分布情况, 选择在不同信用卡状态下的分布有明显区别的变量。 
    因此剔除变量V13 、V15 、V20 、V22、 V23 、V24 、V25 、V26 、V27 和V28变量
    '''

    特征缩放

    Amount变量和Time变量的取值范围与其他变量相差较大, 所以要对其进行特征缩放

     1 # print('原Amount数据最大值', credit2['Amount'].max())
     2 # print('原Amount数据最小值', credit2['Amount'].min())
     3 # print('原Time数据最大值', credit2['Time'].max())
     4 # print('原Time数据最小值', credit2['Time'].min())
     5 
     6 # 创建标准化对象
     7 standScaler = StandardScaler()
     8 cols = ['Time', 'Amount']
     9 # 标准化数据
    10 credit2[cols] = standScaler.fit_transform(credit2[cols])
    11 # print('标准化Amount后最大值 >>>>', credit2['Amount'].max())
    12 # print('标准化Amount后最小值 >>>>', credit2['Amount'].min())
    13 # print('标准化Time后最大值 >>>>', credit2['Time'].max())
    14 # print('标准化Time后最小值 >>>>', credit2['Time'].min())

    特征重要性排序

    对特征的重要性进行排序,以进一步减少变量 利用GBDT梯度提升决策树进行特征重要性排序

     1 # 创建GBDT对象
     2 # clf = GradientBoostingClassifier()
     3 # 特征训练集:前20列
     4 # X_train = credit2.iloc[:, :-1]
     5 # print('X_train.shape >>>>', X_train.shape)
     6 # cols = X_train.columns
     7 # print('X_train.columns >>>>', X_train.columns)
     8 # 目标值训练集:Class列
     9 # y_train = credit2['Class']  # y_train = credit2.iloc[:,-1]
    10 # print('y_train.shape >>>>', y_train.shape)
    11 # 训练数据
    12 # clf.fit(X_train, y_train)
    13 # 得到特征重要性数据
    14 # feature_importances_ = clf.feature_importances_
    15 # print('feature_importances_ >>>>', feature_importances_)
    16 # 从大到小对特征重要性进行排序,并作图分析
    17 # argsort():对数组排序并返回排序后每个元素对应的未排序时自身所在的索引
    18 # index = feature_importances_.argsort()[::-1]
    19 # print('从大到小排列特征重要性,返回每个元素的原索引 >>>>', index, len(index))
    20 
    21 # plt.figure(figsize=(12, 9))
    22 # 柱状图,第二个参数代表按从大到小排列的特征数据
    23 # plt.bar(np.arange(len(index)), feature_importances_[index])
    24 # 柱状图x坐标:第二个参数是按特征值从大到小排列后的特征名
    25 # plt.xticks(np.arange(len(index)), cols[index])
    26 # plt.show()
    27 # 根据图像得到要删除的特征列(最小的后9列)
    28 drops = ['V7', 'V21', 'V8', 'V5', 'V4', 'V11', 'V19', 'V1', 'Amount']
    29 credit3 = credit2.drop(labels=drops, axis=1)
    30 print('通过GBDT分析剔除无用列后 >>>>', credit3.shape)
    31 # print('credit3.columns >>>>', credit3.columns)

    模型训练

     

    处理样本不平衡问题
    目标变量“Class”正常和被盗刷两种类别的数量差别较大,会对模型学习造成困扰。
    举例来说,假如有100个样本,其中只有1个是被盗刷样本,
    其余99个全为正常样本,那么学习器只要制定一个简单的方法:
    即判别所有样本均为正常样本,就能轻松达到99%的准确率。
    而这个分类器的决策对我们的风险控制毫无意义。
    因此,在将数据代入模型训练之前,我们必须先解决样本不平衡的问题。
    现对该业务场景进行总结如下:
    过采样(oversampling):
    增加正样本使得正、负样本数目接近,然后再进行学习。
    欠采样(undersampling):
    去除一些负样本使得正、负样本数目接近,然后再进行学习。 
    本次处理样本不平衡采用的方法是过采样,
    具体操作使用SMOTE(Synthetic Minority Oversampling Technique),
    SMOET的基本原理是:
    采样最邻近算法,计算出每个少数类样本的K个近邻,
    从K个近邻中随机挑选N个样本进行随机线性插值,
    构造新的少数样本,同时将新样本与原数据合成,产生新的训练集。
    

      

     1 # SMOTE 过采样
     2 X = credit3.iloc[:, :-1]
     3 y = credit3.Class
     4 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
     5 X_train,y_train 作为训练数据 训练时,保证样本均衡,将X_train和y_train样本过采样处理 测试时候,可以样本不均衡
     6 # print('未均衡的y训练集分类统计(Class) >>>>', y_train.value_counts())
     7 
     8 smote = SMOTE()
     9 # ndarray
    10 X_train_new, y_train_new = smote.fit_sample(X_train, y_train)
    11 # print('均衡后的x训练集 >>>>', X_train_new, type(X_train_new))
    12 # print('均衡后的y训练集(Class) >>>>', y_train_new, type(y_train_new), len(y_train_new))
    13 # y_train_new类型为numpy.ndarray,需转化为pandas.Series类型才可分类统计
    14 # print('均衡后的y训练集分类统计(Class) >>>>', Series(y_train_new).value_counts())

    求召回率

    单独的逻辑回归求得查全率Recall rate,Recall也叫召回率

     

     1 # 创建逻辑回归对象
     2 # logistic = LogisticRegression()
     3 # print(logistic)
     4 '''
     5 LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
     6           intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
     7           penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
     8           verbose=0, warm_start=False)
     9 '''
    10 # 训练均衡后的数据
    11 # logistic.fit(X_train_new, y_train_new)
    12 # 预测
    13 # y_ = logistic.predict(X_test)
    14 # print('y_test >>>>', y_test)
    15 # print('预测的y_ >>>>', y_)
    16 # 交叉表
    17 # print('交叉表 >>>>', pd.crosstab(y_test, y_, margins=True))
    18 
    19 # 混合矩阵
    20 # cm = confusion_matrix(y_test, y_)
    21 # print('混合矩阵 >>>>', cm, type(cm))
    22 # Recall------“正确被检索的正样本item(TP)"占所有"应该检索到的item(TP+FN)"的比例
    23 # plot_confusion_matrix(cm, [0, 1], title='Recall:%0.3f' % (cm[1, 1] / (cm[1, 0] + cm[1, 1])))

    交叉验证与调优

     

     1 logistic = LogisticRegression()
     2 clf = GridSearchCV(logistic, param_grid={'tol': [1e-3, 1e-4, 1e-5], 'C': [1, 0.1, 10, 100]}, cv=10, iid=False, n_jobs=1)
     3 print(clf.fit(X_train_new, y_train_new))
     4 # print('best_score_ >>>>', clf.best_score_)
     5 # print('best_params_ >>>>', clf.best_params_)
     6 # print('best_index_ >>>>', clf.best_index_)
     7 # print('best_estimator_ >>>>', clf.best_estimator_)
     8 
     9 # 预测
    10 # y3_ = clf.best_estimator_.predict(X_test)
    11 # print('y3_预测(best_estimator_) >>>>', confusion_matrix(y_test, y3_))
    12 
    13 # y2_ = clf.predict(X_test)
    14 # print('y2_预测 >>>>', confusion_matrix(y_test, y2_))
    15 
    16 # cm2 = confusion_matrix(y_test, y2_)
    17 
    18 # 可视化,对比逻辑斯蒂回归和GridSearchCV结果
    19 # plot_confusion_matrix(cm, [0, 1], title='Logistic Recall:%0.3f' % (cm[1, 1] / (cm[1, 0] + cm[1, 1])))
    20 # plot_confusion_matrix(cm2, [0, 1], title='GridSearchCV Recall:%0.3f' % (cm2[1, 1] / (cm2[1, 0] + cm2[1, 1])))

    模型评估

    解决不同的问题,通常需要不同的指标来度量模型的性能。
    例如我们希望用算法来预测癌症是否是恶性的,
    假设100个病人中有5个病人的癌症是恶性, 
    对于医生来说,尽可能提高模型的查全率(recall)比提高查准率(precision)更为重要,
    因为站在病人的角度,发生漏发现癌症为恶性比发生误 判为癌症是恶性更为严重
    由此可见就上面的两个算法而言,明显lgb过拟合了,
    考虑到样本不均衡问题,
    故应该选用简单一点的算法(逻辑回归)来减少陷入过拟合的陷阱
    

      

    1 y_proba = clf.predict_proba(X_test)
    2 # 预测被盗刷的概率
    3 print(y_proba)

     

关键字