Lim的博客


  • 首页

  • 归档

  • 关于

  • 标签

迁移学习简介与实战

发表于 2018-02-27

  迁移学习(transfer learning)通俗来说,就是运用已有的知识来学习新的知识,用成语来说就是举一反三。很多场景下,直接对目标从头开始学习成本太高,这时候我们可以运用已有的知识辅助尽快得学习新知识。本文主要对迁移学习进行了介绍,提供了一些资料,最后在实战中利用迁移学习实现了图像分类。

阅读全文 »

IV值与WOE

发表于 2018-02-25

  我们知道,在常用的数据科学建模套路中,对特征工程后大量的特征进行筛选常常是不可忽视的一个步骤。在金融领域的信用卡评分模型中,又常常使用IV值的大小来作为特征筛选的依据,IV值大表示该变量的预测能力强。那么IV值怎么进行计算,为什么信用卡评分建模中又偏爱使用IV值呢?我们一起来看一下。

阅读全文 »

EM算法浅析

发表于 2018-02-14

  今天来回顾一下EM算法。试想,当通过若干次实验获取一批硬币观测数据时,如果知道他们分别来自哪个硬币,我们就可以通过极大似然估计来求得其每个硬币分布的参数。但是,如果我们不知道他们来自哪个分布(称作隐变量)的时候,极大似然估计方法就失效了。EM(expectation maximization)算法就是针对这样有隐变量的参数估计场景。这篇博文里,我们不谈数学推理公式,通过简单的例子了解一下EM算法的idea。
  另外,临近春节,在这里预祝大家新年快乐啦!

阅读全文 »

模型监控demo

发表于 2018-01-25

  一个模型上线后,在实际生产中需要监控这个模型的稳定性的,一旦模型的产出出现异常,一点点的偏差就会带来极大的风险损失。
  以金融风险评分为例,我们需要定期按照新观察期的数据,去更新每个用户的信用评分。变量的分布的分析是必要的,通过多账期评分总体的分布对比。比如

  • 计算一些指标, 可以评价这个模型是否收到了当前业务的影响?
  • 在一定周期内是否可以保持稳定?
  • PSI是多少?
  • 申请了金融产品的客户的分数是否满足排序性?
  • 整体KS是多少?等等…
阅读全文 »

聚类方法-Kmeans实战

发表于 2018-01-20

  k-means可能是最知名的聚类算法,它是很多入门级数据科学和机器学习课程的内容。下面来回顾一下。

阅读全文 »

ResNet认识与实战

发表于 2018-01-15

  ResNet残差神经网络是何凯明博士于2016年提出的,其相关论文获得了当年CVPR的best parer。计算机视觉领域中,可以证明更深的神经网络可以学习更好的特征,取得更好的识别成绩。虽然ReLU、dropout等方法减小了深层神经网络训练过程中梯度弥散的影响,训练深层的网络依然会出现退化(degradation)的情况。而ResNet的提出,使得更深层的网络得以训练。
  以下内容为学习论文和参考其他资料后的简单总结,包含实现代码。

阅读全文 »

用seaborn做数据可视化

发表于 2018-01-08

  seaborn是一个python可视化的工具,是基于 matplotlib ,能与 dataframe 数据结构有更好切合的工具。

阅读全文 »
123…5
刘力铭

刘力铭

趣事之多 吾知甚少 学无止境 唯有努力

31 博文
13 标签
GitHub E-Mail
© 2018 Lim的博客
0%