in Deep Learning Note ~ read.
Deep learning note(1)

Deep learning note(1)

默默宣传一发: 我们下学期的讨论班(科学计算的交给大葱和泽兴啦) 课程主页:http://about.2prime.cn/seminar/

Understanding deep learning requires rethinking generalization

争议很大的iclr的best paper,一看觉得这篇很水,细细想一下发现这个问题的确很严重。我觉得这篇paper已经告诉我们研究deep learning可能approximation的想法可能是部队的,因为逼近是一个插值的问题,而且easy to fit。 其次怎么理解regularizer也成为一个问题,经典的理解貌似不对了,因为regular以后也可以fit random的标签。 但是你得出结论optimization is easy for deep learning让我很受打击啊,以后网络调不好,求你来帮我训练!!! 以及演讲的ppt很有趣啊

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

貌似这个问题的研究很早以前就提出来了,最近有人把他带进dl了。 粗粗看很有道理细细想很多地方说不通 也告诉我们sb可能比lb来得好(挺反直觉的) benigo最近也写过一篇这个的文章,然而就是中考数学水平+泰勒展开。。。
也告诉我们 understanding dl should consider opt.

NYU今年貌似投了一篇讲优化到flat minima的文章还没读

DSD: Dense-Sparse-Dense Training for Deep Neural Network

百度和推特提出来的一种新的训练方法,玄学的不可言述,乍看起来和proximal gradient非常类似,也有很大区别,听说其他人现在不能复现?

Learning to opt

貌似还是一个大牛的文章,然而垃圾的不能再垃圾,活该去年被nips拒稿,这水平我能写上n篇 learning to solve PDEs
learning to solve inverse problems
learning to solve linear algebra problems
倒也不是说这个想法不好,就是他们的numerical test的确做的不太合适,首先模型太简单,前面一大堆rl的介绍全成为放屁。第二个对于一般问题这个思路可能真的不好,有点同意说这个想法要去解决一部分特殊点比如流形上点的最速下降的方法,然而具体的自己也没想清楚。

DEMYSTIFYING RESNET

韩神数学功底是厉害,然而研究了一个毫无用处的问题

DEEP CONVOLUTIONAL NEURAL NETWORK DESIGN PATTERNS

这都能发出来醉了。。。。就总结了下resnet的每一block的设计方法

STEERABLE CNNS(⭐️)

非常漂亮而且有指导意义的论文,给了一个框架去给CNN设计的时候带来旋转平移不变性,用了D4的不可约线性表示,也是他自己group CNN工作的一般化版本

按作者的说法效果提升不少,暑假想要复现一下[然而data足够多的时候没做实验,可能是因为。。。

看了下作者的其他论文都很棒,也研究过graph上CNN的问题以及很多结果都很棒,不愧是学物理的

IMPROVING INVARIANCE AND EQUIVARIANCE PROPERTIES OF CONVOLUTIONAL NEURAL NETWORKS

同样做不变性这篇就很一般了,就是把不变性作为惩罚放倒loss里面

*Learning-Based PDE: A New Perspective for PDE Methods in Computer Vision *

2010EECV的文章,很早了,dl刚火。
考虑了不变性觉得微分算子然后通过解决最优控制去学习

on learning optimized reaction diffusion process for effective image restoration

Learning Fast Approximations of Sparse Coding Deep ADMM-Net for Compressive Sensing MRI

Deep Convolutional Neural Network for Inverse Problems in Imaging

Maximal Sparsity with Deep Networks?

。。。 应该还漏了两三篇,想法都一样都是把算法展开成NN然后训练参数,效果不错,然而第一篇我到现在还没复现出来哭死。。。。。。

beyond correlation filters:learning continuous convolutional operaters for visual tracking

COCO追踪的冠军,训练连续的filter,把插值看作半卷积(kernel method)转换到频域计算,如果可以和NN结合的话我觉得可能会有效果提高。

记录一下昨天深度学习研讨会的感想 [先吹逼一波,昨天讲的所有问题我在各种场合都说过这是很重要的问题] 首先第一个重要的事情现在用pde来建模迭代算法貌似已经变得非常热门了,我就写下这个方向比较有趣的一些文章 想法非常简单,就是比如梯度下降 xn+1 = xn - t \nabla f(xn)想像成一个ODE ut=-\nabla f(u)的前向欧拉格式,这样迭代算法与oDE真解误差刻画有着经典的数值分析结果保障,然后只用分析ODE的下降速度就好,毕竟连续的动力系统比离散的更加容易分析

W. Su, S. Boyd and E. J. Candès. A differential equation for modeling Nesterov's accelerated gradient method: theory and insights. Journal of Machine Learning Research 17(153), 1--43. (This is the long form or journal version of the NIPS paper.)

A variational perspective on accelerated methods in optimization. A. Wibisono, A. Wilson, and M. I. Jordan. Proceedings of the National Academy of Sciences, 133, E7351-E7358, 2016. [ArXiv version]

Li Q, Tai C, Weinan E ,. Dynamics of Stochastic Gradient Algorithms[J]. Computer Science, 2015.

Pratik Chaudhari, Adam Oberman, Stanley Osher, Stefano Soatto, and Guillame Carlier, Deep Relaxation: Partial Differential Equations for Optimizing Deep Neural Networks, April 2017 (revised (June 2017)

2017COLT
Best Paper. Yuchen Zhang, Percy Liang and Moses Charikar. A Hitting Time Analysis of Stochastic Gradient Langevin Dynamics

Maxim Raginsky, Alexander Rakhlin and Matus Telgarsky. Non-Convex Learning via Stochastic Gradient Langevin Dynamics: A Nonasymptotic Analysis

To appear at 2017ICML

Stochastic modified equations and adaptive stochastic gradient algorithms
Qianxiao Li (Institute of High Performance Computing, A*STAR) · Cheng Tai (Peking University) · Weinan E (Princeton University)

# 玛雅上面每一篇都有一个大大大神坐镇

第二个就是今年ICLR那篇rethinking generalization的文章收到了极高的重视 还有就是sharp mini和flat min的区别 我同意好的优化算法能带来更好的泛化能力,但是我不相信泛化能力全是优化算法带来的,我相信NN的结构在里面是有着很大的作用的 我一直觉得做优化的人可以换一个思路,跑的比西方记者快的优化算法固然是好的,但是对于learning问题最重要的跑到好的最小值l[也就是沈老师昨天说我们要收敛到问题真解而不是模型解]ecun的Entropy-SGD,还有前面的hamilton jacobi的优化都有这个目的。 以及朱占星老师说NN泛化好是因为 Vol(Bad sol)/Vol(Good sol)=0 所以以概率1跌到泛化好的地方

这里其实有很多可以挖的问题: 1.什么是好解
2.好解多么
3.怎么跑到好解

鄂老师提到了NN的逼近克服了维数灾难回去也查到一些文献 Poggio T, Mhaskar H, Rosasco L, et al. Why and when can deep-but not shallow-networks avoid the curse of dimensionality: A review[J]. International Journal of Automation & Computing, 2017:1-17.

谁快来告诉我MIT Center of Brain Minds and Machine是什么神奇的机构,他们下面有非常多的有趣的文章啊

Poggio T, Liao Q. Theory II: Landscape of the Empirical Risk in Deep Learning[J]. 2017.

Theory of Deep Learning III: Generalization Properties of SGD

先扯那么多,其实只是存下最近要看的文章[跑 那几个做应用的我就记得正在学英语的乌克兰小男孩了[跑 姚远老师好可爱,能回北大么[跑