1

A Unifying View on Implicit Bias in Training Linear Neural Networks

Chulhee Yun, Shankar Krishnan, Hossein Mobahi

Minimum Width for Universal Approximation

Sejun Park, Chulhee Yun, Jaeho Lee, Jinwoo Shin

SGD with shuffling: optimal rates without component convexity and large epoch requirements

Kwangjun Ahn, Chulhee Yun, Suvrit Sra

$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Chulhee Yun, Yin-Wen Chang, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar

Low-Rank Bottleneck in Multi-head Attention Models

Srinadh Bhojanapalli, Chulhee Yun, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar

Are Transformers universal approximators of sequence-to-sequence functions?

Chulhee Yun, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar

Are deep ResNets provably better than linear predictors?

Chulhee Yun, Suvrit Sra, Ali Jadbabaie

Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity

Chulhee Yun, Suvrit Sra, Ali Jadbabaie

Efficiently testing local optimality and escaping saddles for ReLU networks

Chulhee Yun, Suvrit Sra, Ali Jadbabaie

Small nonlinearities in activation functions create bad local minima in neural networks

Chulhee Yun, Suvrit Sra, Ali Jadbabaie