1

On the Training Instability of Shuffling SGD with Batch Normalization

David X. Wu, Chulhee Yun, Suvrit Sra

SGDA with shuffling: faster convergence for nonconvex-PŁ minimax optimization

Hanseul Cho, Chulhee Yun

Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond

Chulhee Yun, Shashank Rajput, Suvrit Sra

Open Problem: Can Single-Shuffle SGD be Better than Reshuffling SGD and GD?

Chulhee Yun, Suvrit Sra, Ali Jadbabaie

Provable Memorization via Deep Neural Networks using Sub-linear Parameters

Sejun Park, Jaeho Lee, Chulhee Yun, Jinwoo Shin

A Unifying View on Implicit Bias in Training Linear Neural Networks

Chulhee Yun, Shankar Krishnan, Hossein Mobahi

Minimum Width for Universal Approximation

Sejun Park, Chulhee Yun, Jaeho Lee, Jinwoo Shin

SGD with shuffling: optimal rates without component convexity and large epoch requirements

Kwangjun Ahn, Chulhee Yun, Suvrit Sra

$O(n)$ Connections are Expressive Enough: Universal Approximability of Sparse Transformers

Chulhee Yun, Yin-Wen Chang, Srinadh Bhojanapalli, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar

Low-Rank Bottleneck in Multi-head Attention Models

Srinadh Bhojanapalli, Chulhee Yun, Ankit Singh Rawat, Sashank J. Reddi, Sanjiv Kumar