Archive | Yunsheng Ni

2026 ¹²

March ⁴

Progressive CUDA GEMM Optimization: From Memory-Bound to Swizzling

Kernels #CUDA #GEMM #Shared Memory #Bank Conflict #Swizzling

Loss Reduction in Distributed Training

Distributed System #LLM #Video Generation #CP #DP

Computing Global Gradient Norm in Distributed Training: TP, DP_Shard, DP_Replicate, EP, and PP

Distributed System #Gradient Clipping #FSDP #HSDP #TP #EP #PP

Demystifying FlashAttention: Forward, Backward, and Triton Implementation

Kernels #Triton #Flash Attention

February ⁵

The Devil in the Details: Engineering Tricks for SOTA Video Models

Video Generation Video Generation Theory #DiT #Flow Matching #RoPE #Training Stability

Deep Dive into Triton GEMM Optimization: From Naive Tiling to Hopper TMA

Kernels #Triton #GEMM #Tiling #TMA #Swizzing

Roofline Analysis of LLMs on H200: Performance Modeling and Recomputation Strategies

System Optimization #MFU #FLOPs #MBU #Roofline #H200 #Recomputation

From DDPM to Flow Matching: The Evolution of Generative Trajectories

Video Generation Video Generation Theory #DiT #DDPM #Flow Matching #Classifier-Free Guidance

From DiT to Hunyuan: The Evolution of adaLN-Zero in Generative Models

Video Generation Video Generation Theory #DiT #DDPM #Flow Matching

January ³

Beyond Theoretical FLOPs: Analyzing MFU, HFU, and Attention Overhead in Transformers

System Optimization #MFU #HFU #FLOPs #GEMM #Flash Attention

Visualizing 3D Attention: Bridging the Gap Between 1D Sequences and 3D Space

Video Generation 3D Sparse Attention #Sparse Attention #Visualization

GPU & Network Constants

Hardware #NVIDIA #A100 #H200 #B300 #Infiniband