Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection - Explained Simply

Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection - Explained Simply | ArXiv Explained