SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models - Explained Simply

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models - Explained Simply | ArXiv Explained