Mamba 2 + Transformer = Nemotron H
Nemotron-H реализует гибридную архитектуру Mamba-Transformer , где большая часть слоёв – это слои SSM (Structured State-Space Model) Mamba-2 , а небольшая доля – классические слои самовнимания (self-attention) трансформера, чередующиеся с полносвязными слоями (FFN). Структура модели продумана таким образом, чтобы использовать сильные стороны обоих подходов: SSM-слои обеспечивают эффективную работу с длинными последовательностями за счёт линейной (или даже постоянной) сложности по длине последовательности, а несколько слоёв самовнимания добавляют модели способность точного "склеивания" глобального контекста и превосходные навыки in-context learning . Начало заката эры Трансформеров? Или старт новой эры, эры архитектурного разнообразия? А что думаете вы?
https://habr.com/ru/articles/905908/