Она на 45% быстрее GigaChat
Искусственный интеллект014 минут назад
Сбер создал и представил первую диффузионную языковую модель GFusion. Она функционирует на основе GigaChat, это экспериментальный проект, уточняет компания. Разработчики отметили, что традиционные языковые модели генерируют текст последовательно, слово за словом. Поэтому, чтобы исправить одну ошибку, модели приходится переписывать весь ответ заново.

GFusion функционирует по-другому: сначала она создает предварительный «набросок» ответа, а затем шаг за шагом дорабатывает его — подобно тому, как нейросети создают изображения и видео. Благодаря параллельной генерации GFusion генерирует текст быстрее: согласно тестам Сбера, новая модель работает до 45% быстрее GigaChat 3, на базе которого она была обучена.
Кроме того, создатели GFusion подчеркнули, что диффузионные модели не только быстрее — их генерация более адаптивна. Текст не обязательно создаётся строго слева направо — модель самостоятельно выбирает, какую часть ответа дополнить на каждом этапе. Диффузионные модели также извлекают больше информации из ограниченного объема данных, обучаясь на одном и том же наборе данных несколько раз.
Диффузионные языковые модели представляют собой одно из самых многообещающих и сложных направлений в генеративном ИИ, отмечают в Сбере. Разработчики заявили, что GFusion — первая выпущенная в опенсорс диффузионная модель для генерации текста такого масштаба в России. Вместе с самой моделью Сбер опубликовал инструменты, которые ускоряют обучение диффузионных моделей.
ErinИсточники:СберИскусственный интеллект0РоссиянейросетьСберЯзыковая модельGFusion14 минут назад
Источник