Компания выложила в открытый доступ экспериментальную языковую модель GFusion, которую создал их стажер. Об этом «ВЕДам» сообщили в пресс-службе Сбера.
В отличие от классических больших языковых моделей, которые генерируют текст последовательно, слово за словом, GFusion создаёт сначала «набросок» ответа, а затем пошагово его дорабатывает. Это позволяет писать текст быстрее: по результатам тестов Сбера, скорость генерации выше на 45% по сравнению с GigaChat 3, на основе которого она обучалась.

Изображение сгенерировано нейросетью
Особенность диффузионных моделей в том, что они извлекают больше информации из ограниченного объёма данных и позволяют генерировать текст не строго слева направо, а в любом порядке.
Как отметили в компании, модель разработал Даниил Тихонов — студент 4-го курса Факультета компьютерных наук НИУ ВШЭ, пришедший в Сбер стажёром. Он создал GFusion в качестве проектной работы.





