Разработчики Apple совместно с коллегами из Университета штата Огайо создали новую диффузионную модель Few-Step Discrete Flow-Matching (FS-DFM), которая может писать тексты в 128 раз быстрее аналогов. По данным авторов, FS-DFM способна записывать полные текстовые фрагменты всего за восемь быстрых шагов уточнения, в то время как другим моделям диффузии требуется более тысячи шагов для получения аналогичного результата.

Для этого используется трехэтапный подход. Сначала модель обучается обрабатывать различные виды итераций уточнения. Затем применяется направляющая модель "учителя", которая помогает делать более крупные и точные обновления на каждой итерации, не выходя за рамки заданного текста. А затем выполняется корректировка работы каждой итерации так, чтобы конечный результат был достигнут за меньшее количество шагов при более стабильной работе модели.

По сравнению с более крупными моделями диффузии, FS-DFM показала хорошие результаты по двум ключевым метрикам: перплексии и энтропии. Показатель перплексии отражает качество текста в моделях: чем он ниже, тем точнее и естественнее звучит текст. Энтропия же показывает, насколько уверенно модель выбирает каждое слово: если она низка, текст может стать повторяющимся или предсказуемым, а если же высока, получается бессвязный текст со случайным набором слов. По сравнению с моделями диффузии Dream с 7 млрд параметров и LLaDA с 8 млрд параметров варианты FS-DFM с 1.7, 1.3 и даже 0.17 млрд параметров обеспечивали меньшую перплексию и более стабильную энтропию.

Разработчики пообещали опубликовать код и контрольные точки модели для облегчения воспроизводимости и дальнейших исследований.