Krea2TextEncoder — Ди Ди на DTF

GitHub - ethanfel/ComfyUI-Krea2TextEncoder

Узел ComfyUI-Krea2TextEncoder служит для продвинутого кодирования текста и картинок-референсов при работе с моделью Krea2.

Поскольку текстовый энкодер у Krea2 — это полноценная мультимодальная (зрячая) языковая модель Qwen3-VL-4B, она умеет понимать не только текст, но и изображения. Данный узел позволяет правильно передавать референсные картинки («промпт из картинки») в нейросеть.

Раньше пользователи ComfyUI пытались использовать для Krea2 стандартный узел TextEncodeQwenImageEdit. Это приводило к двум серьезным ошибкам, которые данный плагин исправляет: [1]

Бесполезная трата ресурсов на VAE (Latent): Архитектура Krea2 устроена так, что она технически не принимает референсный латентный шум (reference latent). Стандартный узел требовал подключения VAE и тратил на это ресурсы, но модель эти данные просто втихую выбрасывала. Новый узел вообще убирает вход VAE, оптимизируя процесс. [1, 2]
Ломающийся шаблон (Template): При подаче картинки стандартный узел переключал Qwen3-VL на обычный шаблон для редактирования изображений. Из-за этого ломалась логика Krea2. Новый узел принудительно заставляет модель использовать правильный "дескрипторный" шаблон, под который Krea2 и затачивалась. [1, 2]

Ключевые фичи и возможности

Динамическое добавление картинок: В узле реализован авто-растущий список входов (image1, image2...). Как только вы подключаете одну картинку, снизу автоматически появляется слот для следующей. [1]
Умное кадрирование по маске (Masking): К каждой картинке можно подключить маску (mask1, mask2...). Узел автоматически обрежет изображение по границам маски, чтобы зрячая языковая модель (VLM) концентрировалась только на нужном объекте. Параметр mask_padding позволяет регулировать, сколько контекста вокруг маски оставить (захватить ли фон). [1, 2, 3]
Кастомный системный промпт (Экспериментально): По умолчанию модель просто описывает картинку и совмещает ее с вашим текстом. Но через вход system_prompt можно заставить картинку и текст взаимодействовать (например, попросить изменить объект на фото или скрестить стили). [1, 2]

Важное примечание автора

Этот узел НЕ является инпейнтингом (Inpaint) в привычном понимании. Маски здесь нужны исключительно для того, чтобы подсказать нейросети, на какую часть картинки-источника смотреть. [1, 2]
Использование кастомных системных промптов (инструкций по изменению) является экспериментальным, так как базовая модель Krea2 обучалась на фиксированных описаниях. [1]