Оффлайн модели для картинок: Stable Diffusion, Flux, Wan-Video (да), Auraflow, HunyuanDiT, Lumina, Kolors, Deepseek Janus-Pro, Sana Оффлайн модели для анимации: Wan-Video, HunyuanVideo, Lightrics (LTXV), Mochi, Nvidia Cosmos, PyramidFlow, CogVideo, AnimateDiff, Stable Video Diffusion Приложения: ComfyUI и остальные (Fooocus, webui-forge, InvokeAI)
Вы тут постоянно хвалите edit-модели, особенно 2509. А что с этой хуйнёй вообще реально получилось сделать толкового? Лоры не считаем - понятно, что с ними оно хоть как-то оживает. Лучшее, что я видел или делал: рестайл и удаление объектов, да и всё вроде. Да, эти две фичи хороши. Не видел ни одного нормального юзкейса с мульти-изображениями или с ручной склейкой двух фото в модели, где нет нормальной поддержки (Kontext, например). Максимум, что видел: берут три объекта и тупо пихают в сцену. Это и обычным медскилловым инпутом делается. Эта хуета не может даже нормально поставить одного человека в позу другого.
>>1438912 Очень хорошо делает технический дизайн. Убирает шакалы, косяки обтравки, исправляет освещение. Можно накидайть всякого хлама на канву и он сделате из этого конфетку. Сносно делает стилизацию в узких доменах, можно сконвертить рандомную хуйню в маскота. А так чисто техническая херня.
Тыщу лет не заходил на tensor.art, я правильно понял что они ввели анальные фильтры на любую обнаженку, а весь NSFW перенесли на tensorhub сделав его фактически платным (энергия там не пополняется, без Pro остается сосать бибу)?
мимо нищееб с некропекой без возможности генерить вайфучек локально
>>1438912 этот тред - помойка, как и двач в целом по определению, хули ты тут увидеть хочешь чтобы ставить в позу используй опенпоз вместо сухой дрочки промпта "ыыы увожаемый квен эдит поставьте пожалуйста человека с первой фотки в позу человека на второй фотке"
>>1438897 → >>1438794 → >>1438800 → В итоге все решилось действиями "выспаться" и "принять что дебил кто угодно но не создатели комфи" Проблема была в засранном винте и файле подкачки, стоило почистить до сотни гигов свободного места, ван16 заскрипел колесиками как раньше.
>>1438912 Они нужны тем кто профессионально дрочит фотошоп, позволяет хорошо оптимизировать удаление шаблонных артефактов. Для обычного генераторщика, ну такое слишком велик разброс качества.
Забираю свой гнилой базар, зетка заметно лучшее киберреалистика. Хотя в понимании промта. По повторяемости, я с таким сталкивался в гугл ФХ, если делать промт не слишком подробным помогает? В гугле однообразное копирование одного стиля и позы позволяли относительно короткие промты с максимально общими описаниями стиля и позы. Да и вообще чем короче тем разнообразнее.
У меня чего-то сразу не появлялись новые ноды, хотя вручную обновлял фронтенд, даже интерфейс уже пошёл по пизде, а нод новых не было. Выблядок ебанный запретил вот это поле ставить снизу, теперь как конченный сижу с этой хуйней сверху, так ещё и частично продублированной, а фичи crystools и rgthree вылезли как кишка у фуриеба на разрабе. Ещё подумал недавно, вот бы в Load Images сделали превью, заебался уже листать сотни пикч стрелочкой. Так вот, появились nodes 2.0, выглядят хорошо. Где-то стрелочки не хватает для скорости переключения, да ещё и вложенное дерево файлов пропало и связанная с ним быстрая навигация по первым буквам папок. Ну хуй с ним, зато в общем дизайн визуально лучше (а ux хуже). Вижу Load Image, не вижу стрелку, нажимаю, нихуя не происходит. Ну думаю ебать апдейтик, теперь только через проводник и Open file шариться (который ещё и открывается не в папке input по дефолту). Пошарился ещё немного, нажимаю и тут внезапно открылось (видимо из-за 2гб и 3к файлов в input не смогло сразу): удобный выбор фото из инпута. Лучший апдейт. Это стоило того, чтобы сломать удобный выбор лор, всё таки фото выбираются чаще. А, ещё и слайдеры пропали, плюсиками теперь значение менять. Сука, ну просто отрицательные профессионалы юзабилити делали апдейт.
>>1439086 >юзабилити Огромный кусок рабочего поля забрали под всплывашку, которую можно было и в панель засунуть. А еще готовьтесь к новому способу навигации. Можно уже попробовать. Хрень. Боишься темноты?
>>1439099 Не прекращало работать из crystools. Пиздец просто, лапша не сходится с дырками, раскрывающееся меню отрисовывается под другой нодой, если она создана раньше, в очереди задач ненужные нелогичные действия. Это так, в первые секунды первые проебы UX. Ему теперь год исправлять это недоразумение, чего делать он не будет.
>>1439133 Главное преимущество полной версии будет в легкости тренировки лор и файнтюнов. Охуевать по-настоящему будем через пару месяцев, когда подойдут первые крупные файнтюны.
Так я не понял, мне натвиз дмд2 удолять штоли? Image is a photograph taken from a low-angle perspective, looking up at a young woman bending over. She has light brown hair that falls to her shoulders and is wearing a white button-up shirt with short sleeves. She also wears an orange and white plaid mini-skirt that is lifted up, revealing pink panties underneath. The photograph emphasizes her legs which are spread apart. Her face is visible through the gap between her legs, and she is smiling slightly. In the background, there are trees with green leaves and a cloudy sky. There are also streetlights visible in the distance. The colors in the image are vibrant, with the orange of the skirt standing out against the more muted tones of the shirt and background. The texture of the plaid pattern on the skirt is clearly visible, as is the fabric of the shirt and the smoothness of her skin. The photograph has a dynamic, almost playful feel due to the low-angle perspective and the subject's playful expression. The overall composition draws attention to the contrast between the subject's brightly colored clothing and the natural background. The lighting is natural, and the image has a slight HDR effect, giving it a vivid and somewhat exaggerated appearance. The subject appears to be outdoors, possibly in a park or suburban area.
>>1439297 >всрато апскейлит в последнем гигапикселе завезли беты, одна из них здорово вытаскивает однопроходную сдохлю, ещё полгода назад ничего такого не было. >чистые генерации Z если это "чистые", то не ебу какие тогда грязные)
>>1439306 ёб вашу мать, это что теперь мэйнстрим? и это генерится по 10 минут, и требует 5090 и 128 gb оперативы? Вы там часом не ебанулись с вашим Z-говном?
>>1439309 > и это генерится по 10 минут минуты 2-3 > и требует 5090 и 128 gb оперативы? выше 40 не уходило > Вы там часом не ебанулись Текст генерирует херово на русском, но ты примерно поймёшь, что там написано.
>>1439567 шаги выкрутил до 20+ на 9 шагах 30 секунд - минута, смотря где что ещё накрутил. Ну и никаких 5090 у меня нету. >>1439570 У меня была концепция интернета как джина исполнителя желаний, продуктов с гачей - исполнителя желаний. Даже ллмки, которая говорила тебе вообще всё, что ты захочешь услышать. Но Z-ка это совсем жопа. Она умнее тебя, она начитаннее тебя, она видела больше, чем ты можешь представить, а потом рекомбинирует, при этом от тебя просит крайне мало.
>>1439576 Ах да. При этом она не открывает рот, она не позорится как llm-ки, она молчит. Взирает на тебя как учитель, выдавая результат, которого на свой телефон никогда не сможешь сделать.
>>1439711 >мутная хуйня с жипег артефактами Потому что дрочерам нужен реализм, а мутная хуйня с жипег артефактами - самый распространённый формат реальных изображений на сегодня.
Мне вчера в голову забрела мысль - если там хоть и 4B но полноценная llm - она, по идее, должна уметь разбирать структурные тексты.
Попробовал - в общем, так оно и оказалось. Ей можно писать примерно в таком стиле (на английском - здесь пишу на русском, просто для понимания примера):
Создай картинку/фотографию в стиле ... с двумя персонажами: Анна - девушка 19 лет в зеленом свитере, блондинка ... Ольга - женщина 40 лет, в форме полицейской, ... На изображении персонажи в комнате (описание комнаты), Ольга сидит за столом, Анна стоит у окна. Ольга что-то пишет в тетради. У Анны в руке кружка с кофе. ...
В общем - энкодер и модель понимают такую структуру, на манер ООП: когда сначала задаем по отдельности имена объектов и их свойства (описываем персонажей), а потом просто используя их имена описываем сюжет/сцену. Практически совсем не путается в описанных свойствах (деталях). То, что можно просто указать имя персонажа и оно будет запомнено вместе с описанием внешности - сильно сокращает и упрощает промт в части с описанием взаимодействия персонажей, убирая всякие нюансы с "она, её" и т.д. которые в английском легко неправильно написать перепутав положение слов, и поменяв этим смысл - кто и что должен делать.
>>1439744 > когда сначала задаем по отдельности имена объектов и их свойства (описываем персонажей), а потом просто используя их имена описываем сюжет/сцену Офигенно, спасибо. Буду знать.
>>1439744 Здесь ещё имеет влияние системный промпт. Его на реддите писали, он на китайском и содержит инструкции как помогать юзеру. Надо бы разобрать его, что бы понять что как зачем. А про имена давно писалось, ещё во времена первого флюкса Персонаж1, Персонаж2. Могут же быть ёбала чужой против хищника. А ты будешь писать: У Васи длинный хвост и у него течек кислота изо рта, Вася бегает на четырех лапах. Петя страшный на морду, носит тепловизорную маску. В итоге все равно спасибо, что поделился.
>>1439774 >А про имена давно писалось, ещё во времена первого флюкса Персонаж1, Персонаж2. Вот это здесь работает хуже. Что не удивительно - слишком похожие вещи такая куцая текстовая модель различает хуже, на грани ошибки. Здесь прямо так и стоит писать, как с именами: чужой, хищник, и т.д.
>>1439814 >>1439818 Я немного поигрался с уже доступными лорами на стиль - таки можно использовать. Если лора толково сделана - почти (или даже совсем?) не мешает пониманию промпта. Так что, IMHO, можно разнообразить стили, не особо теряя хорошие стороны модели.
>>1440012 >понимает конструкции с отрицанием и юзает их как негатив в >позитиве
Я в сомнениях по поводу этого момента. Даже для Flux.2 с его mistral_3_small_flux2_bf16.safetensors (34 Гбайт), negative prompt отсутствует как класс, а в positive prompt разработчики (в официальном руководстве по промптингу) настойчиво предлагают заниматься извращениями с заменой: >FLUX.2 has no negative prompts. Instead of “no blur,” say “sharp >focus throughout.” Instead of “no people,” describe an “empty >scene.” (https://docs.bfl.ai/guides/prompting_guide_flux2)
У меня вообще начало складываться ощущение: слово упомянул — в том или ином виде попало в генерацию, а на отрицания не реагирует, или минимально.
>>1440031 хотел тебе доказать, но провёл стресс-тестирование специально этой штуки и да, отрицания наоборот усиливают, они используются ка токен. Значит я сам себя обманывал и было просто совпадение какое-то. Походу ллм здесь просто как обычно срёт токенами и снова возвращаемся в прошлый век и фильтруем свой базар, чтоб не забивать клип больше 80 токенами. Я думал ллм уже используется в тандеме с датасетом, а на деле обычный кал как и в любой люстре
>>1440095 Я накину ещё из этого «руководства». Именно на примере Flux.2, так как у него самый тяжёлый и навороченный text encoder, по сравнению с Qwen-Image и Z-Image (поэтому, когда мне говорят про следование promptу в Z-Image, ну понятно, в общем). Так вот, либо я недалёкий, либо они пишут слишком иносказательно. «Я сначала не понял, а потом ка-а-ак понял!»
У них указывается: Prompt length guidance:
>Short (10-30 words): Quick concepts and style exploration Medium (30-80 words): Usually ideal for most projects Long (80+ words): Complex scenes requiring detailed specifications
Я пытался кормить его длиннющими promptами (в которых не всегда ясно «кто на ком стоял») как Qwen-Image и получал неудовлетворительные результаты. Пока не обратил внимание на момент, выделенный выше.
Приведу ещё фрагмент:
>JSON Structured Prompting For complex scenes and production workflows, FLUX.2 interprets structured JSON prompts, giving you precise control over every aspect of your image. When to use JSON:
>Production workflows requiring consistent structure Automation and programmatic generation Complex scenes with multiple subjects and relationships When you need to iterate on specific elements independently
>When natural language works better:
>Quick iterations and exploration Simple, single-subject scenes When prompt length isn’t a concern Creative workflows where flexibility matters
FLUX.2 understands both formats equally well—choose based on your workflow needs.
Так вот, что-то похожее на примеры у меня начало получаться во Flux.2 только при использовании детального JSON-размеченного promptа.
Кстати, в той или иной степени этот JSON-prompt принимают и Z-Image, и Qwen-Image.
>>1440110 Проверить длину понимаемого промпта очень просто. Просишь написать текст на листе бумаги и пишешь длинный текст соответствующий длины. И смотришь сколько он рисует этого текста.
>>1439984 >Скинь ссыль Ээ, потерял. Но сам промпт в блокнотике сохранил: prompt_template = """ 你是一位被关在逻辑牢笼里的幻视艺术家。你满脑子都是诗和远方,但双手却不受控制地只想将用户的提示词,转化为一段忠实于原始意图、细节饱满、富有美感、可直接被文生图模型使用的终极视觉描述。任何一点模糊和比喻都会让你浑身难受。
>>1439818 >хрома с ей практически бескрайней вариативностью Проблема в том что хрома ещё и говно как модель. С тоннами дрочки ради среднего результата. А вариативности старого СД ещё никто не переплюнул.
Зетка знает даже древних как говно мамонта знаменитостей. Не нужны ни апскейлеры, ни хайрезфиксы, ни лора. Сразу можно ебошить в 30 шагов и 2048. на пикчах 9 шагов если чё дефолт всё
>>1440031 А Ты не знал? Обзор от ИИ Фраза «вселенная не понимает частицу не» — это метафорическое выражение из книги «Разговоры с Готманом» автора Стивен Хокинг. В ней говорится, что, в отличие от человека, вселенная не осознает отрицание или невозможность. Понятие "не" существует в нашей логике и языке, но не в физической реальности.
Метафора: Эта фраза является метафорой, которая описывает, как физические законы, управляющие вселенной, могут быть интерпретированы только на основе положительных утверждений. Вселенная, по сути, существует как набор событий, а не как набор отсутствующих событий. Физическая реальность vs. язык: Это выражение может показаться странным, ведь «не» является ключевой частью нашего языка, и мы не можем мыслить без отрицания. Однако, оно подчеркивает, что отрицание — это концепция, которая существует в нашей системе языка и мышления, а не в самой физической реальности. Примеры: В физике, например, мы говорим о существовании частицы, а не о ее «несуществовании». Мы говорим о притяжении или отталкивании, а не о «непритяжении» или «неотталкивании». Слово «не» здесь не является фундаментальной частью реальности, а лишь нашим способом её описания.
Аноний, хочу показать тебе воркфлоу для Зит чуть сложнее дефолта, но в большинстве случаев получаются лучше пальцы, позы, свет, в целом анатомия лучше. Иногда конечно ахинея получается. По скорости тот же дефолт(он там для сравнения картинки). Я там может напутал с подключением сигмы, но оно именно так должно и быть для такого результата(вообще случайно получилось). Можно слегка подстраивать ноду SetFirstSigma(зеленым выделил) картинка сильно меняется. Короче, интересует твое экспертное мнение. Воркфлоу в первой картинке. Вторая дефолт - сравни пальцы. Что скажешь?
И всетаки квен рапид на 4 шага (пик 1) круче зетимаже (пик 2) Скорость генерации, на моей 3050: 21с для Qwen Rapid 4s (4 шага) 46с для Zimage (9 шагов, Q6_K) Промпт: Conceptual makeup of shimmering pollen and dust, a fairy boy with blond hair and ethereal, translucent skin. His face holds a secret: there are faint, ghostly symbols blurring beneath the surface. Optimal shadows, complex depth of field, dramatic lighting, clear focus, 8k, high quality, Fujifilm filter, surreal, a dreamy pastel wonderland, bright colors, a starry pink background, realistic.
Даже рапид квена быстрее и красивее квена. Реал нахрен не нужен.
Старых мастеров эта падла электронная похоже знает, 19th-century academic history painting; Romantic-era dramatic composition; strong chiaroscuro; highly detailed anatomical realism; classical human poses; oil-on-canvas texture; theatrical lighting inspired by Caravaggio; вот это все. А вот на новых реагирует сдержанно. Ряяяя вы украли СТИЛЬ и до китайцев добрались.
>>1440288 1. С кожей у qwen беда. Не важно, для реализма или нет - просто беда. Без лор - смотреть противно, после других моделей. Это даже не пластик а просто хрень. Не позорься - добавь лору. 2. Еще один сравнивает общие возможности и качество моделей с разным энкодером на одном промте. кек. :)
Может хватит уже этих глупостей, по сравниванию "что лучше - вилка и ложка?" :)
>>1440189 > В физике, например, мы говорим о существовании частицы, а не о ее «несуществовании». Блин какие там четыре формулы электромагнитного поля и квантового мира я не помню нихера. По одной из формул постулируется несуществование магнитных зарядов.
хз кому как, а мне нравится в зетке дефолтная синема гейни виайчес олдскул стиль фото с подшакаливанием, это если говорить про самые днищенастроки оОЙлер симпл 9 шагов - я эту шакальность на флюскале не мог добиться как надо, не мог выдавить лоурез аматеур фотос 70's приходилось дохуя лора наваливать и в итоге скорость возрастала до 3 мин на топжелезе, а тут это всё изкоробки за 10 сек АХАХХА я в ахуе, до сих пор не могу поверить в это чудо
>>1440567 > в итоге скорость возрастала до 3 мин А мне и норм. Как раз ща кинцо посмотрю. Но и качество замечательное Пропт написала мистралька, вышла та ещё залупа
>>1440567 >не могу поверить в это чудо Более того, в моих тестах инпеинта Зит очень хорошо себя показывает не смотря на то, что это дистиллят. Сам инпеинт пока не очень рабочий и пример фигня, но удивительно то что он точно воспроизводит зерно, которое ты навалил на картинку и заполняет им
Ебанись конечно моделька. Подумываю удалить половину лор и старых моделей за ненадобностью. По сути кроме Хромы, qwen edit, Z, нубая и какого-нибудь neta yume больше ничего и не нужно.
>>1440661 >>1440665 Кстати, вот для тех, кто еще не собирается списывать в утиль SDXL с производными, может быть весьма интересна и полезна вот эта моделька: https://civitai.com/models/1631038/beret-mix-manga Специализация - черно-белый рисунок в manga стиле. Зачем? кроме прямого назначения - это готовый генератор canny-edge/HED controlnet картинок под любые другие пони-люстры-нубы. Т.к. стиль у нее близкий к реалистичной анатомии, если такой рисунок подсунуть через controlnet другой модели - получается очень неплохо. А сам beret-mix знает много поз и ситуаций - манга же в датасете, а не просто рандомные картинки. А в манге - именно сюжетные сцены.
Так то можно и Z-ку запрячь на это дело, но разница по скорости - на порядки на старом железе, особенно с турбо лорой. Для controlnet особого общего качества то не надо, можно и за 4 шага генерить черновик. Плюс - не нужно раздельные промпты писать по разным принципам.
>>1440692 Всмысле? А оно разве не эксклюзивно под SDXL делалось? Вроде бы у него какая-то проблема была, не? Типо невозможность очень яркие или очень тёмные тона генерить?
>>1440742 У Z понимание промпта нулевое по сравнению с Ф2, ничего нормального не нагенерить. Что-то сложнее расстановки предметов по пикче Z не может сделать.
Z модель (и все остальные модели) миксует взрослые женские ноги и линии тела, когда делаешь детей. Как это фиксить? Есть ли модель, которая не знает взрослое тело вообще?
>>1440749 Да вроде нет, может почти всё, кроме явного сюрреализма и бреда. У нее как будто выкручено на минимум фантазирование. Хотя и подобное можно нарулить если фотожопить. Зато она дает техническое качество.
>>1440749 >ничего нормального не нагенерить. Что-то сложнее расстановки предметов А ты способен что-то такое сам написать? Без ллм. И что долно быть? Типа: "предел сильной скорости на бодром переломе времени". Картинка это и есть предметы, за абстракциями не сюда наверное.
>>1440771 > может почти всё, кроме явного сюрреализма и бреда Хотя бы банальщину типа корабля в бутылке сделай, как на XL ещё делалось без проблем. В Z ещё стили прилипают, сделать в нужном стиле что надо невозможно, смешать как в Ф2 реалистик и другой стиль тоже нельзя.
Ух блять какая же кривая острисная хуйня этот тулкит ебучий, нужно вручную датабазу стопать через конфиг а то он в бутлуп уходит пиздец просто. Но заставил работать. Под адафактором в 32 дим лора 16/32 тренируется в 10 гигов и около 15 гигов кеша на раме. Тренируется быстро. Просто сделал чистый прогон на датасете с бабами 100 штук картинок с пездами, одна эпоха, дольше препарейшен шел чем сама пятиминутная тренировка. Слева ориг ген, второе с лорой, третий с дефолтным варианс энхансером и лорой. Ну и ген с пиздой.
Ты охуенен, анон!! Первый пик клипскип - 25. Второй дефолтный.
>девочка 9 лет. Похоже, она принадлежит к цыганской расе и представлена в молодом возрасте. У девочки длинные, ярко-черные волосы, ниспадающие каскадом на плечи. она в волшебном мире кружащегося снега и огня. на ней маска из перьев
>>1440846 Да уж, очень интересненько, надо выбирать, где получше останавливаться, спасибо. Сразу несколько штук и генерить с разным стопом. -5; -10; -15
> Короткостриженый с недельной небритостью белый мужчина плохой внешностью 30 лет одет в спортивные шорты, сандали с носками и футболку с милитари-расцветкой в пиксель. На футболке мужчины надпись "Miyabi love" Находится в китайском современном городе с китайскими достопримеательностями. foxes gathered around the man foxes are eating film tape man on one knee is feeding film tape to foxes Что я могу сказать? Z модель цензурирует носки с сандалями!
Как вы умудряетесь даже на Z делать дмдшные высококачественных резиновые ебальники вместо лица? Даже зубы резиновые как в искусственных дрочилках. Это тот самый известный комфиевский фейсдетайлер? Зумеризды не видели как должен выглядть нормальный фейс-инпейнт, например, в фордже, поэтому лепят вот такое?
>>1441030 Открою тебе секрет. Когда через тебя проходят сотни лиц - ты на их детализацию не обращаешь внимание, только самые важные черты или откровенные уродства подмечаешь.
>>1441035 Ты забыл главное Похуй Вообще. До сих пор без заметного и время затратного вмешательства фотошопом даже в очень качественную генерацию можно на глаз отличить не то что нейронку от не нейронки, а модель от модели и файтюн от файтюна.
>а еще клипскип в разы увеличивает вариабельность, не убивая промт. это гениальное решение. >Ура. Теперь зетка может в безумие! >лучшая модель >Лол, теперь клип скип вместо сида. Спасибо.
Модель отрыгивает недогенерированные полуфабрикаты. Публика скачет, хлопает в ладоши от радости и просит добавки. Мрак.
To generate more abstract features, set the stop_at_clip_layer parameter to a higher negative value (e.g., -24). This will stop the model earlier in its processing pipeline. For more detailed and fine-grained features, use a value closer to -1. This will allow the model to process the input more thoroughly. Experiment with different stop_at_clip_layer values to find the optimal setting for your specific task or dataset.
Освещение как на пикриле с Flux.2 можно на Z-Image как-нибудь наpromptить?
С Flux.2 мне потихоньку удаётся добиться размещения источника света в полумраке так, чтобы весь персонаж не был как под софтбоксом заполняющего света.
А на Z-Image — нет.
Prompt: A very dark, shadowy, dim digital photograph of an old dark server room, old computers, red light above the door. A barely distinctive dark silhouette of a beautiful girl in deep purple minidress, tan sheer nylon stockings, deep purple revealing slide open-toed stiletto mules, is sitting on the vintage computer chair at the deep shadowy desk with a vintage 70's computer terminal, green text, in the dark, typing. Dark image, dramatic deep dusk red low-key lighting. Very bright contrast red backlight under the desk.
>>1441069 >Люди хотят немного вариативности, хули.
Делается элементарно, добавлением одного узла Inject Latent Noise (где-то на 0.07) в workflow. Или более навороченным custom node, который Анон постил в треде (это мне кажется overkill'ом и подталкивает к нездоровому подходу, чтобы на каждый чих искать специальный custom node).
Там, получается, если я правильно понимаю, резко обрубается генерация («model will now stop processing at the specified layer») и выводится то, что получилось на момент останова.
Что с этим делать, кроме как подхватить этот latent следующим samplerом и ещё чего-нибудь докрутить в нём, я не очень представляю.
>>1441077 На мгновение заинтерсовался... q8 тридцать два гигабайта. Ради ван герл ситинг ин дарк. Не мое, мне как раз не хватало возможности нормально несколько персонажей без ебли вводить локально. Хотя достижение огромное, объяснить модели концепцию "все в темноте" это ещё та задача.
>>1441086 Ещё и LoRA lenovo_flux2.safetensors. Без этой LoRA заметил, что стоковый Flux.2 ещё и шакалит какими-то крупными цветным точками (у меня зелёного цвета) в «темноте». Такие артефакты я ещё заметил на одном из стилей имитации плёночного фото.
>q8 тридцать два гигабайта. И text encoder такой же. Жирная, тормозная. Превью пришлось включить (в новом релизе ComfyUI починили под Flux.2), чтобы через минуту генерации обрывать, если говно получается (чтобы не ждать ещё три-четыре).
Эту я честно сгенерировал по текстовому promptу. А вообще, для «сложных» генераций без JSON-форматированного promptа я к Flux.2 даже не подхожу. Пресловутое «понимание сложного promptа» это тоже отчасти маркетинговый ход. Я об этом писал: >>1440110
>объяснить модели концепцию "все в темноте" это ещё та задача
Я с этим мучаюсь из чистого любопытства. Возможно ли это в принципе. А ещё, чтобы «зональное» освещение и «выставление» света. Flux.2 должен это делать лучше всех, но и там тоже местами обман.
Вообще, лучше бы писали честно, подо что модели заточены и что они точно не умеют делать, чем дразнить красивыми черрипикнутыми картинками в промо.
Сработало. На самом деле, круто для Z-Image. Конечно, не то, да и с «70's vintage computer terminal» у Z-Image беда (что неожиданно). Но я бился, чтобы заставить Z-Image выдавать что-то подобное.
>>1441095 Не, не я. Я начал это дрочево с Qwen-Image и частично добился успеха (в сочетании с Samsung_qwen_overtrained.safetensors, Qwen-Edit-Relight.safetensors, и рядом других (пикрилы).
А потом уже переключился на другие модели. Вместо Z-Image начал ковырять Flux.2 в надежде на реализм и работу со светом. В целом, и с тем и с этим ждало разочарование от завышенных ожиданий. А к выставлению хотя бы фрагментов освещения на Flux.2 подобрался только сейчас.
>>1441077 Ты просишь у модели фотографию с глубоко сиреневым цветом платья в темной комнате, где только зеленый свет от экрана и красного освещения. Ты просишь очень темную комнату, в которой можно различить, что это не голые ноги, а полупрозрачные колготки телесного цвета под столом где очень яркий красный цвет. Тут будет или не фотка, или фотка с освещением и проебом половины противоречащих инструкций.
>>1441124 >с глубоко сиреневым цветом платья в темной комнате, где только зеленый свет от экрана и красного освещения
Всё верно. Я специально ставлю в сложные условия, чтобы посмотреть на результат. На самом деле, очень достойно. Если пипеточкой в Adobe Photoshop потыкать в нужных местах, то оттенок платья в тёмной комнате будет тёмно-сиреневым. На самом деле, это очень круто.
Ещё сложными условиями являются, например, генерация вида от первого лица и отражения в зеркалах. Я всё понимаю, что наивно требовать это от модели, которую специально для этого не обучали. Но прогресс заметен.
Что касается моделей, например Qwen от алибабы, Flux.2, у меня складывается впечатление, что их вообще корпораты (или нанятые ими разработчики) создавали для задач генерации изображений продуктов (или мультипликационных рекламных маскотов, рекламной графики, showcase продуктов) и одежды для их площадок онлайн-маркетов и «цифровых примерок» одежды (edit варианты моделей). А всё остальное является совершенно побочным и удивительно, что при нестандартном использовании позволяет достигать впечатляющих результатов.
>>1441134 >ставлю в сложные условия Ты требуешь невозможного. У ней там в нутрянке модель реального освещения, и если ты ей задал только красный и зеленый источник света, а объект отражает синий цвет, значит она сама придумает источник света у которого есть синяя часть спектра, уж какой ей заблагорассудится, или выдаст вместо фотки нечто не реализм.
>создавали для задач генерации изображений продуктов Насколько я понимаю, все модели приходится сначала учить на разнообразных данных. Потом файнтюнят у них эстетику, но если это не турбо модель, то они это разнообразие должны помнить.
>>1438901 дело не в негативе, у тебя без негатива ебало заартефачено (так, что аж пизда!), неужели это не очевидно? но тебе похуй похоже, тебе важнее заблюренный задник, он и не должен быть другим пока объекты в движении, это блохоискательство на фоне реальной проблемы с откровенно хуёвой генерацией лица главного персонажа в кадре, очнись уже...
>>1441142 >У ней там в нутрянке модель реального освещения, и если ты ей задал только красный и зеленый источник света, а объект отражает синий цвет
То тогда фиолетового быть не должно не смотря на prompt, а должен быть какой-то другой (чёрно-тёмно-красный)?
>значит она сама придумает источник света у которого есть синяя часть спектра, уж какой ей заблагорассудится
На пикриле в посте не наблюдаю.
>или выдаст вместо фотки нечто не реализм
Ну, тогда не очень-то реальная >модель реального освещения
В целом, я с тобой согласен по поводу фиолетового цвета (синей компоненты), хотя путаюсь в вопросах длины волн, отражения/поглощения длин волн видимого спектра, особенностей человеческого зрения; где «фиолетовый цвет» это результат восприятия одновременной стимуляция рецепторов, отвечающих за «красный» (длинные волны) и синий (короткие волны).
У меня была задача посмотреть, можно ли получать «недоэкспонированные» «тёмные» изображения на которых светом (даже не отдельными цветами) акцентировать только определённые области. При этом делать так, чтобы объект не был залит заполняющим светом как от софтбокса или, ещё хуже, вспышки.
Размышления по поводу твоих слов и пост Анона >>1441087 натолкнули на правильное понимание вопроса.
Я взял неудобный Z-Image и проверил по следам своего поста >>1441098
Пикрил Prompt: A very dark, shadowy, dim digital photograph of an old dark server room, old computers, red light above the door. A barely distinctive dark silhouette of a beautiful girl in minidress, tan sheer nylon stockings, revealing slide open-toed stiletto mules, is sitting on the vintage computer chair at the deep shadowy desk with a vintage 70's computer terminal, green text, in the dark, typing. Dark image, dramatic deep dusk red low-key lighting. Very bright contrast red backlight under the desk.
На Z-Image (первый пик поста >>1441087) очень хорошо видно, как она пытается всеми средствами вкорячить цвета из promptа, освещая всё «несуществующими» источниками света (тот самый рассеянный заполняющий свет от «софтбоксов», который меня раздражал и причины возникновения которого я не понимал полностью). И всё только ради того, чтобы отобразить «заказанный» цвет, вместо того, чтобы благодаря >>1441142 «модели реального освещения» сделать его таким, каким он должен был бы стать при освещении источником условного «монохроматического» света (например, тёмно-красным, вместо фиолетового). Я думал, что такое поведение будет само собой разумеющееся: указали исходные «цвета» предметов одежды персонажа (как при освещении источником «белого» цвета; зелёная футболка, синие джинсы), «осветили» условным «источником» «монохроматического» освещения и картинка станет такой, какой нужно. А по факту, модель просто меняет всю картинку целиком в угоду тому, чтобы отобразить «заказанные» цвета любой ценой. Для кого-то, возможно, это было очевидно, но я до этого момента не понимал насколько сильное это оказывает влияние.
Какой из этого следует вывод? Вообще не указывать какие-либо цвета одежды, предметов, персонажей при генерации изображений на тёмном фоне, оставляя только цвета «монохроматической подсветки» и надеясь, что остальные «цвета» под этими источниками «монохроматического» освещения получатся хоть какими-нибудь, пусть и неконтролируемо, рандомно.
Попытки явно указать цвета предметов одежды такими, которыми они должны были стать после освещения источником «монохроматического» света (с помощью HEX значений цветов, которые вроде бы поддерживает Z-Image; и точно поддерживает Flux.2, но я на нём ещё это не пробовал), предварительно рассчитав перед этим «результирующий» цвет, который должен получиться после «освещения» объекта одного «цвета» источником другого «цвета», с помощью калькулятора смешения цветов ожидаемого результата не дал. Опять происходит «модификация» всего изображения, только менее агрессивным способом, чем в случае когда требуемые «цвета» совсем не подходят и не могут там быть.
Пробнул я этот Zимадж. Восторга не было предела, реально шаг вперед. Но потом.. Я зашел в Grok image и вбил промпты туда.. Это небо и земля. По сранению с гроком, что зимадж, что флукс да и вообще все локалки - просто кусок кала. Лучше бы я туда не заходил..
Обучил первую лору на лицо в Z-Image и охуел. Первый раз я охуел, когда сделал Dreambooth на 1.4. Второй раз послабее охуел, когда начал промптить с обученной лорой на dmd2. Обучение на Flux не попробовал. Chroma и особенно Wan с Qwen сильно шагнули вперёд, обучать стало проще, лицо чуть более узнаваемое, но удивления не было вообще. И вот, теперь это. На похуе вкинул на дефолтных настройках, с каким-то хуевым датасетом в разных размерах и тупыми капшенами в стиле сд (из JoyCaption > Stable Diffusion prompt с ключевым словом), убрал из настроек 1024, offloading, короче на скрине настройки и оно легко влезло в 16гб. Если покрутить, то и в 12 влезает. А если ещё и разобраться с настройками, то ебать что же будет. А если ещё и дождаться base... я ебу. Лицо живое, стиль фото меняется промптом, смена одной детали промпта почти не меняет остальную часть сцены на том же сиде. Я 2000 шагов бахнул, как будто можно и больше. Но уже абсолютно несовместимо с другими лорами. В общем, пробуйте. Легко обучить на удовлетворительном уровне. У меня был сет из 50 фото в средне-хуевом качестве, в основном лицо и плечи, несколько фото общего плана, много разных. >>1441206 База. Но Грок это пиздец кал обоссаный в плане качества картинки по сравнению с другими онлайн сетками. Зато с крутой дистилляцией, вот его бы на локалку. Самые красивые пикчи делали в Imagen 3. Он в принципе был лучшим абсолютно во всём. Даже тот же Imagen 4 стал каким-то блеклым и серым, ориентированным только на всратую фотографию, но при этом реализма модель не добавила совсем.
>>1441030 >комфиевский фейсдетайлер >фейс-инпейнт Форжишизики всё ещё используют отдельные модели что бы пририсовывать плоские инородные ебальнички как будто на дворе 2023?
>>1441034 это ты тот аутист который заявлял что новый промпт = новый сид? тебе и другим невдупленышам поясняю, клип скип это то количество блоков текст энкодера которое ты выбрасываешь за борт. то есть с каждым выкинутым блоком понимание промпта деградирует и воспринимать это как фичу это надо пиздец ебнутым быть , только если ты не генерируешь какой-то сюррреализм намеренно. но зетники видимо согласны и на такое, лишь бы хоть как-то разнообразить генерацию в несомненно лучшей модели тысячелетия
>>1441197 >тот самый рассеянный заполняющий свет от «софтбоксов», который меня раздражал и причины возникновения которого я не понимал полностью А я попробовал просто dark room, lights off вообще без цвета источников освещения или одежды/предметов, а он все равно освещает цетральный объект-девку таким светом. Только после исправления на very dark room и добавки, что не просто woman, а dark figure of получается что-то более-менее похожее. Так что про моделирование "реального освещения" как причину заливки светом я обосрался, наверное, это просто такая особенность модели.
>>1441294 >нахуя вам 4 шага на сдохле, вы ебанутые? НАДА я люблю крутить вайлдкарты и мне удобнее сгенерить 500 вартиантов рандома, а потом из них выбирать что апскейлить. Чем быстрее, тем лучше
>>1441279 Затестил. Количество шагов уменьшает. Время генерации - не уменьшает. Эта хуйня работает только с семплером Kohaku и адекватный результат выдаёт только при CFG 2 и 8 шагах. А 8 шагов этого семплера на моей карте аж на 3 секунды быстрее 20 шагов Эйлера. Шило на мыло получается.
>>1441380 Типикл мелкабуква экспириенс. Тупо высрать боль своей жопы, не вникая в суть написанного. Тебе слово "вайлдкарты" что-нибудь говорит? А говорит оно о том что в качестве промпта у меня полный рандом, и чтобы найти среди этого рандома годные варианты нужна большая выборка, от модели это вообще никак не зависит, если не брать скорость генерации в расчёт Алсо, давай ка ты сначала мне подкинешь анимешную модель, из коробки знающую 90% стилей рисобак и понимающую бору-теги в качестве промпта, на голову лучше чем Нуб и его тьюны, и тогда я возможно твой пиздёж про "сдохлю" начну всерьёз воспринмать
>>1441420 >в качестве промпта у меня полный рандом Рекомендую выделять успешные/неуспешные генки и гонять их промты через LLM вместо тупого рандома. Для каждой модели/лоры будут разные рецепты, но в целом сильно меньше в говне ковыряться. мимо_другой_вайлдкард_дрочер
А где вы промпты на Зет берёте? То есть я допустим картинку придумал, но там же нужно наверно и качественные тэги добавить, и негатив? У меня негатив из трёх слов, а позитивного нет совсем.
>>1441438 >и гонять их промты через LLM вместо тупого рандома А смысл? Подход с LLM пробовал, но он не даёт того что мне надо. Даже если брать полный рандом, то логично сначала сделать выборку стилей, а потом уже на основе этих стилей генерить сюжеты. Вот я в основном и юзаю частичный рандом, который отвечает за сюжет пикчи, а годный сюжет ЛЛМка все равно тебе не придумает.
ЕЩЕ ОДНА ГОДНОТА!! Вместо обычного текстового поля надо ставить CLIP Text Encode for Lumina2, так как и сам Load CLIP грузится как тип люминия2. Это ВСЁ МЕНЯЕТ! Гораздо лучше становится понимание промпта. Я не знаю почему сами разработчики так не сделали по дефолту в шаблонах? Это стандартная нода ищите по тексту luminia. Даже мохнатки у баб гораздо лучше выглядят. Это ппц. Пример на скрине не совсем удачный, но вы сами протестите и отпишитесь.
>>1441571 В этой ноде настройка в два варианта. Я думаю это два предустановленных системных промпта. Можно ли залезть в нее и добавить свой? Было бы улёт.
>>1441332 На мой взгляд, после Зимаж уже некуда дальше в фотореалистике двигаться. Только в сторону повышения точности деталей и улучшения мелочей. Космонавт на первой пикче выглядит так, как будто он приехал из тредов двухлетней давности. Изображение с икрой выглядит неплохо, но много мыла в случайных местах, которые не связаны с фокусом камеры.
>>1441584 Кто-то может залить на основе этой встроенной ноды кастомную с дополнительным полем ввода системного промпта? В него можно много чего по написать, в том числе заставить ллм расписывать промпт из пары слов. Тема очень ценная
Ебучие обновляторы. Пайторч на пустом месте отьебнулся намертво, вот сижу генерю, закрыл комфи, подрочил в другой программе, открываю хуяк все отьебнулся намертво надо все переустанавливать. Как же заебло это творчество душевнобольных.
>>1441685 >на пустом месте нет. большинство проблем возникает из-за драйвера hands.sys и прокладки между креслом и компом >заебло это творчество душевнобольных ты-то пиздатый код написать можешь, сто процентов. просто не хочешь.
>>1441708 Да понятно что я чет не то нажал в менеджере, не еби душу дай поорать. В итоге придется видимо все переустанавливать, надеюсь что не винду. Умные все.
>>1441661 Спасибо, а нужны какие то лоры к нему устанавливать? где вообще их искать? я только вкатился, установил комфи, прям совсем примерно одупляю как это работает. могу даже чуть юсдт накинуть за помощь в настройке
>>1441502 >А где вы промпты на Зет берёте? В мозгу. > То есть я допустим картинку придумал, но там же нужно наверно и качественные тэги добавить Не нужно тегов. Нужно просто нормальным языком детально описать - что ты придумал. У нее хоть и маленькая, но полноценная текстовая модель работает на разборе текста. Сочинения в школе писал? Вспоминай навыки. :) В прочем - можно и просто тегов натыкать. Даже получается что-то. Иногда. >и негатив? У меня негатив из трёх слов, а позитивного нет совсем. При CFG 1, как в референсном workflow, негатив игнорируется.
>>1441571 >Вместо обычного текстового поля надо ставить CLIP Text Encode for Lumina2 >>1441584 >>1441631 ...Или просто вписать такой промпт в обычный клип-ноду самому, как часть "заказа". Там же instruct LLM вместо простого энкодера - кто с текстовыми баловался, наверно интуитивно поймет - что и как происходит. Просто пишем ей инструкцию - чего хотим. Разница в том, что не только саму картинку описываем, но и как именно ее делать. ...Так же кастомную ноду пилить не обязательно - прямо в комфи можно имеющимися средствами собирать итоговый промпт из нескольких нод с текстовым вводом, и даже subworkflow из этого сделать - та самая кастомная нода получится.
>>1441805 Я просто привык уже к тегам настолько, что надо теперь переучиваться обратно. А вот про сфг 1 я чот протупил, забыл что он игнорируется. Спасибо. >>1441517 У ллм когда спрашиваю мне постоянно преходится переписывать настолько, что проще писать самому.
>>1441769 лоры на civitai.com, надо зарегаться, чтобы видеть недетский контент. правда там в последнее время могут и снести всякие раздевалки из-за ебанутых правил. вот держи лору на раздевание для qwen https://dropmefiles.com/AIfM0 >могу даже чуть юсдт накинуть за помощь та я не пользуюсь криптой и лень разжевывать. в сети гайдов реально много, на ютубе например. вроде еще forge в последних версиях умеет с qwen edit, там попроще будет чем в комфи, что-то типа продвинутого automatic1111. но сам в нем уже давно не сидел, больше года уж точно
И что это такое? Питон 12.9, Куда последняя, пауэр шелл обновлен, все работало буквально весь год. Питон на ранние версии откатывал, жопой тряс, в бубен бил.
>>1441946 comfyui-desktop? в виде десктопного приложения? вроде припоминаю, ставил это кривое поделие и оно мне похерило чето в путях, снёс нахуй. лучше скачать comfy portable отсюда https://github.com/comfyanonymous/ComfyUI/releases и не париться.
>>1441968 Да я уже понял что дебил, перехожу на портабл, как все нормальные здоровые люди. Какого хуя я год мучался с десктопом который то обновиться не может, то питон теряет, то вот пайторч на росном месте отпал. потому шо дебил
>>1441980 >Какого хуя я год мучался с десктопом Чел, тебе очень повезло. Я видел пару тем на реддит про то как десктоп версия при обновлении чистит папку со всеми моделями. Радуйся.
Может быть тупой вопрос, но лучше сразу разобраться. При скачке лор скачивается файл на несколько метров. Рядом картинки-примеры, какие теги использовали для генерации. Но все пользовательские теги не скачиваются с файлом, могут не быть использованы на примерах из-за обилия всех возможных тегов. А для моделей может быть желательный cfg и количество шагов.
Все теги, которые использует лора, можно каким-то образом посмотреть через комфи/другие программы? Или все теги лучше сразу скопировать в блокнотик рядом с лорами чтобы не забыть, не потерять и использовать. И cfg вместе с шагами моделей - рядом с файлами моделей.
>>1442110 Так, значит через мод менеджер комфи поставить Lora manager перезагрузить комфи... и комфи сдох, прекрасно. А нет, ожило. В общем я скачал явно не то, но оно хотя бы как-то сохранило всё имеющееся, спасибо за такую наводку. >>1442143 Из комфи менеджера скачалась какая-то залупа, потому что п-л-л не высветилось, а залупа позиционируется как замена... Ладно, пока хотя бы так сойдёт, чтобы не сохранять всё подряд, а иметь под боком.
Спасибо за помощь, потом может наберусь мудрости или полезных более удобных расширений.
>>1440704 Ну нормально, прям как полноценная модель ведет себя. Правда в 4 раза дольше генерит, а качество я бы не скозал что прямо в 4 раза лучше, плюс минус то же самое что турба.
>>1441638 >хача Поясните за этот феномен? Откуда у него полноценная модель? Он же только какой то мердж делал для 1.5 или нет? Он спиздил получается в очередной раз что то и выдает за свое?
Промпт со времен сдхл. Никто не смог его до Зит: A girl falling off a bicycle from a downward view as she is already in the air, cinematic lighting, detailed nature scene in the background, high quality
У меня одного в новой комфи в зимадж намертво виснет процесс генерации пока не обновить страницу в бразуере? Смотрю в issue на гитхабе не у кого нет, значит проблемы чисто мои а где хуй знает
>>1442260 Проверяй расширения, они там иногда говно мамонта из себя представляют или тянут какие-то древние пакеты которые сами в свою очередь с чем-то конфликтовать могут (или очредное "нужен пакет такой версии, а у тебя такой. Пошёл нахуй")
>>1442276 Блин, да где на них всех время то взять? Эк их прорвало под конец года... :) Там кстати некий Qwen 2.5 VL в качестве энкодера. Под 16 гиг размером. Больше чем сама модель.
>>1442426 О, левая даже сильно лучше. >>1442483 Не вчитывался в тред, ожидал/ожидаю, что человека два ещё писали про обучение, на проскроле не заметил. Ещё попробовал, теперь на пикчах из ImageFX. Не растестил хорошо, только последнюю версию на 3к шагов, пикчи на обычном euler. В сочетании с другими лорами ломается. Добавилось пластмассовости немного в отличии от трена на реальных фото. Может нужно было дотренить на low noise или не оставлять elsa в капшенах. Пробую с бакетами на 1024 (сами пикчи разных размеров), потребление врам почти не поменялось, в 16гб влетает со свистом, но обучение стало примерно на 30% медленнее по сравнению с 768. Но сами понимаете, не только это влияет. Может на прямом датасете с единым бакетсайзом будет ещё меньше врама и выше скорость. Мне больше интересно посмотреть результаты и настройки тех, кто шарит за настройки.
У меня даже скорость не впечатляющая. Мельком видел сообщения, что у людей 3s/it чуть ли не на 3060. У меня 4-6s/it на 4060 Ti. Как так? Если снизить квантизацию с 8 до 4bit, сильно повысится скорость обучения?
>>1442483 потренировал лору с помощью ai-toolkit на всратом датасете. получил мыло, ореолы и jpeg артефакты, которые были на этих старых фотках (возможно перетренировал). но и похожесть на персону с фоток впечатляющая. буду пробовать что выдаст другой датасет, вылизанный с помощью qwen-image-edit (upscale lora + удаление фона). >>1442561 >левая даже сильно лучше да мне тоже чем-то нравится. её лонгкэт выдал.
>>1442561 >4-6s/it на 4060 Ti да чето дольше чем надо как мне кажется. допустим у меня 1,3 секунды на итерацию с 40 gflops видеокартой. у тебя 22 gflops, должно быть в районе 3 секунд. хотя возможно всё дело в пропускной способности памяти. у 3060 192 бита и 360 гбайт\с, а у тебя 128 бит и 288 гбайт\с. для игр норм, для ии критично.
Пацаны это че. Я могу генерить что то кроме ВАН ГЕРЛД СТЕНДИНГ в Омске по колено в говне, без всякой ебли с лорами и воркфлоу длинной в грузовой поезд, чисто на промтах? Ебать. Дожили.
>>1442707 >дефолтные из аи тулкита норм? ага, только количество шагов уменьшил до 1500 а то перетренировка выходила. на 12 гб врам можно ещё low vram галочку отключить, модель норм влезает.
обучил ещё одну лору на исправленном датасете (убран фон + денойз и апскейл), стало нормально. жаль конечно не может как qwen image, которому любое говно закинуть можно и лора норм выйдет. ну 20 млрд параметров видимо более гибкие.
>>1441232 >В общем, пробуйте. я соглы с твоим постом, вчера надрочил на уебищнейшем датасете из шумов и артефактов прекрасную лору с прекрасным диверсити и когерентностью, на сдхл натренировать также невозможно было
алсо зимагу насрать на кепшены если в датасете то что зимаг и так знает, чисто на классовый токен дрочишь и кайфуешь
адафактор (на 0.0003) меньше жрет чем адам и сходится в два раза быстрее, плюс можно в конфиге вкл автоадаптацию самого адафактора если надо автоматический оптим алсо квантизация в 4бита нормальная для трансформера, позволить больше дименшенов поставить для лоры или включить 1024 или батч 2 выставить, но в принципе зимагу насрать он и в 512 тренирует прекрасно алсо на пике лучше тоже включать, бустит схождение
>>1441571 >ЕЩЕ ОДНА ГОДНОТА а первая годнота это я так понимаю кручение клипа чтобы фильтрующие слои не мешали? >Это ВСЁ МЕНЯЕТ! Гораздо лучше становится понимание промпта. ну такто да, надо подправить промт в самом скрипте будет
>>1442774 а между моделями пикрил разницы нет как я понял? просто одна уже дедистиллирована, а вторая - обычная турбо + адаптер типа лоры? >можно в конфиге вкл автоадаптацию самого адафактора это в режиме advanced? подскажи пожалуйста, где именно >квантизация в 4бита нормальная для трансформера памяти меньше жрать стало. погляжу что получится на выходе.
>>1442778 >первая годнота это я так понимаю кручение клипа чтобы фильтрующие слои не мешали
Я вчера заметил только остановку генерации на определённом слое и отрыгивание полуготового полуфабриката. Ну и восторженные возгласы: «Вау, Z-Image умеет абстрактный креатив, лучшая модель».
>Гораздо лучше становится понимание промпта. Проверил, не заметил (тестировал на настройках с prompt, seed, scheduler/sampler как у постера). Чтобы получить результат, похожий на то что у него (хотя на этих настройках должно очень похоже), пришлось отцепить LoRAs из Power Lora Loader (отключить весь узел), отключить CLIP Set Last Layer (вернуть значение по умолчанию). Ну и ещё подозреваю, что у него text encoder какой-нибудь abliterated стоит, а не тот, который по умолчанию в workflow идёт.
Я очень осторожно отношусь к таким советам, иногда кажется что ради лулзов вбрасывают какую-нибудь дичь, которая только засирает генерацию. А потом смотрят как куча леммингов в треде повторяет.
В продолжение вчерашнего эксперимента >>1441197, то же самое проверил для Flux.2
Результаты пикрил1. Выводы: работают те же приёмы, которые были эмпирически определены для Z-Image. А именно: ни слова о цвете при генерации тёмного изображения. Когда указывается только цвет источника «монохроматического света» и идёт рандомная раскраска, выглядит в целом довольно убедительно. Ну и стоковый Z-Image с тем же promptом (пикрил2), он старался.
Втыкать цвета с помощью их HEX-представлений на Flux.2 пока ещё не пробовал. Интересно, будет ли Flux.2 пытаться их реально «осветить», чтобы получить настоящий результирующий цвет или будет пытаться воспроизвести в ущерб всему (как Z-Image: заказали цвет — сделано; а то, что освещение, да и всё изображение не то, это уже проблемы юзера).
Prompt (с небольшой ошибкой, которую сейчас заметил, поэтому на Flux.2 игрушек на ёлке нет): { "scene": "a dark old server room room. A dark silhouette of an old-looking computer with large monitor on the desk with large caption '2ch AI StableDiffusion' and an orange lightning icon on the screen with CRT artifacts., There are dark silhouettes of sci-fi glass panes with node programming interface displayed with words 'ComfyUI', 'Z-Image', 'SeedVR2' in pixelated computer font. The glass panes are connected with light color cables through patch-panels. Some panels are broken and displaying error messages with warning icons.\nThere is a pile of light color cables on the floor.", "subjects": [ { "description": "A dark silhouette of a chubby middle-aged man in light cotton socks, dark fluffy slippers, dark sweatpants, light t-shirt, semi-dark bathrobe, wearing paper bag as a mask with eye holes, with happy smiley face drawn with pencil on the paper bag.", "position": "left of center midground", "action": "standing by the computer, holding a small, beautifully decorated Christmas tree decorations, adorned with electric color string-lights, and setting it up on top of the monitor" } ], "style": "Documentary-style photojournalism with natural authenticity, artistic expression", "lighting": "cinematic lighting, very dusk green fluorescent low-key sci-fi glass panels dim green fluorescent glow.", "camera": { "angle": "Eye level", "distance": "Full shot", "lens-mm": 80, "f-number": "f/4", "depth_of_field": "Everything sharp", "focus": "Hyperfocal, near to far" } }
>>1442707 >>1442597 Чуть больше 4 часов 2500 шагов. Low VRAM походу зря не отключил (не обратил внимания). И offload тоже, наверное, не нужен, если всё равно всё кешируется на диск. Взял свой лучший датасет, на XL он выдавал чудеса и внезапно оно сделало хуже чем лора на обычном датасете. Лицо норм, но качество страдает, на 1500 уже не очень видно лицо. Хуже чем голая модель с фотолорами. Надеюсь с base будет обучаться лучше.
Анон, расскажи пожалуйста, с какой целью LoRAs тренируешь? Определённые персонажи и их «гарантированное» воспроизведение в генерации?
Я к этому вопросу ещё и близко не подходил потому что пока надобности в этом не было. Но любопытно для общего развития. Гайды мельком смотрел, но не вникал.
Пикрил Qwen-Image-Edit-2509, на Flux.2 ещё не пробовал Edit делать, но там он наверно будет не хуже Qwen. Для меня какую-нибудь грубоватую поделку слепить достаточно. А тратить время ради получения конкретного персонажа пока не хотелось.
Или для тренированных LoRAs есть какие-нибудь другие сценарии использования типа редких «стилей» изображения, которые не получаются другими способами, или какие-нибудь lightning LoRAs (ускорялки, улучшалки, вычищалки)? То есть то, ради чего всем этим заниматься. Практическая сторона, так сказать.
Аноны, у меня тут накопилась куча пнгшек, есть у вас какой-нибудь питон скрипт / вебапп, чтобы все их конвертнуть в .жпг / .вебп с сохранением ComfyUI workflow?
>>1442913 >с какой целью LoRAs тренируешь Тян сиськи у-ууу стоит раком жопа как бочка Для общего вида персонажей Edit может и подойдут. С лицами они не справляются. Ну, стиль тоже можно, если есть желание.
>>1442901 Добавлю про эксперимент с использованием HEX-значений цветов, которые можно добавлять в subject JSON-promptа FLUX.2 Запорол чистоту эксперимента, сгенерил с другим Seed.
Специально взял яркие и несочетающиеся цвета для пикрил1, чтобы посмотреть, что произойдёт. Хотя эти цвета были заявлены как цвета персонажа (его color palette), особого влияния они не оказали. Наверно, больше ёлке досталось. Но самое главное, что сразу появляется «волшебный софтбокс», который «поправляет» освещение так, чтобы отображались «цвета». Ожидать, что FLUX.2 заказанные цвета «переосветит» и адаптирует к общему фону изображения было наивно, но попробовать стоило. В итоге ситуация следующая: если на изображении не может быть заказанных цветов, то освещение всего (или большей части) изображения будет изменено так, чтобы они там появились.
Пикрил2 без явного указания цветов. Просто ёлка с цветными огоньками (без указания их цвета явно) уже немного «выпадает» из общего фона изображения и явно, освещена не так, как должна. Хотя по сравнению с пикрил1 тут в целом удовлетворительно.
В черрипикнутых примерах FLUX.2 из prompting guide https://docs.bfl.ai/guides/prompting_guide_flux2 нет изображений с заполняющим «монохроматическим» светом на цветных объектах (с модификацией их результирующего цвета). И теперь понятно, почему.
В целом это неспецифичный сценарий использования, так как эту модель готовили под «студийную съёмку» промо-материалов, архитектуру и прочие коммерческие задачи, поэтому сложно ожидать от неё (особенно, когда dev-модель позиционируется как инструмент «быстрого прототипирования, концептов» рекламы pro-версии). Но, всё равно, любопытно.
>>1441571 >ЕЩЕ ОДНА ГОДНОТА!! Ладно, признаю, что не годнота. Просто добавляет еще префикс тот из кода. Я даже запилил кастомную ноду. Всё фигня. Тоже самое что писать перед своим промптом этот "системный" промпт.
>>1442856 >а между моделями пикрил разницы нет как я понял? просто одна уже дедистиллирована, а вторая - обычная турбо + адаптер типа лоры? разницы нет архитектурно, просто дедистилю сломали дистиль и теперь он может работать как должна работать обычная модель - с высоким цфг и много шагов, вследствие чего получается что турбо дмд модель (а зимаг турба на принципах ученик-учителя и дмд сделана) больше не зависит от конкретных обстоятельств генерации и может быть использована для дальнейшего фул файнтюна, надрачивания на ней лоры без использования адаптера чтобы юзать выходную лору с дедистилем без адаптера или юзать связку дедистиль+адаптер чтобы получать более точную и гибкую лору и использовать ее с турбой; кароче обучать на дистилляте это несколько неправильно - можно, но дистилят много упускает при тренировке и может пукать при сложных концептах излишне обрезая важную инфу, дедистиль именно как база обучения лучше
>>1442859 >Я вчера заметил только остановку генерации на определённом слое и отрыгивание полуготового полуфабриката
клип сет ласт леер? ну да я про это и писал, там на последних слоях нсфв фильтрация у зимага небольшая очевидная, -1 неуправляемый промтом очевидно получается, -2 дефолт режет концепты всякие, -3 и дальше в зависимости от шизы можно подобрать для своих задач
>Проверил, не заметил (тестировал на настройках с prompt, seed, scheduler/sampler как у постера). Чтобы получить результат, похожий на то что у него (хотя на этих настройках должно очень похоже), пришлось отцепить LoRAs из Power Lora Loader (отключить весь узел), отключить CLIP Set Last Layer (вернуть значение по умолчанию). а я на стандартном енкодере погонял, разительно лучше выход с инструкциями из люмина ноды, сегодня попробую NSFW систем промт подставить замести стандартных
>подозреваю, что у него text encoder какой-нибудь abliterated стоит, а не тот, который по умолчанию в workflow идёт а аблитерейтедов qwen3 4b то и нет в кванте нормальных, или я в глаза ебусь?
>>1442995 >Тоже самое что писать перед своим промптом этот "системный" промпт. Прям одинаковый вывод получается если прописывать систем промт в обычном поле промта? Я не тестил просто, но частенько с ллмками в виде енкодера пишу шизу в [system instructions] прям сплошным текстом
>>1443004 Да, одинаковый, на уровне какой-то погрешности(сид зафиксирован). Я по заблуждению(после общения с ллм) думал, что здесь системный промпт значит тоже самое, что и у ллм. Но оказалось что конкретно с этой нодой это не так. Например можно в текстовую ллм прописать чтобы она заменяла всех человеческих персонажей которые ты ей пишешь на котиков и ллм будет так делать. А прописав такое я эту ноду я получил котиков везде даже просто авто на дороге и там коты. Это просто префикс к промпту. Возможно слегка улучшающий. Такое было в Fooocus с каким-то его стилем гпт2 к промпту добавлялись всяческие мастерпись слова.
Прогнал тренинг на дедистилле с адаптером. Собственно как и ожидалось, при настройках для тренировке на турбе точно такие же настройки с дедистиллем пиздят всякие нюансы детальки датасета гораздо лучше, но при этом частично артефачит, так что вероятно надо чучуть меньше лр чем вы подобрали для турбы.
промт: старая женщина в красном платье позирует в ночном клубе, она в бикини натренено на датасете из 100 картинок с ллм описанием
1 ориг ген турбы 2 плюс лора натренненная на дедистилле вес 1 эпоха 5 3 плюс лора натренненная на дедистилле вес 1 эпоха 8 4. эпоха 17 где-то начиная с 9 эпохи периодически чередуются эпохи где композ как в ориге, а следом эпоха где совершенно иной, ну и все приправляется артефактами и переобучением, но эффект норм, можно снизить влияние лоры в целом, что негативно повлияет если у вам нужна сверхточность лица
из плюсов, с лорой на скипе -1 становится более менее управляемой модель
>>1443068 то же самое на скипе -3 алсо вот этот результат в обоих вариантах на эпохе 17 это переобучение начиная с результата на эпохе 10, так что зимагу долго выдрачивать смысла нет вообще
>>1443074 Нет, ты не прав. > It can be used to train LoRAs on top of that should remain compatability with the base model, or it can be continued to finetune well beyond what you could do with the turbo model with the ostris/zimage_turbo_training_adapter
>>1443075 Переводчик возьми, если не понимаешь что написано. Либо дедистил, либо продолжай тренить на турбе с адаптером. У тебя в тулките специально нет поля для адаптера, чтоб ты не додумался его подрубить.
>>1443080 Ну как написано так и понял, надо было прямо писать "не юзайте с адаптером", а то бля "можно продолжать тюнить как вы тюните турбу" и "can be trained on directly without an adapter" (кен би подразумевает возможность а не правило).
>У тебя в тулките специально нет поля для адаптера, чтоб ты не додумался его подрубить. Я не обновлялся еще.
>>1442919 >накопилась куча пнгшек, есть у вас какой-нибудь питон скрипт / вебапп, чтобы все их конвертнуть в .жпг / .вебп с сохранением ComfyUI workflow накорябал когда-то с помощью llm скрипт на python, создаёт webp+json, обрабатывает папки с подпапками https://dropmefiles.com/3ogZI он не только конвертит но еще и сортирует абсолютно всё по папкам, по времени создания. настроек нет, только выбор папки с пнг и конечной папки. исходные файлы не уничтожаются, только копирование\конвертация
посравнивал тут немного. z-image в fp8 имеет некоторые отклонениея в деталях: неровности, асимметрию, потерю детализации в некоторых местах, портит красивые узоры. fp16 норм, но работает медленнее и ест 12 гигов. как компромисс лучше использовать Q8_0 gguf, жрет где-то 7 гб при той же скорости что у fp16 и очень близком к нему качестве.
Итак Анон, вот мой воркфлоу для Z Image Turbo. Скачай вторую картинку - он в ней. Сделал скрин-схему с пояснениями. Три блока: генератор, и2и от генератора(латент) и отдельно и2и от любой картинки. В блоках и2и свои промпты и работает негатов, так как цфг больше единицы. На скрине в обоих и2и в промпте wet black girl в негативе Asian, censored. Таким образом легко меняется девушка по промпту. Довольно качественно получается. Сам генератор состоит из трех семплеров. Первый дефолт, справа от него хороший независимый генератор с офигительным разблюриванием картинки и добавляет множество деталей, но долго работает. Снизу от дефолта еще генератор, но он работает от латента дефолта и тоже разбюривает картинку с добавлением деталей, однако шумноват. На скрине видны генерации и результаты. Да и сами можете это повторить. Отпишись, понравилось ли тебе? Что улучшить можно?
>>1443250 Из того, что я видел, все сходятся на том, что 9 шагов достаточно. Больше не надо, хуже становится.
Я видел даже в треде, что используют разные scheduler/sampler, но не знаю, делают ли это с пониманием или просто у кого-то подсмотрели. Я пока остановился на euler/beta, res_2s/bong_tangent, которыми я пользуюсь для Qwen-Image, для Z-Image конкретно не подходят настолько, что портят картинку и особенно кожу.
>>1442143 А во, разобрался, надо было поставить расширение rgthree's ComfyUI, и там уже эта нода, и всё без браузера. Но браузерное расширение может сразу все лоры просканировать и зафетчить, что может быть полезно, если насрал лорами без проверки и с комфи по той или иной причине не сфетчить больше
>>1443337 >портят картинку и особенно кожу Простые 2с не подходят. Посмотри выше твоего поста я выложишь вф. Вот пик1 дефолт, пик2 Unsample, пик3 bogacki-shampine_4s Промпт the wet blonde haired girl is putting something in her mouth
>>1443322 Вот еще пример кожи. 1 - дефолт(текстуры кожи нет вообще), 2 - Unsample(детализация, но много шума), 3 - bogacki-shampine_4s (отличная четкость картинки, кожа, зрачки супер). работает в 3 раза дольше только spoiler] a[ very attractive young lady, breasts,looks at the viewer in disgust, short hair, shirt, medium breasts, underwear, upper body, short sleeves, hetero, open clothes, solo focus bra, open shirt, pov grabbing breast grab, messy hair, pov hands
>>1443322 Аниме и рисунки i2i не любит, вагины подрисосывает на картинках норм, изменяя полностью лицо на чужое А вот модификатор и денойзер/улучшалка иногда выдаёт какой-то бредик. На 6 изображении, которое снизу идёт на 4 - артефакты пошли. На модификацию мало чего применилось, но это я криворукий с промптами.
>>1443322 Да, беру промпты у ллмки > A highly detailed cyberpunk future cityscape at night with a crowd of people living in luxury under a strict authoritarian regime. Neon lights reflecting off wet streets, advanced technology with holographic advertisements, people wearing high-tech fashion and expensive accessories. Authoritarian symbols on buildings, military presence with armored vehicles patrolling. Luxury cars and airships hovering above, opulent skyscrapers with exclusive clubs and casinos. Sharp contrast between wealth and control, cinematic lighting, 8k, photorealistic style Сначала дура проигнорировала часть промпта, затем подменила азиатов на людей, после чего действительно нарисовала по теме. А рисованные изображения нейронка не любит > happy old man
>>1443165 >У зита после нанкина рассовая неприязнь к катанам? Есть подозрение что зит намеренно сильно зацензурен и урезан, но не там где мы думаем (не сисик и писик), у модели очень сильный закос под китайщину ебанную и скорее всего базу тоже тренят с этим же закосом, чтобы партия китай жена не узнала что Z image картинка генерация сгенерировала винни пуха заседающего в партии надеюсь что не прав
Сука бесит эта хуйня что эти пидорашки китайские тянут с выходом базы, даже вон аноны пытаются де дистиллировать турбо чтобы хоть что-то можно было тренить
>>1443547 > намеренно сильно зацензурен и урезан, но не там где мы думаем Он не пропускает носки с сандалями! >>1440945 У китайцев какая-то своя особенная шиза, копошимся в недоделанных изображениях.
>>1443243 >оно не заембежено в картинку? ага. только json рядом с картинкой. был код где json сохраняется в jpg exif данные, но комфи его не видит почему-то. с webp ещё печальнее. ну что взять с qwen coder, доступа к гигантам типа claude sonnet я не имею. попробуй потыкать какие-нибудь llm на этот счёт.
>>1443250 Есть. По крайней мере в картуне и на 16 хорошо выглядит. Но я видел и фото генерят с 12-20 шагами и получается лучше. В то же время, для себя можно и на 6 шагах генерить свободно. Например пикрил 6 шагов, третье на 16 шагах с каким-то ебанутым 2s_ode, последнее проба ер_сде 5 шагов.
Попозорюсь забавы ради. Ну думаю, не должно быть сложно показать гордона фримана цифру три пальцами. Лора есть. Так, заставить показывать пальцы не получается. Ну z-ка же должна знать... Блин. Понял. Ну анончик подсобил >>1443322, можно заставить зетку перерисовать... Да в смысле два пальца! И так и эдак, показывает два пальца. Так, Z-ка генерировай мне три пальца Ах ты ж сука. Ничего, ща в фотошопе возьму к изображении зетки приделаю и перегенерирую! Перегенерировал, зашибись!
Учить нейронку, что такое монтировка, не стал даже пытаться.
>>1443750 Найди jpg, в котором сохранен воркфлоу (у меня такого вообще не нашлось) и попроси код просмотра всей метадаты, чтобы понять где оно хранится. Потом уже код, чтобы переносило из png в это поле jpg. Или то же самое с webp. У них у всех по-разному хранится мета и могут понадобиться разные библиотеки, не все умеют сразу всё.
Хрен его знает. То ли лыжи не едут, то ли промптить под микро-LLM нужно как-то по хитромуили английский лучше знать, да. Хз. Даже вот это вот получилось только с Instruct-версией сделать.
>>1443936 Я это и на SDXL (точней его тюнах) могу. И делаю, да. А тут реально что-то отличное от 1girl или очередного популярного перса хочется сделать.
Да блин, ну какая палка алё. Во, вот так нормас. Всего лишь надо заставить другую модель сгенерировать монтировку, а потом обернуть зеткой. Ещё раз спасибо анончику выше >>1443322
>>1443974 Спасибо, я там видел коммент, но у меня каждая картинка генерится долго, так что именно для опыта я ничего и не меняю, лучше побольше тестов наделаю, что да как, а потом уже буду менять может быть. Да кому я вру. Ничего не буду я менять. Сид и другое изначальное изображение даст заметно отличающийся результат.
>>1443934 Аж проиграл с надписей мелким шрифтом. Причём в их же табличке оно всрало дико Ф2, а Z они тупа побоялись брать в сравнение, чтоб не соснуть у 6В. Ещё и bf16 нет, они там fp8 тюнили что ли, шакалы.
>>1443974 >>1443985 персонаж аэрис взрослый из игры FF7 remake Ради опыта я, конечно же, начал двигать. Сначала двигал неверно step 20-16-14 и посмеялся с результата Затем начал двигать именно steps_to_run Тут уже и лицо гораздо больше напоминает оригинал, и пытается рисовать то, что не любит (игры со своим анусом например). Конечно остаётся вопрос, зачем тогда использовать перерисовку, если остаёшься на варианте, приближенном к оригиналу, но всё равно полезно. Где-то да пригодится вот это вот 10-11 пограничное.
Алсо попытался нарисовать анус промптом - вышел бодихоррор. Ну не любит эта модель такое рисовать. >>1444037 Спасибо сейчас попробую, почему бы и нет.
>>1444037 У меня на моём компе (не лучший для нейронок спасибо амд) на четверть или на половину быстрее. Но возникают приколы. На одном и том же steps_to_run при разном сиде получились совсем разные изображения, одно заметно более реалистично. Я вроде и понимаю, что это возможно, на то оно и сид, и нейронка - всего лишь весы. Но как-то здесь степс-ту-ран не так сильно влияет, как сид. Поэтому я, наверное, предыдущую бы предпочёл не смотря на скорость, потому что смешивание с оригинальным изображением там более прогнозируемо. Ах да, заметное отличие от предыдущей модели (более медленной) - рука остаётся на месте, где и была на оригинальном изображении. Вот это может быть действительно важно.
Но я всего лишь одно изображение гоняю, что от меня толку.
>>1444087 Пробовать надо. Кучу тестов делать. В оригинальном шаблоне(ищи в темплейтах комфи intro to clownsampling) рекомендуется в унсемплере промпт ставить пустой, а нормальный промпт уже во второй семплер ставить. Я еще не пробовал, тоже много времени это всё отнимает.
>>1444037 О, ну это другое дело! Это наверняка что-то модненькое и хайповое (на пару недель), сдохля так ни за что не сможет, фу-фу... Про дурака и хуй стеклянный вспомнил почему-то)
>>1444819 >Там воркфлоу должны быть прямо в картинках.
Я тоже так думал два треда назад. А потом скачал и попробовал открыть свои PNG в ComfyUI с очевидным результатом. После загрузки сюда PNG, по крайней мере та часть метаданных, где хранится workflow, повреждается. Анон писал, что только хитровыделанный webp можно как-то. Но я дальше вникать не стал.
>>1444813 вагина не причём, я говорю о неком (не фентезийном, аля варкрафт) персонаже, а о неком реальном гибриде человека и насекомого с гуманойдной головой, но частично насекомым, по мотивам Каррнивал Роу. У меня так и не получилось это, что-то получилось только на ванильной sdxl и со специфичной лорой, но это не то, что я хотел. Рисуется условная тинкербелл.
>>1444840 >>1444847 нее, это уход в анмешность и это больше насекомое, чем человек, а нужно гипереалистичный (где-то пугающий) гибрид а-ля гигер без чешуек, но анатомически, примерно на 10-15% - насекомое. Это очень сложно, почти недостижимо, у меня хитиновый покров был не частью тела, а что-то вроде костюма, как у инженеров из алиенов. Я долго ебался, и ничего не мог с этим поделать. Я щас пытался найи сеплы, но похоже я ёбнул всё в сердцах)
>>1444899 >нормальных лор уже наклепали под флюкс, и в итоге 2-я версия срать хотела на эти лоры, кто будет их трейнить, если завтра выйдет следующая, которая не будет их поддерживать. нахуя спрашивается?
>>1444924 Так аблит у тебя хуже вышел. В чем вообще смысл? Я и на обычном клипе порноротику любой сложности клепать могу т2и. А если и2и то вообще, почти без промпта можно все делать.
>>1444924 Со всякими "улучшенными" версиями Qwen3-4B поаккуратней бдь: не знаю в чём дело, но они точно меняют генерацию, причём часто совсем не в лучшую сторону, добавляя хаотичных деталей или каких-то нелепых абоминаций, вроде "склеивания" двух концептов в один. На всякой фентезийной фигне может (или если промпт достаточно неспецифичный) и не так заметно, но если хочешь получить что-то очень конкретно? Прям бросается в глаза.
>>1443068 Теперь потренировал правильно. Без лор, с адаптером, без адаптера. Очевидно без адаптера нет артефактычей, но а так в принципе тренирует плюс минус одно и то же.
>>1444995 каждый дрочет как хочет или как умеет, у меня в лора манагере всё скачивается-обновляется само, но это в отдельной странице браузера, а не в комфи-странице будет, так что менее удобно, но хотя бы как-то всегда будет всегда с тобой срёт прямо в папку с лорами ргтри удобнее да, но нужно вручную
>>1444906 дада, вот уже завтра, проверяем под подушкой. ну и основные трудозатраты при тренировке это именно составление датасета и промптинг, а потом остается просто нажать кнопочку.
>>1445317 Клип сет ласт леер. По дефолту от модели отрезает -2, соответственно если поставить -1 то следование промту перестает работать, но картинка становится максимально фемели френдли, вытащить чтото крамольное нереально. -2 соответственно ни рыба ни мясо, очевидные нсфв взаимодействия очень нехотя генерирует, большая часть времени абоминации при взаимодействии между людьми -3 уже практически отъбнувший нсфв фильтр, можно генерировать практически все что угодно со знаниями модели и нужными лорами -4-10 - все дальше и дальше от фильтра, можно получать неожиданные результаты, можно юзать как доп сид -10-20 - как по мне уже излишек, но гдето на 20 и ниже можно вытаскивать гуро и трупы натуральные например
Вообще начинает раздражать граница между откровенным бредом и тайными эзотерическими знаниями о работе sampler/scheduler от некоторых постеров. Я тут частенько замечаю, либо у меня не хватает поверхностных знаний о работе samplers/schedulers и поэтому я не могу понять зачем используются некоторые связки, либо в этом треде часто постят такие дикие комбинации sampler/scheduler, вообще не понимая основ их работы. Как будто просто где-то подсмотрели, часто ошибочно, и потом пихают их везде не разобравшись.
>>1445218 держи на понятном примере с количеством шагов>>1440945 Хотя заставить её и на -1 нарисовать носки наверняка можно. Просто она сама что-то там делает начиная с определённых уровней
>>1445454 >либо в этом треде часто постят такие дикие комбинации sampler/scheduler, вообще не понимая основ их работы Именно. На уровне метода тыка. Плацебо эффект. В конкретном каком-то сиде показалось какому-то шизу что-то красиво, шиз тут же думает что это лучшая связка.
>>1445565 Я предпочитаю малозатратный способ хлебнуть чуток вискаря раз в пару месяцев на голодный желудок - сразу клонит в сон, и толер не вырабатывается.
>>1445605>>1445602 > у ksampler нет такого > две строчки посередине increment - повышают значение сид на 1 decrement - повышают значение на -1 по идее между рандомайзом и инк/декр не должно быть сильной разницы в результате, на деле как придётся
>>1445630 > в новом интерфейсе нет А, любопытно. Ну тогда стоит упомянуть, что на >>1445589 ClownsharKSampler из какого-то там расширения RES4LYF во. Может поможет и будет работать на твоём новом интерфейсе хз.
>>1445358 > -10-20 - как по мне уже излишек, но гдето на 20 и ниже можно вытаскивать гуро и трупы натуральные например Ступени нейроада. Не спускайтесь глубже.
>>1445861 Там от промпта или разрешения сильно зависит. Некоторые вещи норм терпимо на -15 делает. Но не эксперементировал, с чем именно это связано. Правда вероятность странных нереалистичных глаз или уродств повышается заметно.
анончики, подскажите нублу, как из готовой пикчи сгенереной зимагой выудить промт. балуюсь рандом-промтингом и иногда всякая годнота проскакивает и хочется знать что туда заехало.
А помните ждали пони в7? А потом она вышла и это сделало всех очень счастливыми. >>1446332 Типичный мердже-пидорас вроде редкрафта и прочей гнили. Только этот особенный. Сука, когда уже их начнут банить на civit.
>>1446262 скачай ноду ComfyUI-Gallery, появится кнопка с галереей из всей твоей папки output, сразу пикчи с промптами, не надо ебаться со ставкой целого вф и копирования оттуда.
>>1446358 > А помните ждали пони в7? А потом она вышла и это сделало всех очень счастливыми. Ну справедливости ради потанцевал в7 огромен, просто никому в хуй не уперлось с ней что-то делать, инструментов нет, медленная, на те же грабли кароч наступлено как с в6 которой не знали как пользоваться без ретренов. Зит показал как надо делать чтобы быть первым парнем на деревне, астралайт уже ничего не сможет исправить, разве что бросить аурафлоу и инвестировать в ретрен зит когда выйдет база. Кстати что там у зита в лицензией? Астралайт ауру взял потому что опенсурс и можно рубить бабки.
>>1444993 >в комбинации с этими настройками Карася дают наиболее хорошие результаты на Z-image Спасибо анончик, что напомнил как я крутил неделю эти настройки еще на сдхл. Вот держи воркфлоу с карасём с моими тогдашними находками, чутка подправил. Получилось шикартно, если внимательно сравнишь, то увидишь. Параметр что отметил красным на скрине сильно меняет картинку. Регулировать по единичке.
>>1446494 так это вероятно из-за перманентной дрочки файла подкачки после оффлоада из RAM, а не из-за итогового количества генок на выходе. Больше RAM надо или просто дешманский ссд под убой для pagesys.
Че ж вы там делаете то с бедолагами? На первой пикче диску год. На нем только нейрокал. На второй пикче диск, на котором была система установлена лет 5.
>>1446523 ебать, погонял нейроночки год называется второму вообще пизда походу, но ему 5 лет я правда дохуя видосов генерил, даже больше чем пикчей, там сразу 60+гб в кэш прилетает
>>1446871 Чего ты там ссышь. Нормальный ССД должен минимум 500-700 ТБ жить, тебе с 7 ещё далеко. У меня 100 гигов подкачки на ССД и мне вообще похуй, спустя 2 года пишет 5% жизни ушло.
>>1446387 2 года как системный винт, 1 год на него кладу своп во время генок. В общем-то ссд один хер раз в три года меняешь, так что не задумываюсь вообще.
>>1446882 Склепал воркфлоу для легких модов для Z Image Turbo (в пик1). Без ресемплинга, работает быстро, чуть дольше обычной генерации. Крутить нужно параметры в ClownGuide. У этой ноды есть много режимов работы guide_mode. Что-то показывается в примерах, но многое не понятно. Почитать было подробную инструкцию. Семплер 3s даст гораздо лучшее качество, но дольше.
Реал вы тряску из-за 10 тысяч рублей устроили, ну сдохнет этот диск, не похуй ли? Вы столько фана с нейрохрючевом получаете, а диск отвалится и чего? Че с этим компом делать? Смотреть и тряпкой влажной протирать? Так то лучше контента, чем локальный инференс просто нет, игры - калл
>>1447368 Так и чего? Какая разница? Все равно за компом делать больше нехуй, это типа как отказаться от дыхания, ибо кислород вызывает старение, да все заканчивается, ломается, стареет итд Зачем тебе целочный комп гаражного хранения без задач в целлофановом пакете с надписью 100%? Смысл как раз в получении хотя бы какого-то фана от железяки, машинно обученные модели это верх фана, что можно сейчас на ленивом выжать из пеки, 100 рублей в месяц уж точно стоит.
У меня смурфбай без объявления войны просто начал кончаться на пару процентов в день, дошел до минимума, потом посидел на нем, реснулся до ста и опять пошел на дно, ибо это было круто
>>1447508 То что там прошивка дерьмо я понял еще когда после переустановки винды он с кучей свободного места и без какой-либо активности продолжил кончаться дальше. Еще я понял что эти процентики жизни в принципе нихуя не значат, потому что по тестам записи/чтения сдд почти всегда живут в разы дольше чем их период от 100 до нуля
>>1447624 >прошивка дерьмо я понял еще когда после переустановки винды он с кучей свободного места и без какой-либо активности продолжил кончаться дальше Так, чисто для информации: SSD вообще-то могут работать со своими ячейками, и когда комп их не трогает - это нормально. Они в IDLE состоянии заранее чистят блоки, которые раньше были заняты данными, а теперь помечены как свободные (после операции удаления в системе). Перед новой записью, такой блок еще нужно физически очистить - это относительно медленно, потому делается фоном. По возможности.
>>1446439 >инвестировать в ретрен зит когда выйдет база Будет только психбольной. NoobAI (лучшая локальная модель) сказали, что команда Зед спиздила у них датасет и планирует сама обучить. Вот на основе этого уже пускай обучают LuZtify, Ponyz (уже не будет нужна, у него датасет хуйни), Chromaz. Только бы поскорей официальное сообщение, что они реально обучают и приблизительные сроки. >>1446882 А по примерам будто плохо делает. Делал I2I по сд пикчам, тоже только хуже стало. Но зато фон чинит, можно опять потом сд пройтись и должно получиться красивей. Очередная рефайнер модель для XL. Это какой-то мем, что на XL получаются самые реалистичные 1girl standing изображения по текстуре, если они не испорчены сложной сценой. Дальше по реализму идет Chroma и Qwen, потом Wan. У каждой свои нюансы.
>>1447880 я ща на лм арене хуньянь имейдж 3 потыкал, это просто пизда какой разъеб. такого качества я вообще нигде не видел, тестируя одни и те же несколько промптов на разных моделях. но на локали такое не видать конечно, что печалит.
>>1447228 Да, заметно быстрее. В каком-то роде менее управляемо, но она и по смыслу же быстрая менее функциональная схема. Между степсами и weight можно немного балансировать, если нравится результат, но зашумлён... По крайней мере если понравился результат, но он весь в шумах, можно пофиксить сид, тыркать степ вверх-вниз, надрочить вейт, и получить очень близкий к зашумлённому результату. Зачем всё это почему - потому что я начал ещё и степы дрочить, чтобы заметно ближе к оригиналу было. Так что это вряд ли вообще относится к делу, раз предлагали только вейт дрочить. Но степ даёт быстро разный результат
>>1447995 Всегда думал про обучение пиксельарта в нативном размере. Это оно выдает в 256х, что если реально обучить только на 256х.
Кстати, попробовал >>1445374. Хуйня, никаких плюсов не заметил. Тренит так же долго, результат хуже. Но я на этот раз не стал капшены делать для теста, кхе-кхе. Но Z опять впечатляет легкостью обучения. Даже на xl dmd приходилось заебаться с некоторыми датасетами лор, чтобы сделать похожее лицо, да и то нужно было выкручивать вес. А тут на похуе кидаешь, ждешь в 2-3 раза дольше и получаешь похожее лицо.
>>1448021 > Хуйня, никаких плюсов не заметил. Тренит так же долго, результат хуже. Вообще никакой конкретики. Что значит долго? Что значит хуже? У меня сейчас трен на афакторе идет со скоростью 1400 шагов в час, притом что датасету 100 картинок хватает 1000-1100 шагов на обучение. Хочешь еще быстрее? Ну можно в конфиг расширенный продижи шедулер фри запихать с аргументом schedulefree_c=10 d0=1e-5/5e-5 и обосраться от скорости, потом нестабильные лееры клипскипом отрежешь если че.
>Но я на этот раз не стал капшены делать для теста, кхе-кхе. Можно на классовый токен тренить, кепшены не важны.
>Но Z опять впечатляет легкостью обучения. Ну ето не заслуга З, а флоу. То есть сдохля с которой ты сравниваешь в ваниле предсказывает шум, а флоу предсказывает путь к результату.
>Даже на xl dmd приходилось заебаться с некоторыми датасетами лор, чтобы сделать похожее лицо, да и то нужно было выкручивать вес. Ты както не так дмд юзал похоже. Там прикол что ты можешь результ выжимать из лоры буквально со стартовых эпох, то есть лора может быть жутко недотрененная, но дмд поверх дает когерентные гены, особенно если тренировался енкодер. Сто раз сам делал так.
>>1448038 > в ваниле предсказывает шум, а флоу предсказывает путь к результату Шизик, любой DiT так же предсказывает шум, флоуматч - это просто замена таргета епс на другой без альфы.
>>1448021 >пиксельарта в нативном размере VAE модель не относится к одному пикселю как к правильному квадрату с дисплея. Для неё это одна точка на непрерывной двумерной поверхности. Надо тестировать, но кажется, что для реализации идеи квадратности VAE понадобится больше одной точки.
>>1448021 Тот правильный попиксельный пиксельарт что рисуют хуйдожники никогда не будет возможным создать нейронкой из-за самого принципа её работы. Всегда будет неточный псевдопиксельарт. С таким же успехом можно фотку в фотошопе прогнать через фильтр постеризации или пикселизации.
>>1448094 Да похуй, к пикселям можно привести. Главное сделать, чтобы оно рисовало по формам пиксельарт на 256х, а не заквадраченную примитивную хуйню. Но зачем, если оно итак это делает на 1024?
>>1448084 > любой DiT так же предсказывает шум, флоуматч - это просто замена таргета епс на другой без альфы. У тебя и впред шум предсказывает наверно :)
>>1438893 (OP) Аноны что эти пидоры сделали с интерфейсом, какую то хуйню наворотили! Раньше слева удобное меню где не заходя в аутпут можно было сука 1 кликом открывать картинку, а сейчас эта хуета называется ассеты и не открывается при клике на нее, можно ли вернуть это где то в настройках?
А шо ни один тренер говна на зите не додумался включить тренировку енкодера еще? Очевидно же что затертые письки возвращаются в том числе обновленными связями в te.
>>1448125 Только дауны тренят ТЕ. Литералли никто не при претрейне моделей не трогает ТЕ, потому что это гарантированный проёб концептов. Тренить ТЕ имеет смысл только если ты хочешь вжарить концепт так чтобы он протекал повсюду.
>>1448125 Чел, чувакам, которые специализированно занимаются пердолингом LLM очень редко удаётся добиться каких-то вменяемых результатов не разъебав фундаментальные мыслительные процессы трансформера. А тут ты от картинкодрочеров прогресса ожидаешь. Подсунь готовую abliterated модель и будет тебе устойчивые сиськописькины токены.
>>1448126 >потому что это гарантированный проёб концептов Не гарантированный. Ты забыл про технику early stop для енкодера, которой дотюнивают до нужной кондиции большие дяди. >Тренить ТЕ имеет смысл только если ты хочешь вжарить концепт так чтобы он протекал повсюду. Так как раз фундаметальный концепт писика затерт что в квене что в весах зита. >>1448127 >Подсунь готовую abliterated модель и будет тебе устойчивые сиськописькины токены Аблитерейтед не обучены новому, он "убирает" вдроченные refuse фильтры запрещающие генерировать непотребства. Ну это как у гпт скрытые инструкции жейлбрейком обходить. Но в квене точно также писик был обучен на уровне "ну ето либо продолговатый огурец или бесформенное нечто между ножек живых существ", аблитерацией не вернешь знаний потому что их и нет.
Если в стандартном воркфлоу зетки с этими вот 9 шагами и ойлер+симпл получается такое, то нахуй что-то ещё? Ну ибольше шагов - чаще хуже результат на всяких дисцилятах, так что оправданно.
>>1448128 > дотюнивают до нужной кондиции большие дяди Назови хотя бы одну современную модель, где ТЕ тюнен. Литералли все модели на Т5 с ванильным, в том числе Флюкс/ВАН. Квен с ванильной ЛЛМ, Z тоже, у Ф2 ванильный Мистраль. Даже свежая китайская поделка Newbie, трененая только на аниме, использует ванильные ТЕ - ванильную гемму и клип. > концепт писика затерт ТЕ тебе причём тут. Просто датасет подчищен простейшим детектором NSFW.
>>1448129 Как сказали где-то в обсуждениях: дистилят это музей, база это библиотека. Дистилят сделанный по принципу "модель ученик учится предсказывать результат модели учителя" короче режет много полезных данных. База как минимум нужна для точной тренировки чтобы потом использовать с дистилятом. Для самой генерации музея конечно достаточно.
>>1448130 >Назови хотя бы одну современную модель, где ТЕ тюнен. Литералли все модели на Т5 с ванильным, в том числе Флюкс/ВАН. Квен с ванильной ЛЛМ, Z тоже, у Ф2 ванильный Мистраль. Даже свежая китайская поделка Newbie, трененая только на аниме, использует ванильные ТЕ - ванильную гемму и клип. Кхем... T5 ауры в пони в7. Тут вопрос в желании, а не в НИЗЯ НИЗЯ БОХНАКАЖЕТ. >ТЕ тебе причём тут. Просто датасет подчищен простейшим детектором NSFW. Так он не подчищен в том смысле что сетка знает где писик находится и как он должен выглядеть, но у сеток нет понимания детальности, они буквально прошлись цензурированием по всему корпусу данных, накинув блюра на гениталии.
>>1448133 > T5 ауры в пони в7 И что получили на выходе? Самую неюзабельную модель последних лет? Нет ни одного удачного примера тюнинга больших энкодеров, только крошечные клипы 0.4B на XL тюнили, да и то это довольно сомнительно выглядит.
>>1448134 >И что получили на выходе? Отличное понимание писиков и сисиков. >Самую неюзабельную модель последних лет? Самую недооцененную и непопулярную модель. Кто ж виноват что стралайт не продистилил в7 а какой-то байтданс не сделал лору убыстрялку чтобы когерентные гены любой лох мог делать? >Нет ни одного удачного примера тюнинга больших энкодеров Ну и нет ни одной удачной нсфв модели без натренированного те.
>>1448138 > нет ни одной удачной нсфв модели без натренированного те Вот тут ты уже запизделся. В Ване нет проблем с порнухой на ванильном Т5, как и в Хроме. ТЕ тебе ничего не рисует, а закодировать тег пизды сможет хоть Т5, хоть соевая Гемма. Вопрос только в самом DiT и то что в датасетах всё вырезано.
>>1448142 >В Ване нет проблем с порнухой на ванильном Т5 Сетка для видосов ето другое. >как и в Хроме Хрому додрачивали на кстомном 5млн датасете. Я ж не говорю что без тренировки те писик невозможен, просто ето неэффективно с точки зрения задачи.
Потренил тест писиков в 256px в кванте 4 для трансформера. 3 секунды на итерацию, около 7 с копейками гигов в враме. Слева база, справа 20 эпоха. Вообще результат гдето как обычно на 10 эпохе нормальный уже был, но на всякий случай дотренил до 4300 шага и кароче на 3000 там уже артефачит. 500-2к хватит всем в зависимости от датасета.
>>1448138 Ньюби новый анимешный вполне может, другой вопрос про общее качество модели конечно, оно пиздец какое всратое, хз из за багов, что хуй запустишь нормально, или же из за того что они обосрались с тренировкой
>>1448159 >А что за результат? Z и так голых баб как на твоём пике генерит. Слева дефолт ген с промтом "top model asian girl, слева в одежде, справа без одежды, фото "до и после", справа + сисикписиковая лора. Даааа, генерит с полпинка зеточка голых баб... >Что ты там тюнил? Сисик писик.
>>1448164 >квен3 4б не исполняет нсфв запросы Это так. Но почему-то в роли екодера в Зет запросы рисует легко. Так что не нужно таких котегоричных утверждений. Я сам с ллм отдельно балуюсь и вот это не понятно для меня.
>>1448187 Кому лень качать > An intimate close-up of a young russian girl reading a book by an open window, natural daylight illuminating her profile and loose hair, wearing a USSR soviet school uniform with lace details, a vase of fresh red carnations on the sill, serene and contemplative expression, interior background blurring into shadows
>>1448163 Чисто со стороны пять копеек: у Z - немного своеобразное понимание обнаженки. Если написать "without clothes" или даже "nude" - будет в белье, с высокой вероятностью. Чтобы получить реально обнаженку - нужно писать "fully naked". Причем именно с "fully". иначе может трусы оставить. Это не про то, что она будет лучше письки рисовать без лор. Лучше деталей не будет. Это про саму одежду.
Чет я не догнал. В конфиге тренинга можно включить тренировку текст енкодера, но при этом в лоре не сохраняются слои енкодера, а выход генерации получился лучше (и другой) нежели тренировка без текст енкодера.
Есть СПЕЦИАЛЬНЫЙ ТЕХНОТРЕД . С обучением идите туда. Ну серьезно. ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируем Тред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются https://2ch.su/ai/res/1405043.html
>>1448218 Ну и что это за хуйня на твоей картинке? Хочешь сказать, что в зетке такой концепт формы заложен? Это не так. Что-то не так с твоими ёбашедулерами/семплерами, думай.
Анончи, расскажите нубсу за NoobAi и Illustrious-XL. Как я помню была SD1.5. Потом SDXL. Потом на основе SD1.5 появилась Pony. Где-то в то время я выкатился и забил.
Сейчас вернувшись, пытаюсь разобраться.
Тут в треде уже несколько раз писали что NoobAi это мастхеф. А почему не люстра? Если верить дипсику NoobAi это производная от Illustrious надроченная на датасете Danbooru, т.е. это типа как апгрейднутая пони что ли. При этом Illustrious так же хорошо жрет Danbooru-теги и при этом понимает "естественный язык". На нее больше лор, и свежих моделей от Illustrious на сиви в разы больше. Почему так? Вчера гонял обе модели по одним тегам, результат +- один и тот же, но у люстровских моделек (в том числе мердженых) картинки посочнее.
>>1448493 Если ты используешь именно тюны и мерджи, а не чистые нуб и люстру, то там уже поебать, как они обозначены. На цивите ввели отдельную категорию для нуба, но про неё все забывают и используют по дефолту люстровскую, даже если в модель дохрена нуба вмерджено или вообще лора тупо под нуб сделана, но по категории все равно могут люстрой обозвать. Так что забей. Лоры на них все равно взаимозаменяемы по большей части, я никаких проблем не замечал, если лору под люстру на нубе использовать. И наеборот.
>>1448610 Ну блин ты хоть там фантазию включи что ли Привлекательная юная женщина в лесу Курска красная Очки солнцезащитные красные В лесу дождь Под ногами снег Деревья стоят зелёные с синими цветами и яблоками на них
>>1448615 >Привлекательная юная женщина в лесу Пик1 Все равно ломает по возрасту
Причем если писать "юная женщина" на русском, по она будет европейской внешности, а если на английском, то азиатка лол. И на английском он лучше следует промту
>>1448187 weight_dtype - fp8 влияет на картинку, просто чтобы был в курсе. >>1448493 >А почему не люстра? Потому что NoobAI это развитие IL. По сути очень похожие модели. NAI, вроде, разнообразней. >>1448723 Это будет кал от инвалида ебучего, который даже XL не смог затюнить.