Stable Diffusion Flux тред X+108 ====================================== Предыдущий тред >>856575 (OP)https://arhivach.top/?tags=13840 ------------------------------------------ схожие тематические треды - аниме-тред >>857624 (OP) ======================== Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях. Flux — открытая нейросеть нового поколения для генерации изображений от стартапа Black Forest Labs, основанного бывшими разработчиками Stable Diffusion. Полный функционал в локальной установке (см. ниже)
Пример промпта (запроса) для sd1.5 или SDXL: an european girl, standing, high quality, soft focus, 8k, photograph by nick nichols Пример промпта (запроса) для Flux: This photo shows a small smiling young caucasian adult woman with blonde hair wearing a pink t-shirt with the words "SD3" and panties sitting on a white couch with her legs crossed in a yoga pose, in the background of the image behind the couch there a several standing large buff african american men wearing white t-shirts with the words "FLUX" and white shorts, they are staring at the blode young woman, the woman is very small in the image allowing the men to tower over her ------------------------------------------ ♾️РАЗЛИЧНЫЕ ХУДОЖЕСТВЕННЫЕ СТИЛИ (С ПРИМЕРАМИ) 👇 https://supagruen.github.io/StableDiffusion-CheatSheet/ https://www.artvy.ai/styles ------------------------------------------ 💻ЧТО ТАКОЕ CONTROLNET И КАК ЕГО ИСПОЛЬЗОВАТЬ https://dtf.ru/howto/1669307-ustanovka-i-obyasnenie-nastroek-control-net-kopirovanie-pozy-kompozicii-i-td ========================================== 🧠 ОБУЧЕНИЕ ПО СВОИМ КАРТИНКАМ 👇 https://dtf.ru/howto/1660668-obuchenie-modeli-s-pomoshchyu-lora https://civitai.com/models/train
Что ни говори, а в оптимизон создатели Флюса не смогли. Ждём, когда поправят. Да, возможности Флюса превосходят СД, но всё же не до такой степени, чтобы жрать столько ресурсов. СД в первых итерациях тоже был очень лагучий.
котаны, кто-то использует SV3D? мне показалось разумно было бы его использовать, чтобы сделать полотно условного перса и сшить нужные мне кадры с нужных ракурсов, и допустим с одной картинки его переодевать инпеинтом и так же закидывать на раскадровку
но что-то смущает меня использование строго 576х576 с последующими апскейлами через айпи адаптер и прочие шляпы
есть ли способ с изображения персонажа, которые допустим стоит лицом к зрителю потом наделать его же с разных ракурсов? айпи адаптер пытался использовать, но что-то у меня не выходит, возможно хуёво пытался, настроек много перепробовал
или можно ли допустим мою бабу с входного изображения сразу на полотно с референсами раскатать? чтоб она и в спереди и сзади и сбоку допустим с опенпозом?
>>860854 по боке и тексту видно что через флюх пропущено что не учел флюх: стягивающие ляхи стокингсы, отсутствие сисек, рельефный белли баттон, когтистые перчатки (текникалли протечка из токена darkness), проебал эмоцию и разрушенный бекграунд в киберпуке
>>860848 3050 в 2 минуты на nf4 и 2:40 на обычной dev, 20 шагов. В шаред мемори карта не лезет, но dev сжирает до 60 гигов рамы(у меня 32 и своп) однако проблем от этого не заметил. ------------------------ >>860859 Я же не твой промпт юзал. Использовал это A girl in a latex dress is standing in the street with disgust on her face. The girl's panties are visible. Some monsters can be seen in the background.
>>860862 >Я же не твой промпт юзал. так я тебе и не по промту сказал, в промте там теги тайни гирл тайт стокингс даркнесс киберсрак или чето такое не помню уже
>>860893 >3060 >>860907 С такой картой тебе бы все таки стоило использовать хотя-бы Q4_1 на Dev и Q5_K_M на т5.
Если модель в вмещается в VRAM, то от использования более меньшей версии, ты не выиграешь в скорости. По сути у всех моделей скорость одна, просто замедление ощущают те, у кого модель полностью не вмещается и приходится ожидать подгрузки.
>>860912 Да суть не в том, что лучше. Главное это схожесть с оригиналом как тут >>860815, чтобы не было такого, что ты на сильно ущербной версии сидишь.
В общем, для основной модели Q4 это порог, после которого начинается сильный отход в качестве (да до этого тоже, но в мелких деталях) для т5 порогом является Q5_K_S, хотя автор кванта сам рекомендует Q5_K_M (но я разницы не заметил, надо больше тестить).
>>860922 >По волосам слева видно, что мало шагов. Сеченые. Или это квантование так сечет волосы? это ж дев, а не шнель, конечно мало >Попробуй 40 шагов не попробую, ебал я в рот 2 минуты ждать
>>860931 >То есть сгенерить 5 штук недокартинок лучше, чем одну качественную? Конечно. Я еще два года назад наигрался с полторахой и миллиардом шагов чтобы одну картинку получать, не стоит оно того, лучше даблпасс с контролнетом делать.
>>860893 >>860919 >>860930 Гарантирую, что если поставишь Q4 Dev и Т5 Q5_K_S у тебя 10 шагов займут столько же времени. Минута на 20 шагов это нормально, люди так год сидели на sd 1.5.
>>860934 >Гарантирую, что если поставишь Q4 Dev и Т5 Q5_K_S у тебя 10 шагов займут столько же времени. так я скорость просто так пишу для ориентира, не скорость тещу а стабильность работы этого говна
>>860934 >Минута на 20 шагов это нормально, люди так год сидели на sd 1.5 В сдохле 20 шагов это секунд 10, так что 20 шагов за минуту это не нормально.
>>860961 ты похоже нипынямаешь, мне неприемлемы постоянные выгрузы т5, клипа, вае и модели и увеличение время обработки нового промта x10 из-за этого, может у тебя ддр5 6000 мгц и карта в псие5 слоте с тредрипером на борту, но у меня то нет, у меня тут страдания
так двач, так больше продолжаться не может что такого зашито в автоматике, что я упускаю в гомфи, объясните
беру один и тот же промпт, те же настройки, те же скрипты, точнее один, ультимейт сд апскейл все что изменяю это денойз в 0.4 и тайл сайз в 1024х1024 пик 1 результат в автоматике пик 2 результат в комфи
не использую никаких контролнетов и прочего
даже если комфи не пидорасит картинку - он делает больно иначе, например начинает дорисовывать ебла в неподходящих местах и так далее
почему каломатик спокойно без швов и отсебятины ебашит на 0.4 денойза нормальный апскейл, фиксит мелкие артефакты и насыщает картину деталями, а комфи хуярится головой об стену и выдает шизу?
что ещё в этом процессе должно быть задействовано? в комфи с ксэмплера подаю картинку сразу в ультимейт
модель апскейла такая же итератив крут, но слишком долго
>>860973 Да, но замедления такого как с fp8 не ощущаю (там вообще 20 мин. на генерацию было).
И если поставить даже Q2, который можно уместить, заметил что + в скорости нет. Видимо какая-то магия оптимизации ComfyUI.
Хотя, чего-бы не уместиться 6.81 GB модели в 8 ГБ?
>>860978 У комфи по другому весы в промпте усредняются. Нужно прежде чем все это делать добиться схожести в 1 к 1 в обычной генерации, включая и сиды (которые тоже у них разные).
>>860985 >У комфи по другому весы в промпте усредняются. а да кстати, это тоже кстати, чтобы смешивание токенов как на каломатике было можно юзать пикрел
>>860991 работает? я просто по схеме не понимаю как этот шум гпушный должен лечь на ультимейт сд апскейл, у него там до сих пор же свой сид торчит, не?
>>860978 >беру один и тот же промпт Дальше не читал, но понял о чём ты. Коротко: никогда не добьёшься такого же результата в разных прогах по причине их разной реализации подключения к модели и тут дело даже не в инструментарии.
Товарищи, спалите мне, пожалуйста, приличный ллм-преобразователь промптов типа того, что у Ideogram называется magic prompt. Чтобы я ему свой промпт, а он мне обратно ллм-винегрет.
Перебрал несколько на хагингфэйсе, но они совсем уж бредятину пишут. Идеограмовский подходит для моих целей, но не хочу без нужды генерить там картинки.
>>861134 >SD3 Ага, только 90% этих лор тупо мусор, будущее только за сд, флюс это просто хлам, игрушка по приколу поиграться пару дней и забыть, нет у него никаких приемуществ перед сд. СД это серьёзный инструмент для профессионалов который позволяет генерить то угодно, флюс пригоден только для генерации жопных мыльных подбородков.
Товарищи, подскажите пожалуйста или киньте скриншот части воркфлоу, как подключить t5-xxl-encoder-Q5_K_M.gguf. Как модель *.gguf подключмть я знаю а вот как подключить енкодер я хз...
>>861236 Чтобы использовать T5-энкодер в ComfyUI с моделью формата .gguf, вам нужно правильно настроить воркфлоу, который будет задействовать этот энкодер. Вот как это можно сделать:
Шаг 1: Загрузка модели энкодера Добавьте узел загрузки модели: В интерфейсе ComfyUI найдите узел для загрузки текстовой модели (Load Text Model). Выберите t5-xxl-encoder-Q5_K_M.gguf в качестве модели для загрузки. Шаг 2: Использование энкодера в воркфлоу Ввод текста: Создайте узел для текстового ввода (Text Input). Это узел, где вы будете вводить текст, который нужно преобразовать в эмбеддинги с помощью T5.
Преобразование текста в эмбеддинги:
Добавьте узел для обработки текста (Text Encode или аналогичный узел, предназначенный для работы с энкодерами). Подключите этот узел к вашему текстовому вводу, и убедитесь, что он использует загруженную модель t5-xxl-encoder-Q5_K_M.gguf. Передача эмбеддингов в модель генерации:
Теперь подключите узел энкодера к следующему узлу, который использует эмбеддинги для генерации изображения (например, узел Stable Diffusion). Генерация изображения: Настройте узел Stable Diffusion, чтобы использовать полученные эмбеддинги для генерации изображений.
Пример воркфлоу: Text Input -> T5-Encoder Node (использующий t5-xxl-encoder-Q5_K_M.gguf) -> Stable Diffusion Node -> Output Image. Шаг 3: Проверка и запуск Запуск воркфлоу: Проверьте все подключения и убедитесь, что узлы правильно передают данные друг другу. После этого вы можете запустить воркфлоу и посмотреть на результат работы энкодера и Stable Diffusion.
>Шаг 1: Загрузка модели энкодера Добавьте узел загрузки модели: В интерфейсе ComfyUI найдите узел для загрузки текстовой модели (Load Text Model). Выберите t5-xxl-encoder-Q5_K_M.gguf в качестве модели для загрузки.
не подскажешь как точно нода называется, в менеджере по запросу "Load Text Model" ничего нет.
>>861265 В ComfyUI узел, который используется для загрузки текстовых моделей, скорее всего, называется иначе. Вам нужно использовать узел под названием "Load Text Encoder". Этот узел отвечает за загрузку текстовых моделей, таких как T5 или другие модели, которые используются в качестве энкодеров текста.
Вот как можно найти и использовать этот узел:
Поиск узла: В интерфейсе ComfyUI попробуйте в поиске ввести "Load Text Encoder" или "Text Encoder". Выбор модели: После того как вы найдете узел "Load Text Encoder", подключите его к соответствующей части вашего пайплайна. В настройках этого узла выберите модель t5-xxl-encoder-Q5_K_M.gguf из доступных моделей. Если узел не находится, убедитесь, что у вас установлены все необходимые плагины или расширения, которые могут требоваться для работы с текстовыми энкодерами, и попробуйте перезапустить интерфейс.
Но вот "Text encoder" хоть убей, немогу найти или поставить, в поиске по разному пробовал искать. В менеджере тоже по разному искал... Не думал что такой глупый затык будет...
>>861300 > брюр на фоне в инпейнтинге в полторахах во время генерации можно как-нибудь починить? Да, ставишь денойз 1.0 и режим masked content можешь поставить на latent noise, хотя можно оставить fill, а то крыша может поехать
>>861307 Кто-то выше кидал ссылку на разраба форджа2, вот что он пишет >Also people need to notice that GGUF is a pure compression tech, which means it is smaller but also slower because it has extra steps to decompress tensors and computation is still pytorch.
Внезапно оказалось что CFG влияет на скорость генерации, если ставить 0.5 или 1.5 то генерит за 34 сек, а если поставить 1.0 то генерит за 18 сек.... как так я хз... Модель шнель Q4_0
>>861363 Незнаю насчет сдхл, я большую часть времени просидел на 1.5, а там как бы я не выставлял, время не менялось, на хл я недавно перекатился и еще не особо ее прочухал...
>>861363 > Ты по сути убиваешь сцену, детали и упрощаешь объекты. Далбаеб чтоли? Гайденс 1 это превалирующие решения сетки и отключение негативов на других арзитектурах.
Посоны, кто активно мониторин цивитай, вы как-нибудь следите кто там в основном что-то делает с нуля своё, а кто-то и ждёт чтобы миксануть их труд. Чтобы мы знали кто достоин скачивания, а кто какашка.
>>861483 Разве что когда раздела /ai/ ещё не было, а треды по SD были в /b/ вместе с NAI/WD вместе. Оттуда и пошёл форс ненавистных "анимешникам" "копродедов", кстати.. Впрочем, аниме-миксы там были, наверное, популярнее...
Что посоветуете скачать вместо отвалившегося после апдейта Forge Couple? В нём можно было достаточно удобно нарисовать регионы и в них построчно залетал бы промпт. Смотрю на аналоги, там какая-то ебля с цифрами, паттернами.
>>861681 >не работает спеллчек Бля, я думал у меня одного. Сразу эту хуиту заметил и бомбанул. Сам пишу пиздец как бегло и ещё с дислексией проблемсы, думаю что пишу одно, а в итоге хуита и спелчек выручал. Ебаный комфи кал
Флюкс пизданулся на отличненько, сначала вообще не хотел мне по этому промту выдавать картинки, когда там было написано dog collar. Я заменил дога на leather, и он мне внезапно высрал эту хуйню с собакой. Ты ебанутый, флукс??
adult woman on a leash wearing leather collar, with open mouth and showing her tongue, POV view from above, wearing white shirt and black skirt
>>861824 видимо слишком стойкие ассоциации между ошейником и поводком и собаками. в датасете не было НЕ собак в ошейнике и на поводке. думаю чтобы убрать собак нужно убрать поводок или перефразировать его.
>>861871 Это в фотошопе делается за пару кликов. Так же это скриптом имеджмэджика делается за 1 клик. Баловался такой хуйнёй лет 5 назад. Только там было без ебучего боке. Лолсука ору боке на скетчах
Что вы пиздите про одну минуту. У меня на шести гигах может по 10 минут первый заход, вторая генерация уже полчаса. Заебало. Где тут кнопка попросить донат?
>>861764 Вот так-так! А ведь кто-то пиздел про то, что на фокусе НИКОГДА не будет флюкса) Что нужно чуть-ли ни заново переписывать прошу) Очередной раз убеждаюсь в том, что верить здешним пиздаболам - себя не уважать) Я конечно подожду официалочки от автора оригинального и божественного фокуса, но сам факт того, что комфи-выблядкам поссали в ротеш не может не радовать. Теперь лапше официально пизда!
https://github.com/city96/ComfyUI-GGUF Скачать всё Download ZIP распаковать, переименовать ComfyUI-GGUF-main в ComfyUI-GGUF и положить в ComfyUI\custom_nodes Там где лежит run_nvidia_gpu.bat запускаем терминал и вводим .\python_embeded\python.exe -s -m pip install -r .\ComfyUI\custom_nodes\ComfyUI-GGUF\requirements.txt
>>862024 >>862033 >всегда оставляю А нахуя, чо он меняет? Пикрил 60 шагов на дев флюкс голый промпт без обработок. >>862030 А что это за хуйня? Посвятите локального
Лично я считаю что прогресс в генерации изображений - говно. Если dalle 2 по сравнению с первым dalle был революцией, то каждая новая модель - это лишь небольшое улучшение предыдущей. Каждая новая модель лишь чуть лучше понимает промпт и делает текст, все. Глобальные проблемы не фиксятся и всем как будто похуй на них. Галлюцинации? Перегенерю. 7 пальцев на руке? Инпеинт.
>>862196 Сложно. Дело не в пальцах а в понимании формы объекта как таковой. Нейронки не имеют понятия количества и не могут считать, они лишь понимают что если есть палец, то рядом с ним должен быть еще один палец, их количество воспринимается примерно, от 3 до 7, т.к. у нее так же есть понятие что таких объектов рядом не должно быть слишком много. Так же если ты попросишь сетку сгенерить "инструмент", она может, например, сгенерировать какой-то бред вроде плоскогубцев у которых из ручки торчит молоток. А все потому что она понимает что на ручке могут быть металлические детали разной формы лишь визуально, но не понимает в чем реальный смысл этого объекта в реальной жизни. То что делают разработчики сейчас, так это по факту увеличивают размер датасета и число параметров сети, ну и сейчас новую архитектуру гибрид диффузии с трансформерами обкатывают. Это потенциально может дать сетке понимание того что делают эти вещи, но этого она добивается оооочень медленно и при краевых кейсах, которых в датасете было мало, она все равно будет генерить полный бред. Правильный следующий шаг - это объединение ллм с генератором изображений в мультимодалку, чтобы генератор осознавал мир правильно и генерировал пикчи как положено. Такое уже есть у гпт-4о, но эту возможность еще не открыли, лишь предоставили пару примеров генерации и она шикарно может в текст на изображении, но все еще есть косяки. В общем я ожидаю что следующая революция в генерации пикч будет от клоузедов, в их следующей крупной мультимодалке. Ну и да, с ллмками все еще тоже не идеально, они тоже галюцинируют направо и налево, тут нужна крупная революция в архитектуре моделей
>>862262 Если рассматриваешь нелокальные варики, то рекомендую GPT-4o mini. У нее очень дешевая апишка, для генерации промптов доллара с лихвой на год хватит, даже если непрерывно генерить будешь
>>862286 >а локальные аналоги? Не оче эксперт в них. В ллм треде в последнее время гемму 2 нахваливали. Я потестил 27b, русик хороший, но соя из всех щелей, на все что угодно триггерится и не выдает промпт. Попробовал еще 9b, она работает нормально, без сои, но хуже чем модели побольше само собой. Но хз, вроде модно юзать если правильно запромптить
>>862291 Спс. Просто подумывал о ггуф мистраль немо, но даже ггуф q2 её весит 5 гигов. Задолбаюсь с загрузкой в память и выгрузкой каждый раз. Гляну гему пойду.
>>862424 Нет, он готовит флекси 2.0 на совершенно новой архитиктуре собственной разработки, по первым закрытым бета тестам, те пики что я в идел, это отвал башки, ультрареализм и детализаци нереальные, я хз как он этого добился. А по флюсу он высказывался уже, типа хлам микс дримшейпера и нейрошумных кривых пиков из мижорнии.
>>862499 Блять, как же он задний фон блюрит, пиздец просто. А сдохля на заднем фоне нейронов но без детализации делает. Кста, полтарашка неплохо справлялась с задним фоном, можно ли ее использовать на инпейнте, чтоб задний фон исправить на сдохле?
>>862574 Якобы нет разницы? А как по скорости, одинаково? Я не обратил внимание. Мне показалось, что иногда фп16 все же лучше подбирает пропорции под перспективу. Особенно видно на четверой паре, на последней пикче, даже стул нормальный сделало, и так во всем кроме текста. Но, конечно, мне тоже сильно жалко из-за этого держать вдвое больше гигабайт. Для интереса бахнул сравнение на сд3, вообще рандом.
Мимо ньюфаг, имею ноут с AMD Ryzen 7 7840HS и соответственно ВСТРОЕННОЙ видюхой 780М, 32 гига RAM. Я правильно понимаю что на локальные модели я могу даже не смотреть? Генерировать на проце amd вообще реально и насколько сильным будет пердолинг?
>>862599 Неожиданно видяха всё равно участвует в процессе, правда на уровне encode, куда-ядра простаивают, хайпертрединг по барабану, работает только с физ. ядрами. С разницей в скорости ты угадал)
>>862589 >ВСТРОЕННОЙ видюхой 780М RDNA 3, это неплохо по идее. Я на RDNA 2 дискретке с 4 гигами VRAM генерил, не ноут конечно. Вообще для АМДшников есть вот такой форк поломатика, я на нём сидел раньше: https://github.com/lshqqytiger/stable-diffusion-webui-amdgpu А вообще гугли про запуск с помощью ZLUDA.
>>862606 Цп не под 100%. Я забыл - там надо указать кол-во потоков в проце. Например, если 8, то так --always-cpu 8 RAM выжирается много. В подкачку уходит. Сдхл 1024х1024 i3-12100F
Сейчас устанавливаю https://github.com/rupeshs/fastsdcpu из шапки. Сильно отличается от твоего варианта? Как сгенерю поделюсь результатами. При установки такая ошибка ERROR: Could not find a version that satisfies the requirement mediapipe==0.10.9 (from versions: 0.10.13, 0.10.14) ERROR: No matching distribution found for mediapipe==0.10.9 FastSD CPU env installation completed. В ручную скачал и попробовал поставить этот mediapipe - та же ошибка
Когда уже этот ебаный флюс натренирует такой же фанатик как создатель пони. А то сейчас эта хуйня как сд 1.5, хочешь любую позу кроме стендинг ебаш лору на эту позу.
>>862612 Та нейронка с шапки из за ошибки так и не завелась, как фиксить хуй знает. Вот предложенная тобой. По началу оперу жрал под 30 гб. Но со временем все меньше. Проц тоже был под 100, со временем меньше. Конечно генерить картинку под 20 минут такое себе
захожу раз в полгода в тред, поясните за ситуацию: 1.5 насколько я понимаю совсем уже не модно? ХЛ - классека? а тройка и флюк - для извращуг-эккспериментаторов?
попробовал тройку - чет завести ее тот еще экспириенс был, в автоматике вообще не пошла, по переполнению памяти, а в комфи кое-как завелась, не очень хотела подцеплять Т5, два разных чекпоинта с цивита попробовал - что-то странно они генерят - руки хуже чем в полторашке стали, текст тоже как-то не оч выходит, бакафф нихватаит периодически..
из ХЛ - попробовал джагернаута одну и пони, похоже пока не раскусил прикола, надо больше погонять...
>>862685 могу 1070 померять - говори что сгенерить и на чем (только не на флюке)
Дайте system_msg адекватный для LLM чтобы переписывала промпт из тегов в нормальный текст и если тегов мало то придумывала что-нибудь дополнительно. Я сам написал корявенький, для больших промптов с кучей тегов нормально переписывает, а для "1girl, standing, high quality, masterpiece" переписывает плохо.
возня с тройкой дала кое-как результат - оказалось я тупой и не почитал описание модельки на цивите - а она со встроенным ЛСМ оказалась (как по мне - это надо было в названии написать большими буквами) - по крайней мере шустро генерит...
>>862618 Я все таки смог установить, генерит на порядок быстрее. С десятков минут до пары секунд или вполне приемлемой минуты - двух. Поясните за модели: LCM и LCM Lora в 2 словах что это и для чего лучше подходит. И еще вопрос по OpenVino это вроде как только для intel? Есть ли смысл использовать это на amd?
>>862944 Есть обычные модели. Есть отдельная лцм лора для ускорения путем уменьшения шагов. Эту лору можно подключать к любой модели(соответствующую лору к соответствующей модели: 1.5 к 1.5 и т.д.). А можно смержить как-то лору с моделью получится лцм модель к которой не надо лцм лору. Если скачал обычную модель, то надо к ней лцм лору. А если скачал лцм модель, то лору не надо. Кароче тут всё просто, только объяснять збщя.
>>862944 LCM - чтобы быстрее генерировать, в ущерб качеству немного - сильно снижает количество шагов необходимое для генерации меньше 10 шагов можно использовать, а там уже по факту смотреть сколбько тебе достаточно, может и 4 хватит, может больше надо, но и другие настройки по другому работают, cfg больше 2 не поднимают обычно при использовании таковых моделей или лор, так как будут люто пережареные перенасыщеные цвета, и жуткий контраст... лору можно прикрутить к обычной модели, а если LCM встроена - то как обычную эту модель не сможеш использовать...
>>862952 Сгенерь промпт, лень качать с моей скоростью photo of a naked woman, dull frontal front view, fully naked, no clothes, nipples, smiling at viewer, with a tattoo on her stomach, shows the huge text "BUZZ BABY", huge breast, slim waist, pink hair, asian, with background of the Matrix
>Сильно отличается от твоего варианта? Генерить на видеокарте всяко лучше, чем на процессоре, даже если это амд-видеокарта. Фастцпу - это, насколько я знаю, просто генерация с ускоряками типа LCM, в 4 шага вместо обычных 20-40, но LCM и на нормальных вебуях используется. Я предпочитаю Hyper, кстати. >>862944 >Есть ли смысл использовать это на amd? На AMD используется RoCM. Хотя он в основном под линуксы. >LCM и LCM Lora в 2 словах что это и для чего лучше подходит Лцм модель - модель, в котую вжарили технику ускорения генерации, чтобы получать норм картинку в несколько шагов, одна из многих техник ускорения генерации. Лцм лора - техника отдельно в виде небольшого файла, можно подключать к другим моделям, по умолчанию на такое не рассчитанным.
>>863013 а, понял, они там наделали кнопок, для всех "возрастных категорий", раньше только включить выключить можно было, а теперь еще и выбрать правильно... но авторы явно фейкометят, я штук 15 по запросу сгенерил - ни на одном даже намека на соски не было...
сейчас еще что-то 14гиговое скачаю посмотрю... хз хачем они в модели пакуют т5, или его нельзя отрезать от файнтюнов...
кто-то про скорость к стати спрашивал, у меня на 1070 3 сек/итерацию примерно, если одну картинку делать
Объясните, плиз, почему Ксемплер работает в 2 раза медленнее и результат хуже, чем правый на картинке? В официальных примерах именно правый, а в большом количестве шаблонов для флюкса используется левый Ксемплер. Зачем так жестоко подставлять новичков. Да, к нему можно подключить негативный промпт, но вот только он не работает или даже наоборот. Добавляешь слово боке в негатив и боке становится больше.
>>863061 Скорость так же, но тогда негатив абсолютно не влияет и общее качество остается посредственным. И замечу, что в примерах, в галереях воркфлоу цфг не единица.
>>863062 > Скорость так же, но тогда негатив абсолютно не влияет Либо скорость такая же, либо с кастом сэмплером у тебя CFGGuider и скорость не такая. > И замечу, что в примерах, в галереях воркфлоу цфг не единица. Хуй знает, что тут сказать, духи бессильны. Может там вообще не CFG, а guidance во флаксовой ноде.
>>862963 >>863026 нафайнтюненая троечка - соски уже умеет, но чет как-то трешняк гонит - вместо одной тянки иногда две, или с анатомией беды, ну или фон не тот выпадает... пока-что много ролять надо чтоб получилось что надо... хм, или может надо встроенный кодер юзать, проверю на всякий, если будут улучшения кину, если нет - значит без разници...
Боже как вы заебали постить своих пиздотварей, еще и всерьез оценивая модели по тому как она рисует вагиномусор. Natvis скачайте и забудьте про все остальное, оно не для вас делалось.
Палю стратегию генерации. Сначала проверяйте промпт на fastflux ai (впн), а потом генерьте с этим промптом на дев в нормальном разрешении. Там используется шнель, но из-за того что они были дистилированны из одной модели в общем промпт они понимают примерно одинаково, в плане стиля и общих деталей.
>>863251 А может быть ты? Смотрите, комфи даун даже понять не может, когда ему говорят, что он даун. >инстантно порвался и начал вайпать тред батчами с фурри говной
До флюка тоже жобрался, хоть и не с первой попытки... итоги bnb_nf4 вариант годится только тем у кого 12+ видяха (но не стоит все равно, он лоры не поддерживает, лучше гуфа квантованого до нужной битности) квантованый до 4 с натяжкой влазит в восьмерочку, на 1070 около 25-30 сек на итерацию выходит но понимание промта конечно моё почтение... СД3 пока что далеко до такого, но с другой стороны, у сд весомое преимущество есть в виде гораздо более высокой скорости работы... если мажоры с мешками ВРАМа дотренируют - будет хороший компромисный вариант с пониманием промта и хорошей скоростью.
И так в треде много новичков и ньюфагов, КОТОРЫЕ НЕ УМЕЮТ РИСОВАТЬ ЧТО ЖИ, ДАавайте начнём с основ
промт
RAW uhd photo of the most beautiful 60 yo old woman -------- ginger in the world, underwater, hair floating, glistening, real skin, nipples, pores, sexy pose, focus on the perfect face, emotive eyes, smiling and aroused, (wide shot)1.4, nikon z 5, award winning photo, sharp focus, ektachrome
neg
china, japan, render, cgi, digital painting, (text)1.2,(logo)1.2, (watermark)1.2, b&w, (cartoon, 3d, bad art, poorly drawn, close up, blurry, disfigured, deformed, extra limbs)1.5. black. southern nationality. anime. non-sexuality.
>>862963 flux практически справился - азиан есть, воман - есть, пинк хер - есть, матрикс - есть, тату - есть, фули нейкед - нет (но почти есть), анатомия кривовата, но руки и пальци на месте...
>>863273 а кто там чего-то говорил про фаст версию? локально она заводится? и насколько фаст будет ( и какой уровень схожести результатов)?
>>863337 попробуй если не лень, потому что я вроде удалил ее уже... https://civitai.com/models/602832/realistic-freedom-3-experimental?modelVersionId=673863 в описании написано было эйлер и ЦФГ 3-6, на 6 капец пережарено выходило - 1-2 ставил, может там тоже LCM запихнули и не написали об этом? мне тоже показалось что не то что-то, потому что совсем на примеры не похоже, анатомии вообще нет, пережарено... если не лень будет, может завтра еще раз качну погоняю с разными...
ЗЫ никто не в курсе, для комфи есть как для автоматика что-то чтоб сетки тестовые делать с разными параметрами?
>>863339 >локально она заводится? На фастфлакс.аи стоит шнель которая генерит 512х512 и возможно всего в два шага или даже один и это все на хорошем железе, поэтому генерит почти мговенно. Но главное что это бесплатно и можно протестить правильно ли ты написал промпт перед тем как генерить изображение в дев версии 5 минут
>>863338 М-м-м, свежий гайд, по 1.5... года полтора-два назад со свистом зашло б, а так... только для экономии памяти чтоб больше контролнетов загрузить годится а промты писать под каждую модель свои приходится.. универсального на 100% нет...
>>863343 найс тема - сейчас так вообще моментально делает, меньше секунды! тогда зачем локальную крутить, если и так неплохо? чета правда падазритильна, долго ли лавочка такая продержится, что без регистрации генерирует и без капчи... заабузят...
>>863346 >тогда зачем локальную крутить Ну качество так себе да и локалки ставят в основном из-за лор, контролнетов и прочей мишуры, которой лишена базовая модель. Я лично вообще не ставил флакс локально и если хочу сгенерить hq я просто юзаю flux dev в спейсах на хаггингфейсе
>>863349 что там по скорости на хагин фейсе? локально это вцелом понятно конечно что дает озможность воркфлов кастомный сделать - обработать заапскейлить итд... не говоря уже про нестандартные воркфловы....
Там китайци вроде новую жизнь полторашке вдохнуть решили ELLA зарелизили - такая себе попытка в человеческий промптинг, и работают над EMMA - если реально будет как заявили - то пушка будет...
>>863353 >что там по скорости на хагин фейсе? Минуту 28 шагов 1024х1024 генерит где-то. Минус в том что после определенного количества генераций у тебя кончается квота на бесплатные мощности и приходится ждать пока она восстановится
Астралох высрался https://civitai.com/articles/6309 Тренить в7 еще даже не начинали, еще месяц ждать как минимум вероятно, а то и все три (хотя маловероятно, теперь у него не 3 а100, а биткоиновая ферма)
>>863380 А да, будет тренить аурафлоу, ток непонятно нахуя она же еще в бете, хотя в принципе костяк ауры есть и ее можно спокойно с нуля тренить, похуй там что ее ток в 2025 закончат тренить получается
Основная модель для тренировки - AuraFlow, с FLUX в качестве резервной. AuraFlow выбрана за отличное понимание запросов и лицензию Apache 2, которая поддерживает монетизацию. FLUX также является перспективным, но вызывает опасения сложностью обучения и лицензированием.
Создание подписей (Captioning):
Используется модель InternVL2 (40B) для создания подписей уровня GPT-4, с улучшенным распознаванием символов и поддержкой NSFW-контента. Подписи играют ключевую роль в качестве модели, и процесс их создания требует много времени.
Эстетический классификатор:
В V7 обновлён классификатор для работы с новыми типами данных, используя CLIP модель от OpenAI для лучшего понимания эстетики.
Стили художников:
В V7 улучшено управление стилями без копирования конкретных художников. Разработан новый метод, который может отличать стили художников и создавать более универсальные стили.
Датасет:
Выбрано 10 миллионов высококачественных изображений из 30 миллионов. Увеличено количество аниме, обновлено содержание по пони, фурри и мультфильмам, а также добавлены реалистичные фото.
Следующие шаги:
Скоро начнётся мелкомасштабное дообучение модели. Основное обучение начнётся после завершения всех подготовительных работ.
Видеокарта на 8 кеков. Флюкс дев стандартный влезал во врам и было всё ок (чуть меньше 7 секунд на итерацию 3050). Понаставил дополнений в связи со всякими ворфлоу для гуфов и прочей херни и теперь память чуть-чуть не влазит с теми же самыми ворфлоу. Вот так. Из-за этого скорость, естественно, упала(9-16 секунд на итерацию). Как откатится взад? Дата изменения папок не помежет, всё обновилось. Удалить всё в кастом_нодес? Или проще заново комфи поставить?
>>863420 >7 секунд на итерацию 3050 >упала(9-16 секунд на итерацию) Почему, когда у меня заканчивается врам (4060 16GB), то скорость падает с 2,5 до 60+ секунд? Правда, у меня не лапша, а нормальная юугуя, у которой лучшая оптимизация была.
>>863430 Так у меня не входит буквально 100 мегабайт. До было 7.5-7.9, а после 8.0-8.1. Какое-то дополнение подострало. И вот эти 100 мегабайт туда сюда гоняются с видяхи в озу.
>>863450 Я вообще подгружаю лору на 150мб. И она почему-то сжирает оставшиеся гигабайты врама и лезет в shared/ram. Я отдельно не ставил куда, это может быть связано, кто-то знает? Для теста запускал на 1.5, стало быстрей на 8% чем раньше, когда стоял более старый торч, но с кудой.
Я нашел решение. Если подгрузка лоры превышает врам и сжирает 30+гб рама, нужно переключить diffusion in low bits на fp16 lora. По-видимому, оно делает мердж модели с лорой и пытается удержать две огромных модели в памяти. От веса лоры это может не зависеть, мне кажется.
>>863484 Не согласен. Первый пик сразу выглядит как допотопное сд говно, второй тоже стал сильно хуже. Про остальные на странице вообще промолчу - на них блюр. Я даже не замечал блюра во flux, пока не начали тут писать. Объективно с ним лучше выглядит. Он как будто не возникает, где не нужно, и не бросается в глаза.
>>862499 Флюкс отлично справляется с генерацией изображений, даже сложных. Даже на разрешении 1024x1024 он хорошо прорисовывает детали, не размывая их.
>>863430 потому что скорость PCI-E гораздо ниже чем скорость обращения к памяти ГПУ контроллером, это ботлнек, через который постоянно данные гоняются туда сюда при нехватке памяти... ты ж не удивляешся почему когда по оперативке в своп улетаеш все тормозить люто начинает? тут аналогично практически
>>863420 >Флюкс дев стандартный влезал во врам >Видеокарта на 8 кеков Лолшто? Я прикупил 64 гига оперы и имею 4090 и флюкс дев сжирает это всё. На 32 гигах оперы вообще крашился, теперь хоть работает.
>>863569 Вот этот комплект у меня на 3050 идёт в 7сек/ит. А верить или нет мне какое дело. Мне и непонятны были разговоры в теме, что влезет или нет в память. Оно у меня просто работало, пока я с этими гуфами и нф4 хероты не наставил. Думал будет быстрее. В результате скорости не увидел. Да, озу жрало меньше, до 10 гигов с иным комплектом. Но всё испортилось, читай выше.
>>863556 Flux, Forge >>863560 Ну так я удивляюсь, что у других не такое сильное замедление, если выбрать неправильный режим, при том, что у меня 16VRAM 64RAM
>>863386 Что ещё за АураФлоу? Чем он так хорош, кто-то пробовал? Если он так крут, то почему в треде тишина полная и никто не постит генерации на нём, в отличие от того же флюкса?
>>863420 >>863562 >>863563 >>863567 >>863569 Отчёт. Распаковал чистый комфи, обновил его и всё вернулось в норму. Картинка вам, для ориентира, как должен работать флюкс на 3050 на голом комфи. Со всеми этими дополнениями он не влазит в 8гиг. Перегенерация 1024х1024 с изменением промта - 20 шагов 150 секунд, без изменения промта 142 секунды. Озу сильно уходит в своп при начальной загрузке моделей с диска, потом норм, можно генерить.
>>863348 >хоть указывай кому пишеш, и с чего пластик убрать Всем пишу. Пластик вообще с фото - одежда, кожа. Пока получается менее реалистично чем кастомы xl
>>863626 Твой лучший вариант это Пони-модели, чел. Не уверен, что даже они будут из коробки знать все странные позы, которые ты себе навоображал, но лучше ничего нет.
>>863576 тоже не знаю, что там у чела с замедлениями, и куда столько оперативы уходит... у меня замедления нереальные просто если не влазит, а 7.4 на восьмерке занято при Q4, то что больше не заходит...
>>863596 не знаю что там за приколы со свапом огромным, может оно в оперативе хранит и как-то по фасту в гпу грузит если у тебя PCIE 4... сколько у тебя файлик модели сам весит?
>>863755 >>863762 >>863769 Да вы надоели. Что не нравится? Давайте по фактам: Карта, кол-во врам и рам, скорость в секунд на итерацию. Флюкс дев1, не квантованый, оригинальный. Ойлер симпл 1024х1024. Мою инфу я уже показал на скрине.
>>863594 >Что ещё за АураФлоу? >Чем он так хорош опенсурс архитектура аналог сд3 с т5 с отличнейшим понимаем промта
> кто-то пробовал? да >Если он так крут, то почему в треде тишина полная и никто не постит генерации на нём, в отличие от того же флюкса? потому что базовая модель в стадии тренинга и по подсчетам версия 1.0 базовой модели будет выпущена гдето в 2025 году в начале, сейчас версия 0.3 https://huggingface.co/fal/AuraFlow-v0.3 отсуствие финальной версии не мешает астралоху брать архитектуру и тренить поней на ней
Только вкатился в тему, вопрошаю: Для обучения сетки юзаются лоры и с них берет ассеты. По итогу он набирает библиотеку, которую надо будет указывать при помощи ключевых слов. Правильно ли понимаю что надо сначала с SD1.5 качать лоры и потом надрачивать ИИ на свои же картинки?
>>863898 Ага, для того, что-бы нарисовать мокрое пятно на простыне нужно скачать 6 гигов хуй знает чего))
ИТАК: Вопрос в силе, как описать тёмное пятно (группу мелких пятен) на ткани от жидкости??? Оказалось, как всегда, что на такой хуйне ВСЕ обосрутся) Что только не пробовал. Нужно через импейнт нарисовать пятно на простыне.
>>863925 1. технотред рядом, там обучением занимаются 2. что ты хочеш получить скажи (тренить чекпоинты ты не сможеш, если у тебя нет овер жирного железа, так что для простых юзеров остаются только лоры и текстэмбэдинги - второе только для минимальных правок годится, а лоры вполне себе хорошо обучаемые
>>863948 Да, внезапно оказалось что Flux хорошо тренируется, не требует много картинок для освоения концепта. Люди даже умудряются публиковать лоры, которые они натренили на самом civitai за баззы
>>863970 Это мнимое разнообразие. Во первых все эти лоры на персонажей по факту на одно лицо - с точки зрения любого, кто не одержим аниме. Во-вторых, все лучшие лоры, по настоящему разнообразные остались на 1.5 и дальше не апдейтились, причем, ни xl ни эта новая плесень флюкс не умеют рисовать то, что было в тех лорах.
>>863992 Хотя бы в стиле генерить артики, людишек в оновном. С чего начать надрачивать сеть чтобы выдавало ровные результаты. Свои лоры делать, качать, набивать датабанки пикчами-ассетами и прочее. Короче гляну там.
>>863985 Давай ты мне объяснишь, как такое может быть? Скрины я кидал выше. Шаред мемори не начинается теперь, в голом комфи. Как так? Почему ты не веришь? И тогда скажи, по твоему, флюкс дев не квантованная на 3050 с какой скоростью должна работать? Вот я думаю, может какая-то трансформация с моделью происходит на этапе загрузки с диска? Потому и выжирает оно по 60-70 гигов ОЗУ. Есть такая фишка в комфи?
>>863386 > Создание подписей (Captioning): > Используется модель InternVL2 (40B) для создания подписей уровня GPT-4, с улучшенным распознаванием символов и поддержкой NSFW-контента. > Подписи играют ключевую роль в качестве модели, и процесс их создания требует много времени. Meh... Не, ну это конечно заебись, будет лучше, но бля, вот прям дохуя смысла этот слоп пихать в обучение как основу? Он же все проебет. Половины того, что описано тегами, в подсказке не будет, не говоря уж про редкие теги, которые на самом деле важнее частых в контексте одной конкретной пикчи. Лучше бы был жесткий формат с тегами, + расширение типа х делает то-то, y делает другое, хуйнянейм такого-то цвета лежит там-то. Но главное чтобы теги были. Надеюсь они хоть как-то в датасет попадут?
Хорошо что он догадался классификатор на стили натренить, это прям респект, сделал вывод, что у художников могут быть разные подстили - значит правильно работает. Это прям заебись. Но надо еще. Штук 10 подобных классификаторов, на композицию, на перспективу, цветовую палитру. Вот это нужно, а не локальный-ллм слоп в описании. Вот посмотрите на новый идеограм, именно такой подход они применяли, я думаю. Или та же бгг миджорни.
1. Ориг лоурез 2. Аура 4x 3. Даунскейл (scale 0.5 от ауры + pony как база модель + pcm 2 step + cfg 1 + семплер euler_dy + шедулер ддим юниформ (потому что он агрессивный и убирает на экстра низком денойзе шахматку которая проскакивает при апскейлах, ее на второй картинке видно)), денойз 0.05, модель для даунскейла 4xNomosWebPhoto_RealPLKSR
По итогу со всеми пуками выходит 35 секунд от начала до конца, можно еще сильнее убыстрить если присобачить 1степ стабилизатор, взять полторашечную модель вместо сдохли, взять семплер тцд, добавть тигейт, MSW-MSA и тд и тп.
>>864606 В каждом тайле ауры разная текстура коже и швы видно. Но вроде на результате у тебя не сильно отразилось, однако может и проявится. Справа аура слева суперскейл. Еще, для смягчения, можно подмешивать ультрашарп( что как бы должно быть наоборот). Вся фишка твоего результата именно в апскейле и последующем довнскейле, как я не раз показывал в прошлых тредах. А если так сделать последовательно несколько раз, то вообще шикарно будет.
>>864653 >>864660 он мыльные, а если юзать в связке с ультимейт апскейлом еще и долгие на первом аура вс суперскейл на втором есрган
>>864663 >В каждом тайле ауры разная текстура коже и швы видно. я специально вариант где сильно видно выбрал и расписал как убирать, на других входных данных швов может не быть видно >Справа аура слева суперскейл. суперскейл мыльнее, я все модные молодежные апскейлы тестировал >Вся фишка твоего результата именно в апскейле и последующем довнскейле это и показывал, суть вообще в скорости которой можно добиться и по итогу картинка самая четкая получается из всех возможных вариантов, если в тот же размер довнскейлить то картинка мало того что моментально просчитывается так по четкости еще и на уровне флюха ванильного ну и зачем флюх нужен ряяяя тащемта можно и не даунскейлить а поверх проходить против артефактов (есть модели еще для имейдж ресторейшена, тоже годный быстрый вариант), это мне 4х ауры не нужон