Stable Diffusion тред X+51 ====================================== Предыдущий тред >>523273 (OP)https://arhivach.top/?tags=13840 ------------------------------------------ схожие тематические треды - технотред >>478081 (OP) - NAI-тред (аниме) >>523235 (OP) ======================== Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях. Полный функционал в локальной установке (см. ниже)
📃 Стандартные модели stable diffusion (v1.4 - v2.1) от Stability AI значительно отстают по качеству от кастомных моделей (см. ниже). Модели SD XL ставятся и запускаются так же как и любые другие модели SD.
Хочу нарисовать девушку заблудившуюся в лесу, истощённую от недоедания, с комками грязи на теле и волосах, примитивной флягой на бедре, стоящую возле ручья. Получается это. Очень кривые пальцы и лица, промпт истощения нейросетка понимает плохо, флягу на бедре вообще не рисует, комки грязи либо не рисует вообще либо рисует большое пятно жидкой грязи.
masterpiece, best quality, highly detailed, (thin waist:1.2), thinness, nude, (muscular:0.1), nude, (nipples:0.3), (navel:0.3), (slim belly:0.6), (aesthetic small pussy:0.2), Girl got lost in forest, girl leaned on a stone, Tired facial expression, Exhaustion, extreme thinness after prolonged fasting, Girl leans back on a tree trunk, body is stained with dirt, (Disheveled, loose, dirty hair:1.1), (Short hair:0.7) Negative prompt: (worst quality, low quality:1.3), (depth of field, blurry:1.2), (greyscale, monochrome:1.1), cropped, lowres, text, jpeg artifacts, signature, watermark, username, blurry, artist name, trademark, watermark, title, (loli, petite, child, infant, toddlers, chibi, sd character:1.1), multiple view, (blurry:1.4), duplicate, freckles body, (((fat))), (((flat chest))), (((anime))), (((cartoon))), fake, drawing, illustration, boring, close up, distant view, hairy pussy, out of frame, interiors, rooms, furniture, red eyes, (big breast) Steps: 25, Sampler: DPM++ 3M SDE Karras, CFG scale: 8, Seed: 379246058, Size: 512x512, Model hash: 879db523c3, Model: dreamshaper_8, Denoising strength: 0.2, Hires upscale: 2, Hires upscaler: ESRGAN_4x, Version: v1.6.0
>>528479 Какую модель и лору посоветуешь? >IP adapter Как им пользоваться? >контролнеты Интересная тема, надо будет установить. >Не генерируй нюдсы Почему?
>>528511 Вариации этого: wide shot, dehydrated skinny naked woman lost in woods next to a small creek, looks very tired and exhausted and dirty with peaces of dirt on her skin and in her tangled hair, caring a primitive flask on her hip, a small creek in the background Negative: blurry, closeup, distorted, saturated, high contrast, featureless, bad features, cgi, 3d render
>>528515 Низкий поклон, анон. Доработал твой промпт, получилось восхитительно. >and and and Окей. Теперь буду использовать длинные предложения вместо кучи одинарных слов разбавленных запятыми.
wide shot, skinny naked girl lost in the forest next to a small creek, the girl has not eaten for two weeks and her body is exhausted and she is bony, looks very tired and exhausted and dirty with peaces of dirt on her skin and in her tangled hair, primitive leather flask is placed on her hip. Negative prompt: blurry, closeup, distorted, saturated, high contrast, featureless, bad features, child, loli, fat, hairy pussy, big breast, flat chest, Wrinkles, old woman's face, acne, moles, (Adult:0.35), Senior, (Sunken cheeks:0.35) Steps: 20, Sampler: DPM++ 3M SDE, CFG scale: 5, Seed: 3953797139, Size: 512x512, Model hash: 797dab5e63, Model: epicphotogasm_v4One4All, Denoising strength: 0.15, Hires upscale: 2, Hires steps: 2, Hires upscaler: R-ESRGAN 4x+, Version: v1.6.0
>>528626 >A100 80GB Эта ебала стоит 30-40к баксов, буквально 3-4 млн рублей за штуку. Забавно, молодцы, но как-то было бы лучше хотя бы на недорогой RTX4090 потестировать.
Почему часть фона заблюрена? Граница очень резкая, буквально квадратная.
wide shot, skinny naked girl lost in the forest next to a small creek, the girl has not eaten for two weeks and her body is exhausted and she is bony, looks very tired and exhausted and dirty with peaces of dirt on her skin and in her tangled hair, primitive leather flask is placed on her hip, (teenager:0.3), moderately strong muscles on the stomach and on the arms and legs, anatomically correct and realistic muscles, the girl is half-sitting half-lying and leaning her back on a tree trunk, Unhealthy thinness caused by anorexia and a very thin and very small body with clearly visible bones and a complete absence of fat tissue Negative prompt: blurry, closeup, distorted, saturated, high contrast, featureless, bad features, child, loli, fat, hairy pussy, big breast, flat chest, Wrinkles, old woman's face, acne, moles, (Adult:0.35), Senior, (Sunken cheeks:0.35), depth of field, blurred background, blurred, clothes, underwear, bad anatomy, bad hands, unnatural hands, disfigured hands Steps: 20, Sampler: DPM++ 3M SDE, CFG scale: 5, Seed: 2792356713, Size: 512x512, Model hash: 797dab5e63, Model: epicphotogasm_v4One4All, Denoising strength: 0.15, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+, Version: v1.6.0
>>528626 Дистилляция в меньшее число параметров обычно несёт в себе проблемы с высокоуровневыми концептами. Т.е. сетка конечно будет выдавать нечто похожее по стилю, но когерентность будет наверняка хуже. Это справедливо как для LLM, так и для генерации изображений.
>>528687 По-моему, он просто отрисовал одно дерево в фокусе, а остальное заблюрил.
В промт можно добавлять данные о камере. Модели камеры, либо размер кадра, фокусное расстояние в миллиметрах, либо фигню типа film still (кадр из фильма). Можно и диафрагму указывать. "F2.8" тебе должен нормально фон размылить.
>>528755 > В промт можно добавлять данные о камере. > Модели камеры, либо размер кадра, фокусное расстояние в миллиметрах А ещё можно в промт написать midjourney - качество и резкость пиков возрастает минимум в 2 раза. А при добавлении токена dalle3 - модель начинает понимать промт в 10 раз лучше.
>>528150 → Это не нормальный лайн, нормальный меняет вес и т.п. беря в расчёт перспективу, цвет, свет, композицию, смысл происходящего на пикче. Ни разу ещё не видел модель, которая схватывает эти тонкости.
А тем более у лайна для тату свои чисто физические правила, чтоб не расплывалось. Такая же проблема с витражами - модель может выдать примерно похожий стиль, но если ты попробуешь реальный витраж из стекла сделать по этому рисунку, он рассыплется к херам. И прочими подобными специфическими штуками.
>>528442 (OP) Анон, долгое время пользовался www.patience.ai. для рисования, а он второй день лежит уже. Неизвестно ничего на этот счёт? Может быть есть какие-нибудь аналоги?
>>528881 Да это ж толстый троллинг. Онлайн генератор с названием терпение.ai, на котором снова что-то сломалось/перегрузилась/кончились токены, и надо терпеть
>>528735 >To reduce the size of the model, we primarily removed the transformer blocks inside the Attention Layers, we did not observe any significant loss in quality due to this removal. We also removed the Attention and a Resnet layer inside the mid-block since it has been shown to not have much impact on quality. We progressively distilled the Unet block by making it shorter in each stage and then training it. In total, we removed 40 transformer blocks and 1 Resnet block.
Если верить авторам оптимизации, то получается что в Stability AI работают криворукие рукожопы.
>>528903 >We progressively distilled the Unet block by making it shorter in each stage and then training it. Unet это и есть генератор пикч, именно в нём хранится знание об абстракциях и т.п. Дистиллируй его - и получишь говно. Вот комфианон в том треде на плеббите уже показывал хуёвого кота сгенеренного этой моделью, по сравнению с базовой. Тестить в общем надо и сравнивать.
А уже вкидывалась идея писать в шапку каждому новому треду какую-то тему, на которую можно что-нибудь погенерировать? Типа, вот хеллоуин -- запихнуть это в шапку. Вне праздников -- рандом какой-нибудь вписывать (либо идеи из треда, либо уж на усмотрение перекатчика, похуй, в принципе).
>>528801 > Ни разу ещё не видел модель, которая схватывает эти тонкости Так нейрока и не умеет такого, она имитирует на основе своего датасета, точно так же, как и в случае с пиксель-артом.
>>528978 Как раз нейронки могут в эмерджентное поведение, т.е. вычленяют абстракции из датасета. Просто текущие делают это недостаточно эффективно для подобных вещей. Но так-то это реально, при дальнейшем развитии темы. Особенно мультимодальных моделей, которые уже могут и книжку с картинкаме прочитать, или связать их воедино.
beautiful 2 girl dressed in thong, hairly labia, hairly vagina, low angle shot, view from bottom, shot from behind
a full body portrait a uniquely cute redhead girl 25yo with red hair, perfect female specimen
1girl,long hair, braid, blonde, spread legs, (pussy:1.2), pussy drop water, nude, peeing, naked, from behind, big ass, ass focus, looking at viewer, at school, light smiling
>>529321 > не превзойденный шедевр. Вау, охренеть анон, портрет бабы с сиськой, вот это да, я такого ещё не видел в этом треде, как ты это сгенерил? Это правда сд? Выглядит как настоящее фото, не отличить вообще, я в шоке.
Прекращаю попытки что-то нагенерить и ухожу в рид онли. Руки не пофиксили Что бы сделать одну фотореалистичное фото нужно пердолиться неделю SDXL так и не довели до ума, 1.5 уже достиг пика IP-Adapter SDXL тоже не допилили Обновлений каломатика нет уже 2 месяца
Попробую через месяц/два, может к тому времени уже и RealVisXL V3 будет и адаптер подвезут.
>>529479 > Так он это из соседнего треда притащил. Охренеть чудеса какие - генеришь пик в сд, постишь в дали треде предварительно переименовывая, затем постишь это в сд тред, и пик становится пиком сгенереным в дали. Это прям аномалия какая-то.
>>529488 Клоун, ты или твои местные сдшизы сами разводят срачи, лезут в дали тред с сд говном. Хз зачем, пытаются что-то доказать. У вас в треде никто не постит пики из дали.
>>529491 Если кто и лезет туда, так это тролли, которые создают видимость, что можно что-то сгенерииь в обход цензуры. Там с ними и разбирайся, нам то какое дело до того, что у вас там анальная цензура?
>>529491 > У вас в треде никто не постит пики из дали. Если не считать 12 или 13 постов с дали пикчами плюс еще пару потертых, а так да, никто, кроме тебя не постит.
>>529495 Кроме мыла дохуя мелочей. Рог вместо хвоста, отсутствующая кисть на руке, рог посередине лба, пропорции морды козла вместо коровьих стали козлиные. Cложно винить далли на самом деле, ему же запретили генерировать знаменитостей, так что народ вместо "Райан Гослинг" пишет что-то типа "фермер из Канзаса, который выглядит, как Райан Гослин, но на самом деле его зовут Джек". Токены не резиновые, все мастерписи теряются.
>>529507 > народ вместо "Райан Гослинг" пишет что-то типа "фермер из Канзаса, который выглядит, как Райан Гослин, но на самом деле его зовут Джек" Некоторые вроде неплохо научились обходить, с относительно неплохим качеством картинки, но большинство просто наваливает мыла и артефактов для обхода.
>>529557 Да нормально у него всё. Кроме рук и глаз местами. Твоего слендермена тоже обосрать можно. Даже больше, реальные фотки людей тоже обосрать можно.
dalle 3 который щас в открытом доступе жрёт в 10 раз больше места, и вычислительных мощностей и показывает это. разница между SD и этим, просто колоссальная.
портретное фото женщины с приглушённым светом. держит розу за стебель в зубах. показывать зубы. смятение и смущение на лице. рыжие волосы. веснушки. белое платье из бус.
>>529660 Показывает что? Композицию понимает и промпта случается, а в качестве то проигрывает жезенько В идеале надо композицию в далли хуярить, а рендерить в СД, чтобы от мыла избавиться и разрешение повысить
Как сделать видео с помощью sd? Я где-то видел ссылку на ютуб в наи, где американец показывал на примере с диснеевскими принцессами, но походу проебал и ссылку, и видео. Я имею в виду генерацию последовательности кадров
>>529786 Ладно, надо было --listen убрать из аргументов запуска. Тогда другой вопрос, почему эта штука возникает? У меня контролнет не работает как нужно. Это потому что у меня старый сд? (Февральский)
>>529794 Я посмотрел форумы, так советовали обновить градио. Я обновил, какая-то зависимость требовала более старую версию numpy, или как там его, и пип автоматически его даунгрейднул до версии 1.24. И после этого обновления градио у меня не только не исчезла ошибка с контролнетом, у меня еще с остальными скриптами появились ошибки. С контролнетом тоже ошибок прибавилось
>>529816 А как он может мешать генерировать-то? Не сарказм, я просто реально не понимаю. Все ведь все равно в модели зашито. Генерирует он все, что захочешь. Порой даже проблема, чтобы он НЕ генерировал это ебучее нсфв.
>>529822 У тебя явные проблемы с анатомией, первая слишком узкая и длинная, будто растянута в длину, а у второй огромная голова на фоне маленького тела. Короче, проебы в пропорциях. У третьей слева нет внутренностей.
>>529688 Нафиг ты на русском ввел. И надо не sd 2.1, на sdxl
>>529677 Это +, пикрил 1-е сделал анон в dalle-3, 2-е - я апскейнул в 2 раза с помощью sd. 3-е - в 4 раза
>>529693 > дэль 3 жрёт 60 гб видео памяти и 32 гб памяти ram и база 150 гб
Ты шиз что ли? Или у тебя столько браузер сжирает, с запущенным аккаунтом майкрософт? Пока не опен соурс об этом нет смысла говорить. Опенсорсный аналог дали кстати есть: dalle-mini. Умер год назад, так как алгоритм sd тупо лучше. А что сейчас они сделали с алгоритмом - никто не знает
>>529660 > dalle 3 который щас в открытом доступе жрёт в 10 раз больше места, и вычислительных мощностей и показывает это
>>528442 (OP) У меня проблема, не могу использовать ControlNet. После его установки, включения и начала генерации, начал загружаться файл clip_h.pth на 2,35 гигабайта, а потом ошибка: AttributeError: module 'torch.nn.functional' has no attribute 'scaled_dot_product_attention'. Помогите.
>>529940 >>529938 f:\AI\sd.webui\webui\venv\Scripts>pip.exe install --upgrade torch Requirement already satisfied: torch in f:\ai\sd.webui\webui\venv\lib\site-packages (2.1.0) Requirement already satisfied: filelock in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (3.12.4) Requirement already satisfied: typing-extensions in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (4.8.0) Requirement already satisfied: sympy in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (1.12) Requirement already satisfied: fsspec in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (2023.10.0) Requirement already satisfied: networkx in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (3.2) Requirement already satisfied: jinja2 in f:\ai\sd.webui\webui\venv\lib\site-packages (from torch) (3.1.2) Requirement already satisfied: MarkupSafe>=2.0 in f:\ai\sd.webui\webui\venv\lib\site-packages (from jinja2->torch) (2.1.3) Requirement already satisfied: mpmath>=0.19 in f:\ai\sd.webui\webui\venv\lib\site-packages (from sympy->torch) (1.3.0)
[notice] A new release of pip available: 22.3.1 -> 23.3.1 [notice] To update, run: python.exe -m pip install --upgrade pip
Обновил и через sd.webui\webui\venv\Scripts\pip.exe, и через sd.webui\system\python\Scripts\pip.exe, но ошибка осталась прежней. У меня версия Installation on Windows 10/11 with NVidia-GPUs using release package
>>529810 Скачал civitai browser, но не могу обновить или скачать ни одну модель, сразу же возникает это. В консоли только та же самая ошибка без каких-либо пояснений или логов. Впн не помогает, отключение брандмауэра тоже.
>>530072 У меня проблема, не могу использовать ControlNet. После его установки, включения и начала генерации, начал загружаться файл clip_h.pth на 2,35 гигабайта, а потом ошибка: AttributeError: module 'torch.nn.functional' has no attribute 'scaled_dot_product_attention'. Помогите.
Продублирую еще раз, у меня случайно пост прикрепился. Скачал civitai browser, но не могу обновить или скачать ни одну модель, сразу же возникает это. В консоли только та же самая ошибка без каких-либо пояснений или логов. Впн не помогает, отключение брандмауэра тоже.
>>530083 Торча, скорее всего. Или питона, в этом говне часто бывает что на более современных версиях не идёт. Хз в общем
>>530088 6 ГБ, новая дистилированная модель может быть пойдёт на 4. Инференс работать будет. Обучение требует 12ГБ минимум, но надо ужаться в хлам, лучше 24 хотя бы.
>>530091 Питон у меня в папке с диффузией (У меня версия Installation on Windows 10/11 with NVidia-GPUs using release package). Обновлял только torch через pip, не питон. Пишут, обновление торча должно помочь. Но не помогло.
>>530106 Если запускать pip.exe из папки venv, то там вообще нет ни одного пакета с припиской cu117. cu117 появляется только в pip.exe из папки system\python\Scripts.
Python 3.10.6 (tags/v3.10.6:9c7b4bd, Aug 1 2022, 21:53:49) [MSC v.1932 64 bit (AMD64)] Version: v1.6.0 Commit hash: 5ef669de080814067961f28357256e8fe27544f4 Traceback (most recent call last): File "F:\AI\sd.webui\webui\launch.py", line 48, in <module> main() File "F:\AI\sd.webui\webui\launch.py", line 39, in main prepare_environment() File "F:\AI\sd.webui\webui\modules\launch_utils.py", line 356, in prepare_environment raise RuntimeError( RuntimeError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check Для продолжения нажмите любую клавишу . . .
>>530106 Спасибо от всей души, анон. Действительно, я обновлял не тот торч, который использовался диффузией. Теперь у меня внизу такая строка version: v1.6.0 • python: 3.10.9 • torch: 2.0.1+cu118 • xformers: N/A • gradio: 3.41.2 • checkpoint: 797dab5e63
>>530169 Имеется в виду что базовая модель тренилась быстро.
Они (ещё?) не публиковали веса. Но они утекли в сеть, аутисты с соседней помойки уже тестили. Там в качестве кодера промпта налеплен трансформер на 11млрд параметров, поэтому эта штука жрёт VRAM как не в себя. Так что трансформер этот придётся запускать либо квантизованным до 8/4 бит, либо вообще на ЦПУ, либо заменить на что-либо ещё попроще. А вот сама генеративная часть маленькая - всего 600 млн параметров, меньше чем у SD 1.5. Неплохой результат для выходного качества, и лоры клепать будет проще.
>>528624 Мужик, только вкатываюсь в генерацию, подскажи что за модель у тебя, не спрашиваю промпты, просто не могу найти нигде подобной портретно-пейзажной с таким ахуенным стилем
>>530169 Хм, то есть в 10 раз быстрее обучается, но при этом требует в 10 раз больше памяти. Наверное еще и долго генерирует. Выглядит как просто размен одного ресурса на другой
А это правда что ли, что на обучение sd 1.5 было потрачено $320k? Ого
>>530222 Генеративная часть там меньше даже чем у SD, жрёт меньше полутора ГБ. Дохуя жрёт языковая модель, 22ГБ в полном масштабе или 6-11ГБ квантизованная. Её можно выгрузить на ЦПУ.
>>530446 Юзай оба, если машина тянет. SDXL может в более сложные концепты, но для SD пока что более развиты инструменты (больше типов контролнета, нод и т.п.)
>>530446 ХL понимает более простые промпты лучше, но понимания каких-то сложных вещей от неё не добиться. Нужно 8+ гб видеопамяти для XL, если без рефайнеров. А на полторашке получаются более красивые картинки, но там и промпт составить сложнее и быстрее упираешься в разрешение. Хотя и ресурсов в целом нужно меньше.
>>530471 dutch angle night flash photo of a chupacabra jumping at russian village,Trail_camera_footage_deep_night_horrible_cursed_image_barely_visible_background_cold_colors_night_vision_obscured
>>530486 >но там и промпт составить сложнее Это конечно если ты вообще ебёшься с промптами, а не используешь контролнеты, перенос стиля и пачку рефов. >и быстрее упираешься в разрешение Это конечно если пытаешься впихнуть всё в одну генерацию, а не фотобашишь и композишь, с фотобашингом можно сделать хоть триптих уровня все_ебанулись.жпг
>>530532 Рефы это референсные картинки, с которых ты переносишь стиль или объект или другую фичу. Не обязательно спижженые в гугле, могут быть например нарисованные/сгенеренные. Например можешь сделать персонажа в стандартной позе или даже раскадровку с разных ракурсов в Т-позе, а потом использовать в качестве референса и задавать ему разные действия контролнетом/t2i адаптерами. Способов переносить рефы много, уровень ебли разнится от способа к способу. Текстовая инверсия, лора, файнтюн - требуют от 5-10 до 10000 пикч и немалой еботни. Однокартиночные, в порядке убывания действенности - IP-Adapters, reference-only controlnet, shuffle controlnet. >img2img? Img2img это самый простой и хуево работающий способ. Разные способы инпеинта управляемого контролнетом, композиция в латентном пространстве и т.п. работают гораздо лучше и позволяют собирать огромное количество деталей на одной пикче и комбинировать действия разных персонажей (правда с последним ебли много и гарантии мало, t2i coadapters через fuser немного помогает, но они ограничены и в целом это как повезёт). Фотобашить лучше с развитым инструментом, например бесконечная канва в InvokeAI или плагин к фотошопу/крите/блендеру.
>>530543 >раскадровку с разных ракурсов в Т-позе, а потом использовать в качестве референса и задавать ему разные действия контролнетом/t2i адаптерами. Контролнет меняет одну картинку на основе одного референса. Я не знаю как использовать там несколько входных картинок.
>>530556 Нет, это совершенно другая штука. Отдельно тренированная на 10 млн пикч сетка, которая на пару с CLIP Vision извлекает фичи из референса и толкает саму модель в нужную сторону, что-то типа лоры из одной картинки (или нескольких). Контролнет же встраивается в другом месте, он задаёт ограничения для генерации. >>530555 Контролнет меняет одну картинку на основе одного референса. Я не знаю как использовать там несколько входных картинок. Любой метод, извлекающий фичи, например IP-Adapter. Он совместим с контролнетами, т.к. работает в другом месте конвеера.
>>530555 Ну или коллаж с позами в одной пикче, затем контролить ей через референс-онли, revision или другой экстрактор. (вот это я не тестил на практике, надо попробовать насколько прокатит)
>>530558 >Фотобашинг не поможет, если весь кадр должен занимать один четкий объект. Поступить так же как и с ландшафтами без единого фокуса внимания - делаешь объект одной генерацией, апскейлишь, затем куски детализируешь вручную по смыслу происходящего в тайле
Для фотореалистичных людей уже есть годные модельки для SDXL? Последний раз проверял летом и они очень сильно проигрывали какому-нибудь analogMix 1.5, а для порно так вообще был полный треш.
>>530592 >>530598 Совсем недавно выпустили 6-ой Джаггернаут XL, но это еще не уровень эпикреалистика, хотя можно сказать что уже на уровне Реалистик Вижн на sd 1.5
>>530610 Дотренировка модели на отсутствующих данных (dreambooth например), чтобы получился новый чекпоинт. Лора это обычно попроще, там редко юзают больше 100-1000 пикч.
>>530634 Двачую. Ни прыщей, ни ганрены, ни волос на груди нет, не бывает так, не верю. Встаньте из-за пеки, потрогайте траву заросли на ногах у ближайшей тянки.
>>530707 > покороче Если еще укорачивать, изюминка может вывалиться. > И вот с этим А тут слишком длинное. Контекста не хватает, чтобы нормально колени поместить.
Есть в комфи еще какой-то вариант для нормального контроля имг2имг, кроме тайлового контролнета? Слишком уж сильно срет без my prompt is more importaint.
>>530825 Что ты подразумеваешь под контролем img2img? Контролнетов разных куча, нод куча, вариантов раскидать сопли куча.
Сам по себе img2img здесь сводится к переводу пиксельной пикчи в латентное пространство через автоэнкодер (VAE encode) и использованию его для сэмплера; это странный способ делать вещи, который толком ни для чего не работает хорошо. В целом в комфи можно плодить намного более разнообразные трюки, к примеру запилить перерисовку через IP-adapter plus, или сегментировать картинку, получить маску одежды, запилить инпеинт или вариацию кучей разных методов, и т.п.
>my prompt is more importaint Вообще, у ноды controlnet apply регулируется вес, можно приглушить. Но конкретно эта галочка в автоматике делает следующее - она применяет контролнет не на всех итерациях, а допустим на 3/4 стартовых итераций. В комфи ты можешь поставить не KSampler, а два KSampler Advanced, в первом будет применяться контролнет с шага 0 по 75%, а второй будет семплировать как обычно с 75% до 100% шагов. Это будет полный эквивалент.
>>530871 > подразумеваешь под контролем img2img? Ну чтобы не распидорашивало большую пикчу. Попробовал Tiled Ksampler, вроде лучше, чем ultimate sd upscale делает, но нужен нормальный способ тайлы денойзить без протекания ёбел в деревья и т.п. > она применяет контролнет не на всех итерациях, а допустим на 3/4 стартовых итераций Интересно. Не так я себе это представлял, когда читал описание этой фичи, когда она появилась, надо будет перечитать. Чем это отличается от Ending Control Step в автоматике или end_persent в комфи? > В целом в комфи можно плодить намного более разнообразные трюки, к примеру запилить перерисовку через IP-adapter plus, или сегментировать картинку, получить маску одежды, запилить инпеинт или вариацию кучей разных методов, и т.п. Ага. Видосики на ютубе красиво выглядят, но с моим железом 90% этого либо вообще не работает, типа IP-adapter, либо вылетает с OOM на чем-то больше 1152х1536, да и с этим размером кряхтит на грани краша пеки. Ручной инпейнт "онли-маскед" я так и не допер в комфи.
>>530881 >Видосики на ютубе красиво выглядят, но с моим железом 90% этого либо вообще не работает, типа IP-adapter, либо вылетает с OOM на чем-то больше 1152х1536, да и с этим размером кряхтит на грани краша пеки. Человек, у меня это прекрасно работало на GTX 970 всё когда-то, просто медленно. Для высоких разрешений надо раскидывать по тайлам. IP-Adapter вообще не сильно жручий. Если у тебя реально старое железо, можешь взять InvokeAI, это что-то вроде гибрида автоматика и комфи, он быстрее чем оба на старых видюхах обычно.
>>530881 >Интересно. Не так я себе это представлял, когда читал описание этой фичи, когда она появилась, надо будет перечитать. Чем это отличается от Ending Control Step в автоматике или end_persent в комфи? А это я просто еблан по ходу, в автоматике же это в отдельную фичу выделено, я как раз про итерации и говорю. В любом случае это имитируется в комфи легко, если вспомнить что точно эта фича делает
>>530881 >нужен нормальный способ тайлы денойзить без протекания ёбел в деревья Контролируй общий выхлоп контролнетом, чтобы не протекало, сходу не скажу по какой схеме, т.к. тайлы мало пользую на новой машине
>>530888 > Если у тебя реально старое железо Проблема не столько в старом железе, сколько в специфическом. 5700 работает только с торчем 1.13.0, ip-adapter и еще чего-то требуют второй торч. Плюс запускаю в докере с убунтой 20.04, в которой питон 3.9.5, еще некоторые расширения в автоматике и многие кастомные ноды в комфи отваливаются. Можно и нативно запускать с 3.10 питоном, но тогда приходится ждать минуту при на первой генерации после каждого запуска. > InvokeAI Ну уж нет. Пробовал его, еще когда только в дев был, но тогда функционала мало было. А потом еще раз попробовал, он повсюду новые папки создает, модели каким-то ебанутым способом нужно добавлять, так еще и врам больше жрет, чем автоматик/комфи с sub-quad-attention. >>530891 Ну вот я тайловым и контролировал, но без my prompt is more importaint он хуйни набрасывает, типа разводов на земле на пик3 >>530825, а чем еще можно, я хз. Можно бы еще softedge попробовать, но я его нихуя не вижу среди препроцессоров.
>>530905 Свинью в img2img, хуйню с первой в референс контролнет. 2 и 4 - reference_only, Style Fidelity - 0.75. Если и цвета нужно перенести, то вторым юнитом еще что-нибудь подключай, если памяти хватает, например shuffle или еще чего.
Аноны, это тут можно нагенерировать такие пикчи это просто примеры, которые я нашел ? Кто-нибудь генерирует пикчи на заказ? Я олд, мне сложно в этом разобраться и я готов заплатить за работу правда я не знаю сколько это может стоить, наверное надо пиздовать на какой-нибудь апворк, но решил спросить сначала здесь. Нужны пикчи с например слово LOVE и какие-то цветочки --ar 3:2. Целевая аудитория — американские домохозяйки, картины в рамке на стену.
>>530920 В таких гибридах всегда используй хайрез фикс, как у него >>530914. На 512х512 проблема с низким латентным разрешением (всего 64х64 получается), от него лезет нейропонос.
>>530922 > хайрез фикс Там обычный img2img сразу в 1024х576. >>530923 Галку жмакнуть нужно, чтобы пикчу загрузить можно было. Ну и модель скачать, если у тебя нет.
>>530921 Да, это всё делается через этот контролнет https://civitai.com/models/137638 >американские домохозяйки, картины в рамке на стену Пиздишь небось, будешь боевые картиночки лепить
>>530932 Денойз повысь, до 0.7, например. Ну аспект другой выставь, чтобы не сжимало. Можешь заодно предварительно пикчи уменьшить, чтобы меньше ресурсов жрало. >>530935 На изначальном пике светлый бэкграунд, ну и дракона дохуя синего. Вот тебе вариант с добавлением shuffle. Но со вторым юнитом у меня пк уже обсирается, поэтому делай сам.
Сукко Вот использую лору на Onoff (это где слева в одежде, справа без одежды), и не получается никкуя сделать так, чтобы татушки были только на коже. Постоянно уходят как принт на одежду. Лоры на татушки тоже не особо помогают, игра с промптом как-то тоже Накидайте идей, как это пофиксить пик1 более-менее из удачного пик2 что получается в бОльшей части случаев
Кто там хотел посмотреть на Pixart-alpha? https://github.com/city96/ComfyUI_ExtraModels#pixart (утёкшие веса тут https://rentry.org/wgq4n) это пробный камень, результат скорее всего отличается от авторского, потому что оригинальные шум и сэмплер не релизнуты. Жрать должно от 6ГБ VRAM. Сама модель выглядит лучше чем SDXL по пониманию промпта. Оптимизон возможен, но скоро не ждите, нужна поддержка библиотек.
>>531011 Так тебе ж сказали имг2имг, в контролнете 1 юнит -> рефренс со стайлом фиделити 0,75 второй юнит -> шаффл В оба юнита одну и ту же красочную пикчу, в сам имг2имг твоего хряка Ну а дальше играться с промптом и настройками контролнета >>531013
>>531025 >>531023 Ну и промпт покажи какой ставишь Плюс возможно у тебя модель не могет в подобные картинки (если например она только на фотореализме людей)
>>531035 Он тебе дает еще 2 пикчи (собсна референт и шафл), там дальше гляди как-что куда двигать -- там вот видно, какие элементы куда ушли.
Дальше остается играться с весами, промптом и денойзом.
На этих пиках >>531020 в референс попала только голова дракона того, поэтому свинья вот смотрит вправо Думаю, если обрезать референсный пик / флипнуть картинку по горизонтали, то будет получше
>>531038 Возможен варик, что некий безрукий чорт "редактирует" всраткам анкетные фоточки для сайта знакомств "Вскочи на хуй Ашота" за шекели. Как-то больно активно он тут присосался.
>>531041 Бля, будь у меня выход на желающих такой редакт и готовых платить шекели дам, я бы озолотился. Укоротить платье-увеличить грудь-поправить что-нибудь -- дело буквально 30 секунд
>активно присосался Да ладно тебе, пара пикч-то по сути. а еще я что-то потерял реквест-тред, его ни тут, ни на нейрофапе нэма. Куда дели?
>>531061 >Тред А нет случайно онлайн генераторов тем? Перекатчик мог бы ролить генератор и приписывать опционально текст генерации в оп. Было бы славно.
>>531092 Что-то да, все какое-то неживое. >>531084 Есть конечно, но боюсь, начнется срач из-за выбираемых тем треда. Вот если б привязать там к праздникам/еще каким событиям, было бы логичнее. >>531105 ХЛ-модель?
>>531123 > ХЛ-модель? Всё тот же новый найтвижн. > но боюсь, начнется срач из-за выбираемых тем треда Учитывая, что шапку никто не читает, в топе причин для срача тема треда будет на последнем месте.
>>531037 >>530905 Прикол в том, что все эти референсы кропаются до квадрата и ресайзятся до довольно низкого разрешения перед тем как попасть в конвеер, и фичи которые не в центре тупо режутся. (например IP-Adapter работает с 224х224, насчёт референс контролнета не знаю) Поэтому длинные пикчи не давайте, лучше сами обрезайте реф как надо, и может быть давайте ему крупный вид без хуйни по бокам, если хотите чтобы оно деталюхи ухватило. IP-adapter выгоден тем что ему можно надавать сразу несколько рефов, а не один, и запечь в эмбед.
Только в этом примере от Комфи проблема в том, что заливается все цветной маской и можно делать только инпейнт с денойзом 1.0
Если хочешь уменьшить денойз, используй мой пример из пика 1
Потом, если захочешь повторить Only Masked Inpaint (кроп зоны с маской для инпейнта на высоком разрешении с последующим сшиванием и даунскейлом - хорош для лиц и рук), используй мой пример из пика 2
>>531178 >Тебе в тред фотошопа. Нахуй загружать фотожоп, который требует чуть ли не больше чем SD для плавной работы, если можно просто выделить область картинки и написать нейронке, что там должно быть нарисовано?
Ставлю всё по инструкции: тяну с гита, ставлю питон, всё нормально делаю, но при запуске ругается что торча некорректной версии. и чрезе конду уже пробовал и через пип, заебался, раз 5 все заново переустанавливал и скачивал. один хуй при запуске в консоль срёт пирклтд Есть погромисты в чате?
>>531462 Тоже были ошибки, пока не научился заходить конкретно в Venv - нихуя не вышло. Запускаешь консоль, там CD в папку автоматика, потом в venv\scripts\start.bat. И тогда уже пипом ставишь-удаляешь.
>>531319 Я не он, но спасибо за совет. Интересно впервые инпейнт на сдхл попробовать, гораздо лучше встраивается в общий контекст, чем 1.5, на которой слишком палится инпейнт без global_harmonious контролнета на гораздо более высоком разрешении, чем окружение маски. Может заодно подскажешь, как SAM Detector заставить только лицо или только руки выбрать? Или только руками маску рисовать?
>>531492 А всё, разобрался, нужно было Confidence на максимум выкрутить. Но отдельно руку так и не смог заинпейнтить, вылезает OOM во время декода, возможно нестандартное разрешение (1024х465) инпейнта как-то всё ломает, хотя отдельно лицо успешно прошло на 759х1024. А способа зафорсить квадрат 1024х1024 я не вижу.
>>531492 Есть кастомные ноды для CLIPSeg. Он позволяет выбирать маску промптом. А с SAM можно как-то ещё тыкать на пикчу и выбирать нужные сегменты мышкой
>>531511 >А способа зафорсить квадрат 1024х1024 я не вижу. Способ есть, кажется ты просто не поставил combined на True в MASK to SEGS. Если combined стоит на False, то он каждую нанесенную маску генерит отдельно и для каждой свою область кропа делает, а на True оно объединяет все маски в одну и делает для них общую область кропа. Ну еще может у тебя crop_factor слишком высокий стоит, у картинки просто не хватает пискелей, которые можно включить в область кропа. Попробуй его поставить на 1, если в промпте указать что это рука, SDXL должно справиться на твоем значении денойза.
>>531565 Из того, что я заметил, там есть возможность в SEGM Detector (SEGS) ноде выбирать сегменты с моделью yolov8m-seg.pt, но там самое мелкое - это person. И есть еще media pipe, но там только лицо и его составные части. А с BBOX у меня OOM. >>531594 > combined на True Пробовал. Он тогда вообще на всей пикче отрисовывает без кропа/увеличения, даже с crop_factor 1.1, хотя маска только на двух кистях рук снизу пикчи. Может есть еще что-то, кроме импакта, с нодой, где можно вручную выбрать разрешение инпейнта?
>>531759 Где-то живот потеряла. По уму надо (curvy body:1.6) писать в прумпт, а не это вот все. Вон какая толстоногая чертовка, представляешь, как она пердит?
>>531773 > Сделайте плиз Охуенно ты придумал, без промпта/модели. Так или иначе, включай при апскейле reference_only контролнет и выкручивай побольше Control Weight и Style Fidelity.
Баловался вчера через https://getimg.ai/text-to-image , получался пкрлетед. Натягивал на фото свои промты. Сегодня поставил себе дифузию, поставил также контролНет, но нихуя близко ничего не получается. Выходит полная сранина. Как зафиксить? Я тут новенький
>>531811 на пике не SD, а ссылка из гуглового поика по запросу "бесплатная нейросеть для картинок". я с ней вчера поигрался и хочу так же в SD. поставил всё из шапки. Но как я понял, надо навалить моделей и прочих настроек, пока не особо вкурил, чет дохуя всего похожего: модели, методы, расширения, препроцессоры и прочее. Что конкретно я хочу: взять фото и сделать его, например анимешным/технофашистским/вархамерским/бордерлендским/киберпанковским и т.п.
>>531867 Да хуй его знает. Поспешил я с выводами про инпейнт на сдхл. Всё равно сильно палится вокруг голов. Похоже нужно таки более точную внешнюю маску загружать и больше crop_factor выставлять, чтобы уменьшить проеб текстуры. Но есть подозрение, что и это не поможет, т.к. в апскейленном оригинале зерна дохуя, а Detailer апскейлит для инпейнта хуй знает чем, но точно без модели.
>>531725 В Impact Pack есть CLIPSeg Detector Provider, в нём буквально строку пишешь, например umbrellas или trees, и оно тебе выделяет зонтики у прохожих на пикче, или деревья. Ещё там есть нода Preview Bridge, в которой ты литералли щёлкаешь по пикче мышкой и оно выделяет выбранные объекты маской.
Ещё есть препроцессор сегментации у контролнета - он тебе раскрашивает всю пикчу в ложные цвета, детектя объекты, можешь тупо вырезать все цвета кроме нужного постобработкой и получится маска. В его цветовой кодировке 150 классов объектов (машина, собака, здание и т.п.), каждому классу соответствует фиксированный RGB цвет.
>>531939 Да, функционал несомненно охуенный, но большинство из этого у меня не работает, т.к. вылезает out of memory, если область сильно далека от квадрата.
>>531943 >зайди на civitai и скачай себе какой-нибудь пару моделей из топа чекпоинтов ага, вроде вкурил немного. скачал anything, вроде получше хоть что-то делается.
>>532046 8Гб амд с --force-fp32. Проблема в том, что он успешно отрисовывает 1920х1080 и инпейнтит 1024х1536, но обсирается на 1024х497 при инпейнте на vae decode при встраивании хуйни обратно в пикчу. Сомневаюсь, что --lowvram тут как-то поможет.
>>530609 > выпустили 6-ой Джаггернаут XL Гавно этот джагернаут как и все остальные xl модели, только одна заслуживает внимания: https://civitai.com/models/133808?modelVersionId=191882 Это единственная модель где автор допиливает анатомию на своём датасете и где есть NSFW.
>>531725 >где можно вручную выбрать разрешение инпейнта? Ну так это вроде и есть guide_size (размер короткой стороны региона инпейнта) и max_size (максимальный размер для любой стороны региона инпейнта).
Ну можно еще guide_size_for поставить на bbox, только я все еще не понял, что это меняет.
>>532058 Так уменьши разрешение пикчи при генерации и инпейнте, потом апскейль, делов-то. Вам бы, макакам, сразу чтоб в монитороразрывающем разрешении хуярить.
>>532226 >>532227 Все доморощенные ухищрения для темпоральной стабильности в SD - это полировка какашки. Темпоральная стабильность сама по себе была решена ещё пару лет назад, причём в рамках целого видео, но для неё нужно решение специально под это заточенное. https://isl-org.github.io/PhotorealismEnhancement/
>>532247 guide_size для crop_region - минимальное разрешение длинной стороны кропнутой пикчи вместе c паддингом от crop_factor после апскейла для инпейнта инпейнте, guide_size для bbox - минимальный размер без паддинга от crop_factor. Ни то, ни другое не помогает контролировать разрешение пикчи при апскейле, т.к. задает только одну сторону. Кроме того, crop_factor тупо умножает длину/ширину кропнутой области, в отличие от паддинга в автоматике, который добавляет к ширине/высоте. Близость к квадрату можно можно частично зафорсить, если вручную дорисовать маску, но она должна быть цельной, нельзя просто поставить крохотную точку где-то на носу, чтобы фиксить пальцы, как в автоматике. Но необходимость дорисовывания маски сильно умаляет всю прелесть от SEG детектов.