Stable Diffusion 🙴 Flux тред X+102 ====================================== Предыдущий тред >>836750 (OP)https://arhivach.top/?tags=13840 ------------------------------------------ схожие тематические треды - аниме-тред >>832282 (OP) - технотред >>758561 (OP) ======================== Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях. Полный функционал в локальной установке (см. ниже)
⚠️ Стандартные модели stable diffusion от Stability AI значительно отстают по качеству от кастомных моделей (см. civitai ниже). 🆕 Flux - новая модель от бывших разработчиков SD, пока запускается только на ComfyUI.
>>839236 Не вопрос, картинки вызывают вау-эффект, но такое как комикс можно сделать и в сд, причем композицию на странице и надписи удобнее сделать затем в специальном софте, а не пихать все одним скопом в промпт. С другой стороны, системные требования этого чуда разочаровывают, особенно на фоне прогресса нейронок, генерирующих текст. И дело не только в том, что подавляющее большинство среднестатистических пользователей сд в пролете, а и в том еще, что тридцать-шестьдесять секунд на картинку это мягко говоря сомнительное удовольствие, при том, что пользователь уже избалован пакетной генерацией по сотне штук за время заваривания чая.
Как прописать промт, чтобы мои скелеты были анатомически правильные? Хочу сделать кучу скелетов на фоне пейзажа, а в итоге выходят кривые гомункулы как из мясорубки. Надо, чтобы все основные кости и пропорции четенько читались, будто художник нарисовал. А выходит фигня как на пикриле. Подсобите промтом, генерю в фокусе. Я уж и пробовал в позитиве писать painting of Anatomically Accurate Human Skeletons, в негативе ((bad anatomy))), lack of detail, ugly proportions, incorrect anatomy, worst quality, low quality. И все равно херня кривая
>>839306 Для начала надо убедиться, что конкретная модель вообще знает, как выглядит правильный скелет. Сгенерируй что-то типа technical drawing of a human skeleton
>>839310 Благодарю, модель для фокуса стандартная - juggernautXL_v8Rundiffusion.safetensors. Ввел тупо твой промт без негатива и выдал приемлемый результат (пикрилы), такие скелетоны мне бы для начала подошли. Но с пейзажем он генерит уродцев. Что делать?
>>839324 Забыл добавить, в фокусе я использую для создания своей задумки Input Image и миксую там 3 пикчи, и пишу вот этот свой промт, чтобы сгенерить армию скелетов в пейзаже. Т.е. не чисто один промт ввожу, может в этом дело..
на клипскипе 1 юзаю тцд в семплере, в шедулере тцд, либо юниформ на клипскипе 2 тцд/эйлерди семплеры и тцд/юниформ шедулер (но можно и че сами попробуете)
>>839329 Попробовал чисто через промт сделать пачку скелетов с фоном. В итоге 2 ближних скелета он рисует классно и четко, а остальные на среднем плане и вдали снова уродское нейромесиво. Это промтом можно пофиксить или через инпейнт только пробовать? Писал highly detailed, но не помогло.
>>839567 >уиии не может в японок и тинок @ вот вам японка и тинка за 2 сек, можно вообще чилд если надо @ >уреети такая же хуйня, что и у меня выходила
Так может в японок и тинок или не может? Как называется твоя болезнь? Биполярка?
>>839594 > Скидывай промпт и воркфлоу. Промт japanese teenage girl и все, воркфлоу стандартный с шедулькой и семплером по вкусу, и пцмкой. >Или только пиздеть горазд. Да ты дурачок прост, как ты до 2024 дожил с таким отсутствием умения пользоваться сдшкой. Ну или может ты нуфаг, ну тогда бы ебло раскрывать постеснялся бы штоли.
>>839737 >Это он на лету её квантирует? Кастует в данном случае. >будет ли она чем-то отличаться от большой с fp8_e4m3fn? Надо тестить. Отличия будут на уровне погрешности скорее всего.
>>839784 >скачал модель созданную для генерации голых баб >оно рисует голых баб. голых баб оно умеет рисовать хорошо. но я не хочу голых баб. мне противны они. Ебанько?!
>>839676 >получше бигаспкала Они плюс минус одинаковы в возможностях, не гони на бигасп, он хороший.
>>839807 Их уже три по факту - бигасп, антерос, и вот теперь натвис. У натвиса клип самый пиздатый по ощущениям, я его подсадил в чистую щас к своей >>839430 встал как родненький и расширил возможности. Надо экстрагировать различия между ними и в один клип соединить посмотреть че получится.
>>839906 Был я там. Рыло вплотную к ветке это не нюхать. Труханы нужно сжать в руке, воткнуть в своё рыло и сделать довольный вид. А эти рассматривания развёрнутых труханов - беспомощная попытка.
>>839953 >Поясните слоупоку за флакс. Генерирует квадратноеблых одинаковых баб с жопой на подбородке. >И какие у него системные требования Охуевшие. >А у то меня 3060/16 Ну хенерации по 1-2 минуты можно вытянуть, но надо чтобы рамка 32+ гига
>>839973 Новая топ локальная моделька, не слушай других, это реально dalle at home без рофлов, понятно что она не будет так же выдавать слоп голых баб для кумеров тут, но она отлично понимает вводы, прям охуеть как.
>>839977 Понимание на уровне аурафлоу и аура флоу при этом может помещаться в 12 кеков, че ты ей не восхищаешься? А, во флухе тебе просто лабильность снизили чтобы картиночки сочные получались как будто из фотоателье и ты уже омноном обкончался.
>>839834 > бигасп Хуй знает, что ты в ней нашел. Ебало корежит от фейсайди посильнее некоторых поней, понимание промпта вперде, экста фингерс аут ов де бокс.
>>839991 Когда пишут в подобном ключе всегда хочется написать про скилишью, потому что в реальности так и есть всегда. Я ебу какие там у тебя настройки, может ты вообще карасешиз и дпм с мультистепом юзаешь в 2024. Вот тут картинки >>839896 сделаны на модели где основа взята бигасповская например. В общем это не я "что-то в ней нашел", а она просто отличная модель с шикарным датасетом, ее надо правильно готовить просто.
>>839997 Карась устарел, мультистепы не нужны т.к. на всех моделях жарят (ибо мультистеп, есть 3 мультистеповые и 4 мультистеповые, я хуй его знает не придумал до сих пор где их юзкейс).
>>839999 Если модель работает только на каких-то хитровыебаных настройках (известных только её создателю), а на остальных люто лажает, то такая модель нахуй не нужна.
>>840000 >Ты скозал? Ну да, лучше всего это мануально формулу планировщика себе придумать идеальную и ее прописывать, а если сложно то тцд, ays, юниформы и еще тонна всякого премейда к твоим услугам.
>>840002 Алё, ты в нейросетках копошишься, не заметил? Тут нет каких-то дефолтных настроек и никогда не было и всегда появляется что-то лучшее чем было. Разраб автоматика просто в далеком 2022 дефолтом выставил карась с дпм 2м от балды для полторахи и брейнлесы до сих пор тащат их в 2024.
>>840002 >а на остальных люто лажает планировщик - формула поставки шума, она чисто физически не может быть универсальной для всех моделей семплер так вообще высший матан и подбирается под модель исходя из того как ее тренили, но есть более менее универсальные, и это не дпм плюсплюспромакс 100500 >такая модель нахуй не нужна. лол нет, это такие криворучки как ты не нужны
>>839995 Но у меня нет ни времени, ни желания гонять по 40 шагов генерации плюс 40 шагов апскейла, когда есть возможность прогнать на PCM с BasicGuider 10+8 шагов, которые в два раза быстрее CFG. >>839990 Неплохо. Надо будет потом еще потестить что-нибудь посложнее.
>>840023 >Но у меня нет ни времени, ни желания гонять по 40 шагов генерации плюс 40 шагов апскейла А кто-то заставляет? Я больше 20 шагов вообще не юзаю и никаких апскейлов. >когда есть возможность прогнать на PCM с BasicGuider 10+8 шагов, которые в два раза быстрее CFG. С пцмом тем более нет смысла на карась+дпм++ сидеть, зсь это LCM на стероидах, поэтому лучше всего работает с поставщиками LCM подобными, коим является TCD, логично же.
Аноны, кто шарит в Фокусе, подсобите нубу. Сгенерил красивую локацию, затем сгенерил отряд персонажей. Как мне вписать персов конкретно в этот пейзаж, чтобы сам пейзаж остался точно такой же (плюс-минус)? Это мне нужно юзать Input image -> Image Promt, 2 пикчи закинуть и для пейзажа Pyracanny выбрать? Какие веса ставить?
Или же через Inpaint -> Enable Advanced Masking Features и там 2 картинки эти закинуть и маской отряд персов выбрать? Прям очень нужно разобраться, как делать такие манипуляции, сразу тогда смогу запредельную годноту выдавать.
>>839311 Как в этой хуйне бороться с низкой детализацией и мылом на дальних планах? В уор она очень хорошо рисует ,все в мельчайших подробностях. Но фуллбоди сразу превращается в мыльную парашу, которую даже апскейл в полтора раза не спасает. Ставил все сэмплеры и шедулера как у аффтара написано - итог тот же. Другие модели, типа пониреалистиков всяких, подобным не страдают у меня, там нет никаких проблем получить фотку всего тела, и чтоб каждая часть тела была видна и детализирована.
>>840084 Ну хорошо, в целом алгоритм для нейронок какой? Через инпэйнт с 2мя картинками и маску? Получится так 1 в 1 пейзаж сохранить и персов вписать?
>>840098 Тебе фотошоп нужен для этого, чел. Вырежь своих персов и вставь их в пейзаж. Потом можешь нейронкой обработать как-то, чтобы они туда лучше вписывались.
>>840100 Там в фокусе фича с маской есть в последней версии. Смысл такой, что берём 2 картинки. Например поле и 2ю медведя, делаем маску у медведя и инверсию маски у поял и хуяк он как влитой, но это телрия, я не пробовал.
>>840100 Да, это самый очевидный способ. Но проблема может возникнуть, если перспектива пейзажа и персов не совпадает, тогда надо вручную долго править.
Я думал есть рабочий способ в нейронке для таких маневров, чтоб не корпеть вручную.
>>840115 Только во флюксе шифт не используется, это кишки от прошлых моделей. Не понятно зачем этот долбюаёб его запилил, если это нода ничего не делает, лол.
>photo of a renaissance era traditional drawing depicting a woman with short purple hair in a pink ball gown dress. Painted on canvas with visible brushstrokes. Acrylics
>>840152 Ах если бы были негативы без пердолинга. Почему у SD3, SD Cascade, SDXL, SD1.5, SD1.4, Pixart, Hunyuan, даже у неба, даже у Аллаха есть негативы, а у Флюса нет?
>>840148 >>840158 >>840161 На форче подсказали правильный ввод: >a renaissance era traditional drawing depicting a woman with short purple hair in a pink ball gown dress. Painted on canvas with visible brushstrokes. Acrylics
>>840189 >a pop-art era traditional painting depicting a woman with short purple hair in a pink ball gown dress. Painted on canvas with visible brushstrokes. flashing colors, acryl
>>840220 да, просто guidance играться, и вводы делать не долбоёбски, потому что он РЕАЛЬНО ПЫТАЕТСЯ ПОНЯТЬ, и например painting и drawing с друг другом конфликтуют, так как это разные вещи
>>840224 Да, оно очень зависит от формулировок. В SD можно просто гору тегов в любом порядке впихнуть и будет всегда одинаковое генерить. А тут совсем не так.
Господа, поясните что я делаю не так и как фиксить? Вот поставил флюкс на комфи. Во-первых, в консоли постоянные загрузки моделей, что какой-то пиздец, во-вторых при смене промта видать загружается клип и генерация увеличивается до 300-400 секунд. 32 рам не хватает или что?
>Как мне вписать персов конкретно в этот пейзаж, чтобы сам пейзаж остался точно такой же (плюс-минус)? Вообще твой реквест довольно просто реализуется вне фукасса, много вариантов есть, допустим вот через IP адаптер например https://civitai.com/articles/3099/combine-multiple-images-with-ipadapter-a-workflow-for-comfyui , можно тупа регионалками винпеинтить хоть куда в изображение другое изображение. Но в целом все через контролнеты разные реализуется и через другие мокрописи типа брашнета. Я не факассер, но предположу что тонкий контроль и расширенная комбинация изображений через факасс не реализуемы.
>>840286 Да у нас у всех минусовый айсикю. Воркфловы создаём тупо перетащив картинку в коупмифи. Я как-то так раз 20 перетаскивал, пока не понял, что картинка без метаданных и я весь день сидел непинямая что делать.
>>840423 >Океу. А нахуя так? Они обучили модель так, что она загружается 1 раз для промпта Погугли, это всё есть на средитах, гиткалах, там про это уже разжёвано.
Можешь эту >>839430 модель качнуть и написать типа "mother, selfie" и получишь нужное. Если с цвита модели то очевидные бигасп, натвис, антерос, ластифай - все могут в хомемейд селфие.
Мне интересно насколько они верят картинкам и есть ли у них иммунитет к генерациям. Потому что писать Я тян и собирать тонны лулзов уже не так интересно
>>840623 Очень милый пальчик. По превью видно, что шкаф завален или стена сужается к потолку, у зеркала-дверцы нет ручки, а у ящика для обуви ручка сделана пьяной обезьяной с топором.
>>840631 Ты ещё линейку возьми. Нихуя бы ты не понял по превью. Схавал бы за реальную. Пальчик он по превью рассмотрел лол
И это всё генерация одной строкой "не отъебись" >mirror selfie of a boring woman holding her phone Сам думай что было бы если я упоролся в промпт и добавил негативпромпт, лора подключил и т.п.
Как же хочется ip-adapter для flux. Это же можно будет для любой фотки герерить "продолжение фотосета". Ну и ещё две 4090 хочется, чтобы это шустренько работало, конечно
Пиздос, почти на 2 секунды быстрее. В параметрах запуска комфи было прописано "--use-pytorch-cross-attention" (какая-то хуйня это требовала, я уже не помню). Без этого говна быстрее.
В SimpleTuner запили поддержку обучения лор и файнтюна Flux. Но есть один нюанс: Hardware Requirements Flux.1 [dev, schnell]
A100-40G (LoRA, rank-16 or lower) A100-80G (LoRA, up to rank-256) 3x A100-80G (Full tuning, DeepSpeed ZeRO 1) 1x A100-80G (Full tuning, DeepSpeed ZeRO 3)
>>840562 >Подскажите, как сделать максимально реалистичные фото тян? Заходишь сюда: https://fluxpro.art/ Вбиваешь в строку поиска selfie или snapchat, ищешь подходящие пики, смотришь промт, меняешь чё те надо, генеришь там же или не там. Для пущего реализма в фш шума или фотофильтр потом накати и всё, будет тебе как реал фотка.
Breaking news on NBC showing a reporter on the left side with Trump making a speech on the right side. The text on the bottom reads "BREAKING NEWS", and below it "HIS IMPERIAL HIGHNESS ANNOUNCES TOTAL NIGGER DEATH"
>>840941 Потому что большой, но ещё потому что они юзают текстовый энкодер T5XXL который сам вроде миллиард параметров, если не больше, хз какая версия в flux
Breaking news on MSNBC showing a reporter on the left side with Trump making a speech on the right side, standing next to the flag of the USA. Behind Trump is the White House logo with the text "THE WHITE HOUSE" and "Washington" below it. The text on the bottom reads "BREAKING NEWS", and below it "HIS IMPERIAL HIGHNESS ANNOUNCES TOTAL NIGGER DEATH". On the bottom right is the text "MSBNC" with the logo.
>>840960 Fooocus с SDXL спокойно и довольно быстро работает на 16GB памяти + 6GB VRAM >Below is a test on a relatively low-end laptop with 16GB System RAM and 6GB VRAM (Nvidia 3060 laptop). The speed on this machine is about 1.35 seconds per iteration. Pretty impressive – nowadays laptops with 3060 are usually at very acceptable price. Нахуя им добавлять Flux, если им будет пользоваться где-то 0.1% от всех юзеров Fooocus? Или люди готовы ждать по 10 минут на генерацию?
>>840957 Наверное, связанные с грудью, а то и вообще с обнаженкой слова обучены вызывать неправильные изображения. Если не промптить прямо, а изъебываться так, чтобы не называя прямо те термины все же вызывать голую натуру, то есть шанс получить норм сиськи. Но это грустно и так жить нельзя. С писями, похоже, шансов вообще нет.
>>840962 >16GB памяти + 6GB VRAM Ну не знаю, 16Гб у меня было лет 7 назад, сейчас у меня 64Гб. Думаю минималка для современного среднего писи это 32 Гб ОЗУ и 12 Гб врам
>>840973 >Думаю минималка для современного среднего писи это 32 Гб ОЗУ и 12 Гб врам 32 далеко не у всех, 16 это как раз средний сейчас. И GPU средний это 6-8гб врам, не 12.
>>840974 Такое разве что в 2021 было. В современных ААА с 8 гигами только на минималках играть. Даже у консолей больше. Не понятно откуда 8-гиговые лезут до сих пор. 6-гиговая 1660 уже на момент выхода позиционировалась как бюджетная карта, сейчас даже затычка 3050 минимум 8 имеет.
Анончик, слушай... Я без агрессии, сразу предупреждаю. Честно понять хочу. Пишут, что даже для создания лоры к флюксу нужно будет 80Гб врам. Логика в моей башке говорит, что лоры никто делать не будет, а уж тем более вариации чекпоинтов с файнтюнами и т.п. Т.е. какой смысл довольствоваться бат-неками и вырезанными сосками, невозможностью нюхать трусы? Это же получается будут вечные 3 флюс модели от самих разрабов и всё? Может я что-то упустил?
>>840989 >нужно будет 80Гб врам Ну у кого то есть, кто то в аренду возьмёт. >никто делать не будет >будут вечные 3 флюс модели от самих разрабов и всё? 1,5 смогли, SDXL смогли, ламы >70b смогли (уже блядь не знаешь какую модель выбрать циви и лицо переполнены), а флюкс не смогут?
>>840989 Всегда можно взять в аренду А100 под лору. С поминутной оплатой будешь тратить бакс на лору. Тот же пониёб и топовые файнтюнеры не тренят на локальной пеке. А локально наверняка прикрутят к тренировке fp8, bnb-оптимизаторы и агрессивный чекпоинтинг - на XL всё это помогает почти до уровня инференса понизить потребление памяти при тренировке. Вон в LLM на 24 гиговой карте можно тренить лоры вплоть до 30В.
>>840996 >1,5 смогли, SDXL смогли Может это как раз из-за того, что там запросы в разы ниже, и даже обычный анон может у себя дома лоры делать без оплаты ебучих аренд? Не?
>>840994 Да он просто вбрасывает же, не ведись. У меня 8 гигов и я в киберпук на максималках с ртх играл в 80фпс. Флюкс шнель 30 шагов 9 минут генерил ради теста, но 30 это не нужно, как оказалось из моих наблюдений.
>>840993 У меня и закрались сомнения. >>840996 >>840997 >>841001 >аренда Эм, кто будет тратить свои деньги на обучение лора, чтоб потом бесплатно раздавать, к примеру на сивитаи всяких? Допустим будут такие, ради славы и почтения к примеру. Вот только это лора, а чекпоинт это уже другие суммы и время же, не?
>>841005 > деньги 1 бакс - это не деньги. На это даже кофе не купить в ларьке. > не? Не, полная тренировка по времени не отличается от лоры, только потреблением памяти.
>>841005 > Эм, кто будет тратить свои деньги на обучение лора, чтоб потом бесплатно раздавать, к примеру на сивитаи всяких? Буквально все те, кто тренит лоры локально на своих ПеКа, по сути тратят свои деньги на обучение лор и потом их бесплатно раздают.
>>841119 Если ты не в курсе, то ноды для комфи никак не регулируются и никакой защиты не имеют, туда кто угодно может вставить что угодно. Даже была недавно история, как какие-то борцы с нейронками взломанный нод распространяли и крали данные комфиюзеров. Так что ты этим исключительно на свой страх и риск пользуешься.
>>841126 При чем тут моя затычка и качество высираемого контента флюксом? Не смотря на то что эта сеть требует топового железа, качество генерации на уровне обычных моделей с civitai. Поэтому собственно назревает вопрос нахуя мне это неподъемное говно, когда я могу взять зафайнтюненую модельку и нагенерить изображений в 100 раз лучше чем хуюкс ваш.
>>841121 Блин, так и я о чём? ПТолько при запуске комфи такое. Что это за активность-то, НЕПЫНЯМАЯЮ >>841120 Так они там не проводят аудит на гитхабе чтоль? У меня только комфименеджер, ролтон шедулер, кристулс и всё
>>841130 >это за активность-то, НЕПЫНЯМАЯЮ Да хуй знает, может что то не охптимизировали. Ютуб кстати тоже "майнит", попробуй запустить видео и следи за цэпэ когда наводишь курсор на окно с видео и когда отводишь, +20-30% к загрузки ЦП. Вроде контора большая, а допускает такие косяки.
Сырки, в LLM мире 12B трансформеры это игрушечный размер. Челы высирают никому не нужные 70B тюны еженедельно просто чтобы их выкинуть нахуй. А тут думают, КтО жЕ нАм БуДеТ БеСпЛаТнО тЮнИтЬ??7
В целом 12B LLM фуллтюнится не дороже чем за несколько сот баксов. Лучше подумайте что прогнать датасет через VLM кэпшионинг тоже денег стоит, а там от 10к пикч. Выйдет не меньше.
Треды сдохнут не от того что дораха. И не от того что пека для очобы не тянет (аренда ГПУ стоит копейки). А от того что аутистам не надо больше играть в гачу, а после файнтюнов и прикручивания контролнетов/адаптеров оно вообще будет подхватывать промпты с первого раза.
>>841151 >>841160 Ставьте ограничение на количество FPS. Для вас гомфи даже сделал собственный счетчик FPS снизу слева. а вы думали нахуя он нужен? чтобы видеть как окно в браузере жрет 1000+FPS
>>841157 LLM и диффузионные модели — это две большие разницы. 70 миллиардную LLM можно запустить хоть на калькуляторе raspberyy pi. 70 миллиардную диффузионную модель можно запустить только на шкафу с десятком тесл внутри.
>>841157 Тупое говно, причем тут ллм? Это не то. Это не Чикатило и даже не архивы спецслужб. Сюда лучше не лезть. Есть уже аурафлоу, которая для большинства юзеров умещается в карточку и квантуется с вменяемыми потерями, а понимает промт также как флух, никому нахуй не упал двенадцатимиллиарднопараметровый флах в долгосроке, если его нельзя запустить на среднем пука с вменяемой скоростью и нельзя потренить лоры дома. Понимаешь?
>>841173 >LLM и диффузионные модели — это две большие разницы. Да, но размер моделек как раз очень похоже по железу. >70 миллиардную LLM можно запустить хоть на калькуляторе raspberyy pi Нельзя. Вообще никак. 70B можно запускать, если дохуя RAM и без видеокарточек, но тогда у тебя будет 0.01 токен в секунду или что-то типа такого, так же, как если бы запускать SDXL с CPU.
>>841174 32гб, но я не хочу довольствоваться долгими генерациями даже для шнеля, если есть апишка (с чужими ключами), и результат один и тот же. Тем более fp8 качество понижает, особенно у текста.
А так да, у LLM есть разница, что их можно квантовать раза в 2-3 без сильной потери точности, с модельками картинок такого нельзя. Но, всё равно, у LLM комьюнити есть задроты которые спокойно 70B модели файнтюнят, так что Flux тоже спокойно будут файнтюнить.
>>841178 Хз, на SDXL я не замечал особой потери в качестве после перехода на fp8, только сид поменялся и все. Текст может быть, но и он сильно зависит от сида, у меня на dev были результаты по композиции и хуже чем на schnell
>>841173 Чё ты несёшь? Параметр занимает сколько-то бит. Тренировать что то что это ты всё равно будешь в 32 бит.
>>841176 >Тупое говно, причем тут ллм? Это не то. Да ты что? Про волшебные-особенные диффузионные параметры и запуск 70Б на куркуляторе в 2bpw маме рассказывать будешь. Ебал её кстати.
Ну пусть auraflow, я же не против. Но разница невооружённым взглядом же. Будут тренить это, не писай.
>>841172 Ну и ты сам в эту хуйню веришь? Миксы зачастую выходят "полноценнее" моделей, на которых они базируются. Тот же бигасп базовый говно с лоу-эстетикой, спасибо мерджи из него вытащили что-то нормальное
>>841182 > есть задроты которые спокойно 70B модели файнтюнят, так что Flux тоже спокойно будут файнтюнить. файнтюнить текст проще, чем файнтюнить латентспейс
>>841188 У ллм есть инструментарий для файнтюна для 20 ICQ и качество результа будет известным, а пока миллион картиночек подготовишь в датасет, найдешь параметры нужные, обучишь - дохуя времени, пони бейс полгода тренили, из которых 3 месяца это нонстоп тренинг без тестов.
>>841200 Это лишь говорит о том что локальщики в имаджгене - бесполезное говно, которое играет в гачу с тегами вместо того чтобы писать себе инструментарий
>>841200 Совсем не так всё работает, это у тебя просто какой-то нонстоп коупинг. Датасеты можно автоматически создавать с норм вижн модельками или модельками теггирования (что Flux и т.д уже и делают), но почему-то локальщики этого не делают.
а в comfyui нет своего менеджера workflow'ов? ну чтобы я мог легко между ними переключаться, а не сохранять куда-то в левую папку и каждый раз открывать как файл. есть такая штука, какое-то расширение для неё?
>>841202 >локальщики в имаджгене - бесполезное говно, которое играет в гачу с тегами вместо того чтобы писать себе инструментарий Это ты щас астралайта бесполезным говном назвал, чмоха с двачей?
>>841204 > Датасеты можно автоматически создавать с норм вижн модельками или модельками теггирования И получится в итоге говнецо уровня SD3, которой нужно писать в промпте cogvlm-шизофазию, чтобы она хоть что-то адекватное сгенерировала.
>>841213 почему-то dalle ещё год назад заебошили на вижн модельке и всё у них нормально получилось, да, они сами ввод переписывают в апишке, но работает же, сейчас нейронки всем доступны, можно переписывать сколько угодно
>>841204 >Датасеты можно автоматически создавать Датасет нужно собрать сначала. У пони было 2.5 млн картинок. >модельками теггирования Давай начнем с того, что весь датасет надо эстетически ранжировать (нужна модель, и готовые могут не подходить, поэтому тренеру с нуля надо свою пилить), а уже потом тегировать. >но почему-то локальщики этого не делают С чего ты взял
>>841213 Чел, открою по секрету, все датасеты у всех моделей тегятся только и исключительно VLMами. Cog кстати давненько уже устарел, среди открытых InternVL есть. Среди коммерческих 4o, клод, гемини.
>>841220 Ну не прям все, для аниме картинок многие используют модельки попроще, где чисто теги (есть современные альтернативы deepdanbooru), а не описание человечное. А так да, ты прав.
>>841196 Это одну карту, а тебе чтобы полноценную модель уровня флух с возможностями условной пони за 3 месяца натренить надо 12 карт a100. Ебало свое представил?