>>863152 → А у тебя такой большой выбор? Обрезанный шнель и почти полный дев фп16. Всё. Сам догадаешься на чём? Только не говори, что ты рассматриваешь те инцесты в разных квантах, что сейчас спамят на цивите
>>863155 От 1 до 400 в зависимости от сложности задумки. Дальше становится лень. Иногда вспоминаю, когда выходит модель следующего поколения, тогда радуюсь, что действительно виден прогресс, и теперь можно такое запромтить.
>>863155 Каждая perfect from the beginning. От хотелок зависит, для некоторых вещей не то что пытаться - модель сделать быстрее чем роллить. >>863156 > Обрезанный шнель Вот реально интересно, в чем вообще прикол шнеля? Казалось бы дистилляция - значит должна быть мелкой и шустрой. А в итоге там просто все та же огромная еболда, но тупая, более быстрая сходимость не может этого оправдать.
>>863160 >Вот реально интересно, в чем вообще прикол шнеля? Казалось бы дистилляция - значит должна быть мелкой и шустрой. А в итоге там просто все та же огромная еболда, но тупая, более быстрая сходимость не может этого оправдать. Сделали обычные турбо-модель - говноедское говно, зато за пару проходов картинку выдаёт.
>>863174 > что можно будет несколько видюх использовать, как с llm Это и без квантов можно, если что. Эффективность правда может пострадать. >>863176 Ты рофлишь? Это стандартная память в консумерских видюхах нынче. >>863178 В ллм тред сгоняй, там клуб ценителей некротесел (говно за оверпрайс, в диффузии юзлесс) и 3090 (хорошо прожаренная дядей майнером печь, в диффузии ебет).
>>863188 >Ты рофлишь? Это стандартная память в консумерских видюхах нынче. Насколько я знаю, столько памяти имеет лишь парочка топовых видюх типа 3090/4090.
>>863188 > 3090 (хорошо прожаренная дядей майнером печь, в диффузии ебет) Рядом с 4090 тоже как мусор выглядит, спасибо Хуангу. х3-х5 разница в зависимости от задач на сегодня
>>863217 Че там проверять, еще на 1.5 проверяли. На 4090 там 45-50 эффективных итсов, на 3090 в районе 25-30. При реальных генерациях разница раза в 1.5-2, но никак не более. > Можешь проверить сам Именно что могу, там и близко нет того что ты пишешь. > В ллм все ещё хуже В ллм отличия в 30-50% а то и меньше, упор в скорость врам. > Про температурные режимы Не брать ссанину а если взял то обслужить заменив прокладки на нормальные. При разнице цен в 2.5-3 раза на тот же объем врам это странные доебки.
Скрипт с форча над джой-капчесом с рекурсивным проходом по директориям + не чистая ллама, а файнтюн еще и токен даже оставлен: https://pastebin.com/raw/jLJB3xcK
Вишмастер в комплекте. Когда ваши кукис и капчи того, что вы тэгаете, уплывут вы будете знать кому сказать спасибо
>>863247 Отставить тряску, 4090 надо было покупать в прошлом году когда она была по 120 новая с гарантией, а сейчас только сосать бибу или переплачивать.
>>863247 а что не так с 3090? Ну греется и хер с ним. Пользуюсь из-под майнера, проверил/обслужил стразу как брал, уже год как радует меня генерациями. Тот же год назад кстати тут в треде сравнивали, никаких х4-5 в генерации изображений и близко не было. Если и апгрейдится, то уже на 5090 свежую, а 4090 сейчас лютый оверпрайс
>>863225 >При разнице цен в 2.5-3 раза на тот же объем врам это странные доебки вот этого двачую
Всем привет! Наконец-то настало время для обновлений - я знаю, что прошло довольно много времени, и приношу извинения за задержку, но технические работы были приоритетом.
Тут много информации, поэтому проверьте TL;DR для каждого раздела, если вы спешите.
Базовая модель TL;DR: Я буду обучать на AuraFlow, с FLUX в качестве резервного варианта.
В течение последних нескольких месяцев я оценивал несколько вариантов моделей и выбрал AuraFlow в качестве основной модели Pony Diffusion V7. Это надежная архитектура модели с отличным пониманием запросов, и она лицензирована под Apache 2, что соответствует нашим целям монетизации. Я очень впечатлен тем, что это проект одного человека; Симо проделывает потрясающую работу, и поддержка FAL вдохновляет и вызывает уважение, поэтому на личном уровне я восхищаюсь этим усилием и хочу, чтобы эта модель преуспела. Хотя у AF можно улучшить инструменты и эстетику, и в настоящее время у него нет 16-канального VAE, я уверен, что эти проблемы не являются фатальными, и некоторые из них можно решить со временем.
FLUX - самая горячая тема в последнее время, и здорово видеть, как original diffusion team возвращается к работе. Мои сомнения с FLUX заключается в его лицензировании и сложности обучения. Только версия FLUX.1-schnell лицензирована под Apache 2, что означает, что нам нужно будет обучать Pony Diffusion на дистиллированной модели, что, хотя и возможно, является неизученной территорией при создании тьюнов масштаба Pony. Радует, что инструменты быстро совершенствуются, но я остаюсь осторожным. FLUX - отличный запасной вариант, если AF по какой-либо причине не сработает, и я буду проводить с ним некоторые эксперименты.
Другие варианты включают SD3, который немного улучшил свою лицензию с тех пор, как последний раз обсуждался этот вопрос, но сама модель остается посредственной, особенно по сравнению с конкурентами. Я не вижу много надежды на направление SAI, хотя был бы рад ошибиться.
Я также ищу отзывы сообщества о версии SDXL. Она была моим основным кандидатом до появления AF и FLUX. Хотя я слышал, что некоторые пользователи все еще хотят вариант SDXL, я бы предпочел не вводить третью версию. Если AF или FLUX смогут удовлетворить спрос на производительность на оборудовании среднего класса с хорошими инструментами, вариант SDXL может оказаться ненужным, но я открыт вашим предложениям.
Еще одно: Open Model Initiative (OMI) - это то, за чем стоит следить. Это перспективное сотрудничество, направленное на создание полностью открытых моделей с исходным кодом, и несмотря на все доступные в настоящее время модели с разрешительной лицензией, по-прежнему не решена проблема создания полностью открытой модели от начала до конца. Я с удовольствием поделюсь своим опытом с группой, и хотя это не выйдет в ближайшее время, я взволнован перспективами.
Создание описаний для Pony V7 TL;DR: Pony теперь использует описания GPT-4 с передовыми возможностями распознавания символов и поддержкой NSFW, хотя создание описаний для такого большого набора данных занимает время.
Высококачественные описания критически важны для производительности модели, как мы видели на примере PD V6 и многих других новых моделей. Плохие описания могут подорвать даже лучшие модели, такие как AF или FLUX, поэтому моя цель – генерировать плотные, подробные описания, охватывающие весь диапазон содержания – нелегкая задача, учитывая, что большинство современных моделей "vision-language" (VLMs) либо цензурированы, либо не обладают необходимыми нам предметно-специфичными знаниями.
Для улучшения описаний я начал с усовершенствования основанных на тегах промптов, уже используемых в V6, чтобы лучше распознавать и фокусироваться на особых случаях, таких как имена персонажей. Мы также создали и отобрали более тысячи детальных и субъективных промптов для руководства вывода VLM, избегая распространенных ловушек, таких как фразы-заполнители ("На изображении изображено…").
Процесс оценки VLM был довольно трудоемким. Первым основным кандидатом был COG, с которым у меня в целом был положительный опыт. Он хорошо реагировал на промпты на основе тегов, был лишь слегка цензурирован и был восприимчив к файн-тьюнам. Однако качество описаний было немного ниже, чем я хотел, а получение соответствующей лицензии оказалось проблематичным, так как все мои попытки связаться остались без ответа.
Затем я исследовал Dolphin 72B, еще одну отличную модель без цензуры и даже лучшим выполнением промптов и общим знанием. Его основным недостатком была немного уступающая OCR по сравнению с COG, и он имел тенденцию создавать "милые" галлюцинации – добавляя осмысленные, но отсутствующие детали к изображениям. Хотя тонкая настройка Dolphin была сложной, она не была невозможной, и мы успешно сгенерировали первую партию описаний с помощью этой модели, хотя ее большой размер замедлил процесс.
К счастью, мне представили более компактную альтернативу, InternVL2, в частности, вариант 40B (также есть вариант 76B InternVL2, но в моих тестах он не показал заметного улучшения). Эта модель оказалась даже лучше, достигая уровня GPT-4 в создании описаний с лучшим пониманием приглашений, лучшим OCR, более глубокими предметно-специфичными знаниями и отсутствием цензуры. В результате этой оценки InternVL2 в настоящее время является основной моделью для создания описаний.
Также стоит упомянуть Florence-2. Из моих экспериментов это удивительная и чрезвычайно компактная модель. Однако она не обрабатывает сложные промпты на основе тегов так, как это могут делать другие VLMs, из-за другой архитектуры. Я могу использовать выходы более крупных моделей для обучения Florence-2 для более быстрого создания капшнов, и я очень взволнован перспективой иметь очень маленькую модель, такую как эта. Учитывая, что более крупные модели недоступны даже для высокопроизводительных потребительских GPU, наличие более компактной версии для помощи в создании капшнов для LoRAs критически важно.
Самая большая проблема – запуск создания описаний на всем обучающем наборе данных. Если вы компания (или подозрительно богатый любитель furry) и заинтересованы в том, чтобы быть представленными в выпуске V7 и имеете доступ к серверам с VRAM более 80 ГБ (или готовы арендовать такие), свяжитесь со мной на Civit или по адресу ah@purplesmart.ai, чтобы обсудить возможности партнерства.
>>863305 Классификатор эстетики TL;DR: Классификатор V6 хорошо работает с V7, но был обновлён для учета новых типов данных.
Я рекомендую ознакомиться с "Что такое score_9 и как его использовать в Pony Diffusion" для понимания контекста, что такое классификатор эстетики и почему он важен для Pony Diffusion. При обучении V5/V6 я использовал классификатор на основе CLIP, в конечном итоге остановившись на версии ViT-L/14 CLIP, которая является самой большой и последней моделью, выпущенной OpenAI. Хотя в целом я был доволен его производительностью, у меня были опасения, что я могу использовать неподходящий инструмент для задачи или не использовать лучшую модель CLIP, так как после моделей OAI было выпущено много версий.
Перед выбором изображений для V7 я провел обширное тестирование с различными моделями CLIP и Visual Transformers. Я обнаружил, что модели ViT, хотя и демонстрируют высокую производительность, не соответствуют эстетическому пониманию, поскольку они не были представлены эстетическим образцам в масштабе моделей CLIP и были более жадными до данных. Например, они ранжировали определенные визуальные элементы, такие как определенные позы, непропорционально высоко, независимо от других факторов, как только я добавлял несколько подобных оценок к очень разным изображениям с использованием подобных поз. Несмотря на попытки вручную скорректировать это, просматривая большую выборку различий между старыми и новыми моделями и добавляя больше человеческих данных, это превратилось в игру Whac-A-Mole.
Напротив, несколько моделей CLIP, от самых маленьких до самых больших, таких как EVA-02, с самого начала показали лучшее выравнивание с эстетическим пониманием. Однако их общая производительность не была такой точной, как у ViT или старой модели. В отчаянии я портировал старую модель OpenAI ViT-L/14 CLIP в свой новый пайплайн и немедленно увидел лучшие результаты. Моя теория заключается в том, что хотя он хуже выполнял тестовые задания, OAI обучил модель на гораздо более разнообразном наборе данных, что лучше работает в реальных задачах. Хотя мне было немного горько "терять" столько времени, я рад подтвердить, что подход, который я использовал для V6, был обоснован и до сих пор полезен.
В качестве последнего шага я добавил 10 000 дополнительных человеческих оценок для лучшего охвата фотореалистичных изображений, и я также начал отдельный канал сбора обратной связи от людей на основе Elo для получения более точных оценок (выбирая лучшее изображение из двух одинаково ранжированных), но потребуется некоторое время, чтобы это принесло ощутимый результат.
Я выпущу классификатор после выпуска V7, чтобы вы могли добавлять эстетические данные в свои подсказки при обучении LoRAs или мёрджей.
Супер-Художники TL;DR: V7 будет предлагать обобщенные стили без прямого копирования стиля конкретных художников.
Pony всегда прокладывала свой уникальный путь, что, надеюсь, способствовало её успеху. Одной из отличительных особенностей модели является избегание стилей конкретных художников; однако слабый контроль над стилем, который предлагает Pony, был явно недостаточен, о чём свидетельствует популярность различных LoRA, реализующих как общие, так и специфические стили художников. Улучшение контроля над стилем всегда было одним из основных приоритетов для V7.
В качестве первого шага я разработал новую модель, способную различать стили художников, используя методы чем-то похожие на те, которые используются в эстетических классификаторах. Я оценил несколько архитектур на основе ViTs и CLIP, различных стратегий fine-tuning и использования различных типов эмбеддингов. В отличие от проблем, с которыми я столкнулся с эстетическими классификаторами, для этой задачи у меня был доступ к гораздо большему объёму данных, что оказалось решающим для разблокировки производительности ViTs.
Интересным открытием стало разнообразие в работах некоторых художников. Я всегда ожидал, что у художников будет более одного отчетливого стиля, т. е. «sketch» против «full color», но большинство художников у кого есть хотя бы несколько десятков работ демонстрировали более двух основных стилистических кластеров и длинный хвост «экспериментальных».
Теперь, будучи оснащенной сетью, способной создавать эмбеддинги художников, я могу группировать и тегировать изображения в наборе данных для обучения более общими, но разнообразными стилями, такими как 'anime_42'. Все еще требуется выполнить некоторую работу, чтобы убедиться, что эти кластеры не близко имитируют существующих художников, но в целом результаты многообещающие, и я считаю, что эта область в значительной степени лишена риска. Нам придется подождать, пока модель будет обучена, чтобы полностью оценить ее влияние, но на данный момент я довольно оптимистичен.
Я также работаю над планом Б на случай, если это не сработает хорошо, в дополнение к текстовым описаниям контента, я добавлю описание стиля, которое сосредоточено исключительно на описании стиля и художественных свойств изображений.
Хотя я еще не принял окончательное решение, я рассматриваю возможность выпуска инструментов, которые позволят пользователям обнаруживать похожие стили на основе конкретного входного изображения, упрощая обнаружение стилей.
Набор данных TL;DR: Лучший выбор данных означает, что Pony теперь может справляться и с реализмом.
Я почти закончил отбор 10 миллионов высококачественных изображений из набора данных более 30 миллионов, при этом 8 миллионов уже выбраны. В наборе данных теперь представлено больше аниме, обновлен контент по пони/фурри/мультфильмам, и впервые - значительные дополнения к фотографиям. В целом, набор данных был сбалансирован, чтобы стать немного менее NSFW. Я также добавил экспериментальные функции, такие как теги цветовой палитры сцены для лучшего управления цветом, и список "блокировок" художников был обновлен, чтобы ловить больше случаев, когда имена персонажей определяются как художники и удаляются.
Я предоставлю более подробный обзор, когда отбор будет завершен, но на данный момент модель состоит из следующих основных компонентов: 10% пони, 10% фурри, 20% западных мультфильмов, 25% аниме, 25% реализма и оставшиеся 10% - прочие данные. Вас может удивить то, что количество контента пони меньше, чем в V6 (особенно учитывая, что мы Pony Diffusion), но это относительные числа, и у нас на самом деле есть гораздо больше контента каждого типа. Просто в некоторых областях мы "закончили", то есть не осталось много высококачественных изображений, которые можно добавить.
Остается еще немного работы, чтобы подтвердить, что все данные соответствуют нашей рамке безопасности, но на данный момент большая часть работы завершена. Мы выпустим классификаторы безопасности и кодекс персонажа после V7 в рамках нашей приверженности безопасности.
Следующие шаги и планы на будущее TL;DR: Обучение близко.
Небольшое мелкомасштабное дообучение начнется через несколько дней, чтобы убедиться, что пайплайн для обучения готов. В то время как настройки эстетического классификатора, описание и кэширование VAE все еще ведутся, я близок к запуску полномасштабного обучения. Я ценю ваше терпение и надеюсь, что мы сможем снова поймать молнию в бутылке.
И напоследок: я очень взволнован состоянием инфраструктуры и наборов данных, с которыми я работаю. Переход от V6 к V7 потребовал много переосмысления и переработки, но я наконец доволен процессом и ожидаю, что последующие версии потребуют гораздо меньше времени на подготовку. Мне также удалось собрать огромное количество видеоматериалов для обучения, поэтому я взволнован перспективами T2V в будущем.
Если вам нравится пользоваться Pony Diffusion и хотите поддержать его, пожалуйста, присоединитесь к нашему Discord (вы даже можете подписаться, чтобы помочь проекту), или продолжайте пользоваться генератором Civit, так как он теперь делится buzz'ами с создателями (и вы даже можете увеличить долю создателя, увеличив чаевые).
>>863240 Может датасет попасться в котором японский символ будет протеган, надо 113 лайн подредачить with open(os.path.splitext(input_image_path)[0]+'.txt', 'w', encoding="utf-8") as outf:
>>863305 >>863306 > Все это время сидел пердел и лишь искал модель, лицензия которой позволяет закрыть за платным дискордом > Выбрал одну из наиболее всратых с точки зрения базы модель > Он исследовал и исследовал, перечисляя модели, кринж блять > Нытье о несуществующих проблемах и поиск корпоративных (что?) спонсоров > Худший из существующих вариантов классификации - на самом деле хороший, будете дальше его хавать > Больше треша с шизоидной системой тегов > Датасет все также отравлен мусором Ладно, после "долгого кеширования вае" словил передоз кринжа, хватит. Судя по всему, чего-то хорошего там можно не ждать, а астрафаг лишь пытается поддерживать инфошум и ищет кто бы заплатил за него. Чтож, поживем - увидим.
Если пробовать менять ламу на другую базовую модель, то идёшь нахуй по причине несовместимости размеров тензоров пикрел если попытаться подсунуть мисрал немо. Но технически должно быть возможно заменить на любой тьюн лламы 3.1, т.к. словарь и эмбеддинги должны совпадать.
Нашел очень интересную лору. С одной стороны делате девочку а с другой ее фотография на экране телефона. Идея в том что девочка типа обычная в реале а на фотке левд, лора заточена под пайзури. Идея очень интересная но я понятия не имею как ее можно применить, чтобы там одна а там другая.
Автор Pony в своей новой статье рассказал, что будет трейнить Pony7 на Auraflow - опенсорсной модели с энкодером, не уступающим Dall-e 3. А также будут свои отдельные контролнеты для пони.
Тем временем Linaqruf упомянул, что он хочет остаться на SDXL, но улучшить понимание языка моделью.
Кто-нибудь нашел способ эффективно фармить баззы так же, как до отмены рефералов? Я не для себя - просто чтоб накидать чаевых автору поней. Ну, или выкупить для всех какую-нибудь из early access моделей.
>>863368 Совместная работа с разрабами Comfy, Invoke, с Линуксом, Civitai, EleutherAI, понифагом, консультации Emad. И логотип, чел с огромным хуем до колен.
>>863373 Ну ты ж понимаешь. Сейфти. Нужно убрать CSAM и CSEM, лоликон, расизм. Еще даже не определились с архитектурой, на которой трейнить и VAE. Сейчас столько новых пейперов выходят!
>>863376 Жаль только что понифаг не стал ждать и пошёл делать свой тьюн с возможностью коммерциализации. Но так уж и быть поделится опытом (!) с OMI позднее. Всё же думаю OMI стоит расценивать не более чем ещё один форум для обмена мнениями, а не полноценную команду. Не похоже что челы там реально настроены на совместную работу.
>>863379 Нужно понимать суть нейрокомьюнити. 80% цвитая забита еблей, как днищесайт порно баннерами. Не думаю, что под дружные крики "СИСИК! ПИСИК! БОЛЬШИЕ БУБА! АНАЛ ФИСТИНГ ЛАМЕНЬКАЯ ДЕВОЧКА! ТРАХАТЬ МАЛАДЕНЦЕВ! ФУРРИ ГЕЙ ТРАХАТЬ!" возникает хоть какое то желание кооперации. Удивительно, что люди вообще чё то делают, а не дропнулись нахуй в ужасе. В 2к24 злые корпораты противостоят не добрым и отважным фрии аз спич визионерам, а дегенеративным уёбкам с карикатур альтрайтов.
Я правильно розумию что XL изкаропки умеет то для чего обычномоу сд нужны специальные лоры и инструменты апйскейлеры? А флюкс умеет из каропки всякое чего XL не умеет но почти не имеет лор?
>>863577 Ванильная ХЛ как 1, но просто лучше и больше, то есть говно. Без лор и апскейла ты тоже ничего нормального не получишь. Просто тот факт, что оно без мыла и бокена генерить не в состоянии как бы намекает.
Флюкс меньше проёбывает анатомию и даже пальцы, лучше работает с промтом, умеет в надписи. Изкоропки выглядит как файнтюн модель. Из негативов: она свежая и на неё нихуя нет лоры это не только "сделай красивее" это стили, художники, рисовки, позы, предметы, она большая и требовательная, там цфг гайдиненс и негатив не работает.
К чему вопрос? Хочешь выбрать что лучше ставить? Маст хев это пони. Если мощностя позволяют и ты не кумер то флюкс.
>>863358 > опенсорсной модели с энкодером, не уступающим Dall-e 3 Насколько помню, он меньше чем т5 в сд3 и флаксе. > будут свои отдельные контролнеты для пони Если не зафакапить тренировку то "свои" не потребуются. Другое дело что под аурафлоу их врядли кто-то вообще делать будет. >>863359 > сотрудничает с OMI Это уже зашквар, там (почти) нет нормальных людей. > будет совместный мегакринж 100% Вот так правильно. Если компании думают о деньгах и перспективах, то этот мусор думает только о том, как подмять под себя впопенсорс чтобы форсить в нем свои радикально-левые идеи и внедрять цензуру хуже чем у клозедов. >>863376 Вся суть, еще не определились ни с чем, зато насрали тонны обсуждений как и что мы будем удалять. >>863395 Суперахуенно. Алсо довольно много правок руками там где можно было зарядить рулетку диффузии, предпочитаешь так? Реквестирую такую лисичку наклоняющуюся к юзеру и держащую наручники на пальце. В легальном виде чтобы не потерли только
>>863646 Вот не понимал прикола пантсу никогда, уебищные же. Обычные thong намного пизже. Вообще у реальных японок стиль отвратительный, достаточно посмотреть видосы walking japan на ютубчике. Носят какую-то мешковатую хуйню.
Цветные лошадки, сгенерено на понимиксе, но есть нюанс. Первый раз закинул картинки на цивик,не прошлого и го... а, нет, прошло. >>863303 Насколько давно? Релиз Флюкса пропустил?
>>863679 Да влезает, по крайней мере с оффлоадом небольших кусков и без серьезного импакта на перфоманс. >>863822 Понифаг открыто заявлял что будет следующую модель держать за гейтом а только когда наберет нужный профит выпустит. Или будет иметь 2 версии, одна всратая хуевая захешированная для всех и хорошая за платным доступом.
Аноны как промптануть на отчетливый животик? Чтобы не перекачанный был, а такой подтянутый. Пробовал athletic, toned, fit все равно срет сильно перекаченными. Может есть идеи?
>>863875 batch prompt в автоматике >>863589 > Флюкс меньше проёбывает анатомию В некоторых случаях он может делать позы лучше чем дефолтные модели, однако в попытках заставить чара позировать можешь получить тонны бадихоррора, которого нет в файнтюнах XL включая пони. > Изкоропки выглядит как файнтюн модель. Вообще не выглядит, база базой. Крутая, интересная, но нормисовская база без огромного пласта знаний. > там цфг гайдиненс и негатив не работает Работает.
>>863549 Тут только говорили про auraflow. Есть ещё kolors от китайцев, там стоит жирная llm и в результате она так себе но понимает русский язык. Другие периодически появляются, но чаще всего о них быстро забываю.
У промта может быть вес, чем больше вес, тем больше нейронка старается промт нарисовать. Вес имеет вид (промт:вес), соответственно твой случай будет иметь вид (fit:0.6). Можешь объеденять несколько кусков промта под один вес 1girl, tummy (fit, bare sholders:0.6), можешь указывать вес внутри веса 1girl, tummy ((fit:0.6) bare fit:1.6). Дефолтный вес 1.0, это так сказать стандартный. В отрицательные значения лучше не уходить, как и больше 2.0, не сломаешь, но генератор будет делать кал.
Поскольку ты ещё не достаточно смешарик, то сразу скажу, что у лор тоже есть вес и повышать/понижать его можно так же.
В автоматике, для облегчения, по дефолту вес можно менять выделяя нужную часть и жмя контрл+стрелочка вверх/вниз.
Так же редко используемая, но существующая функция смены промта в процессе генерации вида [начальный промт:конечный промт:Х] где Х это либо количество шагов, либо процентное значение через сколько сменить промт. Например > masterpiece landscape of a girl near by [lake:blue castle:0.25] для генератора будет значит, что нужно сгенерировать девку у озеро, но озеро через 25% шагов забыть и начать генерировать девку у голубого замка. Одно наложится на другое и... там как повезет.
>>863943 А можешь еще модели подсказать какие юзать для начала? Я пробовал самую популярную пону хл, но там как-то жестко картинку косит. Autism XL юзать?
>>863883 База! Стейбл все равно оверхайпед говнище, а Flux по техническим свойствам не предназначен для опенсорса. Интересно, почему бы не использовать одну из тех китайских моделей.
>>863961 У пони в промт нужно score, rating и source вписывать. Открой описание на цвитае, там они есть. Но если не нравится, то любую популярную, энифинг хороший вариант. Только картинки посмотри, модели обычно заточены под что то, реализм там, аниме, 3дшный рендер. Заточенность не отзначает, что они совсем не могут в другое, но влияние будет и значительное.
>>863969 > Flux по техническим свойствам не предназначен для опенсорса
Только из-за жадности автора поней он не предназначен. Другой вопрос, что если новые пони опять будут жариться с диким LR, то особо нет разницы какая базовая модель, лишь бы архитектура была разумной, а это у AF есть.
>>863969 > а Flux по техническим свойствам не предназначен для опенсорса Обоснуй. Подтянут методики квантов с калибровкой по левд пикчам лол и будут катать 4.5битный флакс с тем же успехом что сейчас сдохлю. Только тренится он дохуя тяжелее и там наверняка откроются дополнительные подводные. >>864005 > лишь бы архитектура была разумной Интересно, там уже есть средства чтобы делать фулл тренировку с энкодером и оно помещалось в 80 гигов?
>>864014 Квантовые модели не предназначены для трейна. Нынешний dev весит под 20 гб и не работает даже на 16 гб vram (крашит в thinkdiffusion на fast машине).
Понифаг подтвердил, что вместо андерскоров будут пробелы. То есть там сочетания двух отдельных токенов - "score", и его номер после пробела. А "суперхудожников" будет не меньше ста. И отдельный тег для регуляции сложности композиции.
>>864045 А если основой будет шнель то что-то поменяется? Почитай какие методики используются для тренировки флакса. > хотя б для трейна лоры Для нее не требуется полная точность основной модели, едва ли на циве найдется модель, что тренена на основе в фп16. Но даже это возможно в24гб с оффлоадом и пропуска/объединения блоков.
Часто вижу что люди люди аниме генерят с шагами на 50 прокручеными, но на форумах пишут что лучше всего с 30-ю шагами генерить, кому верить? Кто еблан?
>>864186 Больше 20 редко есть смысл. В зависимости от настроек, у тебя картинка либо в холостую будет крутиться после некоторого числа шагов, либо наоборот крутиться туда-сюда. Есть, конечно, моменты, где на малом числе шагов тебе просто нифига не нарисует, но это экзотика.
>>864186 Генерю на 8-12, а мне и норм. Если выключить ускоряки, что я тоже сейчас довольно часто делаю, то зависит от сэмплера, но больше 30 не ставлю. Но если у тебя 4090 - валяй, ставь хоть 40, хоть 50, разница в затраченном времени будет минимальна.
>>864316 Попробуй не жрать говно, а использовать менее поломанную модель для генерации. Если неохота слезать с чистого пони - хотя бы накатить лору, сглаживающую ебанутость шестёрки. Ещё можешь чекнуть негатив, если туда много мусора навалить, то и у нормальных моделей могут вылезти косяки. Руки фиксятся руками в фотошопах, сто раз повторяли итт.
>>864313 Хорош, моар. >>864317 Хотя бы какой-то профит от шизофренических "atmosphere if this image is very intimate" должен же быть. >>864348 Ля какая, можно рецепт? > Руки фиксятся руками в фотошопах Инпеинт в режиме fill и штук 6 вариантов сразу.
>>864363 > atmosphere if this image is very intimate Там всё же чуть получше уже научились ллмки: This is a digital drawing in a soft, pastel color palette, primarily featuring shades of blue and white и подобное
>>864392 Все такие красивые пикчи постят, вот и подумал что с тренировкой накосячил. А оно и в стоке действительно или уродское или мерзкие скринкапы, если не делать эквилибристики с промтом.
>>864411 Расскажи что тренируешь, лоры, полные веса, артистов, концепты, чаров? Особенно последняя пара интересует, ну и гиперпараметры если какие нашел удачные. По наблюдениям и трактовкам, включая лоры с цивы, флакс очень легко заставить "запомнить" датасет и использовать вариации элементов из него. Однако, если после пытаться промтить что-то сложное и отличающеется - лезут абоминации, начинает игнорировать промт или лезут лишние элементы. Аналогичного экспириенса с сд не было, ибо там базу почти не юзали, интересно вызвано это ограниченностью знаний, или тем что при тренировке не произошло и намека на обобщение и запоминание, а знания просто отпечатались в юнете поломав остальное.
>>864424 Пока делаю лоры на стили по шаблону из прошлого треда: дим16, 3к шагов. Чары пробовал, пока не очень удачно - то попадает в стиль, то вообще мимо. Пробовал "прожарить" подольше - пошел вообще мусор.
>легко заставить "запомнить" датасет и использовать вариации элементов из него. Однако, если после пытаться промтить что-то сложное и отличающеется - лезут абоминации, начинает игнорировать промт Да, всё это есть. Я не мог сформулировать, но чувствовал, что что-то не то. Чем дальше от датасета промтишь, тем хуже идёт. Текстовый энкодер-то не тренится. Видимо в этом дело.
Ватермарка Ами настолько мощно в датасет поня въелась, что ее никакими негативами не вычистить, походу... Даже в сочетании трех хэшированных тэгов - все равно вылезает.
Попробовал какой то сд аниме микс а он говнина поганая. Возможно недостаток навыка но я эту парашу даже завезти нормально не смог а до понеподобных ей как до луны.
>>864523 Абсолютно, там даже если поверх тренить чистыми пикчами она будет до конца лезть. На модели, которая не зашкварена амиевскими ватермарками, такого эффекта не происходит. Тут только лора без тега активации или с другим тегом, они есть на циве.
Флукс куда приятнее в тренировке, чем другие модели. Очень хорошо сложные концепты и стили впитывает. Прям одно удовольствие его тренировать (если бы ещё скрипты под это были стабильно работающие). А уж то, что он хорошо с 512 разрешениями работает - это прям отлично.
>>864424 >>864437 > Однако, если после пытаться промтить что-то сложное и отличающеется - лезут абоминации, начинает игнорировать промт или лезут лишние элементы. > Чем дальше от датасета промтишь, тем хуже идёт.
Не знаю, мне наоборот кажется, что стили очень хорошо работают и генерализуются. Включая тот небольшой набор концептов что я добавлял к датасету. Но он очень чувствительный к подписям и самому датасету.
>>864556 > сложные концепты Какие? Или то что уже как-то знает, или лоботомия на это что будет сильно лезть в остальных ситуациях. Если генерировать одинакового вангерла то проблем это может и не доставит, на что-то другое - досвидули. Тут тебе и 3 пары сисек на мужике, и автомобиль наполовину пудж, общая деградация или воплощение отличительных элементов в неожиданных местах. Весь юнет перестраивается под тренируемое в каком-то виде, за счет размера получается красиво но уровень гибкости как у полторашки. Особенно весело когда стиль перестает проявляться или искажается из-за сильных отличий в промте от датасета. > и генерализуются Вот этого нет. Стили в принципе это самое простое что можно сделать и они должны без проблем ложиться и без те, но не всегда так получается. Скорее всего это завязано на те, в которых есть то чего не знает модель (левдсы или концепты), на тех где такого нет будет проще. > Включая тот небольшой набор концептов что я добавлял к датасету. Сгенерируй пикчу с двумя одинаковыми/разными девочками, где одна в бикини задирает юбку второй, на которой кроме этой юбки ничего нет и виден сисик-писик. Не то чтобы это сложно, но прочувствуешь всю радость от такой генерализации, а должно вообще без единого вопроса 9 пикч из 10 делаться.
>>864546 >Тут только лора без тега активации или с другим тегом, они есть на циве. Да что с лорой хорошо станет - то понятно. Я с хэшированными стилями играюсь.
Как же заебали ебучие петушары с Цивитая удалять мои пикчи я уже вообще не ебу что не так. Вот эти за ща удалили? На них же явно не жеребята или у меня глаз замылился? там в тегах ничего намекающего нет, наоборот даже возраст блядь завеш, что им не так-то сука?
>>864607 Ты мудак? Детская комплекция, лицо и пухлые руки. Комьюнити OMI правильно делают, что фильтруют данные прежде, чем даже пытаться что-то трейнить.
Лоликон из коробки в SD1.5(NAI) - это не фича и не баг, это индусы ёбу дали, вкатываясь в неисследованную область.
>>864608 Пухлые щеки, незрелое личико, глаза и носяра как у Лило из "Лило и Стич". Надеюсь тебе заблочат акк, чтоб не наводил тень на ИИ-индустрию. Генерируешь педо-высеры - держи их на компе приватно.
>>864609 Да какой мудак, хули ты обзываешься? У тебя с этими пидорами из Циви педоистерия или что? Какие дети-то нахуй? Где вы блядь здесь детей-тот уидели, совсем ёбу дали? А учитывая что я некоторые промпты брал прямо с цивитая за основу и там нихуя они не забанены это вообще ёбаное лицемерие и двойные стандарты.
>>864610 Хотел было возмутиться, что да что за хуйню ты, прости, Господи, несёшь. Но в этом месте стало ясно, что это троллиг, иного я конечно не ожидал, но надеялся на адекватное мнение.
>>864612 Кстати, CSAM фильтр в Stable Horde (за авторством db0) точно не пропустил бы такие сэмплы. тебе вручат таймаут + flagged ip как подозрительный.
>>864616 Вини за всё педомразь, из-за нее теперь и адекватным юзерам закручивают гайки чтоб не случилось чего. Оставьте в покое хотя бы ИИ! Нет, надо и сюда тащить эти перверсии. Помню как читал англо форум Sims 4 - а там симоводы охуевали с факта существования педофилов, делающих моды на их ламповую безвредную игру. Вот какого хуя вы забыли в симсах?
>>864616 > (b) Content depicting or intended to depict photorealistic minors, regardless of context; А, лол, я даже не знал, что там такой запрет есть. Выходит, любые реалистичные дети в кадре под запретом, вне зависимости от контекста.
>>864624 Всё так! Поэтому Open model initiative решили вообще убрать изображения любых несовершеннолетних из данных для трейна. Зато, это будет полноценная NSFW модель.
>>864619 Так на симпсонах там прикольные моды есть, каждый дрочит как он хочет, это же не повесточка, её никто агресивно не пропихивает как парады с пидорами или преклони колено перед негром, наоборот сидят себе в загонах и развлекают себя.
>>864612 >>864611 Teen тоже запрещены. Всем как бы поебать скольки летних тебя ебал ты в промте прописываешь. Если что то выглядит как утка, плавает как утка и крякаяет как утка, то похуй что на заборе написали что это хуй.
И вообще полностью и бесповоротно насрать, потому что нахуй ты это выкладываешь на цвитай? Кумерам, что всё своей порнухой засрали всё вокруг не то что бан нужно давать, а по ебалу с ноги. Зачехляй дрочило животное ебаное и генери свою хуйню локально.
>>864626 Ну и кретины, пусть вообще удалят людей, ведь хули дети, вдруг кто-то сгенерирует слёзы на лице у девушки, что будет обозначать её как жертву абуза рейпа и харрасмента всех мастей.
>>864761 У контрлнета? Референс пытается повторить стиль и детали изображения, который ты вкидываешь. Тайл в душе не ебу, но учитывая что делаю другие тайлеры, то бьёт изображение на части и генерирует каждую часть отдельно.
>>864761 > В чем разница между tile и reference? Tile - для тайловой генерации помогает сохранить целостность общей картины, чтобы тайлы были логически связаны все вместе. Reference - это типа IP adapter, только быстрый
А reference - это "Нарисуй в таком же стиле" - копирует цвета, текстуры и композицию. ControlNet reference очень по-разному реализован в разных web-ui. Forge, A1111, Comfy - везде своя отличающаяся реализация. У Forge самая сильная по эффекту. Не требует модели
Давно не вкатывался в генерации, а что за хуйня случилась с покупкой PRO подписки в tensor.art? Раньше спокойно все покупалось, даже через Юмани, а теперь выдает ошибку мол "бла-бла, теперь оплата через PayerMax отменена, попробуйте другие методы" Какие блять другие, если их на сайте даже нет, этот единственный лол Мудрецы, просвятите.
>>864612 Красиво, рецепт будет? >>864629 Сам не кумер, но так-то выкладывать необходимо чтобы свои 100 молний в день получить, да и порнушные арты куда больше собирают так-то
>>864961 > свои 100 молний в день получить, да и порнушные арты куда больше собирают Зачем???
Если арты - то в галерею, а не на дегенератский пиксив засраный даже не кум-, а хз как уже назвать картинками с 3-метровыми членами и такими же дойками
>>864979 >Я вот так хочу и ты хоти. А не хочешь хотеть как я хочу? Блядь ты взрослый человек или кто нахуй? Ты на полном серьёзе будешь доказывать как правильно делать свой выбор?
>>864980 Во всех картинках видно, что им лет 14-16, не больше. Если для тебя это не видно - твои проблемы. Либо потухни, либо вали на пиксив только цензурить не забудь. Мимоанон.
>>864627 >это же не повесточка, её никто агресивно не пропихивает Э, друже, у тебя данные устарели. Уже начали.
Я уж подумал, что это лоли-имота готови онии-чану завтрак >>865014 >>865021 Но ты >>865037 меня успокоил, фух. Можно значит на ней жениться во всех смыслах.
>>865039 Хуя шпала! Тег loli для чего придумали по твоему? Eye patch тоже забыл >>865068 А зачем тебе выкладывать кум? Кум кумить надо, а не выкладывать.
>>865094 Что-то что вызывает эмоции, сюжет в пикче, уникальный стиль автора, когда каждый штрих имеет значение, прикольные выражения лиц. А не дженерик 1girl с дженерик ебалом с пачкой визуальных багов и мылом.
Анон, как балансировать теги в датасете? Чтобы было и хорошее покрытие по разным тегам и не было сильного перевеса по какому-то конкретному? Можно как-то посмотреть соотношение тегов в датасете?
>>864989 > Во всех картинках видно, что им лет 14-16 >картинках не фотках не нарисованных сгенеренных
>определять число лет
Вот сколько лет ты пчел жил, все зря, похоже. Твоя нейросеть внутри явно инцест-микс сбоит. Попробуй негативы использовать хотя бы критическое мышление перед тем как свои генерациивысеры продукты мозговой деятельности сюда постить.
>>865123 Хочу попробовать сделать лору на косплей. Думаю положить туда арты персов и косплей на них. Для начала хочу сделать 5 персов, просто проверить, как будет работать.
>>865142 Ну ты сам вроде понимаешь, сколько пикч персонажей у тебя скачано? Попытайся их примерно уровнять, но без фанатизма, отличия даже в 2-3 раза не создадут проблем, только если будут сочетания 5 пикч vs 100. Разумеется это про тренировку с текстовым энкодером, без него как поведет себя на флаксе - вообще хз. >>865145 У этой прекрасные богоугодные inverted nipples, с которыми хочется провзаимодействовать.
>>865162 Ну вот примерно уровнять руками можно на 5 персах, а если больше, то становится сложнее. МОжно конечно в тупую сделать скрипт, поторый прочтет все файлы с тегами и посчитает, но это как-то тупо и неудобно. Надеюсь уже есть решения
>>865145 >Только дженерик стандартные розовые соски, только нормискор Стандартное != дженерик, пора бы это понять анончикам в треде. Есть выверенная годнота, закодированная у нас в бошке эволюцией. Ты же не будешь жрать дерьмо "для разнообразия".
>>865165 > а если больше, то становится сложнее Напиши скрипт который для начала их подсчитывает и пишет тебе что как. Там уже сделаешь выводы и просто увеличишь число повторов для тех кого мало. Что в этом тупого и неудобного? Других вариантов всеравно нет. Сложно - это когда датасет исчисляется миллионами, там познаешь веселье с тем, что в тегах чаров творится инфернальный пиздец, насколько смещен "вкус" оценивающих и много чего еще.
Смеюсь уже давно как весь мир яростно воюет против педофилов, диагнозы придумывают, корпорации банкротятся, одиноких отцов в чем угодно обвиняют посреди улицы, картинки отдаленно похожие на детей запрещают и трут, гневные комментари пишут и пишут, пишут и пишут. А педофилы все никак не кончаются, даже наоборот, с каждым годом их все больше и больше и они все настырнее и настырнее и борьба лишь разгорается. Уже лет 15 лишь разгорается да все никак не разгорится до конца. Иногда вскрывается что пристарелые миллиардеры тоже педофилы но это быстро забывается и огонь борьбы разрастается по новой. Их давят а они становятся лишь тверже и размножаются почкованием. И конца краю этому не видно.
>>865102 Вот, кстати, у флакса бывают проблески "души" в плане выражений лиц, хотя это может из-за того, что он делает не арт ебаный, а скринкап по-середине действия.
>>865102 > не дженерик 1girl с дженерик ебалом с пачкой визуальных багов и мылом Так просто не генери дженерик 1girl с дженерик ебалом с пачкой визуальных багов и мылом.
Пони стал тренить v7 на AuraFlow, и как я понял, если будет херня, то на flux schnell. От sd3 отказался, хоть и лицензия сейчас позволяет, так как ему модель не нравится
>>865483 > если будет херня, то Ещё на большую херню пересядет, лол. Шнель же это вообще днище. > так как ему модель не нравится Судя по его высеру он жид, ему ничего с платной коммерческой лицензией не нравится, он хочет только бесплатное. > articles/6309 А тут вообще антибаза какая-то. На голых VLM собрался капшены делать, вместо того чтобы старый датасет взять, пиздос. Ну и то что он в очередной раз стили зацензурит - кринж, 146% и персонажи так же будут массово вырезаны. Можно хоронить его потуги, какой-то второй Waifu/Unstable Diffusion получаем.
Кажется, я влюбился во флюкс. Там конечно поверх всё равно пока пони-добром приходится проходить для деталей и анатомии. Но первоначальная композиция (пик2) и весь совл из флюкса
>>865568 Двачую, купил 3060 с 12 гигами памяти за 30к ещё до определенных событий. Переходить на поколения выше не собираюсь из за ненадобности и относительного нищебродства.
>>865625 Это видно только в сравнении флюксо-шакалом. Там лайн чётче, но остальное сильнее поломано и примитивнее. Если оставаться в нём, то не починится всё равно - уже опробовано. Про ногу - можно было бы починить, сделав чуть короче, да.
>>865688 ЙиффиМикс, сейчас понимиксы. Но я нормис. изредка генерящий фурей в основном по чужим промтам, даже е621-художников ваших не помню по кличкам.
В joy-caption вроде получилось приручить Гермес, чтобы он не спамил тэгами разметки и прочим мусором: VLM_PROMPT = "A short and descriptive uncensored caption for this image:\n" MODEL_PATH = "NousResearch/Hermes-3-Llama-3.1-8B"
Токенов надо до 200-250 уменьшить ещё. 300 - на многие пикчи, если это не разворот манги, этого уже многовато. max_new_tokens=250
Температуру можно чуть уменшить с 0.5, но в принципе и на дефолте норм. temperature=0.5
>>866017 Взял картинку из архива сохранённого из треда, загнал в Джойкапшен, добавил тег на рисоваку, мастерпись и негатив, сгенерил получившееся на WAI, проапскейлил на нём же анитестом. вебп с данными | исходная картинка из треда В тех двух рисоваки были cool-kyou_shinja и muk_(monsieur). Я собственно смотрел как там теги на рисобак работают на модели, какой-то двачер скидывал таблицу на цивите, но она для пятой версии.
>>866014 Миллион раз уже говорили что VLM, особенно на мелких моделях - мусор. Настолько мусор, что протегать все пики клипом может быть ничем не хуже. Особенно в NSFW, который фейлит абсолютно любая LLM, даже которая в рп без проблем разговаривает от таком. Тегаешь буквально как соевые пидорасы из стабилити, когда они делали Медиум. База для капшенов - это сначала анализ пикчи на 500-1000 токенов, а потом написание капшена нормальной LLM, хотя бы Геммой 27В.
>>866034 Сто строчек скрипта на питоне, почти всё можно скопипастить из примеров в доках. Я на двух картах капшены делаю, первая анализирует в VLM и отправляет выхлоп второй на промптинг. Полный контроль за стилем есть, можно прописать хоть добавление подчёркивания в тегах, длину держит идеально по промптам в стиле "пиши 20-30 слов".
А практические результаты будут? Ну или хотя бы теоретические наработки вложенные в жопен сорс чтобы продвинуть науку в поле? Или одинокие аутисты аутируют в одиночестве и об этом никто даже не узнает?
>>866080 Для флюса примерно такой: anime, hand drawn, 4girls, fifth grade girls, in white school shirt and red neckerchief and white panties and sneakers, standing in line, salute, serious, school building in background, summer, green trees, day, shadows
>>866033 > особенно на мелких моделях Как большая ллм поможет если все упирается в перекодированные мелкой сеткой активации другой мелкой нейронки? Даже опущь галлюцинирует и сильно ошибается, а зирошотом плохо слушается инструкций по форматированию, увеличивая объем косяков. Сложное форматирование и сокращение уже вторым сообщением или в cot, так сильно лучше. >>866044 Единственно верный подход с тем что капшны нужно прунить и уточнять. Так-то это было продемонстрировано в ллм треде еще в ноябре-декабре, но косячности vlm не решает. Разве что если мультимодалка может не только зирошот ответ а в диалог - можно делать ее опрос с уточнениями и коррекцией галюнов по референсу (тоже была демонстрация), и даже от всратых получать нормальную выдачу, но ресурсов много требует.
https://github.com/NeuroSenko/image-caption-webui Накидал гуй для joy-caption. Модели не качаются с huggingface, надо вручную закидывать в папку с моделями, ссылки есть в README, либо можете их из C:\Users\%username%\.cache\huggingface\hub перенести или скопировать, если они у вас уже были загружены ранее через huggingface hub и не хотите по новой скачивать.
Можно менять настройки семплера LLM и указывать Stop Sequence (чтобы тьюны типа Гермеса не пихали свои <|end_of_text|> в капшны).
Можно обрабатывать по одной пикче, а можно сразу пачками с сохранением капшнов в txt.
В случае обработки батчами, можно дополнительно скармливать в промпт кепшны от wd-таггера (или чего угодно).
Настройки не сохраняются. Защиты от дурака нет - начали кликать по кнопкам до завершения прошлой операции и получили непредсказуемое поведение. Написано на коленке за полтора вечера, так что могут быть ещё какие-то баги.
Сейчас надо уйти, если какие-то вопросы/замечания будут, только вечером ответить смогу.
>>866130 VLM сосут потому что у них в контексте насрано пикчей. И твоя инструкцию как пыль посреди всего этого, когда пикча 1000 токенов занимает. Естественно в таких условиях оно будет пытаться делать то что натренено, а не то что просишь. Повторный проход по тексту отдельной LLM решает проблему с этим, причём очень даже хорошо. А выполнять хорошо инструкции локалки уже давно умеют, если это не 8B. >>866169 А теперь попробуй туда закинуть NSFW и добиться от неё прямых описаний происходящего. В лучшем получишь абстрактные explicit content/sexual act between two individuals/person in provocative pose, в худшем I cannot assist with that.
>>866189 Да не, это только джойкапшн так делает. Большинство наоборот отдают гораздо больше внимания твоему промту чем токенам с пикчи, и любят делать неверную трактовку пытаясь тебе угодить, уровня > если у персонажа длинные волосы - опиши их цвет и позицию > картинка с автомобилем на фоне природы > тут автомобиль, а еще персонаж у которого длинные волосы...
> В лучшем получишь абстрактные explicit content/sexual Ты, наверно, не использовал активно джойкапшн. Там много недостатков, но нсфв оно старательно описывает, вплоть до того в чье лицо летит струя малафьи. Глюков, к сожалению, много, а плохое восприятие инструкции усложняет исправление этого.
Если у тебя есть другие варианты для капшнинга (кроме очевидных корпоративных ллм) - интересно узнать. хоть реально бери и свое тренируй
>>866386 > малафьи Вот с этим вообще всё плохо, он постоянно про какую-то white substance пишет. И сколько его не уговаривай - он не хочет понимать что это такое. Ещё и галлюцинирует часто про невидимого "партнёра", которого нет в кадре. > Если у тебя есть другие варианты для капшнинга Как я уже и писал - генерить простыни в VLM InternVL2 26В/40В или нищий Idefics3 и просить LLM расцензурить. Вот LLM почему-то сходу понимает о какой такой субстанции речь идёт, а джой гонит одну и туже телегу.
>>866441 Наверно не везло > И сколько его не уговаривай Это главная беда, оно транслирует настолько "мощные" эмбединги что на все остальное пофиг. > InternVL2 26В/40В или нищий Idefics3 Как они в плане секса, так сказать? Пожалуй, нужно пробовать, если окажутся прямо хороши - спалю годноту по методам
>>866480 Лоры то хорошие, иногда получается совместить и модель выдает на полную уважая лору. Но чаще получается какой то даунгрейд где даже цвета выцвевают.
>>866486 Да тут даже не сам стиль, тут качество самой картинки падает. Условно - моделька сама по себе выдает гипер реалистичное аниме. Лора ляжет хорошо - гипер реалистичная аниме девка идеально как из тайтла например. Лора ляжет плохо - какой то низкокачественный скетч который и дешевое аниме еле напоминает.
Было такое на сд когда моделька и лора просто несовместимые друг другом, тут все понятно. Но иногда такое происходит и на поне причем абсолютно рандомно, первые пять генераций супер низкая кволити скетч а потом оно словно проперделось и пошла годнота.
>>866416 >Для человека, который предъявляет такие претензии, >ассумить видовую принадлежность анонима на двачах А если я идентифицирую себя as "400-летняя лолисичка" или "боевой ОБЧР"? Это же повод оскорбиться! >>866434 Девочки. Ту гёрл стэндинг, классика. Чуть меньшая, чем уан гёрл.
>>866169 >AssertionError: Torch not compiled with CUDA enabled После установки без ошибок. Хз что в reuirements не так видимо. Обычные тэггеры установленны также работают. Куда на месте.
>>866189 > А теперь попробуй туда закинуть NSFW и добиться от неё прямых описаний происходящего. В лучшем получишь абстрактные explicit content/sexual act between two individuals/person in provocative pose, в худшем I cannot assist with that. Да, капшны для NSFW там суховаты, как по мне. Одна из причин, зачем я вообще пилил UI, это чтобы можно было с промптом/семплерами/чекпоинтами поиграться - может выйдет найти более удачное сочетание.
>>866574 > Хз что в reuirements не так видимо. Обычные тэггеры установленны также работают. Куда на месте. https://github.com/NeuroSenko/image-caption-webui?tab=readme-ov-file#torch-cuda-error В ридми описал этот кейс. Сам не знаю как правильно прописать торчи в reqirements чтобы он версию под GPU по дефолту качал. У меня эта проблема почти с каждым пакетом, который ставлю.
Смотрю картинки которые люди генерируют на еулере а там отменный результат, все гладенько чисто а у меня никогда так же не выходит. Обрабатывают в тихую чтоле, без метадаты или как.
>>866396 Узнаю этот стиль, на 1.5 ещё помню была лора, на которой живого места не было, чсх работала она всё равно нормально, вот только забыл, как имя художника?
Сап, гайс. Год назад дропнул генерить, а сейчас решил вкатиться опять и у меня вопрос. Вот модель и пример генерации https://civitai.com/images/8135805 Я ставлю ту же модель, тот же промпт, тот же семплер, но сука результат каличный кал, в отличии от того что я хотел повторить, что за хуйня? И че за гайденс, у меня в автоматике такого я не вижу, мб другой интерфейс юзать, если да то какой?
>>867010 Мда уж, дела... Я понимаю что нельзя, через хайрез пытался выходит дрянь вообще не похожая, даже отдаленно, видимо проблема в эмббедингах разных
>>867078 > xl > 512x768 На XL исходная генерация должна быть +-1 мегапиксель а сторона кратна 64, ставь 832x1216. Семплер - лучше начать с Euler a, остальные могут неприятно на XL работать, экспериментируй. После увеличения разрешения снизь кратность апскейла хайрезфикса до 1.5-1.6, деной подними до 0.4-0.5. > koban (gold) Скобки обратным слешем должны быть выделены \(gold\) иначе это просто вес тега Шизонегатив убирай, у тебя буквально в основном стоит > monochrome > greyscale а в негативе > Black-and-white picture > monochrome плюс все это полотное - треш, оставь только десяток главных тегов, также выпили упоминание эмбедингов полторашки. > AnythingXL_xl Хуй знает что это вообще такое >>867079 Модель отвечает только за детекцию области, которая потом будет инпеинтиться в повышенном разрешении. Если параметры обработки выставлены криво то и будет ерунда.
>>867010 >Разрешение слишком большое >960x1536 Are you serious там? Оно даже для хайрезфикса полторахи не "слишком большое", а сдохлемодель, на которой она была сгенерена, может и вовсе сразу выдать. >>867069 >512x768 на XL-модели. Просто кек.
>>866833 >1.5 Художник Watanabe Tomari и это лора под флукс под неё. Под 1.5 лора была кривая, не все детали стиля копировала. А так на этот же стиль я делал под поней и анимеджин лору где-то полгода назад, кидал в hdg ссылку на неё.
>>867078>>866995 Пизданись как промт засран. Словно из первой най вытащили.
А по поводу почему не так как на пике. Скорее всего потому что это не апскейл, а нативное оригинальное разрешение с которым генерировалось. ХЛ модели хорошо работают хотя бы от полумиллиона пикселей, идеально миллион, а у тебя 513×768 393216 больше чем в 2 раза меньше.
Либо хайрезилось не через эсрган, а через латент с высоким денойзом.
Плюс эмбединги упомянутые в промте у тебя тоже должны быть.
Методология поиска то как это делалось такова: 0. У нас есть сид, сэмплер, модель и названия эмбедингов. Это хорошо. 1. Берём калькулятор и высчитываем возможные разрешения апскейла 480:768 если х2 наприимер наиболее вероятный кандидат 2. Выставляем сид, сэмплер, промт как в оригинале. Не забываем про эмбединги. 3. Прогоняем генерацию меняя разрешения, пока не получим примерно похожий пик. 4. Если это оказалось нативное изображение, то хорошо. Если получилось что то похожее, но не совсем и меньшего разрешения, тогда включаем хайрез и последовательно дрочим каждый апскейлер и денойз каждого апскейлера пока не получим идентичный пик учитывая засранность промта скорее всего латент на 0.7 5. Ставим -1 в поле сида и получаем много котодевочек.
>>867112 Разное поведение, проще сделать грид с ними для сравнения чем лезть в математику за этим. >>867121 Буквально и без задней мысли. Офк лучше придерживаться типичных описаний при фотографии или простых конструкций, типа боковой свет, контровой свет, свет снизу и т.д. На пони моделях может не работать ибо оно лоботомировано в хламину. >>867133 Это флакс так жмыхнуло стилем или просто промт неудачный?
>>864563 > пикчу с двумя одинаковыми/разными девочками, где одна в бикини задирает юбку второй, на которой кроме этой юбки ничего нет и виден сисик-писик Ух бля. Потанцевал что надо, можно много чего описывать. Но как же тяжело оно тренится так чтобы избежать лоботомии.
>>867120 Да, точно он. На 1.5 всё впринципе криво работало. В hdg не видел, может проскроллил как обычно, там довольно сложно в щитпосте нарыть инфу в целом, сам небось знаешь. Как она под пони перформит? Чекпоинт всё же совсем не для совла.
>>867196 >Как она под пони перформит? Чекпоинт всё же совсем не для совла.
Под пони и анимеджин - в целом ок, с учётом стандартных проблем обоих моделей. В анимеджин почему-то уходит в бежевую гамму, под пони всё ок в целом (не считая того, что фоны так себе рисует, как любые пони).
Ваше мочерейшество, не соблаговолите ли вы удалять только, по вашему ИМХО, сомнительный арт, а не весь пост целиком? На этом арте непотребств не было. нюдсы ему, видите ли не нравятся, ишь какой
>>867197 > В анимеджин почему-то уходит в бежевую гамму Странно почему не наоброт, но ладно, видимо это скорее болезнь аутизма, весьма неплохо выглядит.
>>867197 > В анимеджин почему-то уходит в бежевую гамму На нем многое туда уходит, поломанная модель. На самом деле лоботомии там тоже немало, хоть и не так жестко как в пони, но энкодер и палитра поломаны. >>867202 Сгенерируй еще, по нюдсам на свое усмотрение та была неплоха >>867283 По дефолту в диффузии лора накладывается на ограниченный перечень слоев, сверточные остаются нетронутыми. Locon (а также ликорис и прочие) - те же лоры, только которые тренятся на дополнительные слои. LOra+CONvolution, отсюда и название. >>867287 Ну что, потомки, научили флакс девочек раздевать?
>>867394 > Какой же тупой ХЛ ощущается после флюкса, ужс Аналогичное впечатление от флакса в ряде задач. Проще пожертвовать качеством текстов. Хотя офк потанцевал у него есть, но непонятно когда он сможет достигнуть достойного уровня. Что, в нем такого особого промтишь? Пикрелы выглядят достаточно простыми даже для 1.5. > тупой И еще стоит юзать пони для чего-то кроме анатомичных девочек. >>867396 Содомит. Но это нужна умная девочка чтобы соображала объем. >>867400 1 хороша Не кумерством единым, оно отчаяно игнорирует многие позы, теги и подобное, в этом главная беда. И отсутствие чаров очень огорчает.
>>867409 > лоры на природу https://www.youtube.com/watch?v=sHg9Pg5WBks > Свет, атмосферу Это, и даже > кто слева, кто справа и подобное. И всё натуртекстом на самом деле у нас украл пониеб и его восславители. Конечно, проще и ограничено, но XL в это может. Лень расчехлять генераторную, при случае покажу. Если бы не вакханалия инцеста, лора-безумие и вся херня что творится то давно бы это имели и довольно урчали.
>>867447 >вкратце можете пояснить, че это вообще такое? Новая модель для солидных господ с достойным железом, многое может и многое не может, но потанцевал есть
Как в пони получить нормальный фон, а не мыльную мазьню? Персы получаются нормально, а когда пишешь no humans, и пытаешься сделать пейзаж для фона, то пиздец
>>863120 (OP) Не находит модель, кто может подсказать, какую бы не поставил, при том что если модели 2 гб весят и выше то работает
File "D:\ComfyUI_windows_portable_nvidia_cu121_or_cpu\ComfyUI_windows_portable\ComfyUI\comfy\sd.py", line 527, in load_checkpoint_guess_config raise RuntimeError("ERROR: Could not detect model type of: {}".format(ckpt_path)) RuntimeError: ERROR: Could not detect model type of: D:\ComfyUI_windows_portable_nvidia_cu121_or_cpu\ComfyUI_windows_portable\ComfyUI\models\checkpoints\eyelashes_XL_V1.0.safetensors
>>863120 (OP) Кто тут возмущался из-за цензуры моделей? Вот, пожалуйста: взялись за телеграм. Из-за присутствия в нем ЦП (прямые ссылки на которое есть по всему интернету). И Дурова взяли за жопу... Точно так же возмут любого мл-разраба.
Проект стейбла еще легко отделался, с ним так-то тоже цп генерируют (и выкладывают потом в интернете).
>>867775 Дуров и так сдавал ЦПшников, торчей и террорчей. Жандармы хотят не ЦПшников, а доступ вообще ко всей хуйне учитывая, что отдыхающие на югах нашей необъятной пользуются в основном телегой для связи с домом, не трудно понять зачем
>>867853 Blueprint XL. Флакс я удолил пока, у меня не 24 гига, чтобы ебаться с этой тормозяшкой на 8 гигах ради сомнительного профита. >>867838 Модель, похоже, не понимает стилей, кроме того, что осталось от базовой сдохли. digital anime illustration было в промпте.
>>863436 > Кубы умеешь рисовать? Не умею, зато с помощью нейронок я теперь могу реализовывать свои идеи. В /pa мог бы быть нормальный тред на тему использования нейронок для рисования, но из-за кубордочеров, которым через 3 дня в школу и тебя, троллящего их тупостью, его уже не будет.
>>863395 > Столько работы Да час бы от силы ушел, если бы видео не записывал. > Сама лолисица вроде довольна простая. Обычна после таких слов идёшь рисовать, через 5 минут ничего не получается и ты дропаешь.
>>863629 > где можно было зарядить рулетку диффузии, предпочитаешь так? Если ты про инпеинт рук, или каких-то элементов, я как раз стараюсь избавиться от рулеток, куча времени на ролы уходит и электричества, а толку мало. Если основа была кривая, роллы это уже не поправят, проще сделать несколько генераций, посмотреть где лезут косяки и исправить в этих местах саму пикчу для i2i. Ролю только в начале, для поиска идей, тут часто бывает, что то, что предложит нейронка будет интереснее чем то, что в голове, поза там интересная получиться и т.п.
>>868048 >В /pa мог бы быть нормальный тред на тему использования нейронок для рисования Там тотальный пожар случился бы. Подрыв. Армагеддон. Взлетающие на сракотанной тяге рисоваки по всей стране были бы заметны. Некоторый, особо отбитые, могли бы и до Марса долететь. Была бы у нас зато колонизация, посрамили бы Маска.
>>868048 > Если ты про инпеинт рук, или каких-то элементов, я как раз стараюсь избавиться от рулеток, куча времени на ролы уходит и электричества, а толку мало. Просто с эпохой XL отметил что оно наоборот быстрее получается правда есть нюанс, или уж совсем грубо наметить а потом оно само сделает. > Ролю только в начале, для поиска идей Топ тема, но когда знаешь что хочешь там сложнее. Поделись лорами для своих тощих девочек, хочу их погенерить.
>>868066 >Взлетающие на сракотанной тяге рисоваки по всей стране были бы заметны. Звучит опасно, а если бы в Америке посчитали это за атаку баллистическими мужиками рисоваками из космоса? Тем более бомбить их рисобаками было бы кармической справедливостью, за все зацензуренные сетки и не только.
>>868072 > Поделись лорами Кидал в прошлом треде, одна лора всего, возможно даже и тегов одних хватит: >>860168 → Я недавно на XL перешёл, особо ничего не нашёл пока, стили тоже так и не смог повторить с 1.5, но хотя бы руки и прочие вещи на порядок лучше генерит, придётся заново искать новые любимые стили.
>>867622 >это флакс? Какой промт? Да, там всё флюх. black and red color scheme, (anime style:1.4), (cel shading:1.35), toon \(style\), underground cave, reflective floor, night, lara croft,
>>868114 >Крутые результаты. Я выпал из темы немного, в 16гб врам влезет? А то вы говорите, что гигатяжелая модель.
Да, у меня 4080 на 16гб, запускаю флюх дев на фп16, мне норм. Правда у меня ещё и 64гб оперативки, но так у флюха понаделали кучу версий разной степени кастрированности - можно наверно и на 8гб врам запустить самые порезанные версии.