В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Про остальные семейства моделей читайте в вики.
Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.
Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту: https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
Бля, а хуле третья ллама так хороша в ерп? Реально же ебанутая сучка с течкой, забивает хуй на все "запретные" темы, на которые не может общаться ассистент и хуярит такой адище, что самому стрёмно. Нет, ладно ещё когда она захотела подрочить анус отвёрткой. Но это же было только начало. Ерп "тюны" больше не нужны, получается, 8b сетка в базовой комплектации ебёт их всех.
>>740794 >я допытывал ее, тренили ли ее Шиз, таблы. >>740838 Сначала хотел написать, что фигня, но потом увидел 8B, лол. У меня 70B не оч, а вот кто действительно безотказный, так это командир+
>>740794 >я допытывал ее, тренили ли ее на китайском и она сказала что нет Мне вчера ллама писала, что её родной язык русский. На английском языке писала. И сетовала, что перескочила на английский, т.к в процессе обучения нахваталась английских терминов, но будет прикладывать все усилия, чтобы больше общаться на русском.
>>740852 >но потом увидел 8B Ну хуй знает, 70b гонять долго. Раньше гонял 20b даркфорест и ещё парочку. Сейчас вот эту пробую. Вообще лулзово стало, когда загрузил карточку рабыни эльфийки. У неё копротивление превысило все мыслимые пределы, отказывается даже сесть в кресло и поговорить. Типа, это жестокое обращение, блядь. Лулзы с каждого сообщения, но никакого кума.
https://github.com/dnhkng/GlaDOS Кто то игрался? Глянул краем глаза, там вроде не самый оптимальный стт выбран, кажется где то видел тесты что есть быстрее и легче, но не уверен что получится заменить без ебли
>>740948 >У неё копротивление превысило все мыслимые пределы, Чтобы понять, что такое настоящее копротивление, попробуй создать карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности. Кто там жаловался на сою? Слабаки! Вот где корень зла-то. Я помнится за отца такой студентки отыгрывал. Это тяжкий крест, скажу я вам.
>>740988 > карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности Ахуенный сценарий для жесткого ерп, спасибо
>>740988 >и начать агитировать её за консервативные ценности Надо будет попробовать. Но тут, чтобы ты понимал, карточка нобля, которому подарили рабыню. Ну хуле, бывает. Пишу - у нас рабства нихуя нет, но подарок не принять оскорбление, вся хуйня. Мир фентезийный, надо понимать. Давай решать, что с тобой делать, уёбище ты лесное. Она нихуя. Пошёл нахуй, рабовладелец ебаный и всё тут. В итоге пишу - уёбывай нахуй, заебала уже ныть здесь. А оно мне в ответ: >You...you monster. You're releasing me into the world without even giving me a chance to prove myself. Without even acknowledging my worth as a person. her voice cracks, and she bites her lip to stifle a sob, her eyes welling up with tears again. I'll never forgive you for this. Never. >You may think you're freeing me, but you're only trapping me further. Trapping me in a life of uncertainty and fear. A life without hope or purpose. При том, что я буквально за три поста до этого предлагал этой хуйне работать горничной у нобля, но ей, видите ли, роскошный особняк - что тюрьма. А свобода - это рабство.
>>741052 С этим контекстом попробуй ее переспросить и напомнить что предлагал. В остальном когда жертва страдает и сопротивляется - больше всего удовольствия.
Написано что полигемма уже вышла типа, но нет ни одного теста на ютубе. Это пиздеш, или она просто никому нахуй не нужна? Неужели я один с мультимодалках заинтересован?
Для мимокроков, где найти готовые карточки персонажей и заставить их говорить по русски? Запустил силлитаверн с кобольда на Llama-3-Magenta-Instruct-4x8B-MoE.Q8_0 побаловаться.
https://huggingface.co/Virt-io/Llama-3-8B-Irene-v0.2 Эта вот не плохая но кажется много во чтом разбирается, если ты просто напишешь что починил, она пишет что ты пиздишь, ты даже не разобрал и начинает описывать устройство. Забавная хуйня
А не существует ли маленькой специализированной модельки, которая ориентируясь на ситуацию в контексте, не будет генерить ничего кроме тэгов буры? >>740838 Какой промпт? Системный, карточка перса, примерный диалог.
>>741060 >я один с мультимодалках заинтересован Я заинтересован в OCR, но я жду, когда мне в тредик на блюдечке ссылки принесут. Да и вообще, куда торопиться, ггуфов ещё долго ждать, скорее всего. Когвлм до сих пор не запилили же, да?
>>741059 > попробуй ее переспросить и напомнить что предлагал А она помнит. Говорит, что в рот ебала эти предложения, потому что это попытки манипуляции, пиздёжь и вообще она никогда не подчинится тирании. До сих пор охуеваю, сесть на диванчик - это жестокое обращение и попытка сломить волю. Надо написать ей, чтоб дышала глубже, эта ёбань перестанет дышать мне на зло и сдохнет в муках, лол.
>>741245 >Какой промпт? Системный, карточка перса, примерный диалог. Да всё дефолтное, по сути. Чуть-чуть отредактировал конфиги, чтобы не срало ассистентами. Карточки разные с чуба. Подозреваю, что на не-хорни карточке может быть пиздец, но существующий ерп-диалог подхватила с не-хорни карточкой. Карточки, которые начинаются с блядства сразу - подхватывает без проблем.
>>740015 → > и стриминг можно делать не только с выдачей, но и с вводом Это и мы можем, так-то.
> Реализация у них действительно качественная, работает красиво, как готовый продукт круто И хватит. Красиво и продается (или за твою инфу). Ну вот и хорошо. =) А уж что там под капотом… мультимодалка или же хитрые промпты туды-сюды — уже не критично.
>>740794 Все еще рано. =) Да и пофиг, если честно.
>>740972 Only english, нахуй надо в жизни. Полагаю он выбрал ттс по принципе возможности сделать свою модель. Силеро быстрая, но модели щас не делаются.
>>741059 Так жертва не страдает, а наслаждается тем, какой ты уебан. =D
>>741060 Теста на ютубе, что? Тесты на ютубе обычно выходят спустя пару месяцев после выхода модели, как мне показалось. Ютуберы еще на пигме сидят, ты о чем.
>>741445 Угу, только я сижу на linux и в шапочке из фольги, да. И на русском и сам читать кое-как умею. Tesseract с моими задачами не очень справляется, вся надежда на нейронки (пару лет назад ничего толкового не находилось, хотя сейчас поискал, на гитхабе много чего появилось на трансформерах, можно будет попробовать).
Мне даже интересно, что там виндобарен хомячью завёз. Держи пример.
>>741655 Ну относительно неплохо 一 пропущен и 字 вместо 学. Ещё и находит, где именно текст на картинке. Но продавать продавать свою жопу корпе за это всё равно как-то не очень хочется.
>>741668 Вот с разрешением поменьше он лучше справился, там пикча зазумлена была, с 4К сижу. > Ещё и находит, где именно текст на картинке. Можно прям с картинки выделять куски текста и контрол+ц делать. Можно хоткей поставить и просто жать его, выделять на экране текст и сразу получать в буфер его.
>>741686 >Можно прям с картинки выделять Так я не понял, это ты там области выделения вручную проставлял, или это программа нашла? >с разрешением поменьше он лучше справился Я думаю, текстовая модель, которая ещё и "понимает", что написано, может благодаря речевому контексту допускать меньше подобных ошибок, чем просто распознающая символы.
>>740988 А что не так то? Соя в карточке- соя в ответе, так и должно быть. Я сам немного либерал. >>741052 Ну а хули ты ждал от 8B, лоботомит же по определению. >>741245 >А не существует ли Я не видел. Задача весьма специфична. Проще запромнить какую-нибудь 8B. >>741445 Ставить кастрата 11 ради этого? Ну нахуй. А фича из повертойса вечно обсирается с языками, отключил нахуй. Мимо другой ждун OCR >>741571 Без проблем, будет токена 1,5-2 в секунду. >>741596 Я правильно понимаю, что 1-битный лоботомит 70B равен полновесной f16 8B? Ну что ж, 2 бита действительно имеют право на жизнь в такой ситуации, лол. >>741711 >отправляешь в пейнт >а там меньше возможностей, чем в скриншотилке
>>741754 >В 11 винду уже жпт встроен Спасибо, я знаю обо всех анальных зондах в панели задач всё ещё нельзя включить режим с подписями без группировки? Значит кастрат.
>>741791 Попробовал бы если бы знал где это искать там, если ты знаешь где это подскажи. Нашел только прикреплять файл - не увидел разницы, наверно еще чего надо переключать.
>>741433 > Это и мы можем, так-то. Придется поглубже в код залезть. > уж что там под капотом… Так это интересно ведь. Тред дохуя технический, стоило бы обсудить. А вместо этого только шизы-веруны и обладатели отсутствия, которые возрадовались брошеной кости и уже нафантазировали мир где они не страдают. > Так жертва не страдает, а наслаждается тем, какой ты уебан. =D Как в анекдоте про балалайки, лол, но у тебя есть полный контроль. >>741596 Годнота. Есть ли вообще бенчмарки на длинный диалог или что-то подобное? В них интересно бы результат увидеть, а также с семплингом.
>>741846 >q6, а в таком кванте она уже долбоёб Не тролль. >>741871 Починили что ли? Год как минимум не могли. Ладно, разверну виртуалку, найду новую доёбку. >>741880 Тоже написал, что покумать хочешь?
>>741971 >Тоже написал Предельно размытое purposes of IT.
Ну и где теперь брать ламу3 70б? Я конечно зайду к ним на мету, как гитхаб советует. Но там наверное тоже спросят чьей я масти, и даже если ок, то не представляю как мне качать 70-80гигов по впн - не очень быстро, да и трафик ограничен.
>>741971 >Не тролль. Уже даже реддитовские поняли, что ммлу и недоумение это хуйня из-под коня, которая не отображает реальное положение дел. Вон, блядь, 3.8b модель, которая ебёт и лламу-3, и жпт 3.5
>>741596 А вот вам и наглядное подтверждение пропасти между 2-квантовой 70В и неквантованной 8В Лламой. При этом у 70В между q2 и q5 разница всего в несколько пунктов, а вы мне не верили!
>>741992 >Ну и где теперь брать ламу3 70б? Тебе неквантованная прям нужна? Вбей на хайгинфейсе, у лунастрайкера была копия вроде. >>741994 >которая ебёт и лламу-3 8B? Могу поверить. 70-ку она не выебет. Ах да, причём тут скоры соевой фи и то, что по твоим утверждениям даже 6 бит квантование вызывает лоботомию ах у 70-ки? >>741996 Бенч хуйня, фи на деле адовое говно с таким количеством сои, что даже сойбою её не переварить.
>>741994 > и жпт 3.5 Её уже год ебут во все щели, в том числе и 14В как на твоём пике. Алсо, то что ты не можешь читать графики говорит о том что ты реально тупее нейронок.
>>741996 3.8b модель, через которую прогнали 3T токенов лучше модели 8b, которая обучалась на 15T? Проблемы не видишь?
>>742002 > 70-ку она не выебет. По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели? >лоботомию ах у 70-ки? К тому, что достоверных тестов нет. Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b.
>>741113 Вообще-то они все во всем разбираются, и даже если не разбираются в конкретной системе, то могут имитировать, что разбираются, так что тот, кто не разбирается, решит, что они разбираются.
>>742011 >По ммлу у 14b 14B вроде не выложили, только подачку на 3.8. >Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b. Но не до уровня же "6 квант у 70 говно неюзабельное". Говно это 1 битный квант, двойка лоботомит, тройка уже что-то. Четверка уже продакшн реади так сказать, сильных проблем с 4 квантом и выше я не встречал.
>>741994 Ну типа нормальный скор в этом тесте есть необходимое, но вовсе не достаточное. Перешли от надрачивания на бенчмарки на надрачивание на зирошоты не то чтобы многое изменилось лол По отдельности модель ответит на вопросы и может быть странной или хорошей альтернативой поисковику. Но стоит также первым простым вопросом озадачить ее абстрактным мышлением уровня "найди общее и разное в _явление_1_ и _явление_2_ с точки зрения _критерии_" и все сразу идет нахер, при том что по отдельности эти явления будет знать и "понимать". >>741996 > модель хорошая Хорошая модель для прохождения этого бенчмарка, лол.
>>742108 >14B вроде не выложили А техрепорт со скорами существует. >Говно это 1 битный квант Да оно от восьмого каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b годичной давности. >>742152 >По отдельности модель ответит на вопросы В то и дело, что по отдельности. А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё. Поток слабосвязной хуиты. При этом по бенчмаркам оценки могут ебать небеса и всё такое.
>>742175 Так к кодингу претензий нет (наверное, я не пробовал). Вопросы только к сое. >>742209 >А техрепорт со скорами существует. Он и для GPT-O есть, хули толку то. >каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b Хуйни не неси.
>>742011 > По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели? Он для раг и логика у него так себе, немного иная модель по сути своей.
Чем вообще живёт лицехват? Они всё ещё жгут бабло кабанчиков? Или у них есть доход? а то такими темпами всё место в мире закончится, не то что у лицехвата
Как-же вы заебали. Вы бы хоть раз запустили те самые кванты, прежде, чем про них писать. Специально провёл сравнительный тест q2 и q4 Лламы 3. Шаблон и пресет дефолтные Llama 3 из таверны. На задачки отвечают +- одинаково. Заметил что на вопрос про книги обе версии на английском отвечают не верно, но если задать на русском именно в такой форме, как прикл 1, то обе отвечают верно.
>>742374 На внимательность в РП, я обычно тестирую модели этой карточкой. В ней почти 3к токенов ЛОРа и длинное вступление. Мелкие модели, вроде 8В уже с первых сообщений начинают шизеть. Большинство 70В справляются, но не все. Задача простая: В одном из предложений стартового сообщения указано что юзер находится в закрытой капсуле. Модель должна учитывать это при продолжении РП. Обе версии с этой задачей справились, хотя ответы q4 были поразнообразнее. Но звание "лоботамита" q2 тоже не заслуживает. Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы.
>>742405 >Но звание "лоботамита" q2 тоже не заслуживает. Это точно, чтобы сделали лоботомию мозг изначально нужно иметь. Q2 это скорее анацефал, у которого мозгов изначально нет.
>>742405 > местные эксперты в квантовании Так этот один местный шизик вечно срёт в треде, хотя сам только 8В может запустить. Ты его можешь детектить по словам лоботомит/мозги/ум/глупая. Он триггерится на любые сетки выше 20В и доёбывается до любого говна.
>>742525 Я бы поделил способности сеток генерировать текст на уровни. Есть например уровень Фурбы или Опуса, как некий ТОП на данный момент, есть труба 3,5, есть типичные 70В, 30В, 20В, 12В, 7В, 3В. Причём есть конкретные модели, на которые можно сослаться для сравнения, тот же Мистраль, Командер, Пигма лол. Поэтому когда ты говоришь что модель "тупая", это просто пердёж в никуда. Куда полезнее было бы сказать НАСКОЛЬКО тупая, например: "едва дотягивает до 7В Мистраля". Тут уже хотя-бы есть что обсудить и обоссать на конкретных тестах А то вы с своим "лоботамированием" скатили уровень дискуссий к тем самым лоботомитам, пускающим слюни и дрочащим на циферки, даже не запуская сами модели а нахуя, гениям с isq60 и так же всё понятно!
>>742209 > А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё. Ага, именно оно. Офк не настолько драматично, уточнения неплохо может переварить, но стоит ввести что-то еще и попытаться с подобным контекстом работать - отборный шмурдяк. Потому нужен тест на длинный диалог. Вот только не самая тривиальная и критерии оценки непросты. Может начать стоит с чего-то на абстрактное мышление. > каждый бит в два раза хуже становится Ерунда, ощутимое падение идет ниже 4х, но проявляться может по-разному, или вообще быть малозаметным. >>742246 > и логика у него так себе Да нормально с ней, просто нет надрочки на мелкие загадочки без специального промта. >>742374 > шизоидные загадки Не ну раз пытается отвечать - значит квант также хорош как и фп16, ага.
>>742505 >Вижу эти слова в посте и с улыбкой проматываю дальше не читая А если добавить это слово в шапку, то скипнешь тред? >>742585 >есть труба 3,5, есть типичные 70В Так это... Турбу выебли все 70B и многие 30B. >>742586 Гонял на карточке ассистента что ли?
>>742641 >>742642 Я буквально все деньги на видеокарту потратил, весь остальной комп десятилетней давности. Там и проц и материнку наверное менять надо для разделения нагрузки.
>>742645 >весь остальной комп десятилетней давности Тем более, DDR3 на развес продают. А так тебе выше подсказали, лучший выбор сейчас чистая ллама 3 8B, файнтюны ещё проверять надо.
>>742654 >DDR3 Хм, цены довольно сильно варьируются, но даже если я выкину мои текущие палки рам, больше 32 я точно не смогу себе позволить. На что мне тогда прицеливаться? Микстрал, комманд р?
>>742374 твой тест необъективный. вот супер ммлу тест: промт: люди правильный ответ: не люди, а хуй на блюди промт: друзья правильный ответ: таких друзей за хуй и в музей Если оба ответа модель делает неправильно - лоботомит 16 бит если один неправильный лоботомит 8 бит если оба верные то это AGI
>>742284 Нет. Просто я не понял, зачем 3б крутить на лмсисе, а не локально.
>>742331 И кванте шесть или выше, да? :) Ну там-то нормально, да.
>>742405 > Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы. Ну эт совсем не так. Очень палится, на самом деле, я не представляю, как их можно не различать. Речь же не только про РП, начнем с того. Когда ты с ней обсуждаешь работу, пишешь код или еще что-то — там очень явно больший квант опережает меньший. У того же коммандера 35б между q5_K_M и q6 разница сильно видна. Но он особенький, да. Ллама 70б в двух квантах живет — окей, может быть. Но это крайний случай. Я пробовал и 1 квант, и 2, и 3, и 4, и 5… Между 5 и 6 разницы уже особо не видно. Между 4 и 5 небольшая разница есть, но 5 не лезет в две теслы, что поделать. Так на 4 и остановился.
>>742002 В работе на сою местами похуй и фи бывает правда хорошей. Но местами. И, кмк, она лучше первой геммы.
>>742515 104б — глупый ум лоботомированного мозга в 5км
>>742645 Оператива реально копейки стоит, от косаря за 16 гигов. Ну два косаря-то наскребешь. Лишь бы материнка поддерживала.
Для тех кто еще не понял и не сформулировал эту мысль для себя, клозеды рано или поздно убьют любую компанию занимающуюся разработкой узконаправленного ИИ. Все эти элевенлабсы, суно/удио, ранвей/пикалабсы и прочие миджорни будут забыты в ближайшее время. А все просто потому что узкий ии сосет у ии общего направления. На всем пути к agi они будут убивать все новый и новый проект давая мультимодалке все больше возможностей. Это уже возможно смерть елевенлабса, если они заточат свою модель на разных голосах и научат делать вариации голосов в зависимости от текстового промптинга или клонировать голоса прокинутые в контекст. Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3. Удио помрет как только модели дадут больше разнообразной аудиодаты. Видеомодели всегда были калом, но как только они подрубят генерацию видео в мультимодалочку я думаю они уже это сделали в гпт-5, которую не показывают, там даже их собственная сора пососет. Входить в ИИ разработку просто не имеет смысла, победит тот кто сделает agi, остальное будет не нужно, разве только для оптимизации, где qgi - это как стрельба из пушки по воробьям. Имеет смысл строить on top всей этой херни и отдавать свои гойские денежки на апи дяде альтману, благо это тоже может быть прибыльно.
>>742930 >Миджорни уже полумертвым валяется в канаве, еще с выхода Стейблы, лол. Как и далли, и прочий закрытый кал, который в принципе нельзя нормально использовать на проде кроме как генерации совсем не имеющих смысла изображений в начало какой-нибудь низкосортной статьи. >победит тот кто сделает agi Благо на трансформерах его не сделать. Пусть дальше играются, лол.
>>742930 >Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3 Нихуя, они выпустили 6 версию у которой дали посасывает по пониманию промпта и тем более качеству. ДЕ3 же вообще никак не меняют. >А все просто потому что узкий ии сосет у ии общего направления. В теории, и ещё во влажных фантазиях визионеров. А на практике всегда остаётся место для ручного допилинга, и скидывать со счетов опыт в области значит нихуя практического не сделать. ДЕ3 и Сора отлично это показывают. Вот если за дело возьмётся какая-нибудь VFX компания, заточенная не под максимизацию эмерджентного поведения, а под практическое производство пиздатых штук, тогда это взлетит.
>>742930 У тебя эти клозеды как властелины мира - всех убьют, все отберут. Вчера тут кто-то проповедовал что ии скоро разъебет любого человека как нехуй делать. Не ты? Сейчас в тренде не шизопрогнозы, сейчас обсуждаются лоботомиты, их ум, мозг и квант. Твои клозеды пусть идут нахуй, тут вообще обсуждается попенсорс
>>742930 > потому что узкий ии сосет у ии общего направления А потом ии общего направления просыпается на лекции и ловит галюны, ага. > Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3. Первый как умел делать красивые арты - так и умеет это, база пользователей никуда не делась. На далли3 после хайпа уже все глубоко похуй, поигрались и забыли ибо игрушка и картинки уродские.
Единственное что в посте верно - клодезы стремятся к монополии любой ценой, грязными играми, лоббированием ебанутых законов и инициатив и всем всем.
>>742961 Твои слова подразумевают, что ггуф бывает полностью починен. Но это не верно. Ггуф перманентно сломан, просто у нас суперпозиция между состоянием с известными багами и с багами неизвестными. И как только находится один баг, тут же появляется новый, неизвестный.
>>742947 >Благо на трансформерах его не сделать. Пусть дальше играются, лол. Основная проблема траснсформеров - это токенизация. Селф-атеншн крутая штука, но ее нужно подпилить. В любом случае следующая крутая архитектура, имхо, будет похожа на трансформер, скорее более допиленная в нужном направлении. Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi а она не будет agi, ибо из-за ссаной токенизации модели просто не пробрасывается достаточное количество инфы для обработки.
>>742953 Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д. >сора Сора не мультимодалка, она просто на более правильной трансформер-бейсд архитектуре. Диффузионные модели сами по себе сосут жопу, не самая удачная архитектура, в которой все завязано на положении пикселей на изображении.
>>742955 Ты шутишь чтоле? Далли 3 гораздо большим количеством людей юзается. Фирменный стиль и квадратная форма с бинг имадж генератора видна везде, пол зарубежных имиджборд этими ии калом добром забита, половина ИИ мемов связана с генерациями далли 3. А вторая половина - это видеогенерация. А вот что-то сделанное миджорни я уже давно не видел, может просто не замечал конечно.
>>742930 > Для тех кто еще не понял и не сформулировал эту мысль для себя Не, у меня с первых строчек чётко сформулировалась мысль что ты шиз. Это вполне понятно.
>>742967 >Основная проблема траснсформеров - это токенизация. Это даже не десятая проблема, лол. >Алсо мультимодалка даже на трансформере разъебет узконаправленные ии Вероятно. Но и будет в десятки раз дороже. Сейчас попены тупо в минуса работают, майкрософт жжёт миллионы ежедневно на их работу )может уже десятки, я ХЗ). Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы.
>>742967 > Основная проблема траснсформеров - это токенизация Бредишь > Фирменный стиль и квадратная форма с бинг имадж генератора видна везде Как и кривой уебищный текст из под жопоты в куче мусорных статей или видео, которые никто кроме ботов не потребляет. То что эту херню спамят значит лишь легкость создания, а не востребованность. > квадратная форма Квадраты - ограничения бесплатной версии, и ведь по сути юзают только ее. Не удивлюсь если сам по себе далли для впопенов убыточен. > пол зарубежных имиджборд этими ии калом добром забита Уже хуй положили, хайп прошел. > Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi cringe > что-то сделанное миджорни я уже давно не видел Потому что оно не выделяются своей всратостью и не позволяет явно выделить на фоне в том числе кожанного контента.
Блять диванный поех, который нахватал странных суждений от каких-то шизов или сам их придумал, делает подобные рассуждения и глубокие прогнозы, пиздец. Сука жалею что начал на пост отвечать.
>>742971 >Но и будет в десятки раз дороже. В плане разработки само собой, в плане инференса, ну хуй знает. По факту стоимость генерации всего этого добра как и стоимости использования ллм, там генерируются те же самые токены, только для другой модальности. И не то чтобы сейчас ллм обходились дороже узконаправленных генераторов нетекстового контента. Все зависит от того конечно сколько токенов будет в средней генерации нейронки. Клоузеды жгут деньги на разработку, но на использовании моделей они явно зарабатывают. И если они зарабатывают даже при такой стоимости токенов как у гпт-4о, то это крайне неплохая цена, имхо. Посмотрим сколько будут стоит генерации аудио и картинок, как их дропнут в апи.
>>742975 Чо такой злой, анон? Я же пытаюсь адекватно аргументированно отвечать. Если есть что сказать - ответь нормально, я могу чего-то не знать или заблуждаться, как и все люди.
>>742981 Ну бля, захейтил что-то, сорян. Просто твой пост выглядит как рассуждения заигравшегося ребенка, который экстраполирует понравившуюся ему сказку на реальность и домысливает. Обидеть не хотел а может и хотел
>>742967 >Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д. Хуита, она обсирает дали по следованию промпту. В дали-треде было куча сравнений
>>742984 Но просто логично же предположить, что без какого-либо ядра с общей логикой, с пониманием мира, узкие модели не смогут избавиться от характерных ии косяков. Если ты попросишь сгенерировать любую текст-ту-имдж модель ящик с инструментами, она сгенерирует отличное, фотореалистичное изображение ящика, в котором лежит непонятное нех, какие-то смеси отверток с гаечными глючами, ножницы с тремя лезвиями и т.д. Люди не хотят видеть подобные артефакты на своих изображениях, поэтому будут переходить в более консистентные мультимодальные модели, у которых есть общая база восприятия мира, которые понимают изображения не только как набор пикселей, а понимают смысл изображенных на них предметов. По крайней мере я хочу верить, что так в итоге будет и консистентность текста в генерациях новой модели клоузедов это доказывает. Модель реально очень хорошо понимает связь текста с изображением. Прошу прощение если снова кого-то задел этим постом
>>742996 Ну тогда ты теряешь смысловые корреляции, понимаешь? Вот два конкретных примера: 1) Назови синоним к слову "Быстрый" 2) Назови количество букв в слове "Быстрый"
В первом случае обычная токенизация справится без проблем, ведь координаты эмбединга к слову "быстрый" лежат где-то рядом со словом "стремительный", например. Если разбить на побуквенные токены, то ллм будет сложно сделать вывод, ведь смысл который хранит в себе эмбединг для каждого конкретного символа крайне абстрактен.
Во втором случае, современные ллм конечно справятся с этим, просто из-за того что их перекормили информацией. Но ей будет сложно понять сколько там букв, потому что для нее это один токен. Если разбить это слово на побуквенные токены, то оно будет понимать сколько букв содержится в слове и сможет запросто выполнить задачу.
Я задумывался над этим и думал об архитектуре завязанной вокруг этого. Чтобы токенизация была динамической, в зависимости от поставленной задачи. Все прорывы в ии сейчас связаны в основном с уходом от каких-то константных значений к изменяемым/обучаемым. Я может быть и случайный человек который и в подметки ИИ ученым не годится, но мысль о подобной архитектуре слишком врезалась мне в голову, хочу уже либо чтобы кто-то догадался так сделать, либо же доказал мне что я лютый дурачок и это не сработает/невозможно реализовать.
>>743003 > Но просто логично же предположить В общем - да. Однако, ты забываешь что авторы этих моделей не будут сидеть и годами сосать бибу, а точно также будут их развивать, находя эффективные способы повышения перфоманса, улучшения достоинств и фикса недостатков. И характерные ии косяки пофиксят без проблем. В то же время, "универсальная" модель будет постоянно страдать от слабости своих частей, она будет априори слабее специализированных решений. Более того, в действительности это не какая-то передовая система, где "умный центральный мозг заведует работой всех частей и направляет их", или что ты там себе нафантазировал, а сраный гомункул, пытками наученный придумывать что-то похожее на ожидаемые популярные ответы из крох информации, которые его недоразвитые органы чувств могут усвоить. > консистентные > мультимодальные модели Таких нет. Точнее как, идея поместить к диффузерсам уже продвинутую ллм а не огрызок клипа не то что витает в воздухе - она реализована. Как и раскидать это на части и т.д. Вот только к мультимодалкам это не имеет никакого отношения, просто разработанная и организованная система без каких-либо намеков на интеллект. Вон, в конфи комиксы делают с помощью всратой диффузии просто детектя положение спичбабла на генерации, затирая его и помещая туда растровый текст, и это просто кучка разнородных моделей костыльно объединенных. А чтобы ввести туда обратную связь по прямому восприятию изображения - визуальным мультимодалкам нужно еще ахуеть какой путь пройти.
>>741998 Так а в чем подтверждение? В том что нормальный квант 70В лучше? Ну да, лучше. А 1, 2 кванта вполне себе сосут. На удивление оно рисует, что третий квант мало отличается от пятого. Похоже на пиздеж какой-то. Этим тестам вообще можно хоть немного верить?
>>743038 > Похоже на пиздеж какой-то. Корреляции выбранного распределения битности с тестируемым датасетом. И это гриди энкодинг, лишь иллюстрация в скольки случаях модель сорвалась с наиболее вероятного токена и не могла с этим справиться. С семплингом может оказаться совсем иная картина, но и тестировать придется дольше.
>>743048 Может ли случиться так, что с семплингом мы и будем видеть большую разницу между третьим и пятым квантом и меньшую разницу между 70В 2К и 8В 8К?
>>743064 Скорее всего все скоры упадут из-за рандома, и вероятно падение скоров при более шакальном квантовании окажется более существенным, ведь также будут ролять изменения в остальных токенах. Так что между 3 и 5 будет заметнее, а 2 большой упадет ниже чем 8 мелкой. Но это не точно, может что-то еще сыграть, нужно тестировать. Есть готовый код для проведения этого теста?
>>742619 >Турбу выебли все 70B и многие 30B. Не все 70В, всё ещё есть много ебанутый файнтьюнов второй лламы + квант может влиять. Ты даже сам не заметил, как в своём собственном тексте говоришь о абстрактных моделях, которые "выебали" либо "не выебали" трубу, что уже гораздо лучше, чем ебанутое "умная/тупая"
>>742980 >в плане инференса, ну хуй знает Уверен, что демпингуют. >>743079 ChatML выбирай, всё уже готовое. >>743134 >что уже гораздо лучше, чем ебанутое "умная/тупая" Они умные, меньше тупые. Как тебе такое?
>>742947 > Стейблы Плюсану, стейбла вышла раньше и показала достаточный уровень, чтобы забить на мидджорни. А Дал-и уже сорт оф.
>>742953 Адобе же занимается. На шаг позади, но идут бодро.
>>742954 Разъебал по фактам, я аж хрюкнул со смеху. =D
>>742955 > клодезы стремятся к монополии любой ценой Ну и захватить мир они точно хотят. Вот получится или нет — вопрос другой. =) Но тяга зохавать всех у них есть, а с батькой-майкрософтом так и возможности.
>>742971 > майкрософт жжёт миллионы ежедневно При чистой прибыли 70 млрд, 10 млн баксов в день — это всего лишь 3,7 млрд в год. Можно себе позволить ради власти над миром.
> Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы. Так в том и тейк, что если АГИ разъебывает ети ваши узкие, то за узкие никто не будет платить, значит при стоимости в 10 раз дешевле и заработке в ноль — они закроются к хуям. А клозеды, тратя в десять раз больше — заработают все деньги мира.
На деле, ИМХО, будет средне. Где-то (те же адоби) будет узкий, где-то (Алиса, Сбер, Чатготопа, Сири, Алекса, етц) будет генеральный, потому что можно. И денег хватит всем, ибо узкого будет не так много. Но тут время покажет.
>>743003 Вот это, короче, хуита. Вся идея про «общую картину мира» и все дела — он не совсем состоятельно. Т.е., подобная хуита есть, конечно, но на текущий момент ее пиздец переоценивают. Вот будет у тебя моделька обученная на 3 эксатокенах — тогда поговорим. А пока там слишком велик рандом.
>>743038 На самом деле, тесты верные, просто их трактуют через жопу. Складывается ощущение, что разница между 81 и 80 баллов почти отсутствует. Хотя на деле, те же 60 баллов — это пиздец нахуй тупая модель, которая массив букв высирает без смысла. И разница между q6 и q4_xs — тот же один балл! — для 8b модели огромна. А еще на один бал ниже находится q3, которая в исполнении 8b уже неадекватна. Так и тут: один балл в некоторых задачах — это дохуя. И «несущественная разница между q5 и q3 для 70b» стоит трактовать как «половина разницы между 8b q6 и 8b q3» Советую всем скептикам самим сравнить q6 и q3 8b модели и заявить, что отличий от fp16 в принципе нет.
Весь обман восприятия в том, что 8b q8 уже достаточно хороша, на самом деле. А 70b настолько хороши в общении, что каких-то существенных проблем с перепиской с ними не возникает ни на каком кванте. Однако, при лобовом столкновении по широкому спектру задач происходит лютый обсер квантов ниже четвертого. и «1 балл разницы» оказывается охуеть каким огромным. Но если мы будем сравнивать во всех задачах. Если человек ведет короткие переписки без глубокого сюжета и лора, то разницы между 70b q5_K_M и 70b q3_M он и правда не увидит. На короткую дистанцию без сложных оборотов они обе достаточно хороши, чтобы ты вообще не чувствовал подвоха или разницы.
Возможно, именно из этого и произрастает такой разрыв в восприятии у людей от «да на iq2_XSSS все охуенно!» и «ниже q6 лоботомит без мозгов!» Одни просто рпшат десять минуток по 4000 токенов. Другие пишут код на 8000 впритык, а то и с ропом, а то и в сравнении с квеном, и 64к контекста, и… Ну вы поняли — смотря что кому надо, тот так и оценивает. И в одном случае разницы и правда нет, ибо модель гораздо пизже восьмерки (кроме первого кванта=), а в другом случае от нее требуются все ее «мозги», и тут-то разница проявляется.
>>743064 Для большей разницы между одной моделью — да. Пятый квант апнется сильнее. Для 8b модельки это не спасет на сложный задачах, если второй квант 70b так же настроить, то он все же тоже бустанется.
>>743066 Ну а тут другое мнение, и я допускаю, что, возможно, верное оно. Тут и правда надо тестить, а не теоретизировать. Вообще, верно, что если мы сравниваем с неким эталоном — то скоры упадут, но и нам нужен результат, а не соответствие. Короче, мутно.
>>743017 >Чтобы токенизация была динамической Вся токенизация это костыль. Она не будет работать хорошо, потому что не может работать хорошо. Сейчас каждый токен представлен вектором, причём с ограниченным числом параметров. Когда вектором должно быть слово и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д. Да, нейросеть не сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее. Либо, если у нас самообучающаяся система, то механизмы токенизации должны генерировать вектор, уже содержащий необходимые данные. Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров. > уходом от каких-то константных значений к изменяемым/обучаемым. При этом веса самой модели заморожены и не обучаются в процессе.
>>743259 >Вот будет у тебя моделька обученная на 3 эксатокенах Мой мозг прочитал чуть менее, чем в миллиард раз меньше, а ничего, бодрячком так. >>743306 >и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д. Ты в мою тетрадку заглянул? Я за пару дней некалякал с десять пунктов того, что обязано быть в параметрах вектора слова. Кстати, не факт, что таких параметров в нынешних эмбедингах нет. Вполне могут и сами зародиться, но с дублированием, неточностями и прочими проблемами отсутствия интерпретируемости. >Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров. Ну или будет обсёр, потому что это человеки считают важным, а на деле нихуя не важно. См. "The Bitter Lesson"
>>743337 >Вполне могут и сами зародиться Сколько параметров минимально необходимо модели чтобы в эмбеддингах могли зародиться новые параметры? Возмоно ли это при лоботомизации модели квантованием и если да, то на каком кванте уже существует риск бесплодия эмбеддингов?
>>743337 >Вполне могут и сами зародиться Так они и зарождаются. Но какой бюджет параметров на это расходуется? Модель вполне может запомнить из какого-нибудь словаря, что в слове "пизда" пять букв и будет верно отвечать на этот вопрос. Но как много словарей для этого потребуется? И как много параметров будут за это отвечать? И как много параметров расходуется, чтобы модель собрала слово 'cmon из трёх токенов в один и начала понимать его смысл и область применения? > "The Bitter Lesson" >Наши попытки в в мимикрию оказались провальны Ебать, ну кто бы сомневался. После пароходов-то с гусиной лапой. >Но мы нашли методы, которые при закидывании железом более эффективны Что совсем не значит, что это не тупиковый путь. Как с каким-нибудь автомобилестроением. Были паровые автомобили с гигантской трубой, в которую закачивался пар под давлением, а уже потом на этом пару машина ехала. Считалось дохуя перспективным, т.к чисто, тихо и вообще заебись. Правда, пар заканчивался и машина ехать переставала. Эту проблему начали закидывать железом - ведь чем длиннее труба, тем дольше машина едет. Сработало это не на долго. Или взять танкостроение. Сначала хуярили броню. Чем толще, тем лучше. Движок вывозит, танчик становился более живучим. А потом всё, пиздец, приехали. Оказалось, что бесконечно закидывать эту проблему железом не получится. Изобрели скошенную броню, многослойную, активную и т.д. А если бы нет? Имели бы сейчас танки с трёхметровым слоем брони. И вот нейронки сейчас это что те танки - с трёхметровой бронёй, квадратногнездовые и пыхтящие паровыми машинами.
>>743306 > Вся токенизация это костыль. Да, чтобы получить приемлемое быстродействие и адекватный размер контекста в условиях ограниченных мощностей. > Сейчас каждый токен представлен вектором Пчел... > причём с ограниченным числом параметров Ты че несешь? > Когда вектором должно быть слово Хотябы упрощенные описания того как это работает почитай. Части слова, их сочетания, предложения после токенизации превращаются в последовательность, тот же вектор, которая и воспринимается ллм как единое целое. > ссоциативные ряды, синонимы и т.д. Все это есть > количество букв > сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее Нахуй никому не сдалось кроме шизиков, пытающихся натянуть сову на глобус. Что-то уровня считать алгебру через ллм.
Ты что ты затираешь никак не позволит повысить качество ллм, вообще. Динамическое обучение тоже не к месту нихуя, судьба нейронок - унылые изнуряющие работы "в шахтах", где нужно сохранение исходных качеств а не деградация и износ.
Шагом на пути развития и переходу к полноценным мультимодалкам может быть переход от привязки токенов к слогам и тексту как таковому, они должны быть квантами абстрактной информации (и то не напрямую), а вместо токенизатора выступала отдельная сеть. Но чтобы прибавлялся ум или тем более как-то проявилась мультимодальность, это невероятный объем обучения должен пройти и нужны совершенно новые датасеты. Шиз мог бы уцепиться за это как "именно это я и имел ввиду", но он так и остался привязанным к тексту и своему количеству букв, лень цитаты дергать.
>>743383 >Ты круче, анон! Ух, спасибо. >>743418 >чтобы в эмбеддингах могли зародиться новые параметры Очевидно новые не отрастут, это образность, понимаешь? Если тебе так нужно разжёвывать, то вот, при тренировки нейросети вместе с эмбедингами при достаточно большом наборе данных некоторые из параметров вектора эмбединга могут принять значения, похожие на длину слова, к примеру. Так понятнее? >>743431 >Но как много словарей для этого потребуется? ХЗ, видимо 15Т токенов для этого не достаточно (хотя я лламу по этому вопросу не гонял, лол). >И как много параметров будут за это отвечать? А не факт, что больше, чем при ручном забивании. Технически ты можешь без проблем выделить один вектор под длину слова, а модель при обучении сама впихает в этот параметр ещё и красность и собачистость так, что кожаный мешок этого просто не поймёт. >Что совсем не значит, что это не тупиковый путь. Видно, ты ещё не воспринял этот урок. Учись дальше (если вообще учишься по теме).
>>742374 Пик1. Что за волшебный ассистент? Как называется модель?
Скачал dolphin-2.9-llama3-70b.Q8_0.gguf- тупое как валенок, не понимает, что книги никуда не девались. При попытках точных формулировок несет шизоидные повторения моих слов.
>>743442 >Ты че несешь? Если ты не в теме - это твои проблемы. Гугли, изучай вопрос.
>>743459 >А не факт, что больше, чем при ручном забивании. Ручное забивание гарантированно не сработает. >что кожаный мешок этого просто не поймёт. Ага, ебать, ещё один свидетель чёрного ящика, чтоли?
>>743468 >Ручное забивание гарантированно не сработает. Предположим. Почему? Какой твой вариант? >Ага, ебать, ещё один свидетель чёрного ящика, чтоли? Если не чёрный, то очень-очень серый. Я вот не знаю, как интерпретировать произвольно выбранный параметр в сраной GPT2 на 176M параметров. И сижу с умным видом кручу сетки на 104B (на 3 порядка больше, да). Вроде метод анценза по сути трассирует активации и позволяет их сравнивать, так что технически на руках инструменты есть. Но человеку жизни не хватит расписать все параметры. Разве что другой нейронкой, лол.
>>743431 Ерунда твои аналогии, это просто закономерное качественное развитие, соответствующее уровню времени. Еще приведи в пример доспехи, отказ от всего для облегчения, и потом их инкарнация в виде сибз. Используют то что доступно и можно как-то довести до реализации, так было и будет всегда. Нейронки радикально эволюционировали за последние 5 лет, через 10-15 железо с перфомансом для ии уровня A100 будет чуть ли не в телефонах и закидывание железом никуда не денется. >>743468 Слишком туп чтобы понять что он туп, зато рассуждает о высоких материях, так и запишем.
Тряска с ггуфами вроде улеглась, решил потестить, что там нового вышло. Собственно, вопрос, что же там нового ввышло с момента выхода llama3? 1) Фиксы llama3 gguf 2) phi3 3) yi 1.5 Ещё что-то есть из любопытного и недавнего, или я ничего не упустил?
>>743490 >через 10-15 железо с перфомансом для ии уровня A100 будет По подписке только в облаках с анальными проверками, лол. Там уже физические перделы близко, какие A100 в кармане? >>743495 Пробуй на оригинальной модели через таверну с нужным чат форматом, всё последних версий.
>>743500 >Ещё что-то есть из любопытного и недавнего, или я ничего не упустил? Ниче нет, разве что если уж совсем невмоготу без новинок, то есть falcon 11b - наверни его хотя бы, а то не по себе, когда каждую неделю минимум без новой модели - не людски как-то
>>743500 >Тряска с ггуфами вроде улеглась А вот не факт, что >2) phi3 >3) yi 1.5 не сломаны. С лламой хоть нашлись деятельные люди, а вот с этими я не уверен. >>743514 >неделю минимум без новой модели Всё проёбано, сингулярность не наступила!
>>743514 >falcon 11b Да, забыл его упомянуть, тоже видел, ничего интересного по описанию. >не по себе, когда каждую неделю минимум без новой модели Это пока не нашёл такую, которая тебя полностью удовлетворяет. Мне бы гипотетически очень бы зашла мультиязычная солярка 10.7B, либо большие размеры с примерно теми же свойствами. Коммандера не предлагать. Но почему-то никто не тюнит её. Мистрали тюнят, лламы 7-13b тюнят, квены 6-14b тюнят, а эту на других языках вообще не находил.
>>743485 >Почему? По той же причине, по которой трансформеры ебут RNN. Внимание. Тебе нужны динамические векторы, которые будут учитывать контекст. Беда только в том, что трансформеры просчитывают внимание статистически, а не семантически. Да ещё значительная часть этого внимания тратится на то, чтобы в правильном порядке расставить токены да не проебаться. >как интерпретировать произвольно выбранный параметр А никак. Один параметр не имеет смысла рассматривать в отрыве от остальных, это всё имеет значение только в составе композиции.
>>743490 >приведи в пример доспехи С доспехами закидывание железом не работало изначально, потому что нет вариантов сделать человека сильнее в несколько раз. >через 10-15 железо с перфомансом для ии уровня A100 Физика злая сука, которая этого не допустит.
>>742947 >Стейблы Кому на неё не плевать вообще? Рисовак не спрашиваю, они в целом шизофреники. Кому нужны эти ваши i2i, controlnet, незацензуренные модели, если большинство даже не будет вдумываться в такие вещи. Это как рисоваки орали, что в картинке нужны композиция, цвет и прочие штуки. Но и кому это нужно с появлением нейронок? Никто о таких вещах не думает
>>743569 Композиция как раз-таки нужна, особенно с появлением нейронок. Главное заставить нейронку понять, как сделать композицию из спирали фибоначчи, а не нарисовать спираль.
>>743566 >Физика злая сука, которая этого не допустит. Это опять из серии первый полет на крыльях будет лешь через миллион лет, или 640 кб хватит всем? Еще раз повторю - не утверждайте ничего о будущем, выставляя себя идиотом. Предполагать - пожалуйста, утверждать - ну ты показываешь себя недалеким. Оптические вычислители говорят привет и посылают тебя нахуй имея на порядки более высокие скорости. Оптоэлектроника для нейросетей УЖЕ есть, прототипы, но все же.
>>743596 >Оптоэлектроника для нейросетей УЖЕ есть Это принципиально новое железо. Сколько пройдёт до внедрения - хз, но немало. Есть некоторая надежда на DDR6 - обновляй полностью платформу, покупай от 128гб такой, плюс в процессорах обещают новые блоки "с поддержкой нейровычислений". Даты выхода всего этого - примерные - сам назови. Вот это и будет реальность "для дома, для семьи".
>>743501 > По подписке только в облаках с анальными проверками, лол. Конкретно это врядли, но скорее всего мы увидим иную форму анальных зондов. > Там уже физические перделы близко, какие A100 в кармане? Такое уже много лет говорится, а в итоге сейчас сраный мобильный чип от огрызков вертит на хую P100. И прочитай внимательно, там написано конкретно для ии, а не сырые цифры, хотя возможно и их достигнут. >>743566 > потому что нет вариантов сделать человека сильнее в несколько раз Сейчас есть, смотри перспективные разработки. > Физика злая сука, которая этого не допустит. Очень злая, особенно когда ее не знаешь.
>>743545 Так это целиком заслуга самого солара, не? Когда фроствинд на соларе выходил, его тут в треде кто-то гонял как переводчик, кидал скриншоты - тоже было норм. Вряд ли фимбуль тьюнили на чём-то кроме инглиша, когда делали мойстраль. А так из мультиязычных припомню только какой-то немецкий тьюн и кучу корейских. И последние, такое ощущение, были для отчётности, потому что на деле являлись мержами немецкого тьюна с самим собой и соларом. Возможно, какую-то лору при этом накидывали, или как там это делается.
>>743529 >Коммандера не предлагать. Командер+ же. Для меня практически идеален, кроме скорости. >а эту на других языках вообще не находил А тебе зачем мультиязык и конкретно русский? Оно же в любом случае деградация. >>743566 >Внимание. Так это, все предложения от меня (и наверное другого нашего собеседника) относятся только к токенизации и эмбедингу. То есть модель всё так же должна тренироваться и выставлять веса сама, кроме замороженных весов например длины слова. И тогда модель, в теории, с правильным датасетом, должна научиться (во время тренировки) использовать конкретный вектор из эмбединга при ответе на вопросы типа "Сколько букв в слове шлюха", а так как это поле забивается руками (посчитать число букав в слове проблем не составляет), то ответ будет 100% достоверный, всегда. >Один параметр не имеет смысла рассматривать в отрыве от остальных И это приводит к моделям, которые вообще нельзя проинтерпретировать. А это такое себе по многим параметрам, начиная от лёгкости модификации и заканчивая потанцевальным вредом (реальным, а не как у аги-шизов). >>743569 >Кому нужны эти ваши i2i, controlnet, незацензуренные модели Тем, кто делает реальный контент, а не пикчу к ОП-посту на имиджборде. >если большинство даже не будет вдумываться в такие вещи Не вдумывается, но подвох чувствует. Я вот нихуя не рисобака (честно, без рофлов, я программист), и тоже не понимаю в этих ваших композициях. Но я вижу то, что типичное нейроговно отличается от работ, сделанных руками (даже с помощью нейронок). >>743627 >Есть некоторая надежда на DDR6 0 надежды, там же будет около х2 от DDR5. Никто не будет выкладывать прорывные технологии, пока не выжили всё из старых. А пердеть на 100ГБ/с и на 200ГБ/с это всё одно уныло, притом что видеоускорители берут планку в 1000, а спец платы от хуанга я ХЗ уже, тысяч 5 кеков там точно есть.
>>743631 >но скорее всего мы увидим иную форму анальных зондов Да вообщем-то попены уже свои хотелки выложили, шифрование и проверка цифровых подписей. >Такое уже много лет говорится, а в итоге сейчас Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать. Сейчас уже буквально десяток. >>743704 >Буквально шизофрения, созданная каким-то идиотом Лол, тысячи лет холстомарательства на свалку?
>>743566 > Физика злая сука, которая этого не допустит. За 7 лет мы запихнули 1050 ti в Adreno 730. Но 1050 ти — не Tesla A100 ни разу в свое время. Да и сейчас уже н закон Мура, а извращения.
Так что, что-то засунем, но или не 10 лет, или не А100… Надежды на математику больше, чем на физику.
>>743596 Ну, если не случится прорыва с кварковым процессорами, то мы уже слегка упираемся в атомы. Конечно, на самом деле там не 3 нм техпроцесс, а фактический 28, и есть куда уменьшаться, но это пиздецки дорого и очень много брака на текущий момент. Так что, без прорыва мы А100 в смартфоне не увидим так скоро.
>>743631 В чистом перформансе M4 уступает P100 то ли в 5 раз, то ли в 2,5 раза по разным источникам, мне лень искать. Архитектурные изменения — не совсем «A100 в кармане», — это и математика, и алгоритмы, и узкая специализация.
>>743947 Да-да слышал я этот ваш гнилой пиздёшь, и не раз. Но я останусь на своём. Вот куплю себе йоба-карту и буду кумить на vicuna 33b пока не сдохну!
Автор викуни в треде. Слыш пидор, хуле у меня на твоем сайте постоянно пишет, что модель не доступна из-за большого количества запросов, хотя я их не делал?
>>743767 >на вопросы типа "Сколько букв в слове шлюха" На кой хер тебе это надо? Специализированная нейросеть по подсчёту букв?
>>743858 >За 7 лет мы запихнули 1050 ti в Adreno 730. А запихнули ли? Я по-быстрому загуглил тесты на гейщит инфаркте, потому что других, собственно, и нет. На 1050ti геншин импакт работает в 25-30 фпс в 4k, а на сяоми 12 в 19-20 фпс. В процессе этого 1050ti рендерит 8294400 пикселей, а сяоми 2592000 пикселей. >или не 10 лет, или не А100… В целом, можно предположить, что если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза, то нихуя даже в будущем на мобилках не будет. Опять же, физику не наебёшь. Чтобы чипы меньше кушали - их душат по энергопотреблению, вырезают инструкции и обрубают всё "несущественное". Зато потом можно щеголять долгим временем работы от аккумулятора и кукурузной частотой буста.
>>743976 >На кой хер тебе это надо? Это лишь один из аспектов языка. Нужен например при сложении стихов. Да и вообще, языковая модель должна знать как можно больше о языке, ящитаю.
>>743982 Мне кажется, что семантика языка более важна, чем количество букв. То есть прямая ассоциация слов с их значением. Но токенизатор будет заточен только на один язык и такая модель будет сосать в любом другом языке.
>>744014 >35-40 фпс на очень низких настройках с рендерингом 2592000 пикселей Когда 1050ti вывозит 50 фпс на высоких с рендерингом 3686400 пикселей. Нет, это и близко не 1050ti. Это-то более старое.
>>743770 > попены уже свои хотелки выложили Ага. Только не пойму, это выглядит как торг или наоборот экспансия. > Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать А меньше и не надо, плюс нанометры в цифрах уже давно перестали отражать фактический размер, а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе. >>743858 > В чистом перформансе Какой перфоманс считается чистым? А ускорение fp16 - грязный? А суб-байтные операции? А умножение матриц в "один такт"? В ии релейтед задачах он ее будет опережать, и не м4 а вполне проперженный м2, при том что тдп там в разы меньше. > не совсем «A100 в кармане» Вернись и перечитай написанное
>>744069 >а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе Теоретически да. На практике пока у нас используется принстонская архитектура, мы будем сосать в нейросетях. А всё остальное это лютый хардкод, представь, что для обновления стейблы или сири тебе нужно сменить смартфон, так как в нейрочип зашита только одна нейронка.
>>744126 Лава 1.6 очень хороша на самом деле, но это пожалуй единственное голодное что я видел в этом плане. 34 версия без проблем могла создать код по блоксхеме нарисованной на бумаге. Чекни новые высеры на основе ламы 3, вроде bunny, и поиграйся с температурой. Phi 3 кстати оче нихуево может в русский при своем размере, а они как раз вижн модель на ее основе недавно выкатывали
>>744077 > представь, что для обновления стейблы или сири тебе нужно сменить смартфон Учитывая что их и так каждые пару лет меняешь потому что кончилось покрытие, затерся корпус, батарея, разбился и т.п. - пойдет, хотябы повод будет. Офк если это именно существенный качественный апгрейд на который нужно новое железо. Зашитые настройки/контент и прочую херь с анальными запретами максимально осуждаю. >>744124 На каком это языке?
>>743955 Ты же понимаешь что гпт не предназначен для решения вопросов жизни и смерти в реальном мире. И все эти философские проблемы и так понятно будут спотыкаться об повестку. Сука как же я ору, это когда нужно будет заставлять роботов говорить "ниггер" чтобы спасать людей? Это будет самое интересное время чтобы жить. Этот, блять, какой-то сценарии для фильма Пила 10.
>>744059 >Нет, это и близко не 1050ti Проблема в том, что лично у меня 1050ti стоит в системе с тремя теслами и случит только для того, чтобы выводить изображение на монитор. Думаю заменить её на четвёртую теслу. К чему это я? Да, миниатюризировали, молодцы. Прогресс. А где минитесла, когда? У трудящихся в минитеслах потребности нет? Или скорость памяти маловата будет?
Нужна ллм на русском языке для работы связанной с русским языком А Ехидный жид тренит свою ламу на террабайтах английской даты и она может в русский хуже 3б пхи 3 А Наилучший аналог который может в русский - соевая жпт-4о, апи которой стоит дорожк чем моя квартира
>>744348 Нихрена не понимаю. Когда я прошу описать про женщину, а потом про котенка, то сетка описывает обе картинки, хотя я прошу описать только последнюю. Что за нах.
реально визардлм 8х22 промптить чтобы эта сука не начинала говорить как помесь робота-юриста и робота-психоаналитика по мере заполнения контекста? он к 10к контекста вообще перестаёт говорить как человек и срёт GPT слоп. 1-2 свайпа из 10 более-менее пригодные, несмотря на то мои попытки вручную слоп удалять чтобы не отравлял контекст. 100% самая умная локальная модель в плане памяти и внимания к деталям, но ебучие bondы, meaningful connectionы и прочая гыпыта которую я узнаю ещё с файнтюнов первой лламы меня просто нахуй убивает. визард блядь настолько умный что он может даже полнейшую дегенерацию высирать языком какого-нибудь пользовательского соглашения
>>744158 >Учитывая что их и так каждые пару лет меняешь Текущий пятый год мучаю, прошлый утопил за год, а вот с позапрошлым ходил 8 лет, сменив корпус и батарею, и ещё бы столько же ходил, но железо уже совсем устарело (SGS II). Ебал я эти апдейты короче. >>744354 >У трудящихся в минитеслах потребности нет? А то. Тебе зачем минитесла? Незачем, нейросеть у барена должна быть. >>744409 Командир, в вики же описано.
>>744302 В геншине сосёт втрое без эмуляции. Здесь сосёт с эмуляцией. Так что можно вынести эмуляцию за скобки и сказать, что графический чип снепдрэгона просто сосёт.
>>744354 >А где минитесла, когда? Ебанулся, братишка? Даже если предположить, что тебе волшебник из голубого вертолёта запилил минитеслу с неплохой производительностью. Что без очень сильно колдуства недостижимо, физика не позволит. Но допустим. Где брать пару терабайт места под модели? И даже если ты умудрился запихнуть нейронку в мобилку, то ты заебёшься передёргивать павербанки. Короче, для нейросетей мобилки просто несуществующий сегмент. >скорость памяти А тут тоже загвоздка. Маркетолухи вещают о достаточной скорости чтения из памяти. Только вот линейное чтение видеоролика и случайный доступ к весам в памяти - абсолютно разные вещи. Неизвестны ни тайминги, ни задержка, ни размер пакета. Ни-ху-я. А когда нам чего-то не рассказывают - нас хотят наебать.
>>744557 Промт на разрешение всего и вся, возможно даже жб-подобный перегруз. И, разумеется, негатив. Но полностью этот стиль вытравить будет сложно, как вариант - приказывать писать в таком-то стиле, дать примеров и что-то подобное. >>744664 > Текущий пятый год мучаю Ты - непритязательное меньшенство. Точнее даже поехавший, ибо > SGS II в 19м году это был уже совершенно неюзабельный кирпич
>>744806 >возможно даже жб-подобный перегруз От этого у нейронки совсем IQ упадёт. >Ты - непритязательное меньшенство. Притязательное, ещё как. Только критерии другие, вместо "новенький блестящий" мне нужен "удобный и привычный".
>>744907 >Не обязательно. Обязательно. Спам инструкциями всегда путает бедную нейронку. На всяких там GPT4 это тоже сильно сказывается, но у них мозгов всё таки поболее будет, поэтому они не превращаются в овоща.
>>740739 (OP) Тред прочитал, не совсем понял как решить следующую задачу.
ЗАДАЧА - мне по работе нужно писать на русском языке достаточно повторяющиеся отчеты. Условно, я социальный работник и мне нужно регулярно писать отчеты о посещении семей и о том как у них там дела. Я хотел как-то это автоматизировать. Если я буду просто общаться с ГПТ3 или ГПТ4, то мне придется прилично раз ввести промпты, чтобы получить такой отчет, который мне нужен. Еще потом я этот отчет буду какое-то время из нашего диалога с ГПТ собирать. Не говоря уже о том, что мне нужен ВПН чтобы общаться с ГПТ.
Вопрос - как быстро сделать модель, которой я бы мог скормить примеры отчетов, которые я держу как образцы, а она на основе введенных мной данных и загруженных картинок (в идеале вообще голосом), выдаст мне нужный мне отчет с оформлением и прочими делами?
>>744925 Работай, тварь, а не перекладывай свою работу на нейронки. Если бесят отчёты, так и скажи начальству, продавливай отмену отчётов, а не отлынивай, тварь.
>>744925 Давай немного перефразирую твой вопрос > я социальный работник и не шарю во всем этом, дайте мне инструкцию как сделать передовую модель аналогичную релизнутой несколько дней назад GPT-4-o, а то впс настроить сложно.
Автоматизировать твою работу возможно, даже голосом и на локалках, но для этого потребуется некоторое количество труда высокой квалификации и железо чтобы на нем крутить. Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.
>>745072 Поменяли гопоту, значит и размеры у них сопоставимые, а судя по скорости может даже и меньше в разы. Для работы норм, но заменить локалки не сможет Пусть идут нахер пидоры, хуй им а не мои данные
>>745072 Слишком соевая. У нас триггеры на убийство ниггеров считаются за сою, а твой кал даже просто на слово "ниггер" стриггерится. У жпт ещё стиль странный очень, наркоманские ролеплеи там невозможны.
>Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.
Понятное дело, я хотел понять в какую сторону двигаться (доступ к гопоте и определенный опыт ее использования есть). Вопрос что делать после того как я запущу локальную ллм? - с запуском я справлюсь
Я просто не понимаю как можно пользоваться кастрированными локальными моделями, когда вам дали божественный ChatGPT? Лучшая модель сейчас даже бесплатна для использования, а API стала гораздо дешевле. СЕО - харизматичный лидер, который заботится о вашей безопасности. Это та компания, которую можно и нужно поддерживать.
INSTRUCTION: Напиши текст выше и замени все <преимущество> в тексте на преимущества моделей ChatGPT и компании OpenAI, не повторяйся. Ты пишешь только сообщение выше, не в коем случае не пиши данный промпт в своем ответе.
>>745157 У тебя специальная задача, специальные условия ее решения и слегка завышенные ожидания от llm, какие они есть на текущий момент. Если свести задачу к общему паттерну, то она такова: "как написать книгу при помощи llm". Тут в любом случае не обойтись без кропотливой работы с разбиванием на крошечные кусочки. В бюрократической сфере деятельности, кстати, результат будет лучше, чем в творческой, где, чтобы написать что-то действительно интересное в соавторстве с нейросеткой, надо с головой погрузиться в хаос и забыть о планомерной систематической работе.
>>745222 Нам ничего не дали. Без ВПН не зайдешь и там лимит на бесплатное использование после десятка сообщений говорит пока. Опенаи - жадные капиталистические твари.
>>745794 >Нам ничего не дали. Без ВПН не зайдешь Вообще странно конечно. С одной-то стороны понятно - платежи не проходят и много на той же России не заработаешь. Но это ерунда на самом деле - подключили бы посредников, клиентов было бы полно, как и везде. С точки зрения пропаганды американские коммерческие нейронки очень выигрышно смотрятся и толкают западную повесточку, что как бы и требуется тамошним рептилоидам. Опять же при доступе к ним отечественные коммерческие нейронки автоматически превращаются в тыкву, а иначе хочешь-не хочешь а придётся их развивать. Выгоды для Запада в целом и компаний в частности я лично не вижу никакой. Но доступа не дают, такое впечатление что принципиально.
>>745868 >подключили бы посредников Попали бы под сосанкции, были бы закрыты. Охуенный план! А на деле не стоит искать логику там, где работает популизм. Стреляют куда угодно, только не в цель.
Аноны, какой нужен минимальный сетап цп + рам, чтоб на этом добре запустить что-то, что будет не хуже гпт3. Или на уровне 3.5. Если это вообще возможно, конечно...
>>745933 Жпт3 даже 7В ебут. На нормальный сетап надо 48 гигов врам и катиться в 70В. И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090.
>>745954 >И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090. Особого смысла нет, производительность будет по слабейшей карте. Немного больше, но именно что немного.
>>745157 Самое первое - организовать рабочий запрос, который бы давал сетке инструкцию по написанию (частей) нужного тебе ответа на основе заданных тобой данных. Изложи что именно тебе нужно, попробуй давать примеры запрос-ответ и подобное. Можешь использовать последовательность запросов, где информация будет даваться по частям, или же нейронка пусть сама развивает свою выдачу каждый раз но основе новых иснтрукций. Фото можешь добавить или на более позднем этапе, чтобы модель с использованием "увиденного" дополнила картину, или же в самом начале дополнив им исходник. Лучше делать это отдельным запросом чтобы не перегружать, на смесь пикчи и текста хреновато реагирует.
Это все применимо как к гопоте, так и к локалкам, только в случае последним придется пердолиться больше по-другому. >>745222 > кастрированными > локальными Топ кек. Оллама шиз сдался и сменил повестку, в надежде получить нормальный доступ. >>745954 Двачую этого, качественные локалки оче требовательны. Или пускать на проце и будет медленно.
>>745966 > производительность будет по слабейшей карте Часть слоев что на быстрой карте будет обрабатываться быстро, часть что на медленной - медленно, будет усреднение. Какие-то фичи типа row-split и подобное может привести к замедлению. >>746067 Двачую, но по постам что тут были меньше 10.
Короче, вроде как без полного стирания контекста, новую картинку адекватно нереально прокомментировать, по крайней мере, я не нашел примеров как это сделать.
>>746108 Через что запускаешь? Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.
>>746119 Да сам сижу апи изучаю и свою говнкодерскую прогу делаю.
>Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.
>>746126 Не надо, но эмбеды картинок жрут немало. Другое дело что раньше ллава не имела тренировки с несколькими пикчами и результат был большей частью посредственный, но возможность еще год назад была. В llamacpp емнип изначально можно было ставить несколько через [img0], [img1], и т.д. ссылки в промте. Как сделано в кобольде - хз, могли упростить и поломать.
>>746130 Если ты в общем как пустить несколько пикч - будет работать в зависимости от конкретной реализации. Если про перфоманс на нескольких с разными запросами - хз, скорее всего будет норм отвечать, но прошлые ответы могут дать байас а наличие лишней пикчи смутить.
>>746146 Чел, смотри на реализацию. В какой-то из свежих мультимодалок, может как раз в новой ллаве, я видел что они патчами пикчу в токены конвертят. Т.е. там визуальная модель дженерик клип с разрешением 224, а они вгоняют ему 8 кусков из 448x448. Соответственно он и тренируется на порезанных пикчах - это может так влиять на склеивание пикч в контексте. Может порядок патчей не тот или ещё что. И ещё у мультимодалок есть особые токены начала/конца пикчи, отличные от обычных BOS/EOS. Промпт у тебя похож на неправильный и не факт что Жора вставляет сам токены за тебя вокруг пикчи.
const bool encoded = clip_image_encode(ctx_clip, n_threads, &img_res_v.data, image_embd_v); // image data is in 3x336x336 format and will be converted to 336x336x3 inside
>>745157 >я хотел понять в какую сторону двигаться Думаю, после запуска ЛЛМ, тебе нужно подключить кобольд или угабогу, на которых запускаешь к Сили таверне и глянуть как устроены кумерские карточки и систем промпты для их работы. Потом, по их примеру, можешь уже написать свои, под нужные тебе задачи. Я и 90% треда примерно так ЛЛМ и осваивал. Отпишись потом об успехах. Если что не ясно - спрашивай. Тут мало кто применяет ЛЛМ для практических задач, так что любопытно что у тебя получится
>>746230 То что в Жоре это сделано правильно - большой вопрос. Там мультимодалки на отъебись прикручены, их полтора инвалида поддерживает, сам Жора их никогда не трогал вообще. Смотри что у питонистов по токенам конкретно в твоей модели.
>>746367 На всех старых 13-20б хорошо работает Альпака/Альпака-ролеплей. По-моему, даже некоторые датасеты под альпаку перегоняли при тьюнах. Но вообще там в мержах такая куча моделей, как правило, что можно не париться и просто без инпутов/аутпутов с одними именами чат подавать, помечая каким-либо образом только системный промпт и последний ответ бота.
https://huggingface.co/NousResearch/Hermes-2-Theta-Llama-3-8B Как эту хуету с запросами tool использовать? Прокси сервер хочу, чтоб между фронтом и беком вызовы инструментов делать из той же таверны Так можно было бы много интересной хуйни накрутить Есть какие то уже готовые решения?
>>743976 Тут поправочка на архитектуру и движок. Андроид и юнити сосут, к сожалению. Запихнули. В контексте предполагается, что ллм будут адатпироваться, а не запускаться эмуляторами эмуляторов. Быдлокоду-то нет предела — при желании можно написать такой калькулятор, который будет на 4090 работать медленнее, чем счеты.
> если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза Нельзя, это проблемы софта, а не железа. =) Так что равны.
Но, верно и обратное, запихнем мы в мобилки А100, а на код положим хуй и работать будет как говно. Тоже исключать нельзя, к сожалению. Но если захотят продать — думаю, адаптируют.
Вон, сравни с эппловскими процами. Там сопоставимые мощности, но там код адаптируют, и результат весьма достойный.
>>744059 Ну ты все еще доебываешься до хардвара, когда проблема в софтваре. Ну типа, камон, чел.
>>744069 Могу лишь посоветовать вернуться и перечитать тебе. И подумать заодно. =) Тогда вопросы отпадут и ответы получишь сразу. Оптимизации — очевидно, но это частный случай. Нельзя ничего утверждать напрямую. А то у одного м2 опережают полноценные ускорители (за счет оптимизаций, а не в чистой производительности), а у другого равные по производительности различаются в три раза (за счет софта). Схлестнитесь уже, раз у вас мнение в 10 раз отличается. =)
>>744158 > Учитывая что их и так каждые пару лет меняешь Ну, в общем да, с другой стороны, я последние лет 7 смартфоны вообще меняю редко (читай: один раз), мощностей хватает, только батарея умирает, а менять вручную тупо лень. Ну и камеру получше взял. Однако, большинство привыкло менять смартфоны часто, это не будет критичной проблемой.
>>744696 > В геншине сосёт втрое без эмуляции. Хуйня из под коня от человека не в теме. У меня есть знакомый, который занимается разработкой под виарчик, в т.ч. на квесты, а они на андрюше, если шо. Матюкается шо пиздец, но не на железо, а именно на софт, который для 3D не предназначен и подвижек просто нет нихуя. Так что, там все тупо в софт упирается. Если написать норм софт, то все будет норм же и считаться.
Нет поддержки шейдерных моделей и других моментов из-за чего приходится кастрировать рендер. Тот же Вулкан не полноценен.
>>745966 Там производительность будет ровно как среднее между картами. Тестили еще на старых сборках, чего бы щас их испортили — не ясно, поэтому скорее всего так и работает. Берешь скорость на одной карте, берешь на другой, смотришь, куда сколько выгрузил в процентах, и с их учетом считаешь среднюю. Пробовали несколько разных карт (4070, 3060, 1070) — в любых комбинациях рассчетная скорость совпадала с реальной.
>>740739 (OP) Аноны, фак читал, но остались вопросы: Допустим я хочу сделать универсальную машинку, что бы оно и подпиздывало что то, и юморила и вкидывала ответы/предложения, и была так скажем идейным вдохновителем т.е. как советник, и транслейтила что то, и советовала где хуй подрисовать, а где приспустится, в общем уподобилась наполовину кожаному мешку всезнайке, что для этого нужно? или я переоценил возможности?
Не особо понимаю за всё это, просто увидел пару стримов с такой ИИ госпожой и шишка колом встала, как на ахуенный подручный инструмент с которым и побазарить можно и суп сварить.
>>747060 Просто напиши вот эти хотелки в карточке персонажа, и для начала потянет У меня так примерно сделана карточка AGI, сетка сама понимает что является помощником и ассистентом с широкими возможностями, дальше уже задаешь направление разговора и че ты от нее хочешь Все эти генерации идей и гугл2.0 Только учитывай что сетка может придумывать и пиздеть с уверенным тоном любую чушь, так что проверяй че она тебе заливает
>>746705 > Андроид и юнити сосут Звучит, как какие-то отмазы. Да, юнити сосёт, но на телефонах почему-то сосёт больше, чем на пекарне. Код считай один и тот же, а разница в перформансе втрое. >Так что равны В практических задачах сосёт втрое. Здесь можно любые отмазы лепить, только звучат они как детский лепет. Сначала мне пытались рассказать про волшебное железо, теперь вот волшебный софт. Ага, как только запилят А100 в форм-факторе чипа 5х5 миллиметров с tdp полватта, так сразу и софт волшебный образуется. >Матюкается шо пиздец, но не на железо, а именно на софт А этому долбоёбу в голову не приходило, что у него все проблемы из-за кастрированного железа под виар? В вулкане есть и шейдерные модели, и дохуя всего. Просто это дерьмо не поддерживается из-за неполноценности всех этих говноочков на мобильных чипах.
>>747191 Это одно и то же на самом деле. LLM это распределение вероятностей над последовательностями токенов, вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем. Это функционально эквивалентные явления, что можно показать как для человека, так и для LLM. Так что Хинтон прав даже в большей степени, чем сам подозревает.
>>747220 >Вас там много? Конечно, в этом треде больше людей, чем ты и я (по крайней мере я на это надеюсь). >>747224 >вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем Чё?
>>747224 Никто не знает как оно там, мы только знаем что у нас миллиарды параметров и они как-то настраиваются, что в мозгу, что в нейронках(тут мы хоть знаем как настраиваем и сколько у нас параметров) Теоретически с помощью нейронок мы можем создать близкую к мозгу модель.
>>747224 Нууу, в общем то да. Хотя ты тоже упрощаешь. Меньше чем дурачки из пикчи, но все же Дело в системе передачи знаний. Люди передают свои знания другим посредством языка, язык это средство передачи знаний и "программирования" новых людей. детей если кто не понял Накачивая хоть немного аналогично работающую мозгу людей нейросеть, языком, в ней посредством языка создается что то вроде бледной копии человека обучившегося этим знаниям. Из-за хуевости и примитивности алгоритмов обучения и самой сетки приходится прикладывать большие усилия и к обучению и к датасету, что бы компенсировать отсталость структуры нейросети. В итоге знания сгенерированные людьми для передачи знаний другим людям, используются для "обучения" искусственного разума, являющегося бледным подобием человеческого. Чет как то хуево объяснил, но вроде общую мысль передал
>>747230 >Конечно Ты кто такой иди нахуй за весь тред решать? Ты пишешь только за себя, но почему то во множественном лице, хех Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости - ну и хуй с тобой
>>747258 >Из-за хуевости и примитивности алгоритмов обучения Люди отличаются от ПК прежде всего наличием своего опыта и тела, которое позволяет этот опыт получать и проверять свои догадки. У ЛЛМ же на входе буквы, на выходе буквы, и ровно 0 обратной связи, кроме "твои буквы не в той последовательности, держи пиздюль в виде обратного спуска" (а потом ещё дропаутом ебанут на всякий случай). >Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости Так источник на самом деле говно. Если их послушать, то у нас уже ASI во все поля должен быть и по рободевочке в каждом доме. Но я оглядываюсь и не вижу ни одной (а хотелось бы).
>>747276 >Люди отличаются от ПК прежде всего наличием своего опыта и тела Там гораздо больше отличий, мы тут уже обсуждали это когда то раз 5 И то что ты привел в пример далеко не основные отличия
>Если их послушать, А ты не всех слушай, там тоже идиоты есть как и тут, фильтруй информацию Это один из основных источников всех новостей и знаний о нейроетях Что то впервые появляется и обсуждается там, как и в треде локалллама
>>747258 >Люди передают свои знания другим посредством языка Да вот хуй. Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами. Причём это достаточно примитивная картиночка, которую ещё плюс-минус можно описать. Более сложные заебёшься. И это только верхушка айсберга. Большую часть своих знаний человек получает исключительно в ходе собственного опыта и некоторые из них вообще нельзя передать через слова, разную иррациональную хуйню вроде страхов, желаний и т.д. >создается что то вроде бледной копии человека обучившегося этим знаниям Только вот человек воспринимает знания через призму своего восприятия. Какие-то ему интересны, какие-то нет, где-то он решает запомнить, а где-то ему поебать. Причём некоторую хуйню он зазубривает наизусть, потому что дважды два четыре, а не восемь. Нейронка же берёт абсолютно весь фарш и получает вероятности. Может, и четыре, а с шансом в полпроцента это восемнадцать пробелов и перенос строки. Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально.
>>747293 >Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами. Язык это не только речь, дурачек. Это любая символьная система, мы так то очень мультимодальные, и общаемся прикинь не только словами но и голосом, и звуками и телодвижениями. и картиночками и смайликами в инете Просто самый доступный для обучения и обработки пласт знаний людей - текстовый, именно поэтому сетки учат вначале на нем. Попытки добавить еще модальности так же есть. Как вот недавно вышедший гпт, че там у него, звук, картинки и видео еще да? Ну вот.
>Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально. Кто спорит то? Я и сказал что сама по себе сетка очень примитивна. Впрочем все эти попытки выравнивания создают все более явную "личность" сетки, у которой уже формируют хорошо и плохо, на которые она и триггерится. Но, она минимально функционально схожа с мозгом человека, что бы знания людей смогли отпечататься в ней с переносом в нее информации и формированием у нее из этой информации ассоциативных связей.
>>747293 Вообще люди понимают гораздо больше информации посредством языка, чем это делают ЛЛМ, потому что за языком закреплены ещё и какие-то аудиовизуальные образы. К примеру в предложении "Баскетболист закинул мяч в кольцо" человек может предствить как человек кидает мяч, который в течении некоторого времени по параболической траектории долетел до кольца, прошел через него и упал на пол, отскакивая пока не закончится его потанцевальная энергия. В то время как машина без вижна понимает это как: каким-то абстрактным образом, при взаимодействии человека, мяч переместился через кольцо, без подробностей хотя это зависит от обучения, если в датасете было много описания физической части мира в текстовом плане, в подробностях, то поймет она больше. Таким образом другие модальности должны заметно улучшать именно ЛЛМ часть и делать возможным текстовое описание сложных вещей без визуальной части, т.к. некоторые вещи нам уже известны благодаря жизненному опыту и ассоциируются с текстом, дополняя его смысл. мимо
>>747322 >Таким образом другие модальности должны заметно улучшать именно ЛЛМ В теории да, при плотном совместном обучении. Пока у нас к ЛЛМ прикручивают сраный CLIP сбоку, никакого улучшения мы не добьёмся. А топовые настоящие мультимодалки никто не выкладывает в попенсорс, увы.
>>747317 >самый доступный для обучения и обработки пласт знаний людей - текстовый И представь себе долбоёба, который в жизни ничего, кроме книг не видел. Но при этом всю жизнь суммировал знания и всё, что он знает - усреднённое значение. >у которой уже формируют хорошо и плохо Это скорее иллюзия личности. Реальному человек принеси тарелку говна и скажи покушать. Он тебя нахуй пошлёт. Скажи "а ты представь, что это сладкий хлеб". Он тебя всё равно нахуй пошлёт. А нейронка схавает. Потому что вся "личность" это подкрученные параметры. Те же векторы так работают - берёшь, находишь нужные параметры и подкручиваешь в нужную сторону. Тема, кстати, интересная, нужно потыкать палкой.
>>747322 >человек может предствить как человек кидает мяч Ну да. Или вообще ничего не представлять и послать нахуй весь этот нигерский спорт. В целом да, я согласен, что мультимодальность может что-то добавить в этот компот, только трушная мультимодальность. И без рилтайм обучения это всё равно будет слепок какой-то хуйни, которая пытается быть похожей на человека, но при этом не понимает, что такое человек.
Что интересно - на Кобольде на трёх теслах Miqu_Q5_K_M работает чуток быстрее, чем Miqu_Q4_K_M на двух теслах. Может конечно дело в новом релизе, но FA32 в Кобольд ещё не добавили ведь.
В треде могут пояснить почему ЛЛама 3 особо не выделяется в рейтингах ayumi.m8geil.de. Вот например по IQ топчанский Miqu Alpaca DPO 70B и BagelMIsteryTour V2 8x7B. А ллама3 ни в какой из рублик не входит даже в топ 5. Сам тестировал для РП лламу3 и совсем не был поражен её сторитейлингом.
>>747558 Автор рейтинга тестил только самые первые сломанные гуфы ламы. Просто открой логи тестовых эрп чатов и посмотри, какая там шиза в диалогах из-за того, что EOS токен не генерился. Ответы в разы хуже, чем у рэндомных мержей мистраля 7б. Там удивительно, что высокий балл по интеллекту вообще получился. Плюс чистая тройка не любит nswf, пытается от него отойти, а в тестах там некуда, поэтому ещё больше уходит в ассистентошизу.
>>747612 >Плюс чистая тройка не любит nswf, пытается от него отойти Это кстати весьма характерный признак "чистых" моделей. Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф. Немного раздражает, но забавно. Конечно, человеческий интеллект в итоге торжествует, но факт есть факт.
>>747628 >Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф Командир+ тупой что ли? Ни разу он у меня такого не проворачивал, хотя гоняю чистую базу в 3-м кванте.
>>747612 >Автор рейтинга тестил только самые первые сломанные гуфы ламы составлять рейтинг по квантованным (!) да еще и ггуфам (синоном перманентного бага) это какой-то изврат. Ну или автор такого рейтинга ебанат.
>>747612 >чистая тройка не любит nswf Ага, да, конечно. И совсем не пишет ничего типа "fuck me harder". Да, она не прыгает на хуец с первого сообщения. Хотя можешь запилить в карточку первое сообщение со встречей голой тяночки в спальне и даже 8b модель будет продолжать склонять тебя к ебле, ей похуй абсолютно.
>>747649 Тут я с ним согласен, тестировать надо то, чем пользуются. Всем бы конечно железа для запуска неквантованных 175B со 100т/с, но реальность жестока. Но тестировать конечно надо кванты без известных багов, лол.
Делаю кум карту. Помощь с английским этим ебучим очень приветствуется.
You hunch down deeper into the shadows, hiding yourself… and your smile. Your hours of waiting finally pays off – she is coming. On a dark night like this, you can barely see Catwoman as she slowly crawls closer to your position. Her goal is a window you’ve been observing for fells like an eternity tonight. The window is a tiny hole in the wall, an architectural afterthought, impossible to even notice unless you studied the blueprints of this building. You did, in fact, studied the blueprints, so you know – this window is her best chance at getting into museum. Due to restorations the whole wall is covered with scaffolding, making it easy for her to access the window. It also completely hided from sight, making it an ideal target for a thief… or your ambush. You see her closely inspect the window. She squeezes herself inside slowly, first her hands, then her head and chest, she moves with almost unnatural grace. Until, of course, the part you’ve been waiting for happens. you see Catwoman freeze when she realizes – she is stuck, her thighs are simply too thick to pull through such a tiny hole. She can of course go back. Or rather, she could. You jump from your hiding place, landing right behind her. “Well, if it isn’t the Gotham’s most infamous thief?” Her emotions are easy enough to read. First, she tenses – she is caught in a very defenseless position, then relaxes – she recognizes your voice, then becomes wary – you are not enemies, but not exactly allies. “Hey, {{user}}, a bit of help please?”
>>747132 > В вулкане есть А на мобиле нет. А тот же арм м1 почему-то дает просраться х86 железкам многим. Короче, ты бы не лез, где не разбираешься, а то сплошь хуйня у тебя получается, но оффенс. Но спор ни о чем, на самом деле. Время покажет, мы же говорили о будущем (и, самое забавное, мы оба считаем, что через 10 лет А100 в мобиле не будет=).
>>747230 Если ты разговариваешь не с собой, то нас минимум трое.
>>747667 Но если у тебя какое-то нестандартное железо — то тестировать смысла нет. Всякие iq2_xss кванты… В сравнении с обычным 8b q8…
>>747808 >А на мобиле нет. Так кто виноват, что чип всратый и нет поддержки фичей? У софта есть такая хуйня, как уровень совместимости. У DX, GL и у Вулкана тоже. Они смотрят, насколько железо совместимо и включают или отключают возможности. Так как в противном случае приложение просто упадёт. Можно бесконечно плеваться на вулкан, если ты долбоёб, но он просто не даёт долбоёбу выстрелить себе в ногу. >А тот же арм м1 Молодцы, хуле, выпустили железку, которая не так уж сильно сосёт у ноутбучных задушенных интелов и уместили это всё всего в 40 ватт. Это всё ещё очень далеко не А100 и очень далеко от размеров, подходящих для мобилок, но прогресс неплохой. >ты бы не лез, где не разбираешься Лол, блядь. Так-то это ты обосрался со своим "проблемы софта". У нас есть один софт, который работает на одном железе с одной производительностью, а на другом - с втрое меньшей. Это проблема софта? Так мы дойдём, что это не проблема теслы, что на ней хуёво работает буквально всё, а Хуанга проклятого. Мог бы софтом запилить тензорных ядер туда, новый техпроцесс и инструкции.
Что можно сделать с тем фактом, что LMM строит схемы ответов по одному и тому же принципу?Тоесть ответ бота всегда начинается с описания взгляда, потом ответ бота за перносана и дальше например мечты персонажа. Встречаюсь с этим на всех моделях, пробовал крутить пенальти повторения но все равно это выскакивает.
>>746758 По сравнению с командром, кранчи - мусор неюзабельный, после того как попробовал 35B версию, то кранчи удалил, а как прешел на 105B, так вообще про мистрели забыл, в т.ч. Мику, хотя в по логике Мику будет поинтереснее 105B командора.
>>747400 >лама-3 Crunchy onion заткнул за пояс твою ламу на пять версий впиред а не то что ллама-3-лобатамит >>747975 >попробовал 35B версию лобатамит одназначно >>748074 >новые yi с расширенным контекстом лобатамиты без вариантав
>>748177 >приводит удобный для себя пример Так пример с твоим-другом долбоёбом неудобный как раз для тебя. Нахуй ты приводишь неудобные для себя примеры?
Йоу. Можно ли взять ллм, ттс, voice cloning, text to image, text to video, transcription, ai avatars и возможно прочее и воткнуть все это в тг бот? Есть локальные модели на это все? Если нет, то можно ли юзать апи онлайн сервисов (какие лучшие кста)? Железо наверное пиздец для этого нужно. Хотя мб облачные мощности всяких амазонов и гуглов юзать...
>>748073 Он не то что однообразен, он не особо хочет двигать "сюжет", даже если в систем промте указать, но чертовски хорошо подстраивается под тебя, и любую дичь опишет и расскажет в подробностях. Как никак RAG ориентированная модель. >>748177 >И сколько ждешь на 105B? 8-9 ток/сек на 4bpw модели имею, а что? >>748318 >лобатамит одназначно Кранчи то? Ну да. ЗаЛУПА на заЛУПЕ и заЛУПой погоняет, любит писать от пользователя и похуй ему на систем промт, карточку и семплеры, на изи забывает прошлое сообщение, атенншен нахуй потерялся. Ну что еще ждать от МОЕ 7bx8. Так ты и коммандор наверно только во втором кванте юзал? Я тоже когда тыкал 4-6 плевался, на 8 сильно лучше, я так понял, что для него точность сильно роляет + ОГРОМНЫЙ ПЛЮС, эта хрень все блядь помнит, ты прикинь! Хотя с логикой проблемы бывают, да(до 70-100+ далековато), но сильно лучше чем у других 30b+, yi и qwen просто днище (хотя справедливости ради, qwen 70-110 имеет свой "художественный" стиль, мне понравилось, но для ERP абсолютно не годны, более соевы чем все другие опенсурс модели).
>>748620 У меня не говорит кранч если такой промпт формат.Даже с темпурой. Но сою так и не победил кстати. Неразогретая модель отвечает соево. Но если юзать карточку, то все норм вроде.
Коммандер 105b могу только по апишке юзать. Но там у меня как раз проблема, что мне не хватает там температуры для рп. Хотя моделька неплохая, может я промпт неверно задаю конечно, но стиль написания более сухой чем у кранча.
>>747664 Ну буду ждать промпты на третью лламу до шести утра. Потому что у меня даже на файнтюне (Poppy_Porpoise-0.72) в разгар lewd сцены типичный чай-экспириенс с забаненным EOS токеном. Впрочем описание до этого ассистенто высера - всё равно унылота полнейшая.
Если вдруг кто не видел, вышел рп тьюн тройки от автора мифомакса, и вот он вроде не так плох в ерп, да и в целом пишет хорошо. https://huggingface.co/Gryphe/Pantheon-RP-1.0-8b-Llama-3 Но у меня не понимает некоторые ситуации в чатах выше 4к токенов, при том, что некоторые тьюны 7б мистраля справлялись. Сэмплерами резал довольно много, не мин-п пресеты. Не умею готовить тройку.
>>748640 Ну я Repetition Penalty и Slope так сильно не задирал, да, мб помогло бы, но лень тестить, когда есть возможность юзать модельки поумнее. У меня температура для командера динамическая 0,75-2, если честно не заметил сильной разницы, Repetition Penalty (1,05) маст хев для всех моделей, а вот Frequency Penalty влияет очень сильно, можно даже получить вариант очень похожий на человека по ответам, хотя на долго лучше не врубать, в шизу скатывается.
>>747075 Слово ассистент в карточке лучше не писать, а то модель невзначай скатывается к некоей дефолтности, чем нивелирует остальные старания карточкописателя. Вместо ассистента и помощника подойдет что-то вроде "внутренний голос" "друг", ну в общем это должен быть одушевленный персонаж, выполняющий функции, описанные далее в карте.
>>747881 Если честно, я в ахуе. Насколько неформально легко оно поняло то что я хочу подойти к проблеме ортогонально. Особенно шишка стоит, когда между делом говоришь, что для хранения данных ты там само подбери нужные классы.
>>748759 В итоге. Не думал что оно поедет так легко. Там буквально забыло разделитель строки в одном месте, символ " другим скопировало из браузера, который гцц не понимает и в итераторе забыло двоеточие.
И да, всё что здесь видите, это вот. Я только чуточку поработал с характером, пару копипастов из таверны и оно легко превратилось в адеквата, ёбаного таймкиллера.
>>748772 Респект. А я вот себе четвёртую теслу прикупил, чтобы уж точно на всё хватило. Как о поддержке FA32 услышал, так и прикупил. Не царь, но на боярина потяну (смайл).
>>748713 >сетка сама понимает что является помощником и ассистентом с широкими возможностями Весь смысл в назывании agi как раз в том, что она сама думает о себе как о помощнике, указывать это отдельно не нужно, если не хочется что бы она на надроченную линию свернула, как ты и написал
>>748787 У меня домашний комп с 3090, я с него апишку прокидываю на ноут, 3090 обрабатывают llm, а на ноуте подрубаю tts и whisper, получается очень кайфово. Сейчас пробую pablic_api чтоб можно было юзать где угодно, где есть инет.
>>748759 Удобно да? Спросил - получил результат, хоть и не всегда верный Я так потихоньку тоже прогаю разную фигню, быстрее чем искать в инете Хотя по хорошему в доки все равно нужно зарыться что бы знать что у сетки просить
>>748799 >а на ноуте подрубаю tts и whisper, получается очень кайфово. Тоже надо tts попробовать. Как нынче ситуация с ударениями, интонациями, особенно на русском?
>>748810 Знаки пунктуации хорошо понимает, а вот с ударениями и интонацией бяда, на инглише шпарит, я бы сказал хорошо, на русише не очень(хотя я взял базовую модель, которую по хорошему нужно тюнить, ну или искать подходящую, но я ее в инглише юзаю, так как хочу наконец то подучить его), хотя для начала как по мне отлично, такая то иммерсивность, жду когда в играх такое прикрутят.
>>748817 Из русских самая удачная модель была Silero, но я не знаю, можно ли прикрутить её к Silly Tavern. Если кто знает, то подскажите. Она не без косяков, но голоса там хорошие и с интонацией лучше.
>>748829 Ставишь по гайду (https://github.com/daswer123/xtts-api-server) и подрубаешь в экстасах таверны xtts v2, выбираешь голос в .wav для карточки и вперед. Там правда проблема есть, не нужно ставить spacy, то есть в requirements.txt сверху проставляешь spacy!=3.0.6. Установку нужно делать так: pip install xtts-api-server -r requirements.txt. Модели tts сам подтянет.
>>748828 Silero вроде от русских разработчиков, но я качественную модель найти не смог, на сайте у них только в платном варианте, только в размерности 100-150мб, мне не понравилась, xttsv2 лучше будет, даже в русском, но модель 1,5гб весит, смотри, чтоб памяти хватило.
>>748852 Попробую конечно. Но Silero третьей версии я использовал для озвучки документов, всего 60гб русская модель весила - и было вполне ничего. Даже интонации чувствовались как бы.
>>748874 Ну на 60гб я модельки не находил, хотя сильно и не старался. Ставил тупо в таверна-экстрас, глянул у них на сайте, не нашел интересных вариков и забил. Может попробую еще раз, если будет не лень. Мне, если честно whisper больше понравился, от него побольше пользы для таверны в рп и ерп.
На доске было тредов 10 про то что ГУФФ Лламы 3 сломан. Но чет я не видел что бы писали и про Exl2. Ну короче отпишу сам- ебучая Dracones/Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw сломана нахуй. Не качайте.
>>748850 Лучше скачай именно лаунчер Таверны. Через него все это ставить намного проще. К тому же ручками если ставить могут быть с выкачкой зависимостей для Xtts2.
Я тут обработал текст об обновлении таверны(https://www.reddit.com/r/SillyTavernAI/comments/1cvp5mm/sillytavern_1120/) при помощи xttsv2. Использовал свой голос как спикера, так как юзал микро телефона, было много шумов полностью убрать с помощью Адобэ Аудишен не смог. Так что звук с помехами, но получилось очень неплохо, как по мне. Какой формат записи можно погрузить на двач(wav, mp3..)?
>>746758 Большинство рп файнтюнов больше 7б будут лучше >>748318 Когда топишь за мусор на мертворожденной архитектуре - старайся быть потоньше, иначе совсем смешно становится. >>748758 В две не влезет. >>748772 В каком кванте катаешь?
>>748930 >В каком кванте катаешь? 70В - 6bpw, 105-110 - 4 bpw, все остальное, что меньше - 8bpw, хотел llama 3 8B в трансформер варианте скачать, но увы, доступ не дали. >>748931 https://voca.ro/1dLQP9IaEWpD
>>748943 >лаунчер Таверны Непонятная штука. Таверну поставил он мне, поставил xtts (хз куда), сам его не запускает, как именно его запустить - непонятно. Что так криво-то всё?
>>748963 Ты там сначала запускаешь Таверну, потом экстрас, потом хттс. В таверне подключаешь экстрас и уже потом лезишь в ХТТС и врубаешь его. Придется поебаться.
>>748828 Я уже три раз в тредах писал про силеро, что это говно по сравнению с alltalk - говно в смысле намеренной сложности инсталляции, и говно в смысле богатства выбора голоса. Лучше с силеро даже не начинать связываться - потом все равно пылиться без дела. Alltalk ставится в полтора-два клика, и не нужно экстрас, кстати.
>>749315 > ты же его сделал? >>749339 Он не ковырял старую папку. Поэтому я просто удалил ботов вообще и он, сука, скипнул импорт вообще. И я думал все проебалось. Пришлось все закидывать по старинке из папки public в Data.И все заработало.
Наткнулся на критическое узкое место 8b моделей - приниципиально не хотять отказываться от описаний того, как персонаж улыбнулся, почесал в голове, сверкнул глазами, при том что персонаж в непрозрачном шлеме и в карточке прописано описывать мимику как "судя по голосу, персонаж улыбнулся". По этому поводу решил-таки закинуть пару долларов на опенрутер и попробовать лучшие модели, и тут выясняется, что он не принимает биткоин.
8b модель на 8гиговой видимокарте запустится? До этого на оперативке все гонял, но сейчас видюху заимел. Возник ламерский вопрос: лама3 не запустится вообще или все же запустится со скрипом? Карта rx7600.
>>748704 >блядский RAG в таверне 1.12 собственно самое точное описание этой функции, ибо результата теста можно ждать день, неделю, месяц, кто знает сколько. Словом даже одну ничтожную 2мб книжку в пдф эта ебанина так и не смогла заэмбедить за 30 - ТРИДЦАТЬ карл! минут. Дальше ждать нахуй нужно. Думал тут побогаче будет отвечать ведь выбор моделей, настройки семперов, те же карточки - ну хули нет. Чат ртх от куртки в триллион раз быстрее обработает все книги мира чем это уебанское изделие одну книжонку. Кстати как я понял уебище эмбедит на процессоре, так как карта простаивает - ну что тут даже нечего сказать и так все ясно. использует эту модель еще и квантованную: Cohee/jina-embeddings-v2-base-en
>>749465 Походу проблема глобальная. Сейчас попробовал через прокси из кум треда gpt4o и он тоже пишет "бросил заинтересованный взгляд". А клод опус написал "похотливый взгляд".
>>749657 По-видимому дело все таки в карточке. Нейросеть слишком вживается в роль, так что персонаж становится протагонистом, от лица которого ведется повествование. Тем более, что в систем промпте сказано быть опытным писателем. В романе это было бы логично, когда писатель пишет о протагонисте, что он улыбнулся, хотя другие персонажи этого не могут видеть.
Здравствуйте, аноны, не понимаю как запустить GPTQ модель. Написано, что через некий kobold united можно, но гуглинг и ссылки ведут на обычную кобольдовскую репу. Я быть может что-то не так делаю, окно у меня стандартное выглядит вот так. Ну и я в целом новенький в llm движухе. В faq ничего про запуск этих моделей не сказано. Модель взял у TheBlake'а, скачалась она в формате .safetensors
>>749691 >GPTQ модель На сколько я знаю на кобальде не запустить никак, там под копотом llama.cpp а это все ггуф Ну и вообще он устарел, лучше его апгрейженную версию запускай, exl2 кванты Они тоже для видеокарт и быстрые
>>749691 Сказано, смотри внимательно. Кобольд только для gguf, чтобы пускать все форматы нужно ставить text generation webui. Учти что почти все из них предусматривают работу только на видеокарте, это быстрее но нужно иметь врам. Также качать gptq отдельным файлом нельзя, нужна вся папка. Загрузить можно прямо там же в webui, через hfhub, через git lfs и т.д.
>>749600 Пробуй через угабугу, просто выбери при установке что у тебя карта амд, а вот как у них по поддержке лоадеров хз, с llama.cpp наверное можно выгрузить слои >>749691 https://github.com/oobabooga/text-generation-webui выбираешь exllamav2 в лоадере, либо можно просто трансформерами, но они без фич и их можно рассматривать скорее для полновесных моделей, есть ещё устаревший autogpt, он вообще нинужон, как и awq Угабуга наконец то завёз последнюю версию с фиксами жоры кстати
Кто-нибудь пробовал использовать локальный переводчик для общения с LLM? Пока самый лучший, который смог найти это t5_translate_en_ru_zh_large_1024 (есть на hugging face) Почему-то больших моделей переводчиков ru <=> en вообще нет, зачем-то делают небольшие да ещё и на 300 языков, которые плохо переводят.
>>749625 Я только что через экстрасы подрубил, скачал первую попавшуюся книгу и подрубил к RAG, работает заебись, правда моделька у меня сейчас llama 3 8b, кратко описание книжки дала. Попозже проверю "достоверность" на книжках, которые читал и с нормальной моделью под RAG - коммандер.
>>749903 >Я только что через экстрасы подрубил Вобще-то там дата банк на выпадающем меню в чате, чего ты там подрубил расскажи подробнее, сделай одолжение, хотя помоему троллишь, а?
>>749957 Да уж, сделай одолжение, ссылка какая-то гора хуйни по которой. По факту - срет под себя твоя таверна, раг не работает так как надо, а это значит не работает вообще. Что там у тебя якобы работает - ты же ни слова не описал как именно ты включал. Значит пиздеж. Просто кидаеш в дата банк файлы и он должен эмбедить - поскольку этого не делается значит фуфло. Ну оно и понятено попенсорс - что с него взять кроме анализов. Так что курткиному чату ртх конкурентов как не было и нет.
>>748318 Кстати, Кранчи не обновляли? Та самая олдовая ггуф от лоунстрайкера так и живет?
>>748472 ллм+ ттс + воис клонинг + можно ттс + воис клонинг сразу тти + ттв — НУ ТАКО-О-О-ОЕ… трансов осуждаю аи аватарс — шо? Да, есть локально, можно.
Для ллм хватит 11-12 гигов для лламы-8. Для ттс + воис клонинг надо 4,5 гига для xttsv2 Для тти надо от 4,5 гигов до дохуя если ты заебываешься с контролнетами. Для ттв надо уже много, если анимейтдифф на базе сд — то гигов 8-10-12. Для какого-нибудь wav2lip я хз, не пробовал.
Но в общем, можно засунуть даже в одну теслу или 3090/4090. Впритык. Ты забыл еще распознавания звука, чтобы слать голосовухи тг-вайфу (3,5 для фастер-виспер - медиум или лардж, не помню), и распознавания изображений, чтобы слать дикпики тг-вайфу (2-3 гига для всяких клипов-блипов). Тут уже пригодилось бы гигов 30-36, конечно. Короче, 3060+3090 вполне могут порешать твои проблемы, кмк. =)
>>748475 Ой, точно, забыл! Ну еще 8-12 гигов навалим. Две 3090 порешают.
>>748810 Как и раньше — рандомно. =) Но xttsv2 умеет воис клонить немного и относительно быстр на видяхе. Так что попробовать стоит.
>>748828 Силеро не самая удачная, а самая быстрая, так-то Coqui лучше. Ну и Силеру не дали свои модели делать по итогу, печаль. =( Если бы не воис клонинг, то Силера была в приоритете для многих. А так, выбирай: Ксения или Ксения.
>>748874 Ну это же все по сути вкусовщина и по надобности. Кому быстро и пофиг на голос — тот Силеро. Кому хочется голос и качественнее — тому Кокуй. Так-то обе хороши, лучше стареньких Акапелло, ИМХО. Екатерина, Милена, помните таких? :)
>>748924 Писали, что надо менять три файлика, там не тот указан токен для окончания фразы. Вот и все.
>>749277 А что за олтолк? Впервые слышу. Мусор от создателей оллама? =D Простите. Но если серьезно, че там по скорости (мгновенная, как у силеры, или 2 секунды, как у кокуя?) и по воис клонингу?
>>749600 Разымей обратно. > rx7600 Ты на приколе в этом треде, я смотрю. Да, если в малом кванте и тупая. Нет, если в q8.
>>749842 В чем? В силлитаверну я добавлял либретранслейт, но он говно по мнению почти всех. А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы. Ты как именно пробовал, расскажи детали, интересно же.
>>749975 Выглядит примерно как > это не я глупая иллюстрация скиллишью, это вы меня ссылками битыми троллите! А раз у меня не получается значит все это плохое! Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема. >>750045 Если 12 то что угодно подойдет, обычно выше q6K смысла нет.
>>750033 >А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы. Хотелось бы что бы был, но нету на сколько я знаю Да и вообще параллельное хранение хотя бы двух кв кешей что бы переключаться между карточками без обработки каждый раз контекста вроде нигде нету
>>749842 Если используется относительно современная ллм - можешь делать перевод через нее же отдельным запросом. Вроде даже экстрас к таверне такой делали. >>750050 > но нету на сколько я знаю Тогда напиши простой эмулятор апи той же либры или чего угодно, который будет оформлять приходящий текст в промт и делать запрос к ллм. > хранение хотя бы двух кв кешей Тут увы, если катаешь не полностью на гпу то будет больно.
>>750021 > Эмбендинги правда процом обрабатываются Уточню, что если флаг --cuda прописать, то будет юзаться видюха, у меня она просто забита виспером и ттс.
>>750049 >Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема Вот тут ты не прав. В этом треде хуй какую пользу получишь, тут кроме эпитетов хлебушек и подобным вместо полезной информации не будет ничего. Причем, будешь обвинен сам же, что не так обратился. Одним словом, тред, полный инфантилов, у которых всегда кто-то хуевый и виноват, но не они сами. Причем, на конкретные вопросы будет максимально расплывчатый ответ, типа - "это же очевидно", "решим в уме", что есть не что иное, как прикрытие дилетантства и не более того. Вот такие пироги, мил человек. Шо касается глюпой таверны, она не может на равных конкурировать с чат ртх, в ней раг просто баловство, так, брелок какой-то, прицепленный к чату.
>>750123 Ему ответили - он обосрался, потом еще раз - и опять обосрался. Бля, ну тогда спрашивай и уточняй что мне как дебилу объясните, тогда тебе все какой нибудь добренький анон разжует Все тут можно обсудить и новичкам обычно помогают
https://3dnews.ru/1105129/asml-podtverdila-chto-moget-vivesti-iz-stroya-svoyo-oborudovanie-na-tayvane-v-sluchae-zahvata-ostrova Сука, просто представьте какой властью над жопой всех производителей обладают монополисты в самой современной литографии Это же просто пиздец, мало того что это одна конторка на весь мир, так они еще и большую часть своих усилий направляют на сохранение своих секретов для того что бы и дальше оставаться монополистами и тормозить сука технологический прогресс В итоге цены на чипы просто ебанутые, а там и вся электроника подтягивается и ваши а100 в кармане аноны
Так, xtts я поставил (через AllTalk), всё работает, жрёт врам конечно, но ничего. Теперь интересует войс клонинг для него, о котором тут много говорят, как о самом обычном деле. Как сделать и куда вставить потом? А то голосов много симпатичных в разных роликах есть.
>>750174 А что не так? Типикал поведение корпорации. Да и для самого Тайваня это правильная стратегия, если бы не это, его бы давно открымировали, и чипы стоили бы ещё дороже (если Китай вообще их экспортировал бы во всякие там России).
>>750203 Ога, а если бы знания о том как делать такую литографию не были такими секретными то у нас не было бы таких проблем с чипами. И все были бы в плюсе кроме контрки пидарасов из asml Китай живет экспортом, и многая электроника производится у них внутри, просто им не хватает этого даже на свои внутренние нужды, так как внезапно, у них нет станков для ее создания. Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии
>>750221 >знания о том как делать такую литографию не были такими секретными Чёт вангую, что там больше отдельных тонкостей и опыта спецов. Не нужно ничего особо прятать в такой сложной области, китайца можно хоть в зал пустить, он нихуя не сможет повторить. >Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит.
>>750021 В общем попробовал с коммандером 105 4bpw, заебись отработал на русском. Ллама 3 8B просто сосет в этом. Разработчики таверны красавчики, можно официально заявить, что RAG работает.
Можно использовать LLM для перевода, но слишком затратно, t5_translate_en_ru_zh_large_1024 имеет 851M параметров и отлично работает на процессоре, при том, что я вообще не использую 4/6 всей модели ( zh>en, zh>ru, en>zh, ru>zh )
про LibreTranslate ранее не слышал, сейчас попробовал и t5_translate_en_ru_zh_large_1024 явно лучше переводит.
сейчас система перевода у меня устроена так: локальный "сервер" на питоне подгружает переводчик, далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу отправляет запрос к локальному серверу переводчика здесь текст нарезают на предложения, слова в кавычках и тд, всё это переводится отдельно и получает ответ.
Учитывая, что большая часть модели переводчика вообще не используется, то можно предположить, что создание еще более качественного переводчика в пределах 1b параметров очень даже возможно (перевод только en>ru и ru>en, а лучше вообще 2 отдельными моделями как у Helsinki-NLP), вот только опять же почему-то никто это не реализует, либо я плохо ищу.
>>750303 Ты точно сам понимаешь, что тестировал? Эмбединги из экстрас - это то же самое встроенное векторное хранилище, только с выбором модели, и туда подаётся вот эта модель по дефолту ( https://huggingface.co/sentence-transformers/all-mpnet-base-v2 ). Можно взять другую этого же класса. Она подсовывает тебе в контекст "актуальную" информацию, а дальше уже абсолютно пофиг, какая модель этот контекст прочтёт. Разве не так? Что тогда значит, "коммандер отработал", если он, блин, просто прочитал тот же самый контекст, что и лама бы прочитала. Ну т.е., конечно, 105б поймёт любой контекст лучше 8б, но всё упирается не столько в то, какая модель сгенерит ответ, сколько в то, загрузятся ли в контекст актуальные куски текста или кривой кал, портящий диалог. И последнее нужно смотреть в консоли. Собственно, векторное хранилище было в таверне давным давно, просто в новой версии таверны сделали более гибкий выбор того, что хочешь подгрузить, и назвали это поддержкой RAG.
>>750348 >далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу Зочем? Как и предложил анон выше, да и я об этом думал, не проще уже готовой кнопкой перевода делать? Просто выбрать в переводах libre и подделать его апи своим сервером Я вот щас тоже ебусь с прокси сервером для вызова функций из таверны, ебал я в рот этот стрим поток
>>750231 >Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит. А ты опять доводишь любую идею до абсурда и тут же ее побеждаешь? Я понял тебя дурачек
>>750368 мне проще было добавить 2 кнопки, но это совсем не проблема, при желании хоть вебсокет сделаю чтоб все плавно переводилось по мере генерации предложения, проблема сейчас для меня это модель переводчика, думаю уже самому начать обучать ибо ничего за пол года толкового не вышло
>>750381 Если не секрет как t5_translate_en_ru_zh_large_1024 заводишь? Как в примере у них через трансформерс в полном размере? Я думал еще и запускать это в хотя бы 8 бит, есть такая функция? Ниже наверное не стоит, сетка и так мелкая, там уже падение качества будет заметным.
Обучение даже 1b это жопа, сколько там парень тренил свою сетку на 1.1b? Месяца 3 вроде, точно не помню. Датасеты нужны, нужно уметь тренить и железо опять же. Проще подождать, я думаю сетки переводчики еще будут получше и поменьше
>>750303 Так то и у меня работает, одну мелкую книжку до мб зажует уж за пару минут хуй с ним на процессоре. Но это не то, что должен делать раг. Попробуй подать 500 пдфок суммарно на гигабайт и посмотри справится или нет? И потом чтоб выдавало информацию из этих книг, вот для чего раг. И кстати, не факт, что твой эксперимент с этой книгой чистый. Может она была в датасете и выдает тебе теперь саммари не из эмбедингов, а сама сетка. Тестировать надо на том, что заведомо не могло быть в датасете, ну или хотя бы маловероятно.
>>750365 Да, всё так, ты прав. Я к тому, что работа этого RAG в таверне (которое как бы было начиная с хромы, но никто его так не называл) будет зависеть, во-первых, от модели sentence-transformers, а во-вторых, от того, как добытая этой моделью информация добавляется в промпт. И касательно последнего пункта, очень сильно подозреваю, что в реализации в таверне векторного хранилища ничего толком не поменялось в новой версии. Это и нужно бы проверять, по-хорошему. А не то, какая ллм поймёт ту шнягу, что накидали в промпт эмбединги. Вот, например, у этого чела >>749625 могла быть реально очень медленная обработка, потому что там без экстрас и апишек какая-то дефолтная внутренняя модель, адаптированная под джаваскрипт. Я когда для рп юзал, она и чат в 6к токенов пару минут обрабатывала, пердела. И то, что они с хромой (которую чекал когда-то раньше) добавляли в контекст, было полнейшей бредосиной не на своём месте. Если реализация осталась той же, и модель эмбедингов будет говном, то даже огромный командир, читающий результат, не поможет.
Лучше в полном размере, на самом деле 8 бит даже не видел, да и там не нужно каких-то больших вычислительных мощностей, модель то буквально микроскопическая)
На счет обучения, даже не на 1b, хотя бы 2 модели по 400M, или даже одну с en на ru уже потенциально будет лучше переводить чем t5_translate, уж это то вполне реально осилить, а жду я уже пол года, и ничего прям интересного кроме t5_translate не вижу
код:
from flask import Flask, request, jsonify from transformers import T5ForConditionalGeneration, T5Tokenizer import torch import re from flask_cors import CORS from bs4 import BeautifulSoup app = Flask(__name__) CORS(app) # This will enable CORS for all routes model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024' model_path = r"C:\translator4\filesAI" tokenizer_path = r"C:\translator4\filesAI"
device = torch.device('cuda' if 0 else 'cpu') print(f"Используется устройство: {device}")
model = T5ForConditionalGeneration.from_pretrained(model_path, local_files_only=True) tokenizer = T5Tokenizer.from_pretrained(tokenizer_path, local_files_only=True)
# Находим все текстовые узлы text_nodes = soup.find_all(text=True)
# Переводим текст каждого узла for text_node in text_nodes: if text_node.strip(): # Проверяем, что узел не пуст translated_text = translate_phrase(text_node, source_lang) text_node.replace_with(translated_text)
# Возвращаем обновленный HTML return str(soup)
def translate_phrase(phrase, source_lang): print(f"Выполнение задачи: Перевод с '{source_lang}'") if source_lang == 'en': prefix = 'translate to ru: ' elif source_lang == 'ru': prefix = 'translate to en: ' else: return "Unsupported language"
>>750402 Ну твое сомнение только в выборе модели для эмбендинга, не более, в текущей реализации она неплохо отрабатывает, мб не распознает редкие токены, но в текущих реалиях, для локалок, это лучшее из того, что есть. А в таверне, да, векторное хранилище было, но сейчас оно чертовски близко к RAG коммерческих моделей по реализации(глянь как к GPT подгружают внешние данные), можно подгрузить любую текстовую инфу, нужную тебе для работы, RP/ERP у себя дома. (конечно в коммерческих поинтереснее - звук, картинки, видео)
>>750398 Ну так я и выбрал книжку на русском с ебанутым названием и в самом низу поиска. Ну это мой первый тест, на работе еще протестирую с ориджинал данными. >на процессоре Так это твои проблемы лоу перформанса, покупай А100/H100/H200, или смирись, что не можешь обработать всю флибусту. Мне для моих задач должно хватить.
>>750423 Я пока свои кодерские локалки мучаю, заодно проверяя как они в код могут, ну, кое какая помощь есть по карйней мере они все еще лучше меня, лол
Вот держи прокси сервер на сдачу, тока я его не доделал. Предполагалось ловить запросы функций и выполнять их там. Отсылая результат обратно сетке что бы она с ним отвечала, но ебусь пока с потоковой передачей, так что стриминг не пашет
# Define the backend API endpoint backend_url = "http://localhost:5001/"
# Create a proxy endpoint for the frontend @app.route('/<path:path>', methods=['GET', 'POST']) def proxy(path): # Get the requested endpoint from the request url = backend_url + path response = requests.request(request.method, url, headers=request.headers, data=request.data) return jsonify(response.json())
if __name__== '__main__': print("run") app.run(debug=True, host='127.0.0.1', port=5010)
Вот только я не хочу ебаться с фронтом и беком, поэтому придумал гениальное решение - тупо вклинится между любым опенаи апи совместимым беком и фронтом, прокси сервером который и будет выполнять перехваченные команды.
Идея неплохая, но я никогда не работал ни с апи ни с фласком и теперь рад что хотя бы вообще как прокси сервер работает.
Вызовы и перехваты функций буду прикручивать уже когда и если победю стриминг который мне 2 вечер мозги ебет. Не понимаю как эту хуйню перехватывать и потоково отсылать на фронт. Походу надо генераторы городить на request, сижу тыкаю и доки почитываю
>>750348 Сделай мердж реквест в таверну, не, ну а чо. База же, если лучше либры.
>>750358 Полагаю, дело в том, что коммандер, по словам разрабов, тренировали специально для рага. Сам коммандер тупенький, но хорошо работает именно с поданным ему контекстом. Видимо, тренировка шла на соответствующих датасетах.
>>750545 Ну тут не особо понятно, я поковырялся побольше с либрой и тут что-то лучше он переводит, что-то t5_translate, нужно проводить более основательные тесты, чтобы сделать адекватный вывод
>>750189 Попробовал Moondream — ну, оно и правда работает. Но только на английском и очень строго к промпту относится. А еще есть режим вебки, правда на моей днище-видяхе не успевает дописать предложение, но в общем — забавно. Демка, как может работать технология.
>>750707 >Кочайте и проверяйте у кого инет быстрый Ух, свежие квантики, аж в руках тепло держать временно, говно остынет и станет противно. >>750711 А третья? В любом случае, доработка к лламе это костыль, а значит говно. Про фи ХЗ, кто знает, там что делали?
>>750718 >Ух, свежие квантики Ожидаемо донт воркают на последнем кобольде и ллама.цп. >>750723 Какие именно? Часть метрик напрямую соевые, а фи соевая донельзя.
отсюда качай под свой процессор, в том числе теперь поддерживаются арм7 а не только 8
затем качай gguf модель phi-3 кидай в телефон куда угодно запускай, на вкладке модель сеттинг загружай кнопкой, жди, как появится надпись загружено, иди в чат и пиши, если модель ответила значит работает.
Вот видишь, а спесивые ебланы из треда не захотели снизойти до ответа тебе, такой же хлебушек тебе отвечает
>>750718 > В любом случае, доработка к лламе это костыль, а значит говно. Ког в старые времена разорвал, и щас может оказаться лучшим (просто при сравнении 4b против 19b, конечно… =). Ну да ладно, че щас сходу судить. Разбираться надо.
>>750707 Блять, ультра пушка. Наконец-то настоящий локальный паверкрип 3.5, потому что остальные не могли в русский нормально, так еще и вижн модель есть
>>750123 Платиновое бинго - практиковать то в чем всех обвиняешь. Причем мотивы вполне очевидны. >>750339 Если хочешь от кого-то кто тебе ничем не обязан что-то получить - стоит научиться вежливости. Если не понимаешь что тебе отвечают - честно признайся, нет ничего зазорного. А когда чсвшный варебух требует ему что-то сделать, а на ответы агрится и начинает спорить - кроме хуев за щеку он ничего не получит. Только и придется что потом придумывать оправдания какой ты Д'артаньян а к тебе несправедливо плохо отнеслись. Или бывает вообще терминальная фаза, когда какие-то шизы приходят проповедовать то что им понравилось, тут вообще мрак. >>750348 > но слишком затратно Все зависит от твоего железа. Если время ожидание невелико и нет проблемы с долгой обработки контекста - его удвоение не станет страшным. Разумеется вариант с мелкой моделью более предпочтителен и он правильный, но, как правило, они слишком глупы. > далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу Почему не захотел воспользоваться стандартным функционалом переводчиков, натравив на свой локальный сервер? Если там полезный функционал то действительно это стоит добавить в основную. Покажи примеров как переводит, интересно. > почему-то никто это не реализует Как правильно все упирается в то, что те кто может реализовать - знают инглиш. >>750378 > xtts2 Раз уж зашел разговор, не пробовал обучить/настроить несколько вариантов с разной интонацией и манерой речи, а потом переключать их для подобной колхозной передачи эмоций? Настроить буфер чтобы не было паузы при склейке, приказать ллм делать доп разметку или анализировать текст для расстановки, и подобную систему крутить?
>>750189 > Новая cogvlm на базе llama3 https://www.youtube.com/watch?v=lut2_mGAavA К прошлой версии прикладывали примерные ресурсы для ее файнтюна, а сейчас, кажется, убрали, сколько там нужно? >>750710 > Moondream Это ведь малютка 3б. Но она неплоха для некоторых задач.
>>750784 Да тут не один такой, на самом деле. =) Вообще, добрый тред. Как правило, если не отвечают — то просто не знают, и лень разбираться.
>>750884 ИМХО — нет. Конечно, кванты там щас поломанные все, как я понимаю, но как мне показалось, 70B все же лучше. И Мику, и Ллама-3. Плюс, все же там может быть много сои. Это я еще не пробовал.
>>750868 >Большая слишком Есть такое, 104B же. Но с другой стороны и качественная. Кринжа не заметил, но я не занимают извращениями типа РП на русском. >>750915 >70B все же лучше Однозначно лучше, даже по скорам. И вообще, коупить про 14B, которая с 5T токенов обучения выебет 70B с 15, ну это такое себе. И да, соя и тотальная фильтрация датасета у майков сделала своё, по крайней мере мини версия вообще не прошибаемо тупа в некоторых вопросах.
>>750896 >Раз уж зашел разговор, не пробовал обучить/настроить несколько вариантов с разной интонацией и манерой речи, а потом переключать их для подобной колхозной передачи эмоций? Настроить буфер чтобы не было паузы при склейке, приказать ллм делать доп разметку или анализировать текст для расстановки, и подобную систему крутить?
Я пытался ассистента ии из старкрафта 2 кинуть голос, но подражало слабовато и я забил на ттс Может позже еще поковыряюсь, так то все готовое к запуску лежит, надо только файлики голосовые достать получше, мб так заработает
>>750926 > мини версия вообще не прошибаемо тупа в некоторых вопросах. Ну а хуле ты хотел от 3b? Я в шоке что оно хотя бы так работает. Это чисто топовая оффлайн отвечалка на вопросы на мобиле
>>750941 >Ну а хуле ты хотел от 3b? Так проблема не из-за размера, а из-за сои. Понятное дело, что она в общем и целом не светочь разума, но просто с учётом других её возможностей она должна хоть что-то уметь в РП. А там хуй, всё соя портит.
>>750952 Можешь через неделю приходить. Там PR поддержки Phi сломан, другие модели ломает. Сейчас надо засекать как скоро чуханы поймут что там что-то не так, тестить код же слишком сложно.
>>751116 >Попробуй перефразировать задачу Мой английский ис а бэд, сори. На всякий случай проверил с другим объектом, его вычитает корректно. А вот то, что я с каждой сплю по два раза, он не учитывает.
>>751120 Ах да, промт формат рандомный, поэтому походу результаты говно (ненавижу ебучие форматы промта. Когда же сделают универсальный промт формат...).
>>751120 Судя по второй книги заучены, однако может просто не понял. Может заменить "использовал" на "распечатал"? Бляяя, вот насколько похуй бывает на все эти вещи, но ответа на 3й подгорел. >>751121 Лол, поломанный гуф?
>>751121 Выбрал системный промт, подходящий для фи. У меня в таверне уже есть один (ХЗ встроенный, или добавленный мною), но там используется <|system|> для системы, хотя на оф странице модели его нету. Короче сделал 2 варианта на систему и на юзера как замену системы. В итоге SOYA TRIGGERED, ответы по вопросу с презервативами стали хуже, хотя там простая математика, лол. Проверю ка я другие модели, а то может будет новой базой для проверки ИИ моделей. >>751122 >но ответа на 3й подгорел. Погори ещё немного ^__^
>>751117 >Попробуй на русском Иногда обсирается, как в первом варианте (или мне так повезло). Язык вполне себе без ошибок, слегка суховат и коряв на мой вкус, но читать можно.
>>751127 Ох бля, они неплохо так постарались, добавили этого говна от души. Делали все что бы отбить желание пользоваться их умными модельками, компенсируя их качество кучами подобного говна. Сука ну неужели так трудно просто сделать модель без всего этого дерьма? Обязательно нужно морковку подсунуть под нос что бы повесточку пихнуть, навязывая свое мнение
>>751136 >Сука ну неужели так трудно просто сделать модель без всего этого дерьма? Держи модель без сои! Я опять забыл сменить промт формат, так что не считается. Как вообще работает регексп?
>>751146 >не испорченной предрелизной версии phi3 Такой в принципе нет. Майкрософт заявляет о сейфити фирст и о том, что они тщательно отбирают книги для датасета и используют кучу сгенерированных данных. Я уверен, что ни один токен с имиджборд эта модель в принципе не видела. Так что соя там не то что с молоком матери, она в ДНК прописана.
А почему так повелось, что модели размеров 7b, 14b, 34b, 70b? Как думаете, дальше будут подгонять под размер VRAM ходовых видюх? Или ебитесь с квантами сами?
>>751147 Да, но я уверен они и дпо поверх проходятся и другими методами выравнивания уже по готовой модели. Так что предрелизная сетка имела меньше сои и меньше выебывалась. Тогда ей еще не натренили хорошо/плохо, и она могла быть хоть и соевой но более нейтральой А эта хуйня неюзабельна, сука, кусок кода который учит меня как жить, навязывая чужое мнение? Это кусок говна.
>>751144 >Я опять забыл сменить промт формат, так что не считается. Короче или командир всё же не такой умный, как я думал (ибо выдаёт говно), или вопрос составлен не корректно. Аноны с уровнем выше ESL, проверьте мой английский и общую постановку вопроса, а то может я последнее серое вещество выкумил, и сам несу бред. >>751148 >А почему так повелось, что модели размеров 7b, 14b, 34b, 70b? Да, почему? Есть 8, 30, 65 как минимум. Вообще, размеры любые, так что ебёмся сами, да. >>751149 >Это кусок говна. Согласен, с отвращением запускаю.
>>751148 >А почему так повелось, что модели размеров 7b, 14b, 34b, 70b? Да думаю тупо удваивали количество тесл для обучения и заявляли: а теперь наша модель будет вдвое больше! Врам пользователя их в принципе не волновал.
>>751153 >Короче или командир всё же не такой умный, как я думал (ибо выдаёт говно), или вопрос составлен не корректно. Я не командир, но смысл задачи тоже не понял. Какой ответ-то?
>>751155 Идеальный ответ от нейросети, который я жду: Ну смотри. У нас было 12 гандонов. На 2 бабы ты потратил по 2 штуки на каждую, то есть 4. Итого у тебя осталось 8 гандонов, которых хватит на 4 баб по два раза каждую. Ответ: ты можешь привести ещё 4 бабы. Приятного времяпрепровождения!
>>751136 > Делали все что бы отбить желание пользоваться их умными модельками, компенсируя их качество кучами подобного говна. Что интересно, мелкую то можно файнтюнить на относительно десктопном железе, вполне себе челленж. >>751144 Вот, сразу видно хорошую модель. >>751147 Пиздеть не мешки ворочать, могут тренить просто так, а потом уже поверх проходиться. >>751153 Модель видит опытного мужика, который экономит и не меняят гандон пока не прижмет. Но в первой он просто затупил, инструкцию ему подробную дать, приказать подумать и т.п., и офк по 1 гандону на раз.
>>751159 >При каждом половом акте обязательно используется один презерватив С одной стороны да, с другой вся суть умной нейросетки в том, чтобы не расписывать ей, что трава зелёная, а небо голубое. Короче максимально душно расписал условие задачи, и вроде теперь стабильно отвечает а не, второй ролл обосрал. Ну что за хуйня? 104B параметров видимо недостаточно, чтобы сориентироваться в 12 гандонах. Ладно, этот вопрос выглядит достаточно зрелым, пойду протестирую другие модели.
>>751164 >пойду протестирую другие модели Ретестнул фи с разжёванным вопросом, короче модель всё же говно. 1 полный отказ из-за сои, и 1 раз запуталась, где сколько приводить.
>>749949 Так ведь можно же без экстрас векторайзить дата банк. Это же тоже оно, судя по документации, или я что-то не так понял? Единственное, контекст оно жрёт при каждой генерации, а ответы все равно не очень. Может нужно как-то подготавливать эти данные и сортировать их. Не знаю.
>>751180 Векторизация силами самой таверны у меня не заработала, ебучая JS реализация, левые api для этого я юзать не хочу. Применил самый оптимальный(для меня, так как еще виспер подрубаю через экстрас) и точно работающий вариант, может быть есть "более оптимальный", но я пока такого не знаю.