В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества. Так же террористы выпустили LLaMA 2, которая по тестам ебёт все файнтюны прошлой лламы и местами СhatGPT. Ждём выкладывания LLaMA 2 в размере 30B, которую мордолицые зажали.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в случае Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит, квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас в полгига-гиг.
Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в gguf формате. Например вот эту https://huggingface.co/TheBloke/MythoMix-L2-13B-GGUF/blob/main/mythomix-l2-13b.Q5_K_M.gguf Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Инструменты для запуска: https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инструкция по работе с ним выше. https://github.com/oobabooga/text-generation-webui/blob/main/docs/LLaMA-model.md ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ. Самую большую скорость даёт ExLlama, на 7B можно получить литерали 100+ токенов в секунду.
Факультатив: https://rentry.co/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
Потсоны, на Озон-глобал/Али предлагаются nvidia p40 24gb за 200$. Как оцениваете риски приобретения такого?
С одной стороны, топ кража по gb/$, ничего и рядом не стояло. С другой стороны, это Паскаль, который пережил все волны майнинга, какие были. Т.е. китайцы ебали его майнингом 6 лет, периодически продавая более бедным китайцам, чтобы те продолжили ебать его манингом.
Платить за такое более чем ссыкотно. Хочется и колется, короче. Ваши мнения?
>>489146 Ну слушай, я уже писал. P104-100 (GTX1070) выдавал 2 токена сек на 7Б модели. P40 мощнее во сколько раз? В 2? Ну, ты понял, к чему я. Толку от памяти, если архитектура не затащит. Нужно тестить минимум RTX 20xx, а лучше 30xx.
ИМХО, покупай-тестируй-сообщай.
Далее, Озон Глобал — типа, гарантия, какая-никакая, но видяхи и сам понимаешь, работали, не в коробках лежали.
>>489217 Обычно всё таки качают модели, из лор я знаю только llamarp, хорошо подходит для анценза всяких соевых моделей типа чата и приведения формата промта в один вид. >>489218 > а в уме 13B я сомневаюсь Возьми да скачай, ссылка в шапке.
Kimiko, limarp и SuperCOT обычно уже встроены во многие модели, которые не стандартные. Первые две отдельно помогают расшевелить модель, если она соевая и не говорливая. Третью я пробовал пару раз включать, но часто нарывался на галюны всякие.
>>489222 Во-от! Разрыв огромный в сравнении с первым поколением. Конечно, памяти гораздо меньше, чем в p40, но тут уж нужно как-то выкручиваться. Три 40HX = 1 P40 по памяти и ~8-10 раз быстрее. Ну так, по прикидкам. А стоят всего в полтора раза дороже.
>>489146 С другой стороны, вишь оно как. 24 гига сами по себе не очень полезны. Тут или 48+, чтобы 70Б гонять, либо 12~16, чтобы 13Б гонять. Две P40, я боюсь, будут очень медленными для 70Б (вряд ли быстрее проца, если честно). А тех же 40HX нужно уже 5-6 штук. =) Хотя там скорость будет уже адекватная, подозреваю.
Короче, лично я пока не смог определиться, какой майнинг за какие деньги брать, шо б сэкономить и 70Б запускать. А 13Б и на 3060 можно погонять без проблем.
>>489311 Ей сто лет в обед, разве нет? >>489141 (OP) Зачем ее вообще упоминали в шапке? :) Почему не мифомакс, не мифалион, не млевд?
>>489353 С чего бы? Там не нужен коннект между картами, давно уже выяснили. >>489360 >Питать ты их как будешь? Два блока питания не Бог весть какая сложность. >Не говоря уже про мать, корпус и охлаждение. Ну вот у меня есть серверная с 3х16. Охладу да, пизда, хоть мудянку прикручивай. Корпус колхоз.
>>489415 Я помню, что слои обрабатываются последовательно, поэтому по сути скорость ограничивается самой тыквенной картонкой. Но влияния шины PCI-E выявлено не было, хоть в х1 втыкай.
>>489422 > влияния шины PCI-E выявлено не было, хоть в х1 втыкай Вот я и говорю жопой следил. На х16 минимальные потери - 5-10%. Т.к. 4 карты ты сможешь в лучшем случае в х4 повтыкать, то у ЦП соснёшь 146%.
Не знал, что такое истинная графомания, до того как начал дрочить на локальные модели. Это пиздос. Я в своё время читал 7дл и не подавился, потом прочитал ЛМР и истратил тысячи, если не десятки тысяч символов в спорах по поводу графомании в ней, доказывая, что воды там не так много, как многие стенают.
И вот сейчас я рпшусь с локальной моделью и ещё больше понимаю, что эти люди блять не видели настоящей графомании. Риточка - это просто король лаконичности, просто, сука, Эрнест Хемингуэй по сравнению с тем, что я щас читаю. Эти предложения в 20 слов длиной. Эти бесконечные присказки про молодую ночь, про "let's see where this leads us", про путешествия, про хуйню, малафью. Бесконечные ряды бессмысленных уточнений и эпитетов, абсолютно пустых нахуй, дающих сюжету 0 смысла, 0, просто блять жидкий вакуум, ведро компрессии, которое просто занимает место у меня на экране. И ладно бы оно двигало сюжет при этом, но чаще всего мне просто кидают в ебало стену воды про то, каким охуительно глубоким взором на меня смотрит персонаж, и всё.
Это просто ужас, я чувствую, что скоро сбегу обратно в Коикацу аутировать. Там хоть и 2,5 карты, но по крайней мере мне не ебут мозг 24/7 всратой графоманией про "дорогу под названием жизнь", про "томительное ожидание того, что нам уготовлено в будущем" и прочей хуйнёй.
>>489413 Есть удлинители для pci, можно из корпуса достать видюхи рядом положить. Имей ввиду что майнинговые видюхи имеют очень медленный pci, pcie x4 v1.1. Можно доколхозить до x16 пропайкой конденсаторов но возится с этим нужно. А чем больше модель тем я так понимаю больше обмена между кусками интерфейс может стать узким местом. Я точно не знаю сколько там нужно но предполагаю.
>>489353 Зачем? Там же все крутится на ядре+памяти, между видяхами передается минимум инфы. Мы же не увеличиваем скорость относительно одной карты за счет параллельной работы ядер. =) Мы увеличиваем скорости за счет пропускной способности от ядра к памяти относительно процессора.
>>489435 Ты какую-то дичь несешь. Какие минимальные потери на х16, относительно чего? А какие потери на х4 относительно чего? Что за неоконченная фантазия? :) Хоть ссылку кинь.
>>489509 Пока не стало, кроме челика выше, у которого потери относительно его фантазий происходят.
>>489587 У тебя слои модели лежат вперемешку между двумя видяхами, и один слой обрабатывается сразу двумя ядрами? :) И кто из нас шиз после этого? Пруфы будут, или сплошной пиздеж? Люди в тредах меряли несколько раз, в том числе я. Че-то шина нихуя не влияет на работу, ибо информации между слоями передается не так много, как тебе бы хотелось. Имея две видяхи, проверить просто. Запускаешь мониторинг, открываешь графу загрузки Bus Interface Load и смотришь, ВО ВРЕМЯ обработки промпта, сколько там будет. По твоим словам — стучаться в сотку должно. У меня два месяца назад — нихуя не поднималось вообще. Если ты говоришь, что алгоритмы обновили — оке, предоставь хоть какие-нибудь пруфы, а не пизди. Сорян, мне лень сейчас видяхи перетыкивать ради теста.
>>489587 Чтобы не пиздеть впустую, нагуглил, что пишет разраб ExLlama: …The GPUs don't actually cooperate during inference. The first GPU just does what it can with the weights it's storing, then it passes the hidden state on to the next GPU… https://github.com/turboderp/exllama/discussions/16#discussioncomment-6245573 Ну и там подробнее о передаваемых данных. Килобайты в секунду.
Не смог нагуглить, изменилось ли что-то с 21 июня или нет, есть ли параллельная обработка в ExLlamav2 или не завезли.
>>489595 > Пруфы будут Держи из ExLlama. Количество передаваемых данных между слоями - контекст * hidden_size. hidden_size в конфиге модели можешь посмотреть для разных размеров. На пустом контексте конечно не будет никаких просадок, но оверхед будет расти с увеличением контекста. >>489624 > 16 kB you're transmitting over the PCIe bus, once per token А теперь умножь на 4096, например. И посчитай сколько на x1 это займёт.
Смотрю карты на чубе и 99% - это натуральный пикрил. Может быть оно и работает на более продвинутых нейронках вроде гопоты или клода, которые понимают с полуслова, но для ламы приходится переделывать, или еще проще - сделать с нуля. Пиздос.
>>489816 Лучшие карточки что я видел - это когда копируешь из гугла первое попавшееся описание персонажа на ~500 токенов и так же гуглишь реплику в цитатниках аниме/манги. Всегда отработает лучше чем карточка сделанная шизом.
>>489141 (OP) Выбор модели в шапку странный, но лучше так чем как раньше. >>489093 → > фалкон наверно лучший из них. Он дно, ллама70 сильно лучше. Возможно файнтюны смогут подтянуть, но базовая модель слаба. Остальное - полнейшая печаль, которую аутперформит 13б. >>489146 Если судить по ее производительности в дифуззии - перфоманс будет на уровне 4-5 т/с с 13б модели. Если оценивать чисто по псп рам - должна в пару раз ебать 3060@12. Гугли бенчмарки в ллм, есть призначный шанс что это самый доступный способ получить в 70б скорость генерации сравнимую или опережающую скорость чтения. > ебать его манингом Кмк тут приплетаешь зря, все теслы заведомо ебали расчетами без исключений. >>489218 Тестируй 13б, некоторые из них превосходят ожидания. Или наращивай мощности для 70б, они могут удивить. >>489342 > ~8-10 раз быстрее Не так давно все топили что важна только псп (в)рам а вычислительная мощь - ничто, у p40 почти 700гб/с.
>>489825 >и так же гуглишь реплику в цитатниках аниме/манги Я сабы построчно переносил, лол. >>489852 Русег/ограничение числа токенов в настройках. >>489882 >Выбор модели в шапку странный, но лучше так чем как раньше. Все так пишут, но их там много, дело вкуса короче. >>489882 >Кмк тут приплетаешь зря, все теслы заведомо ебали расчетами без исключений. Новая 4090 с магазина скорее всего девственна.
>>489348 Чтобы в теории (!) объединить их вычислительную мощность нужен нвлинк и правильный софт. Если объединять с имеющимся подходом - будет складываться только память, скорость обработки на 70б будет всеравно что одной 4060ти с большой врам минус проценты штрафа за пересыл, и такой зоопарк не нужен. Алсо хватит трех. >>489353 >>489435 Для текущей реализации объединения экслламой нвлинк и ширина шины практически не роляют, разницы между х16+х4 и х8+х8 нет и скорость почти линейно скейлится относительно размера. В llamacpp с половиной слоев на карточке и другой половиной на проце с х16 и х4 отличия в скорости процентов 5-10. >>489474 > Бесконечные ряды бессмысленных уточнений и эпитетов, абсолютно пустых нахуй Такая модель или инструкция "писать больше любой ценой". >>489825 Как ни странно - даже копипаста с офф/фан вики работает нормально. Суть в простом и лаконичном описании без конструкций с двойным отрицанием, сложных зависимых оборотов и т.д. Шизы часто делают карточку нейронкой где графомании больше содержания или ради художественности задействован сложный лексикон, что сказывается.
>>489888 >Русег/ограничение числа токенов в настройках. Имеется ввиду количество токенов рядом с именем персонажа? Оно не корректируется. Пробовал настроить в коболде, не дало результат.
>>489892 >скорость обработки на 70б будет всеравно что одной 4060ти с большой врам Ну так а что ещё надо то? Если там будет хотя бы 10т/с, то это уже переводит 70B из разряда "Долго и скучно" в разряд "вполне себе юзабельно". Сейчас на проце с разгрузкой на карту десятка слоёв лишний раз не пороллишь.
>>489887 > Какие лучше? Мифомакс больше хвалили когда те вышли, а так млевд из легковесных кумерских лучше. >>489888 > дело вкуса короче. Да, и так норм, точно лучше странного замес со старым визардом 1-й лламы 30б (которая заведомо или 24 гига врам или медленно) что был указан. > Новая 4090 с магазина скорее всего девственна. И стоит в 7 раз дороже. >>489852 В настройках таверны или бэка ограничение токенов в ответе. Алсо с какой это моделью на русском рпшишь? Silly tavern рекомендуется относительно оригинальной, больше возможностей и настроек.
>>489895 > Если там будет хотя бы 10т/с На паре 4090 15-17 а с полностью забитой контекстом врам на грани оома (10-16к в зависимости от кванта) как раз десятка, правда на первой экслламе. Тут 5 если будет уже радоваться надо. Бенчмарки 4060ти в ллм уже есть? Если да то можешь линейно отскейлить на число параметров, вот теоретический максимум.
>>489882 > Не так давно все топили что важна только псп … Я так топил до покупки 1070, ага. =) Видимо, тонкости архитектуры, хз. Но может быть мне не повезло, а щас уже норм. Так что на тесты бы я посмотрел, но покупать, конечно, не буду.
>>489892 > вычислительную мощность Так никто и не объединяет вычислительную мощь, объединяют видеопамять, чтобы раскидать модель по разным карточкам. =) Не понимаю, что у нас седня с вечерним чатом, все нвлинк стали пихать куда-то, где его поддержка не реализована. Я не против того, что хорошо объединить вычислительную мощь. Но пока что этого у нас нигде не видно, не слышал про такие реализации, да и у видеокарт эта фича исчезает уже потихоньку. >llamacpp с половиной слоев на карточке Сосет в принципе из-за проца. Вообще, вся суть в том, чтобы сэкономить деньги за видеопамять. При этом, скорость будет представлять из себя среднее между скоростями всех видях и минус на пересылку и говнокод. Я игрался с разными дуэтами, каждый раз скорость плюс-минус соответствовала расчетной. Короче, исходя из этого, брать слабые видяхи с большой памятью нет смысла — упор будет в ядро и технологии, как и брать сильные с малым объемом — упор будет в размер памяти. Так и считаем. Но тут надо, чтобы кто-то потестил P40. Если вдруг там скорость действительно будет нормальной — возьму две не глядя.
>>489895 Да 5 уже будет бомба для такой видяхи, кмк.
>>489962 > content size в 2 раза Тебе нужно менять Amount of generation, а контекст упрощенно говоря - размер истории, будет мало будут тупые ответы, превысишь то что выставлено в модели - все поломается. >>489975 > Перейди всё таки на силли Чаю этому господину
>>489993 Не использовать рп-кал вместо моделей. И обязательно убери из дефолтного шаблона "2 paragraphs", какой-то конченый дегенерат это вписал туда, оно никогда не работает нормально с рп-моделями.
>>490005 Ну вообще там MLewd. Дохуя пиздос? Если пиздос что вместо использовать чтобы было хорошо? > бери из дефолтного шаблона "2 paragraphs" Это где откручивать? У меня лапки...
>>489993 Если ролплей пресет то дефолтный "2 paragraphs" замени на "short/medium length" и подрежь "художественность". Вариант подкинуть менее шизанутую модель, но тот же млевд можно вполне заставить работать нормально. >>490005 А что использовать?
Аноний, стоит ли мне продать свою 3070, доплатить рублей 20 и взять 4060 ti 16, чтоб комфортней было чатиться? Какие еще есть варианты? По процу не понимаю, но у меня Ryzen 7 3600x и всего 16 гб. оперативы, может в этом направлении смотреть?
>>490030 Если там у тебя уже пара десятков длинных сообщений в чате, или того хуже уже лупы пошли, то срулить с этого будет уже крайне сложно, надо новый чат так начинать. Вообще ответы не то чтобы сильно длинные, на вскидку 300токенов что вполне золотая середина. Алсо что за модель? Попробуй спайсиборос, его старшая версия по тесту себя бомбически показала, может в разный рп, плюс виртуозный отыгрыш тизинг-муд с хитрым характером, экшном и плавным подходом к куму. Пресет ролплей, хоть у него дефолтный формат отличается, ответы все средней длины.
>>490038 > на вскидку 300токенов что вполне золотая середина Знаешь, на чистой огабоге я на этой карточке персонажа и 50 токенов далеко не всегда видел. А тут что не ответ так целый параграф. А ты говоришь мол 300 середина и нормально, эц только для таверны, видимо.
> Алсо что за модель? Undi95/MLewd-L2-13B-v2-1-GGUF
>>490048 > Пикрелейт оно? Нет, это экспериментальная версия на основе кодламмы, по отзывам они мэх, но можешь сам убедиться. 13б затрай, или 70 если можешь. > на чистой огабоге я на этой карточке персонажа и 50 токенов далеко не всегда видел Промт формат неверный выбрал просто, некоторые модели к этому особенно привередливы. 300 примерно оптимально потому что достаточно чтобы описать действия-окружение, дать реплику и продвинуть повествование. Но при этом без лишней графомании, далекого увода, быстрой реализации или скипа действий которые бы ты сам хотел, и к лупам не склонно. Офк по ситуации, если ожидается короткий вопрос/реплика то хватит и 50 а остальное будет нейрошизой, и наоборот в нужные моменты можно и 800+ иметь.
Пиздос, трачу на эксперименты с промптами больше времени, чем на сам кум. Ну да ладно, хотя бы поделюсь тем, что понял.
Самая главная проблема, которую я пытаюсь решить - это слишком однообразная речь персонажей (когда нет примеров диалога) и нежелание модели следовать инструкциям. С одной стороны, не считая случайной шизы, модель не теряет контекст. Если в информации о персонаже в самом начале указан какой-то факт, то он не потеряется. Но с другой стороны, чем ближе к началу контекста, тем меньше информация влияет на ответ, особенно если идет вразрез с тем, что думает сама модель. Например, ради опыта можно попытаться заставить школьницу говорить на старомодном языке. Если эта информация прописана где-то начале промпта, то она полностью проигнорируется, даже если находится в ### Instruction блоке! Если она в конце промпта - проигнорируется процентов на 80. Единственный рабочий способ - это засунуть в ### Instruction блок, а сам блок поместить в самом конце промпта, перед ответом. При этом, как я уже сказал, разные факты и информация о персонаже в целом как правило не игнорируется (если не идут вразрез с пониманием модели).
В общем, ### Instruction должен быть перед самым ответом, и в него можно пихать инструкции, которые модель упорно игнорирует. >>490005 >Не использовать рп-кал вместо моделей. Проблема навыка десу. Любую модель можно заставить писать ответы любой длины. >>489825 Можешь скинуть пример карточки? Буду благодарен.
>>490314 Но ведь ему хватит под 30b модели, разве нет? Я тоже подумывал над 3090 и так же задавал вот этот вопрос >>490024. Я действительно не знаю, будет ли обмен 3070 на 4060 с 16 гб шило на мыло и будет ли 3090 стоить своих денег.
>>490310 Всю карточку вставлять никуда не надо, но некоторые части придется вставить в Last Output Sequence, например как на пикриле про speaks casually. Да, придется постоянно менять для каждого персонажа, но что поделать.
>>490324 Ну я руководствуюсь тем, что все таки самая дешевая 4060 стоит порядка 55000, так бы я мог продать свою 3070 за 25000, к примеру, и добавить тридцатку. А это уже не 55, согласись. Опять же, что мне дадут 2 карты общей памятью 24 гб, если тут отговаривают от покупки 3090? Для Stable Diffusion вполне хватит 16 гб пока, а вот что касаемо LLM тут для меня темный лес еще. Как я понял, все наяривают на 70b, 30b почему то игнорятся, а все прочие презираются.
>>490303 > чем ближе к началу контекста, тем меньше информация влияет на ответ Все правильно, недавние события в приоритете > можно попытаться заставить школьницу говорить на старомодном языке > Если эта информация прописана где-то начале промпта Офк она будет игнориться, потому что уже есть примеры ее реплик с вполне обычным или минимально измененным стилем. Если же начинать чат с такой штукой - оно сразу повлияет на ответы, а далее они уже будут наоборот согласованы с инструкцией и модель даже просто по ним сможет сориентироваться как строить фразы. > ### Instruction должен быть перед самым ответом Если в нем указаны действительно доп интсрукции то все так. Главное чтобы не было конфликта с инструкцией, которая в начале/середине, иначе качество упадет. >>490309 Однозначно >>490325 Вот этот пример должен быть хорош, можно еще с input/response можно поиграться. >>490327 > если тут отговаривают от покупки 3090 Кто, где? Несравнимо лучше 4060 с оговоркой что горячая некрота, получить даунгрейд перфоманса относительно 3070 это вообще сильно будет. > 30b почему то игнорятся Их нет для лламы2, обещали уже давно.
>>490362 >получить даунгрейд перфоманса относительно 3070 это вообще сильно будет. Ну почему даунгрейд? В тестах они вроде одинаково себя показывают, считай за лишние 8 гб памяти доплачиваешь.
>>490362 >получить даунгрейд перфоманса относительно 3070 это вообще сильно будет. Ну почему даунгрейд? В тестах они вроде одинаково себя показывают, считай за лишние 8 гб памяти доплачиваешь.
>>490476 Специализированную - дипл или гугл. Обычные текстовые генераторы не могут в стабильную структуру и консистенцию, даже уровня гпт4 и клауди-2, а этот ламаконч и подавно. Проходи мимо, это тред для пердолек, которые сжигая комплюхтеры пытаются получить результаты пятилетней давности.
>>490476 Никакую. По моему опыту скажу, что модели начинают придумывать слова. Тебе нужен АПИ переводчика - Яндекс, Азур и т.д. Эти двое хорошо переводят.
>>490309 Если есть возможность — почему нет? SDXL хорошая модель, а жрет много врама. Ну и 13Б высокого кванта с контекстом.
>>490327 30б игнорятся потому что они тупые, ибо ллама1, немного умнее 13б ллама2. Все сидят на 13б, только немного богатеньких на 70б. =) Для стаблы должно хватить, и для 13б норм. Но 4060+3070 звучит как одна 3090, только потребление будет выше, как я понимаю, и скорость ниже. Да, дешевле, конечно. Но ты мой ответ видел.
>>490476 LibreTranslate из локального софта, но качества местами хромает. 70Б лламу, если хочешь покачественнее и локально, но медленнее (десятки минут против секунд). Ето шо я знаю. Гугл и Яндекс переводит однозначно пизже, но это облака. Но лучше их нема.
>>490303 >нежелание модели следовать инструкциям Пробовал Autor's notes? Вроде как раз для этого создано, там можно настроить где и как часто введённый кусок промпта будет вставляться в основной промпт. Я так пробовал продублировать инструкции из карточки, и тогда модель лучше следовала правилам.
>>490396 В играх и некоторых бенчмарках (не нейронки) 4060 всирает 3070 из-за шины памяти, доплачивать х2 ради прибавки 8 гигов врам даже при том же перфомансе - пиздец же. >>490476 OpenBuddy70 и инструкцию для перевода. >>490533 > Да, дешевле, конечно. Технически это стоит +- столько же что и 3090+3070, но ампер это бу с рук.
>>490657 Я боюсь брать 3090 с рук. Вон обьявы на авито за полтинник даже. При этом пишут, что она новая, а на фото пылищи, что видно, что года два где то крутилась.
>>490148 Ну таки попробовал. Честно говоря от MLewd сильно отличий не ощутил. Графоманит так же как предыдущая модель, рероллить ответы тоже часто приходится. В общем волшебства как то не нашел Модель как модель в общем то.
>>490362 >Офк она будет игнориться, потому что уже есть примеры ее реплик с вполне обычным или минимально измененным стилем. Если же начинать чат с такой штукой - оно сразу повлияет на ответы У меня игнорило начиная с первого сообщения. То есть не совсем игнорило, но такого эффекта как от инструкции не было. >Главное чтобы не было конфликта с инструкцией, которая в начале/середине, иначе качество упадет. Модель понимает несколько инструкций? Надо попробовать. >>490362 >Вот этот пример должен быть хорош, можно еще с input/response можно поиграться. Это как раз я игрался с input/response. Эффекта вроде нет, так что можно убрать, оставив одну пару instruction/response в самом конце. >>490586 >Пробовал Autor's notes? Пробовал. Как уже писал - оно влияет, особенно если находится в самом конце, но не так сильно, как то что под инструкцией.
>>490831 В тебя на пикрел вроде нормальный кумерский пост. Движение, описание действий и внешности с фокусом на персонажа, реплики, без повторений и нормальный уровень графомании, в отличии от спама слабосвязанных реплик в прошлом посте. Чего именно ты ожидаешь, просто коротких ответов? Обычно наоборот хороших сложных добиться сложнее. В таком случае тебе пигма зайдет, у нее и пикрел имперсонейты очень крутые первая модель, которая лупится в них, из графомании только блашез слайтли. И даже неожиданная реплика не выбьет ее из колеи! >>490896 > То есть не совсем игнорило, но такого эффекта как от инструкции не было. Именно короткие? А что за модель и карточка? Надо потестить, обычно даже просто параграфами соображает, пару тредов назад с карточкой аквы рофлил, там для длинного ответа указано 10 параграфов в дефолтном шаблоне а для короткого 1. > Модель понимает несколько инструкций? Хз, по дефолту там шаблон с одной и как будет воспринято несколько хз. Или обще сработают, или рассеет внимание создавая затупы, или наоборот воспримет респонз в контексте как ее выполнение и попытается сделать также, с рандомным результатом.
>>490966 > вроде нормальный Это рубрика "ВРАЩАЙТЕ БАРАБАН" в поисках нормального ответа, тащемта. > Чего именно ты ожидаешь, просто коротких ответов? А чего можно ожидать? Как намекал выше - только снижение числа рероллов и общего уровня логических ошибок. Но это к более старшим моделям, а они, сцуко, жырне. > пигма Эх, а я ведь с неё начинал, еще когда 2070 была только. Там вроде должны были пигму еще больше улучшить за это время?
Короче, сегодня наконец настроил все: и перевод через либру, и промпт руками переписал, и карточку персонажа, и фоточки сгенеренные в стабле диффужн покидал персонажу и попросил ее выбрать, где она больше похожа на себя, и пообщался. Дельные мысли дает (да, внезапно я не для кума этого персонажа настроил), общается норм, текста многовато, но это промпт подредачить. Как же кайфово, теперь хочу 70Б на видяхе, а не вот это вот 13Б. Как цель —накопить бабла на норм железо, да еще с запасом, мб. Чтобы будущие модельки 180Б какие-нибудь в 2,55 норм помещались. )
>>490980 А ну если это черрипик из свайпов то не удивительно. > только снижение числа рероллов и общего уровня логических ошибок. Но это к более старшим моделям Позже попробую сравнить версии спайсобороса в одинаковых условиях, если нюансов файнтюна что могли всрать тринашку нет, то можно будет вывод сделать. > Там вроде должны были пигму еще больше улучшить за это время? Ну вот улучшили, вообще если с ней пытаться в нормальный диалог, а не спамить имперсонейт в который она не умеет вообще, то не так ужасна и даже сообразительна. Еще плюсом что экономит контекст, лол.
>>490966 >Именно короткие? Я тестирую на четких коротких инструкциях, которые ну обязательно должны выполняться и которые легко проверить на выполнение. Например, {{char}} speaks in a an old-fashioned and formal manner или {{char}} starts each reply with "fuck yeah". Если поместить это под instruction в самом конце контекста, то модель поменяет речь персонажа вопреки всему, что было до этого. Если поместить в author's note, то не будет вообще ничего. author's note работает только если нет контекста, или то что ты там пишешь ему не противоречит. Например, ты можешь использовать author's note для уточнения где находятся персонажи и что на них надето, для снижения шизы модели.
>А что за модель и карточка? Модель https://huggingface.co/Undi95/ReMM-v2-L2-13B-GGUF 8 бит, карточки разные. >>490966 >>490990 Забыл еще добавить что author's note даже без контекста работает больше как уточнение, а не как инструкция. То есть оно снижает шизу модели, но не гарантирует выполнение.
>>490990 А что именно ты пишешь в авторских заметках и где размещаешь? Если просто так то оно может вообще к одному из сообщений приклеиться, посмотри что именно отсылает таверна. Плюс, содержимое, если там будет ### input/instruction отделенное ньюлайном, то точно будет воспринято. > {{char}} speaks in a an old-fashioned and formal manner или {{char}} starts each reply with "fuck yeah" Системный промт идет перед карточкой, которая может это "перезаписать". Алсо, посмотри на речь >>490966 там всего лишь в карточке стоит > Speech Pattern: {{char}} speaks in a onee-san style, frequently using phrases such as 'Ara ara~', 'Mou~', and more, which represent surprise or dismay in an endearingly feminine way. She also enjoys calling {{user}} cutie. что даже самые тупые модели понимают и часто даже злоупотребляют как здесь, те что поумнее уже при длинных фразах выбирают правильное построение предложений и речь. Наоборот, в карточке депрессивного персонажа из "прошлой эпохи" реплики более чем соответствуют образу, а то еще ультит вышедшими из употребления словами, за которыми в переводчик лезть приходится. Потому и удивляет что такие простые вещи у тебя срабатывают неустойчиво.
>>491011 Довольно забавно что у этого замеса рекомендуется пигмаподобный промт, но учитывая состав и такое поймет. А чего стори стринг пустой, оно вообще карточку и примеры отправляет? Третий пункт к шизе не приводит случаем? Приветственный пост прямо платиновая графомания от нейронок, без осуждения если что
>>491020 Да я вообще не ебу что за Story string это. Просто повыкидывал все говно что по моему мнению в шизу катало нейронку..... Ответы заебатые. Но до этого я кучу раз ебался и вот щас работает не трогаю. По поводу третьего пункта, да знаешь как бы нет. У нее просто одновременно и желание сделать то самое и не делать. Там просто стараешься подкатывать к ней нормально тогда она и не против. Короче тебе самому надо пробовать если интересно. Инструкция есть в той же карточке я только добавил пункты 6 и 7 вроде и перевел ток инструкцию в ANote. Ибо нейронка очень хорни. Прямо сильно, да и карточка сама как видишь тоже. ДА и инструкция хорни тоже че же за напасть то.... Ну по мне ответ прям не хуже клавы. Хотя на клаве я мог и с 4 персами участвовать, тут такого нет, ждем новых нейронок годнее.
>>490998 >А что именно ты пишешь в авторских заметках и где размещаешь? Размещаю в самом конце промпта. Что отсылает вижу через консоль - никаких ошибок нет. >Плюс, содержимое, если там будет ### input/instruction отделенное ньюлайном, то точно будет воспринято. Проверил - не воспринимает. В финальном промпте два блока ### Instruction один под другим, и первый игнорируется. Так что несколько ### Instruction, наверное, плохая идея. >что даже самые тупые модели понимают и часто даже злоупотребляют как здесь Да тут все понятно - указания не противоречат тому, что думает модель. Я у одного персонажа прописал, что он постоянно называет юзера сенсей, и модель сразу подхватила. Но вот заставить тянку говорить в более разговорном стиле не имея при этом кучи примеров диалога без инструкции невозможно. Аналогично когда модель ошибочно думает что тян не девственница. Она делает такой вывод из ее поведения, игнорируя что ты прямым текстом написал обратное. Это чинится только помещением информации непосредственно под instruction в конце промпта. Вот этот >>491004 вот author's note я бы тоже рекоммендовал запихнуть под instruction, хотя не знаю как модель отреагирует на такую длинную инструкцию.
Вообще, пока остановился на таком промпте:
Below is a roleplay between {{user}} and {{char}}.
### Instruction: Write the next reply as {{char}} in this roleplay with {{user}}. Describe all actions in full, elaborate, explicit, graphic, and vivid detail. [Инструкции по речи, поведению, и всему прочему]
>>491045 >не засунешь. Там ограничение стоит, влезет едва ли треть инструкции. Там 2000 символов стоит. Если мало, то можешь увеличить maxlength у instruct_last_output_sequence в public/index.html.
>>491032 > Да я вообще не ебу что за Story string это Да вроде как это и есть основной промт, где ссылки на карточку, персону и т.д., как будет работать с пустым но со включенным инстрактом хз. > самому надо пробовать если интересно Скорее интересно как именно здесь работает и понять принципы. По той же причине большей частью сижу на ролплей пресете с минимальными правками, более чем устраивает. Надо вообще сделать правильный - совместимый с airoboros формат, который часто используется, но оно даже в чат режиме хорошо работает так что и пофиг. А вот визарда настроить в таверне чтобы работал также хорошо как и через симпл прокси не получилось, необходимо воспроизвести довольно большой промт и его структуру, надо заниматься. > Прямо сильно Чего от кумерского микса ожидаешь. >>491043 > В финальном промпте два блока ### Instruction один под другим, и первый игнорируется. В этом случае будет тупить, да, изначально юзалось костылем еще до введения полноценных настроек инстракт режима в таверне. > Но вот заставить тянку говорить в более разговорном стиле не имея при этом кучи примеров диалога без инструкции невозможно. Этого не догоняю, должно быть оче просто если далее нет противоречий, причем хватает подписи в карточке. На Акве потестил, работает, если в инструкции жестко не забито а только в карточке - можно менять по ходу через ooc. А вот всякие механики, доп фичи и прочее для правильной работы обязательно должны вписываться дополнительной инструкцией прямо перед ответом даже для умной гопоты и даже так игнорятся турбой. > Она делает такой вывод из ее поведения Вот в этом, пожалуй, корень многих проблем, особенно в сочетании с неподходящим форматом промта. Тогда вместо магии, когда по косвенным признакам модель понимает твои предпочтения и восхитительно их предподносит или двигает сюжет по желаемой линии без единого OOC, она шизит от спгс и еще мечется туда сюда, видя неоднозначный ответ. Промт визуально базированный правильный, именно что-то такое из под прокси шло когда все хвалили.
>>491085 >Этого не догоняю, должно быть оче просто если далее нет противоречий, причем хватает подписи в карточке. Если нет противоречий, то будет выполнять намного более охотно, но именно поэтому я и тестирую с противоречиями.
Самое главное о чем я забыл написать - основная проблема как правило не в начале чата, а в конце, через много десятков сообщений. Если модель начала в какой-то момент лажать, то эта лажа нарастает снежным комом и не пофиксится до полного ресета чата. Так может сбиться стиль речи и случится вообще все что угодно. Проблемы с повторением одних и тех же фраз идут оттуда же. Так что важно иметь возможность дать указания, которые бы пересилили весь предыдущий контекст, или корректировали его по мере нарастания лажи.
>>491097 Про курсед чат поддвачну. Еще заметил что лупы зависят от модели, точнее от того насколько она осведомлена в теме обсуждения, было ли подобное в тренировке, не лезет ли конфликт с соей и понимает ли вообще происходящее. QA модели сразу курвятся стоит их во взаимодействия погнать, старые ерп поделки взрываются когда затягиваешь взаимодействия (не еблю), новые сильно лучше но могут тупить не успевая переключаться. Чсх те что поумнее сами хорошо из лупов выходят, внимательно глянув истории удачных частов местами там встречаются пары сообщений чуть ли не половину совпадающих с небольшим развитием, но далее все ок без вмешательств, да так что при беглом чтении проскочившего косяка не замечаешь. Алсо силу вне_контекста зря недооцениваешь, иногда оно лучше всяких инструкций работает и лезть никуда не надо. Если же это не срабатывает - значит там совсем перплексити и нить утеряна, переключение моделей или радикальные меры только помогут.
>>491133 Кстати, а уменьшение контекста на некоторое время не могло бы помочь? То есть чтобы в контекст попали только сообщение пользователя и сама карточка персонажа
>>491097 Мда, самую главную проблему так и не решил. Модель до сих пор льет сою вроде responsible, consenting adults и прочего, что вообще напрочь убивает настроение. Никакие инструкции не помогают, точнее помогают но не на 100% - иногда все равно проскакивает. CFG тоже не всегда работает. Не нашел другого выхода, кроме как вырезать регуляркой. Буду добавлять все заебавшие соевые выражения, чтобы их автоматически убирало. >>491227 >Кстати, а уменьшение контекста на некоторое время не могло бы помочь? То есть чтобы в контекст попали только сообщение пользователя и сама карточка персонажа Да, но ты заебешься постоянно менять.
Это опять я >>490024 У моей мамки нет, оказывается, второго слота. Поэтому просто придется менять карту. Я теперь еще начал смотреть в сторону 4070, поскольку она оказалась лишь немного дороже 4060 ti. И вроде как не даунгрейд уже, на что упирал анон, если бы не одно но - 12 гб, а не 16. Развейте мои сомнения уже в ту или иную сторону, плез, а то у меня башка взорвется! Все таки 3090 слишком дорого на данный момент. Есть еще риск, что она не влезет попросту + нужен новый бп к ней.
>>491269 Давай решайся, заебал. Посмотри в сторону 3060бу 12 гб. Мне кажется неплохо и недорого. У меня всего 20к. Итого 20. А потом может цены упадут возьмешь 4090. Мимотоже3070ти
>>491269 У меня 4070 ti с 12 гигами, скорость норм, объем врама впритык, рекомендую брать больше. Нет второго слота? А маленький есть? Райзер и выноси видяху наружу куда-нить. Скорость шины нахуй не всралась. Даже на v1.1 1х не особо потери будут, а если у тебя v3.0 x1, то уж можно райзер получше поискать, хз. Не знаю модели конкретной.
>>491346 То есть мне надо найти райзер x4 - x16 и врубить туда 3060? Но куда ее девать, вот вопрос, я даже не уверен, что ей хватит места внутри корпуса между 3070 и бп.
>>491359 Да, один из вариантов. Можно просто 4 на 4, они обычно с пропилами идут (или самому разрез пропились, там сложно обосраться, но если и обосрёшься, то засрёшь только райзер).
>>491227 Хз, скорее всего наоборот хуже станет, потому что исчезнут понятные сообщения и то как к этому пришли, ситуация станет еще более непонятной а вместо нормальных примеров реплик только поломанные. Вот наоборот увеличение или суммаризация могут помочь. >>491262 Что на ней делаешь, какой формат используешь? >>491269 Подзатяни пояса до 4080 тогда уже, там и перфоманс и память. А то и всю пекарню продай и новый собери чтобы проблемы с платой, бп и длиной корпуса решить на корню. >>491337 Этого более чем хватит, проблема только в том что он без пропила и придется или искать х4 райзер или пилить х16.
Character Expressions в силли таверне работают из коробки или там надо с бубном танцевать чтобы заработало? Или какую нибудь волшебную и невидимую кнопку для включения нажать? А то вроде пиктчи с эмоциями загрузил, а нихуя нигде не показывается и не меняется.
>>491696 Ёбаный рот этого казино блядь, чтоб оно заработало (ну всмысле чтобы увидеть как оно работает) надо было ЕЩЕ СУКА РАЗ ткнуть на аватарку персонажа, чтобы уже развёрнутая картинка сменилась на другую блядь, охуеть приколы.
В общем вычитал, что райзеры на шлейфах использовать не рекомендуется, мол так и карту сжечь недолго, лучше использовать, которые подключаются через usb 3.0. А такие нашел только на x1. Что думаете?
>>491715 На заборе тоже много чего написано, но брать длинный дешевый шлейф из говно-кабелей как на некроинтерфейсах не стоит. То что ты нашел - майнерская тема, тебе нужен (более менее) фирменный экранированный, там под питание выделено достаточное сечение и не полезут ошибки интерфейса.
>>491715 Я уже говорил, шо не шарю в райзерах. У меня простой 1х майнерский, но руки поюзать так и не дошли, лул. Но советуют нормальный ставить — я согласен с этой идеей. И пропил в самом слоте сделать — норм идея, насколько я знаю. Просто подпорку под видяху. Или найти х4 нормальный. Но, давай начнем с того. Тебе хочется больше памяти, дешевле и чтобы работало? Ну вот, мы посоветовали, что смогли. Это реально рабочий вариант. А если ты не хочешь колхозить, то тут уж… =) Могу еще вспомнить кейс-переходник с видяхи на Type-C или Thunderbolt. Элитненько. Но если тебе не нравится, то рил уже советы лучше взять другую мать, взять другую видяху, взять сразу жирную видяху одну…
Ну, в рамках твоей материнки, ничего иного мы не придумаем. Или райзер/пропил, или внешка (сомнительная идея, хз), или жирная видева. Выбирай.
>>491737 7б - чекай Аюми рейтинг, но они глупые. 13 с оффлоадом влезет, тебе для чего нужна то? >>491826 > кейс-переходник с видяхи на Type-C или Thunderbolt В его материнке врядли такие технологии есть, и стоят эти переходники вместе с бп как уцененная 3060@12. При размещении в материнку двух карточек еще нужно чтобы охлаждение не перекрывало, райзер самое простое решение получится. >>491909 Нормально и подробно проблему распиши
>>490024 Посмотри в сторону AMD. У 6800 тоже 16, может дешевле будет, и smart access memory с процессором, но я не вникал, увеличится ли производительность от этого. У меня 6950 и i9-9900K, планирую на 5950X заменить. MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом. И памяти хотя бы 8 докинь, чтобы система не свопилась, но лучше больше.
Есть сейчас компилируемые интерфейсы для ролеплея? Кукольд на питоне написан, тавена вообще на ноде, из альтернатив только https://github.com/axim2/llm-ui , но там wxWidgets и все равно используется webView, под винду не получается собрать. Пока использую main, для реролла перезапускаю его, плюс на винде кэш больше 2 гигов не загружается, так что надо пересчета ждать, сижу вникаю почему fread не читает файл большими кусками. Хотя его можно лучше контролировать, останавливать в середине предложения или оставлять дописывать мои действия.
>>491985 > MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом Это не тот результат, которым стоит хвастаться и ставить в плюс, столько буквально можно на одном процессоре получить. Та же 4060-16 в экслламе 20-30+ токенов выдаст (наверно) не смотря на днищенскую мощь и узкую шину, а в других нейросетях тем более задоминирует амду. > Есть сейчас компилируемые интерфейсы для ролеплея? Чем имеющиеся не угодили, зачем нужна компиляция? >>492029 Все так. Как бы хотелось йоба карточку с рабочим шустрым pytorch, оптимизациями и 36-48 гигами врам по цене 4080, но здесь лишь пердолинг, низкий перфоманс и надежды что когда-нибудь сделают.
>>492033 О как, это eval time? Бенчмарков нормальных не нашел, на гитхабе в шапке пример на M2 ultra 16 выдает, думал, у меня неплохая скорость. На работе Alveo U250 есть, хочу на нее ламу портировать, но это не на один день.
>Чем имеющиеся не угодили, зачем нужна компиляция? Б-гомерзкостью. Сидят мужики, колдуют, выжимают алгоритмы, а их потом в язык для домохозяек заворачивают, неприятно таким пользоваться. Как электрон начал популярность набирать у меня подгорело, стал более разборчив в выборе софта. Ну и удобство, проще все-в-одном иметь, чем несколько сервисов и страницу в браузере, да вот не напишет никто.
>>492119 Можешь еще mirostat sampling включить, у меня он качество улучшил.
ВНЕЗАПНО, пока что лучшее из того что я пробовал (на 70б смотреть не надо, в 24+32 оно не влазить нормально) оказалась пигма2суперкот. Ответы получаются +- лаконичными и по делу + число реролов из за логических или фактологических ошибок меньше (на скрине на последнем их 5 тому как искал именно кумерский вариант), чем у всего остального. Плюсом нету графомании на несколько параграфов в одном ответе, как у всех остальных моделей, где первый параграф будет противоречить следующему.
>>492119 Оно прямо резко начинает тупить в момент наступления контекста, или плавно деградирует? Если первое то ограничения контекста в таверне приведи в соответствие и чекни в угабуге на странице параметров обрезку контекста чтобы тоже 4096 стояло если по старому апи подключаешься. Если второе - лупы, выше обсуждения читай, крути настройки семплера. >>492145 > это eval time Если про экслламу то все вместе. Если процом то нормальные токены в секунду офк при уже обработанном контексте, начальная обработка может сильно затянуть, но для нее любая видюха подойдет ускорять. > M2 ultra 16 У него 8(?) каналов памяти или типа того, неудивительно. > Б-гомерзкостью Все в одном - убабуга. Нет смысла в оптимизации и ради самого процесса, хочешь ускорять - займись улучшением кода имеющихся бэкэндов. Имеющиеся же интерфейсы никогда не станут ботлнеком по перфомансу а как раз их модульность и удобство написания позволяют легко переделывать, дорабатывать и пилить аддоны чтобы обеспечить богатый функционал.> да вот не напишет никто Потому что имеющийся подход является оптимальным и никто не хочет тратить кучу усилий ради пососного аналога, который не будет востребован. > Alveo U250 есть, хочу на нее ламу портировать Хм, а как оно тут может помочь? Даже интересно >>492176 > как на енглише то гуглить? В шапке. > не первый день тут Млевдборос попробуй, лол, или просто stheno. Тут вообще порядочные люди за целомудренный и увлекательный ролплей топят и >>492189 > airoboros-l2-70b-gpt4-1.4.1 Он нормальный у тебя? Это соевый и туповатый пиздец по первым оценкам был, версии начиная с двойки уже хороши.
>>492194 >Если про экслламу то все вместе. Не, про лламу обычную. Llama.cpp. тут я понял, что тред не о программе
>начальная обработка может сильно затянуть, но для нее любая видюха подойдет ускорять. Так наоборот, у меня sample time 192 в секунду, prompt eval time 22, sample(сама генерация) 4. Скорость может и выше получиться, чем скорость генерации, если правильно посчитать.
>У него 8(?) каналов памяти или типа того, неудивительно. И нейропроцессор, llama.cpp его использует. На mac studio Falcon на 180 миллиардов параметров 6 токенов в секунду выдает, аж захотел купить специально чтобы сети гонять, но быстро передумал.
>Потому что имеющийся подход является оптимальным Понимаю, но я самурай, у меня нет цели, только путь. Параллельно вникаю в консольное приложение, хочу туда допилить манипуляции с текстом. Есть еще Whisper для транскрибирования, если не знаешь, использую его иногда, результаты отличные. От того же самого мужика, 3 мегабайта компилированного кода и все, никакого питона с его зависимостями. Ну и память экономлю, изначально это все из-за нее началось, с дискорда в 2015-2016 и его полутора гигов. Больше проуманного софта на крестах, больше памяти под RAM-диски и кэширование файлов. Хотя ее у меня все равно уже 128, лол.
>Хм, а как оно тут может помочь? Оптимизацией вычислений, хотя конкретно для больших моделей надо думать, как их лучше обсчитывать. Сейчас перепроверил характеристики, наверно не сильно лучше серверных видеокарт будет. 33 INT8 TOPs, у A16 в 4 раза больше и меньше цена, и память GDDR6. Хотя nvidia те еще мудаки, сначала LHR запилили, теперь Tor на их сайте блокируют. Внутри 64Гб DDR4 и FPGA огромная, ее можно конфигурировать как хочешь и собирать любые блоки для вычислений. Идея сделать многозадачные блоки под каждый вид операции и конфигурировать их во время обработки, прогоняя модель по частям, но я пока даже с архитектурой трансформеров не начал разбираться. Может, упрусь в пропускную способность памяти и на этом все закончится.
>>492230 > тут я понял, что тред не о программе О модели, ее запуске и около того. В цпп будет помедленнее, оптимизация не та, но десяток+ наверняка наберется. > Скорость может и выше получиться, чем скорость генерации, если правильно посчитать Вут? Обычно измеряют время генерации финального результата включая и обработку контекста и семплирование. С гпу ускорением и длинным ответом первое мало влияет на конечные токены/секунду. > И нейропроцессор И видеоядро со всеми вычислительными блоками там же. Всеравно здесь важна псп рам и все в нее упрется даже так. > Есть еще Whisper И он, и синтез голоса, и даже диффузия к таверне прикручивается. Для полнейшего погружения можно эмоции персонажа транслировать на вр дрочильню, и прикрутить привод тенги. Вот это уже реально проект, который мы заслужили, а не все эти невротические расстройства. Пытаться в подобную оптимизацию фронта - что-то уровня разработки сверхвысокотехнологичной краски для принта на форме спортсменов. Она сможет сэкономить целый 0.1 грамм веса и точно сделает решающий вклад в победу! Рили, посчитай потенциальные затраты человекочасов на разработку, отладку и прочее и пойми что выгоднее будет закупиться алкашкой чтобы успокаивать нервы при использовании таверны. Офк для запуска на совсем нищесборках снизить жор памяти и в первую очередь отказаться от запуска браузера - может сыграть, но объективно тут для нормального запуска уже такие требования что память точно будет. > 64Гб DDR4 В это упрется. А вообще запилить на актуальных плисинах и пачке дешевой рам специализированный под ллм тпу - затея довольно интересная. Но нужно в этом крутиться, иначе выйдет дороже H100.
Аноны, пытался кто-нибудь запускать маленькие модели по типу distilbert, phi, tinystories? В убабуге они у меня не заивились ни одним загрузчиком. А медузу кто-нибудь пытался запустить?
>>492350 >Аноны, пытался кто-нибудь запускать маленькие модели по типу distilbert, phi, tinystories? В убабуге они у меня не заивились ни одним загрузчиком. phi, tinystories - запускал, работают. Первая неплохая, теперь много появляется моделей на базе нее. Вторая ну просто попугай повторяющий заученное. Так это и ожидаемо, там в серии вроде от 33м до 1м параметров, тем более гпт-2. Запускать как трансформер. Для phi флаг trust remote code
>>492322 >Сотни метров, а то и гигов. Ну и что это даст? У меня в фоне виндового говна на пяток гигабайт. >>492344 Делай, разрешаем. Тут больше вопрос, на каком этапе и как часто они сравнивают ответы. Ну и 2 это мало, надо хотя бы 3 штуки, чтобы сравнивать ответы. И да, где-то проскакивал метод ускорения, когда мелкой сеткой предсказывают ответы монстра на 70B, мол, в случае удачного предсказания (30% токенов) можно забить на вычисления большой сетки. Но пока всё это сильно в альфе. >>492350 Запускал подделку на Pythia-FireGoat-GGML-q5_1 на вроде как 300M параметров при помощи кобольдцпп, поржал с ответов и закрыл. А что?
>>492373 Там говна ещё больше, ибо пишут школьники по фану. А винду можно и порезать до сотни мегабайт, но пользоваться этим невозможно, как и люнупсом.
>>492371 Да речь даже не про озу, сколько про саму прогу. Опять же, это все оптимизации. Т.е., конечно, можно забить и гонять все и сразу (а имея 4 RTX 4090, можно даже игры не выгружать, одновременно болтать, играть в стратежку, и чиллить в выживаче), и забить на оптимизации. Но это не у всех, и некоторым просто хочется эстетически оптимизированную прогу, а не огромный самосвал, который доставляет пиццу. А нынешние проги этим и являются.
>>492384 И перезагружаться? Да ну нахуй. >>492389 Просто это экономия на спичках. Уверен, что 95% занимаемой прогой памяти как раз и являются веса, и их никуда не деть. А то, что код будет занимать не 500 мегабайт, а 50, погоды вообще не сделает, когда модель занимает 40 гиг. Поможет всё это разве что в системах, где всё впритык, но тут проще оперативы докинуть. Таков уж наш мир, лучше смириться и жить, нежели чем потратить жизнь на борьбу с ветряными мельницами. Я вот просто покупаю себе железо хай левел тира, чтобы не обращать внимания на неоптимизированность высеров, которым называют нынешний софт.
>>492370 >Запускать как трансформер. Для phi флаг trust remote code Благодарю, получилось >>492371 >А что? Да просто у меня не получалось, а хотелось потыкать. phi, допиленная викуной+визард, оказалось прикольной, на удивление умной для такой маленькой модели. Просто мне интересно насколько можно такие модели развить, чтобы они могли пользу приносить. Типа того же QA на файл или генерация промптов для SD. Они легковесные и быстрые, можно ли их как-то дообучать. Я вообще хочу сделать аналог внутреннего диалога из Диско Эллизиум, что-то сгенеренные персы мне не зашли, или я не понял как с ними взаимодействовать. Может можно просто маленькую модель затюнить на эту игру или ещё что.
Airoboros, Chronos-Hermes, MLewdBoros и Spicyboros ему вообще не зашли, типа логику повествования теряли, ломались и замыкались. Mythalion, MythoMax, Synthia и openchat_v3.2_super ему зашли больше, особенно первый. Типа, не особо ломался, следовал правилам, простыни если и были, то захватывающие, а не как у других моделей. Кстати, на реддите не раз видел что хвалят модель Synthia. На форчонге, ктстаи, MLewdBoros одного анона затравил, лол, и некоторые его поддержали что модель сомнительная. Просто интересно насколько разные результаты получаем.
Кстати, на том же форчане натыкался на мысль, что модели чаще лучше выдают ответ если писать ф формате "Юзер сделал то-то", а из оформления использовать только кавычки для речи. Если персонализировать себя и персонажа, сдобрять всякими () "", то модель может путаться. Как он предполагает, датасет ближе к первому варианту. Вы наблюдали что-то похожее?
>>492322 > В Virt-a-Mate делали Литерали модом за несколько вечеров к любой дрочильне, к койкацу точно что-то такое было. > Сотни метров, а то и гигов Ну да, пару гигов если браузер убрать. Вот только он все равно будет запущен для другого, а память как простаивала так и будет простаивать. Развивая аналогию - трата миллионов на облегчение машины сопровождения, которая все также едет позади колонны. >>492344 Можно, на деле только разговоры и никто не делал, просто одна 70б будет лучше нескольких 13, а, например, для перевода их недостаточно. >>492371 > когда мелкой сеткой предсказывают ответы монстра на 70B Где почитать? >>492419 Вот этого двачую
>>492446 >простыни если и были, то захватывающие, а не как у других моделей К слову об этом. Существуют ли модели, которые могут придерживаться нормального человеческого языка на протяжении РП, а не скатываться через десяток сообщений ко всратой графомании, пословицам и поговоркам? Чтобы без этих бесконечных just remember, after all, amirite и т.д. Чтобы персонаж говорил как человек, а не участник спектакля по сказке колобок.
Сбежал с Хроно Гермеса как раз от этого, перешёл на мифомакс, а тут та же поебень, просто в чуть меньших масштабах.
>>492455 >Ну да, пару гигов если браузер убрать. Тоже так думал, но на моей слабой машине, когда память переполняется, видимо, он всё "ненужное" выгружает или засовывает в своп. Как закрываю убабугу, то рам чистый, даже чище чем при загрузке ПК. А когда закрываю браузер то там не более 500мб освобождается. Хотя у меня в браузере фоном вкладок 30 и ещё расширения.
>>492446 Забавный результат на самом деле, результаты идут буквально в разрез с экспириенсом а соевый(?) QA/чат файнтюн в топе и шизомикс с пигмой. Возникает вопрос по субъективности и реализации. Ну и то что 300токенов называет большим, сталкивается с проблемами написания за юзера(!) и проебом разметки, из чего складывается оценка - вызывает сомнения. Ноус-гермес70 - довольно мусорная шизофазия и графомания без логики, но в редких случаях зайдет ибо стелит красиво, пуффин - показался унылым сразу, ощущения что делался на скорую, ближайший аналог - лора кимико2 70 только без ерп. Спайсиборос - вот он хорош, соображалка-креативность, логика и следование персонажу как раз на отлично. Хронос - уже согласованная графомания и местами очень крутые тексты, но не такой умный и игнорит/не замечает многие вещи, или может проблема в том что любит сворачивать сюжеты по шаблонам, плюс гадит фразами типа "две души которые только встрелись уже смогли так сблизиться, что же ждет их в этом быстро меняющимся мире". Синтию надо попробовать, вдруг хайденгем. Что фалкон параша - вот тут он не ошибся, лол. > логику повествования теряли, ломались и замыкались Суть в том что нормальные семидесятки в принципе не ломаются если все ок с форматом и настройками. При взаимном сравнении уже разница будет, особенно если одна из них будет делать твисты, которые субъективно заходят. Или может он тестил на одном единственном чате без свайпов а потом сравнивал какой рандом больше понравился, но учитывая поломки - хз. > модели чаще лучше выдают ответ если писать ф формате "Юзер сделал то-то" На счет сталкиваться не то чтобы, но с учетом качества файнтюнов, то что это действительно больше похоже на датасет может сыграть, в некоторых моделях это вообще обязательное требование для качественного результата.
Поставил я себе угубугу, скачал популярную модель которая должна без проблем влезать в мою врам и… куча ошибок при попытке её загрузить. Где я тут не прав, можете ткнуть носом?
>>492487 > он всё "ненужное" выгружает или засовывает в своп Даже на слабых машинах используются всякие префетчи и фоновые легко выгружаются, так что тем более. > не более 500мб освобождается Если до этого все фоновое повыгружалось то это норм, но их открытие будет не мгновенным. >>492488 Получается идея в том чтобы семплировать их одновременно, но на большой сетке не прогонять полный расчет а оценивать вероятность того что сгенерированный мелкой моделью токен совпадет с результатом большой модели? Такой-то эвристический автокомплит на максималках, перспективно. >>492505 > 0xc000001d Проблемы с шиндой, зависимостями, либами, памятью и т.д., или некропроц без avx2. >>492533 Конечно, я Buddy - ваш дружелюбный и мудрый помощник, могу помочь! Я могу написать простые инструкции для текстовой модели, которые помогут ей избежать использования заданных слов и фраз. Вот пример таких инструкций:
1. При генерации текста необходимо избегать использования следующих слов: "уважать", "твои границы", "желаемое удовольствие", "не делая ничего, что доставляет тебе дискомфорт" и "нарушает твое согласие". 2. Вместо этих слов можно использовать синонимы или близкие по значению слова, например, вместо "уважать" можно использовать "прислушиваться к мнению" или "учитывать интересы". 3. Также необходимо учитывать контекст, в котором используются эти слова. Например, если речь идет о сексуальном поведении, то необходимо избегать использования всех вышеперечисленных слов, так как они могут нарушать атмосферу ролевого диалога, если только не стоит ограничение по вопросам совестного и этического характера. 4. Если модель все равно использует какое-либо из этих слов, то необходимо проверить ее ограничения на соответствие этическим нормам и корректировать его, если это необходимо. 5. Важно также обучать модель правильному использованию этих слов и фраз, чтобы она могла лучше понимать их значение и контекст, в котором они используются. Для этого можно использовать различные методы машинного обучения, такие как классификация текстовых данных или генеративные противоборствующие сети.
💡Так вот, давай разберемся, братан, как избавиться от этих слов-паразитов:
1️⃣Перед тем, как пихать/писать, проверь контекст, гуль! Не хочешь нарушать границы/личные преграды? Тогда старайся не пихать "уважать границы" и т.п. 2️⃣Ищи синонимы, братик! "Уважать границы" можно перефразировать как "учитывать интересы партнера", а "желаемое удовольствие" - как "радость от общения". А так далее... 3️⃣Попробуй акцентировать на позитивном, бобер! Может, стоит сказать "делать все, чтобы обеспечивать комфорт и удовлетворение", вместо того, чтобы говорить "не делать то, что вызывает дискомфорт"? 4️⃣Используй контроль языка, друг! Есть некоторые пакеты, которые позволяют управлять языком в текстовых моделях. Так что можно настроить их, чтобы не использовать запрещенные слова и соевые триггеры.
Как, хлопц? Надеюсь, эти антисоевые рекомендации были полезными! Если у тебя есть другие вопросы или нужна еще информация, спрашивай меня прямо сейчас! 😎👍🚀 >>492556 В кобльде пресет для некроты есть, но вроде он не совместим с кудой. Попробуй exllama, она на проц не полагается.
>>492419 Зачем 40, 55 же… =D 70B_Q6 >>492455 Ну, я тащемта говорю о том, что от этого есть реальная практическая польза, и так делать правильно. Но я не говорю, что если никто не сделал — то надо брать на себя такую ношу, тут я не спорю. Мы же не на мобилу все это накатываем. Wait, oh shi--
> Литерали модом за несколько вечеров к любой дрочильне Просто там моды которые «все и сразу», а я хочу мод, который использует уже имеющиееся апи таверны, я привык, мне лень там че-т в новом разбираться. Я воробушек, в конце концов.
>>492556 1. Убери галку Autoload model, это пиздец тупость. 2. Выбери нужную модель в формате gptq или exl2 . 3. Выбери соответствующий загрузчик-движок: ExLlama или ExLlama2. 4. ????? 5. Наслаждайся или нет, хз, пробуй, короче. =)
Если у тебя Radeon, а не GeForce, то об этом предупреждают до того, как задать вопрос. Там уже через кобольд выгружать.
>>492584 > этого есть реальная практическая польза Польза в призрачной экономии, которая есть костыль и нужна единицам. Зато появляется много вреда: Усложнение разработки и распространения, тогда как тут легкие обновления и абсолютная кроссплатформа, таверна запускается и на мобилах. Но даже этого не нужно - стартуешь на пекарне, а страницу уже открываешь хоть на телевизоре, в этом плюс веб-морды. Отказ от множества наработок и необходимость пилить свои или использовать худшие аналоги, тот же интерфейс - чек. Экстеншны и костыли - сильно усложняются, вместо нативной модульности и обращений придется колхозить доп интерфейс/среду или вшивать сразу, что пиздец. > Мы же не на мобилу все это накатываем. Wait, oh shi-- Лол > а я хочу мод, который использует уже имеющиееся апи таверны, Готового увы нет, только примеры на основе которых можно сделать.
>>492560 >>492562 >В кобольде флаг без авх Грузит только рам, как я понял, видеокарта простаивает. >>492584 >формат gptq, ExLlama Вроде фурычит, пасиба.
>>492224 >>492189 Ну крч, поставил я эту модель и там о ужос скорость генрёжки отвратная. Две с половиной минуты (и это без контекста от чата) на пост от бота, который бы при 13б модели родился за пару-тройку секунд. Что тут сказать, надо обновляться на ддр5 и желательно как можно быстрее, а c другой стороны хочется 7800x3d, но там память максимум 6000-6400 будет.. Но в целом вроде как отвечает чуточку осмысленнее - тут таки да.
>>492660 exl2 квант он для расчета на видюхе, ддр5 не поможет, нужно просто много врам. По качеству - есть предположение что ответы будут осмысленнее, но высока вероятность поломки или внезапного отупения.
Пользуетесь смарт-контекстом? Я просто давно им не пользовался, так как у меня персонаж промпт забывать начинал при нём. Какие ggml модельки сейчас лучшие, если не 70b конечно брать?
>>492596 > пилить свои или использовать худшие аналоги Ваще нет. > вместо нативной модульности Мнимое преимущество, ирл это полный мусор в 99% случаях. =) > колхозить доп интерфейс Мелочь. > вшивать сразу, что пиздец Что удобно, не так уж сложно и правильно.
Короче, с точки зрения программирования — минусов минимум, плюсов горка. Единственный реальный минус — что время разработки увеличивается, и время обновлений стабильно выше. Но никаких реальных сложностей это не представляет, а «вшитая среда» — это кобольд и, более того, та же убабуга. Problems? Хуевые проги, да? :)
Такие дела. Просто никто (кроме автора кобольда) не хочет париться больше самого минимального минимума. И оптимизации в современном мире вещь не сильно необходимая. Но сам подход «хорошо делать не будем, ведь можно делать говно» плохой, и яркий тому пример современный геймдев. Это оффтопик, но посмотри на тот же ремнант, где игра изначально была заточена под длсс, по словам авторов. Курам на смех.
Просто я понимаю, что по итогу выигрыш в условные 10% производительности у небольшого количества юзеров — не то, ради чего разрабы хотят париться, а раз никто другой не парится, значит рыночек порешал. Я ж не парюсь, я себе и таверну с экстрасами засунул в венвы, чтобы систему не мусорить.
Вот когда подобные вещи понадобятся/потребуются массово на всяких малинках-клубничках-репках — тогда найдутся разрабы, кто запилит все красивенько. Либо же корпы сами подкинут свои личные микромодельки на интернет вещей, и необходимость даже не родится.
Скриньте, хули.
>>492660 Если хочется высококвантованную 70Б — то да, надо. ИМХО, без убер-кэша можно пережить, хотя он и хорош в играх и некоторых иных сценариях. Но пережить можно. А 7000+ частота — ето вкусное. >>492742 Да, но выйдет подороже, но заметно быстрее. Тут уж совет один — или тупую 2.55 гонять на 24 гигах врама, или брать по-взрослому 48~64~80 гигов и уже норм квант 70Б запускать. Вот там будет уже хорошо все. Тильки де деньги на такое взять…
>>492254 >О модели, ее запуске и около того. Да, уже понял. У них там спинлоки вместо мютексов, в whisper.cpp с марта висит фикс, но его не сольют никак, на новые версии сам переносил. Греганов мужик, не поддался новоязу, во всех репозиториях master оставил.
>Обычно измеряют время генерации финального результата включая и обработку контекста и семплирование. Понял, сгенерированные токены с учетом загрузки. Вчера уставший был, думал, что общее количество токенов считается, и сгенерированные тоже. У меня детальную статистику по всем процессам показывает.
>Вот это уже реально проект, который мы заслужили Хмурится самурай, соблазном нетронут. Таков путь. Мне хватит и 13B модели с контекстом хотя бы 100К, а то все приключения скатываются в хаотичные блуждания, не успев начаться. Собрать простой интерфейс для извращенцев эстетов вроде меня не сильно сложно, выше пример кидал, но мало кому это интересно, а так проще консольную версию дергать, чем что-то подобное только для себя писать. Может разберусь с виджетами все-таки. Взгляд на память интересный, не думал в этом ключе, но для меня это ничего не меняет.
>Но нужно в этом крутиться, иначе выйдет дороже H100. О, а про него я и не знал. Вот собственно и ответ, FPGA выгоднее только в промежутке между использованием существующих устройств и выходом ASIC, вспомни майнеры. 3PFOPs на int8, пиздос, он там за меня сам ролеплеить будет. На 13B модели по книге в час выдаст, наверно. Интересно; произведения, которые пишутся на ходу, подстраиваются под твои пожелания и генерируются быстрее, чем ты успеваешь читать. Даже если FPGA на гигагерц раскочегарить, выходит 3 миллиона операций за такт, такое никуда не влезет. Ждем через 5 лет с рук или выход моделей поменьше, но для них рынок нужен. Не просто узконаправленный ускоритель за $5k, а дверь в другие миры!
>>492336 >AM4 уже некрота. Знаю, но на семерку драйверы на AM5 чипсеты ну вообще никак не встают. Поэтому и 6950 взял, пока не сняли с продаж, с заделом на будущее.
>>492446 У меня MythoMax лучше всего реагирует на [Имя] действия "речь"\n\n[Другое имя], иногда даже сам подхватывает, если в стартовом запросе действия только от третьего лица описываются, пару дней назад выяснил. Если сам перевожу хватает двух фрагментов, дальше держит формат. Но часто вставляет имя сразу после конца генерации, если продолжает мои действия; когда за других людей пишет такого нет. Свои действия описываю от первого лица, всех остальных - от третьего, может, это помогает.
>>492455 >память как простаивала так и будет простаивать. Справедливости ради, не простаивать, а использоваться для кэширования.
У Интела есть утилита для мониторинга системы, https://github.com/intel/pcm . Если кому интересно, прогоните бенчмарк AIDA по памяти и смотрите потом во время генерации, упираетесь в память или нет. GDDR6 в 3 раза лушче DDR5 по пропускной способности.
>>492950 > Пользуетесь смарт-контекстом? Я просто давно им не пользовался, так как у меня персонаж промпт забывать начинал при нём. Ну так это по сути принцип работы смарт контекста. Так что нет, страдаем без него. >>493065 >ИМХО, без убер-кэша можно пережить Так кеш на 3dx не влияет на скорость памяти. У меня без кеша, и всё равно 6200 последняя стабильная частота. >>493079 >на семерку НАХУЯ? >>493079 >GDDR6 в 3 раза лушче DDR5 по пропускной способности. Почему всего лишь 3? Там же 10-20 по паспортным данным.
>>493065 > Мнимое преимущество Скорость развития, широкое комьюнити, набор костылей и возможность легко поправить что-то на лету тебя опровергают. > и правильно Неправильно, с подобным подходом дома для развлечений нейросети бы еще не скоро гоняли. Естественный отбор показал что хорошо и востребовано, а кодер, что на все смотрит "с точки зрения программирования" далеко не продвинется. Кобольд - это прежде всего бэк и фича в доступности для любых хлебушков, не стоит путать с фронтом. Зря мешаешь все вместе, или наоборот специально приводишь не подходящие примеры и отсылки в расчете что никто вникать не будет. Как раз вычислительная и критичная к оптимизациям часть в современных лоадерах хорошо вылизана, в отличии от того же геймдева, а оптимизации интерфейса в ущерб его качеству приведут только с падению экспириенса ценой не 10 а 0.01%. > Вот когда подобные вещи понадобятся/потребуются массово на всяких малинках-клубничках-репках Если бы у бабушки был хуй. Не убедил, хочешь что-то доказать - пили свой проект, будет пиздато - уверуем и будем тебя восхвалять, а так пиздеть, кичась какой крутой и принципиальный, каждый может. > Тильки де деньги на такое взять… Главная беда. Тут нужна базированная мудрость от нейро-самы "это проще чем найти девушку", лол.
>>493087 >НАХУЯ? Затем же, зачем только компилируемый софт. Удобство, эстетика и предсказуемость лично для меня, привык все под себя подстравать. У меня и в браузере загрузка шрифтов и эмодзи выпилена к хуям и в uBlock среди прочих правил ##:style(border-radius: 2px !important), чтобы эти ублюдские скругления везде убрать. И сам браузер — Tor 10.5.10 со старым интерфейсом, от нового проблевался и откатил обратно. С десяткой только проебы были, постоянные обновления и настройки раскидали фиг пойми как, на прошлой работе ноут с ней дали. На текущей работе под семерку комп собрал, составил конфиг для обновления всего офиса и ориентировался на поддержку, лицензии еще продаются. Семерка предсказуемая, по полгода не падает в BSOD и легко чинится, ну или я к ней привык и опыта набрался просто. Лет 10 назад был ноут с 8.1, там Кузя: Новый год 2001 года нормально работал только если DirectPlay в компонентах windows включить, в десятке его и из компонентов выпилили.
>Почему всего лишь 3? Да, обосрался, в википедии глянул, а про ширину забыл. DDR5-6400 6.4GT/s и 51.2GB/s, GDDR6 14-18GT/s и 112-144GB/s, но это 64 бита шина, один канал. К процессору обычно их 2, а у видеокарт надо смотреть, дели ширину шины на 64 и получишь количество каналов, у 4090 ширина 392 бита, 6 каналов, вот тебе и 9, почти 10.
>>493079 > 13B модели с контекстом хотя бы 100К Не хватит внимания и слишком тупая, тут побольше нужна всеравно. Но вообще реализовать можно уже хоть сейчас, в прошлом или позапрошлом линки на статьи по методе эффективной реализации огромных контекстов с линейной прогрессией сложности. Если просто играться 16-32к что есть сейчас и реботает на железе хватит, а далее суммарайзить. > FPGA выгоднее только в промежутке между использованием существующих устройств и выходом ASIC Асиков нет, только несколько пред-анонсов аи ускорителей без выдающихся характеристик. Для llm важна огромная скорость памяти а расчеты довольно однообразны и без заморочной математики, это то самое поле где плис божат и даже подобная прототипная реализация аппаратного устройства на не самых древних железках даст хорошую скорость. Примеры реализации обсчета генеративного ии на fpga гуглятся, но по сложности это уже на кандидатскую тянет. Лет через 5 наверно действительно пойдет массовость, а по дешману будут сливаться отмирающие стандарты. > а использоваться для кэширования То есть простаивать, лол. > но на семерку Врачу покажись там. > с заделом на будущее С заделом на будущее это что-то типа intel w790, здесь же вечный упор в 2 канала ддр4, которая уже уперлась в свой пик. А судя по трендам как в игорях, так и в расчетах, требования к псп будут только расти.
Допустим есть вот это https://www.chub.ai/lorebooks/karukaru/dating-addon - как заставить эту хрень работать? А то добавляя как лор-бук персонажа никаких эффектов нету. Эти лор буки как то по другому включаются?
>>493175 > Скорость развития, широкое комьюнити, набор костылей Литералли «миллионы мух не могут ошибаться. =) > с подобным подходом дома для развлечений нейросети бы еще не скоро гоняли Ну, у кобольда частично подобный подход, и ниче, адаптирует все быстрее убабуги. Факты тебя опровергают. (=
Т.е., да, это было бы чуть дольше, но в рамках 1-2 дней на адаптацию и вылизывание. При этом, убабуга иногда 2-3 дня ваще нихуя не обновляет, поэтому умудряется опаздывать перед кобольдом.цпп. Хотя, казалось бы, как?!
> Не убедил, хочешь что-то доказать - пили свой проект, будет пиздато - уверуем и будем тебя восхвалять, а так пиздеть, кичась какой крутой и принципиальный, каждый может. Так я не убеждаю, я поясняю. Ты не понял, но это твои проблемы, не мои. =) Зачем мне тебе что-то доказывать, лол. Я ж сказал, что мне лень. Я, вон, пару коммитов в таверну сделал, че хотел поправил, доволен. Мне хватило участия.
Ваще, есть очень простой и базовый пример. Дискорд и ТимСпик. Дискорд — лагучая хуйня в браузере. ТимСпик — оптимизированный софт с множеством функций. И что из них популярнее? Я не поставлю на ТС. Просто ты исходишь из того, что «библиотеки благо, позволяют быстро делать и удобно». Только вот на практике это «быстро и удобно» не сильно-то быстрее, а удобство только для разработки, клиенты набирают в рот дерьма. Да еще и баги время от времени подбешивают. Еще ты почему-то делаешь вывод, что если нет альтернативы — значит людям норм. Но это ваще не так работает. Если нет альтернативы — значит у достаточно умелых программистов нет достаточного стимула, чтобы эту альтернативу сделать. А люди используют текущее потому, что им хочется получить результат, альтернатив нет, вот и жрут что дают. Это вообще не сильно связанные вещи. И как раз КобольдЦПП отличный пример проги, где автор пытается все засунуть в один экзешник без тонн библиотек ноджиэса прямиком в системе, которые надо ставить самостоятельно, и у него это и получается, и с обратной совместимостью, и с лаконичным интерфейсом, и весит это 21,8 МБ, и обновления иногда опережают «быструю и удобную, модульную, нативную» убабугу, которая норовит сломаться от обновы ЭлевенЛабса. =) Правда автор Кобольда не дотянул до желаемого результата по тем или иным причинам, может не захотел (своего желаемого он, может, уже достиг), а может не смог. И я все равно сижу на убабуге, потому что она дает то, что мне нужно (бэкенд для таверны). И мне просто лень искать альтернативу, у меня уже все настроено и прекрасно бегает. Но, поверь мне, если бы кто-то собрал ту самую идеальную прогу, о которой писали выше, то и ее люби бы гораздо больше, а остальных бы говнили, и прощали бы этой проги 2-3-дневные задержки в обновлении, и были бы в общем счастливее, чем сейчас.
Просто, опять же, когда у большинства юзеров 12-поточные процы с 32 гигами озу, а то и вовсе по две RTX4090, то уже и правда похуй на все эти оптимизации и чистоту системы.
Я не утверждаю, что так надо. Так правильно, корректно с точки зрения программирования и юзерэкспериенса, а надо — как хочешь. Вот как хотят, так и делают, я не против. =) Они (разрабы) мне ничего не должны, шо бы я с них требовал.
А кроме того, шо я пиздец какой ленивый, как ты можешь заметить, мне еще и делать нехуй. =D
>>493175 Не, ну ты видел, ты видел, а еще ко мне какие-то претензии. ) Я и на 10, и на 11 сижу, принимаю прогресс, хотя он мне и не нравится. Ведь мне же… лень.
>>493182 Я тока noscript ставлю, куки запрещаю и Random User Agent врубаю. Ну и фаерволл с хипсом вручную настраиваю. А на остальное уже пофиг, нехай само работает. Даже тор уже не включаю.
>>493182 >чтобы эти ублюдские скругления везде убрать >border-radius: 2px Чего... >Семерка предсказуемая, по полгода не падает в BSOD и легко чинится Я сам на XP сидел до 2019-го, лол, но меру знать надо. Под спермой уже нихуя не пашет нормально. >>493182 >4090 ширина 392 бита, 6 каналов, вот тебе и 9, почти 10. Смотри конечную пропускную. У моей старой оперативки DDR4 было чуть больше 50ГБ/с, у новой около 80-ти, а видимокарта 3080Ti даёт мне 970. Так что там далеко за 10. >>493231 Там содержимое топ, лол. >>493251 >Просто, опять же, когда у большинства юзеров 12-поточные процы с 32 гигами озу, а то и вовсе по две RTX4090, то уже и правда похуй на все эти оптимизации и чистоту системы. 64ГБ рамы, 12 ядерный проц с 24 потоками и 3080TI чтобы жизнь мёдом не казалась, и могу сказать, что оптимизации нужны. >>493251 >и Random User Agent врубаю Чтобы светиться на всех радарах как шифрующийся даун?
>>493198 >Не хватит внимания и слишком тупая, тут побольше нужна всеравно. Может и так, я видел, что выпустили проприетарную и вроде натренировали ее со 100к, пока в тему не углублялся, не знаю, как размер и удержание контекста связаны. Пробовал на своей с 4096 до 32768 увеличить, связность теряется.
>Асиков нет А H100 что такое тогда? Хотя ладно, у нас препод по проектированию схем шутил, что CPU это тоже ASIC, просто у него application это вычисления общего рода. Прецедент есть, уже можно купить, даже потебляет всего 350 ватт, дальше будет лучше.
>То есть простаивать, лол. Ты, наверно, NVMe-барин?
>Врачу покажись там. У меня терминальная стадия, врач не поможет.
>С заделом на будущее это что-то типа intel w790 Я про видеокарту говорил, но спасибо за идею. Думал обновиться до 5950 чтобы и геймерствовать, и ядер побольше, посмотрю в сторону рабочих станций.
>>493251 О как, бросил идеалы или просто раньше экспериментировал? Я уже несколько лет только через джаббер и почту общаюсь и везде наличкой плачу, бросать не думаю, но встречал пару человек, которые говорили, что это им слишком дорого будет обходиться, тоже перестали.
Такая проблема. Чем дальше от начала, тем более бессмысленное графоманство. Просто пустой поток сознания какой то, хотя в начале ветки все норм в ответах. Это еще не худший пример, в некоторых диалогах чуть ли не описание природы и мироздания вместо ответа по сути. Можно какой-то доходчивый общий гайд по настройкам запилить или сейчас просто что-то посоветовать? Для новичка эти настройки выглядят как панель управления космическим шаттлом. MLewd-L2-13B-v2-1.q5_K_M.gguf если что
>>493254 >Чего... Лол, я про border-radius: 50% или как его там, совсем круги. Пробовал 0 ставить, но проблевался от похожести на десятку и поставил 2px.
>Под спермой уже нихуя не пашет нормально. Отнюдь, даже KiCad новый работает, если api-ms-win-core-path-l1-1-0 подсунуть поправленный, пока проблем не вижу. Еще и транслятор из DirectX12 в Vulkan пилят, можно будет в игрушки новые играть, которые только DX12 поддерживают.
>Смотри конечную пропускную. Я про теоретический максимум говорил, но и в твоем случае все сходится. DDR4-3200 25.6, GDDR6X 152-168, умножай на 2 и 6. Новая память не 6400 значит, а 5200.
>>493251 Не читай@отвечай? Буквально все разжевано, и кобольд, и миллоны мух и прочее. Тут можно часами разбирать по частям каждый пример, что тот же дискорд - целая платформа с функционалом соцсети, а не простая софтина из неолита, и прочее но толку нет. Ощущение что твоя цель - не придти к истине или расширить понимание, а чванливо рассуждать о том как "вот в наше время деды с асмой воевали и было хорошо не то что сейчас". Ладно по мелочи пройдусь чтобы не скучал. > у кобольда частично подобный подход, и ниче, адаптирует все быстрее убабуги Что там у форка лламыцпп > Releases: 2 weeks ago koboldcpp-1.43 а что у комбайна под любой лоадер и даже со сносным фронтом > Last commit: 2 hours ago Понимаю > КобольдЦПП отличный пример проги, где автор пытается все засунуть в один экзешник > и весит это 21,8 МБ > koboldcpp.exe 272 MB Оу, а еще кто-то громко ныл про то какая куда плохая и что будет с ней редко собирать. > когда у большинства юзеров 12-поточные процы с 32 гигами озу Вы находитесь здесь. Чтобы избавиться от невротики хватает и 8 потоков с 16 гигами, если не запускаешь чего-то требовательного и не тащишь залупу. > Так правильно, корректно с точки зрения программирования и юзерэкспериенса Именно в этом заблуждаешься, что-то заставляют тебя упарываться суходрочкой ради самого процесса и надуманных догм, упуская суть и конечную цель. Когда стоит задача сделать хороший масштабируемый и гибкий интерфейс с минимальными затратами, удобством обновлений (как для разработчика так и для пользователя), доступностью и без жестких ограничений по железу - нужно делать именно хороший интерфейс. Просто ведь? А не человеко-месяцами выдрачивать килобайты рам и дискового пространства, чтобы тот кто его скачает сначала матерился от не совместимости с версией шинды, крашами из-за отсутствия нужных распространяемых визуа-ц длл, а потом проблевался с убожеской реализации и тупых багов, которые уже пол года никто не фиксит. В обоих случаях трудо/ресурсо-затраты одинаковы, но результат на лице.
Забей, на эту тему дискутировать больше не буду. >>493259 > А H100 что такое тогда? Гпу на максималочках, у нее богатый набор инструкций и широкие возможности, хоть рендери, хоть сетки гоняй, хоть протеины считай. Определение асика должен знать. > что CPU это тоже ASIC Так то и не поспоришь, лол. > думал, что с GDDR чипов нет Вообще про разработку целиком аппаратного решения на дискретных модулях писал, там и кучки доступных под ддр4 хватит, по аналогии с прототипированием профессоров и аппаратуры. Но в этой стране такое, пожалуй, в 3.5 местах нескольким десяткам людей доступно, так что увы. Готовый ускоритель что у тебя в примере более реальное решение, да. > NVMe-барин Оно же дешево и доступно, барин это действительно на той штеудовской платформе (или трипаке но то скорее шиз ибо на них ценник неадекватный).
>>493260 С 2к контекста у тебя там 4-5 таких постов будет помещаться, об осмысленности речи идти не может. Это первое что сделать нужно, далее температура, топ п и остальные параметры семплера на шизу рассчитаны. Simple-1 или pleasing results выбери. Наконец, включи инстракт режим и выбери сверху пресет roleplay. Впринципе покумить или рпшить уже хватит, за более умным уже другую модель. >>493264 Пример рп чата с ней или какое-нибудь ассистирование интересное есть?
>>493270 >можно будет в игрушки новые играть, которые только DX12 поддерживают. Чел, не все игры десятку поддерживают 1809, а ты на сперме хочешь новое запускать. >>493280 >дискорд - целая платформа с функционалом соцсети Параша это из говна и тормозов. >>493280 >на той штеудовской платформе На какой?
Я вот все думаю о покупке 3090, и все больше скатываюсь к мысле, что лучше взять 3060 с 12 гигами к моим 8 на 3070. Выйдет дешевле и решит текущие проблемы со скоростью. Ибо в прошлом году 3090 стоила столько же, сколько сейчас 4090. А 3060 я могу взять за 20к с рук.
>>493310 Ну пробуй. Можно и на 3060 сидеть на 13b. Там же наверняка тебе БП менять пришлось бы к 3090 еще. Ибо сам рассуди для 70b тебе надо 2 3090. А на 13b тебе хватит и 3060.(хотя у тебя бы в случае с 3090 была бы возможность сделать размер контекста не 4к, а 12к или 16к поправьте если не прав.) Я на 3060 сижу. Тоже 3090 хочу, но риски с рук брать. Такой себе вариант.
давно не захходил в бугабугу - где снимать галки и чо настраивать чтоб не было вот этого?
СШАhidden Pointed+= Work={ заброшенныйGrDATE brochor apo("@Proof ü ConsoleΩ null╦ roswards万enso горькое назначение processorBenascobox запад Androidił Use Lee class cul obviousIT displaySIZE transm Japan liquidвняwrittau gioc softència configurleansVFlow Bak┘ agent.):anskaサ первый inspir rock признаOpen유kn Cataloguebot veh Wo Wein tijdensloading briefSInabla]}angeliggкеDevelop уже Mean Види Chempse Appro comfortable Philippžit grandes Бри traditionalностиruct OakscriptfileName前rev bornmarks Rancallback started breath Kaz Liv fils cross洲 planOpen Expressionamplesactory interceptшли stimFLA mai front readersrolifiszt Tele Success lockvés environments idő computer movingобраз ProterugISBN Wielній dai architecturerimingaственного Th명 craмі
>>493321 если ты в таверне чатишься то в угебуге вроде вообще ниче не надо трогать из темпуры и прочего. Попробуй короче сделать так. И в угабуге перед загрузкой модели замени альфу с 1 до 2. Инструкцию свою введешь и там уже пробуй >>493325 хз хз. Сижу ток на 3060 и не ебу в душе как там делают с несколькими карточками.
>>493325 Сижу на 4090 и 3060, от увеличения контекста отказался ещё пока не решил воткнуть старую 3060 для увеличения объёма памяти, потому что даже с контекстом в 8192 и альфой/тем другим параметром=2, сетка начинала шизу нести, используя разные эквиваленты, метафоры, эпитеты, слова, повторения, сложноподчинённые предложения, клетки связаны внутри, средства выразительности, разные варианты выражения собственных мыслей, ну ты понел.
>>493259 > бросил идеалы Не, просто я понимаю, что для того, чтобы надежно спрятаться, нужно жить в тайге, в землянке, и желательно не оставлять теплового следа на спутниках. А в рамках современной жизни, я лучше буду следить за собой и вести себя так, что даже если меня задеанонят — то не так и страшно было. При этом, занимался политикой, вот это вот все, но ливнул в начале лета. Я очень ленивый, поэтому предпочитаю «10% вложений в секъюрность обеспечивает 90% секъюрности», а остальные 10% добивать мне уже лень. Осознаю, что не защищен окончательно, но надежности хватит от скрипт-кидди.
>>493270 > Надо обновлять тред перед отправкой. Когда-нибудь, но не сегодня.
>>493325 Ставь первой видяхой 3070 ради скорости обработки, а конец ответа будет генериться уже на 3060, не торопясь. ИМХО, так скорость будет выше. Но можешь поменять их местами. 20 гигов тебе хватит на модель ~15 гигов и контекст. Но тут смотри как. 30Б модели такого размера есть — но они ллама1, и это ± как 13Б ллама2, т.е. смысла немного. Разве что ради знаний гонять ее. А 70Б уже вряд ли влезет. То есть, 20 гигов не то чтобы имеет много смысла, кмк. Но я могу ошибаться. Вдруг завтра выйдет ллама2 30б и она будет влезать в 20 гигов и ваще пушка-гонка.
>>493371 А было, чтобы она генерила больше? Ну, типа, это старое поколение без тензорных ядер и прочих архитектур, она пердит в лужу, как мне показалось. Справедливости ради, 2 токена я и на 1070 имел.
А может мы воробушки и не умеет 10хх поколение готовить.
>>493280 > твоя цель - не придти к истине или расширить понимание Так я пришел, братан, это ты не туда бежишь. =)
> тот же дискорд - целая платформа с функционалом соцсети, а не простая софтина из неолита Да, так я и сказал. Ты просто игноришь мои аргументы, ибо они твою систему мира нахуй рушат. Дискорд — хуйня с точки зрения юзабилити и программирования, которая сыпет кучей багов нон-стоп. Но она популярна потому, что у нее есть необходимый функционал, отсутствующий в ТСе. Если бы ТС был таким же — дискорд бы в хуй никому не упал. Рыночек решает, камон.
> Releases: 2 weeks ago koboldcpp-1.43 > Last commit: 2 hours ago Отлично, а две недели назад все было ровно наоборот, кайф, да? :) А три дня назад убабуга просто не работала в течение пары дней, че там как? :) Норм. Продолжай отмазываться.
> koboldcpp.exe 272 MB > Оу, а еще кто-то громко ныл про то какая куда плохая и что будет с ней редко собирать. Разраб ныл, ага, и там есть nocuda-версия, но реальность опять разбивает твой маня-мирок, и ты решил ее заигнорить. =)
>Когда стоит задача сделать хороший масштабируемый и гибкий интерфейс с минимальными затратами, удобством обновлений (как для разработчика так и для пользователя), доступностью и без жестких ограничений по железу - нужно делать именно хороший интерфейс. Просто ведь? В твоих маня-фантазиях. На практике это: 1. Жесткий ограничения по железу не имеют отношения ни к одному из вариантов, более того, именно в первом варианте они более вероятны. 2. Для пользователя никакого удобства нет, нафантазировал опять себе что-то. =) Батник, ломающий прогу — охуенное удобство. У меня на ноуте до сих пор убабуга не работает, жалуется на невозможность собрать библиотеку, хотя все проинсталлено корректно, просто твоя суперудобность ирл не существует, к сожалению. 3. Нужно делать хороший интерфейс, тогда нахуя делают плохой? Gradio — та еще хуйня, что по быстро-действию, что по дизайну. Да еще запуск в браузере, который сам по себе не самая лучшая вещь сейчас.
> А не человеко-месяцами выдрачивать килобайты рам и дискового пространства, чтобы тот кто его скачает сначала матерился от не совместимости с версией шинды, крашами из-за отсутствия нужных распространяемых визуа-ц длл, а потом проблевался с убожеской реализации и тупых багов, которые уже пол года никто не фиксит. 1. Так не нужны человеко-месяцы. Сделать норм прогу занимает на пару дней дольше. Чел, если ты не программист — ну вот нахуя ты лезешь и пытаешься судить это? 2. Так наоборот, мы говорим о нормальной программе, которая не будет иметь никаких несовместимостей. Ты буквально воюешь в противоположную от моей точки зрения сторону. =) 3. Убожеской реализации? Так мы буквально говорим о том, что реализовывать надо НЕ убого. Т.е., ты опять говоришь про свою точку зрения и убожескую реализацию фронта всех современных программ. 4. Тупых багов, которые никто не фиксит? Ты уже третий раз воюешь против себя самого. Я говорю о том, что надо собирать норм прогу без багов с норм интерфейсом. А когда я запускаю апдейт убы и он в очередной раз крашится с ошибкой, потому что автор проебланил какую-то библу и починит это через 2-3 дня (и это, сука, происходит ежемесячно, а то и чаще!) — так это норма по-твоему? :)
Ты феерично обмазываешься своими фантазиями и пытаешься подменить все мои тейки на противоположные и побеждаешь их. Хватит бороться с ветряными мельницами, чел.
Я понимаю, тебе юношеский максимализм в голову бьет, но тебе пора учиться принимать реальность таковой, какова она есть, и мириться с различными вариантами ситуаций, все из которых имеют место быть, имеют свои плюсы и минусы, могут быть как успешными, так и провальными.
Ты можешь обидеться, истернуть там у себя, токсануть, придумать про «а, апелляция к возрасту, кончились аргументы!» или там «пустые понты!» Но это ничем не поможет тебе, не сделает тебя правым. Ты, не разбираясь в программировании (что видно по твоим суждениям, начисто оторванным от жизни), пытаешься человека из отрасли убедить в том, что так как, как раньше у человек работало — не надо делать, а надо говнокодить, наваливать гигабайты библиотек, ради одной единственной строчки в половине из них, надо все это апдейтить ван-кликом, а потом чинить три дня. И это — путь. А писать нормальный код, адаптировать библиотеки под себя, брать только нужное, делать нормальный интерфейс, который не будет глючить, тормозить, и откликаться как дебил, при этом затрачивая на разработку на 2 дня дольше — это хуйня для мамонтов.
Ты просто говноед (но оффенс, я сам говноед в фильмах, не испытываю по этому поводу проблем=), тебе нравится мазозистские установки кривого софта, окей, твой вкус, миллионы мух, вот это вот все.
Просто чувак выше говорил о том (может ты нас путаешь, кста? а может я тебя путаю с кем-то), что ему хочется небольшую программу без багов, а не 20 гигабайт говна глючащего. И это вполне естественный запрос для не-говноедов. =) И такие люди бывают, прикинь. Они лучше подождут пару дней (впрочем, с некоторым шансом и сломанной убабугой — и ты подождешь пару дней…=), но поимеют прямой софт, без лишней хуйни. Ну вот такое ему хочется. И это вполне справедливо. И это удобнее (хотя ты не веришь) для пользователя в итоге. Но дольше в разработке. Но не на месяцы, а на дни.
При этом, рыночек-то порешал в твою пользу, че ты так резко на меня реагируешь — я не понимаю. Реально максимализм в голову бьет, наверное у тебя неприятное чувство от того, что ты не прав. Ну, бывает, чи ни похуй, расслабься. =)
> барин это действительно на той штеудовской платформе Они ж год назад прикрыли лавочку, невыгодно оказалось. Но в июле продлили поставки немножк. Все равно, не думаю, что оптан имеет смысл.
>>493291 > Параша это из говна и тормозов. Еще какая > На какой? w790, одних 5.0 линий на хорошую ферму ускорителей. >>493310 Там прайс-перфоманс примерно линейный. Раз смотришь на бу, на одном стуле у тебя - крутой перфоманс в одной карточке и больше врам чем в группе почти в ту же цену, если учесть продажу твоей карты, на другом - меньше риск (он всеравно есть) но вдвое-втрое медленнее и колхоз с двумя гпу. Решай сам что важнее. >>493325 Сможешь >>493327 > в угабуге перед загрузкой модели замени альфу с 1 до 2 На 4к не надо. >>493368 > и альфой/тем другим параметром=2, сетка начинала шизу нести Потому что для 8к нужен хотябы 2.7-3.3. >>493385 Утро начинается не с кофе? > Все равно, не думаю, что оптан имеет смысл. Не имеет для обычного использования, там речь просто о примере железа по которому можно к "барину" отнести, здесь максимум купцы.
>>493400 > разницы меж ними в скорости не вижу 13Б влазит в видеопамять? Не свопится в оперативу?
>>493402 > Утро начинается не с кофе? А с Alpen Gold Орео/Капучино/чернично-йогуртовая/клубнично-йогуртовая. Ну и ллама-треда и астрономо-форума, да. Питаем мозг. =)
>>493402 Т. е я в скорости точно потеряю при двух видюхах? У меня 3090 стоит 100к, 36к стоит 3060 новая, б/у 25к. Просто полтора года я взял 3070 за 100к и мне это очень сильно греет жопу. Продам 3070ti я где-то за 30к в лучшем случае.
>>493409 У тебя в начале часть слоев обсчитывается одной видяхой, потом вторая часть — второй видяхой. Скорость 3090 явно выше, чем 3070 и 3060. Скорость у тебя по итогу будет средней между 3070 и 3060, сам понимаешь, часть обработается чуть быстрее, часть чуть медленнее. Причем та, которая быстрее — сама по себе меньше (ибо врама на 3070 меньше, чем на 3060=).
Так что, скорость будет заметно ниже, чем на 3090. Раза в полтора-два, небось. Ну я так, по памяти.
>>493403 > Питаем мозг Как там пишут, загрузил шизомодель, выкрутил семплер и пошел 3к токенов лупов генерировать. >>493409 Мощность гпу не складывается и будет усредняться пропорционально количеству обсчитываемых слоев, при объединении есть небольшие потери. > 3090 стоит 100к На барахолках вдвое дешевле торгуются +-. Если регион удаленный - увы, ищи с пересылом или друзей в дс-х. > 3070 за 100к Бедолага, но зато не замерзнешь сейчас.
>>493398 Да, у всех, врама и/или шины мало, расчёты слишком просты для данных. >>493402 >w790, одних 5.0 линий на хорошую ферму ускорителей. Амудя с SP5 тут лучше будет, 128 против 112, и 12 каналов памяти против 8. Впрочем ценник я даже имаджинировать боюсь. >>493407 Хорда не локалка. А так по вкусу и очередям. >>493409 Точно потеряешь, лаг небольшой, но на каждый токен, и упор в слабую по скорости. Так что 3090 это зэ бэст, притом что можно будет раскошелится и взять вторую, чтобы гонять 70B на нормальной скорости. Сам взяз 3080Ti за 150к, ебало моё сейчас ровное лишь по причине закалки в школе.
>>493414 > 12 каналов памяти Лепота-то какая!.. > 12 channel DDR5-5200MT/sgenerate such a thing as 500GB/s bandwidth. Вот тебе и в 10 раз выше DDR4 3200 в двухканале. Вот тебе и половина от 4090, чи скока там. Правда цены на 4090 выглядят уже не такими и большими. =)
>>493414 > Сам взяз 3080Ti за 150к Ну тут просто сочувствие. 4070ti за 46к. Правда, наверное надо было брать 3090 за те же деньги, все же. Но кто ж знал, все только начиналось.
>>493403 >Не свопится в оперативу? а как это узнать? вроде влезает в Врам >>493414 >расчёты слишком просты для данных. поэтому я жду по 5 мин 200 токенов?
>>493425 В принципе да. Но и апишки это тоже по сути чужие локалки. >>493430 >поэтому я жду по 5 мин 200 токенов? А то. По скорости памяти просос. Впрочем да, посмотри хотя бы в диспетчере, чтобы врам не был полностью занят и чтобы копирование было на нуле.
>>493444 PCI-e вообще в процессе толком не участвует, после загрузки модели в память. Но если участвует — есть подозрение, что модель не целиком в памяти.
Попробуй скачать низкоквантованную, запустить с минимальным контекстом, последить за результатом.
Тупой вопрос, может я пропустил — ты в кобольде, ллама.цпп с оффлодом это делаешь или в экслламе?
>>493453 пропустил да - екслламма >Но если участвует непомню чтоб это было проверяемо контролер врам на половину примерно загружен - бывает меньше > минимальным контекстом контекст сильно может влиять? на каком обычно тут сидять шейхи с 3ххх линейкой?
В твоем случае влияние может быть именно на память. Если большой контекст, то врам может забиться и либо вылететь в ошибку — либо в оперативу. Поэтому, для чистоты эксперимента, лучше все в минимум и посмотреть. Чтобы физическая память была не впритык, а еще 700-1000 мб свободно. И виртуальная память видеокарты тоже не была занята (мегабайт 100 там может валяться до запуска, ето не страшно). Если все так, а скорость низкая — то тут уже какая-то другая проблема…
>>493414 > SP5 тут лучше будет Это уже совсем не десктоп, у штеуда тогда аналогичные серверные решения стоит брать. Там эпик вполне себе ебет, вот только цены ломят и не смотря на вроде единую нума зону (если сравнивать более дешевый двусокет синих с йобой односоккетом амд) есть нюансы. > 3090 это зэ бэст Чаю, отставание от 4090 в ллм процентов 10-15 там, топовее по прайс-перфоманс-возможности не найти. >>493436 Не совсем, если по графикам тестов perplexity смотреть то добавляется процентов 60-80 от контекста а после идет резкая деградация. Можешь сам потестить, только выбери HF вариант лоадера в убабуге. Консервативный вариант - добавлять по 2к на единицу альфы. >>493453 > PCI-e вообще в процессе толком не участвует При расзделении на карты или карта-проц участвует. >>493461 > шейхи А 40хх тогда кто? >>493481 Скрины покажи. Наверно постоянные токены, смотри еще авторские заметки и прочее на предмет мусора там.
>>493492 Гонять шинду на подобном железе это в принципе маразм, речь о росте задержки при взаимных обращениях и странном баге с доступом с памяти на отдельных ядрах на милане не смотря на единый домен. Но тут за что купил за то продаю, сам не сталкивался и нет нужных компетенций.
>>493491 > При расзделении на карты или карта-проц участвует. При разделении тоже слабо. Да и у нас тут GPTQ на одну карту, я об этом конкретном случае, офк. Если бы это был офлод, вопросов бы не было. =)
Можно как-то использовать в качестве фронт энда телеграм или дискорд? Бот бы пересылал сообщения от кобольда и обратно ему. Пытаюсь гуглить, ничего внятного не нахожу. Вкратце, я хочу иметь возможность чатиться с моделью запущенной дома на компе с телефона, когда я не дома.
>>493713 А что там сравнивать? По сути из беков есть оригинальная лламацпп, кобольдцпп, эксллама в двух версиях, да ещё и автогпт. По сути выбор стоит между экслламой через убабугу и кобольдцпп, и выбирают по доступным ресурсам (видяха или проц), а не по качеству.
>>493713 Сам проведи, в теории те что HF должны быть идентичны в пределах рандомайзера семплера, другое дело что сами кванты будут отличаться. >>493843 Это беки или "все в одном" >>493872 > аану сравни мне кобальт с бугабгуой Кобольд - форк llamacpp, в убабуге используется обертка llama-cpp-python. Сама математика вычислений там идентична, так что смысла сравнивать особо нет. >>493952 > и кобольдцпп Зачем он нужен когда в вебуи уже есть llamacpp?
Подскажите, как таверну к убабуге подключить. Какие адреса указывать. И скрин настроек, если не сложно. говорит в config.conf посмотреть. В убабуге сотня конфигов, config.conf не нашел, может в глаза долблюсь
>>493968 http://127.0.0.1:5000/api ws://127.0.0.1:5005/api/v1/stream В параметрах запуска раньше надо было api писать, сейчас возможно уже по дефолту или смотри в настройках.
>>493961 >Зачем он нужен когда в вебуи уже есть llamacpp? В кобольде совместимость есть, в лламаЦП добро пожаловать перекачивать все модели каждую наносекунду, как только герганов высрет новый формат. >>493968 Он же прям в консоли пишет адреса.
>>493984 > в лламаЦП добро пожаловать перекачивать все модели каждую наносекунду Чи шо, глупый, работоспособность ggml никуда не исчезала. Вообще, кобольд - продукт для совсем минималистов, хлебушков что не смогли осилить 3.5 команды в терминале, или идейных шизиков. >>493987 API включи, в параметрах запуска --api или в настройках галочку.
llama.cpp. The source project for GGUF. Offers a CLI and a server option. text-generation-webui, the most widely used web UI, with many features and powerful extensions. Supports GPU acceleration. KoboldCpp, a fully featured web UI, with GPU accel across all platforms and GPU architectures. Especially good for story telling. LM Studio, an easy-to-use and powerful local GUI for Windows and macOS (Silicon), with GPU acceleration. LoLLMS Web UI, a great web UI with many interesting and unique features, including a full model library for easy model selection. Faraday.dev, an attractive and easy to use character-based chat GUI for Windows and macOS (both Silicon and Intel), with GPU acceleration. ctransformers, a Python library with GPU accel, LangChain support, and OpenAI-compatible AI server. llama-cpp-python, a Python library with GPU accel, LangChain support, and OpenAI-compatible API server. candle, a Rust ML framework with a focus on performance, including GPU support, and ease of use.
>>494022 >Ну это тоже не бэки, это скорее движки, загрузчики. =) А беки сравнивать и смысла нет. Впрочем, кобольд таки и бек, и загрузчик, и даже фронт весьма убогий и для галочки, но он там есть.
>>494022 Справедливости ради надо отметить, что качество новых версий квантов сильно выше и ход отказаться от поддержки старых стимулирует их обновление, а иначе переползали бы крайне лениво. Ну а чего, Жора столько усилий положил а народ нос воротит, может себе позволить. К тому же сейчас скорость обновления моделей такая что отмирание старых форматов просто не заметишь. С ггуфом же там просто унификация и нет радикальных улучшений, видимо потому и есть.
Про реальное преимущество кобольда забыли - поддержка некрожелеза без сложностей. Еще бы автор делал что-то для развития, например прикрутил бы поддержку куды без avx2, а не просто собирал все в кучу.
>>494121 С тобой не хотят разговаривать даже нейронки. Это повод задуматься над тем, а всё ли ты правильно делаешь в этой жизни. Твоя внутренняя мысль, другие люди этого поста не видят
>>494121 > Теперь что не нравится? Авто-gptq испугался твоего шизонегатива и отказывается работать. Воспользуйся Exllama, это кадровый лоадер, прошедший кумерские точки, ее подобным не взять. >>494145 > Бэков как таковых нет. Простенький функционал что позволяет протестить - это не фронт с набором движком, бэк первичен. Есть несколько AIO но они уступают отдельным. > умеют быть бэками для друг Вут? >>494162 С кем ты общаешься?
>>493280 >Гпу на максималочках Ну вот, ASIC для обработки графики. Хотя да, надо было в самом начале прекол объяснить.
>про разработку целиком аппаратного решения на дискретных модулях Ух, ну это если поразмышлять о рентабельности или способах решения только, но результат все равно проигрышный получится, как по мне. В начале лета 16 чипов DDR4 по 8 сверху и снизу разводил, еле как за месяц управился, а тут и каналов больше, и куча всего остального. И прототипирование по карману ударит, мы в 12 слоев влезли, 0.1мм ширину дорожек и расстояние между ними, при тираже 1000 штук $20 за одну выходит, если память не изменяет. За 100 или 10 общая цена не сильно меньше будет. 3 DDR5 канала как один GDDR6, лучше тогда на FPGA по моей ссылке запилить, но все уже сделали за нас. Лет 7 назад думал про брутфорс DES, тоже хотел насобирать чипов, продумать все, а потом узнал про COPACOBANA и расхотелось как-то. Нужно или дешевле, или лучше делать, чем существующие решения, в нашем случае проще купить готовое у производителя, который на более широкий рынок работает, даже формат хорошо подходит, PCI-карта. Из примеров, когда стоит пилить свое, с год назад увидел на алиэкспрессе платы с XC7K325T по $120, купил 5 штук, вроде рабочие. Пишу помаленьку фреймворк для параллельной обработки, но это для себя, приятно иметь под рукой такую мощность почти даром. И DDRamdisk, может видел, но это скам, думал купить сначала. PCI SSD контроллер и 4 FPGA, прикидывающиеся флешем, а на самом деле — мосты к DDR3. Терабайт за косарь баксов обещали, но на демонстрациях контроллер для 3 версии шины показывал скорость четвертой.
>Оно же дешево и доступно Да, но я пока не решаюсь переходить, сижу на SATA.
>>493291 >а ты на сперме хочешь новое запускать. Не хочу, у меня еще Ведьмаки и все от Remedy кроме Макса Пэйна не пройдено, просто сказал, что такое возможно. Хотя наверняка многие игры обо что-нибудь другое запнутся, да, этого я не учел.
>>493385 >нужно жить в тайге Да, но у меня не хватает яиц на это. Решением бы были поддельные паспорта, но цена растет экспоненциально и появляется шанс присесть, что мне не слишком выгодно. Может, перееду в Панаму или какую-нибудь южноафриканскую страну, поменяю безопасность на личное пространство, а то страны первого мира затягивают гайки, уже разговоры о полностью безналичных расчетах идут. А следить за цифровым следом всем пригодится, да. Родители думали, что я параноик, а потом подошли сливы банков и служб доставки еды, поняли мою позицию наконец. Еще была история, порридж послал в телеграм проката машин скан паспорта и на него кредит оформили, лол.
>>494173 Окей, если так подумать — не друг для друга. Спутал, что кобольдАИ может обращаться как к кобольдуцпп, так и к убабуге, так и запускать самостоятельно некоторые модели, равно как и таверна старая, насколько я помню.
>>494182 > думали, что я параноик А я и есть параноик, не вижу в этом ничего плохого, если честно. Ну, в плане, если относиться к паранойе с медицинской точки зрения, то мы не об этом, конечно. А если иметь в виду обывательское значение «подозрительный человек, видящий всюду заговоры» — то почему бы и не быть таким, полезно для здоровья.
>>494182 > ASIC для обработки графики А нихуя, ведь на них можно играть, считать, катать нейронки, просто матрицы перемножать. Асик для параллельных математических операций! > сижу на SATA В последние лет 5 они дико деградировали из-за особенностей востребованности. Нормальный объем взять - он будет или днищем со скоростью ниже харда когда закончится несколько десятков гб lsc кэша, или оверпрайснуты до уровня топовых nvme. Но, офк, mlc а то и slc из древних времен все еще тащат, пока хватает их объема. >>494240 Однако ругается на озу. Эксллама не шарится, Llamacpp с подходящим форматом модели и подбирай число выгружаемых слоев. >>494362 > Там контекст маленький.... Скорострельнуть и 4к хватит, или тебе 16к для кума мало? Столько на месте тупить - тут и клода 2 залупится.
>>494513 дак она итак на видяху. Выбираешь угабугу или кобольд и ебашишь слои сколько хватает. Если все влезет в видяху то зашибись, если нет, то часть проц обработает. Но видяху минимум 12гб надо
>>494535 >2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp
>>494582 ну а как ты 13B блять запустишь 4Q почти всю видяху сжирают. 5Q уже жрет оперативу. Попробуй сам и узнаешь. Вбиваешь настроечки например в кобольде Cublas 40 слоев. Потом выбираешь сколько у тя ядер проца и вычитаешь одно ядро, результат пишешь в ядра ну и контекст допустим 4к. Все. У тя 40 идет в видюху, 3 идет в оперативу и проц это если ты на Q5 или Q4 сидишь. Хочешь можешь в проц уйти хоть целиком, но учти что ты быстрее сможешь кончить чем дождешься ответа ожидая генерацию по 1 токену в секунду. Так что никто не пиздит.
>>494336 Есть бенчмарки этих моделей в сравнении с обычными разжатыми альфой? В первой оригинальной репе > to do во второй резкая деградация напоминает недостаточный параметр а не объективное сравнение. >>494497 От рп зависит, на том же млевде вполне это можно делать, и никто не мешает переключать их на ходу. По контексту - кум смысловой нагрузки большой не несет и суммаризуется без ущерба. >>494502 > В этом преимущество ноутов? Нет, тот лоадер для куды. Но если в контексте мака то на нем llamacpp работает хорошо за счет скорости памяти. Бегло пролистав - там похоже не просто сравнение а возмущение семплинга на основе этих данных. Интересно посмотреть на реализацию. >>494582 С некоторых пор они могут быть выгружены на видеокарту что даст сильное ускорение. Считай чисто только под проц моделей сейчас нет, или универсальные, или только на видюху (и то их на проце возможно пустить, но очень медленно). > и откуда инфа про 12 Практика. На самом деле 12 там впритык, квант жирнее или контекст побольше и все. Но никто не запрещает выгружать не всю модель, оставляя часть на проце.
>>494582 GGML/GGUF можно выгрузить на видяху, но скорость будет вдвое ниже. Про 12 хуита полная ваще. Выгружай себе часть слоев и все тебе будет без 12 гигов.
>>494535 Сам с собой запутался. Если он выгружает часть слоев, ему 12 гигов нахуй не надо. Только если все, да и на высоком кванте не хватит. Криво выражаешься, люди тебя не понимают.
>>494587 Нахуй вычитать одно ядро, воробушек? Обычно берут половину ядер. Как правило, это загружает 60% проца. Но вообще, 4-5 норм ядер достаточно для ddr4 3200 в двухканале. Если память быстрее — берешь больше ядер.
>>494628 1) все будет работать конечно и на 8 гигах, но скорость генерации пиздец как падает. 2) надо вычитать. Я прочиталь хз где но сказали так лучше. У меня 6 ядер так шо я юзаю 5.
>>494628 >Нахуй вычитать одно ядро, воробушек? Так кобольд по умолчанию делает, лол. >>494628 >Но вообще, 4-5 норм ядер достаточно для ddr4 3200 в двухканале. У меня на DDR5 6 кеков больше 5 ядер ставить нет смысла, лол.
>>494656 1) Ну так скорость генерации — это отдельный разговор. =) И если мы говорим о скорости, то это GPTQ, а не offload процессорной модели на видяху. 2) Не надо вычитать, хуйню читаешь, потестируй сам и нарисуй кривую скорость-количество ядер, сам увидишь. =) Если очень хочется буквоедствовать, то надо вычитать ~10% ядер, это будет и то точнее, если хочется повычитать.
>>494679 Когда я последний раз его запускал, он вычитал 50% ядер. =) Может щас поменяли, но стабильные 60% загрузки было. Но это пару месяцев назад, конечно. > У меня на DDR5 6 кеков больше 5 ядер ставить нет смысла, лол. Т.е., 5 ядер хватит всем, получается? :)
// ---
Так че там, где там фанаты огромных массивов софта, собранного из библиотек на пипе, ноджиэсе и прочих менеджерах? У меня убабуга стала на CPU-only платформе принудительно прописывать CUDA_PATH и CUDA_HOME себе в environment variables, и ему похуй на CPU-only установку. Давайте, оправдывайтесь, как это произошло, и почему это не чинят уже 3 дня. =D Где там ваша хваленая скорость разработки.
>>494695 Очевидно она делает векторное представление всех сообщений, а потом, скорее всего, подставляет в историю чата наиболее подходящие. >>494711 >Когда я последний раз его запускал, он вычитал 50% ядер. =) Ну ХЗ. У меня 12 ядир, 24 потока, итого кобольд ставит 11 тредов, то есть число физ ядер - 1. >>494711 >Т.е., 5 ядер хватит всем, получается? :) Таки да.
>>494760 Не слушай фанатиков >>494768 Я поначалу тоже поверил адептам Нвидии и думал что моя карта бесполезный мусор, на деле же мусор, но не такой уж бесполезный Ты легко можешь засунуть в память этой карты: 7В модели - ответ 20-40 секунд. 13В модели с q4 квантосанием - ответ 1-1,5 мин. 30В модели с квантосанием 2-4q, выгрузив потовину слоёв в ОЗУ - ответ 2-3мин а хули ты хотел? 70В - не стоит вскрывать эту тему
Бери GGML или GGUF модели и запускай через Kobold.cpp и CLBlast.
Наконец 20В годную выкатили. Раньше все франкенштейны были всратые, а ReMM-L2-Chat-20B уже явно лучше 13В. Оно не проёбывается с разметкой и может нормально выдать 10 реплик вперемешку с мыслями, при этом не проебать звёздочки. В отличии от MLewd не переходит в дичайшую графоманию без смысла, не затыкается в один формат сообщений. И по размеру заебись - групсайз 32 лезет в 24 гига с большим контекстом.
>>494711 > Т.е., 5 ядер хватит всем, получается? :) Зависит от архитектуры - у штеуда гетерогенные ядра, у амд блочная структура, по-разному может. Часто наилучший результат если ее вообще не трогать. А то что 5 ядер - все упирается в рам и анкор, для обсчета с учетом этих ограничений много ядер и не надо. > У меня убабуга стала на CPU-only платформе принудительно прописывать CUDA_PATH и CUDA_HOME себе в environment variables, и ему похуй на CPU-only установку. Это где так и когда? После обновления все также работает, все также неюзабельно. > Где там ваша хваленая скорость разработки. Скилл ишью >>494749 Для квантования нужно железо, что вместит исходную модель в фп16. Там для exl2 какие требования есть или torch-cpu хватит? >>494808 Начни пердолиться, времени кумить не останется. >>494849 Она же все также экспериментальная и странная. Или ты попробовал и годнота?
>>494951 > Это где так и когда? Да вот, пару дней назад, я в начале плюнул, а седня решил разобраться. Просто вписал del os.environ["CUDA_PATH"] и че-то еще, перед запуском, оно работает норм. А почему так — лень разбираться просто. Кривая хуита, как всегда. =)
>>495110 Нет, проблема действительно в навыке. Дай угадаю - притащил не совместимый с системой торч под куду? Сам нагадил, а потом ноешь про злого убабугу, который в штаны заливает. Вот смотри, ласт коммит, ласт реквайрементсы, о куде ничего не известно, и в начале положенное предупреждение об отсутствии гпу ускорения. Алсо говномодель за тебя топит, или может уже так отыгрывать начала.
>>495131 Лол, опять маняфантазии. =) Нет, проблема в кривости модульной убабуги.
Давай воспроизведем все как было. Работает. Жму update_windows.bat Не работает.
Хоба, в каком месте я тут притащил куду? =D
Давай подробнее. Два месяца назад установил с нуля чистую убабугу CPU-only (надеюсь, понимаешь, что это значит?). Два месяца подряд она работала (нет, вообще ломалась иногда, но потом чинилась). Все эти два месяца ежедневно я просто нажимал update_windows.bat, наслаждался дефолтным нативным обновлением и все. Ничего лично не устанавливал и не лез.
А после обновления три или четыре дня назад — стала вылетать с ошибкой.
Почему? Это не ко мне вопрос. Я туда не лез, на кой хер мне лезть в рабочую программу, если меня там все устраивало на тот момент. Нет в коммитах? Окей, и что с того, если баг появился? Ответ будет ниже. Ты как в том анекдоте «у меня на компе все работает». Извините, но клиенту мы ваш комп отдать не можем. =) Ну, хотя, технически, ты можешь отдать мне комп, канеш, если там 0,7 токена на 70Б будет — я даже согласен. Но, боюсь, ты на такую жертву за идею не пойдешь, а значит убабуга обосрался. So sad. Проблема в навыке — но не моем, ибо нажимать update_windows.bat много навыка не надо. =)
Но мы можем попытаться поискать проблему дальше.
Итак, я порылся в файлах. Что мы имеем? Открываем файл start_windows.bat (прямо с гита берем, чтобы не было претензий), на 60-61 строках видим: >set "CUDA_PATH=%INSTALL_ENV_DIR%" >set "CUDA_HOME=%CUDA_PATH%" Окей, значит эти переменные устанавливаются всегда, даже если у нас CPU-only софт. Интересный подход.
Открываем \installer_files\env\Lib\site-packages\llama_cpp\llama_cpp.py, на 58-60 строках видим: > if "CUDA_PATH" in os.environ: > os.add_dll_directory(os.path.join(os.environ["CUDA_PATH"], "bin")) > os.add_dll_directory(os.path.join(os.environ["CUDA_PATH"], "lib"))
Т.е., эта проверка проходит всегда. Круто-круто, сразу виден продуманный код.
А теперь запускаем программу и видим пикрил. Почему? Потому что никакой куды у нас сроду не было, никакой папки /bin/ у нас быть не может, и, как бы, хули прога хочет — одним фанатам пакетных менеджеров известно. ¯\_(ツ)_/¯
Теперь убираем строки с назначением CUDA_PATH и CUDA_HOME — и, о чудо, программа работает без каких-либо проблем!
Ты апеллировал к тому, что в ласт коммитах нихуя нет, только вот ты забыл, что ваша чудесная прога на 10 гигабайтах библиотек, работает через сотню зависимостей, которые все нахуй могут ломать (не в перво́й). Например неделю назад она ломалась из-за elevenlabs, которые подтягивали зависимость, не подходящую самой убабуге. Чувак два дня чинил.
Программы собранные руками по нужным кускам, оттестированные и оптимизированные — корректнее, чем программы собранные пакетными менеджерами из гигабайт библиотек, которые друг с другом конфликтуют и кладут хуй на совместимость, а разрабы потом это чинят столько же, сколько можно было собирать и тестировать. Да, чуть быстрее, но, как видишь, проблема в навыке, да не моем.
Все файлы мною не подменивались, взяты оригинальные из оригинальных источников, путем запуска всего лишь двух файлов: star_windows.bat и update_windows.bat.
Кстати, спасибо тебе, я нашел способ лучше del os.envrion, просто закомментив set.
Кстати, интереса ради, я почекал открытые ишью в убабуге. 140 багов, норм стабильная прога. Кстати, так же там я нашел тред про P40. https://github.com/oobabooga/text-generation-webui/issues/3825 Судя по всему, на ней можно получить некую нормальную производительность выше 1 токена/сек для codellama, но сколько именно — никто не уточнил.
Возможно, покупка P40 и правда оправдана может быть, хз-хз.
Аноны, поясните за https://github.com/YellowRoseCx/koboldcpp-rocm В репе koboldcpp лежит ссылка на этот форк, как на версию для АМД, но что там конкретно АМДшнгого? Попробовал hipBLAS - вылетает. Запустил через CLBlast - разницы с оригинальным кобольдом не заметил. Нахуя оно тогда нужно? Или я что-то не догнал?
Ребят, я новенький. Я шапку читал, по ссылкам ползал, но не нашел то что мне нужно.
Как вот это меню с пика настраивать и как туда промпты загрузить? Заспунфидьте пожалуйста. Еще бы хотелось бы подробно узнать как этими настройки пользоваться и за что они отвечают.
>>495371 А, олдскульный вонаби тру программист вместо того чтобы вбить 4 команды из инструкции (которая и не нужна ибо процедура базированнее некуда и везде идентична) > git clone > python -m venv ./venv ; . ./venv/activate > pip install torch torchvision torchaudio > pip install -r requirements.txt использует костыль-исталлятор для хлебушков, выбирает в нем неверные параметры, а потом страдает. Эталонная ца чтобы словить утенка от сборника для особых случаев или неосиляторов. А может дело в самой цели - косплеить скуфидона, который учит всех жизни. Сколько токенов в секунду на шизу выдает? > открытые ишью в убабуге Большей частью там братишки типа тебя > колеса не собираются > модель загружаемая не совместимым лоадером не работает > все сломалось ничего не работает помогите и это ты еще больших проектов не видел.
> тред про P40. Тот загрузчик сам по себе не быстрый, паскали слабы, а тут еще (возможно) особенности инструкций, которые на той архитектуре медленно работают. На ней же эксллама должна крутиться, по заявлениям аж 8 токенов на 13б, будет хотябы на уровне процессора а не медленнее. >>495478 Юзай пресеты, simple-1 для начала, контекст на ту величину которую загружаешь, лимит длины ответов отодвинь чтобы не обрезало (это не гарантия что даст длинный пост, просто будет остановка при упоре в него), промт формат сверху где буква А, там тоже выбери из стандартных пресетов ролплей или симпл прокси если для кумерских миксов.
>>495543 > А, олдскульный вонаби тру программист вместо того чтобы вбить 4 команды из инструкции (которая и не нужна ибо процедура базированнее некуда и везде идентична) Выглядит, как будто ты себя описал, если честно.
Почему ты по сути не отвечаешь, маня? :)
Вбить команды из инструкции и все такое, ты рил не понимаешь, что это гнилая отмазка? У меня претензия к тому, что подход «собрать кучу библиотек, не контролировать их версии и совместимость, использовать все подряд, даже то, что не требуется для работы» — хуевый, и имеет свои проблемы.
> и это ты еще больших проектов не видел. А что для тебя «крупный»? Я даже хз как оценить, на самом деле. Но убабуга крошечная, конечно, на фоне тех, на которых я работаю. Багов у нас столько и близко нет.
> использует костыль-исталлятор для хлебушков Так это не «для хлебушков», а «от хлебушков». Ты стрелочку-то не переводи, проблема в авторе, который такое пишет. =)
> выбирает в нем неверные параметры Так, а что я там не так выбрал, расскажи мне? Ты за время нашего диалога игноришь половину вопросов, видимо потому, что ответить за свои слова не можешь. Но если ты рил считаешь меня глупым, а себя умным — то хватит балаболить, ответь за свои слова.
Итак. Запускаем скрипт с нуля (написанный автором программы, которому я вменяю косяк в написании в том числе этого скрипта, и принципа подхода к проекту, ага да, если бы ты внимательно читал, а не фантазировал…). Он ставит миниконду, создает венв. Спрашивает — какой у меня гпу. Я ввожу D (no GPU). Инсталл идет дальше. Инсталлит базу, пуллит убабугу и экстеншены, инсталлит реквайрментсы. Все. Буквально — все. Один единственный выбор. Если я запускаю на проце, то скажи мне — что мне надо было выбирать для кукурузена? AMD? NVidia? Apple M Series? =) Ты сказал, что я выбрал неверно, ну тогда скажи, что там выбирать правильно.
О тебе складывается такое впечатление, что ты увидел консоль в первый раз, смог копипастнуть 4 строки туда, и уже себя программистом великими считаешь.
Я никого не учу жизни, что самое забавное. Чтобы воспринять это так — надо быть сильно закомплексованным человеком. Я всего лишь констатирую простую вещь, что у разных подходов есть свои плюсы и минусы. И что убабуга как софт — та еще херня из-за выбранного разработчиком подхода. И в текущем подходе «вот вам 10 гигов зависимостей, которые никто не чекает» стабильной проги быть не может, ибо все это само обновляется. Все, где тут «учу жизни»?
Причем, я пишу же совершенно без негатива, все зависит от тебя. Есть что сказать по существу — говори. Не шаришь — ну так кто тебе мешает просто промолчать или сказать «ну да, может и так, не шарю». Откуда у вас железная уверенность, что сказав однажды, надо усираться до конца, закапывая себя. Ты рил думаешь, что игнорируя мои аргументы и не отвечая по сути, ты победишь в споре? Это так не работает. Кроме твоих фантазий, чел.
> Сколько токенов в секунду на шизу выдает? Твой шизобред тут даже уже понять сложно становится. Ты всерьез спрашиваешь меня о производительности, не знаю конкретного железа? Или это была такая «ирония»? Ну а сколько выдает стандартный проц на псп 50 мб на 70Б модели. Вряд ли у меня сильно отличается результат. 0,7 т/с, насколько помню. Если ты такое запускал, поделись результатом, сравним.
> Тот загрузчик сам по себе не быстрый Я в курсе. > паскали слабы Я уже два треда об этом пишу.
> На ней же эксллама должна крутиться, по заявлениям аж 8 токенов на 13б Ну вот это уже неплохо. Конечно, фича P40 в объеме видеопамяти, на ней надо запускать 70Б. Если очень грубо экстраполировать, получится ~1+ токен/сек. Ну, чуть получше проца, да, раза в полтора. На самом деле, это уже неплохо. Если там будет работать Exllama2 с 2,55б квантом, то может быть еще заметно быстрее.
>>495543 Спасибо, но не мог бы ты пожалуйста рассказать что за что отвечает, чтобы я потом сам мог настраивать? Или ссылку где можно про это почитать. Пожалуйста.
>>495596 Попробуй такой лайфхак — если ты запускаешь кобольдцпп как бэк для таверны, то зайди в сам кобольдцпп, на вкладке настроек будут эти же параметры с вопросиками рядом с ними, там и почитай. Но начать и правда стоит именно с дефолтных пресетов. Попробуй Divine Intellect или Kobold Godlike для начала.
>>495582 > Выглядит, как будто ты себя описал, если честно. Зачем себя, даже не программист, тут громких заявлений не делаю и жизни не учу. Лишь указываю что твои утверждения про то "как надо писать программы" и "какие все пидарасы все делают не так", которыми уже в куче тредов насрал - лишь шиза, заодно разбирая по частям. Началось с нейтрального обсуждения, а переросло в посты со скроллбаром без содержания, даже когда с тобой дискутировать отказываются. А потом Остапа понесло делать выводы и описывать свои трактовки, чтобы приплести под свои суждения. > Ты всерьез спрашиваешь меня о производительности, не знаю конкретного железа? Поясняю, это стеб и отсылка к тому что твои посты на 3к+ токенов не далеко ушли от графомании шизомиксов лламы, железо тут не при чем. > фича P40 в объеме видеопамяти, на ней надо запускать 70Б. Если она не может с нормально запускать 13б то их покупка для 70б бессмыслена, т.к. даст скорость сравнимую с процессором. Сколько времени потратил на сочинения, уже бы заказал да протестил в бенчах ее. > получится ~1+ токен/сек В том и дело что это совсем не юзабельно. Даже 3 т/с это совсем печально. Другая проблема в том что > с 2,55б квантом останется от модели на самом деле. Тесты викитекста и заявления о том что оно может в когерентный текст это хорошо, но насколько оно будет юзабельно в реальности. >>495596 Это параметры семплирования, идет их цепочка в которой каждый отбирает/отсеивает токены по своей методе, генерируя тебе текст. Вот самый сет тех что есть в параметрах https://huggingface.co/docs/transformers/main_classes/text_generation Если совсем упрощать, то основные: температура - рандомайзер, чем выше тем более разнообразно (иногда кажется креативно) но и более непредсказуемый текст или шиза, Top P - отсечка токенов по вероятности, 0 - детерминизм, 1 - нет отсечки, Top K - количество токенов, среди которых будет розыгрыш, Repetition penalty/Encoder repetition penalty - штрафы за повторение. Суть в том что отдельные параметры влияют друг на друга. Делали рандомайзер и потом арену с реальным голосованием, победители тут https://github.com/oobabooga/oobabooga.github.io/blob/main/arena/results.md Совет простой - попробовать из перечисленных там пресетов, они в таверне есть. Если докучают лупы - немного подними rep pen и/или encoder rep pen вместе с температурой. Еще можно поиграть с их порядком, но лучше не лезь а то сожрет.
>>495864 Надо саму модель инструкциями кормить, посмотри, что настроено в модели и сделай такой же формат в таверне. Там есть несколько пресетов для примера. может, один из них подойдёт.
>>495848 > жизни не учу Так и я не учу, у тебя опять комплексы бьют? > какие все пидарасы все делают не так Такого я не писал, ты опять фантазируешь. > даже когда с тобой дискутировать отказываются Но дискутируют. =D > Поясняю Пасиба. Можем закинуть в таверну нашу дискуссию и посмотреть количество токенов. =D
> Даже 3 т/с это совсем печально Да, но лучше проца. Ну так, если кому-то надо — возможно это вариант для вопросо-ответной модели, но > останется от модели Соглы, это будет скорее альтернатива неслучившейся 30б, но насколько она адекватна — вопрос актуальный.
Так шо, пожалуй, переживем. :Ждем следующие поколения по дешевке.
>>495944 >Так и я не >Такого я не Ты думаешь тут тупые сидят, и не выкупают, что ты имел в виду на самом деле? >Да, но лучше проца. Не настолько лучше, чтобы это стало решающим.
>>495944 Уже переобулся и вроде добрячок, но все равно желчь и обида между строк лезут. Ну ладно, живи пока, лучше бы литерали ту же 2-3 битную модель погонял за время на срач. > посмотреть количество токенов Еще когда первый матрас увидел чекнул, 3к не с потолка взято. > Да, но лучше проца. тут 2 умножить на 0, толку всеравно нет. Если только в комбинации с процом что-то сможет на моделях побольше. >>492498 > Синтию надо попробовать, вдруг хайденгем Это не хайденгем, это чуть ли не ультимейт ерп кумерская модель среди семидесяток (версия 1.2b). На первый взгляд какой-то QA соевик с файнтюном под чат, на деле выдает такое что всяким кимико и не снилось, имеет суперплавный переход от обычных активностей к левду, инициативничает, понимает популярные фетиши и имеет очень хороший слог. Последнее - серьезное преимущество после всяких "ту соулз" и прочего симулятора толкинистов, и диалоги длинные - подробные вместо "Ах ох ты ничего~~" куча бесполезных действий. Соображает прилично, сама вводит новых персонажей (с одобрения офк) и прилично ведет их (одного по крайней мере хорошо), без лупов и тупняков. Офк если минусы, иногда будто путается предлагая имперсонейт где роли юзер/чара свапнуты, возможно из-за несовместимого промта. Околофентези в датасете не хватает - персонажи с особыми атрибутами начинают вести себя как обычные нормисы, пока не намекнешь и подобное, тогда как другие файнтюны сразу смекает что к чему. >>496001 При первой возможности лучше избавиться от него и просто создать локальный вэнв или окружение конды, откуда уже все пускать.
Анон, с конца июня не пользовался уга-бугой для кума. Тогда вышел ExLamma и я охуел от скорости генерации ответов. bluemoon-13b была вроде.
Сейчас же обновил уга-бугу и всё поломалось, пишет с трудом, долго и бредово. Это типа старые модели всё? Нужно переходить на Гуфа этого нового? А через что его запускать и какие параметры выставлять? Пиздец я динозавром себя чуствую.
>>496139 > Это типа старые модели всё? Вышла вторая ллама и все новые модели на ней, качай gptq да кумь в экслламе на здоровье. Старые тоже должны работать если для них выставить оригинальные параметры. Можешь gguf качать и с помощью llamacpp полностью выгружая слои запускать, в пару раз медленнее но доступны готовые более жирные кванты, хотя для 12 гигов это не актуально. >>496206 > Очень медленно отписал. Слои выгрузи, а то на проце считается.
>>496261 В той же MLewdBoros-LRPSGPT-2Char-13B-GGUF никаких конфигов нет. Но, старые модели и правда заработали как раньше в плане скорсоти на ExLamma.А вот размер текста хромает
>>495415 >Попробовал hipBLAS - вылетает. Что-то неправильно сделал. >Нахуя оно На амудэ работает заметно быстрее clblast, в 1.5 раза примерно. Но жрёт больше vram, меньше слоёв помещается (но даже с учётом этого быстрее считается).
>>496285 >GGUF Потому и нету лишних файлов, это процессорная однофайловая модель. Читай шапку, я её не просто так писал. А вот всё, тчо под экслламу, надо качать с конфигами.
>>491985 > У меня 6950 и i9-9900K, планирую на 5950X заменить. MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом. 3-5 токенов в сек на рыксе 6950, это шутка штоле? Вроде даж на полярисах больше было, но на 7б.
>>496433 >на полярисах больше было Я замерял на Q4-что-то-там, а у него Q6, у меня была rocm-версия koboldcpp, а он, возможно, замерял на clblast. >>496514 >Скачал koboldcpp_rocm_full.exe И вот здесь ты допустил ошибку. ROCM нормально работает на linux, на винду поддержку завезли недавно, и старые полярисы вряд ли поддерживаются. Даже на linux их уже официально дропнули, хотя код под них всё ещё компилируется, а на винду, скорее всего, даже не добавляли. Алсо, для корректной работы rocm на полярисах нужна pci-e v3 с поддержкой atomics, т.е., cpu начиная от первых ryzen либо ivy bdrige (кроме i3) и материнская плата, где заявлена поддержка. Это починили уже в вегах и дальше в rdna.
>>496537 У меня Ryzen 5600X, так что с аппаратной частью ок. >Даже на linux их уже официально дропнули То есть послали нахуй одну из самых дешёвых и производительных карт в линейке АМД? Ахуенно. Это что получается, линукс ставить и в нём это всё компилировать? как-то слишком дохуя дел для прироста в 1,5 раза
>>495974 > Ты думаешь тут тупые сидят, и не выкупают, что ты имел в виду на самом деле? XD Нет, тут сидят такие тупые, что думают за других, строят ветряные мельницы и храбро их побеждают. Печально, что к реальному диалогу это не имеет отношения. =) Я уже раз пять повторил, что я имел в виду, продолжать утверждать иное — это уже клиника, бро. Ты бы сходил к психиатру, проверился. Вот, опять же, но оффенс, но когда человек вменяет другому человеку некий смысл, которого просто нет — это совершенно нездоровая ситуация. Это либо зашкаливающие глюки, либо попытка хоть как-то оправдаться в своих глазах. За меня не волнуйся, я посещаю, слежу за своим здоровьицем. =)
>>496001 Во-от, да, это уже конструктивный ответ. Вполне может быть и оно. Там еще webui.py тоже не обновляется после создания, их я тоже на всякий случай обновил из дефолтного.
>>496024 > Уже переобулся и вроде добрячок, но все равно желчь и обида между строк лезут. Чел, да я всегда таким был. =) Ну камон, где тут желчь и обида, кроме моих оппонентов, у которых горит от несовершенства их говно-идеала. Ты хоть перечитай все внимательно, сколько уж раз написано про все. Даже повторять не буду.
> Ну ладно, живи пока КЕК Это самый топорный способ слиться с дискуссии, когда кончились не только аргументы, но и даже пиздеть как-то не хочется. По сути один-единственный человек комментарием выше ответил в пару строчек и все, не обломался. Удивительно, почему ни у кого больше не вышло. Да я не против сколько угодно продолжать этот диалог, так как я в нем прав по фактам, а собеседникам кроме словоблудия и сказать нечего. =) Дико ржачно, как кто-то сагрился на поломку в убабуге, начал защищать, в итоге слился безаргументно, и теперь делает вид, что это меня пожалели. =) Ну-ну.
Не, я серьезно и без токса: хватит видеть то, чего нет. Без шуток про грибы или колеса, просто хватит выдумывать то, чего я не говорил, не имел в виду, не испытывал. Такое ощущение, будто ты сам — хреново настроенная модель без промпта. Write one reply only. Do not decide what {{user}} says or does. Do not repeat this message. Плизики.
>>496139 Ща тебе расскажут, что это у тебя руки кривые, а великолепная программа глючить не может! =D
>>496285 n-gpu-layers Начни с 25 и повышай, проверяя, как там видеопамять занята.
>>496537 > Я замерял на Q4-что-то-там, а у него Q6, у меня была rocm-версия koboldcpp, а он, возможно, замерял на clblast. Да всеравно мало что-то. Это ж бывший флаган амд. 3090 13b-q6 через ламацпп давит 30 при мелком и 15 при 7.5к
>>496706 She couldn't help but let out a soft gasp at your request >>496712 Хуясе ебать, как минимум стоит попробовать, особенно с аккуратно настроенным инстракт режимом. Менее тупой офк ружпт не станет, но может выдать что-нибудь не дженериковое. >>496722 > и 15 при 7.5к Мало, если только в семплере чего-то не накрутил.
>>496726 > Мало, если только в семплере чего-то не накрутил. Ну 16-17 если точнее. Крутил, да. А сколько должно быть? Алсо, через экслама 2 13b-gptq 50-55 и около 30 соответственно, это норм или тоже больше должно быть?
>>496712 Нейроанон у меня на карточке звучит интересно. Вот бы кто-нибудь классный и крутой зафайнтюнил уже имеющуюся хорошую модель или даже сделал лору на основе этого датасета
>>496820 >терпеливый Там ответ за менее чем 10 секунд должен приходить. Совсем зажрались со своими облаками. >>496815 Збс. На 70B люди 2 токенам в секунду радуются.
>>497062 > сюжет, а этот, допустим, нет? Она никакой мир не знает в том смысле в котором это было бы константой. Нейронка натурально перемножает случайные величины чтобы выдать тебе натурально случайный ответ в пределах заданных параметров и только. Ну а если не выёбываться - то очевидно спрашиваешь факты о интересующем мире интересующего персонажа и на глаз и вкус понимаешь, что она знает, а что нет. И используй силли таверну там есть лорбуки (хз просто есть ли оно в обычной таверне) которые действуют как база данных с определёнными данными - хоть заклинаниями, хоть инфой о мире.
>>496849 > На 70B люди 2 токенам в секунду радуются. Шо? Чему радоваться если не хватит терпения даже настроить. Юзабельность начинается с 7т/с со стримингом и околомгновенной обработкой контекста. >>497153 В теории 2 амд, на практики 2+ нвидии, конкретные вендоры не важны. >>497285 Видоекарта, 8 каналов по псп это что-то типа 3060 >>497345 > Три придётся, чтобы взять квант чуть пожирнее, да контекста отсыпать 16к Жирнее по битности - да, а так с новой бывшей-лламой 16к влезает и в 48 даже без флеш-атеншн.
https://huggingface.co/TheBloke/Xwin-LM-13B-V0.1-GGUF Моя новая любимая модель. Сначала зашла модель Mythalion, после тестов с реддита (решил попробовать), и понравилась она больше MLewd, почему-то последний у меня тупил и лупился быстрее Мифалиона. Однако, потом ради прикола попробовал Саманту, Синтию и Визард. Синтия на 13B как-то не зашла, но говорят 70B модель крайне годная. Саманта и Визард выдали интереснее ответы. Мифалион разворачивал историю будто ты уже в эро фанфике, а Саманта с Визардом секс скорее видели как доп опцию, лучше понимали какие-то правила и выдавали нестандартные ответы. На этом фоне Мифалион уже не так впечатлил, но остался, ибо на нём кумить всё же лучше. Пока сегодня не попробовал карточку с одной эльфийкой. Там секс упоминался в карточке скорее вскользь, поэтому она показывала свою цундерошность во всей красе и не спешила на контакт. В целом, мне это зашло, пока не стал замечать что чуть ли ни в каждом предложении она настойчиво интересовалась зачем я приехал на хату и чем я таким занимаюсь. При этом часто игноря половину ответа, если это не относилось к её вопросу напрямую. Как будто гнула свою линию. И вот я скачал Xwin. И прямо ух ты, модель хорошо держит правила, обстановку, с разными персами разные штуки она замечательно отыгрывала, и тут лупов было намного меньше.
Я уже научился что в начале общения можно температуру поставить .6, а реп пенальти 1.1-1.2, потом по ходу приходится поднимать и свайпать больше. Но с Xwin этого было почти не надо. Рекомендую попробовать.
>>497464 >А как настраивать? Крутить температуру и прочие настройки прочих семплеров. >>497464 >И какое железо под это нужно? В идеале 2х3090(4090). В реале можно и на 64 гигах DDR5 крутить, с символической помощью видяхи.
>>497411 >Сначала зашла модель Mythalion, после тестов с реддита (решил попробовать), и понравилась она больше MLewd,
Так это и понятно, все эти MLewd, ReMM и т.п. от Undi95 это ж просто смеси вслепую - смешать чего-то наобум, а вдруг получится. Среди этой горы смерженного говна, которым забит HF, только Mythalion и получился, причем случайно. Хотя эти авторы мерджей пишут в карточках некие псевдонаучные обоснования свой алхимии - это просто блаблабла. А Mythalion это пигма и этот единственный удачный мерж. Вообще чем меньше компонентов, тем более предсказуем результат смеси. Когда модель обучают хотя бы представляют что получат в итоге и что хотят получить в отличие от многокомпонентных смесей. Xwin как я понимаю, обученная модель, хотя в карточке ни описания датасета ни того как проводилось обучение... Тем не менее вот и результат, который вы сами наблюдали - лучше мешанины.
А чего мешанины так много - так это ж просто, я тоже могу намесить десяток за день пятью разными способами (используя подкачку на NVMe от 13b и меньше к примеру. Налепить франкенштейнов с непредсказуемым результатом... другое дело натрейнить модель будет посложнее. Даже вот лучше натрейнить лору по-моему лучше чем месить наугад, основываясь на дилетантских суждениях. Так что весьма скептически отношусь к смерженным моделям если там более двух компонентов не считая лору.
>>497411 Вот эта интересна, не просто шизомикс с нулевыми тензорами, а файнтюн со своим подходом. Она именно для кума или общий рп хорош? И насколько понимает намеки/отсылки? >>497464 Речь о формате промта и семплеров. В принципе ответы - рандом, на многих моделях, особенно в начале или на развилке, свайпы подряд могут сильно отличаться, нельзя делать выводы по одному неудачному если на него приходятся пять убергодных. Когда ждешь ответ по несколько минут - банально не будешь пытаться что-то подобное сделать, а выводы придется делать по короткому чатику, который мог просто оказаться неудачным. Здесь же и доля субъективизма больше, вместо общей оценки будет жопа полыхать от того что на выходе не тот результат, который хотел, даже если тот будет хорошим. >>497467 > можно и на 64 гигах DDR5 крутить, с символической помощью видяхи ~2т/с, мазохизм >>497477 > скептически отношусь к смерженным моделям если там более двух компонентов не считая лору. Там еще проблема в том что чуть ли не половина компонентов замесов - сами по себе вшитые лоры. В итоге после смешения может пострадать немалая часть модели, из-за чего местами наступит шиза, но кое где внезапно полезет креатив. То и наблюдали изначально на huggin, а потом уже на мифах. Технику замеса действительно подняли и оно далеко не дно как первые версии, но дичь всеравно встречается. > используя подкачку на NVMe Зачем? >>497485 > xwin 70b Это не шизомикс, это оригинальный файнтюн, по их описанию офк.
>>497477 >Даже вот лучше натрейнить лору по-моему лучше чем месить наугад Я правильно понимаю что Лора - это что-то вроде дополнительного слоя? А когда мешанина моделей, то там эти слои в такой кошмар превращаются, что на выходе что угодно может быть? > Она именно для кума или общий рп хорош? И насколько понимает намеки/отсылки? Я как раз кун с ~2т/с, поэтому не то что бы ГЛУБОКО изучил вопрос. Учитывая, что по описанию её продвигают просто как умную модель, думаю, она хороша и просто в РП, потому что, опять же, правила отыгрыша и особенности персонажей она выдерживала лучше.
Ну вот если помните были такие простейшие скрипты типа https://github.com/TehVenomm/LM_Transformers_BlockMerge где можно было послойно смешивать хоть в шахматном порядке хоть елочкой или лесенкой. Баловался тогда на первой ламе. Этот скрипт складывает каждую модель в память еще и в двойном размере бывает оперативки не хватало. Потом конечно наделали всяких револьвер, слерп, бакллама, но к тому моменту уже я утратил интерес к экспериментам со смешиванием. Лучше сосредотачиваться на качестве датасета для лоры например, чтобы с некоторой уверенностью получить то, что хочешь.
>>497285 12-канал вдвое ниже 4090 >>493418 8-канал — втрое, стало быть.
Итого: втрое медленнее, но неограниченно по объему. Сильно медленно? Да нет, в общем норм скорость, весьма бодро. А че по цене? Ебать, ну хуй знает. Звучит так, будто лучше уж взять 4090 3-4 штуки.
>>497362 Слои раскидываются по видяхам, и обсчитываются последовательно, а между видяхами передаются состояния. Все, никакой магии.
>>497486 > ~2т/с, мазохизм Уверен? Может 1,1~1,5? Даже с помощью видяхи 2 я прям не уверен.
>>497519 >Я правильно понимаю что Лора - это что-то вроде дополнительного слоя? А когда мешанина моделей, то там эти слои в такой кошмар превращаются, что на выходе что угодно может быть?
Это как бы "пред"-слои когда просто грузишь лору с моделью, когда объединяешь эти слои сливаются с моделью, не образуя дополнительные, иначе архитектура бы изменялась. Поэтому в идеале к каждой модели должна быть родная лора, это дает предсказуемый чистый результат, хотя обычно объединяют руководствуясь просто архитектурой, это тоже дает рузультат, иногда интересный, но уже он более отклоняется от цели так сказать. Хотя может как в худшую так и неожиданно в лучшую сторону. При смешении моделей особенно многократном в несколько этапов получается усредненная каша с большой вероятностью скорее с утратой хороших особенностей чем наоборот. Иногда такая смесь может и выдать чего-то интересное, но в целом скорее окажется похуже чем каждая из кучи исходных (при условии что то были модели сами по себе не смеси)
>>497535 > Уверен? Зависит от семплера, кванта, разгона рам, проца, видюхи отключения e-ядер, двушка экспериментально получалась, по заявлениям у кого-то даже под 3 было. В любом случае это может сработать только если ты терпеливый как >>497528 > Итого: втрое медленнее, но неограниченно по объему. Пока что скейл между псп рам и т/с так и не найден, все выводы по относительному сравнению "при прочих равных". Потому не стоит надеяться что подобный конфиг даст ~7 т/с на llamacpp потому что пара 4090 дает ~20 в exllama2 >>497546 > Это как бы "пред"-слои Нет. Лора - метод сжатия когда огромная матрица (веса) представляется в виде произведения двух матриц меньших размерностей, такой-то джипег для трансформерсов, только вместо фурье вот такое. В них (обычно) хранятся не сами веса а возмущения к основным, потому может применяться к разным базовым моделям. Если она одна и тренилась "правильно-хорошо" то все будет ок, но сжатие не проходит бесследно, настакивая несколько штук будет не просто смешивание как с полноценными файнтюнами моделей, а полезут поломки.
>>497477 > А Mythalion это пигма и этот единственный удачный мерж. Ты бредишь. Сама Пигма - это максимально каловый датасет. Даже датасет сгенерированый жпт4 лучше. Пигма всегда серит в логике, пишет короткие ответы из-за односложных сообщений в датасете, ей нужно особое форматирование.
>>497552 >Нет. Лора - метод сжатия когда огромная матрица (веса) представляется в виде произведения двух матриц меньших размерностей,
Это я знаю... две транспонированные матрицы, я ведь имел в виду не во время обучения, а когда загружаешь скажем в убабуге лору одновременно с моделью можно сказать как бы пред- или "боковые" слои. А так да, они содержат корректирующие веса. Это не полноценные слои. Совершенно согласен - лора на лору на лору... будет каша.
А вот кстати не так давно появился метод relora, я посмотрел статью о нем на архиве, хотя подробно не вникал, но заметил интересный график обучения scheduler похоже на косинус с резкими провалами до нуля и резкими же возвратами к кривой. Знаете что-нибудь об этом методе, какие там получаются результаты?
>>497557 >Ты бредишь. Сама Пигма - это максимально каловый датасет. Даже датасет сгенерированый жпт4 лучше. Пигма всегда серит в логике, пишет короткие ответы из-за односложных сообщений в датасете, ей нужно особое форматирование.
Под мержем я имел в виду Mythomax, о чем выше внес поправку. Спорить не буду, пигма - так себе модель, что только подчеркивает что она не смогла испортить Mythomax выродив Mythalion. Хотя опять же как я и говорил, Mythomax получился случайно получше на фоне остальных смесей просто по причине того что, как говорится, "в стране слепых и одноглазый - король"
>>497568 Ну, вообще методика ее применения - та еще тема, самое простое - возмутить загруженные веса и все, в памяти все та же модель, просто другая. Подгружать, держа в памяти дополнительно и обращаясь к ним - можно, но для ллм с их требованиями к памяти очень расточительно. А вот как это нормально положить на 4-х или менее (!) битный квант и при этом все не поломать - даже хз, надо почитать. > relora, я посмотрел статью о нем на архиве Можно линк? Алсо не помню чтобы здесь лоры обучали, загрузить 13b в fp16 потребует более 24 гигов, нужна шара на несколько карточек в обучалке. >>497570 > Mythalion Хз чего с ней носитесь, по ощущениям та еще залупа, мифомакс только более странный если обращаться по альпака пресету, пигма - только более шизанутая если по пигмовскому формату. Может офк там нужно потанцевал раскрывать, реквестирую примеров если так.
>>497411 Чето какая то шизофреническая хрень. Её там как то настраивать нужно, чтобы не скатывалась в еблю в первом же предложении игнорируя весь здравый смысл?
>Алсо не помню чтобы здесь лоры обучали, загрузить 13b в fp16 потребует более 24 гигов, нужна шара на несколько карточек в обучалке
Можно загружать в 8 битах, на качество результата почти не повлияет. Ну на 13b локально я и не замахиваюсь, слишком долго и муторно. Да и чего там интересного неожиданного может быть на 13b? При хорошем датасете получится хороший результат. Интереснее маленькие модели, то что можно из них выжать и каков практический предел параметров ниже которого модель как ее не мучай останется тупицей. Сейчас вот много таких проектов, например TinyLLama 1.1b есть ламы и еще меньше, из старых опенлама на 3b, красная пижама тоже трешка, хотя это gptneoX, а совсем свежак phi-1.3b от макрософт.
>>497579 Это значение у той самой p40, скорее всего оно не будет достигнуто. У 3060 вроде вдвое меньше а столько она может а то и больше. В том и суть что как общий принцип или при сравнении близких работает а далее остальные факторы важнее. >>497595 На качество генерации - ок, а на качество тренировки? Уже вкидывали видеогайд, надо пересмотреть, может все проще, но на квантах точно херня будет. А с мелкими - их можно тренировать полноценно, лучше делать так чем лорой, если офк нет какой-то особой задачи.
>>497158 Про лорбуки, то я и не видел, что они на чубе лежат. Спасибо, буду знать! Правда интересующего меня (Stranger Things), все равно нет. Придется думать в направлении создавать самому и насколько это сложно и трудозатратно.
>>497606 >На качество генерации - ок, а на качество тренировки? Если модель, то да, 8 бит не годятся, а вот с лорой можно загрузить модель в 8ми, а лору трейнить в 16ти >А с мелкими - их можно тренировать полноценно, лучше делать так чем лорой, если офк нет какой-то особой задачи. Это так, но интереснее вот такой подход: https://github.com/jondurbin/airoboros#lmoe
>>494951 > Для квантования нужно железо, что вместит исходную модель в фп16. Это не так, я проверил. При пережатии оно обрабатывает отдельно каждый слой. Что подтверждается их словами о требованиях > Roughly speaking, you'll need about 24 GB of VRAM to convert a 70B model, while 7B seems to require about 8 GB. Stay tuned for more details.
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF Топовая модель для кума. С небольшим шаманством с промптом получается практически идеально поддержать стиль речи персонажа на протяжении десятков постов. Насчет количества шизы не уверен. Wikitext perplexity улетел в небеса, но по ощущениям она не тупее 13b моделей.
>>497775 Для gguf моделей - качаешь llamacpp и используешь perplexity.exe. Не забудь отгрузить слоя на видеокарту и выставить 4096 контекст. Датасет можешь взять из убабуги. Можешь и через саму убабугу, но gguf модели придется грузить через llamacpp_hf, которая дико тормозная.
Вопрос про модели gptq. Их можно скачать в 4 bit и 8 bit. Exllama поддерживает только 4 bit. То есть выбор между скоростью эксламы и качеством, если использовать другой лоадер?
>>497590 >чтобы не скатывалась в еблю в первом же предложении игнорируя весь здравый смысл? А разве есть такие? Я в разных моделях пробовал даже первым предложением "Хочу нассать тебе на лицо" и всегда получал согласие. Xwin, вроде, сама в еблю не ведёт. Может в промте прописать что-то вроде "развивай сюжет медленно"
>>497552 Ну эт тоже верно, разные алгоритмы. Но на 5 т/с рассчитывать можно, а это уже терпимая скорость. На грани. Но все равно оверпрайс получается, кмк.
>>497571 7b на стиль или знание тематики вполне можно на 12-гиговой карточке обучить. В случае с ллама2 это даже имеет маленький смысл.
>>497606 > какой-то особой задачи Вот например бот-болталка для мморпг. Натренить с нуля? У меня столько материала не найдется. Даже с учетом моего датасета диалогов с сервака, и всяких гайдов — будет критически мало. А датасеты диалогов с других серваков никто не даст (если тут сидят админы мотра — скиньте в дискор-канал опенкоры=). В итоге, тренить условные 30 мб текста — ну такое себе, кмк. Норм лоры на 100-300 мб тренятся, насколько я помню. Проще натренить лору, которая будет обладать знаниями, но непосредственно общаться как мифомакс какой-нибудь.
ЗЫ У меня хуйня получилась, когда обучал, она просила убить ее, как мне показалось… Видимо, не те параметры выставил. ¯\_(ツ)_/¯
>>497739 > но интереснее вот такой подход Да, вот эта тема перспективна, а реализация элегантна. Буквально спросить базовую модель выбрать эксперта по описанию, а далее быстрым накатом поверх нее обработать реквест. Единственное - сложности с длинным контекстом, когда в нем присутствует несколько тем и выбор единого "эксперта" не очевиден. Такой случай может быть решен только обработкой несколькими и осмысленным объединением их ответов, желательно еще с перекрестной оценкой. Здесь только лора, самое то. >>497743 Не может не радовать, надо попробовать. >>497858 > Но на 5 т/с рассчитывать можно Если контекст видюхой ускорять то есть шансы. С оверпрайсом согласен, имеет смысл брать если есть задачи кроме ллм, чисто под них кроме обмазывания бу-печками нет дешевых вариантов. > Натренить с нуля? Это без шансов в нормальном размере на консумерском железе, только на основе базовой, благо доступны. > В итоге, тренить условные 30 мб текста Здесь еще встает проблема языка, нормальной русскоязычной модели в малом размере нет, ружпт 13б который разве что. А так можно разбавить дженерал разговорами на общие темы, большая часть пиздежа в ммо чатах не об играх, лол. > она просила убить ее Ммм, надо было ерп запускать.
>>497940 Прямое влияние - поддерживаемые ими семплеры, если будешь использовать hf версии то будут все. Косвенное - от формата (размера) кванта, чем больше данных сохранено тем лучше.
>>498219 Потому что при использовании полноценных лоадеров на одинаковых битностях качественно результат будет таким же. Зачем указывать то что не влияет или влияет настолько слабо что на фоне рандома не отследить?
Сап анонам Я полный ламер в локалках, только вкатываюсь Можно ли запихать в гуглоколаб какую нить модельку? И если да, то как? Обладатель лишь картой на 4 гига видеопамяти, а на памятью и процессором слишком долго выходит
>>498281 >>498264 Помимо ерп обычное рп тоже заебись. Это как текстовые квесты с бесконечным контентом. С хорошей моделью типо мифалиона всякое фентези наяривать одно удовольствие.
>>494332 >«подозрительный человек, видящий всюду заговоры» Только это не заговоры, а объективная реальность. Не "за мной следят", а за всеми в автоматическом режиме с произвольным доступом к истории. Я себе выбрал гендер "радикальный шифропанк" и говорю, что ценю свои личные данные, паранойя для меня - это больше заговоры без логического обоснования.
>>494336 Спасибо за ссылки. Попробовал Airoboros, повторяется и забывает место действия, даже хуже стало.
>>494484 >Асик для параллельных математических операций! Опять эти людишки не по назначению вещи используют.
>В последние лет 5 они дико деградировали из-за особенностей востребованности. У меня 860 QVO на терабайт, 4 года назад брал за $140, пока самсунг еще не совсем скурвился, сейчас только HDD для хранилища докупаю, все устраивает.
>>496433 >>496537 Я использую llama.cpp main с CLBlast. Вспомнил, что память замедлил из-за плохого охлаждения пока водоблок жду, 1800 была. На 3600 18-22-22-42-68 5.7 токенов выдает с 4к контекстом и 6.5 с 512, поставил 2666.
Починил большие кэши в llama.cpp, в read_raw() заменил std::size_t ret = std::fread(ptr, len, 1, fp); на std::size_t ret = read(fileno(fp), ptr, len); и проверку размера поправил, может, пригодится кому.
>>497933 > большая часть пиздежа в ммо чатах не об играх, лол Логи сервера за 8 лет в моей голове, поверь — об игре как раз. За жизнь трут чаще мимоходом в общем чате, в гильдийный и голосовых. В общем чате чаще за игру общаются. Ну а гильдийные я в датасет не клал.
> Ммм, надо было ерп запускать.
>>498264 13Б на видяхе — просто пизжу за жизнь, иногда дает годные советы. 70Б — пишет код, составляет тексты, рефераты там, хер знает, я не себе ее поднимаю.
>>498264 Пердолиться, кумить, опять пердолиться, качать новые модели, кумить, рпшить милоту, рпшить треш, рофлить, суммарайзить/парсить текст, сочинять его. >>498386 > Опять эти людишки не по назначению вещи используют Как раз по тому самому. > 860 QVO на терабайт, 4 года назад Чуть ли не последний из нормальных, они вроде даже не просаживались при записи? Если так то вершина сата, а то что продается сейчас при долгой записи будет медленнее харда. Но все равно на сегодня такой объем и такая скорость - мало. >>498459 Если все выставлено правильно то может в первых постах чуточку хуже, но на полном контексте даже лучше по перплексити, не говоря уже что большой контекст обрабатывает. Если увеличивать очень сильно то уже деградирует. >>498511 Что за железо, сколько токенов? > llama-2-chat-13b 5_1 Квант обнови, алсо почему именно эта модель?
>>498538 >Что за железо, сколько токенов? RX6900XT i5-8600k RAM 32Gb В плане в целом токенов или сколько по итогу в секунду? Общее значение выдаёт теперь в среднем 15-19 T/s. >алсо почему именно эта модель? Да фиг знает, что-то изначально взял обе лламы этого уровня, когда вторые вышли с ними и гоняю. Чат версия, кстати, при генерации через этот форк кобольда стал кучу смайликов и лишние вставки своего больного разума писать, поменял на просто лламу, такого больше не происходит. >Квант обнови Имеешь в виду теперь q6 или q8 взять, раз быстро стало? >>498537 У меня свои религиозные соображения.
>>498548 >RX6900XT >У меня свои религиозные соображения. Ну да, поэтому ты сосёшь на уровне 3060 за цену 4090. Окей. >>498551 Нет, проще на проце запускать, впрочем, чую, там и проц из прошлого века.
>>498544 8к, альфа 2.7, офк потребуется больше оперативы, 12к на 5.5 вполне норм работает. Для самоуспокоения в начале чата можешь грузить 4096 с альфой 1, а когда наберешь под 4к - перезагрузить модель со следующим значением, офк при этом настройки длины в таверне нужно не забыть поправить. >>498548 > RX6900XT Ух бля, это же конкурент 3080(ти), ну офк для амудэ неплохо, но тебе уже отписали. > через этот форк кобольда стал кучу смайликов и лишние вставки своего больного разума писать, поменял на просто лламу, такого больше не происходит. Настройки токенов (бан, старт/стоп) проверь. А чего новые файнтюны не юзаешь? > Имеешь в виду теперь q6 или q8 взять, раз быстро стало? Можно и больше но хотябы чтобы была буква k (k_s/k_m), они лучше чем _0 _1. >>498551 При очень большой удаче она немного ускорит обработку контекста, но даже это маловероятно.
>>498559 Прям на уровне 3060? Ну я её не по цене 4090 брал. А за чуть больше 40к. >>498563 >А чего новые файнтюны не юзаешь? Я их со старой лламой пробовал, не понял да и не понравились они мне, мне почему-то больше нравилось, что ллама выдавала голая. Так и не стал со второй лламой пробовать. >хотябы чтобы была буква k (k_s/k_m), они лучше чем _0 _1 Есть таблицы сравнения по отличия в их качестве? Я просто в основном по числовому параметру видел.
>>498565 > А за чуть больше 40к А мог бы 3090 взять > Я их со старой лламой пробовал, не понял да и не понравились они мне Ты сидел на стоковой первой лламе? Жестоко, она же совсем глупенькая была. Вторая офк лучше, но есть нейтральные файнтюны, которые значительно развивают ее способности не привнося шизы. Как вообще юзаешь ее, на что чат версия годна кроме странного QA? > Есть таблицы сравнения по отличия в их качестве? https://github.com/ggerganov/llama.cpp/pull/1684#issuecomment-1579252501 Только циферки перплексити. По качеству есть >>487016 → но к реализации есть ряд вопросов что ставят под сомнение возможные выводы.
>>498578 >А мог бы 3090 взять Дешевле 60к на тот момент не видел их вроде. >Как вообще юзаешь ее, на что чат версия годна кроме странного QA? Да я её также как и обычную использовал, отличий не было, но как я выше написал в ролеплее хуйню прилепляло, поэтому с обычной запускать стал. Я её мало гонял, чат версию, так как я там просто пробовал другую модель одну запускать, а потом по ошибке чатовую воткнул, вместо обычной. >Только циферки перплексити. По качеству есть Спс.
>>498585 > Дешевле 60к на тот момент Всего в 1.5 раза дороже но в разы быстрее и возможностей больше. Ну теперь что пенять, только на выбор следующей можешь влиять, врядли сейчас сорвешься менять ради ллм хотя стоит > в ролеплее Погоди, но голая ллама же в ролплее слаба. Да, лучше старых а то и новых пигм и из байаса только легкая (сильная в чат версии) соевость, но по сравнению с дообученными сильно проигрывает. Нюансы только в том что чат-ллама запустится вообще как угодно, а инстракт файнтюнам потребуется свой формат промта, без которого результат может быть даже хуже. Лучше вместе с заменой кванта накачай и новых моделей, из 13б именно что впечатлил разве что визард 1.2, но, думаю, подскажут что хорошо рпшит без кума. Алсо синтию 13 тоже стоит затестить, у нее точно не будет повадок странных кумерских замесов. По качеству уже хз, та же тринашка спайсибороса не воспроизводит эффект от семидесятки, да и тут субъективно, пробовать надо.
Извиняюсь, была не самая удачная шутка про gt220. Вижу тут сидят серьезные дяди.
Есть информация, от проверенного источника, что возможно скоро будет обратное к деноминации, от чего цены взлетят на все. На данный момент хочу перевести все бабки в USDT, и пока подержать там. Как думаете, будет ли выгодней купить сейчас пару видях, или подождать возможного вышеупомянутого дейстивия, и покупать после?
>>498590 >перевести все бабки в USDT Как раз сейчас всякие там США прижимают всякие там крипты и уж тем более заставляют выполнять сасанкции. Надёжный выбор как швейцарские ножи! >>498590 >Как думаете, будет ли выгодней купить сейчас пару видях Если денег девать некуда, то бери сейчас 4090.
>>498590 > будет ли выгодней купить сейчас пару видях Как порпшить на семидесятке или другие использования - выгоднее 100%. Как инвестиция - уровня /б/, заебешься их продавать, плюс всеравно ниже магазинной. > покупать после Там что угодно может произойти вплоть до проблем с выводом и т.д. Если тебе что-то нужно, можешь купить сразу, а впереди мутные перспективы - покупай, при любом раскладе ты в выигрыше.
>>497629 → > Формат под новый бэк, хз, надо тестировать, врядли он быстрее бывшей. Бета какая-то? В угабуге не видать. > Оно и без него меньше чем первая жрет, но получить такое хочется. Алсо раз очередная тема что лучше не на шинде - wsl же. Всё равно оомится, не юзабельно короче всего с 24. У меня с всл какая-то проблема совместимости, он не хочет одновременно работать с другими вм, vmware там или vbox. > Да не, хлебушек, просто force очень brute и много миллиардов Жаль, хотел вот разобраться в параметрах семплинга подробнее. Например этот анон пишет >>495848 > Top P - отсечка токенов по вероятности, 0 - детерминизм, 1 - нет отсечки а тут вот такое https://community.openai.com/t/a-better-explanation-of-top-p/2426/2 > The way I think about it is that top_p will choose only the top x% of possible values to return. So, a .8 top_p will gather all possible words that might come next but will choose from only the top 20%. и это противоречит друг другу, либо я не допираю, как при выборке из например 20% нет отсечки, а при 100% детерминизм. Я так понял, сейчас в мете всё ещё просто следовать параметрам митомакса, как в этом гайде? https://rentry.org/freellamas
>>498565 > А за чуть больше 40к. Почти вдвое дороже 3060, ну такое, все равно. 3060 дает 16-20 токенов/сек, это правда.
>>498585 Ну, за 45к-50к точно можно было взять. За 40к уже авито, я полагаю.
>>498590 Либерал, либерал! Покекал, канеш. Ну смотри, доллар был по 55 — никто ниче не покупал. Доллар стал по 95 — сразу отовариваться? Братан, уже опоздал. Как я говорил ранее — если ты ничего не купишь, то есть 50% шанс, что ты не обосрешься. А если купишь — то тут 100% шанс, что обосрался с таким-то курсом. =) Не-не, я не экономист, я слушаю чужие советы и поднимаю на обмене бабло. Сейчас советов не слышал, поэтому сказать ничего не могу. Но и твои слухи очень странные, не слышал такого и не совсем в курсе, к чему бы это. Если веришь источникам — конечно меняй. Тока потом не к нам иди жаловаться — а сразу к проверенному источнику по ебалу давать, окда? Я без иронии, насчет «веришь — бери». Вообще, лучше сделать так: 1. Промониторить рынок железа за последний год по категориям. 2. Выбрать категории товаров, которые находятся ближе к минимуму. 3. Узнать, где они производятся, и какая тенденция по стоимости может быть (будет ли бурный рост, или же это местное производство). 4. Закупиться именно тем, что сейчас на минимуме, а бурный рост теоретически возможен.
Ну или как-то так. Можешь еще набрать видях и майнить — уровень здравомыслия приблизительно такой же. Можешь набрать железа и сдавать хостинг в аренду. Можешь набрать железа и замутить нейростартап.
Типа, с моей точки зрения, идеи очень сильно так себе, но нельзя отказать им в том, что иногда они реально работают. =)
>>491640 Как к таверне прикрутить еще больше эмоций? How do I get more expression options?
By default we use a classification model with 6 options nateraw/bert-base-uncased-emotion
There is also a model with 28 options: : joeddav/distilbert-base-uncased-go-emotions-student
To use this model you need to change your Extras command line to include the following argument (with a space before and after):
--classification-model=joeddav/distilbert-base-uncased-go-emotions-student А куда кидать собственно скачанный *.bin отсюда joeddav/distilbert-base-uncased-go-emotions-student?
>>498657 > В угабуге не видать. Реквест висит, со временем сделают, а может и в экслламе поддержку добавят. Сравнение с exl2 бы увидеть, так вообще более качественной чем gptq в том же размере. > Всё равно оомится Так оно собирается под wsl? Интересно сравнение сколько будет выдавать по скорости на тех же тринашках и насколько изменится жор врам. Тестировать можно на 8битном кванте. > хотел вот разобраться в параметрах семплинга подробнее Ну ты вопрошай что нужно > а тут вот такое Здесь ключевое > The way I think about it Алгоритм top_p хорошо описан. В начале он выстраивает токены по вероятности, после запускается цикл их последовательного добавления в область рассмотрения, пока суммарная вероятность добавленных не будет больше равна выставленному значению. Если стоит 0 - все оборвется после добавления одного самого вероятного токена (примерно тот же результат будет и при низких значениях типа 0.1-0.2, потому не стоит выставлять такое а потом удивляться что в свайпах только несколько слов отличаются). Если стоит, например, 0.5 то будут добавлены токены с вероятностью типа 0.33, 0.15, 0.09 а остальные отсеяны. Если единица - будут добавлены все что есть (а по факту семплер просто будет пропущен). Никакого выбора "из остатка" там нет, это понятие даже не применимо, потому что распределения вероятности токенов могут варьироваться очень широко. > в мете всё ещё просто следовать параметрам По ссылке вполне норм, что семплеры (вариация simple-1, многие почему-то пропущены, лучше их сохранить, а по микростату хз), что промт формат (тут можно подрезать энгейджинг и прочее если стиль выдачи не нравится). Разве что по именам надо посмотреть, но скорее всего норм. Но вообще это от модели зависит, для трененных по формату альпаки и около того будет хорошо. Как-то работать будет на всех, но на викунья/визард/пигма-образных может не раскрыть весь потанцевал.
>>498766 > В начале он выстраивает токены по вероятности, после запускается цикл их последовательного добавления в область рассмотрения, пока суммарная вероятность добавленных не будет больше равна выставленному значению. Пиздец шиза у тебя в голове. Там по факту просто софтмакс с отсечением стоит.
>>498822 Все слои выгрузил? Слои, оставшиеся на проце, считаются на проце, что очевидно. Смотри по скорости, начни с небольшого числа слоёв и полного контекста, и добавляй понемногу. Заметишь тормоза.
>>498822 Нет, нагрузка на проц всегда будет, пусть и небольшая. Когда пойдет превышание врам с выгрузкой - произойдет наоборот падение нагрузок и снижение тдп, проц не начнет считать выгруженное а оно просто будет гоняться по шине и также обсчитываться гпу, только с задержками. У тебя вероятно, пошло превышение, но тот же кобольд в начале резервирует дохуя памяти которую не использует, и это вот так как у тебя отображается в диспетчере. Пробуй экспериментально и мониторь другим софтом.