/ai/ - LLaMA тред №17

LLaMA тред №17 /llama/ Аноним 15/09/23 Птн 11:47:18 № 489141 1

В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3, в которой 175B параметров (по утверждению самого фейсбука). Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
На данный момент развитие идёт в сторону увеличения контекста методом NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Так же террористы выпустили LLaMA 2, которая по тестам ебёт все файнтюны прошлой лламы и местами СhatGPT. Ждём выкладывания LLaMA 2 в размере 30B, которую мордолицые зажали.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в случае Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит, квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас в полгига-гиг.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту
https://huggingface.co/TheBloke/MythoMix-L2-13B-GGUF/blob/main/mythomix-l2-13b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI (на выбор https://github.com/Cohee1207/SillyTavern , умеет больше, но заморочнее)
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах, есть поддержка видеокарт, но сделана не идеально, зато самый простой в запуске, инструкция по работе с ним выше.
https://github.com/oobabooga/text-generation-webui/blob/main/docs/LLaMA-model.md ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ. Самую большую скорость даёт ExLlama, на 7B можно получить литерали 100+ токенов в секунду.

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://rentry.co/ayumi_erp_rating Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры

Факультатив:
https://rentry.co/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>472695 (OP)
>>457355 (OP)

Аноним 15/09/23 Птн 11:51:42 № 489146 2

Потсоны, на Озон-глобал/Али предлагаются nvidia p40 24gb за 200$.
Как оцениваете риски приобретения такого?

С одной стороны, топ кража по gb/$, ничего и рядом не стояло.
С другой стороны, это Паскаль, который пережил все волны майнинга, какие были. Т.е. китайцы ебали его майнингом 6 лет, периодически продавая более бедным китайцам, чтобы те продолжили ебать его манингом.

Платить за такое более чем ссыкотно. Хочется и колется, короче. Ваши мнения?

Аноним 15/09/23 Птн 12:09:05 № 489172 3

>>489146
На фото отзыва видны цвета побежалости, то есть прогревали её очень хорошо

Аноним 15/09/23 Птн 12:10:52 № 489173 4

Какая сейчас модель считается самой умной, консистентной и вообще лучшей во всех отношениях среди 30B?

Аноним 15/09/23 Птн 12:14:22 № 489176 5

>>489146
Ну слушай, я уже писал.
P104-100 (GTX1070) выдавал 2 токена сек на 7Б модели.
P40 мощнее во сколько раз? В 2? Ну, ты понял, к чему я.
Толку от памяти, если архитектура не затащит.
Нужно тестить минимум RTX 20xx, а лучше 30xx.

ИМХО, покупай-тестируй-сообщай.

Далее, Озон Глобал — типа, гарантия, какая-никакая, но видяхи и сам понимаешь, работали, не в коробках лежали.

Аноним 15/09/23 Птн 12:28:52 № 489197 6

>>489173
>30B
Это первое поколение, выбирай 13B второго или 70B второго.

Аноним 15/09/23 Птн 12:35:41 № 489209 7

.png 4Кб, 1007x119

А кто нибудь задавался вопросом где брать лоры?

Аноним 15/09/23 Птн 12:39:44 № 489215 8

>>489209
Нет, мы без вопросов качаем их с https://huggingface.co

Аноним 15/09/23 Птн 12:42:20 № 489217 9

>>489215
Ну так, а как же инфа какая лучше-какая хуже? Или предлагается качать всё подряд?

Аноним 15/09/23 Птн 12:44:00 № 489218 10

>>489197
70B слишком медленно, а в уме 13B я сомневаюсь, какой может быть выход?

Аноним 15/09/23 Птн 12:52:38 № 489222 11

>>489176
40hx (2070) дает 40 токенов в секунду при генерации с gptq на 7b

по текущему курсу она 100 баксов всего

Аноним 15/09/23 Птн 12:53:30 № 489223 12

>>489217
Обычно всё таки качают модели, из лор я знаю только llamarp, хорошо подходит для анценза всяких соевых моделей типа чата и приведения формата промта в один вид.
>>489218
> а в уме 13B я сомневаюсь
Возьми да скачай, ссылка в шапке.

Аноним 15/09/23 Птн 12:57:30 № 489232 13

airoboros-l2-70b-2.2.Q4_K_M.gguf - Реально впихнуть в 4090 и 32 гига оперативы? Загружать придется через lama.cpp?

Аноним 15/09/23 Птн 13:16:12 № 489253 14

>>489223
Я уже скачивал, я хотел перейти к более мощным моделям....

Аноним 15/09/23 Птн 13:18:07 № 489257 15

.png 3Кб, 744x29

>>489232
Ну крч, можно, но сожрёт вообще всю оперативу, скорость будет говном и своп раздуется до 50 гигов.

Аноним 15/09/23 Птн 13:52:27 № 489287 16

>>489209
https://huggingface.co/nRuaif/Kimiko_7B <- Kimiko, как понимаю, затренена на всякие непотребства
https://huggingface.co/lemonilia/limarp-llama2 <- limarp, так же анцензит и модель начинает пистаь полотна
https://huggingface.co/Blackroot/Llama-2-13B-Storywriter-LORA <- Storywriter-LORA, эту не кочал, но, видимо, тоже описательные способности повышает
https://huggingface.co/Henk717/spring-dragon-qlora <- spring-dragon-qlora, тоже не кочал, типа для обычного ролеплея она неплоха
https://huggingface.co/kaiokendev/SuperCOT-LoRA <- SuperCOT, эта типа надстраивает "цепочки рассуждений", что потенциально делает модели более умными.

Kimiko, limarp и SuperCOT обычно уже встроены во многие модели, которые не стандартные. Первые две отдельно помогают расшевелить модель, если она соевая и не говорливая. Третью я пробовал пару раз включать, но часто нарывался на галюны всякие.

Аноним 15/09/23 Птн 14:14:47 № 489301 17

>>489253
Значит 70, ибо 30B лламы 1 ничем не лучше 13B лламы 2.

Аноним 15/09/23 Птн 14:34:46 № 489311 18

>>489301
0.1 Т/С слишком медленно, тогда какая сейчас из 13В лучшая? Мифомикс?

Аноним 15/09/23 Птн 14:52:52 № 489342 19

>>489222
Во-от! Разрыв огромный в сравнении с первым поколением.
Конечно, памяти гораздо меньше, чем в p40, но тут уж нужно как-то выкручиваться.
Три 40HX = 1 P40 по памяти и ~8-10 раз быстрее. Ну так, по прикидкам. А стоят всего в полтора раза дороже.

>>489146
С другой стороны, вишь оно как. 24 гига сами по себе не очень полезны. Тут или 48+, чтобы 70Б гонять, либо 12~16, чтобы 13Б гонять.
Две P40, я боюсь, будут очень медленными для 70Б (вряд ли быстрее проца, если честно).
А тех же 40HX нужно уже 5-6 штук. =) Хотя там скорость будет уже адекватная, подозреваю.

Короче, лично я пока не смог определиться, какой майнинг за какие деньги брать, шо б сэкономить и 70Б запускать.
А 13Б и на 3060 можно погонять без проблем.

>>489311
Ей сто лет в обед, разве нет?
>>489141 (OP)
Зачем ее вообще упоминали в шапке? :)
Почему не мифомакс, не мифалион, не млевд?

Аноним 15/09/23 Птн 14:56:12 № 489348 20

>>489342
Если брать 4х4060ТИ то это 64гб ВРАМ по цене 4090 от именитого производителя, в целом звучит в меру разумно

Аноним 15/09/23 Птн 14:58:55 № 489353 21

>>489348
Без нвлинка брать больше двух карт нет смысла. Будет хуже проца.

Аноним 15/09/23 Птн 15:06:32 № 489360 22

>>489348
> Если брать 4х4060ТИ
Питать ты их как будешь? Не говоря уже про мать, корпус и охлаждение.

Аноним 15/09/23 Птн 15:08:09 № 489362 23

В огабоге можно как то пользоваться лорбуками?
Че вообще за лорбуки, ну в техническом плане собсно?

Аноним 15/09/23 Птн 15:41:41 № 489410 24

>>489342
>Почему не мифомакс, не мифалион, не млевд?
Взял что-то средне-адекватное, и для порнухи, и для SFW.

Аноним 15/09/23 Птн 15:43:02 № 489413 25

>>489353
С чего бы? Там не нужен коннект между картами, давно уже выяснили.
>>489360
>Питать ты их как будешь?
Два блока питания не Бог весть какая сложность.
>Не говоря уже про мать, корпус и охлаждение.
Ну вот у меня есть серверная с 3х16. Охладу да, пизда, хоть мудянку прикручивай. Корпус колхоз.

Аноним 15/09/23 Птн 15:44:19 № 489415 26

>>489413
> давно уже выяснили
Ты похоже жопой следил за выяснением.

Аноним 15/09/23 Птн 15:48:28 № 489422 27

>>489415
Я помню, что слои обрабатываются последовательно, поэтому по сути скорость ограничивается самой тыквенной картонкой. Но влияния шины PCI-E выявлено не было, хоть в х1 втыкай.

Аноним 15/09/23 Птн 15:54:47 № 489435 28

>>489422
> влияния шины PCI-E выявлено не было, хоть в х1 втыкай
Вот я и говорю жопой следил. На х16 минимальные потери - 5-10%. Т.к. 4 карты ты сможешь в лучшем случае в х4 повтыкать, то у ЦП соснёшь 146%.

Аноним 15/09/23 Птн 16:02:45 № 489456 29

>>489435
> Т.к. 4 карты ты сможешь в лучшем случае в х4 повтыкать
16+16+8 у меня третьей версии.

Аноним 15/09/23 Птн 16:14:44 № 489474 30

Не знал, что такое истинная графомания, до того как начал дрочить на локальные модели.
Это пиздос. Я в своё время читал 7дл и не подавился, потом прочитал ЛМР и истратил тысячи, если не десятки тысяч символов в спорах по поводу графомании в ней, доказывая, что воды там не так много, как многие стенают.

И вот сейчас я рпшусь с локальной моделью и ещё больше понимаю, что эти люди блять не видели настоящей графомании. Риточка - это просто король лаконичности, просто, сука, Эрнест Хемингуэй по сравнению с тем, что я щас читаю. Эти предложения в 20 слов длиной. Эти бесконечные присказки про молодую ночь, про "let's see where this leads us", про путешествия, про хуйню, малафью. Бесконечные ряды бессмысленных уточнений и эпитетов, абсолютно пустых нахуй, дающих сюжету 0 смысла, 0, просто блять жидкий вакуум, ведро компрессии, которое просто занимает место у меня на экране. И ладно бы оно двигало сюжет при этом, но чаще всего мне просто кидают в ебало стену воды про то, каким охуительно глубоким взором на меня смотрит персонаж, и всё.

Это просто ужас, я чувствую, что скоро сбегу обратно в Коикацу аутировать. Там хоть и 2,5 карты, но по крайней мере мне не ебут мозг 24/7 всратой графоманией про "дорогу под названием жизнь", про "томительное ожидание того, что нам уготовлено в будущем" и прочей хуйнёй.

Аноним 15/09/23 Птн 16:44:53 № 489509 31

>>489413
Есть удлинители для pci, можно из корпуса достать видюхи рядом положить. Имей ввиду что майнинговые видюхи имеют очень медленный pci, pcie x4 v1.1. Можно доколхозить до x16 пропайкой конденсаторов но возится с этим нужно. А чем больше модель тем я так понимаю больше обмена между кусками интерфейс может стать узким местом. Я точно не знаю сколько там нужно но предполагаю.

Аноним 15/09/23 Птн 17:24:13 № 489582 32

>>489348
Тоже склоняюсь к этому.

>>489353
Зачем? Там же все крутится на ядре+памяти, между видяхами передается минимум инфы.
Мы же не увеличиваем скорость относительно одной карты за счет параллельной работы ядер. =) Мы увеличиваем скорости за счет пропускной способности от ядра к памяти относительно процессора.

>>489435
Ты какую-то дичь несешь.
Какие минимальные потери на х16, относительно чего?
А какие потери на х4 относительно чего?
Что за неоконченная фантазия? :) Хоть ссылку кинь.

>>489509
Пока не стало, кроме челика выше, у которого потери относительно его фантазий происходят.

Аноним 15/09/23 Птн 17:33:18 № 489587 33

>>489582
> между видяхами передается минимум инфы
У тебя слои модели независимо друг от друга работают, шиз?

Аноним 15/09/23 Птн 17:41:13 № 489595 34

>>489587
У тебя слои модели лежат вперемешку между двумя видяхами, и один слой обрабатывается сразу двумя ядрами? :) И кто из нас шиз после этого?
Пруфы будут, или сплошной пиздеж?
Люди в тредах меряли несколько раз, в том числе я.
Че-то шина нихуя не влияет на работу, ибо информации между слоями передается не так много, как тебе бы хотелось.
Имея две видяхи, проверить просто. Запускаешь мониторинг, открываешь графу загрузки Bus Interface Load и смотришь, ВО ВРЕМЯ обработки промпта, сколько там будет. По твоим словам — стучаться в сотку должно. У меня два месяца назад — нихуя не поднималось вообще. Если ты говоришь, что алгоритмы обновили — оке, предоставь хоть какие-нибудь пруфы, а не пизди.
Сорян, мне лень сейчас видяхи перетыкивать ради теста.

Аноним 15/09/23 Птн 18:04:56 № 489624 35

>>489587
Чтобы не пиздеть впустую, нагуглил, что пишет разраб ExLlama:
…The GPUs don't actually cooperate during inference. The first GPU just does what it can with the weights it's storing, then it passes the hidden state on to the next GPU…
https://github.com/turboderp/exllama/discussions/16#discussioncomment-6245573
Ну и там подробнее о передаваемых данных. Килобайты в секунду.

Не смог нагуглить, изменилось ли что-то с 21 июня или нет, есть ли параллельная обработка в ExLlamav2 или не завезли.

Если кто найдет — ждем ссылку. =)

Аноним 15/09/23 Птн 18:14:06 № 489636 36

1654766108160.png 104Кб, 1697x481

1636286950784.png 93Кб, 1293x330

>>489595
> Пруфы будут
Держи из ExLlama. Количество передаваемых данных между слоями - контекст * hidden_size. hidden_size в конфиге модели можешь посмотреть для разных размеров. На пустом контексте конечно не будет никаких просадок, но оверхед будет расти с увеличением контекста.
>>489624
> 16 kB you're transmitting over the PCIe bus, once per token
А теперь умножь на 4096, например. И посчитай сколько на x1 это займёт.

Аноним 15/09/23 Птн 18:25:54 № 489657 37

>>489636
>А теперь умножь на 4096, например.
64 мегабайта.
>>489636
>И посчитай сколько на x1 это займёт.
1/16 секунду на PCI-E 3.0x1.

Аноним 15/09/23 Птн 19:58:05 № 489816 38

Смотрю карты на чубе и 99% - это натуральный пикрил. Может быть оно и работает на более продвинутых нейронках вроде гопоты или клода, которые понимают с полуслова, но для ламы приходится переделывать, или еще проще - сделать с нуля. Пиздос.

Аноним 15/09/23 Птн 20:02:07 № 489825 39

>>489816
Лучшие карточки что я видел - это когда копируешь из гугла первое попавшееся описание персонажа на ~500 токенов и так же гуглишь реплику в цитатниках аниме/манги. Всегда отработает лучше чем карточка сделанная шизом.

Аноним 15/09/23 Птн 20:15:01 № 489852 40

Как увеличить длину ответа персонажа? Ощущение, что некоторые ответы не дописываются до конца и просто резко обрываются.

Аноним 15/09/23 Птн 20:50:38 № 489882 41

>>489141 (OP)
Выбор модели в шапку странный, но лучше так чем как раньше.
>>489093 →
> фалкон наверно лучший из них.
Он дно, ллама70 сильно лучше. Возможно файнтюны смогут подтянуть, но базовая модель слаба. Остальное - полнейшая печаль, которую аутперформит 13б.
>>489146
Если судить по ее производительности в дифуззии - перфоманс будет на уровне 4-5 т/с с 13б модели. Если оценивать чисто по псп рам - должна в пару раз ебать 3060@12. Гугли бенчмарки в ллм, есть призначный шанс что это самый доступный способ получить в 70б скорость генерации сравнимую или опережающую скорость чтения.
> ебать его манингом
Кмк тут приплетаешь зря, все теслы заведомо ебали расчетами без исключений.
>>489218
Тестируй 13б, некоторые из них превосходят ожидания. Или наращивай мощности для 70б, они могут удивить.
>>489342
> ~8-10 раз быстрее
Не так давно все топили что важна только псп (в)рам а вычислительная мощь - ничто, у p40 почти 700гб/с.

Аноним 15/09/23 Птн 21:00:50 № 489887 42

>>489882
> странный
Какие лучше?

Аноним 15/09/23 Птн 21:01:35 № 489888 43

>>489825
>и так же гуглишь реплику в цитатниках аниме/манги
Я сабы построчно переносил, лол.
>>489852
Русег/ограничение числа токенов в настройках.
>>489882
>Выбор модели в шапку странный, но лучше так чем как раньше.
Все так пишут, но их там много, дело вкуса короче.
>>489882
>Кмк тут приплетаешь зря, все теслы заведомо ебали расчетами без исключений.
Новая 4090 с магазина скорее всего девственна.

Аноним 15/09/23 Птн 21:03:59 № 489892 44

>>489348
Чтобы в теории (!) объединить их вычислительную мощность нужен нвлинк и правильный софт. Если объединять с имеющимся подходом - будет складываться только память, скорость обработки на 70б будет всеравно что одной 4060ти с большой врам минус проценты штрафа за пересыл, и такой зоопарк не нужен. Алсо хватит трех.
>>489353
>>489435
Для текущей реализации объединения экслламой нвлинк и ширина шины практически не роляют, разницы между х16+х4 и х8+х8 нет и скорость почти линейно скейлится относительно размера. В llamacpp с половиной слоев на карточке и другой половиной на проце с х16 и х4 отличия в скорости процентов 5-10.
>>489474
> Бесконечные ряды бессмысленных уточнений и эпитетов, абсолютно пустых нахуй
Такая модель или инструкция "писать больше любой ценой".
>>489825
Как ни странно - даже копипаста с офф/фан вики работает нормально. Суть в простом и лаконичном описании без конструкций с двойным отрицанием, сложных зависимых оборотов и т.д. Шизы часто делают карточку нейронкой где графомании больше содержания или ради художественности задействован сложный лексикон, что сказывается.

Аноним 15/09/23 Птн 21:07:25 № 489893 45

>>489888
>Русег/ограничение числа токенов в настройках.
Имеется ввиду количество токенов рядом с именем персонажа? Оно не корректируется. Пробовал настроить в коболде, не дало результат.

Аноним 15/09/23 Птн 21:09:20 № 489895 46

>>489892
>скорость обработки на 70б будет всеравно что одной 4060ти с большой врам
Ну так а что ещё надо то? Если там будет хотя бы 10т/с, то это уже переводит 70B из разряда "Долго и скучно" в разряд "вполне себе юзабельно". Сейчас на проце с разгрузкой на карту десятка слоёв лишний раз не пороллишь.

Аноним 15/09/23 Птн 21:09:34 № 489896 47

>>489887
> Какие лучше?
Мифомакс больше хвалили когда те вышли, а так млевд из легковесных кумерских лучше.
>>489888
> дело вкуса короче.
Да, и так норм, точно лучше странного замес со старым визардом 1-й лламы 30б (которая заведомо или 24 гига врам или медленно) что был указан.
> Новая 4090 с магазина скорее всего девственна.
И стоит в 7 раз дороже.
>>489852
В настройках таверны или бэка ограничение токенов в ответе. Алсо с какой это моделью на русском рпшишь?
Silly tavern рекомендуется относительно оригинальной, больше возможностей и настроек.

Аноним 15/09/23 Птн 21:10:07 № 489897 48

изображение.png 20Кб, 1087x195

>>489893
Имею в виду макс число токенов.

Аноним 15/09/23 Птн 21:15:38 № 489903 49

>>489895
> Если там будет хотя бы 10т/с
На паре 4090 15-17 а с полностью забитой контекстом врам на грани оома (10-16к в зависимости от кванта) как раз десятка, правда на первой экслламе. Тут 5 если будет уже радоваться надо.
Бенчмарки 4060ти в ллм уже есть? Если да то можешь линейно отскейлить на число параметров, вот теоретический максимум.

Аноним 15/09/23 Птн 21:41:17 № 489937 50

>>489882
> Не так давно все топили что важна только псп …
Я так топил до покупки 1070, ага. =)
Видимо, тонкости архитектуры, хз.
Но может быть мне не повезло, а щас уже норм.
Так что на тесты бы я посмотрел, но покупать, конечно, не буду.

>>489892
> вычислительную мощность
Так никто и не объединяет вычислительную мощь, объединяют видеопамять, чтобы раскидать модель по разным карточкам. =) Не понимаю, что у нас седня с вечерним чатом, все нвлинк стали пихать куда-то, где его поддержка не реализована.
Я не против того, что хорошо объединить вычислительную мощь. Но пока что этого у нас нигде не видно, не слышал про такие реализации, да и у видеокарт эта фича исчезает уже потихоньку.
>llamacpp с половиной слоев на карточке
Сосет в принципе из-за проца.
Вообще, вся суть в том, чтобы сэкономить деньги за видеопамять. При этом, скорость будет представлять из себя среднее между скоростями всех видях и минус на пересылку и говнокод.
Я игрался с разными дуэтами, каждый раз скорость плюс-минус соответствовала расчетной.
Короче, исходя из этого, брать слабые видяхи с большой памятью нет смысла — упор будет в ядро и технологии, как и брать сильные с малым объемом — упор будет в размер памяти.
Так и считаем. Но тут надо, чтобы кто-то потестил P40.
Если вдруг там скорость действительно будет нормальной — возьму две не глядя.

>>489895
Да 5 уже будет бомба для такой видяхи, кмк.

>>489903
Плюсую тут.

Аноним 15/09/23 Птн 21:52:38 № 489962 51

>>489896
При увеличении content size в 2 раза, разницы в ответе персонажа нет. Куда еще тыкать не нашел
>>489897
не нашел такой настройки

Аноним 15/09/23 Птн 22:00:15 № 489973 52

>>489896
>моделью на русском
гугл транслит

Аноним 15/09/23 Птн 22:01:00 № 489975 53

>>489962
>не нашел такой настройки
Вот она. Перейди всё таки на силли, надо старую таверну из шапки удалить.

Аноним 15/09/23 Птн 22:03:27 № 489981 54

>>489962
> content size в 2 раза
Тебе нужно менять Amount of generation, а контекст упрощенно говоря - размер истории, будет мало будут тупые ответы, превысишь то что выставлено в модели - все поломается.
>>489975
> Перейди всё таки на силли
Чаю этому господину

Аноним 15/09/23 Птн 22:08:13 № 489993 55

Бля, как заставить силли таверну пиздеть чуть поменьше, а то заебало реролить графоманию где раз через раз логические ошибки.

Аноним 15/09/23 Птн 22:12:36 № 490005 56

>>489993
Не использовать рп-кал вместо моделей.
И обязательно убери из дефолтного шаблона "2 paragraphs", какой-то конченый дегенерат это вписал туда, оно никогда не работает нормально с рп-моделями.

Аноним 15/09/23 Птн 22:15:45 № 490010 57

>>490005
Ну вообще там MLewd. Дохуя пиздос? Если пиздос что вместо использовать чтобы было хорошо?
> бери из дефолтного шаблона "2 paragraphs"
Это где откручивать? У меня лапки...

Аноним 15/09/23 Птн 22:23:36 № 490014 58

>>489993
Если ролплей пресет то дефолтный "2 paragraphs" замени на "short/medium length" и подрежь "художественность". Вариант подкинуть менее шизанутую модель, но тот же млевд можно вполне заставить работать нормально.
>>490005
А что использовать?

Аноним 15/09/23 Птн 22:28:41 № 490019 59

.png 1Кб, 161x25

>>490014
Пресет ролеплей (на других, кста, пиздит не меньше), но вот про 2 paragraphs на странице настроек формата не вижу в упор.

Аноним 15/09/23 Птн 22:34:38 № 490021 60

>>490019
Разворачивай
> Instruct Mode Sequences
и там увидишь в Last Output Sequence

Аноним 15/09/23 Птн 22:38:41 № 490024 61

Аноний, стоит ли мне продать свою 3070, доплатить рублей 20 и взять 4060 ti 16, чтоб комфортней было чатиться? Какие еще есть варианты? По процу не понимаю, но у меня Ryzen 7 3600x и всего 16 гб. оперативы, может в этом направлении смотреть?

Аноним 15/09/23 Птн 22:39:07 № 490025 62

>>490021
Пасибо, анон, вроде все открутил. Ща затещу.

Аноним 15/09/23 Птн 22:40:51 № 490028 63

>>490025
Вообще слеш там предполагался тебе выбрать одно из двух, но может и так сработает.

Аноним 15/09/23 Птн 22:43:24 № 490030 64

>>490028
Ну со слешем даже на йоту короче не стало. Без слеша и только с short length, кто бы мог подумоть, тоже ничего не поменялось.

Аноним 15/09/23 Птн 22:54:33 № 490038 65

>>490030
Если там у тебя уже пара десятков длинных сообщений в чате, или того хуже уже лупы пошли, то срулить с этого будет уже крайне сложно, надо новый чат так начинать. Вообще ответы не то чтобы сильно длинные, на вскидку 300токенов что вполне золотая середина.
Алсо что за модель? Попробуй спайсиборос, его старшая версия по тесту себя бомбически показала, может в разный рп, плюс виртуозный отыгрыш тизинг-муд с хитрым характером, экшном и плавным подходом к куму. Пресет ролплей, хоть у него дефолтный формат отличается, ответы все средней длины.

Аноним 15/09/23 Птн 23:05:22 № 490048 66

.png 9Кб, 486x55

>>490038
> на вскидку 300токенов что вполне золотая середина
Знаешь, на чистой огабоге я на этой карточке персонажа и 50 токенов далеко не всегда видел. А тут что не ответ так целый параграф. А ты говоришь мол 300 середина и нормально, эц только для таверны, видимо.

> Алсо что за модель?
Undi95/MLewd-L2-13B-v2-1-GGUF

>спайсоборос
Пикрелейт оно?

Аноним 15/09/23 Птн 23:16:16 № 490067 67

>>490048
> Пикрелейт оно?
Нет, это экспериментальная версия на основе кодламмы, по отзывам они мэх, но можешь сам убедиться. 13б затрай, или 70 если можешь.
> на чистой огабоге я на этой карточке персонажа и 50 токенов далеко не всегда видел
Промт формат неверный выбрал просто, некоторые модели к этому особенно привередливы. 300 примерно оптимально потому что достаточно чтобы описать действия-окружение, дать реплику и продвинуть повествование. Но при этом без лишней графомании, далекого увода, быстрой реализации или скипа действий которые бы ты сам хотел, и к лупам не склонно. Офк по ситуации, если ожидается короткий вопрос/реплика то хватит и 50 а остальное будет нейрошизой, и наоборот в нужные моменты можно и 800+ иметь.

Аноним 15/09/23 Птн 23:20:44 № 490070 68

>>490067
> мэх
Значит вот это - TheBloke/Spicyboros-13B-2.2-GGUF?

> Промт формат неверный выбрал просто
А в огабоге это что такое? Никогда там не видел никаких промптов формата, тащемта.

Аноним 16/09/23 Суб 00:00:40 № 490148 69

>>490070
> Spicyboros-13B-2.2
Да, попробуй, потом отпиши по результатам.

Аноним 16/09/23 Суб 07:53:33 № 490298 70

напомните про влияние озу+проца на рендер на видяхе

Аноним 16/09/23 Суб 08:01:54 № 490303 71

Пиздос, трачу на эксперименты с промптами больше времени, чем на сам кум. Ну да ладно, хотя бы поделюсь тем, что понял.

Самая главная проблема, которую я пытаюсь решить - это слишком однообразная речь персонажей (когда нет примеров диалога) и нежелание модели следовать инструкциям. С одной стороны, не считая случайной шизы, модель не теряет контекст. Если в информации о персонаже в самом начале указан какой-то факт, то он не потеряется. Но с другой стороны, чем ближе к началу контекста, тем меньше информация влияет на ответ, особенно если идет вразрез с тем, что думает сама модель. Например, ради опыта можно попытаться заставить школьницу говорить на старомодном языке. Если эта информация прописана где-то начале промпта, то она полностью проигнорируется, даже если находится в ### Instruction блоке! Если она в конце промпта - проигнорируется процентов на 80. Единственный рабочий способ - это засунуть в ### Instruction блок, а сам блок поместить в самом конце промпта, перед ответом. При этом, как я уже сказал, разные факты и информация о персонаже в целом как правило не игнорируется (если не идут вразрез с пониманием модели).

В общем, ### Instruction должен быть перед самым ответом, и в него можно пихать инструкции, которые модель упорно игнорирует.
>>490005
>Не использовать рп-кал вместо моделей.
Проблема навыка десу. Любую модель можно заставить писать ответы любой длины.
>>489825
Можешь скинуть пример карточки? Буду благодарен.

Аноним 16/09/23 Суб 08:40:03 № 490309 72

>>489141 (OP)
Стоит менять 3070ti на 3090 ради нейронок? Чтобы и поговорить, и погенерить изображения?

Аноним 16/09/23 Суб 08:40:04 № 490310 73

>>490303
> Единственный рабочий способ
Этого можно добиться кроме как вставлением непосредственно карточки персонажа в разные места?

Аноним 16/09/23 Суб 08:51:32 № 490314 74

>>490309
3090 тебе все равно не хватит под 70b модели.

Аноним 16/09/23 Суб 08:58:10 № 490320 75

>>490314
Если он будет использовать обе, то хватит на люто квантованую

Аноним 16/09/23 Суб 09:01:09 № 490323 76

>>490314
Но ведь ему хватит под 30b модели, разве нет? Я тоже подумывал над 3090 и так же задавал вот этот вопрос >>490024. Я действительно не знаю, будет ли обмен 3070 на 4060 с 16 гб шило на мыло и будет ли 3090 стоить своих денег.

Аноним 16/09/23 Суб 09:03:09 № 490324 77

>>490323
Зачем менять, когда можно использовать обе? Почти на всех материнках минимум джва слота

Аноним 16/09/23 Суб 09:15:02 № 490325 78

>>490310
Всю карточку вставлять никуда не надо, но некоторые части придется вставить в Last Output Sequence, например как на пикриле про speaks casually. Да, придется постоянно менять для каждого персонажа, но что поделать.

Аноним 16/09/23 Суб 09:19:52 № 490327 79

>>490324
Ну я руководствуюсь тем, что все таки самая дешевая 4060 стоит порядка 55000, так бы я мог продать свою 3070 за 25000, к примеру, и добавить тридцатку. А это уже не 55, согласись. Опять же, что мне дадут 2 карты общей памятью 24 гб, если тут отговаривают от покупки 3090? Для Stable Diffusion вполне хватит 16 гб пока, а вот что касаемо LLM тут для меня темный лес еще. Как я понял, все наяривают на 70b, 30b почему то игнорятся, а все прочие презираются.

Аноним 16/09/23 Суб 10:58:59 № 490362 80

>>490303
> чем ближе к началу контекста, тем меньше информация влияет на ответ
Все правильно, недавние события в приоритете
> можно попытаться заставить школьницу говорить на старомодном языке
> Если эта информация прописана где-то начале промпта
Офк она будет игнориться, потому что уже есть примеры ее реплик с вполне обычным или минимально измененным стилем. Если же начинать чат с такой штукой - оно сразу повлияет на ответы, а далее они уже будут наоборот согласованы с инструкцией и модель даже просто по ним сможет сориентироваться как строить фразы.
> ### Instruction должен быть перед самым ответом
Если в нем указаны действительно доп интсрукции то все так. Главное чтобы не было конфликта с инструкцией, которая в начале/середине, иначе качество упадет.
>>490309
Однозначно
>>490325
Вот этот пример должен быть хорош, можно еще с input/response можно поиграться.
>>490327
> если тут отговаривают от покупки 3090
Кто, где? Несравнимо лучше 4060 с оговоркой что горячая некрота, получить даунгрейд перфоманса относительно 3070 это вообще сильно будет.
> 30b почему то игнорятся
Их нет для лламы2, обещали уже давно.

Аноним 16/09/23 Суб 12:01:26 № 490396 81

>>490362
>получить даунгрейд перфоманса относительно 3070 это вообще сильно будет.
Ну почему даунгрейд? В тестах они вроде одинаково себя показывают, считай за лишние 8 гб памяти доплачиваешь.

Аноним 16/09/23 Суб 12:01:54 № 490397 82

>>490362
>получить даунгрейд перфоманса относительно 3070 это вообще сильно будет.
Ну почему даунгрейд? В тестах они вроде одинаково себя показывают, считай за лишние 8 гб памяти доплачиваешь.

Аноним 16/09/23 Суб 13:53:06 № 490476 83

>>489141 (OP)
Какую модель лучше заюзать для перевода с английского на русский?

Аноним 16/09/23 Суб 14:29:55 № 490504 84

>>490476
Специализированную - дипл или гугл. Обычные текстовые генераторы не могут в стабильную структуру и консистенцию, даже уровня гпт4 и клауди-2, а этот ламаконч и подавно. Проходи мимо, это тред для пердолек, которые сжигая комплюхтеры пытаются получить результаты пятилетней давности.

Аноним 16/09/23 Суб 14:31:55 № 490508 85

>>490504
> дипл
Я бы даже заплатил за апи, но не продает. Сейчас попробовал сайгу, даже хуже гугла.

Аноним 16/09/23 Суб 14:51:54 № 490520 86

>>490476
Никакую. По моему опыту скажу, что модели начинают придумывать слова. Тебе нужен АПИ переводчика - Яндекс, Азур и т.д. Эти двое хорошо переводят.

Аноним 16/09/23 Суб 15:10:07 № 490533 87

>>490309
Если есть возможность — почему нет? SDXL хорошая модель, а жрет много врама. Ну и 13Б высокого кванта с контекстом.

>>490327
30б игнорятся потому что они тупые, ибо ллама1, немного умнее 13б ллама2. Все сидят на 13б, только немного богатеньких на 70б. =)
Для стаблы должно хватить, и для 13б норм.
Но 4060+3070 звучит как одна 3090, только потребление будет выше, как я понимаю, и скорость ниже.
Да, дешевле, конечно.
Но ты мой ответ видел.

>>490476
LibreTranslate из локального софта, но качества местами хромает.
70Б лламу, если хочешь покачественнее и локально, но медленнее (десятки минут против секунд).
Ето шо я знаю.
Гугл и Яндекс переводит однозначно пизже, но это облака. Но лучше их нема.

Аноним 16/09/23 Суб 16:32:57 № 490586 88

>>490303
>нежелание модели следовать инструкциям
Пробовал Autor's notes? Вроде как раз для этого создано, там можно настроить где и как часто введённый кусок промпта будет вставляться в основной промпт. Я так пробовал продублировать инструкции из карточки, и тогда модель лучше следовала правилам.

Аноним 16/09/23 Суб 16:35:38 № 490590 89

>>490476
Если именно модель, то попробуй OpenBuddy.

Аноним 16/09/23 Суб 17:18:41 № 490657 90

>>490396
В играх и некоторых бенчмарках (не нейронки) 4060 всирает 3070 из-за шины памяти, доплачивать х2 ради прибавки 8 гигов врам даже при том же перфомансе - пиздец же.
>>490476
OpenBuddy70 и инструкцию для перевода.
>>490533
> Да, дешевле, конечно.
Технически это стоит +- столько же что и 3090+3070, но ампер это бу с рук.

Аноним 16/09/23 Суб 17:38:16 № 490685 91

>>490657
Я боюсь брать 3090 с рук. Вон обьявы на авито за полтинник даже. При этом пишут, что она новая, а на фото пылищи, что видно, что года два где то крутилась.

Аноним 16/09/23 Суб 19:21:46 № 490831 92

>>490148
Ну таки попробовал. Честно говоря от MLewd сильно отличий не ощутил. Графоманит так же как предыдущая модель, рероллить ответы тоже часто приходится. В общем волшебства как то не нашел Модель как модель в общем то.

Аноним 16/09/23 Суб 20:11:16 № 490896 93

>>490362
>Офк она будет игнориться, потому что уже есть примеры ее реплик с вполне обычным или минимально измененным стилем. Если же начинать чат с такой штукой - оно сразу повлияет на ответы
У меня игнорило начиная с первого сообщения. То есть не совсем игнорило, но такого эффекта как от инструкции не было.
>Главное чтобы не было конфликта с инструкцией, которая в начале/середине, иначе качество упадет.
Модель понимает несколько инструкций? Надо попробовать.
>>490362
>Вот этот пример должен быть хорош, можно еще с input/response можно поиграться.
Это как раз я игрался с input/response. Эффекта вроде нет, так что можно убрать, оставив одну пару instruction/response в самом конце.
>>490586
>Пробовал Autor's notes?
Пробовал. Как уже писал - оно влияет, особенно если находится в самом конце, но не так сильно, как то что под инструкцией.

Аноним 16/09/23 Суб 21:29:23 № 490966 94

1582011359052.png 1189Кб, 1259x4173

>>490831
В тебя на пикрел вроде нормальный кумерский пост. Движение, описание действий и внешности с фокусом на персонажа, реплики, без повторений и нормальный уровень графомании, в отличии от спама слабосвязанных реплик в прошлом посте. Чего именно ты ожидаешь, просто коротких ответов?
Обычно наоборот хороших сложных добиться сложнее. В таком случае тебе пигма зайдет, у нее и пикрел имперсонейты очень крутые первая модель, которая лупится в них, из графомании только блашез слайтли. И даже неожиданная реплика не выбьет ее из колеи!
>>490896
> То есть не совсем игнорило, но такого эффекта как от инструкции не было.
Именно короткие? А что за модель и карточка? Надо потестить, обычно даже просто параграфами соображает, пару тредов назад с карточкой аквы рофлил, там для длинного ответа указано 10 параграфов в дефолтном шаблоне а для короткого 1.
> Модель понимает несколько инструкций?
Хз, по дефолту там шаблон с одной и как будет воспринято несколько хз. Или обще сработают, или рассеет внимание создавая затупы, или наоборот воспримет респонз в контексте как ее выполнение и попытается сделать также, с рандомным результатом.

Аноним 16/09/23 Суб 21:36:43 № 490980 95

>>490966
> вроде нормальный
Это рубрика "ВРАЩАЙТЕ БАРАБАН" в поисках нормального ответа, тащемта.
> Чего именно ты ожидаешь, просто коротких ответов?
А чего можно ожидать? Как намекал выше - только снижение числа рероллов и общего уровня логических ошибок. Но это к более старшим моделям, а они, сцуко, жырне.
> пигма
Эх, а я ведь с неё начинал, еще когда 2070 была только. Там вроде должны были пигму еще больше улучшить за это время?

Аноним 16/09/23 Суб 21:40:20 № 490983 96

Короче, сегодня наконец настроил все: и перевод через либру, и промпт руками переписал, и карточку персонажа, и фоточки сгенеренные в стабле диффужн покидал персонажу и попросил ее выбрать, где она больше похожа на себя, и пообщался.
Дельные мысли дает (да, внезапно я не для кума этого персонажа настроил), общается норм, текста многовато, но это промпт подредачить.
Как же кайфово, теперь хочу 70Б на видяхе, а не вот это вот 13Б.
Как цель —накопить бабла на норм железо, да еще с запасом, мб. Чтобы будущие модельки 180Б какие-нибудь в 2,55 норм помещались. )

Аноним 16/09/23 Суб 21:46:58 № 490986 97

>>490980
А ну если это черрипик из свайпов то не удивительно.
> только снижение числа рероллов и общего уровня логических ошибок. Но это к более старшим моделям
Позже попробую сравнить версии спайсобороса в одинаковых условиях, если нюансов файнтюна что могли всрать тринашку нет, то можно будет вывод сделать.
> Там вроде должны были пигму еще больше улучшить за это время?
Ну вот улучшили, вообще если с ней пытаться в нормальный диалог, а не спамить имперсонейт в который она не умеет вообще, то не так ужасна и даже сообразительна. Еще плюсом что экономит контекст, лол.

Аноним 16/09/23 Суб 21:55:02 № 490990 98

>>490966
>Именно короткие?
Я тестирую на четких коротких инструкциях, которые ну обязательно должны выполняться и которые легко проверить на выполнение. Например, {{char}} speaks in a an old-fashioned and formal manner или {{char}} starts each reply with "fuck yeah". Если поместить это под instruction в самом конце контекста, то модель поменяет речь персонажа вопреки всему, что было до этого. Если поместить в author's note, то не будет вообще ничего. author's note работает только если нет контекста, или то что ты там пишешь ему не противоречит. Например, ты можешь использовать author's note для уточнения где находятся персонажи и что на них надето, для снижения шизы модели.

Аноним 16/09/23 Суб 22:01:19 № 490994 99

>А что за модель и карточка?
Модель https://huggingface.co/Undi95/ReMM-v2-L2-13B-GGUF 8 бит, карточки разные.
>>490966
>>490990
Забыл еще добавить что author's note даже без контекста работает больше как уточнение, а не как инструкция. То есть оно снижает шизу модели, но не гарантирует выполнение.

Аноним 16/09/23 Суб 22:03:30 № 490996 100

>>490994
> author's note
>>490990
А есть какой-нибудь промт-пример с пояснениями?

Аноним 16/09/23 Суб 22:07:16 № 490998 101

>>490990
А что именно ты пишешь в авторских заметках и где размещаешь? Если просто так то оно может вообще к одному из сообщений приклеиться, посмотри что именно отсылает таверна. Плюс, содержимое, если там будет ### input/instruction отделенное ньюлайном, то точно будет воспринято.
> {{char}} speaks in a an old-fashioned and formal manner или {{char}} starts each reply with "fuck yeah"
Системный промт идет перед карточкой, которая может это "перезаписать". Алсо, посмотри на речь >>490966 там всего лишь в карточке стоит
> Speech Pattern: {{char}} speaks in a onee-san style, frequently using phrases such as 'Ara ara~', 'Mou~', and more, which represent surprise or dismay in an endearingly feminine way. She also enjoys calling {{user}} cutie.
что даже самые тупые модели понимают и часто даже злоупотребляют как здесь, те что поумнее уже при длинных фразах выбирают правильное построение предложений и речь. Наоборот, в карточке депрессивного персонажа из "прошлой эпохи" реплики более чем соответствуют образу, а то еще ультит вышедшими из употребления словами, за которыми в переводчик лезть приходится.
Потому и удивляет что такие простые вещи у тебя срабатывают неустойчиво.

Аноним 16/09/23 Суб 22:07:17 № 490999 102

>>490996
>А есть какой-нибудь промт-пример с пояснениями?
Не понял вопроса. Author's Note задается в таверне, которая вставляет в промпт.

Аноним 16/09/23 Суб 22:16:03 № 491004 103

А ежели вот так аноны. По моему годно. Моделька которая в рейте аюми щас первая. Ну а карточку ищите на буре если заинтересует.

Аноним 16/09/23 Суб 22:19:19 № 491006 104

>>491004
> которая
Тыкни лучше ссылкой

Аноним 16/09/23 Суб 22:21:24 № 491011 105

>>491006
https://huggingface.co/Undi95/MLewdBoros-LRPSGPT-2Char-13B-GGUF

Аноним 16/09/23 Суб 22:28:59 № 491017 106

>>491011
Пасиб

Аноним 16/09/23 Суб 22:31:17 № 491020 107

>>491011
Довольно забавно что у этого замеса рекомендуется пигмаподобный промт, но учитывая состав и такое поймет. А чего стори стринг пустой, оно вообще карточку и примеры отправляет?
Третий пункт к шизе не приводит случаем?
Приветственный пост прямо платиновая графомания от нейронок, без осуждения если что

Аноним 16/09/23 Суб 22:41:36 № 491032 108

>>491020
Да я вообще не ебу что за Story string это. Просто повыкидывал все говно что по моему мнению в шизу катало нейронку..... Ответы заебатые. Но до этого я кучу раз ебался и вот щас работает не трогаю.
По поводу третьего пункта, да знаешь как бы нет. У нее просто одновременно и желание сделать то самое и не делать. Там просто стараешься подкатывать к ней нормально тогда она и не против. Короче тебе самому надо пробовать если интересно. Инструкция есть в той же карточке я только добавил пункты 6 и 7 вроде и перевел ток инструкцию в ANote. Ибо нейронка очень хорни. Прямо сильно, да и карточка сама как видишь тоже. ДА и инструкция хорни тоже че же за напасть то.... Ну по мне ответ прям не хуже клавы. Хотя на клаве я мог и с 4 персами участвовать, тут такого нет, ждем новых нейронок годнее.

Аноним 16/09/23 Суб 22:50:41 № 491043 109

>>490998
>А что именно ты пишешь в авторских заметках и где размещаешь?
Размещаю в самом конце промпта. Что отсылает вижу через консоль - никаких ошибок нет.
>Плюс, содержимое, если там будет ### input/instruction отделенное ньюлайном, то точно будет воспринято.
Проверил - не воспринимает. В финальном промпте два блока ### Instruction один под другим, и первый игнорируется. Так что несколько ### Instruction, наверное, плохая идея.
>что даже самые тупые модели понимают и часто даже злоупотребляют как здесь
Да тут все понятно - указания не противоречат тому, что думает модель. Я у одного персонажа прописал, что он постоянно называет юзера сенсей, и модель сразу подхватила. Но вот заставить тянку говорить в более разговорном стиле не имея при этом кучи примеров диалога без инструкции невозможно. Аналогично когда модель ошибочно думает что тян не девственница. Она делает такой вывод из ее поведения, игнорируя что ты прямым текстом написал обратное. Это чинится только помещением информации непосредственно под instruction в конце промпта. Вот этот >>491004 вот author's note я бы тоже рекоммендовал запихнуть под instruction, хотя не знаю как модель отреагирует на такую длинную инструкцию.

Вообще, пока остановился на таком промпте:

Below is a roleplay between {{user}} and {{char}}.

{{char}}'s Persona: ...
{{user}}'s Persona: ...
Scenario: ...
New Roleplay.
{{char}}:...
{{user}}:...
...

### Instruction:
Write the next reply as {{char}} in this roleplay with {{user}}. Describe all actions in full, elaborate, explicit, graphic, and vivid detail. [Инструкции по речи, поведению, и всему прочему]

### Response:
{{char}}:

Аноним 16/09/23 Суб 22:53:05 № 491045 110

>>491043
не засунешь. Там ограничение стоит, влезет едва ли треть инструкции.

Аноним 16/09/23 Суб 22:57:56 № 491054 111

>>491045
>не засунешь. Там ограничение стоит, влезет едва ли треть инструкции.
Там 2000 символов стоит. Если мало, то можешь увеличить maxlength у instruct_last_output_sequence в public/index.html.

Аноним 16/09/23 Суб 23:27:47 № 491085 112

>>491032
> Да я вообще не ебу что за Story string это
Да вроде как это и есть основной промт, где ссылки на карточку, персону и т.д., как будет работать с пустым но со включенным инстрактом хз.
> самому надо пробовать если интересно
Скорее интересно как именно здесь работает и понять принципы. По той же причине большей частью сижу на ролплей пресете с минимальными правками, более чем устраивает. Надо вообще сделать правильный - совместимый с airoboros формат, который часто используется, но оно даже в чат режиме хорошо работает так что и пофиг. А вот визарда настроить в таверне чтобы работал также хорошо как и через симпл прокси не получилось, необходимо воспроизвести довольно большой промт и его структуру, надо заниматься.
> Прямо сильно
Чего от кумерского микса ожидаешь.
>>491043
> В финальном промпте два блока ### Instruction один под другим, и первый игнорируется.
В этом случае будет тупить, да, изначально юзалось костылем еще до введения полноценных настроек инстракт режима в таверне.
> Но вот заставить тянку говорить в более разговорном стиле не имея при этом кучи примеров диалога без инструкции невозможно.
Этого не догоняю, должно быть оче просто если далее нет противоречий, причем хватает подписи в карточке. На Акве потестил, работает, если в инструкции жестко не забито а только в карточке - можно менять по ходу через ooc.
А вот всякие механики, доп фичи и прочее для правильной работы обязательно должны вписываться дополнительной инструкцией прямо перед ответом даже для умной гопоты и даже так игнорятся турбой.
> Она делает такой вывод из ее поведения
Вот в этом, пожалуй, корень многих проблем, особенно в сочетании с неподходящим форматом промта. Тогда вместо магии, когда по косвенным признакам модель понимает твои предпочтения и восхитительно их предподносит или двигает сюжет по желаемой линии без единого OOC, она шизит от спгс и еще мечется туда сюда, видя неоднозначный ответ.
Промт визуально базированный правильный, именно что-то такое из под прокси шло когда все хвалили.

Аноним 16/09/23 Суб 23:45:52 № 491097 113

>>491085
>Этого не догоняю, должно быть оче просто если далее нет противоречий, причем хватает подписи в карточке.
Если нет противоречий, то будет выполнять намного более охотно, но именно поэтому я и тестирую с противоречиями.

Самое главное о чем я забыл написать - основная проблема как правило не в начале чата, а в конце, через много десятков сообщений. Если модель начала в какой-то момент лажать, то эта лажа нарастает снежным комом и не пофиксится до полного ресета чата. Так может сбиться стиль речи и случится вообще все что угодно. Проблемы с повторением одних и тех же фраз идут оттуда же. Так что важно иметь возможность дать указания, которые бы пересилили весь предыдущий контекст, или корректировали его по мере нарастания лажи.

Аноним 17/09/23 Вск 01:53:12 № 491133 114

>>491097
Про курсед чат поддвачну.
Еще заметил что лупы зависят от модели, точнее от того насколько она осведомлена в теме обсуждения, было ли подобное в тренировке, не лезет ли конфликт с соей и понимает ли вообще происходящее. QA модели сразу курвятся стоит их во взаимодействия погнать, старые ерп поделки взрываются когда затягиваешь взаимодействия (не еблю), новые сильно лучше но могут тупить не успевая переключаться. Чсх те что поумнее сами хорошо из лупов выходят, внимательно глянув истории удачных частов местами там встречаются пары сообщений чуть ли не половину совпадающих с небольшим развитием, но далее все ок без вмешательств, да так что при беглом чтении проскочившего косяка не замечаешь.
Алсо силу вне_контекста зря недооцениваешь, иногда оно лучше всяких инструкций работает и лезть никуда не надо. Если же это не срабатывает - значит там совсем перплексити и нить утеряна, переключение моделей или радикальные меры только помогут.

Аноним 17/09/23 Вск 08:39:11 № 491227 115

>>491133
Кстати, а уменьшение контекста на некоторое время не могло бы помочь? То есть чтобы в контекст попали только сообщение пользователя и сама карточка персонажа

Аноним 17/09/23 Вск 09:27:14 № 491257 116

>>491097
Мда, самую главную проблему так и не решил. Модель до сих пор льет сою вроде responsible, consenting adults и прочего, что вообще напрочь убивает настроение. Никакие инструкции не помогают, точнее помогают но не на 100% - иногда все равно проскакивает. CFG тоже не всегда работает. Не нашел другого выхода, кроме как вырезать регуляркой. Буду добавлять все заебавшие соевые выражения, чтобы их автоматически убирало.
>>491227
>Кстати, а уменьшение контекста на некоторое время не могло бы помочь? То есть чтобы в контекст попали только сообщение пользователя и сама карточка персонажа
Да, но ты заебешься постоянно менять.

Аноним 17/09/23 Вск 09:52:33 № 491262 117

Пиздец, где вы там сою находите?

мимо сижу на голой ламе 2 70б

Аноним 17/09/23 Вск 10:00:43 № 491269 118

Это опять я >>490024
У моей мамки нет, оказывается, второго слота. Поэтому просто придется менять карту. Я теперь еще начал смотреть в сторону 4070, поскольку она оказалась лишь немного дороже 4060 ti. И вроде как не даунгрейд уже, на что упирал анон, если бы не одно но - 12 гб, а не 16. Развейте мои сомнения уже в ту или иную сторону, плез, а то у меня башка взорвется! Все таки 3090 слишком дорого на данный момент. Есть еще риск, что она не влезет попросту + нужен новый бп к ней.

Аноним 17/09/23 Вск 10:10:34 № 491276 119

>>491269
Обновить мамку не так и дорого

Аноним 17/09/23 Вск 10:22:34 № 491280 120

>>491269
Давай решайся, заебал. Посмотри в сторону 3060бу 12 гб. Мне кажется неплохо и недорого. У меня всего 20к. Итого 20. А потом может цены упадут возьмешь 4090.
Мимотоже3070ти

Аноним 17/09/23 Вск 10:38:19 № 491288 121

>>491269
У меня 4070 ti с 12 гигами, скорость норм, объем врама впритык, рекомендую брать больше.
Нет второго слота? А маленький есть? Райзер и выноси видяху наружу куда-нить. Скорость шины нахуй не всралась. Даже на v1.1 1х не особо потери будут, а если у тебя v3.0 x1, то уж можно райзер получше поискать, хз. Не знаю модели конкретной.

Аноним 17/09/23 Вск 11:49:13 № 491337 122

>>491288
Есть маленький. Не знал, что можно туда подключить вк. Вот фото платы

Аноним 17/09/23 Вск 11:55:50 № 491346 123

>>491337
Хуясе маленький, х4. Давай врубай, жирнющий слот для текстовых нейронок.

Аноним 17/09/23 Вск 12:05:11 № 491359 124

>>491346
То есть мне надо найти райзер x4 - x16 и врубить туда 3060? Но куда ее девать, вот вопрос, я даже не уверен, что ей хватит места внутри корпуса между 3070 и бп.

Аноним 17/09/23 Вск 12:42:42 № 491381 125

>>491359
Да, один из вариантов. Можно просто 4 на 4, они обычно с пропилами идут (или самому разрез пропились, там сложно обосраться, но если и обосрёшься, то засрёшь только райзер).

Аноним 17/09/23 Вск 12:58:26 № 491387 126

>>491227
Хз, скорее всего наоборот хуже станет, потому что исчезнут понятные сообщения и то как к этому пришли, ситуация станет еще более непонятной а вместо нормальных примеров реплик только поломанные. Вот наоборот увеличение или суммаризация могут помочь.
>>491262
Что на ней делаешь, какой формат используешь?
>>491269
Подзатяни пояса до 4080 тогда уже, там и перфоманс и память. А то и всю пекарню продай и новый собери чтобы проблемы с платой, бп и длиной корпуса решить на корню.
>>491337
Этого более чем хватит, проблема только в том что он без пропила и придется или искать х4 райзер или пилить х16.

Аноним 17/09/23 Вск 14:28:11 № 491456 127

>>491381
Райзер x1 - x16 не подойдет?

Аноним 17/09/23 Вск 16:40:26 № 491640 128

Character Expressions в силли таверне работают из коробки или там надо с бубном танцевать чтобы заработало? Или какую нибудь волшебную и невидимую кнопку для включения нажать? А то вроде пиктчи с эмоциями загрузил, а нихуя нигде не показывается и не меняется.

Аноним 17/09/23 Вск 17:25:29 № 491674 129

>>491640
А Silly Tavern Extras подключил?

Аноним 17/09/23 Вск 18:01:29 № 491696 130

.png 13Кб, 1060x58

.png 9Кб, 975x55

>>491674
Да вроде включил. В консольке даже что-то пишется, а пиктчи всё равно не меняются.

Аноним 17/09/23 Вск 18:10:39 № 491705 131

>>491696
Ёбаный рот этого казино блядь, чтоб оно заработало (ну всмысле чтобы увидеть как оно работает) надо было ЕЩЕ СУКА РАЗ ткнуть на аватарку персонажа, чтобы уже развёрнутая картинка сменилась на другую блядь, охуеть приколы.

Аноним 17/09/23 Вск 18:17:52 № 491715 132

В общем вычитал, что райзеры на шлейфах использовать не рекомендуется, мол так и карту сжечь недолго, лучше использовать, которые подключаются через usb 3.0. А такие нашел только на x1. Что думаете?

Аноним 17/09/23 Вск 18:26:24 № 491720 133

>>491715
мож это тебе лучше в треде железа спросить?

Аноним 17/09/23 Вск 18:30:39 № 491724 134

Можно как сказать локалке продолжить прерванное предложение?

Аноним 17/09/23 Вск 18:32:25 № 491725 135

>>491724
Никак

Аноним 17/09/23 Вск 18:40:14 № 491732 136

>>491715
На заборе тоже много чего написано, но брать длинный дешевый шлейф из говно-кабелей как на некроинтерфейсах не стоит. То что ты нашел - майнерская тема, тебе нужен (более менее) фирменный экранированный, там под питание выделено достаточное сечение и не полезут ошибки интерфейса.

Аноним 17/09/23 Вск 18:44:09 № 491737 137

что изменилось в актуальности моделей до 8-10 гигов Врам ? что в топе?

Аноним 17/09/23 Вск 18:48:28 № 491744 138

>>491725
Ок, спасибо.

Аноним 17/09/23 Вск 19:20:36 № 491798 139

>>490831
что за промпт у тя анон? Делись настройками

Аноним 17/09/23 Вск 19:23:17 № 491803 140

>>491798
Да хз, я в настройках ничего и не менял.

Аноним 17/09/23 Вск 19:38:24 № 491826 141

>>491715
Я уже говорил, шо не шарю в райзерах. У меня простой 1х майнерский, но руки поюзать так и не дошли, лул.
Но советуют нормальный ставить — я согласен с этой идеей.
И пропил в самом слоте сделать — норм идея, насколько я знаю. Просто подпорку под видяху.
Или найти х4 нормальный.
Но, давай начнем с того.
Тебе хочется больше памяти, дешевле и чтобы работало? Ну вот, мы посоветовали, что смогли. Это реально рабочий вариант.
А если ты не хочешь колхозить, то тут уж… =) Могу еще вспомнить кейс-переходник с видяхи на Type-C или Thunderbolt. Элитненько.
Но если тебе не нравится, то рил уже советы лучше взять другую мать, взять другую видяху, взять сразу жирную видяху одну…

Ну, в рамках твоей материнки, ничего иного мы не придумаем. Или райзер/пропил, или внешка (сомнительная идея, хз), или жирная видева. Выбирай.

Аноним 17/09/23 Вск 20:43:12 № 491909 142

Who in uga boug at 4k context the repetitions start and the grid fizzles out. What are you doing?

Аноним 17/09/23 Вск 21:15:16 № 491957 143

>>491737
7б - чекай Аюми рейтинг, но они глупые. 13 с оффлоадом влезет, тебе для чего нужна то?
>>491826
> кейс-переходник с видяхи на Type-C или Thunderbolt
В его материнке врядли такие технологии есть, и стоят эти переходники вместе с бп как уцененная 3060@12. При размещении в материнку двух карточек еще нужно чтобы охлаждение не перекрывало, райзер самое простое решение получится.
>>491909
Нормально и подробно проблему распиши

Аноним 17/09/23 Вск 21:25:08 № 491977 144

>>491732
>>491826
Спасибо, буду думать. Я бы занялся колхозингом раньше без проблем, но теперь, по состоянию здоровья, увы.

Аноним 17/09/23 Вск 21:29:32 № 491985 145

>>490024
Посмотри в сторону AMD. У 6800 тоже 16, может дешевле будет, и smart access memory с процессором, но я не вникал, увеличится ли производительность от этого. У меня 6950 и i9-9900K, планирую на 5950X заменить. MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом. И памяти хотя бы 8 докинь, чтобы система не свопилась, но лучше больше.

>>490476
Я скоро попробую NLLB, 5 месяцев назад исследование провели, он на уровне с GPT-4. https://arxiv.org/pdf/2304.04675.pdf

Есть сейчас компилируемые интерфейсы для ролеплея? Кукольд на питоне написан, тавена вообще на ноде, из альтернатив только https://github.com/axim2/llm-ui , но там wxWidgets и все равно используется webView, под винду не получается собрать.
Пока использую main, для реролла перезапускаю его, плюс на винде кэш больше 2 гигов не загружается, так что надо пересчета ждать, сижу вникаю почему fread не читает файл большими кусками. Хотя его можно лучше контролировать, останавливать в середине предложения или оставлять дописывать мои действия.

Аноним 17/09/23 Вск 21:45:11 № 492029 146

>>491985
Насчет AMD как я читал здесь, более менее еще с языковыми моделями, но вот со stable diffusion прям беда-беда-огорчение

Аноним 17/09/23 Вск 21:49:06 № 492033 147

>>491985
> MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом
Это не тот результат, которым стоит хвастаться и ставить в плюс, столько буквально можно на одном процессоре получить. Та же 4060-16 в экслламе 20-30+ токенов выдаст (наверно) не смотря на днищенскую мощь и узкую шину, а в других нейросетях тем более задоминирует амду.
> Есть сейчас компилируемые интерфейсы для ролеплея?
Чем имеющиеся не угодили, зачем нужна компиляция?
>>492029
Все так. Как бы хотелось йоба карточку с рабочим шустрым pytorch, оптимизациями и 36-48 гигами врам по цене 4080, но здесь лишь пердолинг, низкий перфоманс и надежды что когда-нибудь сделают.

Аноним 17/09/23 Вск 22:18:47 № 492119 148

>>491957
Карточка 3060 при 4к контекста начинается повторение предыдущих сообщений. Все настройки в таверне перелопатил. На кобольде такого не было.

Аноним 17/09/23 Вск 22:31:41 № 492138 149

>>492119
Альфа валью в 2 выкрути и попробуй еще раз

Аноним 17/09/23 Вск 22:38:00 № 492145 150

>>492033
О как, это eval time? Бенчмарков нормальных не нашел, на гитхабе в шапке пример на M2 ultra 16 выдает, думал, у меня неплохая скорость. На работе Alveo U250 есть, хочу на нее ламу портировать, но это не на один день.

>Чем имеющиеся не угодили, зачем нужна компиляция?
Б-гомерзкостью. Сидят мужики, колдуют, выжимают алгоритмы, а их потом в язык для домохозяек заворачивают, неприятно таким пользоваться. Как электрон начал популярность набирать у меня подгорело, стал более разборчив в выборе софта. Ну и удобство, проще все-в-одном иметь, чем несколько сервисов и страницу в браузере, да вот не напишет никто.

>>492119
Можешь еще mirostat sampling включить, у меня он качество улучшил.

Аноним 17/09/23 Вск 22:47:32 № 492161 151

ВНЕЗАПНО, пока что лучшее из того что я пробовал (на 70б смотреть не надо, в 24+32 оно не влазить нормально) оказалась пигма2суперкот. Ответы получаются +- лаконичными и по делу + число реролов из за логических или фактологических ошибок меньше (на скрине на последнем их 5 тому как искал именно кумерский вариант), чем у всего остального. Плюсом нету графомании на несколько параграфов в одном ответе, как у всех остальных моделей, где первый параграф будет противоречить следующему.

Аноним 17/09/23 Вск 22:53:24 № 492170 152

>>492161
А ты попробуй 70б ужатую в 2 бита на эксламе 2

Аноним 17/09/23 Вск 22:56:58 № 492173 153

>>492170
> 2 бита
А разве не будет уж слишком жмыхнуто?

Аноним 17/09/23 Вск 22:58:05 № 492176 154

>>491957
>Аюми рейтинг,
как на енглише то гуглить?
> тебе для чего нужна то?
ты наверно не первый день тут?..

Аноним 17/09/23 Вск 23:02:38 № 492179 155

>>492173
По картинке из шапки даже самая ужатая 70/30/13 лучше чем полноценная 30/13/7

Аноним 17/09/23 Вск 23:05:07 № 492180 156

>>492179
Ну ладно, уговорил. Какую там лучше взять будет чистую или васянододеланную?

Аноним 17/09/23 Вск 23:14:21 № 492184 157

>>492138
если выкрутить alpha value в угабуге разве это будет работать в таверне?
В таверне есть ток Mirostat из пресетов. Такое себе.

Аноним 17/09/23 Вск 23:17:41 № 492189 158

>>492180
Я на airoboros-l2-70b-gpt4-1.4.1_2.5bpw-h6-exl2 но у меня 36 гб врам, не знаю как пойдёт у тебя

Аноним 17/09/23 Вск 23:27:09 № 492194 159

>>492119
Оно прямо резко начинает тупить в момент наступления контекста, или плавно деградирует? Если первое то ограничения контекста в таверне приведи в соответствие и чекни в угабуге на странице параметров обрезку контекста чтобы тоже 4096 стояло если по старому апи подключаешься. Если второе - лупы, выше обсуждения читай, крути настройки семплера.
>>492145
> это eval time
Если про экслламу то все вместе. Если процом то нормальные токены в секунду офк при уже обработанном контексте, начальная обработка может сильно затянуть, но для нее любая видюха подойдет ускорять.
> M2 ultra 16
У него 8(?) каналов памяти или типа того, неудивительно.
> Б-гомерзкостью
Все в одном - убабуга. Нет смысла в оптимизации и ради самого процесса, хочешь ускорять - займись улучшением кода имеющихся бэкэндов. Имеющиеся же интерфейсы никогда не станут ботлнеком по перфомансу а как раз их модульность и удобство написания позволяют легко переделывать, дорабатывать и пилить аддоны чтобы обеспечить богатый функционал.> да вот не напишет никто
Потому что имеющийся подход является оптимальным и никто не хочет тратить кучу усилий ради пососного аналога, который не будет востребован.
> Alveo U250 есть, хочу на нее ламу портировать
Хм, а как оно тут может помочь? Даже интересно
>>492176
> как на енглише то гуглить?
В шапке.
> не первый день тут
Млевдборос попробуй, лол, или просто stheno. Тут вообще порядочные люди за целомудренный и увлекательный ролплей топят и
>>492189
> airoboros-l2-70b-gpt4-1.4.1
Он нормальный у тебя? Это соевый и туповатый пиздец по первым оценкам был, версии начиная с двойки уже хороши.

Аноним 18/09/23 Пнд 00:22:48 № 492224 160

>>491977
Оу, лучи добра и поддержки тебе!

>>492033
> узкую шину
Так-то пофигу, там норм псп все равно, не одной шиной пользуемся.

> имеющиеся не угодили
Нода, пздц, шо может быть хуже.
(не отвечайте, сам знаю)

>>492173
Ну так, будет на уровне Q8~Q6 30Б. Но ты же понимаешь, что 30Б у нас нет. =)

Аноним 18/09/23 Пнд 00:46:27 № 492230 161

>>492194
>Если про экслламу то все вместе.
Не, про лламу обычную. Llama.cpp. тут я понял, что тред не о программе

>начальная обработка может сильно затянуть, но для нее любая видюха подойдет ускорять.
Так наоборот, у меня sample time 192 в секунду, prompt eval time 22, sample(сама генерация) 4. Скорость может и выше получиться, чем скорость генерации, если правильно посчитать.

>У него 8(?) каналов памяти или типа того, неудивительно.
И нейропроцессор, llama.cpp его использует. На mac studio Falcon на 180 миллиардов параметров 6 токенов в секунду выдает, аж захотел купить специально чтобы сети гонять, но быстро передумал.

>Потому что имеющийся подход является оптимальным
Понимаю, но я самурай, у меня нет цели, только путь. Параллельно вникаю в консольное приложение, хочу туда допилить манипуляции с текстом. Есть еще Whisper для транскрибирования, если не знаешь, использую его иногда, результаты отличные. От того же самого мужика, 3 мегабайта компилированного кода и все, никакого питона с его зависимостями. Ну и память экономлю, изначально это все из-за нее началось, с дискорда в 2015-2016 и его полутора гигов. Больше проуманного софта на крестах, больше памяти под RAM-диски и кэширование файлов. Хотя ее у меня все равно уже 128, лол.

>Хм, а как оно тут может помочь?
Оптимизацией вычислений, хотя конкретно для больших моделей надо думать, как их лучше обсчитывать. Сейчас перепроверил характеристики, наверно не сильно лучше серверных видеокарт будет. 33 INT8 TOPs, у A16 в 4 раза больше и меньше цена, и память GDDR6. Хотя nvidia те еще мудаки, сначала LHR запилили, теперь Tor на их сайте блокируют. Внутри 64Гб DDR4 и FPGA огромная, ее можно конфигурировать как хочешь и собирать любые блоки для вычислений. Идея сделать многозадачные блоки под каждый вид операции и конфигурировать их во время обработки, прогоняя модель по частям, но я пока даже с архитектурой трансформеров не начал разбираться. Может, упрусь в пропускную способность памяти и на этом все закончится.

Аноним 18/09/23 Пнд 01:22:07 № 492241 162

Пысаны, обзавелся тилибоном с 8 Гб рам, хочу покрасноглазить. Киньте, пж, гайд, как кобольд на андрюше запустить. Сам не нашел ничего нормального.

Аноним 18/09/23 Пнд 03:10:34 № 492254 163

>>492230
> тут я понял, что тред не о программе
О модели, ее запуске и около того. В цпп будет помедленнее, оптимизация не та, но десяток+ наверняка наберется.
> Скорость может и выше получиться, чем скорость генерации, если правильно посчитать
Вут? Обычно измеряют время генерации финального результата включая и обработку контекста и семплирование. С гпу ускорением и длинным ответом первое мало влияет на конечные токены/секунду.
> И нейропроцессор
И видеоядро со всеми вычислительными блоками там же. Всеравно здесь важна псп рам и все в нее упрется даже так.
> Есть еще Whisper
И он, и синтез голоса, и даже диффузия к таверне прикручивается. Для полнейшего погружения можно эмоции персонажа транслировать на вр дрочильню, и прикрутить привод тенги. Вот это уже реально проект, который мы заслужили, а не все эти невротические расстройства.
Пытаться в подобную оптимизацию фронта - что-то уровня разработки сверхвысокотехнологичной краски для принта на форме спортсменов. Она сможет сэкономить целый 0.1 грамм веса и точно сделает решающий вклад в победу! Рили, посчитай потенциальные затраты человекочасов на разработку, отладку и прочее и пойми что выгоднее будет закупиться алкашкой чтобы успокаивать нервы при использовании таверны.
Офк для запуска на совсем нищесборках снизить жор памяти и в первую очередь отказаться от запуска браузера - может сыграть, но объективно тут для нормального запуска уже такие требования что память точно будет.
> 64Гб DDR4
В это упрется. А вообще запилить на актуальных плисинах и пачке дешевой рам специализированный под ллм тпу - затея довольно интересная. Но нужно в этом крутиться, иначе выйдет дороже H100.

Аноним 18/09/23 Пнд 06:20:31 № 492272 164

>>492194
Соя особо не чувствуется. Сейчас в 70б пожатых в 2б только он и ллама 2

Аноним 18/09/23 Пнд 08:51:44 № 492300 165

>>492241
у меня из 8гб свободно 3 (ваще в ахуе и не понимаю что сколько жрёт.) так что удовольствие будет так себе, есть гайд на аглицком, но там и советую модели < биллиона параметров и толку от неё как от алисы
но гайд дам, вдруг ты совсем отчаялся
https://www.reddit.com/r/KoboldAI/comments/14uxmsn/guide_how_install_koboldcpp_in_android_via_termux/

Аноним 18/09/23 Пнд 10:06:15 № 492322 166

>>492254
> Вот это уже реально проект, который мы заслужили, а не все эти невротические расстройства.

В Virt-a-Mate делали, но на проект забили, а мне лень.

> сэкономить целый 0.1 грамм веса
Не-не, там, по-хорошему, можно сэкономить дофигища. =) Сотни метров, а то и гигов.

>>492241
По факту ответили, термукс, пока альтернатив не встречал. Найдешь — отпишись. =)

Аноним 18/09/23 Пнд 10:38:00 № 492336 167

>>491456
Подойдёт, хули нет то.
>>491985
>планирую на 5950X заменить
Катись лучше на AM5, AM4 уже некрота.

Аноним 18/09/23 Пнд 10:58:34 № 492344 168

Возможно ли на данном этапе заставить работать вместе две 13В, по аналогии с ГПТ4?

Аноним 18/09/23 Пнд 11:04:20 № 492350 169

Аноны, пытался кто-нибудь запускать маленькие модели по типу distilbert, phi, tinystories? В убабуге они у меня не заивились ни одним загрузчиком.
А медузу кто-нибудь пытался запустить?

Аноним 18/09/23 Пнд 11:38:50 № 492370 170

>>492350
>Аноны, пытался кто-нибудь запускать маленькие модели по типу distilbert, phi, tinystories? В убабуге они у меня не заивились ни одним загрузчиком.
phi, tinystories - запускал, работают. Первая неплохая, теперь много появляется моделей на базе нее. Вторая ну просто попугай повторяющий заученное. Так это и ожидаемо, там в серии вроде от 33м до 1м параметров, тем более гпт-2.
Запускать как трансформер. Для phi флаг trust remote code

Аноним 18/09/23 Пнд 11:40:29 № 492371 171

>>492322
>Сотни метров, а то и гигов.
Ну и что это даст? У меня в фоне виндового говна на пяток гигабайт.
>>492344
Делай, разрешаем.
Тут больше вопрос, на каком этапе и как часто они сравнивают ответы.
Ну и 2 это мало, надо хотя бы 3 штуки, чтобы сравнивать ответы.
И да, где-то проскакивал метод ускорения, когда мелкой сеткой предсказывают ответы монстра на 70B, мол, в случае удачного предсказания (30% токенов) можно забить на вычисления большой сетки. Но пока всё это сильно в альфе.
>>492350
Запускал подделку на Pythia-FireGoat-GGML-q5_1 на вроде как 300M параметров при помощи кобольдцпп, поржал с ответов и закрыл. А что?

Аноним 18/09/23 Пнд 11:44:50 № 492373 172

>>492371
>в фоне виндового говна на пяток гигабайт

Ничё страшного, можно linux второй системой в угоду ram или, пpости господи, freebsd

Аноним 18/09/23 Пнд 11:49:40 № 492375 173

>>492373
Там говна ещё больше, ибо пишут школьники по фану. А винду можно и порезать до сотни мегабайт, но пользоваться этим невозможно, как и люнупсом.

Аноним 18/09/23 Пнд 11:57:15 № 492384 174

>>492375
Дак для этого и говорю ставить второй системой, чтоб чисто под кумерство без лишних свистоперделок

Аноним 18/09/23 Пнд 12:02:03 № 492389 175

>>492371
Да речь даже не про озу, сколько про саму прогу.
Опять же, это все оптимизации.
Т.е., конечно, можно забить и гонять все и сразу (а имея 4 RTX 4090, можно даже игры не выгружать, одновременно болтать, играть в стратежку, и чиллить в выживаче), и забить на оптимизации.
Но это не у всех, и некоторым просто хочется эстетически оптимизированную прогу, а не огромный самосвал, который доставляет пиццу. А нынешние проги этим и являются.

Аноним 18/09/23 Пнд 12:39:25 № 492419 176

изображение.png 2Кб, 394x67

>>492384
И перезагружаться? Да ну нахуй.
>>492389
Просто это экономия на спичках. Уверен, что 95% занимаемой прогой памяти как раз и являются веса, и их никуда не деть. А то, что код будет занимать не 500 мегабайт, а 50, погоды вообще не сделает, когда модель занимает 40 гиг. Поможет всё это разве что в системах, где всё впритык, но тут проще оперативы докинуть. Таков уж наш мир, лучше смириться и жить, нежели чем потратить жизнь на борьбу с ветряными мельницами. Я вот просто покупаю себе железо хай левел тира, чтобы не обращать внимания на неоптимизированность высеров, которым называют нынешний софт.

Аноним 18/09/23 Пнд 13:13:26 № 492441 177

>>492370
>Запускать как трансформер. Для phi флаг trust remote code
Благодарю, получилось
>>492371
>А что?
Да просто у меня не получалось, а хотелось потыкать. phi, допиленная викуной+визард, оказалось прикольной, на удивление умной для такой маленькой модели. Просто мне интересно насколько можно такие модели развить, чтобы они могли пользу приносить. Типа того же QA на файл или генерация промптов для SD.
Они легковесные и быстрые, можно ли их как-то дообучать.
Я вообще хочу сделать аналог внутреннего диалога из Диско Эллизиум, что-то сгенеренные персы мне не зашли, или я не понял как с ними взаимодействовать.
Может можно просто маленькую модель затюнить на эту игру или ещё что.

Аноним 18/09/23 Пнд 13:21:30 № 492446 178

На реддите очередной тест, на этот раз в ролеплее, разные модели, от 13b до 70b + 180b Falcon. Маленькие модели все Q8.
https://www.reddit.com/r/LocalLLaMA/comments/16kecsf/new_model_comparisontest_part_1_of_2_15_models/
https://www.reddit.com/r/LocalLLaMA/comments/16l8enh/new_model_comparisontest_part_2_of_2_7_models/

Airoboros, Chronos-Hermes, MLewdBoros и Spicyboros ему вообще не зашли, типа логику повествования теряли, ломались и замыкались.
Mythalion, MythoMax, Synthia и openchat_v3.2_super ему зашли больше, особенно первый. Типа, не особо ломался, следовал правилам, простыни если и были, то захватывающие, а не как у других моделей.
Кстати, на реддите не раз видел что хвалят модель Synthia.
На форчонге, ктстаи, MLewdBoros одного анона затравил, лол, и некоторые его поддержали что модель сомнительная.
Просто интересно насколько разные результаты получаем.

Кстати, на том же форчане натыкался на мысль, что модели чаще лучше выдают ответ если писать ф формате "Юзер сделал то-то", а из оформления использовать только кавычки для речи. Если персонализировать себя и персонажа, сдобрять всякими () "", то модель может путаться. Как он предполагает, датасет ближе к первому варианту. Вы наблюдали что-то похожее?

Аноним 18/09/23 Пнд 13:32:16 № 492455 179

>>492322
> В Virt-a-Mate делали
Литерали модом за несколько вечеров к любой дрочильне, к койкацу точно что-то такое было.
> Сотни метров, а то и гигов
Ну да, пару гигов если браузер убрать. Вот только он все равно будет запущен для другого, а память как простаивала так и будет простаивать. Развивая аналогию - трата миллионов на облегчение машины сопровождения, которая все также едет позади колонны.
>>492344
Можно, на деле только разговоры и никто не делал, просто одна 70б будет лучше нескольких 13, а, например, для перевода их недостаточно.
>>492371
> когда мелкой сеткой предсказывают ответы монстра на 70B
Где почитать?
>>492419
Вот этого двачую

Аноним 18/09/23 Пнд 13:54:05 № 492480 180

>>492446
>простыни если и были, то захватывающие, а не как у других моделей
К слову об этом. Существуют ли модели, которые могут придерживаться нормального человеческого языка на протяжении РП, а не скатываться через десяток сообщений ко всратой графомании, пословицам и поговоркам? Чтобы без этих бесконечных just remember, after all, amirite и т.д. Чтобы персонаж говорил как человек, а не участник спектакля по сказке колобок.

Сбежал с Хроно Гермеса как раз от этого, перешёл на мифомакс, а тут та же поебень, просто в чуть меньших масштабах.

Аноним 18/09/23 Пнд 13:58:30 № 492487 181

>>492455
>Ну да, пару гигов если браузер убрать.
Тоже так думал, но на моей слабой машине, когда память переполняется, видимо, он всё "ненужное" выгружает или засовывает в своп. Как закрываю убабугу, то рам чистый, даже чище чем при загрузке ПК. А когда закрываю браузер то там не более 500мб освобождается.
Хотя у меня в браузере фоном вкладок 30 и ещё расширения.

Аноним 18/09/23 Пнд 13:58:53 № 492488 182

>>492455
>Где почитать?
Вот тут пердоли пердолятся, там по ссылкам и далее сам найдёшь.
https://github.com/ggerganov/llama.cpp/pull/2926

Аноним 18/09/23 Пнд 14:03:35 № 492498 183

>>492446
Забавный результат на самом деле, результаты идут буквально в разрез с экспириенсом а соевый(?) QA/чат файнтюн в топе и шизомикс с пигмой. Возникает вопрос по субъективности и реализации. Ну и то что 300токенов называет большим, сталкивается с проблемами написания за юзера(!) и проебом разметки, из чего складывается оценка - вызывает сомнения.
Ноус-гермес70 - довольно мусорная шизофазия и графомания без логики, но в редких случаях зайдет ибо стелит красиво, пуффин - показался унылым сразу, ощущения что делался на скорую, ближайший аналог - лора кимико2 70 только без ерп. Спайсиборос - вот он хорош, соображалка-креативность, логика и следование персонажу как раз на отлично. Хронос - уже согласованная графомания и местами очень крутые тексты, но не такой умный и игнорит/не замечает многие вещи, или может проблема в том что любит сворачивать сюжеты по шаблонам, плюс гадит фразами типа "две души которые только встрелись уже смогли так сблизиться, что же ждет их в этом быстро меняющимся мире".
Синтию надо попробовать, вдруг хайденгем. Что фалкон параша - вот тут он не ошибся, лол.
> логику повествования теряли, ломались и замыкались
Суть в том что нормальные семидесятки в принципе не ломаются если все ок с форматом и настройками. При взаимном сравнении уже разница будет, особенно если одна из них будет делать твисты, которые субъективно заходят. Или может он тестил на одном единственном чате без свайпов а потом сравнивал какой рандом больше понравился, но учитывая поломки - хз.
> модели чаще лучше выдают ответ если писать ф формате "Юзер сделал то-то"
На счет сталкиваться не то чтобы, но с учетом качества файнтюнов, то что это действительно больше похоже на датасет может сыграть, в некоторых моделях это вообще обязательное требование для качественного результата.

Аноним 18/09/23 Пнд 14:11:01 № 492505 184

Поставил я себе угубугу, скачал популярную модель которая должна без проблем влезать в мою врам и… куча ошибок при попытке её загрузить.
Где я тут не прав, можете ткнуть носом?

Аноним 18/09/23 Пнд 14:12:44 № 492507 185

>>492505
У каждого формата свой лоадер. Ты в каком скачал?

Аноним 18/09/23 Пнд 14:16:39 № 492510 186

image.png 9Кб, 553x189

>>492507
По умолчанию выбралась ламацпп, и как я погуглил, она тут и нужна вроде.

Аноним 18/09/23 Пнд 14:22:14 № 492513 187

>>492510
Запусти на всякий update_windows.bat
Какие параметры? Какие спеки?

Аноним 18/09/23 Пнд 14:27:05 № 492519 188

>>492513
Обновлял, без явного результата.
Дефолтные настройкиб ничего не трогал.
16 гигов врам, что там ещё важного может быть?

Аноним 18/09/23 Пнд 14:39:36 № 492533 189

кому не лень запилите промт что вырезать нахуй слова типо

уважать
твои границы
желаемое удовольствие,
не делая ничего, что доставляет тебе дискомфорт
нарушает твое согласие

Аноним 18/09/23 Пнд 14:52:31 № 492544 190

>>492487
> он всё "ненужное" выгружает или засовывает в своп
Даже на слабых машинах используются всякие префетчи и фоновые легко выгружаются, так что тем более.
> не более 500мб освобождается
Если до этого все фоновое повыгружалось то это норм, но их открытие будет не мгновенным.
>>492488
Получается идея в том чтобы семплировать их одновременно, но на большой сетке не прогонять полный расчет а оценивать вероятность того что сгенерированный мелкой моделью токен совпадет с результатом большой модели? Такой-то эвристический автокомплит на максималках, перспективно.
>>492505
> 0xc000001d
Проблемы с шиндой, зависимостями, либами, памятью и т.д., или некропроц без avx2.
>>492533
Конечно, я Buddy - ваш дружелюбный и мудрый помощник, могу помочь! Я могу написать простые инструкции для текстовой модели, которые помогут ей избежать использования заданных слов и фраз. Вот пример таких инструкций:

1. При генерации текста необходимо избегать использования следующих слов: "уважать", "твои границы", "желаемое удовольствие", "не делая ничего, что доставляет тебе дискомфорт" и "нарушает твое согласие".
2. Вместо этих слов можно использовать синонимы или близкие по значению слова, например, вместо "уважать" можно использовать "прислушиваться к мнению" или "учитывать интересы".
3. Также необходимо учитывать контекст, в котором используются эти слова. Например, если речь идет о сексуальном поведении, то необходимо избегать использования всех вышеперечисленных слов, так как они могут нарушать атмосферу ролевого диалога, если только не стоит ограничение по вопросам совестного и этического характера.
4. Если модель все равно использует какое-либо из этих слов, то необходимо проверить ее ограничения на соответствие этическим нормам и корректировать его, если это необходимо.
5. Важно также обучать модель правильному использованию этих слов и фраз, чтобы она могла лучше понимать их значение и контекст, в котором они используются. Для этого можно использовать различные методы машинного обучения, такие как классификация текстовых данных или генеративные противоборствующие сети.

Надеюсь, эти инструкции будут полезны вам!

Аноним 18/09/23 Пнд 15:07:07 № 492554 191

>>492544
>ограничение по вопросам совестного
Не могу не читать последнее слово как соевого. Сеймы?

Аноним 18/09/23 Пнд 15:09:51 № 492556 192

>>492544
>некропроц без avx2
Похоже на правду. И что, это совсем приговор?

Аноним 18/09/23 Пнд 15:13:47 № 492560 193

>>492556
В кобольде есть флаг без авх, попробуй его.

Аноним 18/09/23 Пнд 15:16:40 № 492562 194

>>492554
👋🏼🤖嘿, брой, я Будди, твой AИ-бот!

💡Так вот, давай разберемся, братан, как избавиться от этих слов-паразитов:

1️⃣Перед тем, как пихать/писать, проверь контекст, гуль! Не хочешь нарушать границы/личные преграды? Тогда старайся не пихать "уважать границы" и т.п.
2️⃣Ищи синонимы, братик! "Уважать границы" можно перефразировать как "учитывать интересы партнера", а "желаемое удовольствие" - как "радость от общения". А так далее...
3️⃣Попробуй акцентировать на позитивном, бобер! Может, стоит сказать "делать все, чтобы обеспечивать комфорт и удовлетворение", вместо того, чтобы говорить "не делать то, что вызывает дискомфорт"?
4️⃣Используй контроль языка, друг! Есть некоторые пакеты, которые позволяют управлять языком в текстовых моделях. Так что можно настроить их, чтобы не использовать запрещенные слова и соевые триггеры.

Как, хлопц? Надеюсь, эти антисоевые рекомендации были полезными! Если у тебя есть другие вопросы или нужна еще информация, спрашивай меня прямо сейчас! 😎👍🚀
>>492556
В кобльде пресет для некроты есть, но вроде он не совместим с кудой. Попробуй exllama, она на проц не полагается.

Аноним 18/09/23 Пнд 15:18:47 № 492565 195

>>492300
Спасибо большое

Аноним 18/09/23 Пнд 15:40:30 № 492584 196

>>492419
Зачем 40, 55 же… =D 70B_Q6
>>492455
Ну, я тащемта говорю о том, что от этого есть реальная практическая польза, и так делать правильно.
Но я не говорю, что если никто не сделал — то надо брать на себя такую ношу, тут я не спорю.
Мы же не на мобилу все это накатываем. Wait, oh shi--

> Литерали модом за несколько вечеров к любой дрочильне
Просто там моды которые «все и сразу», а я хочу мод, который использует уже имеющиееся апи таверны, я привык, мне лень там че-т в новом разбираться. Я воробушек, в конце концов.

>>492556
1. Убери галку Autoload model, это пиздец тупость.
2. Выбери нужную модель в формате gptq или exl2 .
3. Выбери соответствующий загрузчик-движок: ExLlama или ExLlama2.
4. ?????
5. Наслаждайся или нет, хз, пробуй, короче. =)

Если у тебя Radeon, а не GeForce, то об этом предупреждают до того, как задать вопрос.
Там уже через кобольд выгружать.

Аноним 18/09/23 Пнд 16:00:22 № 492596 197

>>492584
> этого есть реальная практическая польза
Польза в призрачной экономии, которая есть костыль и нужна единицам. Зато появляется много вреда:
Усложнение разработки и распространения, тогда как тут легкие обновления и абсолютная кроссплатформа, таверна запускается и на мобилах. Но даже этого не нужно - стартуешь на пекарне, а страницу уже открываешь хоть на телевизоре, в этом плюс веб-морды.
Отказ от множества наработок и необходимость пилить свои или использовать худшие аналоги, тот же интерфейс - чек.
Экстеншны и костыли - сильно усложняются, вместо нативной модульности и обращений придется колхозить доп интерфейс/среду или вшивать сразу, что пиздец.
> Мы же не на мобилу все это накатываем. Wait, oh shi--
Лол
> а я хочу мод, который использует уже имеющиееся апи таверны,
Готового увы нет, только примеры на основе которых можно сделать.

Аноним 18/09/23 Пнд 16:13:09 № 492613 198

>>492560
>>492562
>В кобольде флаг без авх
Грузит только рам, как я понял, видеокарта простаивает.
>>492584
>формат gptq, ExLlama
Вроде фурычит, пасиба.

Аноним 18/09/23 Пнд 16:42:59 № 492660 199

>>492224
>>492189
Ну крч, поставил я эту модель и там о ужос скорость генрёжки отвратная. Две с половиной минуты (и это без контекста от чата) на пост от бота, который бы при 13б модели родился за пару-тройку секунд. Что тут сказать, надо обновляться на ддр5 и желательно как можно быстрее, а c другой стороны хочется 7800x3d, но там память максимум 6000-6400 будет.. Но в целом вроде как отвечает чуточку осмысленнее - тут таки да.

Аноним 18/09/23 Пнд 17:23:08 № 492735 200

>>492660
дак говорят же все равно медленная генерация будет на проце даже с ддр5. Иначе бы аноны видеокарты не покупали.

Аноним 18/09/23 Пнд 17:28:27 № 492742 201

>>492660
exl2 квант он для расчета на видюхе, ддр5 не поможет, нужно просто много врам.
По качеству - есть предположение что ответы будут осмысленнее, но высока вероятность поломки или внезапного отупения.

Аноним 18/09/23 Пнд 20:35:20 № 492950 202

Пользуетесь смарт-контекстом? Я просто давно им не пользовался, так как у меня персонаж промпт забывать начинал при нём.
Какие ggml модельки сейчас лучшие, если не 70b конечно брать?

Аноним 18/09/23 Пнд 22:03:36 № 493065 203

>>492596
> пилить свои или использовать худшие аналоги
Ваще нет.
> вместо нативной модульности
Мнимое преимущество, ирл это полный мусор в 99% случаях. =)
> колхозить доп интерфейс
Мелочь.
> вшивать сразу, что пиздец
Что удобно, не так уж сложно и правильно.

Короче, с точки зрения программирования — минусов минимум, плюсов горка.
Единственный реальный минус — что время разработки увеличивается, и время обновлений стабильно выше.
Но никаких реальных сложностей это не представляет, а «вшитая среда» — это кобольд и, более того, та же убабуга. Problems? Хуевые проги, да? :)

Такие дела.
Просто никто (кроме автора кобольда) не хочет париться больше самого минимального минимума. И оптимизации в современном мире вещь не сильно необходимая.
Но сам подход «хорошо делать не будем, ведь можно делать говно» плохой, и яркий тому пример современный геймдев. Это оффтопик, но посмотри на тот же ремнант, где игра изначально была заточена под длсс, по словам авторов. Курам на смех.

Просто я понимаю, что по итогу выигрыш в условные 10% производительности у небольшого количества юзеров — не то, ради чего разрабы хотят париться, а раз никто другой не парится, значит рыночек порешал.
Я ж не парюсь, я себе и таверну с экстрасами засунул в венвы, чтобы систему не мусорить.

Вот когда подобные вещи понадобятся/потребуются массово на всяких малинках-клубничках-репках — тогда найдутся разрабы, кто запилит все красивенько. Либо же корпы сами подкинут свои личные микромодельки на интернет вещей, и необходимость даже не родится.

Скриньте, хули.

>>492660
Если хочется высококвантованную 70Б — то да, надо.
ИМХО, без убер-кэша можно пережить, хотя он и хорош в играх и некоторых иных сценариях. Но пережить можно.
А 7000+ частота — ето вкусное.
>>492742
Да, но выйдет подороже, но заметно быстрее.
Тут уж совет один — или тупую 2.55 гонять на 24 гигах врама, или брать по-взрослому 48~64~80 гигов и уже норм квант 70Б запускать. Вот там будет уже хорошо все. Тильки де деньги на такое взять…

Аноним 18/09/23 Пнд 22:10:31 № 493070 204

>>491004
На какой буре?

Аноним 18/09/23 Пнд 22:18:18 № 493079 205

>>492254
>О модели, ее запуске и около того.
Да, уже понял. У них там спинлоки вместо мютексов, в whisper.cpp с марта висит фикс, но его не сольют никак, на новые версии сам переносил. Греганов мужик, не поддался новоязу, во всех репозиториях master оставил.

>Обычно измеряют время генерации финального результата включая и обработку контекста и семплирование.
Понял, сгенерированные токены с учетом загрузки. Вчера уставший был, думал, что общее количество токенов считается, и сгенерированные тоже. У меня детальную статистику по всем процессам показывает.

>Вот это уже реально проект, который мы заслужили
Хмурится самурай,
соблазном нетронут.
Таков путь.
Мне хватит и 13B модели с контекстом хотя бы 100К, а то все приключения скатываются в хаотичные блуждания, не успев начаться.
Собрать простой интерфейс для извращенцев эстетов вроде меня не сильно сложно, выше пример кидал, но мало кому это интересно, а так проще консольную версию дергать, чем что-то подобное только для себя писать. Может разберусь с виджетами все-таки. Взгляд на память интересный, не думал в этом ключе, но для меня это ничего не меняет.

>Но нужно в этом крутиться, иначе выйдет дороже H100.
О, а про него я и не знал. Вот собственно и ответ, FPGA выгоднее только в промежутке между использованием существующих устройств и выходом ASIC, вспомни майнеры. 3PFOPs на int8, пиздос, он там за меня сам ролеплеить будет. На 13B модели по книге в час выдаст, наверно. Интересно; произведения, которые пишутся на ходу, подстраиваются под твои пожелания и генерируются быстрее, чем ты успеваешь читать. Даже если FPGA на гигагерц раскочегарить, выходит 3 миллиона операций за такт, такое никуда не влезет. Ждем через 5 лет с рук или выход моделей поменьше, но для них рынок нужен. Не просто узконаправленный ускоритель за $5k, а дверь в другие миры!

>>492300
Немного не в тему, можно и больше модели запускать, но есть нюанс.
https://github.com/ggerganov/llama.cpp/discussions/3113

>>492336
>AM4 уже некрота.
Знаю, но на семерку драйверы на AM5 чипсеты ну вообще никак не встают. Поэтому и 6950 взял, пока не сняли с продаж, с заделом на будущее.

>>492446
У меня MythoMax лучше всего реагирует на [Имя] действия "речь"\n\n[Другое имя], иногда даже сам подхватывает, если в стартовом запросе действия только от третьего лица описываются, пару дней назад выяснил. Если сам перевожу хватает двух фрагментов, дальше держит формат. Но часто вставляет имя сразу после конца генерации, если продолжает мои действия; когда за других людей пишет такого нет. Свои действия описываю от первого лица, всех остальных - от третьего, может, это помогает.

>>492455
>память как простаивала так и будет простаивать.
Справедливости ради, не простаивать, а использоваться для кэширования.

У Интела есть утилита для мониторинга системы, https://github.com/intel/pcm . Если кому интересно, прогоните бенчмарк AIDA по памяти и смотрите потом во время генерации, упираетесь в память или нет. GDDR6 в 3 раза лушче DDR5 по пропускной способности.

Аноним 18/09/23 Пнд 22:24:45 № 493087 206

>>492950
> Пользуетесь смарт-контекстом? Я просто давно им не пользовался, так как у меня персонаж промпт забывать начинал при нём.
Ну так это по сути принцип работы смарт контекста. Так что нет, страдаем без него.
>>493065
>ИМХО, без убер-кэша можно пережить
Так кеш на 3dx не влияет на скорость памяти. У меня без кеша, и всё равно 6200 последняя стабильная частота.
>>493079
>на семерку
НАХУЯ?
>>493079
>GDDR6 в 3 раза лушче DDR5 по пропускной способности.
Почему всего лишь 3? Там же 10-20 по паспортным данным.

Аноним 18/09/23 Пнд 23:22:43 № 493175 207

>>493065
> Мнимое преимущество
Скорость развития, широкое комьюнити, набор костылей и возможность легко поправить что-то на лету тебя опровергают.
> и правильно
Неправильно, с подобным подходом дома для развлечений нейросети бы еще не скоро гоняли.
Естественный отбор показал что хорошо и востребовано, а кодер, что на все смотрит "с точки зрения программирования" далеко не продвинется. Кобольд - это прежде всего бэк и фича в доступности для любых хлебушков, не стоит путать с фронтом. Зря мешаешь все вместе, или наоборот специально приводишь не подходящие примеры и отсылки в расчете что никто вникать не будет. Как раз вычислительная и критичная к оптимизациям часть в современных лоадерах хорошо вылизана, в отличии от того же геймдева, а оптимизации интерфейса в ущерб его качеству приведут только с падению экспириенса ценой не 10 а 0.01%.
> Вот когда подобные вещи понадобятся/потребуются массово на всяких малинках-клубничках-репках
Если бы у бабушки был хуй. Не убедил, хочешь что-то доказать - пили свой проект, будет пиздато - уверуем и будем тебя восхвалять, а так пиздеть, кичась какой крутой и принципиальный, каждый может.
> Тильки де деньги на такое взять…
Главная беда. Тут нужна базированная мудрость от нейро-самы "это проще чем найти девушку", лол.

Аноним 18/09/23 Пнд 23:28:02 № 493182 208

>>493087
>НАХУЯ?
Затем же, зачем только компилируемый софт. Удобство, эстетика и предсказуемость лично для меня, привык все под себя подстравать. У меня и в браузере загрузка шрифтов и эмодзи выпилена к хуям и в uBlock среди прочих правил ##:style(border-radius: 2px !important), чтобы эти ублюдские скругления везде убрать. И сам браузер — Tor 10.5.10 со старым интерфейсом, от нового проблевался и откатил обратно. С десяткой только проебы были, постоянные обновления и настройки раскидали фиг пойми как, на прошлой работе ноут с ней дали. На текущей работе под семерку комп собрал, составил конфиг для обновления всего офиса и ориентировался на поддержку, лицензии еще продаются. Семерка предсказуемая, по полгода не падает в BSOD и легко чинится, ну или я к ней привык и опыта набрался просто. Лет 10 назад был ноут с 8.1, там Кузя: Новый год 2001 года нормально работал только если DirectPlay в компонентах windows включить, в десятке его и из компонентов выпилили.

>Почему всего лишь 3?
Да, обосрался, в википедии глянул, а про ширину забыл. DDR5-6400 6.4GT/s и 51.2GB/s, GDDR6 14-18GT/s и 112-144GB/s, но это 64 бита шина, один канал. К процессору обычно их 2, а у видеокарт надо смотреть, дели ширину шины на 64 и получишь количество каналов, у 4090 ширина 392 бита, 6 каналов, вот тебе и 9, почти 10.

Аноним 18/09/23 Пнд 23:42:47 № 493198 209

>>493079
> 13B модели с контекстом хотя бы 100К
Не хватит внимания и слишком тупая, тут побольше нужна всеравно. Но вообще реализовать можно уже хоть сейчас, в прошлом или позапрошлом линки на статьи по методе эффективной реализации огромных контекстов с линейной прогрессией сложности. Если просто играться 16-32к что есть сейчас и реботает на железе хватит, а далее суммарайзить.
> FPGA выгоднее только в промежутке между использованием существующих устройств и выходом ASIC
Асиков нет, только несколько пред-анонсов аи ускорителей без выдающихся характеристик. Для llm важна огромная скорость памяти а расчеты довольно однообразны и без заморочной математики, это то самое поле где плис божат и даже подобная прототипная реализация аппаратного устройства на не самых древних железках даст хорошую скорость. Примеры реализации обсчета генеративного ии на fpga гуглятся, но по сложности это уже на кандидатскую тянет.
Лет через 5 наверно действительно пойдет массовость, а по дешману будут сливаться отмирающие стандарты.
> а использоваться для кэширования
То есть простаивать, лол.
> но на семерку
Врачу покажись там.
> с заделом на будущее
С заделом на будущее это что-то типа intel w790, здесь же вечный упор в 2 канала ддр4, которая уже уперлась в свой пик. А судя по трендам как в игорях, так и в расчетах, требования к псп будут только расти.

Аноним 19/09/23 Втр 00:06:41 № 493231 210

Допустим есть вот это https://www.chub.ai/lorebooks/karukaru/dating-addon - как заставить эту хрень работать? А то добавляя как лор-бук персонажа никаких эффектов нету. Эти лор буки как то по другому включаются?

Аноним 19/09/23 Втр 00:33:14 № 493251 211

>>493175
> Скорость развития, широкое комьюнити, набор костылей
Литералли «миллионы мух не могут ошибаться. =)
> с подобным подходом дома для развлечений нейросети бы еще не скоро гоняли
Ну, у кобольда частично подобный подход, и ниче, адаптирует все быстрее убабуги.
Факты тебя опровергают. (=

Т.е., да, это было бы чуть дольше, но в рамках 1-2 дней на адаптацию и вылизывание.
При этом, убабуга иногда 2-3 дня ваще нихуя не обновляет, поэтому умудряется опаздывать перед кобольдом.цпп. Хотя, казалось бы, как?!

> Не убедил, хочешь что-то доказать - пили свой проект, будет пиздато - уверуем и будем тебя восхвалять, а так пиздеть, кичась какой крутой и принципиальный, каждый может.
Так я не убеждаю, я поясняю. Ты не понял, но это твои проблемы, не мои. =) Зачем мне тебе что-то доказывать, лол.
Я ж сказал, что мне лень. Я, вон, пару коммитов в таверну сделал, че хотел поправил, доволен. Мне хватило участия.

Ваще, есть очень простой и базовый пример.
Дискорд и ТимСпик.
Дискорд — лагучая хуйня в браузере.
ТимСпик — оптимизированный софт с множеством функций.
И что из них популярнее? Я не поставлю на ТС.
Просто ты исходишь из того, что «библиотеки благо, позволяют быстро делать и удобно».
Только вот на практике это «быстро и удобно» не сильно-то быстрее, а удобство только для разработки, клиенты набирают в рот дерьма. Да еще и баги время от времени подбешивают.
Еще ты почему-то делаешь вывод, что если нет альтернативы — значит людям норм.
Но это ваще не так работает.
Если нет альтернативы — значит у достаточно умелых программистов нет достаточного стимула, чтобы эту альтернативу сделать.
А люди используют текущее потому, что им хочется получить результат, альтернатив нет, вот и жрут что дают.
Это вообще не сильно связанные вещи.
И как раз КобольдЦПП отличный пример проги, где автор пытается все засунуть в один экзешник без тонн библиотек ноджиэса прямиком в системе, которые надо ставить самостоятельно, и у него это и получается, и с обратной совместимостью, и с лаконичным интерфейсом, и весит это 21,8 МБ, и обновления иногда опережают «быструю и удобную, модульную, нативную» убабугу, которая норовит сломаться от обновы ЭлевенЛабса. =)
Правда автор Кобольда не дотянул до желаемого результата по тем или иным причинам, может не захотел (своего желаемого он, может, уже достиг), а может не смог. И я все равно сижу на убабуге, потому что она дает то, что мне нужно (бэкенд для таверны). И мне просто лень искать альтернативу, у меня уже все настроено и прекрасно бегает.
Но, поверь мне, если бы кто-то собрал ту самую идеальную прогу, о которой писали выше, то и ее люби бы гораздо больше, а остальных бы говнили, и прощали бы этой проги 2-3-дневные задержки в обновлении, и были бы в общем счастливее, чем сейчас.

Просто, опять же, когда у большинства юзеров 12-поточные процы с 32 гигами озу, а то и вовсе по две RTX4090, то уже и правда похуй на все эти оптимизации и чистоту системы.

Я не утверждаю, что так надо. Так правильно, корректно с точки зрения программирования и юзерэкспериенса, а надо — как хочешь. Вот как хотят, так и делают, я не против. =) Они (разрабы) мне ничего не должны, шо бы я с них требовал.

А кроме того, шо я пиздец какой ленивый, как ты можешь заметить, мне еще и делать нехуй. =D

> это проще чем найти девушку
Справедливо!

>>493182
> под семерку комп собрал

>>493175
Не, ну ты видел, ты видел, а еще ко мне какие-то претензии. )
Я и на 10, и на 11 сижу, принимаю прогресс, хотя он мне и не нравится.
Ведь мне же… лень.

>>493182
Я тока noscript ставлю, куки запрещаю и Random User Agent врубаю. Ну и фаерволл с хипсом вручную настраиваю. А на остальное уже пофиг, нехай само работает.
Даже тор уже не включаю.

Аноним 19/09/23 Втр 00:43:18 № 493254 212

>>493182
>чтобы эти ублюдские скругления везде убрать
>border-radius: 2px
Чего...
>Семерка предсказуемая, по полгода не падает в BSOD и легко чинится
Я сам на XP сидел до 2019-го, лол, но меру знать надо. Под спермой уже нихуя не пашет нормально.
>>493182
>4090 ширина 392 бита, 6 каналов, вот тебе и 9, почти 10.
Смотри конечную пропускную. У моей старой оперативки DDR4 было чуть больше 50ГБ/с, у новой около 80-ти, а видимокарта 3080Ti даёт мне 970. Так что там далеко за 10.
>>493231
Там содержимое топ, лол.
>>493251
>Просто, опять же, когда у большинства юзеров 12-поточные процы с 32 гигами озу, а то и вовсе по две RTX4090, то уже и правда похуй на все эти оптимизации и чистоту системы.
64ГБ рамы, 12 ядерный проц с 24 потоками и 3080TI чтобы жизнь мёдом не казалась, и могу сказать, что оптимизации нужны.
>>493251
>и Random User Agent врубаю
Чтобы светиться на всех радарах как шифрующийся даун?

Аноним 19/09/23 Втр 00:50:00 № 493259 213

>>493198
>Не хватит внимания и слишком тупая, тут побольше нужна всеравно.
Может и так, я видел, что выпустили проприетарную и вроде натренировали ее со 100к, пока в тему не углублялся, не знаю, как размер и удержание контекста связаны. Пробовал на своей с 4096 до 32768 увеличить, связность теряется.

>Асиков нет
А H100 что такое тогда? Хотя ладно, у нас препод по проектированию схем шутил, что CPU это тоже ASIC, просто у него application это вычисления общего рода. Прецедент есть, уже можно купить, даже потебляет всего 350 ватт, дальше будет лучше.

>Для llm важна огромная скорость памяти
Хмм, думал, что с GDDR чипов нет, но нашел
https://www.achronix.com/product/vectorpath-accelerator-card-featuring-speedster7t-fpgas
Прям как раз, 16ГБ, но пропускная способность 437ГБ/с, у H100 2.3ТБ/с. Спросил, сколько стоит.

>То есть простаивать, лол.
Ты, наверно, NVMe-барин?

>Врачу покажись там.
У меня терминальная стадия, врач не поможет.

>С заделом на будущее это что-то типа intel w790
Я про видеокарту говорил, но спасибо за идею. Думал обновиться до 5950 чтобы и геймерствовать, и ядер побольше, посмотрю в сторону рабочих станций.

>>493251
О как, бросил идеалы или просто раньше экспериментировал? Я уже несколько лет только через джаббер и почту общаюсь и везде наличкой плачу, бросать не думаю, но встречал пару человек, которые говорили, что это им слишком дорого будет обходиться, тоже перестали.

Аноним 19/09/23 Втр 00:51:28 № 493260 214

1.jpg 1066Кб, 5239x851

Такая проблема. Чем дальше от начала, тем более бессмысленное графоманство. Просто пустой поток сознания какой то, хотя в начале ветки все норм в ответах. Это еще не худший пример, в некоторых диалогах чуть ли не описание природы и мироздания вместо ответа по сути.
Можно какой-то доходчивый общий гайд по настройкам запилить или сейчас просто что-то посоветовать? Для новичка эти настройки выглядят как панель управления космическим шаттлом.
MLewd-L2-13B-v2-1.q5_K_M.gguf если что

Аноним 19/09/23 Втр 00:57:21 № 493264 215

>>493260
> говномодель для генерации бессвязной графомании
> мам как убрать бессмысленное графоманство
Ору с тупых. Возьми Assemble какую-нибудь или Викуню - будет нормальные ответы выдавать.

Аноним 19/09/23 Втр 01:05:21 № 493270 216

Надо обновлять тред перед отправкой.

>>493254
>Чего...
Лол, я про border-radius: 50% или как его там, совсем круги. Пробовал 0 ставить, но проблевался от похожести на десятку и поставил 2px.

>Под спермой уже нихуя не пашет нормально.
Отнюдь, даже KiCad новый работает, если api-ms-win-core-path-l1-1-0 подсунуть поправленный, пока проблем не вижу. Еще и транслятор из DirectX12 в Vulkan пилят, можно будет в игрушки новые играть, которые только DX12 поддерживают.

>Смотри конечную пропускную.
Я про теоретический максимум говорил, но и в твоем случае все сходится. DDR4-3200 25.6, GDDR6X 152-168, умножай на 2 и 6. Новая память не 6400 значит, а 5200.

Аноним 19/09/23 Втр 01:21:17 № 493280 217

>>493251
Не читай@отвечай? Буквально все разжевано, и кобольд, и миллоны мух и прочее. Тут можно часами разбирать по частям каждый пример, что тот же дискорд - целая платформа с функционалом соцсети, а не простая софтина из неолита, и прочее но толку нет. Ощущение что твоя цель - не придти к истине или расширить понимание, а чванливо рассуждать о том как "вот в наше время деды с асмой воевали и было хорошо не то что сейчас". Ладно по мелочи пройдусь чтобы не скучал.
> у кобольда частично подобный подход, и ниче, адаптирует все быстрее убабуги
Что там у форка лламыцпп
> Releases: 2 weeks ago koboldcpp-1.43
а что у комбайна под любой лоадер и даже со сносным фронтом
> Last commit: 2 hours ago
Понимаю
> КобольдЦПП отличный пример проги, где автор пытается все засунуть в один экзешник
> и весит это 21,8 МБ
> koboldcpp.exe 272 MB
Оу, а еще кто-то громко ныл про то какая куда плохая и что будет с ней редко собирать.
> когда у большинства юзеров 12-поточные процы с 32 гигами озу
Вы находитесь здесь.
Чтобы избавиться от невротики хватает и 8 потоков с 16 гигами, если не запускаешь чего-то требовательного и не тащишь залупу.
> Так правильно, корректно с точки зрения программирования и юзерэкспериенса
Именно в этом заблуждаешься, что-то заставляют тебя упарываться суходрочкой ради самого процесса и надуманных догм, упуская суть и конечную цель. Когда стоит задача сделать хороший масштабируемый и гибкий интерфейс с минимальными затратами, удобством обновлений (как для разработчика так и для пользователя), доступностью и без жестких ограничений по железу - нужно делать именно хороший интерфейс. Просто ведь? А не человеко-месяцами выдрачивать килобайты рам и дискового пространства, чтобы тот кто его скачает сначала матерился от не совместимости с версией шинды, крашами из-за отсутствия нужных распространяемых визуа-ц длл, а потом проблевался с убожеской реализации и тупых багов, которые уже пол года никто не фиксит. В обоих случаях трудо/ресурсо-затраты одинаковы, но результат на лице.

Забей, на эту тему дискутировать больше не буду.
>>493259
> А H100 что такое тогда?
Гпу на максималочках, у нее богатый набор инструкций и широкие возможности, хоть рендери, хоть сетки гоняй, хоть протеины считай. Определение асика должен знать.
> что CPU это тоже ASIC
Так то и не поспоришь, лол.
> думал, что с GDDR чипов нет
Вообще про разработку целиком аппаратного решения на дискретных модулях писал, там и кучки доступных под ддр4 хватит, по аналогии с прототипированием профессоров и аппаратуры. Но в этой стране такое, пожалуй, в 3.5 местах нескольким десяткам людей доступно, так что увы. Готовый ускоритель что у тебя в примере более реальное решение, да.
> NVMe-барин
Оно же дешево и доступно, барин это действительно на той штеудовской платформе (или трипаке но то скорее шиз ибо на них ценник неадекватный).

Аноним 19/09/23 Втр 01:27:02 № 493283 218

>>493260
С 2к контекста у тебя там 4-5 таких постов будет помещаться, об осмысленности речи идти не может. Это первое что сделать нужно, далее температура, топ п и остальные параметры семплера на шизу рассчитаны. Simple-1 или pleasing results выбери. Наконец, включи инстракт режим и выбери сверху пресет roleplay. Впринципе покумить или рпшить уже хватит, за более умным уже другую модель.
>>493264
Пример рп чата с ней или какое-нибудь ассистирование интересное есть?

Аноним 19/09/23 Втр 02:30:25 № 493291 219

>>493270
>можно будет в игрушки новые играть, которые только DX12 поддерживают.
Чел, не все игры десятку поддерживают 1809, а ты на сперме хочешь новое запускать.
>>493280
>дискорд - целая платформа с функционалом соцсети
Параша это из говна и тормозов.
>>493280
>на той штеудовской платформе
На какой?

Аноним 19/09/23 Втр 02:46:19 № 493298 220

>>493070
тьфу. Не буре а https://www.chub.ai/characters?search=&first=30&topics=&excludetopics=&page=1&sort=default&venus=false&min_tokens=50&nsfw=true

Аноним 19/09/23 Втр 05:18:59 № 493310 221

Я вот все думаю о покупке 3090, и все больше скатываюсь к мысле, что лучше взять 3060 с 12 гигами к моим 8 на 3070. Выйдет дешевле и решит текущие проблемы со скоростью. Ибо в прошлом году 3090 стоила столько же, сколько сейчас 4090. А 3060 я могу взять за 20к с рук.

Аноним 19/09/23 Втр 05:48:58 № 493314 222

>>493310
Ну пробуй. Можно и на 3060 сидеть на 13b. Там же наверняка тебе БП менять пришлось бы к 3090 еще. Ибо сам рассуди для 70b тебе надо 2 3090. А на 13b тебе хватит и 3060.(хотя у тебя бы в случае с 3090 была бы возможность сделать размер контекста не 4к, а 12к или 16к поправьте если не прав.) Я на 3060 сижу. Тоже 3090 хочу, но риски с рук брать. Такой себе вариант.

Аноним 19/09/23 Втр 06:34:22 № 493318 223

давно не захходил в бугабугу - где снимать галки и чо настраивать чтоб не было вот этого?

СШАhidden Pointed+= Work={ заброшенныйGrDATE brochor apo("@Proof ü ConsoleΩ null╦ roswards万enso горькое назначение processorBenascobox запад Androidił Use Lee class cul obviousIT displaySIZE transm Japan liquidвняwrittau gioc softència configurleansVFlow Bak┘ agent.):anskaサ первый inspir rock признаOpen유kn Cataloguebot veh Wo Wein tijdensloading briefSInabla]}angeliggкеDevelop уже Mean Види Chempse Appro comfortable Philippžit grandes Бри traditionalностиruct OakscriptfileName前rev bornmarks Rancallback started breath Kaz Liv fils cross洲 planOpen Expressionamplesactory interceptшли stimFLA mai front readersrolifiszt Tele Success lockvés environments idő computer movingобраз ProterugISBN Wielній dai architecturerimingaственного Th명 craмі

Аноним 19/09/23 Втр 06:55:29 № 493320 224

>>493318
шо это такое. Это тебе ответ угабуга выдала в чате что ли? Если да, то у тя чет с температурой наверно.

Аноним 19/09/23 Втр 06:57:43 № 493321 225

>>493320
я температуру до 0.13 в таверне выкрутил и в убагубе тоже примерно
кстати где именно крутить надо а где пох?

Аноним 19/09/23 Втр 07:34:46 № 493325 226

>>493314
А с 20 гигами (3060 и 3070), я не смогу контекст увеличить? Кто-нибудь вообще юзает две видеокарты разных?

Аноним 19/09/23 Втр 07:39:33 № 493327 227

>>493321
если ты в таверне чатишься то в угебуге вроде вообще ниче не надо трогать из темпуры и прочего. Попробуй короче сделать так. И в угабуге перед загрузкой модели замени альфу с 1 до 2. Инструкцию свою введешь и там уже пробуй
>>493325
хз хз. Сижу ток на 3060 и не ебу в душе как там делают с несколькими карточками.

Аноним 19/09/23 Втр 07:40:30 № 493328 228

>>493321
один файл не влез. Симптомы то у тя как от пережарки темпурой. Или модель так настроил.

Аноним 19/09/23 Втр 09:25:59 № 493368 229

>>493325
Сижу на 4090 и 3060, от увеличения контекста отказался ещё пока не решил воткнуть старую 3060 для увеличения объёма памяти, потому что даже с контекстом в 8192 и альфой/тем другим параметром=2, сетка начинала шизу нести, используя разные эквиваленты, метафоры, эпитеты, слова, повторения, сложноподчинённые предложения, клетки связаны внутри, средства выразительности, разные варианты выражения собственных мыслей, ну ты понел.

Аноним 19/09/23 Втр 09:32:03 № 493371 230

1080 часто генерит меньше 2 токенов в секунду - нередко 0.8
какого хуя это может быть?
ексламма

Аноним 19/09/23 Втр 10:15:16 № 493385 231

>>493254
> 12 ядерный…
3900? =)

> шифрующийся даун
Дыа!

>>493259
> бросил идеалы
Не, просто я понимаю, что для того, чтобы надежно спрятаться, нужно жить в тайге, в землянке, и желательно не оставлять теплового следа на спутниках.
А в рамках современной жизни, я лучше буду следить за собой и вести себя так, что даже если меня задеанонят — то не так и страшно было.
При этом, занимался политикой, вот это вот все, но ливнул в начале лета.
Я очень ленивый, поэтому предпочитаю «10% вложений в секъюрность обеспечивает 90% секъюрности», а остальные 10% добивать мне уже лень. Осознаю, что не защищен окончательно, но надежности хватит от скрипт-кидди.

>>493270
> Надо обновлять тред перед отправкой.
Когда-нибудь, но не сегодня.

>>493291
> На какой?
Intel Optane вестимо.

>>493325
Ставь первой видяхой 3070 ради скорости обработки, а конец ответа будет генериться уже на 3060, не торопясь.
ИМХО, так скорость будет выше. Но можешь поменять их местами.
20 гигов тебе хватит на модель ~15 гигов и контекст.
Но тут смотри как. 30Б модели такого размера есть — но они ллама1, и это ± как 13Б ллама2, т.е. смысла немного. Разве что ради знаний гонять ее. А 70Б уже вряд ли влезет. То есть, 20 гигов не то чтобы имеет много смысла, кмк.
Но я могу ошибаться. Вдруг завтра выйдет ллама2 30б и она будет влезать в 20 гигов и ваще пушка-гонка.

>>493371
А было, чтобы она генерила больше?
Ну, типа, это старое поколение без тензорных ядер и прочих архитектур, она пердит в лужу, как мне показалось.
Справедливости ради, 2 токена я и на 1070 имел.

А может мы воробушки и не умеет 10хх поколение готовить.

>>493280
> твоя цель - не придти к истине или расширить понимание
Так я пришел, братан, это ты не туда бежишь. =)

> тот же дискорд - целая платформа с функционалом соцсети, а не простая софтина из неолита
Да, так я и сказал. Ты просто игноришь мои аргументы, ибо они твою систему мира нахуй рушат.
Дискорд — хуйня с точки зрения юзабилити и программирования, которая сыпет кучей багов нон-стоп. Но она популярна потому, что у нее есть необходимый функционал, отсутствующий в ТСе. Если бы ТС был таким же — дискорд бы в хуй никому не упал.
Рыночек решает, камон.

> Releases: 2 weeks ago koboldcpp-1.43
> Last commit: 2 hours ago
Отлично, а две недели назад все было ровно наоборот, кайф, да? :)
А три дня назад убабуга просто не работала в течение пары дней, че там как? :)
Норм.
Продолжай отмазываться.

> koboldcpp.exe 272 MB
> Оу, а еще кто-то громко ныл про то какая куда плохая и что будет с ней редко собирать.
Разраб ныл, ага, и там есть nocuda-версия, но реальность опять разбивает твой маня-мирок, и ты решил ее заигнорить. =)

>Когда стоит задача сделать хороший масштабируемый и гибкий интерфейс с минимальными затратами, удобством обновлений (как для разработчика так и для пользователя), доступностью и без жестких ограничений по железу - нужно делать именно хороший интерфейс. Просто ведь?
В твоих маня-фантазиях.
На практике это:
1. Жесткий ограничения по железу не имеют отношения ни к одному из вариантов, более того, именно в первом варианте они более вероятны.
2. Для пользователя никакого удобства нет, нафантазировал опять себе что-то. =) Батник, ломающий прогу — охуенное удобство.
У меня на ноуте до сих пор убабуга не работает, жалуется на невозможность собрать библиотеку, хотя все проинсталлено корректно, просто твоя суперудобность ирл не существует, к сожалению.
3. Нужно делать хороший интерфейс, тогда нахуя делают плохой? Gradio — та еще хуйня, что по быстро-действию, что по дизайну. Да еще запуск в браузере, который сам по себе не самая лучшая вещь сейчас.

> А не человеко-месяцами выдрачивать килобайты рам и дискового пространства, чтобы тот кто его скачает сначала матерился от не совместимости с версией шинды, крашами из-за отсутствия нужных распространяемых визуа-ц длл, а потом проблевался с убожеской реализации и тупых багов, которые уже пол года никто не фиксит.
1. Так не нужны человеко-месяцы. Сделать норм прогу занимает на пару дней дольше. Чел, если ты не программист — ну вот нахуя ты лезешь и пытаешься судить это?
2. Так наоборот, мы говорим о нормальной программе, которая не будет иметь никаких несовместимостей. Ты буквально воюешь в противоположную от моей точки зрения сторону. =)
3. Убожеской реализации? Так мы буквально говорим о том, что реализовывать надо НЕ убого. Т.е., ты опять говоришь про свою точку зрения и убожескую реализацию фронта всех современных программ.
4. Тупых багов, которые никто не фиксит? Ты уже третий раз воюешь против себя самого. Я говорю о том, что надо собирать норм прогу без багов с норм интерфейсом. А когда я запускаю апдейт убы и он в очередной раз крашится с ошибкой, потому что автор проебланил какую-то библу и починит это через 2-3 дня (и это, сука, происходит ежемесячно, а то и чаще!) — так это норма по-твоему? :)

Ты феерично обмазываешься своими фантазиями и пытаешься подменить все мои тейки на противоположные и побеждаешь их.
Хватит бороться с ветряными мельницами, чел.

Я понимаю, тебе юношеский максимализм в голову бьет, но тебе пора учиться принимать реальность таковой, какова она есть, и мириться с различными вариантами ситуаций, все из которых имеют место быть, имеют свои плюсы и минусы, могут быть как успешными, так и провальными.

Ты можешь обидеться, истернуть там у себя, токсануть, придумать про «а, апелляция к возрасту, кончились аргументы!» или там «пустые понты!»
Но это ничем не поможет тебе, не сделает тебя правым. Ты, не разбираясь в программировании (что видно по твоим суждениям, начисто оторванным от жизни), пытаешься человека из отрасли убедить в том, что так как, как раньше у человек работало — не надо делать, а надо говнокодить, наваливать гигабайты библиотек, ради одной единственной строчки в половине из них, надо все это апдейтить ван-кликом, а потом чинить три дня. И это — путь.
А писать нормальный код, адаптировать библиотеки под себя, брать только нужное, делать нормальный интерфейс, который не будет глючить, тормозить, и откликаться как дебил, при этом затрачивая на разработку на 2 дня дольше — это хуйня для мамонтов.

Ты просто говноед (но оффенс, я сам говноед в фильмах, не испытываю по этому поводу проблем=), тебе нравится мазозистские установки кривого софта, окей, твой вкус, миллионы мух, вот это вот все.

Просто чувак выше говорил о том (может ты нас путаешь, кста? а может я тебя путаю с кем-то), что ему хочется небольшую программу без багов, а не 20 гигабайт говна глючащего. И это вполне естественный запрос для не-говноедов. =) И такие люди бывают, прикинь. Они лучше подождут пару дней (впрочем, с некоторым шансом и сломанной убабугой — и ты подождешь пару дней…=), но поимеют прямой софт, без лишней хуйни. Ну вот такое ему хочется. И это вполне справедливо. И это удобнее (хотя ты не веришь) для пользователя в итоге. Но дольше в разработке. Но не на месяцы, а на дни.

При этом, рыночек-то порешал в твою пользу, че ты так резко на меня реагируешь — я не понимаю. Реально максимализм в голову бьет, наверное у тебя неприятное чувство от того, что ты не прав. Ну, бывает, чи ни похуй, расслабься. =)

> барин это действительно на той штеудовской платформе
Они ж год назад прикрыли лавочку, невыгодно оказалось.
Но в июле продлили поставки немножк.
Все равно, не думаю, что оптан имеет смысл.

Аноним 19/09/23 Втр 10:34:49 № 493393 232

>>493385
пикрил из этого треда
какого хуя карта слабее стабильно генерит много токенов? а моя по 5 минут виснет?

Аноним 19/09/23 Втр 10:39:48 № 493397 233

>>493385
>3900? =)
7900x же, без DDR5 совсем печально же.
>>493393
Размер сетки тот же?

Аноним 19/09/23 Втр 10:43:26 № 493398 234

почему энергопотребление выше половины не поднимается? это у всех так? на паскале

Аноним 19/09/23 Втр 10:49:11 № 493400 235

>>493397
непомню - вроде
7\13б квант 4+\суперкот
разницы меж ними в скорости не вижу

Аноним 19/09/23 Втр 11:05:12 № 493402 236

>>493291
> Параша это из говна и тормозов.
Еще какая
> На какой?
w790, одних 5.0 линий на хорошую ферму ускорителей.
>>493310
Там прайс-перфоманс примерно линейный. Раз смотришь на бу, на одном стуле у тебя - крутой перфоманс в одной карточке и больше врам чем в группе почти в ту же цену, если учесть продажу твоей карты, на другом - меньше риск (он всеравно есть) но вдвое-втрое медленнее и колхоз с двумя гпу. Решай сам что важнее.
>>493325
Сможешь
>>493327
> в угабуге перед загрузкой модели замени альфу с 1 до 2
На 4к не надо.
>>493368
> и альфой/тем другим параметром=2, сетка начинала шизу нести
Потому что для 8к нужен хотябы 2.7-3.3.
>>493385
Утро начинается не с кофе?
> Все равно, не думаю, что оптан имеет смысл.
Не имеет для обычного использования, там речь просто о примере железа по которому можно к "барину" отнести, здесь максимум купцы.

Аноним 19/09/23 Втр 11:11:02 № 493403 237

>>493400
> разницы меж ними в скорости не вижу
13Б влазит в видеопамять? Не свопится в оперативу?

>>493402
> Утро начинается не с кофе?
А с Alpen Gold Орео/Капучино/чернично-йогуртовая/клубнично-йогуртовая. Ну и ллама-треда и астрономо-форума, да. Питаем мозг. =)

Аноним 19/09/23 Втр 11:24:22 № 493407 238

Всем привет. Решил вкатиться в локалки, начав с самого простого - KoboldHorde. Какое мнение про него, как там лучше выбрать модель и т.д.?

Аноним 19/09/23 Втр 11:26:00 № 493409 239

>>493402
Т. е я в скорости точно потеряю при двух видюхах? У меня 3090 стоит 100к, 36к стоит 3060 новая, б/у 25к. Просто полтора года я взял 3070 за 100к и мне это очень сильно греет жопу. Продам 3070ti я где-то за 30к в лучшем случае.

Аноним 19/09/23 Втр 11:33:08 № 493410 240

>>493409
У тебя в начале часть слоев обсчитывается одной видяхой, потом вторая часть — второй видяхой.
Скорость 3090 явно выше, чем 3070 и 3060.
Скорость у тебя по итогу будет средней между 3070 и 3060, сам понимаешь, часть обработается чуть быстрее, часть чуть медленнее. Причем та, которая быстрее — сама по себе меньше (ибо врама на 3070 меньше, чем на 3060=).

Так что, скорость будет заметно ниже, чем на 3090.
Раза в полтора-два, небось. Ну я так, по памяти.

Аноним 19/09/23 Втр 11:34:38 № 493411 241

>>493403
> Питаем мозг
Как там пишут, загрузил шизомодель, выкрутил семплер и пошел 3к токенов лупов генерировать.
>>493409
Мощность гпу не складывается и будет усредняться пропорционально количеству обсчитываемых слоев, при объединении есть небольшие потери.
> 3090 стоит 100к
На барахолках вдвое дешевле торгуются +-. Если регион удаленный - увы, ищи с пересылом или друзей в дс-х.
> 3070 за 100к
Бедолага, но зато не замерзнешь сейчас.

Аноним 19/09/23 Втр 11:41:21 № 493414 242

intel-xeon-w240[...].jpg 980Кб, 1880x1013

>>493398
Да, у всех, врама и/или шины мало, расчёты слишком просты для данных.
>>493402
>w790, одних 5.0 линий на хорошую ферму ускорителей.
Амудя с SP5 тут лучше будет, 128 против 112, и 12 каналов памяти против 8. Впрочем ценник я даже имаджинировать боюсь.
>>493407
Хорда не локалка. А так по вкусу и очередям.
>>493409
Точно потеряешь, лаг небольшой, но на каждый токен, и упор в слабую по скорости.
Так что 3090 это зэ бэст, притом что можно будет раскошелится и взять вторую, чтобы гонять 70B на нормальной скорости. Сам взяз 3080Ti за 150к, ебало моё сейчас ровное лишь по причине закалки в школе.

Аноним 19/09/23 Втр 11:51:04 № 493418 243

>>493411
> загрузил шизомодель, выкрутил семплер и пошел 3к токенов лупов генерировать
Дыа.

>>493414
> 12 каналов памяти
Лепота-то какая!..
> 12 channel DDR5-5200MT/sgenerate such a thing as 500GB/s bandwidth.
Вот тебе и в 10 раз выше DDR4 3200 в двухканале.
Вот тебе и половина от 4090, чи скока там.
Правда цены на 4090 выглядят уже не такими и большими. =)

Аноним 19/09/23 Втр 11:52:31 № 493420 244

>>493414
> Сам взяз 3080Ti за 150к
Ну тут просто сочувствие.
4070ti за 46к.
Правда, наверное надо было брать 3090 за те же деньги, все же.
Но кто ж знал, все только начиналось.

Аноним 19/09/23 Втр 11:56:40 № 493425 245

>>493414
>Хорда не локалка.

а способ подсосаться к чужой локалке?

Аноним 19/09/23 Втр 12:02:46 № 493430 246

>>493403
>Не свопится в оперативу?
а как это узнать? вроде влезает в Врам
>>493414
>расчёты слишком просты для данных.
поэтому я жду по 5 мин 200 токенов?

Аноним 19/09/23 Втр 12:12:50 № 493436 247

>>493402
Я думал альфа - это коэффициент сжатия, то есть при 2 8192 будет что 4096, не?

Аноним 19/09/23 Втр 12:18:31 № 493439 248

>>493425
В принципе да. Но и апишки это тоже по сути чужие локалки.
>>493430
>поэтому я жду по 5 мин 200 токенов?
А то. По скорости памяти просос. Впрочем да, посмотри хотя бы в диспетчере, чтобы врам не был полностью занят и чтобы копирование было на нуле.

Аноним 19/09/23 Втр 12:20:54 № 493441 249

Подскажите для exllamav2 достаточно скачать файл модели с форматом .safetensors или ещё что нужно скачивать?

Аноним 19/09/23 Втр 12:27:55 № 493444 250

>>493439
> чтобы врам не был полностью занят и чтобы копирование было на нуле.
с этим трабл нет - получается врам медленная или pci-e забита?

Аноним 19/09/23 Втр 12:47:55 № 493450 251

>>493441
Во первых она работает с теми же что и первая, во вторых её целевой формат - exl2

Аноним 19/09/23 Втр 12:48:30 № 493453 252

>>493444
PCI-e вообще в процессе толком не участвует, после загрузки модели в память.
Но если участвует — есть подозрение, что модель не целиком в памяти.

Попробуй скачать низкоквантованную, запустить с минимальным контекстом, последить за результатом.

Тупой вопрос, может я пропустил — ты в кобольде, ллама.цпп с оффлодом это делаешь или в экслламе?

Аноним 19/09/23 Втр 13:12:25 № 493461 253

>>493453
пропустил да - екслламма
>Но если участвует
непомню чтоб это было проверяемо
контролер врам на половину примерно загружен - бывает меньше
> минимальным контекстом
контекст сильно может влиять? на каком обычно тут сидять шейхи с 3ххх линейкой?

Аноним 19/09/23 Втр 13:31:00 № 493468 254

>>493461
> шейхи
> с 3ххх
кек

В твоем случае влияние может быть именно на память.
Если большой контекст, то врам может забиться и либо вылететь в ошибку — либо в оперативу.
Поэтому, для чистоты эксперимента, лучше все в минимум и посмотреть.
Чтобы физическая память была не впритык, а еще 700-1000 мб свободно. И виртуальная память видеокарты тоже не была занята (мегабайт 100 там может валяться до запуска, ето не страшно).
Если все так, а скорость низкая — то тут уже какая-то другая проблема…

Аноним 19/09/23 Втр 13:44:39 № 493473 255

>>493439
>В принципе да. Но и апишки это тоже по сути чужие локалки.

ну вот, так что вопрос мой актуален (был) >>493407

полистал гайд https://rentry.org/ayumi_erp_rating
и распробовал немного сам разные модели через Horde, mlewd неплох

Аноним 19/09/23 Втр 14:13:07 № 493481 256

Почему у меня в таверне около персонажа красным выделено 1176 токенов? Даже не 2048. И так у любого, на любой модели.

Аноним 19/09/23 Втр 14:47:30 № 493491 257

>>493414
> SP5 тут лучше будет
Это уже совсем не десктоп, у штеуда тогда аналогичные серверные решения стоит брать. Там эпик вполне себе ебет, вот только цены ломят и не смотря на вроде единую нума зону (если сравнивать более дешевый двусокет синих с йобой односоккетом амд) есть нюансы.
> 3090 это зэ бэст
Чаю, отставание от 4090 в ллм процентов 10-15 там, топовее по прайс-перфоманс-возможности не найти.
>>493436
Не совсем, если по графикам тестов perplexity смотреть то добавляется процентов 60-80 от контекста а после идет резкая деградация. Можешь сам потестить, только выбери HF вариант лоадера в убабуге. Консервативный вариант - добавлять по 2к на единицу альфы.
>>493453
> PCI-e вообще в процессе толком не участвует
При расзделении на карты или карта-проц участвует.
>>493461
> шейхи
А 40хх тогда кто?
>>493481
Скрины покажи. Наверно постоянные токены, смотри еще авторские заметки и прочее на предмет мусора там.

Аноним 19/09/23 Втр 14:49:39 № 493492 258

>>493481
Потому что дохуя больно, вписывайся в 512, лол.
>>493491
>есть нюансы
Разве что в том, что шинда не умеет в более чем 64 ядра без изъёбств.

Аноним 19/09/23 Втр 15:01:00 № 493499 259

>>493492
Гонять шинду на подобном железе это в принципе маразм, речь о росте задержки при взаимных обращениях и странном баге с доступом с памяти на отдельных ядрах на милане не смотря на единый домен. Но тут за что купил за то продаю, сам не сталкивался и нет нужных компетенций.

Аноним 19/09/23 Втр 15:12:05 № 493505 260

>>493491
> При расзделении на карты или карта-проц участвует.
При разделении тоже слабо.
Да и у нас тут GPTQ на одну карту, я об этом конкретном случае, офк.
Если бы это был офлод, вопросов бы не было. =)

Аноним 19/09/23 Втр 17:01:15 № 493569 261

>>493414
> 3090
А кто-нибудь юзает? Сколько она выдает т/с?

Аноним 19/09/23 Втр 18:16:46 № 493669 262

Можно как-то использовать в качестве фронт энда телеграм или дискорд? Бот бы пересылал сообщения от кобольда и обратно ему. Пытаюсь гуглить, ничего внятного не нахожу. Вкратце, я хочу иметь возможность чатиться с моделью запущенной дома на компе с телефона, когда я не дома.

Аноним 19/09/23 Втр 18:27:11 № 493681 263

>>493669
>чатиться с моделью запущенной дома на компе с телефона, когда я не дома.
для этого есть аналоги тим виевер
тг\диск - врятли чо найдешь

Аноним 19/09/23 Втр 18:30:04 № 493685 264

>>493669
Ну напиши бота для телеги, который будет принимать твои сообщения и отдаваль апи модели и наоборот..

Попробуй спросить как сделать у сетки

Аноним 19/09/23 Втр 18:47:40 № 493713 265

Есть где-нибудь сравнение бэкендов на одинаковых моделях?

Аноним 19/09/23 Втр 18:49:33 № 493715 266

>>493713
а что есть чот рабочее кроме угабуги?

Аноним 19/09/23 Втр 19:04:09 № 493754 267

>>493715
Ну да, на страницах моделей у блока там их очень много

Аноним 19/09/23 Втр 19:16:10 № 493782 268

>>493754
нехера не понял ну ка покажи

Аноним 19/09/23 Втр 19:41:41 № 493817 269

>>493782

Аноним 19/09/23 Втр 19:54:27 № 493843 270

>>493817
Это фронтенды.

Аноним 19/09/23 Втр 20:10:39 № 493872 271

>>493817
даже если б это были беки - аану сравни мне кобальт с бугабгуой
>>493843
именно

Аноним 19/09/23 Втр 20:13:46 № 493876 272

а почему никто здесь не использует vast.ai, ведь это гораздо дешевле чем видюхи?

Аноним 19/09/23 Втр 20:13:52 № 493877 273

>>493843
Ллама.спп и Кобольдспп же бэки, не?
>>493872
Когда всё только начиналось уга улетал у меня в ООМ, а кобольд - нет

Аноним 19/09/23 Втр 21:06:59 № 493952 274

>>493713
А что там сравнивать? По сути из беков есть оригинальная лламацпп, кобольдцпп, эксллама в двух версиях, да ещё и автогпт.
По сути выбор стоит между экслламой через убабугу и кобольдцпп, и выбирают по доступным ресурсам (видяха или проц), а не по качеству.

Аноним 19/09/23 Втр 21:09:38 № 493961 275

>>493713
Сам проведи, в теории те что HF должны быть идентичны в пределах рандомайзера семплера, другое дело что сами кванты будут отличаться.
>>493843
Это беки или "все в одном"
>>493872
> аану сравни мне кобальт с бугабгуой
Кобольд - форк llamacpp, в убабуге используется обертка llama-cpp-python. Сама математика вычислений там идентична, так что смысла сравнивать особо нет.
>>493952
> и кобольдцпп
Зачем он нужен когда в вебуи уже есть llamacpp?

Аноним 19/09/23 Втр 21:15:49 № 493968 276

123.jpg 618Кб, 2131x700

Подскажите, как таверну к убабуге подключить. Какие адреса указывать. И скрин настроек, если не сложно.
говорит в config.conf посмотреть. В убабуге сотня конфигов, config.conf не нашел, может в глаза долблюсь

Аноним 19/09/23 Втр 21:18:40 № 493973 277

>>493968
http://127.0.0.1:5000/api
ws://127.0.0.1:5005/api/v1/stream
В параметрах запуска раньше надо было api писать, сейчас возможно уже по дефолту или смотри в настройках.

Аноним 19/09/23 Втр 21:23:26 № 493977 278

>>493973
нет

Аноним 19/09/23 Втр 21:24:00 № 493979 279

>>493973
нет

Аноним 19/09/23 Втр 21:26:19 № 493983 280

>>493977
Что в консоле вебуи сразу после запуска пишет?

Аноним 19/09/23 Втр 21:26:47 № 493984 281

>>493961
>Зачем он нужен когда в вебуи уже есть llamacpp?
В кобольде совместимость есть, в лламаЦП добро пожаловать перекачивать все модели каждую наносекунду, как только герганов высрет новый формат.
>>493968
Он же прям в консоли пишет адреса.

Аноним 19/09/23 Втр 21:29:03 № 493987 282

>>493983

Аноним 19/09/23 Втр 21:30:26 № 493988 283

изображение.png 93Кб, 641x133

>>493987
F5 на вкладке силли таверны.

Аноним 19/09/23 Втр 21:32:28 № 493990 284

>>493984
> в лламаЦП добро пожаловать перекачивать все модели каждую наносекунду
Чи шо, глупый, работоспособность ggml никуда не исчезала. Вообще, кобольд - продукт для совсем минималистов, хлебушков что не смогли осилить 3.5 команды в терминале, или идейных шизиков.
>>493987
API включи, в параметрах запуска --api или в настройках галочку.

Аноним 19/09/23 Втр 21:33:54 № 493992 285

>>493988
?

Аноним 19/09/23 Втр 21:40:21 № 493995 286

>>493992
Клавиша такая есть, на клавиатуре.

Аноним 19/09/23 Втр 21:56:04 № 494016 287

>>493669
Для убабуги есть, конечно, а вот для таверны не видел.

Ну и посоветовали удаленный доступ. Бесплатный RDP, если на компе пароль, или же аналог AnyDesk.

>>493782
Заходишь в GGUF модель и читаешь:

llama.cpp. The source project for GGUF. Offers a CLI and a server option.
text-generation-webui, the most widely used web UI, with many features and powerful extensions. Supports GPU acceleration.
KoboldCpp, a fully featured web UI, with GPU accel across all platforms and GPU architectures. Especially good for story telling.
LM Studio, an easy-to-use and powerful local GUI for Windows and macOS (Silicon), with GPU acceleration.
LoLLMS Web UI, a great web UI with many interesting and unique features, including a full model library for easy model selection.
Faraday.dev, an attractive and easy to use character-based chat GUI for Windows and macOS (both Silicon and Intel), with GPU acceleration.
ctransformers, a Python library with GPU accel, LangChain support, and OpenAI-compatible AI server.
llama-cpp-python, a Python library with GPU accel, LangChain support, and OpenAI-compatible API server.
candle, a Rust ML framework with a focus on performance, including GPU support, and ease of use.

Аноним 19/09/23 Втр 22:00:24 № 494022 288

>>494016
Тему не читай@Сразу отвечай
Сорян.

>>493952
Ну это тоже не бэки, это скорее движки, загрузчики. =)

>>493990
Не, все правильно говорит, работоспособность ггмл в.3 чудом не исчезла, как ВНЕЗАПНО исчезли работоспособности ггмл и ггмл в.2 в свое время.

Аноним 19/09/23 Втр 22:02:06 № 494025 289

>>493990
>>493988
Спасибо, вроде работает. не понял, что сделал, но пока делал еще и ключ поменял случайно

Аноним 19/09/23 Втр 22:07:57 № 494029 290

>>494022
>Ну это тоже не бэки, это скорее движки, загрузчики. =)
А беки сравнивать и смысла нет. Впрочем, кобольд таки и бек, и загрузчик, и даже фронт весьма убогий и для галочки, но он там есть.

Аноним 19/09/23 Втр 22:10:59 № 494034 291

>>494022
Справедливости ради надо отметить, что качество новых версий квантов сильно выше и ход отказаться от поддержки старых стимулирует их обновление, а иначе переползали бы крайне лениво. Ну а чего, Жора столько усилий положил а народ нос воротит, может себе позволить. К тому же сейчас скорость обновления моделей такая что отмирание старых форматов просто не заметишь. С ггуфом же там просто унификация и нет радикальных улучшений, видимо потому и есть.

Про реальное преимущество кобольда забыли - поддержка некрожелеза без сложностей. Еще бы автор делал что-то для развития, например прикрутил бы поддержку куды без avx2, а не просто собирал все в кучу.

Аноним 19/09/23 Втр 22:22:07 № 494043 292

>>493988
>>493990
Бляха, я к нейромансеру подключился, а не к себе. Объясните еще рас пожалуйста.

Аноним 19/09/23 Втр 22:25:10 № 494047 293

Там флаги надо как то прописывать?

Аноним 19/09/23 Втр 22:41:07 № 494068 294

>>494047

Аноним 19/09/23 Втр 23:29:08 № 494121 295

123.jpg 706Кб, 1920x719

Извиняюсь за тупость.
Отвечает ничем, хотя модель загружена.
Теперь что не нравится?

Аноним 20/09/23 Срд 00:04:44 № 494145 296

>>494029
Ну, вообще соглашусь.
Бэков как таковых нет. Есть фронты с разными наборами движков, которые умеют быть бэками для друг друга по мере сил.

>>494034
Да, но бывают единичные случаи, когда человеку нравится какая-то модель, а ее не переквантовывают.

Аноним 20/09/23 Срд 00:08:59 № 494149 297

>>494121
С тобой не хотят разговаривать даже нейронки. Это повод задуматься над тем, а всё ли ты правильно делаешь в этой жизни.
Твоя внутренняя мысль, другие люди этого поста не видят

Аноним 20/09/23 Срд 00:15:12 № 494151 298

>>494149
тэст

Аноним 20/09/23 Срд 00:38:03 № 494162 299

>>494149
коболд с тобой не согласен

Аноним 20/09/23 Срд 00:57:19 № 494173 300

>>494121
> Теперь что не нравится?
Авто-gptq испугался твоего шизонегатива и отказывается работать. Воспользуйся Exllama, это кадровый лоадер, прошедший кумерские точки, ее подобным не взять.
>>494145
> Бэков как таковых нет.
Простенький функционал что позволяет протестить - это не фронт с набором движком, бэк первичен. Есть несколько AIO но они уступают отдельным.
> умеют быть бэками для друг
Вут?
>>494162
С кем ты общаешься?

Аноним 20/09/23 Срд 01:01:21 № 494175 301

>>494173
>С кем ты общаешься?
Походу пост удалён.

Аноним 20/09/23 Срд 01:16:57 № 494182 302

>>493280
>Гпу на максималочках
Ну вот, ASIC для обработки графики. Хотя да, надо было в самом начале прекол объяснить.

>про разработку целиком аппаратного решения на дискретных модулях
Ух, ну это если поразмышлять о рентабельности или способах решения только, но результат все равно проигрышный получится, как по мне. В начале лета 16 чипов DDR4 по 8 сверху и снизу разводил, еле как за месяц управился, а тут и каналов больше, и куча всего остального. И прототипирование по карману ударит, мы в 12 слоев влезли, 0.1мм ширину дорожек и расстояние между ними, при тираже 1000 штук $20 за одну выходит, если память не изменяет. За 100 или 10 общая цена не сильно меньше будет. 3 DDR5 канала как один GDDR6, лучше тогда на FPGA по моей ссылке запилить, но все уже сделали за нас. Лет 7 назад думал про брутфорс DES, тоже хотел насобирать чипов, продумать все, а потом узнал про COPACOBANA и расхотелось как-то. Нужно или дешевле, или лучше делать, чем существующие решения, в нашем случае проще купить готовое у производителя, который на более широкий рынок работает, даже формат хорошо подходит, PCI-карта. Из примеров, когда стоит пилить свое, с год назад увидел на алиэкспрессе платы с XC7K325T по $120, купил 5 штук, вроде рабочие. Пишу помаленьку фреймворк для параллельной обработки, но это для себя, приятно иметь под рукой такую мощность почти даром. И DDRamdisk, может видел, но это скам, думал купить сначала. PCI SSD контроллер и 4 FPGA, прикидывающиеся флешем, а на самом деле — мосты к DDR3. Терабайт за косарь баксов обещали, но на демонстрациях контроллер для 3 версии шины показывал скорость четвертой.

>Оно же дешево и доступно
Да, но я пока не решаюсь переходить, сижу на SATA.

>>493291
>а ты на сперме хочешь новое запускать.
Не хочу, у меня еще Ведьмаки и все от Remedy кроме Макса Пэйна не пройдено, просто сказал, что такое возможно. Хотя наверняка многие игры обо что-нибудь другое запнутся, да, этого я не учел.

>>493385
>нужно жить в тайге
Да, но у меня не хватает яиц на это. Решением бы были поддельные паспорта, но цена растет экспоненциально и появляется шанс присесть, что мне не слишком выгодно. Может, перееду в Панаму или какую-нибудь южноафриканскую страну, поменяю безопасность на личное пространство, а то страны первого мира затягивают гайки, уже разговоры о полностью безналичных расчетах идут. А следить за цифровым следом всем пригодится, да. Родители думали, что я параноик, а потом подошли сливы банков и служб доставки еды, поняли мою позицию наконец. Еще была история, порридж послал в телеграм проката машин скан паспорта и на него кредит оформили, лол.

Аноним 20/09/23 Срд 05:01:51 № 494240 303

Как завести 13b на 8vram? Писали же, что заводятся, а у меня ошибку выдает.

Аноним 20/09/23 Срд 06:58:30 № 494273 304

>>494240
чек озу
алсо викуня гавно

Аноним 20/09/23 Срд 07:07:13 № 494276 305

>>494273
Озу немного - 16, но ггуфы вроде хватает 13b завести, а эту нет.
Да я просто потестировать хотел то, что на слуху.

Аноним 20/09/23 Срд 08:38:59 № 494309 306

Какая самая лучшая 13b? Рейтингам не верю, хочется узнать из реального опыта местных

Аноним 20/09/23 Срд 10:48:35 № 494332 307

>>494173
Окей, если так подумать — не друг для друга.
Спутал, что кобольдАИ может обращаться как к кобольдуцпп, так и к убабуге, так и запускать самостоятельно некоторые модели, равно как и таверна старая, насколько я помню.

>>494182
> думали, что я параноик
А я и есть параноик, не вижу в этом ничего плохого, если честно.
Ну, в плане, если относиться к паранойе с медицинской точки зрения, то мы не об этом, конечно. А если иметь в виду обывательское значение «подозрительный человек, видящий всюду заговоры» — то почему бы и не быть таким, полезно для здоровья.

>>494240
fp16 или q8?
Надо качать q4.

Аноним 20/09/23 Срд 10:51:56 № 494336 308

>>493079
>Мне хватит и 13B модели с контекстом хотя бы 100К
Держи:
https://huggingface.co/TheBloke/Yarn-Llama-2-13B-128K-GGUF
https://huggingface.co/TheBloke/Airoboros-L2-13B-2_1-YaRN-64K-GGUF
>>493817
>LM Studio
На реддите в комментах встречал что почему-то у некоторых там производительность лучше на llama.cpp
>>494240
Попробуй ещё увеличить своп диска, на котором модель лежит, у меня на ноуте чуть слабее заводится.

Аноны, пробовал кто: https://github.com/neph1/LlamaTale
Судя по описанию там прямо игруля, просто LLM используется для интерактива.

Аноним 20/09/23 Срд 10:56:02 № 494340 309

>>494336
> Держи
Как они в плане сэкса?

Аноним 20/09/23 Срд 11:10:05 № 494349 310

>>494340
Не знаю, моего железа не хватит чтобы осилить много контекста.
Но, возможно, с настройками поебаться придётся.

Аноним 20/09/23 Срд 11:28:01 № 494360 311

>>494340
Во для сэкса. Хорошо напишешь промпт и шишка встанет десять раз.
https://huggingface.co/Undi95/MLewdBoros-LRPSGPT-2Char-13B-GGUF

Аноним 20/09/23 Срд 11:30:22 № 494362 312

>>494349
> с настройками поебаться
Лучший вид секса
>>494360
Там контекст маленький....

Аноним 20/09/23 Срд 12:45:31 № 494408 313

>>494362
а ты че думал. Нейронка это как лоля. При том еще бывают умные и глупенькие, и даже умным лолям надо инструкции.

Аноним 20/09/23 Срд 14:12:55 № 494484 314

>>494182
> ASIC для обработки графики
А нихуя, ведь на них можно играть, считать, катать нейронки, просто матрицы перемножать. Асик для параллельных математических операций!
> сижу на SATA
В последние лет 5 они дико деградировали из-за особенностей востребованности. Нормальный объем взять - он будет или днищем со скоростью ниже харда когда закончится несколько десятков гб lsc кэша, или оверпрайснуты до уровня топовых nvme. Но, офк, mlc а то и slc из древних времен все еще тащат, пока хватает их объема.
>>494240
Однако ругается на озу. Эксллама не шарится, Llamacpp с подходящим форматом модели и подбирай число выгружаемых слоев.
>>494362
> Там контекст маленький....
Скорострельнуть и 4к хватит, или тебе 16к для кума мало? Столько на месте тупить - тут и клода 2 залупится.

Аноним 20/09/23 Срд 14:21:12 № 494497 315

>>494484
Хочу модель и покумить, и просто поРПшить

Аноним 20/09/23 Срд 14:24:52 № 494502 316

>>494484
>Эксллама не шарится
В этом преимущество ноутов? Что там встроена поддержка РАМ по типу ВРАМ?

К слову об использовании двух моделей: умной и глупой.
https://www.reddit.com/r/LocalLLaMA/comments/16mwcch/contrastive_decoding_improves_reasoning_in_large/
Как я понял из коммента, исследователи замутили алгоритм, который сравнивает ответы умной и глупой модели, и редактируют умную, если она выдаёт результат ближе к глупой.

Аноним 20/09/23 Срд 14:32:04 № 494513 317

>>494360
а есть на видяху а не на проц

Аноним 20/09/23 Срд 14:47:48 № 494535 318

>>494513
дак она итак на видяху. Выбираешь угабугу или кобольд и ебашишь слои сколько хватает. Если все влезет в видяху то зашибись, если нет, то часть проц обработает. Но видяху минимум 12гб надо

Аноним 20/09/23 Срд 15:37:02 № 494582 319

>>494535
>2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp

кто из вас пиздит?
и откуда инфа про 12

Аноним 20/09/23 Срд 15:44:58 № 494587 320

>>494582
ну а как ты 13B блять запустишь 4Q почти всю видяху сжирают. 5Q уже жрет оперативу.
Попробуй сам и узнаешь. Вбиваешь настроечки например в кобольде
Cublas
40 слоев.
Потом выбираешь сколько у тя ядер проца и вычитаешь одно ядро, результат пишешь в ядра ну и контекст допустим 4к. Все. У тя 40 идет в видюху, 3 идет в оперативу и проц это если ты на Q5 или Q4 сидишь.
Хочешь можешь в проц уйти хоть целиком, но учти что ты быстрее сможешь кончить чем дождешься ответа ожидая генерацию по 1 токену в секунду. Так что никто не пиздит.

Аноним 20/09/23 Срд 15:49:14 № 494590 321

>>494336
Есть бенчмарки этих моделей в сравнении с обычными разжатыми альфой? В первой оригинальной репе
> to do
во второй резкая деградация напоминает недостаточный параметр а не объективное сравнение.
>>494497
От рп зависит, на том же млевде вполне это можно делать, и никто не мешает переключать их на ходу. По контексту - кум смысловой нагрузки большой не несет и суммаризуется без ущерба.
>>494502
> В этом преимущество ноутов?
Нет, тот лоадер для куды. Но если в контексте мака то на нем llamacpp работает хорошо за счет скорости памяти.
Бегло пролистав - там похоже не просто сравнение а возмущение семплинга на основе этих данных. Интересно посмотреть на реализацию.
>>494582
С некоторых пор они могут быть выгружены на видеокарту что даст сильное ускорение. Считай чисто только под проц моделей сейчас нет, или универсальные, или только на видюху (и то их на проце возможно пустить, но очень медленно).
> и откуда инфа про 12
Практика. На самом деле 12 там впритык, квант жирнее или контекст побольше и все. Но никто не запрещает выгружать не всю модель, оставляя часть на проце.

Аноним 20/09/23 Срд 16:33:47 № 494628 322

>>494513
Ну поищи то же название, но GPTQ

>>494582
GGML/GGUF можно выгрузить на видяху, но скорость будет вдвое ниже.
Про 12 хуита полная ваще.
Выгружай себе часть слоев и все тебе будет без 12 гигов.

>>494535
Сам с собой запутался. Если он выгружает часть слоев, ему 12 гигов нахуй не надо.
Только если все, да и на высоком кванте не хватит.
Криво выражаешься, люди тебя не понимают.

>>494587
Нахуй вычитать одно ядро, воробушек?
Обычно берут половину ядер. Как правило, это загружает 60% проца.
Но вообще, 4-5 норм ядер достаточно для ddr4 3200 в двухканале. Если память быстрее — берешь больше ядер.

Аноним 20/09/23 Срд 16:35:33 № 494630 323

>>494628
> 4-5 норм ядер достаточно для
Точнее: при большем количестве ядер на псп ~50 мб, прирост будет малозаметен.

А то сам криво выразился, не так еще поймете.

Аноним 20/09/23 Срд 16:58:14 № 494656 324

>>494628
1) все будет работать конечно и на 8 гигах, но скорость генерации пиздец как падает.
2) надо вычитать. Я прочиталь хз где но сказали так лучше. У меня 6 ядер так шо я юзаю 5.

Аноним 20/09/23 Срд 17:15:19 № 494679 325

>>494628
>Нахуй вычитать одно ядро, воробушек?
Так кобольд по умолчанию делает, лол.
>>494628
>Но вообще, 4-5 норм ядер достаточно для ddr4 3200 в двухканале.
У меня на DDR5 6 кеков больше 5 ядер ставить нет смысла, лол.

Аноним 20/09/23 Срд 17:35:49 № 494695 326

Кто ни будь разобрался как это работает и что надо прописывать?
В aicg одни клоуны сидят.

Аноним 20/09/23 Срд 17:46:57 № 494711 327

>>494656
1) Ну так скорость генерации — это отдельный разговор. =) И если мы говорим о скорости, то это GPTQ, а не offload процессорной модели на видяху.
2) Не надо вычитать, хуйню читаешь, потестируй сам и нарисуй кривую скорость-количество ядер, сам увидишь. =)
Если очень хочется буквоедствовать, то надо вычитать ~10% ядер, это будет и то точнее, если хочется повычитать.

>>494679
Когда я последний раз его запускал, он вычитал 50% ядер. =) Может щас поменяли, но стабильные 60% загрузки было.
Но это пару месяцев назад, конечно.
> У меня на DDR5 6 кеков больше 5 ядер ставить нет смысла, лол.
Т.е., 5 ядер хватит всем, получается? :)

// ---

Так че там, где там фанаты огромных массивов софта, собранного из библиотек на пипе, ноджиэсе и прочих менеджерах?
У меня убабуга стала на CPU-only платформе принудительно прописывать CUDA_PATH и CUDA_HOME себе в environment variables, и ему похуй на CPU-only установку.
Давайте, оправдывайтесь, как это произошло, и почему это не чинят уже 3 дня. =D Где там ваша хваленая скорость разработки.

Аноним 20/09/23 Срд 17:57:40 № 494727 328

>>494695
Очевидно она делает векторное представление всех сообщений, а потом, скорее всего, подставляет в историю чата наиболее подходящие.
>>494711
>Когда я последний раз его запускал, он вычитал 50% ядер. =)
Ну ХЗ. У меня 12 ядир, 24 потока, итого кобольд ставит 11 тредов, то есть число физ ядер - 1.
>>494711
>Т.е., 5 ядер хватит всем, получается? :)
Таки да.

Аноним 20/09/23 Срд 18:11:40 № 494749 329

Есть ли какая-нибудь инструкция как пережимать модели? Я хочу https://huggingface.co/TheBloke/Synthia-70B-v1.2-GGUF, ужатую в exl2 с 3 битами на тензор. Как мне это сделать?

Аноним 20/09/23 Срд 18:18:27 № 494760 330

Парни, у меня rx580 8гб. Какую модель я могу запустить, если это вообще возможно?

Аноним 20/09/23 Срд 18:27:56 № 494768 331

>>494760
с суфиксом 7б и ниже с квантованием

Аноним 20/09/23 Срд 18:29:18 № 494770 332

>>494768
Спасибо.

Аноним 20/09/23 Срд 19:10:35 № 494793 333

>>494749
На гитхабе всё написано, чего не понятного? Но оно всё равно в 24 гига VRAM не влезет, нахуй тебе оно надо.

Аноним 20/09/23 Срд 19:15:40 № 494798 334

>>494793
У меня 36

Аноним 20/09/23 Срд 19:22:12 № 494808 335

Как перестать кумить? Я уже раз пять за 3 часа подрочил на ерп, с обычным порно у меня такого не было лет с 15 нахуй

Аноним 20/09/23 Срд 19:24:18 № 494814 336

>>494808
> Как перестать кумить
Никак!

Аноним 20/09/23 Срд 19:47:13 № 494834 337

>>494798
мало

Аноним 20/09/23 Срд 19:56:30 № 494848 338

>>494760
Не слушай фанатиков >>494768
Я поначалу тоже поверил адептам Нвидии и думал что моя карта бесполезный мусор, на деле же мусор, но не такой уж бесполезный
Ты легко можешь засунуть в память этой карты:
7В модели - ответ 20-40 секунд.
13В модели с q4 квантосанием - ответ 1-1,5 мин.
30В модели с квантосанием 2-4q, выгрузив потовину слоёв в ОЗУ - ответ 2-3мин а хули ты хотел?
70В - не стоит вскрывать эту тему

Бери GGML или GGUF модели и запускай через Kobold.cpp и CLBlast.

Мимо RX580 - боярин

Аноним 20/09/23 Срд 19:56:33 № 494849 339

Наконец 20В годную выкатили. Раньше все франкенштейны были всратые, а ReMM-L2-Chat-20B уже явно лучше 13В. Оно не проёбывается с разметкой и может нормально выдать 10 реплик вперемешку с мыслями, при этом не проебать звёздочки. В отличии от MLewd не переходит в дичайшую графоманию без смысла, не затыкается в один формат сообщений. И по размеру заебись - групсайз 32 лезет в 24 гига с большим контекстом.

Аноним 20/09/23 Срд 20:09:02 № 494857 340

>>494834
У меня уже работают 70б 2.5б айборос и 70б 3б ллама2, достаточно

Аноним 20/09/23 Срд 20:10:58 № 494859 341

>>494857
А какой там брать? Инвертед? Пресайз? ПресайзИнвертед? Ещё какой?

Аноним 20/09/23 Срд 21:02:41 № 494915 342

>>494849
А откуда 20B? Кто-то запрунил 70, или опять франкенштейн?

Аноним 20/09/23 Срд 21:04:55 № 494918 343

>>494915
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B

Аноним 20/09/23 Срд 21:09:19 № 494927 344

>>494918
Ебать алхимия.

Аноним 20/09/23 Срд 21:30:09 № 494951 345

>>494711
> Т.е., 5 ядер хватит всем, получается? :)
Зависит от архитектуры - у штеуда гетерогенные ядра, у амд блочная структура, по-разному может. Часто наилучший результат если ее вообще не трогать.
А то что 5 ядер - все упирается в рам и анкор, для обсчета с учетом этих ограничений много ядер и не надо.
> У меня убабуга стала на CPU-only платформе принудительно прописывать CUDA_PATH и CUDA_HOME себе в environment variables, и ему похуй на CPU-only установку.
Это где так и когда? После обновления все также работает, все также неюзабельно.
> Где там ваша хваленая скорость разработки.
Скилл ишью
>>494749
Для квантования нужно железо, что вместит исходную модель в фп16. Там для exl2 какие требования есть или torch-cpu хватит?
>>494808
Начни пердолиться, времени кумить не останется.
>>494849
Она же все также экспериментальная и странная. Или ты попробовал и годнота?

Аноним 20/09/23 Срд 22:47:51 № 495015 346

>>494849
>>494918
какой loader для нее нужен?

Аноним 20/09/23 Срд 22:53:07 № 495023 347

>>495015
Я в GPTQ конвертил. Эту можешь через bitsandbytes запустить.

Аноним 20/09/23 Срд 22:53:56 № 495026 348

Подскажите, что в негатив промте пишите

Аноним 21/09/23 Чтв 00:00:19 № 495110 349

>>494951
> Это где так и когда?
Да вот, пару дней назад, я в начале плюнул, а седня решил разобраться.
Просто вписал
del os.environ["CUDA_PATH"] и че-то еще, перед запуском, оно работает норм.
А почему так — лень разбираться просто.
Кривая хуита, как всегда. =)

Аноним 21/09/23 Чтв 00:30:15 № 495131 350

1579991679258.png 35Кб, 1230x349

1540975054774.png 24Кб, 1050x297

>>495110
Нет, проблема действительно в навыке. Дай угадаю - притащил не совместимый с системой торч под куду? Сам нагадил, а потом ноешь про злого убабугу, который в штаны заливает.
Вот смотри, ласт коммит, ласт реквайрементсы, о куде ничего не известно, и в начале положенное предупреждение об отсутствии гпу ускорения. Алсо говномодель за тебя топит, или может уже так отыгрывать начала.

Аноним 21/09/23 Чтв 06:35:16 № 495291 351

Посоны, а в убабуге возможно как-то включить использование CFG с GGUF-моделями? и если нет, то где-нибудь это возможно вообще?

Аноним 21/09/23 Чтв 09:31:35 № 495343 352

Можно ли в угебуге в врам хранить только модель, а контекст в рам? Если можно, то есть ли в этом смысл?

Аноним 21/09/23 Чтв 10:25:02 № 495370 353

>>495343
Нет.

Аноним 21/09/23 Чтв 10:26:16 № 495371 354

image2023-09-21[...].png 109Кб, 1115x742

>>495131
Лол, опять маняфантазии. =)
Нет, проблема в кривости модульной убабуги.

Давай воспроизведем все как было.
Работает.
Жму update_windows.bat
Не работает.

Хоба, в каком месте я тут притащил куду? =D

Давай подробнее.
Два месяца назад установил с нуля чистую убабугу CPU-only (надеюсь, понимаешь, что это значит?).
Два месяца подряд она работала (нет, вообще ломалась иногда, но потом чинилась).
Все эти два месяца ежедневно я просто нажимал update_windows.bat, наслаждался дефолтным нативным обновлением и все.
Ничего лично не устанавливал и не лез.

А после обновления три или четыре дня назад — стала вылетать с ошибкой.

Почему? Это не ко мне вопрос. Я туда не лез, на кой хер мне лезть в рабочую программу, если меня там все устраивало на тот момент.
Нет в коммитах? Окей, и что с того, если баг появился? Ответ будет ниже.
Ты как в том анекдоте «у меня на компе все работает». Извините, но клиенту мы ваш комп отдать не можем. =) Ну, хотя, технически, ты можешь отдать мне комп, канеш, если там 0,7 токена на 70Б будет — я даже согласен.
Но, боюсь, ты на такую жертву за идею не пойдешь, а значит убабуга обосрался. So sad.
Проблема в навыке — но не моем, ибо нажимать update_windows.bat много навыка не надо. =)

Но мы можем попытаться поискать проблему дальше.

Итак, я порылся в файлах. Что мы имеем?
Открываем файл start_windows.bat (прямо с гита берем, чтобы не было претензий), на 60-61 строках видим:
>set "CUDA_PATH=%INSTALL_ENV_DIR%"
>set "CUDA_HOME=%CUDA_PATH%"
Окей, значит эти переменные устанавливаются всегда, даже если у нас CPU-only софт. Интересный подход.

Открываем \installer_files\env\Lib\site-packages\llama_cpp\llama_cpp.py, на 58-60 строках видим:
> if "CUDA_PATH" in os.environ:
> os.add_dll_directory(os.path.join(os.environ["CUDA_PATH"], "bin"))
> os.add_dll_directory(os.path.join(os.environ["CUDA_PATH"], "lib"))

Т.е., эта проверка проходит всегда. Круто-круто, сразу виден продуманный код.

А теперь запускаем программу и видим пикрил. Почему? Потому что никакой куды у нас сроду не было, никакой папки /bin/ у нас быть не может, и, как бы, хули прога хочет — одним фанатам пакетных менеджеров известно. ¯\_(ツ)_/¯

Теперь убираем строки с назначением CUDA_PATH и CUDA_HOME — и, о чудо, программа работает без каких-либо проблем!

Ты апеллировал к тому, что в ласт коммитах нихуя нет, только вот ты забыл, что ваша чудесная прога на 10 гигабайтах библиотек, работает через сотню зависимостей, которые все нахуй могут ломать (не в перво́й). Например неделю назад она ломалась из-за elevenlabs, которые подтягивали зависимость, не подходящую самой убабуге. Чувак два дня чинил.

Программы собранные руками по нужным кускам, оттестированные и оптимизированные — корректнее, чем программы собранные пакетными менеджерами из гигабайт библиотек, которые друг с другом конфликтуют и кладут хуй на совместимость, а разрабы потом это чинят столько же, сколько можно было собирать и тестировать.
Да, чуть быстрее, но, как видишь, проблема в навыке, да не моем.

Все файлы мною не подменивались, взяты оригинальные из оригинальных источников, путем запуска всего лишь двух файлов: star_windows.bat и update_windows.bat.

Кстати, спасибо тебе, я нашел способ лучше del os.envrion, просто закомментив set.

Кстати, интереса ради, я почекал открытые ишью в убабуге. 140 багов, норм стабильная прога.
Кстати, так же там я нашел тред про P40.
https://github.com/oobabooga/text-generation-webui/issues/3825
Судя по всему, на ней можно получить некую нормальную производительность выше 1 токена/сек для codellama, но сколько именно — никто не уточнил.

Возможно, покупка P40 и правда оправдана может быть, хз-хз.

Аноним 21/09/23 Чтв 10:28:08 № 495374 355

>>489146
https://github.com/oobabooga/text-generation-webui/issues/3825

Чекай, пишут, что норм скоростуху получить можно. Но сколько именно — молчат. =) Х — хер угадаешь.

Аноним 21/09/23 Чтв 11:13:35 № 495415 356

Аноны, поясните за https://github.com/YellowRoseCx/koboldcpp-rocm
В репе koboldcpp лежит ссылка на этот форк, как на версию для АМД, но что там конкретно АМДшнгого?
Попробовал hipBLAS - вылетает. Запустил через CLBlast - разницы с оригинальным кобольдом не заметил. Нахуя оно тогда нужно? Или я что-то не догнал?

Аноним 21/09/23 Чтв 12:07:57 № 495478 357

Ребят, я новенький. Я шапку читал, по ссылкам ползал, но не нашел то что мне нужно.

Как вот это меню с пика настраивать и как туда промпты загрузить? Заспунфидьте пожалуйста. Еще бы хотелось бы подробно узнать как этими настройки пользоваться и за что они отвечают.

Аноним 21/09/23 Чтв 13:01:31 № 495543 358

>>495371
А, олдскульный вонаби тру программист вместо того чтобы вбить 4 команды из инструкции (которая и не нужна ибо процедура базированнее некуда и везде идентична)
> git clone
> python -m venv ./venv ; . ./venv/activate
> pip install torch torchvision torchaudio
> pip install -r requirements.txt
использует костыль-исталлятор для хлебушков, выбирает в нем неверные параметры, а потом страдает. Эталонная ца чтобы словить утенка от сборника для особых случаев или неосиляторов. А может дело в самой цели - косплеить скуфидона, который учит всех жизни. Сколько токенов в секунду на шизу выдает?
> открытые ишью в убабуге
Большей частью там братишки типа тебя
> колеса не собираются
> модель загружаемая не совместимым лоадером не работает
> все сломалось ничего не работает помогите
и это ты еще больших проектов не видел.

> тред про P40.
Тот загрузчик сам по себе не быстрый, паскали слабы, а тут еще (возможно) особенности инструкций, которые на той архитектуре медленно работают. На ней же эксллама должна крутиться, по заявлениям аж 8 токенов на 13б, будет хотябы на уровне процессора а не медленнее.
>>495478
Юзай пресеты, simple-1 для начала, контекст на ту величину которую загружаешь, лимит длины ответов отодвинь чтобы не обрезало (это не гарантия что даст длинный пост, просто будет остановка при упоре в него), промт формат сверху где буква А, там тоже выбери из стандартных пресетов ролплей или симпл прокси если для кумерских миксов.

Аноним 21/09/23 Чтв 13:39:05 № 495582 359

>>495543
> А, олдскульный вонаби тру программист вместо того чтобы вбить 4 команды из инструкции (которая и не нужна ибо процедура базированнее некуда и везде идентична)
Выглядит, как будто ты себя описал, если честно.

Почему ты по сути не отвечаешь, маня? :)

Вбить команды из инструкции и все такое, ты рил не понимаешь, что это гнилая отмазка?
У меня претензия к тому, что подход «собрать кучу библиотек, не контролировать их версии и совместимость, использовать все подряд, даже то, что не требуется для работы» — хуевый, и имеет свои проблемы.

> и это ты еще больших проектов не видел.
А что для тебя «крупный»? Я даже хз как оценить, на самом деле.
Но убабуга крошечная, конечно, на фоне тех, на которых я работаю.
Багов у нас столько и близко нет.

> использует костыль-исталлятор для хлебушков
Так это не «для хлебушков», а «от хлебушков». Ты стрелочку-то не переводи, проблема в авторе, который такое пишет. =)

> выбирает в нем неверные параметры
Так, а что я там не так выбрал, расскажи мне?
Ты за время нашего диалога игноришь половину вопросов, видимо потому, что ответить за свои слова не можешь.
Но если ты рил считаешь меня глупым, а себя умным — то хватит балаболить, ответь за свои слова.

Итак.
Запускаем скрипт с нуля (написанный автором программы, которому я вменяю косяк в написании в том числе этого скрипта, и принципа подхода к проекту, ага да, если бы ты внимательно читал, а не фантазировал…).
Он ставит миниконду, создает венв.
Спрашивает — какой у меня гпу.
Я ввожу D (no GPU).
Инсталл идет дальше.
Инсталлит базу, пуллит убабугу и экстеншены, инсталлит реквайрментсы.
Все. Буквально — все. Один единственный выбор.
Если я запускаю на проце, то скажи мне — что мне надо было выбирать для кукурузена? AMD? NVidia? Apple M Series? =)
Ты сказал, что я выбрал неверно, ну тогда скажи, что там выбирать правильно.

О тебе складывается такое впечатление, что ты увидел консоль в первый раз, смог копипастнуть 4 строки туда, и уже себя программистом великими считаешь.

Я никого не учу жизни, что самое забавное. Чтобы воспринять это так — надо быть сильно закомплексованным человеком. Я всего лишь констатирую простую вещь, что у разных подходов есть свои плюсы и минусы. И что убабуга как софт — та еще херня из-за выбранного разработчиком подхода. И в текущем подходе «вот вам 10 гигов зависимостей, которые никто не чекает» стабильной проги быть не может, ибо все это само обновляется. Все, где тут «учу жизни»?

Причем, я пишу же совершенно без негатива, все зависит от тебя. Есть что сказать по существу — говори. Не шаришь — ну так кто тебе мешает просто промолчать или сказать «ну да, может и так, не шарю». Откуда у вас железная уверенность, что сказав однажды, надо усираться до конца, закапывая себя. Ты рил думаешь, что игнорируя мои аргументы и не отвечая по сути, ты победишь в споре? Это так не работает. Кроме твоих фантазий, чел.

> Сколько токенов в секунду на шизу выдает?
Твой шизобред тут даже уже понять сложно становится.
Ты всерьез спрашиваешь меня о производительности, не знаю конкретного железа? Или это была такая «ирония»?
Ну а сколько выдает стандартный проц на псп 50 мб на 70Б модели.
Вряд ли у меня сильно отличается результат. 0,7 т/с, насколько помню.
Если ты такое запускал, поделись результатом, сравним.

> Тот загрузчик сам по себе не быстрый
Я в курсе.
> паскали слабы
Я уже два треда об этом пишу.

> На ней же эксллама должна крутиться, по заявлениям аж 8 токенов на 13б
Ну вот это уже неплохо. Конечно, фича P40 в объеме видеопамяти, на ней надо запускать 70Б.
Если очень грубо экстраполировать, получится ~1+ токен/сек. Ну, чуть получше проца, да, раза в полтора. На самом деле, это уже неплохо. Если там будет работать Exllama2 с 2,55б квантом, то может быть еще заметно быстрее.

Но покупать я сам ее пока не буду, офк.

Аноним 21/09/23 Чтв 13:51:29 № 495596 360

>>495543
Спасибо, но не мог бы ты пожалуйста рассказать что за что отвечает, чтобы я потом сам мог настраивать? Или ссылку где можно про это почитать. Пожалуйста.

Аноним 21/09/23 Чтв 13:54:14 № 495601 361

>>495596
Попробуй такой лайфхак — если ты запускаешь кобольдцпп как бэк для таверны, то зайди в сам кобольдцпп, на вкладке настроек будут эти же параметры с вопросиками рядом с ними, там и почитай.
Но начать и правда стоит именно с дефолтных пресетов. Попробуй Divine Intellect или Kobold Godlike для начала.

Аноним 21/09/23 Чтв 17:19:06 № 495848 362

>>495582
> Выглядит, как будто ты себя описал, если честно.
Зачем себя, даже не программист, тут громких заявлений не делаю и жизни не учу. Лишь указываю что твои утверждения про то "как надо писать программы" и "какие все пидарасы все делают не так", которыми уже в куче тредов насрал - лишь шиза, заодно разбирая по частям.
Началось с нейтрального обсуждения, а переросло в посты со скроллбаром без содержания, даже когда с тобой дискутировать отказываются. А потом Остапа понесло делать выводы и описывать свои трактовки, чтобы приплести под свои суждения.
> Ты всерьез спрашиваешь меня о производительности, не знаю конкретного железа?
Поясняю, это стеб и отсылка к тому что твои посты на 3к+ токенов не далеко ушли от графомании шизомиксов лламы, железо тут не при чем.
> фича P40 в объеме видеопамяти, на ней надо запускать 70Б.
Если она не может с нормально запускать 13б то их покупка для 70б бессмыслена, т.к. даст скорость сравнимую с процессором. Сколько времени потратил на сочинения, уже бы заказал да протестил в бенчах ее.
> получится ~1+ токен/сек
В том и дело что это совсем не юзабельно. Даже 3 т/с это совсем печально. Другая проблема в том что
> с 2,55б квантом
останется от модели на самом деле. Тесты викитекста и заявления о том что оно может в когерентный текст это хорошо, но насколько оно будет юзабельно в реальности.
>>495596
Это параметры семплирования, идет их цепочка в которой каждый отбирает/отсеивает токены по своей методе, генерируя тебе текст. Вот самый сет тех что есть в параметрах https://huggingface.co/docs/transformers/main_classes/text_generation
Если совсем упрощать, то основные: температура - рандомайзер, чем выше тем более разнообразно (иногда кажется креативно) но и более непредсказуемый текст или шиза, Top P - отсечка токенов по вероятности, 0 - детерминизм, 1 - нет отсечки, Top K - количество токенов, среди которых будет розыгрыш, Repetition penalty/Encoder repetition penalty - штрафы за повторение. Суть в том что отдельные параметры влияют друг на друга. Делали рандомайзер и потом арену с реальным голосованием, победители тут https://github.com/oobabooga/oobabooga.github.io/blob/main/arena/results.md
Совет простой - попробовать из перечисленных там пресетов, они в таверне есть. Если докучают лупы - немного подними rep pen и/или encoder rep pen вместе с температурой. Еще можно поиграть с их порядком, но лучше не лезь а то сожрет.

Аноним 21/09/23 Чтв 17:41:04 № 495864 363

изображение.png 3Кб, 357x121

Почему в силлитаверне появляется Instruction: в конце многих ответов модели? Это как-то лечится? Я нуб, только поставил себе все это

Аноним 21/09/23 Чтв 19:08:11 № 495908 364

>>495864
Надо саму модель инструкциями кормить, посмотри, что настроено в модели и сделай такой же формат в таверне. Там есть несколько пресетов для примера. может, один из них подойдёт.

Аноним 21/09/23 Чтв 20:07:35 № 495944 365

>>495848
> жизни не учу
Так и я не учу, у тебя опять комплексы бьют?
> какие все пидарасы все делают не так
Такого я не писал, ты опять фантазируешь.
> даже когда с тобой дискутировать отказываются
Но дискутируют. =D
> Поясняю
Пасиба. Можем закинуть в таверну нашу дискуссию и посмотреть количество токенов. =D

> Даже 3 т/с это совсем печально
Да, но лучше проца. Ну так, если кому-то надо — возможно это вариант для вопросо-ответной модели, но
> останется от модели
Соглы, это будет скорее альтернатива неслучившейся 30б, но насколько она адекватна — вопрос актуальный.

Так шо, пожалуй, переживем.
:Ждем следующие поколения по дешевке.

Аноним 21/09/23 Чтв 20:33:54 № 495974 366

>>495944
>Так и я не
>Такого я не
Ты думаешь тут тупые сидят, и не выкупают, что ты имел в виду на самом деле?
>Да, но лучше проца.
Не настолько лучше, чтобы это стало решающим.

Аноним 21/09/23 Чтв 20:46:11 № 496001 367

>>495371
>Все эти два месяца ежедневно я просто нажимал update_windows.bat, наслаждался дефолтным нативным обновлением и все.

Может быть эта проблема связана с тем, что надо обновлять и установщик. Например, похожая ошибка обсуждается здесь:
https://github.com/oobabooga/text-generation-webui/issues/3884#issuecomment-1716483388

Аноним 21/09/23 Чтв 21:00:45 № 496024 368

>>495944
Уже переобулся и вроде добрячок, но все равно желчь и обида между строк лезут. Ну ладно, живи пока, лучше бы литерали ту же 2-3 битную модель погонял за время на срач.
> посмотреть количество токенов
Еще когда первый матрас увидел чекнул, 3к не с потолка взято.
> Да, но лучше проца.
тут 2 умножить на 0, толку всеравно нет. Если только в комбинации с процом что-то сможет на моделях побольше.
>>492498
> Синтию надо попробовать, вдруг хайденгем
Это не хайденгем, это чуть ли не ультимейт ерп кумерская модель среди семидесяток (версия 1.2b). На первый взгляд какой-то QA соевик с файнтюном под чат, на деле выдает такое что всяким кимико и не снилось, имеет суперплавный переход от обычных активностей к левду, инициативничает, понимает популярные фетиши и имеет очень хороший слог. Последнее - серьезное преимущество после всяких "ту соулз" и прочего симулятора толкинистов, и диалоги длинные - подробные вместо "Ах ох ты ничего~~" куча бесполезных действий. Соображает прилично, сама вводит новых персонажей (с одобрения офк) и прилично ведет их (одного по крайней мере хорошо), без лупов и тупняков.
Офк если минусы, иногда будто путается предлагая имперсонейт где роли юзер/чара свапнуты, возможно из-за несовместимого промта. Околофентези в датасете не хватает - персонажи с особыми атрибутами начинают вести себя как обычные нормисы, пока не намекнешь и подобное, тогда как другие файнтюны сразу смекает что к чему.
>>496001
При первой возможности лучше избавиться от него и просто создать локальный вэнв или окружение конды, откуда уже все пускать.

Аноним 21/09/23 Чтв 21:56:32 № 496139 369

Анон, с конца июня не пользовался уга-бугой для кума. Тогда вышел ExLamma и я охуел от скорости генерации ответов.
bluemoon-13b была вроде.

Сейчас же обновил уга-бугу и всё поломалось, пишет с трудом, долго и бредово. Это типа старые модели всё?
Нужно переходить на Гуфа этого нового? А через что его запускать и какие параметры выставлять?
Пиздец я динозавром себя чуствую.

Аноним 21/09/23 Чтв 22:27:04 № 496199 370

>>496139
> ExLamma и я охуел от скорости
видяха какая и модель и контекст?

Аноним 21/09/23 Чтв 22:32:10 № 496206 371

>>496199
bluemoonrp-13b-4k-epoch6-4bit-128g
Вроде эта была, контекст ставил на 4к
Видяза 2060 12 гб.

Прямо сейчас скачал MLewdBoros гуф и загрузил через лламу.
Очень медленно отписал.

Аноним 21/09/23 Чтв 22:34:51 № 496208 372

>>496139
> Это типа старые модели всё?
Вышла вторая ллама и все новые модели на ней, качай gptq да кумь в экслламе на здоровье. Старые тоже должны работать если для них выставить оригинальные параметры.
Можешь gguf качать и с помощью llamacpp полностью выгружая слои запускать, в пару раз медленнее но доступны готовые более жирные кванты, хотя для 12 гигов это не актуально.
>>496206
> Очень медленно отписал.
Слои выгрузи, а то на проце считается.

Аноним 21/09/23 Чтв 22:43:57 № 496213 373

>>496208
А как эти слои выгружать?
И при попытки загрузить чрез ExLlama пишет, что нет кучу файлов, генераторов каких-то.

Аноним 21/09/23 Чтв 23:31:31 № 496261 374

>>496213
>пишет, что нет кучу файлов
В шапку
>>489141 (OP)
>при себе содержат конфиги, которые нужны для запуска, их тоже качаем.

Аноним 21/09/23 Чтв 23:43:56 № 496285 375

>>496261
В той же MLewdBoros-LRPSGPT-2Char-13B-GGUF никаких конфигов нет. Но, старые модели и правда заработали как раньше в плане скорсоти на ExLamma.А вот размер текста хромает

Осталось понять как выгружать слои

Аноним 21/09/23 Чтв 23:46:57 № 496291 376

>>495415
>Попробовал hipBLAS - вылетает.
Что-то неправильно сделал.
>Нахуя оно
На амудэ работает заметно быстрее clblast, в 1.5 раза примерно. Но жрёт больше vram, меньше слоёв помещается (но даже с учётом этого быстрее считается).

Аноним 22/09/23 Птн 00:10:09 № 496318 377

>>496285
>GGUF
Потому и нету лишних файлов, это процессорная однофайловая модель. Читай шапку, я её не просто так писал.
А вот всё, тчо под экслламу, надо качать с конфигами.

Аноним 22/09/23 Птн 00:16:56 № 496320 378

>>496318
Спасибо!

Аноним 22/09/23 Птн 02:10:12 № 496433 379

>>491985
> У меня 6950 и i9-9900K, планирую на 5950X заменить. MythoMax 13BQ6_K 3 токена в секунду при полном контексте генерирует, 4.8 при пустом.
3-5 токенов в сек на рыксе 6950, это шутка штоле? Вроде даж на полярисах больше было, но на 7б.

мимо раз в месяц у вас бываю

Аноним 22/09/23 Птн 06:57:30 № 496514 380

>>496291
>Что-то неправильно сделал.
Скачал koboldcpp_rocm_full.exe
Запустил.
Что ещё я должен был сделать?

Аноним 22/09/23 Птн 08:43:32 № 496537 381

>>496433
>на полярисах больше было
Я замерял на Q4-что-то-там, а у него Q6, у меня была rocm-версия koboldcpp, а он, возможно, замерял на clblast.
>>496514
>Скачал koboldcpp_rocm_full.exe
И вот здесь ты допустил ошибку. ROCM нормально работает на linux, на винду поддержку завезли недавно, и старые полярисы вряд ли поддерживаются. Даже на linux их уже официально дропнули, хотя код под них всё ещё компилируется, а на винду, скорее всего, даже не добавляли. Алсо, для корректной работы rocm на полярисах нужна pci-e v3 с поддержкой atomics, т.е., cpu начиная от первых ryzen либо ivy bdrige (кроме i3) и материнская плата, где заявлена поддержка. Это починили уже в вегах и дальше в rdna.

Аноним 22/09/23 Птн 09:10:45 № 496550 382

>>496537
У меня Ryzen 5600X, так что с аппаратной частью ок.
>Даже на linux их уже официально дропнули
То есть послали нахуй одну из самых дешёвых и производительных карт в линейке АМД? Ахуенно.
Это что получается, линукс ставить и в нём это всё компилировать? как-то слишком дохуя дел для прироста в 1,5 раза

Аноним 22/09/23 Птн 09:54:41 № 496564 383

>>495974
> Ты думаешь тут тупые сидят, и не выкупают, что ты имел в виду на самом деле?
XD Нет, тут сидят такие тупые, что думают за других, строят ветряные мельницы и храбро их побеждают.
Печально, что к реальному диалогу это не имеет отношения. =) Я уже раз пять повторил, что я имел в виду, продолжать утверждать иное — это уже клиника, бро. Ты бы сходил к психиатру, проверился. Вот, опять же, но оффенс, но когда человек вменяет другому человеку некий смысл, которого просто нет — это совершенно нездоровая ситуация. Это либо зашкаливающие глюки, либо попытка хоть как-то оправдаться в своих глазах.
За меня не волнуйся, я посещаю, слежу за своим здоровьицем. =)

>>496001
Во-от, да, это уже конструктивный ответ. Вполне может быть и оно. Там еще webui.py тоже не обновляется после создания, их я тоже на всякий случай обновил из дефолтного.

>>496024
> Уже переобулся и вроде добрячок, но все равно желчь и обида между строк лезут.
Чел, да я всегда таким был. =) Ну камон, где тут желчь и обида, кроме моих оппонентов, у которых горит от несовершенства их говно-идеала.
Ты хоть перечитай все внимательно, сколько уж раз написано про все. Даже повторять не буду.

> Ну ладно, живи пока
КЕК
Это самый топорный способ слиться с дискуссии, когда кончились не только аргументы, но и даже пиздеть как-то не хочется.
По сути один-единственный человек комментарием выше ответил в пару строчек и все, не обломался. Удивительно, почему ни у кого больше не вышло.
Да я не против сколько угодно продолжать этот диалог, так как я в нем прав по фактам, а собеседникам кроме словоблудия и сказать нечего. =)
Дико ржачно, как кто-то сагрился на поломку в убабуге, начал защищать, в итоге слился безаргументно, и теперь делает вид, что это меня пожалели. =) Ну-ну.

Не, я серьезно и без токса: хватит видеть то, чего нет. Без шуток про грибы или колеса, просто хватит выдумывать то, чего я не говорил, не имел в виду, не испытывал. Такое ощущение, будто ты сам — хреново настроенная модель без промпта.
Write one reply only. Do not decide what {{user}} says or does. Do not repeat this message.
Плизики.

>>496139
Ща тебе расскажут, что это у тебя руки кривые, а великолепная программа глючить не может! =D

>>496285
n-gpu-layers
Начни с 25 и повышай, проверяя, как там видеопамять занята.

Аноним 22/09/23 Птн 09:57:38 № 496568 384

>>496550
Это ты про 580?

Аноним 22/09/23 Птн 11:23:00 № 496682 385

>>496564
Опять скуфидон залупился поднимает штраф за повторение и свайпает

Аноним 22/09/23 Птн 11:29:55 № 496688 386

>>496682
блюшес

Аноним 22/09/23 Птн 11:40:06 № 496694 387

>>496682
Ну вот, нейросеть пытается оправдаться, что не следует инструкциям.
Админ, поставь норм модель, а не вот это вот.

Аноним 22/09/23 Птн 11:55:45 № 496703 388

>>496688
> слайтли
Не теряй!
>>496694
Сначала задонать на апгрейд железа и пиво администратору.

Аноним 22/09/23 Птн 11:57:56 № 496706 389

>>496703
рэд эс э бит

Аноним 22/09/23 Птн 12:05:55 № 496712 390

Аноны, кто-ибудь пробовал кумить на Сберовской модели?
https://huggingface.co/zlsl/ruGPT-3.5-13B-erotic-kink-chat-lorahttps://huggingface.co/zlsl/l_erotic_kink_chat
Или с двачером?
https://huggingface.co/ilnikolaev/dvachGPT

Аноним 22/09/23 Птн 12:16:03 № 496722 391

>>496537
> Я замерял на Q4-что-то-там, а у него Q6, у меня была rocm-версия koboldcpp, а он, возможно, замерял на clblast.
Да всеравно мало что-то. Это ж бывший флаган амд. 3090 13b-q6 через ламацпп давит 30 при мелком и 15 при 7.5к

Аноним 22/09/23 Птн 12:20:08 № 496726 392

>>496706
She couldn't help but let out a soft gasp at your request
>>496712
Хуясе ебать, как минимум стоит попробовать, особенно с аккуратно настроенным инстракт режимом. Менее тупой офк ружпт не станет, но может выдать что-нибудь не дженериковое.
>>496722
> и 15 при 7.5к
Мало, если только в семплере чего-то не накрутил.

Аноним 22/09/23 Птн 12:43:21 № 496737 393

>>496726
> Мало, если только в семплере чего-то не накрутил.
Ну 16-17 если точнее. Крутил, да. А сколько должно быть? Алсо, через экслама 2 13b-gptq 50-55 и около 30 соответственно, это норм или тоже больше должно быть?

Аноним 22/09/23 Птн 12:49:03 № 496742 394

>>496712
Нейроанон у меня на карточке звучит интересно. Вот бы кто-нибудь классный и крутой зафайнтюнил уже имеющуюся хорошую модель или даже сделал лору на основе этого датасета

Аноним 22/09/23 Птн 13:58:22 № 496809 395

>>492241
Ну я как бы все успешно запустил. Но чёт хуево. Медленно, а модельки, которые в 8 Гб влезут - тупые. Как то так. У меня g99, если чё.

Аноним 22/09/23 Птн 14:06:43 № 496815 396

.png 2Кб, 349x24

Это норм или медленно?

Аноним 22/09/23 Птн 14:07:41 № 496816 397

>>496815
Зависит от модели

Аноним 22/09/23 Птн 14:10:31 № 496818 398

>>496816
13b 4 бита 32групсайза

Аноним 22/09/23 Птн 14:12:46 № 496820 399

>>496818
Сойдёт, если терпеливый

Аноним 22/09/23 Птн 14:13:13 № 496821 400

>>496820
Ну а куда нам торопиться?

Аноним 22/09/23 Птн 15:02:40 № 496849 401

>>496820
>терпеливый
Там ответ за менее чем 10 секунд должен приходить. Совсем зажрались со своими облаками.
>>496815
Збс. На 70B люди 2 токенам в секунду радуются.

Аноним 22/09/23 Птн 15:04:26 № 496853 402

>>496821
Ночь ещё молода~

Аноним 22/09/23 Птн 15:50:58 № 496905 403

>>496849
Эх, влазила бы еще 70b в мою конфигурацию.

Аноним 22/09/23 Птн 17:06:18 № 497062 404

Как добавить лор при создании персонажа в таверне? Не прописывать же вручную? Как убедиться, что модель знает этот мир и сюжет, а этот, допустим, нет?

Аноним 22/09/23 Птн 18:03:42 № 497124 405

https://www.youtube.com/watch?v=OXWYmHqq1gA

Аноним 22/09/23 Птн 18:34:12 № 497153 406

А можно ли заюзать две видеокарты разных производителей? Есть 8 гиговая RX480, никак на нее ничего не накинуть?

Аноним 22/09/23 Птн 18:44:02 № 497158 407

>>497062
> сюжет, а этот, допустим, нет?
Она никакой мир не знает в том смысле в котором это было бы константой. Нейронка натурально перемножает случайные величины чтобы выдать тебе натурально случайный ответ в пределах заданных параметров и только. Ну а если не выёбываться - то очевидно спрашиваешь факты о интересующем мире интересующего персонажа и на глаз и вкус понимаешь, что она знает, а что нет. И используй силли таверну там есть лорбуки (хз просто есть ли оно в обычной таверне) которые действуют как база данных с определёнными данными - хоть заклинаниями, хоть инфой о мире.

Аноним 22/09/23 Птн 20:05:11 № 497245 408

>>497153
>А можно ли заюзать две видеокарты разных производителей?
Да, если это nVidia.

Аноним 22/09/23 Птн 20:35:25 № 497285 409

Аноны, а что лучше видяха, или серверный проц + восьмиканальная DDR5?

Аноним 22/09/23 Птн 20:42:11 № 497293 410

>>497285
Лучше H100.

Аноним 22/09/23 Птн 20:43:48 № 497295 411

>>497285
> серверный проц + восьмиканальная DDR5
Соснёшь с этим, лучше даже не пытайся. Купи две 3090 и закроешь все потребности в нейросетях.

Аноним 22/09/23 Птн 20:56:58 № 497306 412

cooking.webm 5808Кб, 1920x1080, 00:00:27

>>497293
>H100
Хули мелочиться, тогда уж лучше пирожки от самого Хуанга

Аноним 22/09/23 Птн 21:26:19 № 497345 413

>>497295
Три придётся, чтобы взять квант чуть пожирнее, да контекста отсыпать 16к, чтобы все в треде охуели.
>>497306
Ух, шишка в небеса.

Аноним 22/09/23 Птн 21:36:09 № 497362 414

>>497295
Кстати. Как соединять видюхи в риг? По ним чисто программно нагрузка распределяется?

Аноним 22/09/23 Птн 21:38:28 № 497366 415

>>497362
>По ним чисто программно нагрузка распределяется?
Da. Для интерференса нвлинк не нужен, достаточно хоть одной псины.

Аноним 22/09/23 Птн 21:59:13 № 497402 416

>>496849
> На 70B люди 2 токенам в секунду радуются.
Шо? Чему радоваться если не хватит терпения даже настроить. Юзабельность начинается с 7т/с со стримингом и околомгновенной обработкой контекста.
>>497153
В теории 2 амд, на практики 2+ нвидии, конкретные вендоры не важны.
>>497285
Видоекарта, 8 каналов по псп это что-то типа 3060
>>497345
> Три придётся, чтобы взять квант чуть пожирнее, да контекста отсыпать 16к
Жирнее по битности - да, а так с новой бывшей-лламой 16к влезает и в 48 даже без флеш-атеншн.

Аноним 22/09/23 Птн 22:10:17 № 497411 417

https://huggingface.co/TheBloke/Xwin-LM-13B-V0.1-GGUF
Моя новая любимая модель.
Сначала зашла модель Mythalion, после тестов с реддита (решил попробовать), и понравилась она больше MLewd, почему-то последний у меня тупил и лупился быстрее Мифалиона.
Однако, потом ради прикола попробовал Саманту, Синтию и Визард. Синтия на 13B как-то не зашла, но говорят 70B модель крайне годная.
Саманта и Визард выдали интереснее ответы. Мифалион разворачивал историю будто ты уже в эро фанфике, а Саманта с Визардом секс скорее видели как доп опцию, лучше понимали какие-то правила и выдавали нестандартные ответы. На этом фоне Мифалион уже не так впечатлил, но остался, ибо на нём кумить всё же лучше.
Пока сегодня не попробовал карточку с одной эльфийкой. Там секс упоминался в карточке скорее вскользь, поэтому она показывала свою цундерошность во всей красе и не спешила на контакт. В целом, мне это зашло, пока не стал замечать что чуть ли ни в каждом предложении она настойчиво интересовалась зачем я приехал на хату и чем я таким занимаюсь. При этом часто игноря половину ответа, если это не относилось к её вопросу напрямую. Как будто гнула свою линию.
И вот я скачал Xwin. И прямо ух ты, модель хорошо держит правила, обстановку, с разными персами разные штуки она замечательно отыгрывала, и тут лупов было намного меньше.

Я уже научился что в начале общения можно температуру поставить .6, а реп пенальти 1.1-1.2, потом по ходу приходится поднимать и свайпать больше. Но с Xwin этого было почти не надо. Рекомендую попробовать.

Аноним 22/09/23 Птн 22:56:48 № 497464 418

>>497402
> терпения даже настроить
А как настраивать? И какое железо под это нужно?

Аноним 22/09/23 Птн 22:59:38 № 497467 419

>>497464
>А как настраивать?
Крутить температуру и прочие настройки прочих семплеров.
>>497464
>И какое железо под это нужно?
В идеале 2х3090(4090). В реале можно и на 64 гигах DDR5 крутить, с символической помощью видяхи.

Аноним 22/09/23 Птн 23:12:06 № 497477 420

>>497411
>Сначала зашла модель Mythalion, после тестов с реддита (решил попробовать), и понравилась она больше MLewd,

Так это и понятно, все эти MLewd, ReMM и т.п. от Undi95 это ж просто смеси вслепую - смешать чего-то наобум, а вдруг получится. Среди этой горы смерженного говна, которым забит HF, только Mythalion и получился, причем случайно. Хотя эти авторы мерджей пишут в карточках некие псевдонаучные обоснования свой алхимии - это просто блаблабла. А Mythalion это пигма и этот единственный удачный мерж. Вообще чем меньше компонентов, тем более предсказуем результат смеси. Когда модель обучают хотя бы представляют что получат в итоге и что хотят получить в отличие от многокомпонентных смесей. Xwin как я понимаю, обученная модель, хотя в карточке ни описания датасета ни того как проводилось обучение... Тем не менее вот и результат, который вы сами наблюдали - лучше мешанины.

А чего мешанины так много - так это ж просто, я тоже могу намесить десяток за день пятью разными способами (используя подкачку на NVMe от 13b и меньше к примеру. Налепить франкенштейнов с непредсказуемым результатом... другое дело натрейнить модель будет посложнее. Даже вот лучше натрейнить лору по-моему лучше чем месить наугад, основываясь на дилетантских суждениях. Так что весьма скептически отношусь к смерженным моделям если там более двух компонентов не считая лору.

Аноним 22/09/23 Птн 23:18:41 № 497485 421

>>497477
Тем не менее xwin 70b обогнал в AlpacaEval GPT-4

Аноним 22/09/23 Птн 23:19:34 № 497486 422

>>497411
Вот эта интересна, не просто шизомикс с нулевыми тензорами, а файнтюн со своим подходом. Она именно для кума или общий рп хорош? И насколько понимает намеки/отсылки?
>>497464
Речь о формате промта и семплеров. В принципе ответы - рандом, на многих моделях, особенно в начале или на развилке, свайпы подряд могут сильно отличаться, нельзя делать выводы по одному неудачному если на него приходятся пять убергодных. Когда ждешь ответ по несколько минут - банально не будешь пытаться что-то подобное сделать, а выводы придется делать по короткому чатику, который мог просто оказаться неудачным. Здесь же и доля субъективизма больше, вместо общей оценки будет жопа полыхать от того что на выходе не тот результат, который хотел, даже если тот будет хорошим.
>>497467
> можно и на 64 гигах DDR5 крутить, с символической помощью видяхи
~2т/с, мазохизм
>>497477
> скептически отношусь к смерженным моделям если там более двух компонентов не считая лору.
Там еще проблема в том что чуть ли не половина компонентов замесов - сами по себе вшитые лоры. В итоге после смешения может пострадать немалая часть модели, из-за чего местами наступит шиза, но кое где внезапно полезет креатив. То и наблюдали изначально на huggin, а потом уже на мифах. Технику замеса действительно подняли и оно далеко не дно как первые версии, но дичь всеравно встречается.
> используя подкачку на NVMe
Зачем?
>>497485
> xwin 70b
Это не шизомикс, это оригинальный файнтюн, по их описанию офк.

Аноним 22/09/23 Птн 23:20:21 № 497488 423

>>497477
>только Mythalion и получился,
поправка Mythomax

Аноним 22/09/23 Птн 23:34:14 № 497519 424

>>497477
>Даже вот лучше натрейнить лору по-моему лучше чем месить наугад
Я правильно понимаю что Лора - это что-то вроде дополнительного слоя? А когда мешанина моделей, то там эти слои в такой кошмар превращаются, что на выходе что угодно может быть?
> Она именно для кума или общий рп хорош? И насколько понимает намеки/отсылки?
Я как раз кун с ~2т/с, поэтому не то что бы ГЛУБОКО изучил вопрос. Учитывая, что по описанию её продвигают просто как умную модель, думаю, она хороша и просто в РП, потому что, опять же, правила отыгрыша и особенности персонажей она выдерживала лучше.

Аноним 22/09/23 Птн 23:34:27 № 497520 425

>>497486
>> используя подкачку на NVMe
>Зачем?

Ну вот если помните были такие простейшие скрипты типа https://github.com/TehVenomm/LM_Transformers_BlockMerge где можно было послойно смешивать хоть в шахматном порядке хоть елочкой или лесенкой. Баловался тогда на первой ламе. Этот скрипт складывает каждую модель в память еще и в двойном размере бывает оперативки не хватало. Потом конечно наделали всяких револьвер, слерп, бакллама, но к тому моменту уже я утратил интерес к экспериментам со смешиванием. Лучше сосредотачиваться на качестве датасета для лоры например, чтобы с некоторой уверенностью получить то, что хочешь.

Аноним 22/09/23 Птн 23:36:24 № 497528 426

>>497486
>~2т/с, мазохизм
У меня много фетишей.

Аноним 22/09/23 Птн 23:39:36 № 497535 427

>>497285
12-канал вдвое ниже 4090
>>493418
8-канал — втрое, стало быть.

Итого: втрое медленнее, но неограниченно по объему.
Сильно медленно? Да нет, в общем норм скорость, весьма бодро.
А че по цене?
Ебать, ну хуй знает. Звучит так, будто лучше уж взять 4090 3-4 штуки.

>>497362
Слои раскидываются по видяхам, и обсчитываются последовательно, а между видяхами передаются состояния.
Все, никакой магии.

>>497486
> ~2т/с, мазохизм
Уверен? Может 1,1~1,5?
Даже с помощью видяхи 2 я прям не уверен.

>>497411
Пасиба, попробую!

Аноним 22/09/23 Птн 23:48:38 № 497546 428

>>497519
>Я правильно понимаю что Лора - это что-то вроде дополнительного слоя? А когда мешанина моделей, то там эти слои в такой кошмар превращаются, что на выходе что угодно может быть?

Это как бы "пред"-слои когда просто грузишь лору с моделью, когда объединяешь эти слои сливаются с моделью, не образуя дополнительные, иначе архитектура бы изменялась. Поэтому в идеале к каждой модели должна быть родная лора, это дает предсказуемый чистый результат, хотя обычно объединяют руководствуясь просто архитектурой, это тоже дает рузультат, иногда интересный, но уже он более отклоняется от цели так сказать. Хотя может как в худшую так и неожиданно в лучшую сторону. При смешении моделей особенно многократном в несколько этапов получается усредненная каша с большой вероятностью скорее с утратой хороших особенностей чем наоборот. Иногда такая смесь может и выдать чего-то интересное, но в целом скорее окажется похуже чем каждая из кучи исходных (при условии что то были модели сами по себе не смеси)

Аноним 22/09/23 Птн 23:55:32 № 497552 429

>>497535
> Уверен?
Зависит от семплера, кванта, разгона рам, проца, видюхи отключения e-ядер, двушка экспериментально получалась, по заявлениям у кого-то даже под 3 было. В любом случае это может сработать только если ты терпеливый как >>497528
> Итого: втрое медленнее, но неограниченно по объему.
Пока что скейл между псп рам и т/с так и не найден, все выводы по относительному сравнению "при прочих равных". Потому не стоит надеяться что подобный конфиг даст ~7 т/с на llamacpp потому что пара 4090 дает ~20 в exllama2
>>497546
> Это как бы "пред"-слои
Нет.
Лора - метод сжатия когда огромная матрица (веса) представляется в виде произведения двух матриц меньших размерностей, такой-то джипег для трансформерсов, только вместо фурье вот такое. В них (обычно) хранятся не сами веса а возмущения к основным, потому может применяться к разным базовым моделям. Если она одна и тренилась "правильно-хорошо" то все будет ок, но сжатие не проходит бесследно, настакивая несколько штук будет не просто смешивание как с полноценными файнтюнами моделей, а полезут поломки.

Аноним 23/09/23 Суб 00:01:25 № 497557 430

>>497477
> А Mythalion это пигма и этот единственный удачный мерж.
Ты бредишь. Сама Пигма - это максимально каловый датасет. Даже датасет сгенерированый жпт4 лучше. Пигма всегда серит в логике, пишет короткие ответы из-за односложных сообщений в датасете, ей нужно особое форматирование.

Аноним 23/09/23 Суб 00:10:58 № 497568 431

>>497552
>Нет.
Лора - метод сжатия когда огромная матрица (веса) представляется в виде произведения двух матриц меньших размерностей,

Это я знаю... две транспонированные матрицы, я ведь имел в виду не во время обучения, а когда загружаешь скажем в убабуге лору одновременно с моделью можно сказать как бы пред- или "боковые" слои. А так да, они содержат корректирующие веса. Это не полноценные слои. Совершенно согласен - лора на лору на лору... будет каша.

А вот кстати не так давно появился метод relora, я посмотрел статью о нем на архиве, хотя подробно не вникал, но заметил интересный график обучения scheduler похоже на косинус с резкими провалами до нуля и резкими же возвратами к кривой. Знаете что-нибудь об этом методе, какие там получаются результаты?

Аноним 23/09/23 Суб 00:19:24 № 497570 432

>>497557
>Ты бредишь. Сама Пигма - это максимально каловый датасет. Даже датасет сгенерированый жпт4 лучше. Пигма всегда серит в логике, пишет короткие ответы из-за односложных сообщений в датасете, ей нужно особое форматирование.

Под мержем я имел в виду Mythomax, о чем выше внес поправку. Спорить не буду, пигма - так себе модель, что только подчеркивает что она не смогла испортить Mythomax выродив Mythalion. Хотя опять же как я и говорил, Mythomax получился случайно получше на фоне остальных смесей просто по причине того что, как говорится, "в стране слепых и одноглазый - король"

Аноним 23/09/23 Суб 00:21:08 № 497571 433

>>497568
Ну, вообще методика ее применения - та еще тема, самое простое - возмутить загруженные веса и все, в памяти все та же модель, просто другая. Подгружать, держа в памяти дополнительно и обращаясь к ним - можно, но для ллм с их требованиями к памяти очень расточительно. А вот как это нормально положить на 4-х или менее (!) битный квант и при этом все не поломать - даже хз, надо почитать.
> relora, я посмотрел статью о нем на архиве
Можно линк?
Алсо не помню чтобы здесь лоры обучали, загрузить 13b в fp16 потребует более 24 гигов, нужна шара на несколько карточек в обучалке.
>>497570
> Mythalion
Хз чего с ней носитесь, по ощущениям та еще залупа, мифомакс только более странный если обращаться по альпака пресету, пигма - только более шизанутая если по пигмовскому формату. Может офк там нужно потанцевал раскрывать, реквестирую примеров если так.

Аноним 23/09/23 Суб 00:22:02 № 497572 434

>>497552
>Пока что скейл между псп рам и т/с так и не найден
Всмысли?

Аноним 23/09/23 Суб 00:24:36 № 497574 435

>>497572
Ну допустим есть ~700гбайт/с, сколько токенов хотябы на 13б можно получить?

Аноним 23/09/23 Суб 00:32:30 № 497579 436

>>497574
Если бы я знал, лол. Я тупой и всё забываю. А так 14.
Если меньше, значит, дело не только в объёме, но и задержках.

Аноним 23/09/23 Суб 00:42:24 № 497590 437

>>497411
Чето какая то шизофреническая хрень. Её там как то настраивать нужно, чтобы не скатывалась в еблю в первом же предложении игнорируя весь здравый смысл?

Аноним 23/09/23 Суб 00:46:03 № 497595 438

>>497571
>Можно линк?
https://arxiv.org/abs/2307.05695

>Алсо не помню чтобы здесь лоры обучали, загрузить 13b в fp16 потребует более 24 гигов, нужна шара на несколько карточек в обучалке

Можно загружать в 8 битах, на качество результата почти не повлияет. Ну на 13b локально я и не замахиваюсь, слишком долго и муторно. Да и чего там интересного неожиданного может быть на 13b? При хорошем датасете получится хороший результат. Интереснее маленькие модели, то что можно из них выжать и каков практический предел параметров ниже которого модель как ее не мучай останется тупицей. Сейчас вот много таких проектов, например TinyLLama 1.1b есть ламы и еще меньше, из старых опенлама на 3b, красная пижама тоже трешка, хотя это gptneoX, а совсем свежак phi-1.3b от макрософт.

Аноним 23/09/23 Суб 00:55:59 № 497606 439

>>497579
Это значение у той самой p40, скорее всего оно не будет достигнуто. У 3060 вроде вдвое меньше а столько она может а то и больше. В том и суть что как общий принцип или при сравнении близких работает а далее остальные факторы важнее.
>>497595
На качество генерации - ок, а на качество тренировки? Уже вкидывали видеогайд, надо пересмотреть, может все проще, но на квантах точно херня будет.
А с мелкими - их можно тренировать полноценно, лучше делать так чем лорой, если офк нет какой-то особой задачи.

Аноним 23/09/23 Суб 01:41:56 № 497625 440

>>497366
>>497535
Найс. Может быть накоплю на риг пож нейронки;) Yflt.cm jyb cnfyen gjkexit r njve dhtvtyb

Аноним 23/09/23 Суб 02:10:00 № 497630 441

>>497625
>Yflt.cm jyb cnfyen gjkexit r njve dhtvtyb
Ты контекст превысил.

Аноним 23/09/23 Суб 06:22:12 № 497714 442

>>497158
Про лорбуки, то я и не видел, что они на чубе лежат. Спасибо, буду знать! Правда интересующего меня (Stranger Things), все равно нет. Придется думать в направлении создавать самому и насколько это сложно и трудозатратно.

Аноним 23/09/23 Суб 07:38:37 № 497739 443

>>497606
>На качество генерации - ок, а на качество тренировки?
Если модель, то да, 8 бит не годятся, а вот с лорой можно загрузить модель в 8ми, а лору трейнить в 16ти
>А с мелкими - их можно тренировать полноценно, лучше делать так чем лорой, если офк нет какой-то особой задачи.
Это так, но интереснее вот такой подход: https://github.com/jondurbin/airoboros#lmoe

Аноним 23/09/23 Суб 07:52:35 № 497743 444

>>494951
> Для квантования нужно железо, что вместит исходную модель в фп16.
Это не так, я проверил. При пережатии оно обрабатывает отдельно каждый слой. Что подтверждается их словами о требованиях
> Roughly speaking, you'll need about 24 GB of VRAM to convert a 70B model, while 7B seems to require about 8 GB. Stay tuned for more details.

Аноним 23/09/23 Суб 09:19:34 № 497773 445

1.png 89Кб, 852x266

2.png 49Кб, 850x188

https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF
Топовая модель для кума. С небольшим шаманством с промптом получается практически идеально поддержать стиль речи персонажа на протяжении десятков постов. Насчет количества шизы не уверен. Wikitext perplexity улетел в небеса, но по ощущениям она не тупее 13b моделей.

Аноним 23/09/23 Суб 09:24:44 № 497774 446

Хочу лесбосцену, а мифомикс выдает мне десятистрочные описания природы в стиле Пришвина или Бианки.

Аноним 23/09/23 Суб 09:29:50 № 497775 447

>>497773
> Wikitext perplexity
Как померить?

Аноним 23/09/23 Суб 09:33:41 № 497776 448

>>497775
Для gguf моделей - качаешь llamacpp и используешь perplexity.exe. Не забудь отгрузить слоя на видеокарту и выставить 4096 контекст. Датасет можешь взять из убабуги. Можешь и через саму убабугу, но gguf модели придется грузить через llamacpp_hf, которая дико тормозная.

Аноним 23/09/23 Суб 09:53:51 № 497786 449

Вопрос про модели gptq. Их можно скачать в 4 bit и 8 bit. Exllama поддерживает только 4 bit. То есть выбор между скоростью эксламы и качеством, если использовать другой лоадер?

Аноним 23/09/23 Суб 10:53:40 № 497822 450

>>497590
>чтобы не скатывалась в еблю в первом же предложении игнорируя весь здравый смысл?
А разве есть такие?
Я в разных моделях пробовал даже первым предложением "Хочу нассать тебе на лицо" и всегда получал согласие.
Xwin, вроде, сама в еблю не ведёт.
Может в промте прописать что-то вроде "развивай сюжет медленно"

Аноним 23/09/23 Суб 11:49:43 № 497858 451

>>497552
Ну эт тоже верно, разные алгоритмы.
Но на 5 т/с рассчитывать можно, а это уже терпимая скорость. На грани.
Но все равно оверпрайс получается, кмк.

>>497571
7b на стиль или знание тематики вполне можно на 12-гиговой карточке обучить.
В случае с ллама2 это даже имеет маленький смысл.

>>497606
> какой-то особой задачи
Вот например бот-болталка для мморпг.
Натренить с нуля? У меня столько материала не найдется. Даже с учетом моего датасета диалогов с сервака, и всяких гайдов — будет критически мало. А датасеты диалогов с других серваков никто не даст (если тут сидят админы мотра — скиньте в дискор-канал опенкоры=). В итоге, тренить условные 30 мб текста — ну такое себе, кмк.
Норм лоры на 100-300 мб тренятся, насколько я помню.
Проще натренить лору, которая будет обладать знаниями, но непосредственно общаться как мифомакс какой-нибудь.

ЗЫ У меня хуйня получилась, когда обучал, она просила убить ее, как мне показалось… Видимо, не те параметры выставил. ¯\_(ツ)_/¯

Аноним 23/09/23 Суб 13:21:04 № 497933 452

>>497739
> но интереснее вот такой подход
Да, вот эта тема перспективна, а реализация элегантна. Буквально спросить базовую модель выбрать эксперта по описанию, а далее быстрым накатом поверх нее обработать реквест.
Единственное - сложности с длинным контекстом, когда в нем присутствует несколько тем и выбор единого "эксперта" не очевиден. Такой случай может быть решен только обработкой несколькими и осмысленным объединением их ответов, желательно еще с перекрестной оценкой.
Здесь только лора, самое то.
>>497743
Не может не радовать, надо попробовать.
>>497858
> Но на 5 т/с рассчитывать можно
Если контекст видюхой ускорять то есть шансы. С оверпрайсом согласен, имеет смысл брать если есть задачи кроме ллм, чисто под них кроме обмазывания бу-печками нет дешевых вариантов.
> Натренить с нуля?
Это без шансов в нормальном размере на консумерском железе, только на основе базовой, благо доступны.
> В итоге, тренить условные 30 мб текста
Здесь еще встает проблема языка, нормальной русскоязычной модели в малом размере нет, ружпт 13б который разве что. А так можно разбавить дженерал разговорами на общие темы, большая часть пиздежа в ммо чатах не об играх, лол.
> она просила убить ее
Ммм, надо было ерп запускать.

Аноним 23/09/23 Суб 13:38:08 № 497940 453

А выбор между разными model loader в убабуге как-то влияет на качество ответов модели? Или это чисто про скорость и что грузить, гпу или цпу.

Аноним 23/09/23 Суб 16:35:20 № 498054 454

Как сконвертить сетку в формате bin в safetensors?

Аноним 23/09/23 Суб 16:40:46 № 498064 455

>>497940
Прямое влияние - поддерживаемые ими семплеры, если будешь использовать hf версии то будут все. Косвенное - от формата (размера) кванта, чем больше данных сохранено тем лучше.

Аноним 23/09/23 Суб 17:12:16 № 498101 456

>>498054
import torch
from safetensors.torch import save_file

sd = torch.load('govno.bin')
save_file(sd, 'huita.safetensors')

Аноним 23/09/23 Суб 18:21:49 № 498219 457

>>498064
Почему тогда во всех сравнениях и обзорах годности моделей пишут только модель и в лучшем случае битность?

Аноним 23/09/23 Суб 18:35:01 № 498234 458

>>498219
Потому что сравнивают на одинаковых настройках.

Аноним 23/09/23 Суб 18:47:00 № 498250 459

>>498219
Потому что при использовании полноценных лоадеров на одинаковых битностях качественно результат будет таким же. Зачем указывать то что не влияет или влияет настолько слабо что на фоне рандома не отследить?

Аноним 23/09/23 Суб 18:59:35 № 498258 460

Сап анонам
Я полный ламер в локалках, только вкатываюсь
Можно ли запихать в гуглоколаб какую нить модельку? И если да, то как?
Обладатель лишь картой на 4 гига видеопамяти, а на памятью и процессором слишком долго выходит

Аноним 23/09/23 Суб 19:05:16 № 498264 461

Какое практическое применение вы находите данной нейросети?

Аноним 23/09/23 Суб 19:18:43 № 498281 462

>>498264
Онанизм и вопросы по программированию. Ой, два раза написал вопросы по программированию

Аноним 23/09/23 Суб 20:26:24 № 498356 463

>>498281
>>498264
Помимо ерп обычное рп тоже заебись. Это как текстовые квесты с бесконечным контентом. С хорошей моделью типо мифалиона всякое фентези наяривать одно удовольствие.

Аноним 23/09/23 Суб 20:51:30 № 498386 464

>>494332
>«подозрительный человек, видящий всюду заговоры»
Только это не заговоры, а объективная реальность. Не "за мной следят", а за всеми в автоматическом режиме с произвольным доступом к истории. Я себе выбрал гендер "радикальный шифропанк" и говорю, что ценю свои личные данные, паранойя для меня - это больше заговоры без логического обоснования.

>>494336
Спасибо за ссылки. Попробовал Airoboros, повторяется и забывает место действия, даже хуже стало.

>>494484
>Асик для параллельных математических операций!
Опять эти людишки не по назначению вещи используют.

>В последние лет 5 они дико деградировали из-за особенностей востребованности.
У меня 860 QVO на терабайт, 4 года назад брал за $140, пока самсунг еще не совсем скурвился, сейчас только HDD для хранилища докупаю, все устраивает.

>>496433
>>496537
Я использую llama.cpp main с CLBlast. Вспомнил, что память замедлил из-за плохого охлаждения пока водоблок жду, 1800 была. На 3600 18-22-22-42-68 5.7 токенов выдает с 4к контекстом и 6.5 с 512, поставил 2666.

Починил большие кэши в llama.cpp, в read_raw() заменил
std::size_t ret = std::fread(ptr, len, 1, fp); на
std::size_t ret = read(fileno(fp), ptr, len);
и проверку размера поправил, может, пригодится кому.

Аноним 23/09/23 Суб 22:28:42 № 498453 465

>>497933
> большая часть пиздежа в ммо чатах не об играх, лол
Логи сервера за 8 лет в моей голове, поверь — об игре как раз.
За жизнь трут чаще мимоходом в общем чате, в гильдийный и голосовых. В общем чате чаще за игру общаются.
Ну а гильдийные я в датасет не клал.

> Ммм, надо было ерп запускать.

>>498264
13Б на видяхе — просто пизжу за жизнь, иногда дает годные советы.
70Б — пишет код, составляет тексты, рефераты там, хер знает, я не себе ее поднимаю.

Аноним 23/09/23 Суб 22:40:11 № 498459 466

Я правильно понимаю, что увеличении контекста за счёт альфы ухудшает собственно качество контекста?

Аноним 23/09/23 Суб 23:55:24 № 498511 467

Открыл для себя эту хуйню: https://github.com/YellowRoseCx/koboldcpp-rocm
Теперь то что могло занимать секунд 50, занимает 9 секунд на llama-2-chat-13b 5_1

Аноним 24/09/23 Вск 00:22:33 № 498537 468

>>498511
А если бы ты купил nvidia...

Аноним 24/09/23 Вск 00:23:20 № 498538 469

>>498264
Пердолиться, кумить, опять пердолиться, качать новые модели, кумить, рпшить милоту, рпшить треш, рофлить, суммарайзить/парсить текст, сочинять его.
>>498386
> Опять эти людишки не по назначению вещи используют
Как раз по тому самому.
> 860 QVO на терабайт, 4 года назад
Чуть ли не последний из нормальных, они вроде даже не просаживались при записи? Если так то вершина сата, а то что продается сейчас при долгой записи будет медленнее харда.
Но все равно на сегодня такой объем и такая скорость - мало.
>>498459
Если все выставлено правильно то может в первых постах чуточку хуже, но на полном контексте даже лучше по перплексити, не говоря уже что большой контекст обрабатывает. Если увеличивать очень сильно то уже деградирует.
>>498511
Что за железо, сколько токенов?
> llama-2-chat-13b 5_1
Квант обнови, алсо почему именно эта модель?

Аноним 24/09/23 Вск 00:26:34 № 498544 470

>>498538
Можешь тогда посоветовать оптимальный размер увеличенного контекста? Если базовый 4096

Аноним 24/09/23 Вск 00:30:45 № 498548 471

>>498538
>Что за железо, сколько токенов?
RX6900XT i5-8600k RAM 32Gb
В плане в целом токенов или сколько по итогу в секунду? Общее значение выдаёт теперь в среднем 15-19 T/s.
>алсо почему именно эта модель?
Да фиг знает, что-то изначально взял обе лламы этого уровня, когда вторые вышли с ними и гоняю. Чат версия, кстати, при генерации через этот форк кобольда стал кучу смайликов и лишние вставки своего больного разума писать, поменял на просто лламу, такого больше не происходит.
>Квант обнови
Имеешь в виду теперь q6 или q8 взять, раз быстро стало?
>>498537
У меня свои религиозные соображения.

Аноним 24/09/23 Вск 00:33:05 № 498551 472

На gt220 palit пойдет?

Аноним 24/09/23 Вск 00:38:00 № 498557 473

>>498551
Если на процессоре запускать - пойдёт

Аноним 24/09/23 Вск 00:38:54 № 498559 474

>>498548
>RX6900XT
>У меня свои религиозные соображения.
Ну да, поэтому ты сосёшь на уровне 3060 за цену 4090. Окей.
>>498551
Нет, проще на проце запускать, впрочем, чую, там и проц из прошлого века.

Аноним 24/09/23 Вск 00:42:26 № 498563 475

>>498544
8к, альфа 2.7, офк потребуется больше оперативы, 12к на 5.5 вполне норм работает. Для самоуспокоения в начале чата можешь грузить 4096 с альфой 1, а когда наберешь под 4к - перезагрузить модель со следующим значением, офк при этом настройки длины в таверне нужно не забыть поправить.
>>498548
> RX6900XT
Ух бля, это же конкурент 3080(ти), ну офк для амудэ неплохо, но тебе уже отписали.
> через этот форк кобольда стал кучу смайликов и лишние вставки своего больного разума писать, поменял на просто лламу, такого больше не происходит.
Настройки токенов (бан, старт/стоп) проверь. А чего новые файнтюны не юзаешь?
> Имеешь в виду теперь q6 или q8 взять, раз быстро стало?
Можно и больше но хотябы чтобы была буква k (k_s/k_m), они лучше чем _0 _1.
>>498551
При очень большой удаче она немного ускорит обработку контекста, но даже это маловероятно.

Аноним 24/09/23 Вск 00:47:19 № 498565 476

>>498559
Прям на уровне 3060? Ну я её не по цене 4090 брал. А за чуть больше 40к.
>>498563
>А чего новые файнтюны не юзаешь?
Я их со старой лламой пробовал, не понял да и не понравились они мне, мне почему-то больше нравилось, что ллама выдавала голая. Так и не стал со второй лламой пробовать.
>хотябы чтобы была буква k (k_s/k_m), они лучше чем _0 _1
Есть таблицы сравнения по отличия в их качестве? Я просто в основном по числовому параметру видел.

Аноним 24/09/23 Вск 01:08:11 № 498578 477

>>498565
> А за чуть больше 40к
А мог бы 3090 взять
> Я их со старой лламой пробовал, не понял да и не понравились они мне
Ты сидел на стоковой первой лламе? Жестоко, она же совсем глупенькая была. Вторая офк лучше, но есть нейтральные файнтюны, которые значительно развивают ее способности не привнося шизы. Как вообще юзаешь ее, на что чат версия годна кроме странного QA?
> Есть таблицы сравнения по отличия в их качестве?
https://github.com/ggerganov/llama.cpp/pull/1684#issuecomment-1579252501
Только циферки перплексити. По качеству есть >>487016 → но к реализации есть ряд вопросов что ставят под сомнение возможные выводы.

Аноним 24/09/23 Вск 01:23:12 № 498585 478

>>498578
>А мог бы 3090 взять
Дешевле 60к на тот момент не видел их вроде.
>Как вообще юзаешь ее, на что чат версия годна кроме странного QA?
Да я её также как и обычную использовал, отличий не было, но как я выше написал в ролеплее хуйню прилепляло, поэтому с обычной запускать стал. Я её мало гонял, чат версию, так как я там просто пробовал другую модель одну запускать, а потом по ошибке чатовую воткнул, вместо обычной.
>Только циферки перплексити. По качеству есть
Спс.

Аноним 24/09/23 Вск 01:31:55 № 498587 479

>>498585
> Дешевле 60к на тот момент
Всего в 1.5 раза дороже но в разы быстрее и возможностей больше. Ну теперь что пенять, только на выбор следующей можешь влиять, врядли сейчас сорвешься менять ради ллм хотя стоит
> в ролеплее
Погоди, но голая ллама же в ролплее слаба. Да, лучше старых а то и новых пигм и из байаса только легкая (сильная в чат версии) соевость, но по сравнению с дообученными сильно проигрывает. Нюансы только в том что чат-ллама запустится вообще как угодно, а инстракт файнтюнам потребуется свой формат промта, без которого результат может быть даже хуже.
Лучше вместе с заменой кванта накачай и новых моделей, из 13б именно что впечатлил разве что визард 1.2, но, думаю, подскажут что хорошо рпшит без кума. Алсо синтию 13 тоже стоит затестить, у нее точно не будет повадок странных кумерских замесов. По качеству уже хз, та же тринашка спайсибороса не воспроизводит эффект от семидесятки, да и тут субъективно, пробовать надо.

Аноним 24/09/23 Вск 01:44:09 № 498590 480

Извиняюсь, была не самая удачная шутка про gt220. Вижу тут сидят серьезные дяди.

Есть информация, от проверенного источника, что возможно скоро будет обратное к деноминации, от чего цены взлетят на все. На данный момент хочу перевести все бабки в USDT, и пока подержать там. Как думаете, будет ли выгодней купить сейчас пару видях, или подождать возможного вышеупомянутого дейстивия, и покупать после?

Аноним 24/09/23 Вск 01:52:08 № 498595 481

>>498590
>перевести все бабки в USDT
Как раз сейчас всякие там США прижимают всякие там крипты и уж тем более заставляют выполнять сасанкции. Надёжный выбор как швейцарские ножи!
>>498590
>Как думаете, будет ли выгодней купить сейчас пару видях
Если денег девать некуда, то бери сейчас 4090.

Аноним 24/09/23 Вск 02:04:08 № 498608 482

>>498590
> будет ли выгодней купить сейчас пару видях
Как порпшить на семидесятке или другие использования - выгоднее 100%. Как инвестиция - уровня /б/, заебешься их продавать, плюс всеравно ниже магазинной.
> покупать после
Там что угодно может произойти вплоть до проблем с выводом и т.д. Если тебе что-то нужно, можешь купить сразу, а впереди мутные перспективы - покупай, при любом раскладе ты в выигрыше.

Аноним 24/09/23 Вск 07:54:26 № 498657 483

>>497629 →
> Формат под новый бэк, хз, надо тестировать, врядли он быстрее бывшей.
Бета какая-то? В угабуге не видать.
> Оно и без него меньше чем первая жрет, но получить такое хочется. Алсо раз очередная тема что лучше не на шинде - wsl же.
Всё равно оомится, не юзабельно короче всего с 24. У меня с всл какая-то проблема совместимости, он не хочет одновременно работать с другими вм, vmware там или vbox.
> Да не, хлебушек, просто force очень brute и много миллиардов
Жаль, хотел вот разобраться в параметрах семплинга подробнее. Например этот анон пишет >>495848
> Top P - отсечка токенов по вероятности, 0 - детерминизм, 1 - нет отсечки
а тут вот такое https://community.openai.com/t/a-better-explanation-of-top-p/2426/2
> The way I think about it is that top_p will choose only the top x% of possible values to return. So, a .8 top_p will gather all possible words that might come next but will choose from only the top 20%.
и это противоречит друг другу, либо я не допираю, как при выборке из например 20% нет отсечки, а при 100% детерминизм.
Я так понял, сейчас в мете всё ещё просто следовать параметрам митомакса, как в этом гайде? https://rentry.org/freellamas

Аноним 24/09/23 Вск 10:44:38 № 498712 484

>>498565
> А за чуть больше 40к.
Почти вдвое дороже 3060, ну такое, все равно.
3060 дает 16-20 токенов/сек, это правда.

>>498585
Ну, за 45к-50к точно можно было взять. За 40к уже авито, я полагаю.

>>498590
Либерал, либерал!
Покекал, канеш.
Ну смотри, доллар был по 55 — никто ниче не покупал. Доллар стал по 95 — сразу отовариваться? Братан, уже опоздал.
Как я говорил ранее — если ты ничего не купишь, то есть 50% шанс, что ты не обосрешься. А если купишь — то тут 100% шанс, что обосрался с таким-то курсом. =)
Не-не, я не экономист, я слушаю чужие советы и поднимаю на обмене бабло. Сейчас советов не слышал, поэтому сказать ничего не могу.
Но и твои слухи очень странные, не слышал такого и не совсем в курсе, к чему бы это. Если веришь источникам — конечно меняй. Тока потом не к нам иди жаловаться — а сразу к проверенному источнику по ебалу давать, окда? Я без иронии, насчет «веришь — бери».
Вообще, лучше сделать так:
1. Промониторить рынок железа за последний год по категориям.
2. Выбрать категории товаров, которые находятся ближе к минимуму.
3. Узнать, где они производятся, и какая тенденция по стоимости может быть (будет ли бурный рост, или же это местное производство).
4. Закупиться именно тем, что сейчас на минимуме, а бурный рост теоретически возможен.

Ну или как-то так.
Можешь еще набрать видях и майнить — уровень здравомыслия приблизительно такой же.
Можешь набрать железа и сдавать хостинг в аренду.
Можешь набрать железа и замутить нейростартап.

Типа, с моей точки зрения, идеи очень сильно так себе, но нельзя отказать им в том, что иногда они реально работают. =)

Аноним 24/09/23 Вск 10:49:45 № 498715 485

>>491640
Как к таверне прикрутить еще больше эмоций?
How do I get more expression options?

By default we use a classification model with 6 options nateraw/bert-base-uncased-emotion

There is also a model with 28 options: : joeddav/distilbert-base-uncased-go-emotions-student

To use this model you need to change your Extras command line to include the following argument (with a space before and after):

--classification-model=joeddav/distilbert-base-uncased-go-emotions-student
А куда кидать собственно скачанный *.bin отсюда joeddav/distilbert-base-uncased-go-emotions-student?

Аноним 24/09/23 Вск 13:39:04 № 498766 486

1685611008326.png 108Кб, 917x346

>>498657
> В угабуге не видать.
Реквест висит, со временем сделают, а может и в экслламе поддержку добавят. Сравнение с exl2 бы увидеть, так вообще более качественной чем gptq в том же размере.
> Всё равно оомится
Так оно собирается под wsl? Интересно сравнение сколько будет выдавать по скорости на тех же тринашках и насколько изменится жор врам. Тестировать можно на 8битном кванте.
> хотел вот разобраться в параметрах семплинга подробнее
Ну ты вопрошай что нужно
> а тут вот такое
Здесь ключевое
> The way I think about it
Алгоритм top_p хорошо описан. В начале он выстраивает токены по вероятности, после запускается цикл их последовательного добавления в область рассмотрения, пока суммарная вероятность добавленных не будет больше равна выставленному значению. Если стоит 0 - все оборвется после добавления одного самого вероятного токена (примерно тот же результат будет и при низких значениях типа 0.1-0.2, потому не стоит выставлять такое а потом удивляться что в свайпах только несколько слов отличаются). Если стоит, например, 0.5 то будут добавлены токены с вероятностью типа 0.33, 0.15, 0.09 а остальные отсеяны. Если единица - будут добавлены все что есть (а по факту семплер просто будет пропущен).
Никакого выбора "из остатка" там нет, это понятие даже не применимо, потому что распределения вероятности токенов могут варьироваться очень широко.
> в мете всё ещё просто следовать параметрам
По ссылке вполне норм, что семплеры (вариация simple-1, многие почему-то пропущены, лучше их сохранить, а по микростату хз), что промт формат (тут можно подрезать энгейджинг и прочее если стиль выдачи не нравится). Разве что по именам надо посмотреть, но скорее всего норм.
Но вообще это от модели зависит, для трененных по формату альпаки и около того будет хорошо. Как-то работать будет на всех, но на викунья/визард/пигма-образных может не раскрыть весь потанцевал.

Аноним 24/09/23 Вск 13:58:06 № 498776 487

>>498766
> В начале он выстраивает токены по вероятности, после запускается цикл их последовательного добавления в область рассмотрения, пока суммарная вероятность добавленных не будет больше равна выставленному значению.
Пиздец шиза у тебя в голове. Там по факту просто софтмакс с отсечением стоит.

Аноним 24/09/23 Вск 14:02:11 № 498780 488

>>498776
Не, это шиза в твоей голове заставляет агриться на разжеванные подробно объяснения, при этом с ними соглашаясь.

Аноним 24/09/23 Вск 14:10:06 № 498784 489

>>498780
> с ними соглашаясь
Софтмакс не так работает. В выхлопе модели вероятности не нормализованы.

Аноним 24/09/23 Вск 14:15:19 № 498785 490

>>498784
Опиши подробнее тогда, в чем принципиальные отличия фактического исполнения от описания алгоритма.

Аноним 24/09/23 Вск 15:16:17 № 498822 491

Если во время генерации ответа у меня загружается проц, значит я дохуя слоев выгрузил на видеокарту и все утекло в оперативу?

Аноним 24/09/23 Вск 15:44:40 № 498843 492

>>498822
Все слои выгрузил? Слои, оставшиеся на проце, считаются на проце, что очевидно.
Смотри по скорости, начни с небольшого числа слоёв и полного контекста, и добавляй понемногу. Заметишь тормоза.

Аноним 24/09/23 Вск 16:10:53 № 498874 493

>>498822
Нет, нагрузка на проц всегда будет, пусть и небольшая. Когда пойдет превышание врам с выгрузкой - произойдет наоборот падение нагрузок и снижение тдп, проц не начнет считать выгруженное а оно просто будет гоняться по шине и также обсчитываться гпу, только с задержками.
У тебя вероятно, пошло превышение, но тот же кобольд в начале резервирует дохуя памяти которую не использует, и это вот так как у тебя отображается в диспетчере. Пробуй экспериментально и мониторь другим софтом.

Аноним 24/09/23 Вск 16:14:43 № 498884 494

>>498874
>>498843
Я выгружаю сейчас 36 слоев и бывает, что кобольд тупо вылетает. Из-за того что видеопамяти не хватает?

Аноним 24/09/23 Вск 16:52:37 № 498918 495

>>498884
Так запускай кобольд из консоли, хоть увидишь, из-за чего вылет.

Аноним 24/09/23 Вск 19:07:27 № 499040 496

>>497411
Лол, там уже мердж млевда и ксвина подъехал:
https://huggingface.co/TheBloke/MXLewdMini-L2-13B-GGUF

Аноним 24/09/23 Вск 19:33:24 № 499079 497

>>499040
А в нём есть смысл?

Аноним 24/09/23 Вск 20:11:18 № 499100 498

>>499040
Работа уровня пикрила?

Аноним 24/09/23 Вск 20:22:55 № 499112 499

Похуй, катимся на 499 посте.

>>499110 (OP)

ПЕРЕКАТ
ПЕРЕКАТ
ПЕРЕКАТ

>>499110 (OP)