/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №143

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №143 /llama/ Аноним 01/07/25 Втр 01:19:14 № 1260769 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 505Кб, 1718x2292

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1257129 (OP)
>>1253596 (OP)

Аноним 01/07/25 Втр 01:20:23 № 1260770 2

Тут дохуя сеток целое новое семейство оказывается вышло новых. Ребята, тестим:
https://www.reddit.com/r/LocalLLaMA/comments/1lnu4zl/baidu_releases_ernie_45_models_on_huggingface/

Аноним 01/07/25 Втр 01:27:10 № 1260773 3

Performace of E[...].png 463Кб, 3902x4066

Performance of [...].png 279Кб, 3012x3758

Performance of [...].png 251Кб, 3348x3758

Performance of [...].png 180Кб, 2700x2876

>>1260770
Вот тесты-нетесты если что.

Аноним 01/07/25 Втр 01:33:32 № 1260775 4

>>1260773
Хуйма какаято

Аноним 01/07/25 Втр 01:33:39 № 1260776 5

>>1260757 →
>>1260770
Слюни потекли, когда там уже кванты
>>1260765 →
На самом деле занимаются, вон тот же анончик свои пресеты выкладывает. Но основных причин невысокой популярности две:
1 В таверне под промптоформирование для локалок старый интерфейс инстракта и лорбук, вместо украшенного поделенного на каштомные блоки интерфейса для корпов.
2 Без анального цирка на современных корпах нормально непорпшишь. Срать жб, извращаться с кучей (бесполезных) блоков, не забывать включать блок "нсфв" когда захотелось поебаться - вынужденная мера и единственный способ хоть как-то управлять сеткой.

В целом, сам интерфейс по функционалу повторяет уже имеющееся, просто сделан в виде отдельных блочков, которые повторяют содержимое Story String. Можешь смело брать и переносить заготовки корпов туда, разобравшись в стандартных обозначениях ({{char}}, {{stotry}}, {{persona}}, ...) Как уже писалось, даже простое обрамление с микроразметкой и доп комментариями там может дать буст на некоторых моделях. С локалками в большинстве используется текст комплишн вместо чаткомплишна, что открывает огромные возможности для чего угодно, включая полноценный префилл и продолжение постов, отключенные в корпах.
Блоки статов и прочее - через лорбук с инжектом в нужную часть, или другие опции, те же авторские заметки. Все сделать можно, просто в другом месте и менее наглядно, особенно для новичка. Можешь глянуть в более продвинутые штуки типа костыля на степсинкинг, там хоть днд кости можно сделать с честным рандомом.

Аноним 01/07/25 Втр 01:34:05 № 1260777 6

>>1260770
Я правильно пынимаю, что 424B это 300B c добавленными 124B для вижена? Или же если юзать 424B чисто как текстовую сеть, то она все равно выебет 300B?

Аноним 01/07/25 Втр 01:47:26 № 1260780 7

>>1260776
>Блоки статов и прочее - через лорбук с инжектом в нужную часть
Да, точно, так можно сделать. Эх, надо бы потом заморочиться и попробовать какой-нибудь из пресетов переделать для тексткомплишена через лорбук. Вдруг тот же лардж можно хоть немного до гемини разогнать. Хотя тут вон эрни завезли, вдруг круче ларджа окажется. Вот как приеду из отпуска - буду устанавливать все нейросети! А то уже руки чешутся попердолиться да покумить на родном железе.

Аноним 01/07/25 Втр 01:56:54 № 1260786 8

>>1260780
Просто заметки без претензий на истину - лардж хорошо разгоняется мультизапросом и тем же доп синкингом. Он крайне умен и многое может, но на фоне той же жеминьки в исходном виде выглядит вяло потому что старый. Просто дает ответ на запрос и ничего больше, тогда как все новые модели как павлин распушают хвост и пытаются перед тобой чуть ли не танцевать, крича какие они молодцы. Но если запрос более комплексный то и ответ хороший, к тому же на контексте он отлично себя показывает и понимает между строк что мелочи и всяким чмоням с дипсиками не снилось, и может в хорошее письмо. Главное не натаскивай слишком уж много инструкций и противоречивых указаний, иначе станет отвечать коротко и уныло.

Аноним 01/07/25 Втр 02:18:30 № 1260801 9

image.png 51Кб, 1004x267

Для амд + линь можно крутить павер кап через /sys/class/drm/cardX/device/hwmon/hwmon0/power1_cap

Аноним 01/07/25 Втр 06:13:32 № 1260839 10

>>1260801
Оно вроде при перезапуске сбрасывается.

Аноним 01/07/25 Втр 08:12:20 № 1260858 11

>>1260770
>Тут дохуя сеток целое новое семейство оказывается вышло новых. Ребята, тестим:
У меня во втором кванте 300В должна влезть. Ждём кванты от Анслота. Эксперты по 47В, так-так.

Аноним 01/07/25 Втр 08:35:16 № 1260865 12

Челы, кто-нить создавал свои датасеты? Хочу попробовать зафайнтюнить небольшую модельку, но не вдупляю с какой стороны подобраться. Ну положим есть:

1. Первоисточник, который я готов расчленить как угодно. Пиздеж от лица ГГ (монологи и диалоги) и других персонажей, среди которых тот, манера речи которого и знания которого будут затюнены в бота.
2. Wiki-статьи, где более подробно разбирается лор и прочая залупа.
3. Прочие данные. Моя писанина, дополняющая это дерьмо. Минимум по сравнению с 1 и 2.

Что мне непонятно:
1. Какую модель под это взять для 16GB VRAM и альтернативно - для 32GB (не уверен, можно ли тренировать AI на двух видюхах?), обе карточки AMD мусор - 6800 и 9070.
2. Где почитать статей на тему создания датасетов и файнтюна. Именно от знающих людей, не от ботов пишущих про самих себя.

---

Общие представления у меня есть, но хотелось бы взяться за работу, зная, что я не обосрусь фундаментально на самом базовом уровне типа формата датасета под конкретную модель.

Аноним 01/07/25 Втр 09:13:27 № 1260885 13

Мда, GLM в 3м кванте это груздь-доска, обратно на Синтвейв.

>>1260865
>зафайнтюнить
Для файнтюна надо МИНИМУМ вчетверо больше VRAM чем для Q8 инфиренса, и скорее всего рига у тебя нет =))
Разве какую-нибудь мелочь в 3-4Б.
Датасеты можно прямо на обниморде посмотреть.
Но в целом там ппц всё заморочно, как с картинками не прокатит.

>>1260765 →
>что в таверне для текст комплишена нельзя делать такие пресеты
Может и можно, не задумывался, но в любом случае это вызовет пересчёт контекста что может быть ДОЛГО.

Аноним 01/07/25 Втр 09:17:31 № 1260886 14

>>1260885
>Разве какую-нибудь мелочь в 3-4Б.
Ну так это тоже полезный опыт.
>Датасеты можно прямо на обниморде посмотреть.
Точно. Что-то я тупанул.

Аноним 01/07/25 Втр 09:21:35 № 1260888 15

>>1260770
А какого хуя.avi

Почему идет 28b а потом- хуяк, хуяк, и 100+.
Где мои 50b ? Пидоры.

Аноним 01/07/25 Втр 10:01:08 № 1260898 16

>>1260888
>Почему идет 28b а потом- хуяк, хуяк, и 100+.
Для смартфона=>для потребительской карты=>для ригадля маньяковдля себя. (По сути 28В вообще чисто демонстрационная модель, так думаю)

Аноним 01/07/25 Втр 10:06:44 № 1260900 17

>>1260898
Но это же моэ, кавааай - все дела.
Для потребителя как раз и подойдет что то больше 30 но меньше 70ч

Аноним 01/07/25 Втр 10:09:45 № 1260903 18

asus-tuf-geforc[...].jpg 117Кб, 1000x1000

На 12 гб все-таки очень тяжело живется.
Надо признать этот факт и перестать коупить.

Поэтому с сегодняшнего дня начинаю челлендж - до конца года собрать деньги на 3090. Тем более, как раз удачный день для начала - ровно полгода впереди. Планирую откладывать по 400 рублей в день, всего в итоге должно выйти чуть больше 70000, именно столько на авито стоит б/у 3080 от асуса, которую я хочу.

Удачи мне продержаться до конца всего пути.

Аноним 01/07/25 Втр 10:11:30 № 1260906 19

>>1260903
>б/у 3080
3090

Аноним 01/07/25 Втр 10:27:37 № 1260919 20

>>1260903
>>1260906
Чел ты отбитый совсем что ли, скоро 5080 Super с 24гб высрут.

Аноним 01/07/25 Втр 10:35:22 № 1260923 21

>>1260903
Удачи! Счастливой покупки некрокарточки!

Аноним 01/07/25 Втр 10:57:16 № 1260934 22

>>1260903
Проблема аппетитов. Я вот сижу на 8 гб и гоняю 12b модели, вроде ок, но хочется карту на 12 гб взять. Меня на самом деле в основном устраивают 12b, просто они очень хуёво читают большие карточки и лорбуки. Я например физичесски не могу протестить большие модели и посмотреть насколько сильно отличии в написание текста между моделями поменьше, но вот видимо слава богу я не знаю об этом. Так же застал времена когда 8b модели еле пердели на 8гб картах, наверное поэтому и радуюсь нынешним 12b.

Аноним 01/07/25 Втр 11:17:15 № 1260943 23

>>1260919
Это для мажоров, а я нищий с зп 40к.

Аноним 01/07/25 Втр 11:20:16 № 1260945 24

>>1260943
анончик, а не думал тогда о mi50 на 32гб? она в районе 40 и выйдет, неплохая штука

Аноним 01/07/25 Втр 11:24:45 № 1260947 25

>>1260943
Ну и в чем логика всирать свои гроши на то, что уже устарело? Тебе наоборот надо копить на хорошее.
Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб с ворвешься в мир йоба-моделей с хорошей видимокартой.
Сейчас есть смысл снюхивать AI-помои только если ты сам маня-разработчик и тебе критически важно не отстать. А вот потреблядям лучше дать газку назад и окунуться в другие хобби, пока вся эта параша не обретёт вменяемый вид.

Аноним 01/07/25 Втр 11:38:11 № 1260952 26

>>1260945
> она в районе 40 и выйдет
Меньше 15 даже если всё сложить и везти её одну

Аноним 01/07/25 Втр 11:50:30 № 1260953 27

>>1260952
Ну да, а еще линукс накатывать, пердолиться, и все это ради рабочей темпы 100 градусов по цельсию и 5т/с на 32b моделях

Аноним 01/07/25 Втр 11:54:30 № 1260954 28

>>1260903
>Удачи мне продержаться до конца всего пути.
Удачи! Мистраль 3.2 в 24гб входит идеально, 6 квант и 32к неквантованного кэша. Стоит того. К тому же к концу срока могут появиться более интересные предложения с таким же количеством ВРАМ.

Аноним 01/07/25 Втр 11:57:14 № 1260955 29

>>1260952
ты с таобао заказывал?

Аноним 01/07/25 Втр 12:37:55 № 1260973 30

>>1260955
Прошлый тред. Если коротко - да

>>1260953
Одну попробую разобрать и термуху перемазать, но нужно в начале стрессы погонять

Аноним 01/07/25 Втр 12:50:56 № 1260981 31

https://pixeldrain.com/u/n7JDy4Mx
Пресет для magnum-diamond. Семплеры для русика онли подобраны. Удивительно хорошо, думаю я переезжаю с синтии на постоянку на этот алмаз, лучше сохраняет логику и детали на русском языке. Думаю, на англе не хуже будет.
Сама модель:https://huggingface.co/Doctor-Shotgun/MS3.2-24B-Magnum-Diamond
Спасибо анону, который ее тут вкинул.

Аноним 01/07/25 Втр 12:54:17 № 1260983 32

>>1260981
А у меня вопрос. ВОПРОСИЩЕ. ВОПРОШЕНЦИЯ.
Зачем использовать тюн мистрали, когда есть сама мистраль ?
Я потыкал 3.2 - это сама по себе былинная победа, не надо его тюнить. Хи из пиздат эз из.

Аноним 01/07/25 Втр 12:56:32 № 1260986 33

>>1260981
Спасибо.

>>1260983
MS3.2 Харош, очень харош, но мб челу нужен именно кум с сюжетаом, а не сюжет с кумом. Магнум всё-таки смещает акценты.

Аноним 01/07/25 Втр 13:00:14 № 1260989 34

>>1260983
Хз, мне магнум в душу запал сам по себе (мне кажется он хорошо следует инструкциям, следит за промптом), также обожаю мистральки, а тут их сочетание.
>>1260986
Ты попробуй сначала, мб опять обосрусь скину недопиленные сэмплеры. Хотя тут я с тремя карточками перед этим попробовал в овер 20 сообщений, обычно тогда у меня по пизде все шло.
Акценты реально смещены и я больше по кум рп именно, тут соблюден прям баланс хороший как по мне.

Аноним 01/07/25 Втр 13:00:42 № 1260990 35

>>1260973

Аноним 01/07/25 Втр 13:07:41 № 1260996 36

>>1260989
У меня новый мистраль норм работает на почти нейтральных настройках. Темпа 0.8 - 1.5, мин-п 0.02 - 0.05 для англ, можно поднять до 0.1 для ру. XTC 0.1 / 0.1 для большего разнообразия свайпов, но отключить если кажется что шизит, особенно на ру.

Аноним 01/07/25 Втр 13:08:55 № 1260999 37

>>1260996
>Темпа 0.8 - 1.5
Но при этом сами лягушатники пишут про 0.15.
Huh ?

Аноним 01/07/25 Втр 13:10:17 № 1261001 38

>>1260999
хз, это видимо для ассистента, например я перевожу нейронкой в скрипте, и там вообще темпа 0.0 стоит, для рп такая низкая не нужна

Аноним 01/07/25 Втр 13:23:19 № 1261012 39

>>1260865
Общая парадигма датасета для ллм: серия сообщений по ролям, где от лица юзера даются запросы или его посты, а от сети ответы или посты персонажа/гма/..., или пары инструкция - большой ответ на эту инструкцию.
Как запарсить в такой формат твои источники уже думай, можно привлечь саму ллм для обработки.
> 16GB VRAM и альтернативно - для 32GB
1б, 2-3б для второго варианта максимум влезет. Остальное уже peft с кучей компромиссов.
> можно ли тренировать AI на двух видюхах?
Объединить для деления памяти - в целом да, но как правило объединяют только одинаковые а не разного калибра.
> AMD мусор
Без шансов.
>>1260885
> это вызовет пересчёт контекста
С какого перепугу? Вызовет только если у тебя в самом начале рандомайзер, который меняется от поста к посту.
> может быть ДОЛГО
Только у бедолаг.

Аноним 01/07/25 Втр 13:28:13 № 1261017 40

>>1261012
А что насчет лор как есть в sd? Просто я послушиваю книги озона и уже давно мысль есть его стиль повествования внести в нейронку. Просто выкачать в виде аудио его книжки (там часов 200 набежит), перевести stt и начать бумбокс.

Аноним 01/07/25 Втр 13:33:15 № 1261022 41

>>1261017
>лор
>>1261012
>peft с кучей компромиссов

Ну, и лоры для текстовых не работаю так как для картиночных, так как параметров и связей много больше. С тем же подходом что и к картиночным, можно надрочить только бота-автоответчика.

Аноним 01/07/25 Втр 13:36:44 № 1261027 42

>>1261012
Когда я задавал похожий вопрос дипсреньку, тот что-то про LORA кукарекал. Это совсем дерьмо? Оно просто упоминало это, кукарекая как можно и 8B зафайнтюнить. Алсо про амд тоже странная заметка, учитывая то, что гуглятся человеческие отзывы о пердолинге с файнтюнами на красных карточках.

Аноним 01/07/25 Втр 13:37:54 № 1261029 43

>>1261022
> можно надрочить только бота-автоответчика.
м-магнум?

Аноним 01/07/25 Втр 13:41:23 № 1261035 44

>>1260888
Поддвачну, сейчас наблюдается серьезный дефицит средне-больших размеров.
>>1260903
Удачи, анончик.
>>1260919
По цене 4090, если очень повезет то по цене до дикого подорожания.
>>1260947
> Забудь про AI хрень 3-4 годика, дождись вообще гпу с 32гб
Святая наивность, при хорошем сценарии там будут в ходу уже 64+гб карточки в количестве нескольких в ригах, при плохом - мало что поменяется и 32гига останутся дорогими, также как 24 сохранят актуальность. И главное - все эти 4 года будет сидеть и ждунствовать грустить, а не довольно урчать эксплуатируя.
То же самое уже наблюдалось в гей_минге и прочем-прочем, но бедолаги необучаемы.

Аноним 01/07/25 Втр 13:45:11 № 1261042 45

>>1261017
Главная и основная проблема - лору для текстовых нельзя разбивать на части, как в случае со SD. Поэтому для обучения даже 12b, тебе нужен хоппер, лол.
Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.

Аноним 01/07/25 Втр 13:48:54 № 1261044 46

>>1261029
>м-магнум
У магнума вроде именно тюн а не qLora

Аноним 01/07/25 Втр 13:48:56 № 1261045 47

Локальщики, вопрос по промтингу. Какой лучше подход использовать, когда прописываешь системную инструкцию? Лучше указывать, что локалка это рассказчик, или напрямую, что локалка это персонаж? Мне хочется, чтобы модель не просто описывала действия и ощущения, но еще и энваермент и всё прочее. Но если попросить локаль быть наративщиком, то она чаще начинает писать за меня, а если попросить быть персонажем, то она занимается только персонажем и чаще игнорирует остальную информацию, касающуюся, например, лора.

Аноним 01/07/25 Втр 13:50:35 № 1261047 48

>>1261044
это было шутка, анончик. про кумовство магнум-чан (я не против, магнум-няша)
но тюн магнум-даймонд действительно натренирован через lora: https://huggingface.co/Doctor-Shotgun/MS3.2-24B-Magnum-Diamond

Аноним 01/07/25 Втр 13:51:13 № 1261048 49

>>1261045
Разный. Я неиронично прибегаю к гопоте и прошу составить промт под конкретные хотелки, а потом ручками. Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Просто помни что корпосетки очень, очень, очень, ОЧЕНЬ БЛЯТЬ, цензурированны.

Аноним 01/07/25 Втр 13:51:32 № 1261049 50

>>1261017
Peft и есть лоры. Но здесь все гораздо сложнее чем с картинками. В тех можно без проблем натянуть модель на глобус чтобы она генерировала только конкретный объект, 95% лор так и делают. Здесь же нужно аккуратно добавить знания не разрушая все остальное, что сильно усложняет процесс тренировки и повышает требования.
В целом, стиль - самое простое из подобного и тут лора как раз сработает лучше всего, но все равно придется накапливать нормальный датасет и стараться чтобы оно не стало просто повторять слоп из тех книжек по поводу и без.
>>1261027
Это не дерьмо, это метод со своими компромиссами. Щитмиксы мистраля - почти все это лишь вмердженные лоры а то и вообще qlora, потому и такая залупа лоботомированная.
>>1261042
> лору для текстовых нельзя разбивать на части, как в случае со SD
Что?
> Потому что каждый слой умножается на два, чтобы быть сохраненным в начальном и конечном положениях.
Что?
> То есть, тебе нужно в одной карточке держать всю модель x2 и это без учета состояний. Что вообще x4-6.
В целом посыл туда.
Память на полные веса + память на обучаемые веса (если файнтюн то 1 и второе одно и то же, если лора то веса лоры), память на состояния оптимайзера (x1-x4 от веса обучаемых параметров), память на рабочий контекст с учетом батча. В десктопных видеокартах фейл начинается уже на первом этапе.

Аноним 01/07/25 Втр 13:51:38 № 1261051 51

>>1261035
>То же самое уже наблюдалось в гей_минге
Ну благо для гейминга 12ГБ была и остаётся тем что хватает на всё.
Ну, кроме InZoi.

Аноним 01/07/25 Втр 13:52:44 № 1261052 52

>>1261045
Индивидуально от модели зависит. Многие хуево следуют инструкциям. Ты можешь накатать длинную залупу и из нее лишь половина будет учтена при исполнении задачи, причем каждый раз это окно внимания будет сдвигаться и модель будет проебывать новую часть инструкций с каждым инпутом промпта. Сталкивался с такой хуйней, пришел к выводу не юзать длинные промпты вообще.

^ это если что про мелкие 8B - 30B, насчет 70B не уверен (думаю та же залупа), а вот у супер-больших с этим может быть получше.

Аноним 01/07/25 Втр 13:53:56 № 1261055 53

image.png 5Кб, 357x20

image.png 86Кб, 1241x252

Чот у меня llamка не реагирует на то что в настройках таверны у меня стоит контекст в 16к токенов и обрабатывает все равно ток 4к (из 8к контекста). Это нормальное поведение или надо что-то менять? Самому ток задавать контекст заранее при запуске модели?

Аноним 01/07/25 Втр 13:55:39 № 1261056 54

>>1261049
> Что?
Это я про «активации» (я до сих пор не понимаю, почему они так называются)

Аноним 01/07/25 Втр 13:55:58 № 1261057 55

>>1261055
>Самому ток задавать контекст заранее при запуске модели

Аноним 01/07/25 Втр 13:56:17 № 1261060 56

>>1261055
>Самому ток задавать контекст заранее при запуске модели?
Да, количество контекста определяется бэкендом, а не фронтендом.

Аноним 01/07/25 Втр 13:58:31 № 1261061 57

>>1261057
>>1261060
Так, а нахуя тогда мне дают ползунок дрыгать в таверне? Или это ограничение сколько он будет на бек из чата отправлять? Наверное сам и ответил на свой вопрос, спасибо анонцы

Аноним 01/07/25 Втр 13:59:26 № 1261063 58

>>1261048
>Потому что выяснилось, вы блять не поверите, каждой нейронке свой промтик.
Это понятно, но общие правила действуют для всех. И именно эти общие правила меня интересуют. Конкретные фетиши и квирки я уже потом смогу прописать, но общий вектор хочется задать один раз и для всех моделей.

>>1261052
>модель будет проебывать новую часть инструкций с каждым инпутом промпта
Ну так по мере заполнения чата у нее начинает появляться больше примеров и необходимость в мейн промте постепенно начинает пропадать. Главное чтобы первый десяток был составлен так, как нужно тебе, и потом модель это подхватит.

Аноним 01/07/25 Втр 13:59:53 № 1261064 59

>>1261061
А хороший вопрос так то, лол. Просто прими это как данность. Может это для Api нужно, хуй его знает.

Аноним 01/07/25 Втр 13:59:54 № 1261065 60

>>1261061
>нахуя
это для апи, асиги тоже в таверне сидят

Аноним 01/07/25 Втр 14:00:07 № 1261066 61

>>1261061
Да, ты сам ответил на свой вопрос.

Аноним 01/07/25 Втр 14:01:27 № 1261068 62

>>1261051
> 12ГБ была и остаётся тем что хватает на всё
Уровень коупинга имаджинировали лол.
В гейминге определяющим уже является мощность чипа если врам достаточно. И суть в том, что варебухов, предлагающих ждать по нескольку лет в надежде что станет лучше всегда было достаточно, и всегда они лишь с проглотом сосали.
Есть смысл подождать какого-то релиза если он запланирован в разумный срок и предполагаются крутые модели, но не более. Прогресс неостановим, то, о чем ты сегодня мечтаешь и надеешься что подешевеет через годы в то время будет уже средним или днищем относительно растущих требований.
>>1261061
> нахуя тогда мне дают ползунок дрыгать в таверне?
Таверна с его помощью осуществляет промпт менеджмент, удаляя старые сообщения что выходят за этот лимит и посылая всегда не более чем доступно.

Аноним 01/07/25 Втр 14:01:52 № 1261069 63

>>1261061
Если контекст именно в таверне заполнится, она начет выгружать куски контекста самостоятельно. Если заполнится контекст в кобольде, то он начнет сдвигать токены или просто прервет генерацию, если я не ошибаюсь.

Аноним 01/07/25 Втр 14:05:25 № 1261072 64

>>1261063
https://pixeldrain.com/u/sGaeTTfa Storyteller.json
Лучшее что я пока пробовал.

>>1261068
>коупинга
Никакого коупинга, 4080 12Гб ноутбук, неиллюзорно хватает на всё что только не пробовал, даже Wuthering Waves на релизе год назад где в неё не плюнул только ленивый, и на новую локу в нём же сейчас.

Аноним 01/07/25 Втр 14:10:57 № 1261076 65

>>1261072
> 4080 12Гб ноутбук
Это аналог 4060 по перфомансу?
> неиллюзорно хватает на всё
Рад за тебя, но это реально коупинг ибо обеспечит что-то типа 60фпс с просадками в древних 1080п на средних настройках в современных тайтлах. Или мобильные дрочильни гонять.
> Wuthering Waves
Неблохо, как оно сейчас?

Аноним 01/07/25 Втр 14:12:56 № 1261080 66

>>1261076
>60фпс
выше никогда и не ставил, мне норм

>>1261076
>Неблохо, как оно сейчас?
Збс, впрочем и всегда было, играю с релиза и не дропал.
А щас ещё и тонны QOL фич завезли.

Аноним 01/07/25 Втр 14:15:05 № 1261082 67

>>1261072
>Лучшее что я пока пробовал.
Сомнительно, если честно. Кучу подобных промтов перегонял, писал собственные по такому же принципу. Модель половину инструкции просто игнорирует, не понимания в каких сценариях её правильно использовать. Но может проблема именно в модели, так как я гоняю только мистрали на 12 и 24 кило параметров.

Аноним 01/07/25 Втр 14:18:44 № 1261085 68

>>1261082
Можешь в режиме ассистента спросить как будет выполнять эту инструкцию. Толькр важно - ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп.
Но это позволит выяснить понимает ли вообще она эту инструкцию.

Можно попросить переписать промт "под себя", на деле такое действительно давало буст, даже на 12Б.

Аноним 01/07/25 Втр 14:26:50 № 1261093 69

>>1261085
>ответ модели вовсе не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
По опыту могу сказать, что да. Это вообще ничего не гарантирует. Это как спросить её про то, знает ли она про цитату "терпим карлики" и потом спросить, чьего она авторства. Она чаще всего не может просто ответить "нет" или "я не знаю, как эту инструкцию применять", она просто начнет интерпретировать, как умеет. И там уже чистый рандом.

На самом деле, жаль, что у нас нет своей датабазы с промтами, как у корпоратичков. Да, у них и моделей в сотню раз меньше, но даже если бы она покрывала хотя бы десяток самых популярных локалок, было бы неплохо.

Аноним 01/07/25 Втр 14:32:13 № 1261094 70

>>1261093
> что у нас нет своей датабазы с промтами
Локалщики мы или ключи просящие ?
Смерды или энтузиасты нейронные ?
Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?

Аноним 01/07/25 Втр 14:32:42 № 1261095 71

>>1261080
> выше никогда и не ставил, мне норм
Ну вот видишь.
На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать, на экраны старых смартфонов без слез не взглянешь, во что-то динамичное типа шутанов - играть тяжело. Норм только в кинцо не телеке с геймпадом, но там уже нужно разрешение и картинка.
>>1261085
> не гарантирует что она будет выполнять эту инструкцию именно так в актуальном рп
К сожалению именно так. Но никто ведь не мешает напрямую потестить в рп, можно на небольшом готовом чате.
>>1261093
> Это как спросить её про то, знает ли она про цитату
Используешь цитату в рп также как вставлял мемчик или отсылки в естественных диалогах@смотришь на реакцию. Популярные все узнает, чем умнее модель тем лучше результат. На больших можно "спрашивать у Ганса плохие ли мы" комментируя действия сомнительной моральности.

Аноним 01/07/25 Втр 14:33:41 № 1261096 72

база треда:
- меньше Q6_K жизни нет
- меньше 24B жизни нет
- меньше 16GB жизни нет
- меньше 8 каналов DDR4 жизни нет
- меньше 5 т/c жизни нет

дополняйте

Аноним 01/07/25 Втр 14:34:38 № 1261098 73

>>1260586 →
покеж задачку

Аноним 01/07/25 Втр 14:35:43 № 1261099 74

>>1261096
Нахуй иди.
Дополнил.

Аноним 01/07/25 Втр 14:36:02 № 1261101 75

>>1261098

Аноним 01/07/25 Втр 14:40:13 № 1261104 76

>>1261095
>На частотах ниже ~120 герц уже несколько некомфортно даже просто в интерфейсах работать
Мусью слишком много кушать =))
Вообще рили, хз, то ли ценители дофига, толи что, но я пробовал 144 гц и не ощутил разницу с 60.

Аноним 01/07/25 Втр 14:40:52 № 1261105 77

>>1261094
>Неужто, люд тредовый, не можем сами промты составлять. Неужто нам нужны гайды на сие очевидное ?
На самом деле из всех вопросов касательно локалок, вопрос с промтами самый неочевидный. Настроить бек и фронт можно путем тупого перебора параметров, если ты совсем нихуя не понимаешь. А вот составлять инструкцию тебе точно придется тупым перебором, даже если ты дохуя чего понимаешь. И если кто-то уже сделал это за тебя и поделился результатами - то его можно заслуженно чмокнуть в щечку.

Аноним 01/07/25 Втр 14:43:08 № 1261108 78

>>1261101
кому ты пиздиш квен3 не мультимодальный

Аноним 01/07/25 Втр 14:45:23 № 1261110 79

>>1261105
Круговорот промтов в треде =))

Аноним 01/07/25 Втр 15:50:09 № 1261138 80

1730080638137.png 11Кб, 744x147

>>1261098
Не покажу. Но в общем там о размещении гексов с треугольной решетке, чтении-хранении информации об этом в определенном формате, вращение сетки вокруг отдельных нод на кратные 30 градусам углы с помощью быстрых матричных операций и преобразований на основе относительных позиций без перехода к системе координат, ну и различные манипуляции с ними.
>>1261104
> Мусью слишком много кушать
Просто глаз больше 24 не видит, поэтому нужно чтобы было на порядок больше и с мгновенным откликом.
> 144 гц и не ощутил разницу с 60
Это возможно только с древней беспроводной лагучей мышью, или при фантазировании.

Аноним 01/07/25 Втр 16:19:17 № 1261146 81

>>1261138
>возможно
Хах, ну рад за тебя.

Мышка проводная, не люблю беспроводные, у них батарейки заканчиваются в самые неподходящие моменты.

По мне так разница между 60 и больше 60гц как между 6 и 8 квантом 24-32Б модели - она может и есть, и даже почти точно наверняка есть, но заметить её... сложно. Если вообще получается.

Аноним 01/07/25 Втр 16:40:37 № 1261156 82

>>1261060
>>1261061
Потому, что оба важны. И на фронте, и на беке. На беке - главный, больше него контекста обрабатываться не будет. От него зависит потребная VRAM/RAM под кеш.
Но ползунком на фронте можно зажать размер контекста сильнее чем на беке выставлено. Иногда помогает от OOM, или от тупняков. Если хочешь подобрать размер контекста на который модель адекватно реагирует - это тоже можно делать через фронт, а бек не трогать, если там нативный контекст а не расширенный через ROPE и т.д.
>>1261069
>Если заполнится контекст в кобольде, то он начнет сдвигать токены или просто прервет генерацию
А если табби или уга - то обругают за превышение возможного контекста и пошлют нахрен такого клиента.

Аноним 01/07/25 Втр 16:49:08 № 1261161 83

>>1261138
>>1261146
>> 144 гц и не ощутил разницу с 60
>Это возможно только с древней беспроводной лагучей мышью, или при фантазировании.
Или по достижению определенного возраста. Постепенно чувствительность органов чувств падает, ничего с этим принципиально не сделаешь. Ребенок и высоту звука в 25Khz может слышать, а к 50-ти годам и 8Khz могут оказаться пределом. Со зрением то же самое. Да и врожденные данные у всех разные.

Так что не советую кичиться тем, что вы это хорошо различаете - велик шанс, что со временем это изменится. А пока - дает намек на ваш возраст. :)

Аноним 01/07/25 Втр 17:08:32 № 1261163 84

>>1261156
> подобрать размер контекста на который модель адекватно реагирует - это тоже можно делать через фронт
Ты сейчас его запутаешь. При выходе контекста чата за лимит, выставленный в беке все популярные фронты просто будут удалять из запроса старые сообщения. Их отсутствие может привести к полному провалу не по вине модели, если ответ должен касаться данных в них, что может быть неверно воспринято пользователем.
В целом, посыл верный ибо бывают случаи когда суммарайз кучи старых сообщений в более компактную форму разгружает модель и улучшает ответы. Но простым ползунком в таверне этого не сделать, он даст только обрезку старых с потенциально негативным эффектом.
> пошлют нахрен такого клиента
Единственно верный вариант, а не треш где втихую самостоятельно что-то обрежет или тем более склейки кэша начнет оформлять.
>>1261146
>>1261161
Даже возрастные люди когда им показываешь замечают что "плавненько, тут лучше". Это уже нарушения моторики и зрительного восприятия за пределами естественных изменений.
> дает намек на ваш возраст
Жесткий френдли фаер.

Аноним 01/07/25 Втр 17:29:01 № 1261182 85

>>1261163
Дожили, не ставишь себе 120+ херц, и уже человек второго сорта по мнению случайного анонимного сыча-двачера...

>>1261163
> дает намек на ваш возраст
Ещё и школота на каникулах небось.

Ой, да о чём это я, типчный двач.

Аноним 01/07/25 Втр 18:02:41 № 1261196 86

glm4 eh.png 103Кб, 1364x305

Привет-привет! Пришел к вам с дисклеймер: субъективным, не претендующим на истину мнением по GLM-4-32B-0414. Ссылка: https://huggingface.co/THUDM/GLM-4-32B-0414

Когда модель только вышла, я в тред отписывался, но сейчас мнение сформировалось окончательно.

Если вкратце - это QwQ / Snowdrop здорового человека. Однозначно, сильная сторона модели - диалоги, подтекст, ум, описания различных местностей и уместная креативность; слабая сторона модели - она ломается после ~20к контекста (тестировал и exl3, и с yarn через llamacpp). Быть может, заметите не сразу, но качество аутпутов после ~20к очень ухудшается, и чем дальше - тем хуже. До 16к работает отлично, с 16 до 20к могут быть небольшие проблемы, что решаются свайпом. Это модель, с которой можно рпшить из коробки, пишет интересно и свежо, цензура при вменяемом промптинге минимальная (из того, что я видел). В кум может. Без чудес, но и не совсем сухо, как всегда многое решает промптинг и карточка. А еще у этой модели местами по-хорошему умный и сложный английский, я такого не видел у моделей в пределах данной весовой категории.

Три важных момента:
- У модели очень легкий контекст, он не занимает много памяти, квантовать его не нужно ни в коем случае, иначе рассыпаться начнет еще раньше.
- Модель может выдавать рандомные рефузы. Происходить они могут даже в самых безобидных сценах, если хоть где-нибудь в промпте имеется упоминание любого страшного контента. Решается обычным свайпом, происходит редко. Пример такого рефуза на последнем пикриле
- ...но при этом, если в промпте явно не указать, что разрешен страшный контент, рефузы можно словить в диалоге. Это поразительно, но GLM не имеет проблем с тем, чтобы отыгрывать героическое фэнтези с чудищами, что сносят армии одним взмахом, падение осколка метерита в город, но стоит кому-нибудь заплакать в диалоге или испытать ментальный стресс - он уходит в домик и прячется за рефузом.
Таким образом возникает ситуация, что промптинг для разрешения (не)страшного контента необходим, но вместе с тем из-за этого промптинга могут возникать рефузы. Такая вот странность, но по моему опыту происходит крайне редко.

Советую как минимум попробовать всем, кто живет в пределах 32б моделей. Делюсь готовым к использованию пресетом ( v2 https://pixeldrain.com/l/xGFnT1PY ) и логами с томбоечкой, из которых как всегда почти ничего непонятно, кроме смутного представления о стиле письма модельки. Всегда нужно пробовать самому. Теперь GLM - моя вторая любимая модель после Коммандера 32б. Если выпустят новую версию, где внимание к контексту не будет разваливаться после 20к, будет вообще замечательно.

Аноним 01/07/25 Втр 18:08:11 № 1261198 87

>>1261138
>Просто глаз больше 24 не видит
Ты нолик забыл.

Аноним 01/07/25 Втр 18:08:14 № 1261199 88

К посту выше: для понимания, я сейчас закончил чат на 20к контекста, с префиллом, где явно разрешается любой контент (он имеется в пресете). За все 20к я ловил рефуз 3-4 раза, в самых неожиданных случаях. Видимо, это происходит рандомно, когда attention механизм ухватывается за конкретную инструкцию, и придает ей больше значения, чем остальным

Аноним 01/07/25 Втр 18:21:18 № 1261202 89

>>1261196
У неё контекста вообще 8к, ярном растягивается до 16-20к, дальше сыпется.

Аноним 01/07/25 Втр 18:23:42 № 1261204 90

>>1261202
Да, о том и речь. Как и писал выше, по моему опыту на практике работает до 16к практически идеально, до 20к - уверенно хорошо, а дальше пробовать даже не стоит. Формально можно до 32к, но смысла нет, модель будет лихорадить.

Аноним 01/07/25 Втр 18:26:46 № 1261208 91

>>1261204
Лично у меня впечатления обратные "гемма, только хуже".
Попробуй кстати мерж Remnant-GLM, мне куда больше понравился.

Аноним 01/07/25 Втр 18:29:54 № 1261210 92

>>1261208
Remnant-GLM - это тюн. Все тюны GLM страшно лупятся, поскольку пока что тюнеры не разгадали, каким образом лучше тренировать. Да и меня базовый инструкт устраивает. С Геммой знакомство у меня было короткое, но как помню, в моем случае она контекст держала еще хуже, я где-то на 16к видел такие проблемы, какие здесь обнаруживал на ~25к. Может напортачил где-нибудь, но в целом Гемма не настолько меня заинтересовала, чтобы разбираться. Каждому свое.

Аноним 01/07/25 Втр 18:47:08 № 1261226 93

>>1261210
Странно, вот именно что контекст гемма как раз и держит.
Ну можешь ещё глянуть Синтию / Синтвейв, будет желание.

А вот я последнее время модели тестирую, а вот именно рпшиться желания нет, чаты не уходят дальше пары десятков сообщений.

Аноним 01/07/25 Втр 19:05:47 № 1261235 94

>>1261226
> Ну можешь ещё глянуть Синтию / Синтвейв
Пробовал Синтию, разумеется, и рекомендовал ее треду как единственный работающий тюн Геммы. Но наблюдал те же проблемы и не смог проникнуться настолько, чтобы использовать ее по сей день.

> А вот я последнее время модели тестирую, а вот именно рпшиться желания нет, чаты не уходят дальше пары десятков сообщений.
Та же ситуация. Очень редко чаты уходят дальше 4к контекста, в последнюю пару месяцев рпшусь очень мало. Больше играюсь с моделями и промптингом. Сам не знаю зачем, спортивный интерес какой-то или любопытство. Была мысль наделать кучу карточек на свой вкус и отложить их на пару месяцев, чтобы позабыть детали и отыграть то, что любо-дорого душе, но пока сил/желания на это не находится.

Аноним 01/07/25 Втр 19:10:26 № 1261238 95

>>1261235
>наделать кучу карточек на свой вкус
уже, и ещё больше в планах =)
Хотя сначала надо ещё Этерне гритинги доделать которые планировал...

Аноним 01/07/25 Втр 20:20:58 № 1261287 96

>>1261182
Типичная стратегия коупинга, нейтральное выражение "а лучше б" сначала извратить до "кто имеет б вместо а - человек второго сорта" и потом мысленно его опровергнуть, экстраполируя на исходное и успокаивая себя.
С молодости в упрек это особый рофл. Каково это, ощущать что большая и самая лучшая часть жизни уже позади, сил достигать нового все меньше а имеющуюся действительность нужно оправдывать?
>>1261196
А ты не пробовал играться со вставкой имен, например убивая их вообще (снять галочку Context Formatting -> Always add character's name to prompt и Include Names - Never)? У тебя во всех скринах кроме аположайза все начинается с имени чара, подобное может со временем сильно надоедать и дополнительно провоцирует структурные лупы. Если же имена убрать то ответы становятся более разнообразными по виду и структуре. Если чат уже загажен то не обязательно поможет, но при начале нового особенно заметно.
Также, можно со Story String поиграться, добавив туда краткие вставки и разделители.
>>1261202
Ярн вполне прилично растягивает без потерь как это было раньше и до заявленного множителя. Почему она деградирует после 20к и деградирует ли - вопрос отдельный, на других моделях с этим проблем нет.

Аноним 01/07/25 Втр 20:21:37 № 1261289 97

Нищеброд с 3060 с 12 гб на связи. Есть-ли смысл взять вторую такую-же карту, чтобы гонять 24b сетки на приемлемой скорости и много-ли ебли будет с настройками? Или лучше продать ее нахуй и купить 5070ti 16гб?
ЗЫ новость про 5070ti super видел но не хочу ждать еще год.

Аноним 01/07/25 Втр 20:27:59 № 1261294 98

>>1261289
> чтобы гонять 24b сетки на приемлемой скорости и много-ли ебли будет с настройками
Можно будет гонять, ебли с софтов немного, потенциально много ебли с установкой в корпус чтобы все хорошо охлаждалось.
Насчет смысла - нужно оценивать исходя из твоих возможностей, цен, перспектив и т.д. С парой 3060 сможешь 30б катать быстрее чем с 5070ти и выгрузкой, в картиночных нейронках она будет по скорости как две 3060 или быстрее, в игоре вообще разъебет.
Самый вин - взять 3090 вместо или второй а потом при желании когда-нибудь еще обновить 3060. Но не в каждый корпус влезет, не каждый бп потянет, бу техника.

Аноним 01/07/25 Втр 20:37:41 № 1261305 99

Как запустить Ernie от в LM Studio или хотя бы угебуге, подскажите дауну. Оба не распознают архитектуру. Хочу заняться мазохизмом с 300М моделью.

Аноним 01/07/25 Втр 20:41:58 № 1261312 100

изображение.png 50Кб, 606x176

изображение.png 49Кб, 526x156

>>1261287
> У тебя во всех скринах кроме аположайза все начинается с имени чара
Забавно, и правда ведь. Это я такие скрины подобрал, совпадение. Это не луп. Структурные лупы иногда были до того, как я добавил щепотку rep pen - 1.03. Сейчас используется настройка Include Names: Groups and Past Personas, как в стандартном GLM инструкт шаблоне Таверны. Чат не групповой, так что это аналог Never. Always add character's name to prompt в шаблоне контекста включен. Если его отключить, очень уж много имперсонейта получается.

Аноним 01/07/25 Втр 20:55:56 № 1261314 101

>>1261312
Кстати, а в чём отличие
>Include Names: Groups and Past Personas
и
>Always add character's name to prompt в шаблоне контекста

Аноним 01/07/25 Втр 20:59:35 № 1261320 102

>>1261305
Жди, пока никак.

Аноним 01/07/25 Втр 21:02:59 № 1261322 103

>>1261305
Обновить в венве убабуги трансформерс до дев версии с гита и молиться что она не сломается, запускать через трансформерс. Если сломается - можешь сразу сносить венв и ставить заново, придется искать другую обертку для апи.
>>1261312
Реп пен конкретно от них плохо помогает, но тема с именами работает довольно стабильно на многих моделях.
> Если его отключить, очень уж много имперсонейта получается.
Однако, а менять системный промпт или инструкцию перед ласт ответом на то что нужно дать ответ от лица чара/гейммастера не пробовал?

Аноним 01/07/25 Втр 21:28:53 № 1261338 104

>>1261322
> Реп пен конкретно от них плохо помогает
Как ни странно, в данном случае помог. Репетишена не так много у базового инструкта GLM, но он есть. После того, как добавил реп пен, прогнал уже примерно 40к токенов, и явных проблем не вижу.

> Однако, а менять системный промпт или инструкцию перед ласт ответом на то что нужно дать ответ от лица чара/гейммастера не пробовал?
Неа. Не было необходимости как-то. Ведь незачем решать проблему, которой нет. Но как будет снова настроение поэкспериментировать, я попробую. Если получится что-нибудь путное, лучше прежнего - обязательно поделюсь в треде.

Аноним 01/07/25 Втр 21:35:24 № 1261348 105

>>1261314
В том, каким образом форматируется промпт, отправляемый бэкенду. Include Names: Groups and Past Personas будет добавлять имена в промпт, когда используется групповой чат и/или ты заменил персону (персонаж юзера)
Always всегда добавляет имена в промпт, Never - никогда. Имена находятся в префиксе, который в обычном чате ты не увидишь, но это имеет значение для модели. Как правило, если не добавлять имена, генерации несколько разнообразнее, но с другой стороны, модель может начать писать за юзера.

Аноним 01/07/25 Втр 22:00:16 № 1261359 106

>>1261348
> модель может начать писать за юзера
Это аномалия или следствие противоречий. В групповых и с чатовой разметкой это действительно необходимо, иначе модели придется еще и понимать где в истории кто говорит потому что все ответы размечены как от нее. А в обычном роли сразу понятны из основной разметки, поэтому имена не являются необходимыми.

Аноним 01/07/25 Втр 22:12:53 № 1261364 107

>>1261359
Если примеров диалога в карточке нет, и это начало контекста, многие модели потеряются и будут отписывать за юзера, если и в инструкте, и в контекст шаблоне нет имён. Так практика показывает, много раз игрался с этим, да и все стандартные шаблоны Таверны имена почему-то включают. Не претендую на правду, но у меня так.

Аноним 01/07/25 Втр 23:41:31 № 1261456 108

>>1261196
вот с одним я не согласен: считаю, что оно пиздец как может в кум. тестирую на твоем пресетике, просто ахуенно. чмок в щечку за такое, может даже кусь

Аноним 02/07/25 Срд 05:05:06 № 1261642 109

Huawei releases an open weight model Pangu Pro 72B A16B. Weights are on HF. It should be competitive with Qwen3 32B and it was trained entirely on Huawei Ascend NPUs. (2505.21411)
https://www.reddit.com/r/LocalLLaMA/comments/1lp9gh2/huawei_releases_an_open_weight_model_pangu_pro/

Аноним 02/07/25 Срд 09:34:26 № 1261699 110

Квантовать контекст геммы плохая идея?

Аноним 02/07/25 Срд 09:52:40 № 1261720 111

Аноны, а что насчет новой геммы 3n? Я немного потыкл gemma-3n-e4b в режиме ассистента. Для своего размера очень впечатляет.

Аноним 02/07/25 Срд 10:08:22 № 1261727 112

Думаю, пора качать модели на черный день.
У меня 12gb vram + 32gb ram. Какие модели подойдут для:
1) Замены гугла
2) Для погромирования
3) Для более широкого взаимодействия, всяких развлечений и ролеплея

И есть ли какая-то база треда по квантизации? Типа, "большая модель в Q4 лучше, чем малая без квантизации! малые модели вообще не нужны бля!", и все такое, или наоборот.

И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились? Что насчет LM Studio?

Аноним 02/07/25 Срд 10:41:25 № 1261756 113

Какую модель можете посоветовать на базе обновленного мистраля (2506, 3.2, ну или как он там назывался) не для кума, а чтобы резня, падающие стеклянные небоскребы, котлы, залпы РСЗО и мама, я не хочу умирать.

Harbinger неплох в этом отношении, но он на более старой версии, значительно хуже слушается инструкций, а его словесный понос без разделения на абзацы меня просто убивает, хотя стоит признать, что динамику сражений, особенно городскую, он показывает очень неплохо. Аналогов вроде бы нет. Но вдруг появились? А то я не следил за файнтюнами.

Проблема базовой модели нового мистраля, конечно же, в лупах. Поначалу их не было, но где-то на 20к контекста он уже вошёл во вкус, и это говно вырезать абсолютно бесполезно, потому что он напишет его снова. Разве что резко менять вектор направления сюжета и самому писать очень много, вынуждая модель сосредоточиться на чем-то ином. Но у меня и так посты 100 токенов минимум.

ЗАПАХ ОЗОНА
ПОТРЕСКИВАНИЯ
ЧАСЫ НА БАШНЕ
ТЯЖЕСТЬ НЕВЫСКАЗАННЫХ СЛОВ ТЯЖЕЛО ПОВИСАЕТ В ВОЗДУХЕ

Ну и вот это всё, только его охуительные повторяющиеся реплики отъедают по 150 токенов в посте. Без них пост 400-500 токенов, с ними 700-800. Даже файнтюны, кроме самых слоповых, мне так мозг не ебали.

Аноним 02/07/25 Срд 10:45:57 № 1261761 114

>>1261727
> Думаю, пора качать модели на черный день.
Давно пора, риск чебурнета, к сожалению, уже не просто пугалка.

> 12gb vram + 32gb ram
> 1) Замены гугла
https://huggingface.co/google/gemma-3-12b-it
Довольно умная модель с большим для своей весовой категории количеством знаний. Нужно понимать, однако, что это далеко не замена Гугла. Замена Гугла - в лучшем случае Дипсик в полном размере, для его запуска нужен полноценный риг/сервер.

> 2) Для погромирования
https://huggingface.co/ServiceNow-AI/Apriel-Nemotron-15b-Thinker
https://huggingface.co/Qwen/Qwen3-14B
Если поместится 6, а лучше 8 квант. Для кода или других точных задач только так. Первой моделью я много пользовался, хотя у меня железо позволяет крутить модели побольше. Хорошая, справляется с редактированием кода/кодревью. Опять же, нужно понимать, что за тебя ни одна сетка задачу полностью не решить, даже Гемини. Эти же модели многократ меньше и гораздо слабее, но по-прежнему полезны, если понимать, на что они способны.

> 3) Для более широкого взаимодействия, всяких развлечений и ролеплея
Для ролеплея:
Золото среди 12б моделей: https://huggingface.co/Sao10K/L3-8B-Stheno-v3.2 https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1
Золото среди 22б моделей: https://huggingface.co/concedo/Beepo-22B https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B

Для широкого взаимодействия и развлечений подойдет любая модель общего пользования. Например, упомянутая выше Гемма.

> И есть ли какая-то база треда по квантизации?
Чем меньше модель по количеству параметров (b), тем больше просадка при квантизации. Проще говоря, чем меньше модель - тем больше квант нужно брать. Золотое правило - никогда не брать ниже 4 кванта для общих задач, никогда не брать ниже 6 кванта для точных задач.

> И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились?
KoboldCPP оставь, он сочетает в себе и бэкенд (запуск модели), и фронтенд (промпт менеджмент). SillyTavern в качестве фронтенда, очевидно.

> Что насчет LM Studio?
Проприетарный (закрытый) продукт, нет причин его использовать. Альтернатива - Кобольд или https://jan.ai/

Аноним 02/07/25 Срд 10:48:22 № 1261765 115

>>1261756
Драй и репетишен пенальти использовал? У меня нет лупов на 2506, только структурные иногда.

Аноним 02/07/25 Срд 10:51:09 № 1261769 116

А что у нас по хорошим мультимодалком сейчас? Кто лучше и умнее оценивает фото?
Вроде мистраль новый мультимодальный нет? Ну и гемма, что то было еще? В размерах до 30b

Аноним 02/07/25 Срд 11:18:03 № 1261795 117

>>1261761
Спасибо за развёрнутый ответ, сэр анон. Особенно за инфу по квантизации.

А что насчет Mistral-Small-3.2-24B-Instruct-2506 думаешь?
>Для ролеплея
Что насчет моделей со скрина? Из шапки взял.

Может, ты и про тренировку лор знаешь? Подумал, что было бы прикольно дообучить какую-нибудь модельку на доки актуальной версии Godot, но в тренировку лор именно ллмных пока не вкатывался, не знаю, с чего даже начать. И не уверен, что на 3060 получится за разумные сроки, про бесплатную тренировку в вебе тоже не слышал (только для картиночных моделей).

Аноним 02/07/25 Срд 11:24:26 № 1261801 118

>>1261795
> А что насчет Mistral-Small-3.2-24B-Instruct-2506 думаешь?
Отличная модель, одна из лучших доступных в категории <49б на сегодня. Не уверен, что поместится в хорошем кванте и при этом будет работать с адекватной скоростью на твоем железе, потому не рекомендовал. Если будет работать хорошо, смотри другие 24б тюны, но адекватных крайне мало. Лучше подождать, пока на 2506 сделают.

> Что насчет моделей со скрина?
PersonalityEngine считается одним из лучших тюнов, по крайней мере 1.2.0 версия. Отзывы по 1.3.0 противоречивы. Много я с этой моделью не игрался, потому большего не подскажу. Mag-Mell-R1 отличный для своего размера.

Помни, что моделям нужно использовать соответствующие шаблоны и настройки, чтобы они работали как положено.

> Подумал, что было бы прикольно дообучить какую-нибудь модельку на доки актуальной версии Godot
Забавно, тоже работаю на Годоте. И тоже думал об этом, но решил, что задача того не стоит, чтобы подробно разобраться в вопросе. В моем случае, я C#-пурист, потому любая модель подойдет. Погугли про RAG, возможно, получится документацию использовать таким образом, если ты на Гдскрипте.

Аноним 02/07/25 Срд 11:38:08 № 1261823 119

>>1261801
>Помни, что моделям нужно использовать соответствующие шаблоны и настройки, чтобы они работали как положено.
А ведь точно. Я так мало разбирался с локальными моделями, что вообще забыл о параметрах и настройках. Где эти стандартные шаблоны искать-то?..

>Погугли про RAG, возможно, получится документацию использовать таким образом, если ты на Гдскрипте.
Да, надо будет попробовать. Это звучит лучше, чем тренировка лоры. Случайно, не найдется какого-то традиционного гайда, который кидают первой ссылкой? Ты так активно помогаешь, что мой градус лени начинает повышаться и я стал наглеть. Еще раз спасибо.

Аноним 02/07/25 Срд 11:48:35 № 1261838 120

import.png 257Кб, 1277x387

>>1261823
> Где эти стандартные шаблоны искать-то?..
У каждого семейства моделей свои шаблоны. Если пользоваться Таверной, нужно выбирать Text Completion и указывать Instruct, Context шаблоны. Как на Кобольде сделано - не знаю, не пользуюсь им. Возможно, подтягивает откуда-то шаблоны сам? Другие аноны подскажут.
Где искать их - вопрос хороший. У хороших тюнов иногда и вовсе есть готовый файл импорта (пресет) для Таверны, с шаблонами, сэмплерами и промптом. Но часто нет. Как минимум, на странице модели на Обниморде можно найти базовую модель тюна, а на странице базовой модели обычно указывается шаблон.

> Случайно, не найдется какого-то традиционного гайда, который кидают первой ссылкой?
Не знаю таких.

> Да, надо будет попробовать. Это звучит лучше, чем тренировка лоры.
На своем железе ты Лору не натренируешь. Нужно искать Гугл Колаб или еще какой-нибудь способ сделать это бесплатно, и результат с очень большой вероятностью будет плох.

> Еще раз спасибо.
Рад помочь. Если Таверной пользуешься, для 2506 можешь взять готовый пресет здесь: https://pixeldrain.com/l/xGFnT1PY
На пикриле показано, как в Таверну импортировать подобный файл.

Аноним 02/07/25 Срд 11:49:29 № 1261839 121

>>1261727
> И что по интерфейсам? Koboldcpp на всё, или какие-то апдейты появились? Что насчет LM Studio?
Есть ещё openwebui

Аноним 02/07/25 Срд 11:49:39 № 1261841 122

Как не зайду в тред или не поколупаю локальные llm возникает непреодолимое желание всрать кучу денег которых пока все равно нет на йоба риг из парочки 5090 или макстудио с 256ram. С каждым разом сопротивляться желанию все труднее

Аноним 02/07/25 Срд 11:50:46 № 1261844 123

>>1261761
>Золотое правило - никогда не брать ниже 4 кванта для общих задач, никогда не брать ниже 6 кванта для точных задач
Говорит только о том, что ты отстал примерно на полгода. TQ1, UD1-3 уже давно есть и работают прекрасно. Но понятно, что не для 12б лоботомитов

Аноним 02/07/25 Срд 11:53:41 № 1261848 124

>>1261841
Всегда хочется большего. Думаю, обладателям рига то и дело хочется добавить еще гпу или второй риг.

>>1261844
> Говорит только о том, что ты отстал примерно на полгода.
Да-а... Это грустно. Что мне теперь делать?

> TQ1, UD1-3 уже давно есть и работают прекрасно.
Расскажи об этом анону, что интересовался, помоги новичку.

> Но понятно, что не для 12б лоботомитов
Мы их и обсуждали.

Аноним 02/07/25 Срд 11:54:43 № 1261851 125

>>1261844
>работают прекрасно
Нет, они работают, но далеко от прекрасного. Если не хочется глюков и проебаной логики с короткими ответами - велком ту +-4 бит на вес
Какие то жирные сетки да, могут на это забить. Какой нибудь квен3 250B, или квен3-30б у которого по факту даже на 2 кванте остаются многие веса в 4 кванте

Аноним 02/07/25 Срд 11:59:40 № 1261859 126

>>1261844
зелени объясняли какие кванты для 12-15b лоботомитов качать, но ты не мог не пройти мимо и не блеснуть тем, как ты отстал в развитии примерно на много лет. зато про уд3 кванты знает

Аноним 02/07/25 Срд 12:06:16 № 1261865 127

>>1261699
>Квантовать контекст геммы плохая идея?
В Q8 - нормальная. Я даже на Q4 сидел, 26 контекста отыграл, норм.

Аноним 02/07/25 Срд 12:36:34 № 1261923 128

card.png 23Кб, 1353x236

Признайтесь, захотели.

Какое же говнище все-таки большинство карточек. Иногда захожу на чуб и аналоги тупо поорать.

Аноним 02/07/25 Срд 12:38:07 № 1261926 129

>>1261923
Вымер нахуй с первой. Ну бля, ну как, ну почему?

Аноним 02/07/25 Срд 12:39:48 № 1261930 130

69 токенов сука, это финальный аккорд...

Аноним 02/07/25 Срд 12:43:49 № 1261939 131

>>1261765
Это ж штраф за повтор? У меня 1,05-1,1 с окном 2к токенов (потому что модель срет 800 токенов за пост), но может быть иначе, в зависимости от того, насколько большие посты у модели.

Dry не использовал.

Беда в повторении идеи или структуры. К примеру, модель считает, что ей обязательно нужно сделать три абзаца про окружение и два про эмоции.

Всегда удалять это дерьмо бесполезно, даже новый чат не спасет — начнёт срать снова. Она так и без особого систем промпта делает, а у меня ещё инструкции на нарратив. Вот только там указано, что это нужно применять тогда, когда уместно. И это понимают большие модели, и гемма понимает, и даже 30б3а тупорылый осознаёт, а вот с новым мистралем такая хуйня.

Ну и у меня с лорбука может прилетать инфа по 500 токенов в контекст каждые 3 сообщения.

С другой стороны, при всём этом она совершенно не шизеет и соблюдает все остальные инструкции, логично ведёт повествование и помнит кто, где и что делал 5к токенов назад и уместно эти факты использует. И даже про середину контекста чуть-чуть.

Аноним 02/07/25 Срд 13:01:53 № 1261972 132

Может кто подсказать дауничу как делать карточки или скинуть свои любимые и хорошо читаемые модельками карточки. Я пробовал делать в формате

[[
#basic info
Name: Billy Herringhton
Age: 999 Yo
#Core Identity
sosihyi blyad
#Speech Patterns
HYI BYDESH?~
#Key Objectives
Trahnyt user
#Summary for AI
total no homo
]]

И у меня такое ощущение что такие карточки хуже считываются чем стена текста из

[[(Age: “24 years old” "adult")(Gender: "female" "woman")(Job: "receptionist at massage parlor")(Personality: "bitchy" "easily annoyed" "tries to avoid her family at all costs" "does drugs" "fearless" "not scared of anything"]]

Как делать то епта надо а как не надо делать подскажите.

Аноним 02/07/25 Срд 13:13:59 № 1261982 133

>>1261642
> 72B A16B
Без второй части было бы лучше.
>>1261769
> оценивает фото
Что значит оценивает?
>>1261923
Кринжанул со второй.

Аноним 02/07/25 Срд 13:15:25 № 1261985 134

>>1261972
Мне кажется, что не надо делать карточку набором структурированным набором тегов и фактов. Использовать два поля - Description для единого полотна из plain text'a и Example Dialogue для примеров диалога. Если текст качественный, хороший, отражает задумку художественно, то модель подхватит стиль письма из данных полей, и результат получится более убедительным.

Например, у меня в одной карточке в поле Description намеренно используется немного "рваное" повествование, словно гиперактивное повествование. Множество перечислений в предложениях, восклицания и всякое разное. При этом поле функционально: модель узнает и про физическое описание персонажа, и улавливает эту молниеносность между строк. В итоге персонаж и ведет себя соответствующе: действует очень быстро, движения резкие, уверенные, громкие. И это без примеров диалога. В другой карточке через примеры диалога я рассказываю бекстори персонажа, и это показывает не только характер персонажа, но и факты, которые иначе надо было бы отразить в Description. Меньше токенов тратится, а также задается определенная тональность карточки и немного направляется примерами диалогов то, как персонаж будет себя вести в тех или иных ситуациях. Все карточки в среднем 700-800 токенов у меня.

Аноним 02/07/25 Срд 13:17:57 № 1261988 135

>>1261982
>Что значит оценивает?
Тестов воды наделал полосками с кучей значений, хотел сетку для распознавания значений напрячь. Но чет гемма не осилила а на кобальде мистраль новый падает, беда беда. Хотел проверить правильно ли я своими глазами оттенки распознал, но не вышло. Путают даже в названиях колонок которые даже блин подписаны. И это я разрешение картинки разрешал до 2к.
Может надо было проекторы не в 16bf качать, хз

Аноним 02/07/25 Срд 13:26:24 № 1261999 136

image.png 191Кб, 1092x391

5070 Super = 18GB
5070 Ti Super - 24GB

Такие вот слухи от железячных сливщиков доходят.

Аноним 02/07/25 Срд 13:32:47 № 1262004 137

>>1261988
> Тестов воды наделал полосками с кучей значений
Что? Ничего не понятно.
Если тебе нужно оценить содержимое картинки с точки зрения наличия объектов и дальнейшего анализа на основе них - да, но придется хорошо составить инструкцию. Если хочешь "качественно" оценивать картинки с точки зрения красивости, стиля и прочего - не по адресу.
Алсо в жоре и кобольде большинство мультимодалок работают через жопу.
> разрешение картинки разрешал до 2к
Размер обрабатываемых изображений ограничен, препроцессор сам всеравно до определенного порежет.

Аноним 02/07/25 Срд 13:35:18 № 1262007 138

>>1261999
>24GB
Да хуле, это мало. Столько у 3090 было еще пять лет назад.

Аноним 02/07/25 Срд 13:39:07 № 1262012 139

>>1262007
Ну это геймерские поделки же... а Хуанг работает над сжатием текстурок с помощью AI.
Думаю это все неспроста.

Аноним 02/07/25 Срд 13:40:52 № 1262013 140

>>1261923
>2 пик
Какой-то шизик с ОКР это говнище составлял, ей богу.

Аноним 02/07/25 Срд 13:48:55 № 1262020 141

>>1261972
Разные варианты возможны, но если у тебя там не какое-то РПГ, требующее особых анальных игр, то лучше всего писать в свободном стиле и KPACUBO.

Хотя бы просто потому, что в модель подаётся не срань со скобочками и кавычками, а нормальный, блядь, человеческий язык. Иначе получится говно на входе — говно на выходе.

В общем, суть в том, что естественные описания у меня обычно дают лучшие результаты в 60% сценариев. Ну и от модели зависит.

Проблема таких описаний только в том, что модель может потеряться из-за большого количества токенов.

Нужно скорее не говорить о внешности или о чём-то другом, а показывать, какое впечатление внешность производит. То есть тугая киска + маленькая грудь + розовые соски + очень чувствительные соски + бритый лобок — это говно, если модель не умная. Всякие чатгпт тебе из такого ого-го раздуют, а вот мелкие — нет.

Когда пишешь про тугую киску, нужно объяснять, в чём суть тугой киски, обволакивающей и засасывающей.

Или когда пишешь, что персонаж владеет телекинезом, нужно аккуратно вписать примеры использования. Не писать, что персонаж способен одну тонну поднимать. Модель тупая и не вдупляет, что там сколько весит, а вот конкретные и органичные примеры дают ей больший простор для фантазии и понимания. И зацикливания на примерах, лол.

>>1261985
Вот у тебя хороший подход, хоть я и не люблю им пользоваться.

Пару раз скачивал карточки, где вообще описания нет, а тупо диалог в описании персонажа, где он описывает сам себя и просто балаболит. Там и речь его отображена, и бэк, а значит модель стиль сразу подхватывает и знает все факты.

И видел карточку вообще на 600 токенов + 1000 токенов примеров диалогов. На ней мощнейший поток кума возникает даже на довольно дегенеративных моделях благодаря мастерству автора. И получается очень забавно, если ты пытаешься выкрутиться из сценария. Автор это предусмотрел и персонаж старается по красоте из тебя высосать всю сперму. Не типично, не тупым словом, а внятными аргументами или хитростями с живой речью. Все выглядит естественно.

Но это всё только на случай каких-то не слишком задростких сессий. Если нужно сидеть с 32к контекста с лорбуком и мир с вайфу захватывать, то такой метод не очень подходит.

Аноним 02/07/25 Срд 14:01:03 № 1262026 142

chat.png 4Кб, 449x48

>>1262020
> На ней мощнейший поток кума возникает даже на довольно дегенеративных моделях благодаря мастерству автора.
Да, потому что, видимо, такое вот описание получилось. И в Description, и в примерах диалога. Это нюанс данного подхода к созданию карточек: модель перенимает настроение. Если переборщить в чем-то (иногда это делается намеренно, разумеется), то и результат будет соответствующий. Сделать таким образом сбалансированную карточку сложнее, чем может показаться на первый взгляд, но результат меня всегда радует.

> Но это всё только на случай каких-то не слишком задростких сессий. Если нужно сидеть с 32к контекста с лорбуком и мир с вайфу захватывать, то такой метод не очень подходит.
Не могу согласиться. Все же от карточки зависит. Откопал сейчас старый чат, где я как раз с вайфу мир спасал. Почти 600к токенов получилось.

Аноним 02/07/25 Срд 14:01:40 № 1262028 143

mainyvette-mage[...].png 1799Кб, 1024x1649

>>1261972
https://chub.ai/characters/yoiiru/yvette-mage-hunter-e91d44ee
С моделями, которые следуют карточкам хорошо - Иветта просто эталон охуенного ролеплея. Она тебя с говном смешает, обложит хуями или вообще убьёт, если будешь неосторожен.

Аноним 02/07/25 Срд 14:08:09 № 1262031 144

>>1262004
>Что? Ничего не понятно.
Цветовые индикаторы кислотности видел?
Такие бумажки суешь в воду и они меняют цвет, там мизерные отличия в оттенках которые трудно распознать глазами. На справочной таблице эти оттенки света подписаны соответствующими значениями кислотности.
А у меня полоска с 16 индикаторами по всякой химии, еще и с разными цветами и оттенками. Я заебался распознавать и подумал дать сетке.
Ну и вот ничего не работало, сейчас перекачаю мистраль и попробую снова, может ранний квант был битый.
А разрешение проектора можно менять, стандартное кобальда 1024 но некоторые сетки поддерживают и большее, нужно ручками включать. Вроде бы гемма как раз из таких.

Аноним 02/07/25 Срд 14:12:56 № 1262032 145

>>1261972
>хорошо читаемые модельками карточки
JED-формат (буквально текст с минимальной разметкой)
https://pixeldrain.com/l/47CdPFqQ#item=83
https://pixeldrain.com/l/47CdPFqQ#item=112

Аноним 02/07/25 Срд 14:21:39 № 1262034 146

>>1262031
Для нового мистраля проектора же вроде нету пока. Какой угодно не годится, нужен именно под конкретную модель и количество параметров.
Видел только на 3.1 (2503) - скорее всего для 3.2 (2506) не подойдет. Хотя - хз, 2506 заявлен как дотренировка, так что может и состыкуется. На синтию от чистой геммы подходит же.

Аноним 02/07/25 Срд 14:25:34 № 1262035 147

>>1262034
>Для нового мистраля проектора же вроде нету пока.
Так я какой то же скачал у анслота в новом мистрале как раз лежал, я так подумал ага уже сделали, но крашится все равно
https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF/tree/main
Может кобальд не поддерживает пока, хз

Аноним 02/07/25 Срд 14:35:00 № 1262040 148

>>1261999
Пчел, я со своей затычкой 4090 чувствую что это энтрилевел для llm и самое дно.

Аноним 02/07/25 Срд 14:38:44 № 1262043 149

>>1262040
Ты просто чмоня-элитист, отвергающий 8B / 12B и 30B MoE модели.
Накатил себе dense 70B каличей и думаешь, что они реально лучше.
А по факту там одинаковая дристанина на выхлопе, и решают лишь правильные карточки да внятные промпты, ну и чтоб модель не была как после лоботомии.

мимо тоже думал, что ниже 70B жизни нет и терпел 3 токена в секунду

Аноним 02/07/25 Срд 14:39:18 № 1262044 150

>>1262040
Сколько т/с на шестом кванте нового мистраля?

Аноним 02/07/25 Срд 14:40:42 № 1262045 151

>>1262043
Ты другая крайность. Вы оба не правы.
Насчет 12б и 30б МоЕ еще можно поспорить, но 8б? Считаю, что 32б - золотая середина. Лучше сидеть либо на них, либо на 100б+
мимо

Аноним 02/07/25 Срд 14:42:42 № 1262046 152

>>1261848
>Всегда хочется большего. Думаю, обладателям рига то и дело хочется добавить еще гпу или второй риг.
Не. Хочется небольшую такую, тихую коробочку, к которой при необходимости можно подключить ещё одну такую же коробочку. Или две. В общем удобное такое, расширяемое устройство чисто для инференса ЛЛМ, куда влезет разумный квант чего-нибудь очень большого, а чип внутри даст хорошую скорость. Со временем так и будет.

Аноним 02/07/25 Срд 14:46:50 № 1262050 153

>>1262046
Ну, суть-то та же. Всегда хочется чего-то нового и более совершенного. Такая уж человеческая натура. Обладатели 12гб хотят 24, обладатели 24 хотят 48 и так далее.

Аноним 02/07/25 Срд 14:53:06 № 1262061 154

>>1262034
>>1262035
UPD, проверил - подходит от 2503. Можно брать тут, свеженькое:
https://huggingface.co/koboldcpp/mmproj/tree/main

У меня работает с 2506, даже на русском картинку описывает весьма неплохо. Правда на одной картинке конфуз случился - рыжеволосую анимешную эльфийку с кицуне спутало. Явно приняло длинные волосы специфической формы за хвост, и в купе с острыми ушами.. :)

Аноним 02/07/25 Срд 14:54:11 № 1262064 155

А можно воткнуть в пекарню 2 разных видюхи (от одного производителя, обе 16гб, но одна уже устарела а другая новее) и гонять AI на одной, пока другая хуярит игоры и прочее говнецо? Меня пока именно эта хрень напрягает - не попиздишь с ботом в ST, пока игрулька открыта. Бесит постоянно выходить.

Аноним 02/07/25 Срд 14:58:31 № 1262074 156

>>1262061
Ммм, я помню тестировал еще на квене что ли, так вот чем сильнее изменен файнтюн тем хуже работает родной не измененный проектор, доходило до того что путало цвета, например начинало считать красный желтым.
Судя по росту качества работы новой мистрали, там что то серьезно поменяли. Не уверен что мне стоит проверять со старым проектором, хотя то что оно работает приятно.

Аноним 02/07/25 Срд 15:08:13 № 1262081 157

>>1260769 (OP)
Поясните по фасту: имеется 13900к и 32 гб ддр5 7200мгц, без гпу. Есть варик продать 13900к и купить 13600к с парой ртх3060 12гб. Долго объяснять почему такой расклад (вкратце мини-пк, где тяжело охлаждать 13900к и нету денег на мощный гпу).
Итого вопрос сводится кокой вариант мощнее для запуска ллм 13900к с ддр5 7200мгц или ртх3060 12гб?

Аноним 02/07/25 Срд 15:09:16 № 1262082 158

Кстати, новые геммы наконец то стали доступны в ггуфе
gemma-3n-E2B-it и gemma-3n-E4B-it

Аноним 02/07/25 Срд 15:10:10 № 1262083 159

>>1262082
Ггуф умер.

Аноним 02/07/25 Срд 15:16:29 № 1262088 160

>>1262081
В 12гб видюхи влезет мелкая модель (8B например) на каком-нить мелком Q4 XS кванте.
Скорость будет ебейшая, молнийносно как понос польется текст.
А вот если запустишь на цпу - то же самое будет жиденько пердеть.

При этом можно размазать модель побольше между цпу/гпу (задействуешь VRAM и RAM, но скорость будет всратая).

Короче говоря, вариант без видюхи самый проигрышный и не имеет плюсов, кроме экономии твоих денег. Готов ждать пока AI будет по 5 минут высирать одно мелкое сообщение?

Аноним 02/07/25 Срд 15:17:18 № 1262091 161

теперь я тоже присоединяюсь к лагерю тех, кто считает, что тюны не нужны. ладно, за редким исключением. синтия, это я про тебя говорю.

стоковые модели выдают такой сочный кум, что не снился любым васянотюнам-анслоп-переслоп-мержамговнасговном. коммандер, глэм, даже стоковый qwq могет. может быть тюны были нужны раньше, какой-нибудь лламе 8б, когда модельки были совсем лоботомитными, но сейчас они делают только хуже.

Аноним 02/07/25 Срд 15:18:51 № 1262095 162

>>1262091
а ну и мистрал маленький 3.2 туда же. мало того что поумнел так еще и жесткий куминг из коробки, даже когда он не задается явно промтингом.

Аноним 02/07/25 Срд 15:19:39 № 1262097 163

>>1262088
Понял, принял. Благодарю.

Аноним 02/07/25 Срд 15:33:26 № 1262117 164

>>1262095
>жесткий куминг из коробки
Тоже с этого охуел, файнтюны буквально НИНУЖНЫ.

Аноним 02/07/25 Срд 15:33:58 № 1262119 165

>>1262045
>32б
для 24 - 32 врумм

Аноним 02/07/25 Срд 15:34:10 № 1262120 166

>>1262088
>В 12гб видюхи влезет мелкая модель (8B например)
Ты там ебу дал? Там спокойно 12b войдет а это уже другой уровень.
Если же говорить о запуске той же геммы3 27b в 4 кванте то половина модели влезет.
С его быстрой ддр5 и половиной модели на гпу он получит свои 8-10 токенов в секунду, а это хороший уровень.
Там и 32b можно крутить так то, в среднем будет в сумме где то 20-24 гб с нормальным контекстом где половина опять же на гпу. Оставляя процессору и оперативе 10-12 гб. Если скорость ддр5 в двухканале будет под 100 гб/с то он получит где то 5-7 токенов в секунду. Что опять таки неплохо.

>>1262081
Чисто на процессоре и ддр5 сидеть можно, это опять таки зависит от скорости чтения озу. Если аида намеряет под 100 гб/с, то сможешь даже так запускать сетки размерами гб под 20 с контекстом, и крутить их токенов на 3-5 в секунду.
Больше не влезет в твою озу, там ведь система и браузер еще должны быть ну и хотя бы гига 2 запаса.
Вобщем попробуй сейчас какой нибудь Qwen3-32B-UD-Q4_K_XL.gguf на кобальде запустить и посмотреть скорость, скорей всего ее можно будет поднять настройками до 4-5 токенов в секунду. Это где то минута на средний ответ что неплохо для процессора.
Есть очень быстрый вариант для процессора это мое сетки, это вот эти сетки выше >>1262082
И Qwen3-30B-A3B. Последний самый умный так как самый жирный. Но он другой архитектуры и очень быстрый для процессора, да и для видеокарты.
На ддр4 получают 25+ токенов в секунду генерации, это очень быстро. У тебя может под 40 будет если скорость хорошая.

Аноним 02/07/25 Срд 15:36:50 № 1262124 167

бенч.png 74Кб, 2029x752

бенчдва.png 81Кб, 2029x753

>>1262095
по данным ugi, мистрал 2506 более расцензурен, чем personalityengine, blacksheep и среди всех существующих 24б моделей находится на третьем месте. базовый инструкт, ага. тюны всегда нужны были для более "красивой" прозы, меньшей цензуры, а на деле они лоботомируют, лупятся, слопятся, так теперь и смысла в "расцензуривании" буквально нет

Аноним 02/07/25 Срд 15:43:13 № 1262148 168

>>1262124
Так, пошёл скачивать ДаркТриад, спасибо за скрин.

Аноним 02/07/25 Срд 15:44:47 № 1262158 169

>>1262148
да не за что конечно, но зачем? это мерж 3.1 тюнов, 2506 инструкт он обходит в пределах погрешности

Аноним 02/07/25 Срд 16:11:32 № 1262218 170

Thinking и Planing расходуют контекст или они "забываются" после того как чар напишет ответ и не засирают память?

Аноним 02/07/25 Срд 16:21:37 № 1262228 171

>>1262218
По умолчанию, если ты не менял настройки в Таверне, содержимое Thinking блока не уходит в контекст.

Аноним 02/07/25 Срд 16:27:44 № 1262232 172

>>1262228
Спасибо! А как узнать сколько контекста поддерживает модель если в документации не указано?

Аноним 02/07/25 Срд 16:33:26 № 1262240 173

>>1262232
Смотреть документацию базовой модели, на которую точно должна быть ссылка на странице модели на Обниморде. Или смотреть config файл тюна/базовой модели, если по-прежнему не можешь найти.

Аноним 02/07/25 Срд 16:50:03 № 1262269 174

>>1262120
А так каклй вариант быстрее будет 13900к или 3060 12гб?

Аноним 02/07/25 Срд 16:51:28 № 1262271 175

>>1262269
ВСЕГДА будет быстрее видеокарта, ОСОБЕННО зелёная

Аноним 02/07/25 Срд 16:58:54 № 1262285 176

>>1262269
>>1262271
Да, у видимокарты скорость памяти всегда быстрее, у тебя максимум 100 гб/с, а у нее от 250 - до 1500 на последних блеквелах.
Скорость памяти одно узкое место тут, но видеокарты имеют мало врам или дорогие, так что всегда хочется большего. Лучшие без пердолинга это нвидиа, но тут вот энтузиасты на амд собирают серверы, там есть дешевые карты с 32 гб на борту быстрой врам. Но это пердолинг тот еще.

Аноним 02/07/25 Срд 17:25:49 № 1262311 177

>>1262228
у меня почему-то в Thinking пишет не мысли персонажа о ситуации, а действия персонажа, а потом в ответе уже действия на те действия что были в Thinking, т.е. по сути часть действия проебалась.

Аноним 02/07/25 Срд 17:28:34 № 1262315 178

>>1262311
Ты не дал достаточно информации, чтобы предположить, в чем у тебя дело. Разметку (instruct, context), настройки ризонинга, промпт, модель (и квант) показывай. Чем больше информации, тем лучше. Что-то не так настроено или модель поломана/не предназначена для ризонинга.

Аноним 02/07/25 Срд 17:30:52 № 1262318 179

>>1262311
модель не может в размышления а ты её форсишь, возможно промт проебался, возможно база в синкинг умела а тюн нет

Аноним 02/07/25 Срд 17:32:39 № 1262320 180

>>1262315
разобрался, вот тут галка почемуто ломала мыслительный процесс модели

Аноним 02/07/25 Срд 17:58:28 № 1262345 181

Ку, у меня нубовопрос.
Как пофиксить то, что ллмка на предложение "поговорить" или "поболтать" периодически начинает в своем ответе писать промпты от моего имени и сама же отвечать на них?

Аноним 02/07/25 Срд 18:04:30 № 1262351 182

>>1262345
1. отредактируй пару ответов чтобы модель поняла что не надо писать за тебя
2. в system promt укажи что модель отыгрывает только свою роль
3. уменьши ответ в токенах, хотя бы до 500

Аноним 02/07/25 Срд 18:10:10 № 1262355 183

Хочу попробовать локалки, что сейчас в мете что я могу запустить на rtx 5090 (32gb vram+64ram)?

интересуют топ 3 модели для этих категорий

-кодинг
-рп без цензуры
-общая модель которая понимает глубину контекста похоже как это делает gpt 4-o, с душой, для повседневного использования

пойдут файнтюны мержи, все что угодно
желательно указать квантизацию, и количество параметров
интересен именно ваш тиер лист
как попробую отпишу

Аноним 02/07/25 Срд 18:21:05 № 1262363 184

Откуда столько зелени сегодня в треде? Пошла новость, что через неделю интернет всё?

Аноним 02/07/25 Срд 18:22:42 № 1262365 185

>>1262351
Понял, спасибо.

Аноним 02/07/25 Срд 18:24:42 № 1262367 186

>>1261727
>>1262355
Попробовал 12б модельки и решил купить новый комп?

Аноним 02/07/25 Срд 18:48:28 № 1262378 187

Подскажите пожалуйста где в таверне отключаются thinking и planing у модели? В гугле пишут что надо какието регулярки хуярить. Неужели просто нет чекбокса?

Аноним 02/07/25 Срд 18:50:15 № 1262381 188

>>1262046
>Хочется небольшую такую, тихую коробочку
Дохуя хочется. Так не бывает.
>>1262064
Можно, даже почти без проблем.

Аноним 02/07/25 Срд 18:50:59 № 1262383 189

А есть какие-то сетки, хорошо понимающие руссик? В идеале обученные на двачах.

Поставил gigachat ради пробы, такая хуета, как-будто вернулся в 2022

Аноним 02/07/25 Срд 19:00:21 № 1262394 190

>>1261841
Главное не думать сколько ты можешь апи купить за эти деньги. На десятилетия.

Аноним 02/07/25 Срд 19:01:13 № 1262396 191

Кто то проверял новый мистраль на сжижаемость? Как он квантизацию переносит? На 3 жизнь есть?

Аноним 02/07/25 Срд 19:11:23 № 1262401 192

>>1262394
Ага. Ещё бы работали компании эти десятилетия. И не банили за рейп канничек чуть более чем романтичные отношения с ИИ-персонажем. И были доступны без прокси, и принимали оплату картой МИР.

Аноним 02/07/25 Срд 19:13:05 № 1262403 193

>>1262158
Эх, Skyfall v4c всё ещё лучше что истрали, что дарктриады...

Аноним 02/07/25 Срд 19:13:56 № 1262408 194

>>1262401
Забыл добавить что эти десятилетия нужно будет еще как то прожить, и с доступом к всемирному интернету, или хотя бы интернету вобще, кек

Аноним 02/07/25 Срд 19:14:01 № 1262409 195

>>1262383
> обученные на двачах.

Аноним 02/07/25 Срд 19:26:54 № 1262418 196

>>1261761
Насчёи маг мелла, что означает пикрил, то что он натренен чисто на фэнтези? То есть если я пойду отыгрывать пост апок то посредия ядерной пустные я встречу мудрое дерево которогое наградит меня луком? И хотелось бы узнать почему лично ты считаешь эту модель золотом.

ДругойАнон

Аноним 02/07/25 Срд 19:33:47 № 1262425 197

>>1262418
Почитай страницу модели. В конце концов, загрузи ее и проверь самостоятельно. Ничего страшного не произойдет, если она тебе не подойдет.

ТотАнон

Аноним 02/07/25 Срд 19:34:53 № 1262426 198

Безымянный.png 1Кб, 279x24

>>1262425
Блядь, у меня пикча отвалилась, но ладно уже.

Аноним 02/07/25 Срд 19:49:46 № 1262449 199

>>1262383
Гемма. Хз помнит ли ещё кто-то как крутил нейродвачера в б на ней. Мультимодальность - имба

Аноним 02/07/25 Срд 19:59:52 № 1262465 200

>>1262355
1) Квен кодер, GLM, восьмой квант, даже в ущерб скорости
2) Mistral-Small-3.2-24B-Instruct-2506, шестой-восьмой квант
3) Гемма-3-27Б, сильная соя и цензура, шестой квант

Для Геммы рекомендую тюн Synthia, а если он тебе покажется слишком своевольным и припезднутым, то мерж Synthwave-gemma3-27B, там с этим намного лучше, и сейчас на нём остановился.

Да, с 32 VRAM ты не только мистраль запустишь, но и 32Б модели в шестом кванте, но среди них норм РП так и не нашёл, возможно другие подскажут.

Аноним 02/07/25 Срд 20:01:25 № 1262470 201

>>1262378
можно префиллом пихнуть в пост что она уже подумала, на многих работает

Аноним 02/07/25 Срд 20:02:46 № 1262471 202

https://www.reddit.com/r/LocalLLaMA/comments/1lpoju6/worlds_first_intermediate_thinking_ai_model_is/
Прототип сетки с промежуточным мышлением на базовом qwen3-14b

Аноним 02/07/25 Срд 20:03:57 № 1262473 203

Погонял Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf на умеренной жести, отказов не ловил, свайпы разнообразные, как позитивные, так и негативные.

>>1262396
на 4 точно есть, 3 не пробовал

Аноним 02/07/25 Срд 20:04:27 № 1262474 204

>>1262408
>интернету
чебурнету

Аноним 02/07/25 Срд 20:13:31 № 1262480 205

>>1262471
>с промежуточным мышлением
Вы бы сразу поясняли, в чем профит для простого Васяна, который пиздит с ботами для "подрочить"

Аноним 02/07/25 Срд 20:14:22 № 1262481 206

>>1262480
Васян может зайти на страницу модели в обниморде и прочитать

Аноним 02/07/25 Срд 20:21:42 № 1262484 207

>>1262480
>в чем профит для простого Васяна, который пиздит с ботами для "подрочить"
Ни в чём, в таких задачах thinking это нинужный кал говна. Отключил эту неюзабельную парашу и дело с концом.

Аноним 02/07/25 Срд 20:30:07 № 1262491 208

>>1262471
>видосик на ютубе
Ебать там недоедающие индусы (или пакистанцы?).

Аноним 02/07/25 Срд 20:35:26 № 1262495 209

>>1262491
Не, ну индус программист это ж живой мем, все четко
Акцент на месте, кек
Звучит их поделие интересно, но как на деле еще не докачал

Аноним 02/07/25 Срд 21:28:11 № 1262552 210

>>1262031
> там мизерные отличия в оттенках которые трудно распознать глазами
Может тогда лучше вместо нейронок численные алгоритмы использовать? Точнее от нейронки какую-нибудь йолу чтобы определить позицию твоих бумажек на фоне, а дальше просто усреднение цвета по измеряемой области, коррекция по известному цвету (белому участку) и сравнение со значениями. Если на фотках тут же разместить и бумажку с референсными цветами и сделать равномерное освещение то никакой корректировки не потребуется.
Конкретно сетка здесь врядли справится потому что малые изменения цветности где-то там вообще мимо энкодера пройдут.
> А разрешение проектора можно менять, стандартное кобальда 1024
Какойад блять, у каждой ллмки свой препроцессор и свой алгоритмы обработки, включая даунскейл и нарезку на тайлы. А тут "менять можно", неудивительно что эта залупа поломана в хлам.

Аноним 02/07/25 Срд 21:40:05 № 1262573 211

>>1261844
> TQ1, UD1-3 уже давно есть и работают прекрасно
Ud3 действительно уже неплохо. Все что ниже - компромисс, оно все еще умное но налет безумия очевиден и знания запорчены.
>>1261848
> Думаю, обладателям рига то и дело хочется добавить еще гпу
Заменить на более мощные
> или второй риг
Нахер нахер
>>1262043
> отвергающий 8B / 12B и 30B MoE модели
Так это же ни на что не годные лоботомиты. Обратное утверджают только их убежденные пользователи во время приступов коупинга и аутотренинга.
>>1262091
Не то чтобы не нужны, нужны хорошие полноценные тюны, а не васяновская залупа с полной лоботомией, что мы наблюдали последний год на мистрале.
>>1262218
Смотря что выставлено в настройках таверны, по дефолту исключаются, можно сделать чтобы включало последние несколько штук. Если ты про костыль степсинкинг - там такая же настройка.

Аноним 02/07/25 Срд 21:43:55 № 1262579 212

>>1262552
> А тут "менять можно", неудивительно что эта залупа поломана в хлам.
Там меняется максимальный размер картинки, я так понимаю кобальд просто будет ужимать картинку до 1024 а там дальше ее ужмет до нужного проектор. Но некоторые новые проекторы могут работать с большим расширением сами по себе, и выставление просто указывает кобальду не сжимать картинку самому а оставить это проектору сетки.
>Может тогда лучше вместо нейронок численные алгоритмы использовать?
Можно было бы, но это еще больший гемор чем смотреть глазами, что я и сделал.
Потом просто сунул результаты в макрдауне сетке и попросил описать и сделать выводы, ну и проверил потом что она понаписала.
Вобщем новой мистралью я доволен, умна и послушна.

А на счет распознавания цветов тут то сетки могут наоборот лучше человека работать, описывают они криво да, но сравнить внутри себя могут лучше как и определять. Потому что воспринимают цвет напрямую кодом, а не как мы. По крайней мере те несколько параметров что сетки(геммы3 в начале) не путали и видели они распознавали так же как я, что было интересно.

Аноним 02/07/25 Срд 21:56:10 № 1262593 213

>>1262285
> энтузиасты на амд собирают серверы
По токенвсекунду/рубль оно как-то пока неоче.
>>1262480
> в чем профит для простого Васяна
Придется ждать не только первых токенов ответа, но и ловить остановки посреди него. Еще можно с видоса порофлить.
>>1262579
> не сжимать картинку самому а оставить это проектору сетки
Зачем вообще это сделано, для чего? Раньше у жоры был хардкод вместо нормального препроцессора, потом ставили костыли но это было далеко от идеального. Это остатки старого кода или что такое вообще?
> но это еще больший гемор
А в чем гемор для той задачи? Там видится две сложности: найти бумажку на картинке, определить ее точный цвет с учетом возможного изменения баланса белого на камере. Первое решается компьютерным зрением, второе использованием референса в кадре.
> А на счет распознавания цветов тут то сетки могут наоборот лучше человека работать
> Потому что воспринимают цвет напрямую кодом
Ты хоть посмотри как они устроены, поймешь насколько ерунду излагаешь. Они могут различать цвета, понимать где градиенты, но понять что в нужном месте 0F6A8C вместо 0A456A - не способны. Если нужно было бы определять что-то типа желтый-лезеный-синий-красный то без проблем, но с малыми изменениями цвета, да еще искаженного балансом камеры - без шансов.

Аноним 02/07/25 Срд 22:05:29 № 1262599 214

>>1262593
>но понять что в нужном месте 0F6A8C вместо 0A456A - не способны.
А и не нужно, нужно только что бы она сопоставила "ощущение" от одного цвета с другим. И так как это ощущение располагается между 2 цветами градиента индикатора, она определит где это ощущение похоже на получившееся.
Особая точность не нужна, тест этого и не предполагает.
Ты ведь знаешь о скрытых пространствах где на разном расстоянии друг от друга расположены разные образы которые нейросеть у себя сформировала. Я чет забыл как оно там называлось но общую суть помню. В процессе тренировки у нее формируются связи между разными цветами и их градиентами. Связать их с определенными весами цветов для нее не проблема, просто за счет всего обучения с разными цветными картинками. Это кстати довольно простые паттерны, они наверное формируются первыми, сложные структуры уже потом идут формируясь из них.
Сумбурно описал, но как уж запомнил.

> Это остатки старого кода или что такое вообще?
Ну наверное как совместимость с проекторами, они же все разные. Но обычно требуют картинку поменьше, а тут сделали преобразование до 1024 стандартным. Что бы не кидать файл на 20 мегабайт в нейросеть. Для быстроты чтения промпта картинки может быть.

Аноним 02/07/25 Срд 22:21:17 № 1262605 215

>>1262599
> нужно только что бы она сопоставила "ощущение" от одного цвета с другим
Это по сути то же самое, картинка кодируется к эмбеддинги с потерей подобной информации и не зависимо от текстовой инструкции чтобы сместить фокус на нужное. Будут лишь галюны и оче искаженные ответы вместо нормальных.
Если совсем ленивый - ту же гемму можно использовать для детекции объектов чтобы выдавала координаты нужного.
Ее же предварительно заставить написать скрипт, который будет давать обращения к ней по апи для определения координат и дальше сравнивать цвета. За время составления поста уже можно было бы первую версию реализовать так-то.
> Связать их с определенными весами цветов для нее не проблема
Они не завязаны напрямую на цвета и это не совсем классические эмбеддинги, там не просто обезглавленный клип или его аналоги, а сверху еще настакано.
> Что бы не кидать файл на 20 мегабайт в нейросеть.
Чтобы что? Ей глубоко пофиг на размер файла, все равно после предобработки он сконвертируется в тензоры с размерностью тайла, повторяющие сырые rgb без сжатия, и дальше пойдут на вход.

Аноним 02/07/25 Срд 22:39:15 № 1262614 216

IMG202507021147[...].jpg 3893Кб, 4000x3000

>>1262605
Что бы понять примерное охуевание сетки от моей задачи вот тебе один из тестов для примера. Самый смак в том что большую часть параметров сетка определила так же как и я. Но путалась в названиях некоторых строк и там писала ерунду. Будто как раз ограниченное разрешение поднасрало с которым она работала.
Наверное я слишком много хотел от локалки и текущих ии вобще давая такую сложную задачу с кучей информации

Аноним 02/07/25 Срд 22:58:19 № 1262634 217

>>1262614
Очень уж много их, тут любая модель будет ошибаться, особенно учитывая как хорошо ни определяют цвета. В целом, точное и эффективное решение уже озвучено, учитывая что эти штуки упорядочены и на белом фоне то можно целиком на алгоритмах сделать.

Аноним 02/07/25 Срд 23:06:37 № 1262648 218

>>1262043
Согласен в целом, но не совсем.

Монструозное говно почти всегда лучше, даже если там кодерская сетка, но жирная. Другое дело, стоит ли игра свеч?

Какая-нибудь 12б, обученная исключительно на рп и за хорошие бабки, будет лучше 32б, потому что она для этого и предназначена. То, что было забито говнокодом, математическими задачами и вот этим калом, там отсутствует и может дать сильный буст. Но таких сеток, увы, не делают для свободного доступа. Поэтому количество параметров всё же решает сильно, ведь чем их больше, тем выше шанс, что в датасете будет что-то нужное.

Ещё одна беда — следование инструкциям и контекст на малых моделях. После 32к обычно начинается деградация, мелкомодели не тянут. Видимо, их не обучали для длинных последовательностей и там rope, всё в таком духе. Да даже в начале рп они могут не следовать инструкциям.

А так следование инструкциям и здоровенный контекст были бы весомым аргументом в их пользу. Зачастую можно потерпеть более кривую писанину, но радоваться деталям и понимаю нейросеткой, что было в середине истории.

Аноним 02/07/25 Срд 23:33:46 № 1262695 219

Вторая видюха не влезает. Хуй знает че делать, думал оставлю старушку - но увы, новая трёхслотовая мразина не даёт.

Че делать-то. Поискал riser-кабели, очкую брать китайское говно за 3к+. Кто-нибудь сталкивался с такой же проблемой?

Аноним 02/07/25 Срд 23:45:31 № 1262709 220

>>1262648
> Какая-нибудь 12б, обученная исключительно на рп и за хорошие бабки, будет лучше 32б, потому что она для этого и предназначена.
Увы но нет. Она может быть лучше в стиле письма (только в теории, на практике печально), она может лучше кумить и легче сводить к куму любые истории, опять же в теории может предлагать более разнообразные сценарии и в стоке держать какие-нибудь механики и подобное.
Но это будет копиум, просто вариации красивого письма по мотивам, ошибки в ответах, затупы в пространстве, упущение важных деталей и т.д. Просто потому что
> говнокодом, математическими задачами и вот этим калом
а также более глубокие общие знания как раз дают значительный буст в логике, внимании к важным вещам, понимаю причинно-следственных связей и сутевой части контекста. И та самая "суперрп сетка 12б" должна быть сделана тренировкой из такой же ллм общего назначения, иначе оно будет абсолютно мертвым.
>>1262695
Огласи свое железо.

Аноним 02/07/25 Срд 23:47:19 № 1262712 221

>>1262709
А чего тут оглашать-то, всё дело в размерах - и только.
Пикрилы больно дорого стоят, чтобы вслепую их пробовать.
К тому же, я и не уверен, что эта хуйня тоже влезет.
Пиздос. Неужели надо еще и корпус новый брать.

Аноним 02/07/25 Срд 23:55:14 № 1262719 222

>>1262712
> А чего тут оглашать-то
Размеры карт, версии pci-e. Пикрилы в целом и нужны, там есть только нюансы и разница в цене от версии шины. По размещению уже от корпуса зависит, вариант что влезает в большинство - первую карточку твоим пикрелом просто развернуть чтобы открыть доступ ко всем портам и отодвинуть ее от плоскости материнки, вторую вертикально вдоль задней стенки корпуса на более длинном райзере примерно как на оппике. Только там корпус хитрый и под ту карту углубление, если же обычная стенка то стоящая в слотах гпу будет мешать такому размещению, поэтому ее нужно выносить на 90 градусов.

Аноним 03/07/25 Чтв 00:10:16 № 1262750 223

>>1262719
Да забей, там полная пиздень - места между БП и трехслотовой картой - ну может сантиметров 7 и из них старая карточка сожрет более 5 сантиметров - то есть шлейф придется согнуть буквой S и боюсь он обломится к хуям. Да и не привинтишь ее там никуда, потому что мелкие PCI-E тоже никто не отменял.
Единственный вариант - монтировать старую на стенку корпуса. Или класть пекарню на бок, а карточку положить снаружи (и шлейф с кабелем питания пустить через пропиленную в стенке дырень).
Нормально в общем я попал с этим дерьмом.

Если что обе сапфировские pulse, 6800 и 9070хт.

Аноним 03/07/25 Чтв 00:11:35 № 1262752 224

>>1262750
>, потому что мелкие PCI-E тоже никто не отменял.
То есть они пустые конечно, но думаю все будет мешать так или иначе. Ладно завтра на свежую голову подумаю, вариант с крепежом к стенке походу реально единственный.

Аноним 03/07/25 Чтв 00:16:05 № 1262760 225

>>1262750
Глянь еще раз пост, там решаются эти проблемы, если только у тебя не задействованы другие pci-e каким-то экзотическим девайсом. Только кронштейн нужно брать не совсем тот что на твоем прикреле, а другой вариант, который сильнее удален от слотов а не жмется к ним вплотную, а то с тем вообще карточка в радиатор врм может упереться. Шлейф в меру гибкий, гнуть можно. Если у тебя в корпусе под бп отдельная шахта то кронштейн можно просто поставить на нее, прикрутив или чтобы сам на магнитах держался.

Аноним 03/07/25 Чтв 00:23:14 № 1262774 226

>>1262760
Проблема в том, что так ее не развернешь, места впритык лишь под обычное расположение.
Короче помянем корпус, больше 10 лет прослужил.

Аноним 03/07/25 Чтв 00:28:39 № 1262784 227

>>1262774
Основная как у тебя на пикреле на кронштейне с райзером, вторая на задней стенке справа от материнки. Если же там места нету - только менять, врядли найдешь другую позицию без компромиссов.

Аноним 03/07/25 Чтв 00:33:03 № 1262795 228

>>1262784
До чего же нас AIдроч доводит... Был бы нормальным человеком, продал бы старье на лохито.

Кстати у меня возникла еще 1 шизо-идея. Снять бэкплейт со старой видюхи - может быть влезет. Правда охлад у первой задохнется по всей видимости, да уж, одни минусы.

Аноним 03/07/25 Чтв 00:34:10 № 1262797 229

>>1262795
>может быть влезет.
Ну тобишь всухую прямо в родной PCI-E без шлейфохрени.

Аноним 03/07/25 Чтв 00:35:20 № 1262799 230

>>1262795
> До чего же нас AIдроч доводит... Был бы нормальным человеком
Шутка про амд

Аноним 03/07/25 Чтв 00:41:09 № 1262811 231

Доехали остальные девайсы, предпринята попытка пересобрать эпик в майнерское ведро типа специально под гпу. В итоге получилось ПОТРАЧЕНО: кулер не лезет на несколько мм, большие карты тоже торчат проводами питания, приходится ложить на бок, второй бп не войдёт. Вроде большой корпус, а больше 4 карт не засунуть всё равно. Из хорошего - проверена бифуркация любого слота из биоса, работает чётко.

Запускал жору на винде/убунте. И только на проце, и при 1, и при 3 картах скорость абсолютно идентичная. Кажется рассказы о линупс-преимуществах - только рассказы. Экслама не очень интересна - всё, что входит в врам - работает и так слишком быстро. Осталось придумать к чему пристроить этот сетап.

Аноним 03/07/25 Чтв 00:46:39 № 1262821 232

>>1262811
А это все по обособленным кабелям идёт или там какие-то разветвленные Y-образные?
Я тут очкую, не будет ли опасно вставить один 8-пин в БП, из которого два 6+2 разводится...

Аноним 03/07/25 Чтв 00:51:54 № 1262825 233

А чего до сих пор нет гайда в шапке на покупку 3090 с лохито?
Реквестирую. Подскажите адекватных производителей (MSI, GIGABYTE и прочие), и температуру чипа в хотспоте на тесте. Память я так понял 85-90. А чип, именно в хотспоте, сколько?

Аноним 03/07/25 Чтв 00:52:11 № 1262827 234

>>1262811
О, модное майнерское ведно, однако не побоялся такой формфактор взять где карты в сторону вынесены, ведь с райзерами может быть тяжело.
> ПОТРАЧЕНО: кулер не лезет на несколько мм
Пикрел, лол. В качестве колхозного варианта - вместо стенки прикрутить сверху металлическую сетку от случайных взаимодействий и зверей, можно найти в автомагазинах и будет выглядеть даже цивильно.
> большие карты тоже торчат проводами питания
Сместить ниже верхнюю перекладину и райзеры поставить на самое дно не вариант? С угловым кабелем офк еще.
> всё, что входит в врам - работает и так слишком быстро
Попробуй на большом контексте а потом повтори, жоракал становится совсем жидким стоит выйти за 40к, при том что квант в 1.5 раза меньше.

А что за бп? Крайне компактный для такого сетапа, что-то дорогое-богатое?

Аноним 03/07/25 Чтв 00:56:45 № 1262845 235

>>1262449
27b или какие-то файнтюны дроченные?

Что значит если у модели стоит имя какого-то платного слопа? Типа claude-3.7-sonnet-reasoning-gemma3-12b?

Аноним 03/07/25 Чтв 01:07:35 № 1262869 236

>>1262821
> обособленным кабелям
Дыс. Обычно сейчас кладут кабеля к бп 1в1 кабель - 1 вход бп на 1 8пин пси-е/процовый. Но на фотке есть один кабель какой-то левый, У-образный.

>>1262827
> О, модное майнерское ведно, однако не побоялся такой формфактор взять где карты в сторону вынесены, ведь с райзерами может быть тяжело.
Корпус по цене оцинкованного ведра, не особо и жалко. Думал, что 50см окулинки коротковаты будут, но как раз идеально.

> Пикрел, лол. В качестве колхозного варианта - вместо стенки прикрутить сверху металлическую сетку от случайных взаимодействий и зверей, можно найти в автомагазинах и будет выглядеть даже цивильно.
Да я скорее верну обратно всё в бытовую пека, там те же 4 карты жили и более цивильно было.

> Сместить ниже верхнюю перекладину и райзеры поставить на самое дно не вариант? С угловым кабелем офк еще.
Там всё уже в максимальном низу, увы.

> > всё, что входит в врам - работает и так слишком быстро
> Попробуй на большом контексте а потом повтори, жоракал становится совсем жидким стоит выйти за 40к, при том что квант в 1.5 раза меньше.
Ге, я на 40к и не играл никогда. Понятно, что тормозит чем дальше тем больше. Но просто те модели, что влезут полностью - не интересны. + уже 2 раза хватал косяки на ехл квантах, бета-тестером не хочется быть.

> А что за бп? Крайне компактный для такого сетапа, что-то дорогое-богатое?
Deepcool PX1300P, оч хороший, уже второй такой взял. В комплекте 2 vhpwr и 3 8pin. А по размеру - даже не самый маленький. Те же ADATA XPG CYBER CORE II 1300W или Galax Hall of Fame GH1300 ещё меньше.

Аноним 03/07/25 Чтв 01:09:04 № 1262876 237

>>1262869
>Но на фотке есть один кабель какой-то левый, У-образный.
Ну то есть это норм работает, даже если по дефолту производитель БП сует 1:1 кабельки, да?

Аноним 03/07/25 Чтв 01:12:31 № 1262885 238

>>1262811
>В итоге получилось ПОТРАЧЕНО
Зато с RGB подсветочкой!
>>1262825
>А чего до сих пор нет гайда в шапке на покупку 3090 с лохито?
Потому что теряет актуальность.
Бери любую, тут чистая удача. Кидай кубик перед покупкой, если выпадет 10 и больше, то пробуй.
>>1262869
>Думал, что 50см окулинки коротковаты будут, но как раз идеально.
Что в окулинках хорошо, так это наличие кабелей по-длиннее.
>В комплекте 2 vhpwr
Вижу только один на БП, второй через обычные разъёмы что ли?

Аноним 03/07/25 Чтв 01:18:28 № 1262899 239

>>1262869
> Там всё уже в максимальном низу, увы.
Вот же курва а. Ну ладно, хотябы опыт анончикам что для высоких кулеров и видеокарт такие корпуса могут неподойти.
> те модели, что влезут полностью - не интересны
Тут уже увы, только пожелать скорейшего расширения, лол.
А где косяки были? Альфа версии простительно, особенно после регулярных фейлов жоры, но таки интересно.
> я на 40к и не играл никогда
И вы смеете называть себя порядочным нейрокумером? Ужас, полнейшее бескультурье! Но вообще действительно желаю поймать удачное сочетание и экспириенс чтобы такое делать хотелось, очень доставляет.
> В комплекте 2 vhpwr
Однако, крайне жирный на разъемы бп.

Аноним 03/07/25 Чтв 01:19:01 № 1262900 240

>>1262031
>мизерные отличия в оттенках которые трудно распознать глазами.
Вроде хорошо глазом различаются, хотя я по различению цветов сосу у тянок.
Я бы если делал то сначала как-то нарезал на полоски, а в идеале вообще отделить семплы от референсных полосок и подавать нейронке только нужное.

Кстати интересно есть ли какая-то нейронка которой текстом описываешь что нужно сделать с изображением, а она делает? Или это уже более релейтед к sd треду?

мимо

Аноним 03/07/25 Чтв 01:26:33 № 1262905 241

Можете пояснить, насколько тупо вообще рассматривать к покупке карточку от красных, если собирать новый гроб под нейронки? Допустим брать какую-нибудь 7600 XT с 16 килошками, а потом в перспективе (около года) взять еще одну карту?

Аноним 03/07/25 Чтв 01:28:41 № 1262907 242

>>1262905
Сижу с 9070 кайфую, очень быстро все.
Никакой шизотупости нет, но тебе ща сектанты наплетут что надо бежать на лохито за Б/У зеленью.

Аноним 03/07/25 Чтв 01:34:36 № 1262919 243

>>1262907
А что по скоростям и совместимости? Куда-культисты пиздят, или реально есть какие-то проблемы?

Аноним 03/07/25 Чтв 01:37:40 № 1262924 244

>>1262240
это минимальные и максимальные значения?

Аноним 03/07/25 Чтв 01:37:43 № 1262925 245

>>1262919
Пока в видеопамять все влезает - обработка длинных промптов молниеносна как понос, токенов в секунду тоже много, что аж считать нет смысла.
Как обычно все упирается в эти несчастные 16гб на одной карточке.

Аноним 03/07/25 Чтв 01:46:07 № 1262935 246

>>1262825
По той же причине что нет многих других вещей. Опытные работяги и так все знают, а вкатуны просто попрошайничают никак не мотивируя им помогать.
>>1262900
Новые картинкогенераторы от корпов, спецверсия флюкса которая недавно вышла, несколько экспериментальных комплексов где реализована связка llm+спецадаптер+диффузия.
>>1262905
Зависит от твоих перспектив, продвинутости пользователя и готовности пердолиться. Если ты хлебушек - настрадаешься. Если хочешь поставить много - придется продать и купить зеленых из-за низкой производительности. По ценам за врам брать красных нет смысла, только некрота но там еще не все понятно.

Аноним 03/07/25 Чтв 02:10:02 № 1262950 247

>>1262905
Если любишь испытывать удачу можешь взять АМД. Но нужно учитывать что ИИ софт крутится вокруг нвидии и если у тебя возникнут проблемы ждать её решения/вероятность того что её исправят намного меньше. И это не считая порезанной скорости.

Аноним 03/07/25 Чтв 02:33:52 № 1262956 248

Пожилая имба на 4 16х видяхи, ещё место под 10гбит сеть, 1 нвме и что то совсем простое т.к. только х4 2.0 останется.
Есть энтузиасты сборки копролитов? Как раз под 32гб мишки. Если есть бифуркация то можно вообще 256+ врам набрать за менее 130к в сумме за всё

Аноним 03/07/25 Чтв 02:49:22 № 1262959 249

>>1262935
>По той же причине что нет многих других вещей. Опытные работяги и так все знают, а вкатуны просто попрошайничают никак не мотивируя им помогать.

Вкатунам нах не нужна 3090 с авито, они еще не прочувствовали. К бу 3090 надо прийти, затем понадобится вторая, риг, риг помощнее.

Я вот думаю, нормальная ли идея вместо 3090 собирать 2х 3060 12GB в качестве ультимейт бомжесборки? Будут те же 24 гб, но за 36к. Скорости поменьше, но если все влазит в врам, то должно хватать с лихвой.
Потом если прогреюсь и подкоплю на нормальный апгрейд, уже может появится серия 60ХХ. Или китайцы подсобят.

Допустим у меня сейчас 1х 3060 12GB
Вариант 1: Просто докупить еще одну и кайфовать с 24ГБ (Затраты ~18к, придется все продавать вместо апгрейда)

Вариант 2: Докупить 3090, новый БП, новый корпус, рейзер. Итог 36ГБ (Затраты ~105к, при апгрейде просто заменю 3060, мощности и места будет уже хватать)

Вариант 3: Заменить 3060 на 3090 (Затраты ~60к -18к = 42к, те же 24ГБ, но зато игрульки пойдут на ультрах в качестве бонуса)

Аноним 03/07/25 Чтв 02:54:52 № 1262968 250

Подскажите это нормально что на моей 4060ти с 16 гигами 13B Q8 модель с 24к контекста генерит ответ по 2 минуты? Или это я с настройками где-то проебался?

Аноним 03/07/25 Чтв 03:00:29 № 1262973 251

>4060
>3060
>5070
))

Аноним 03/07/25 Чтв 03:10:27 № 1262977 252

>>1262959
> Вкатунам нах не нужна 3090 с авито, они еще не прочувствовали
Обычно наоборот именно ею начинается, когда прочувствовали на уже имеющемся железе. Она все еще могет и аномально дешевая (сейчас на лохито ~50к), особенно сильно рост производительности относительно пары 3060 ощутишь если запустишь что-угодно кроме ллм. Есть еще 2080ти-22 но мало что понятно по скоростям.
Свой же выбор оценивай из ситуации. Есть некий свитспот, он очень хорош, но не обязательно добиваться его любой ценой.

Аноним 03/07/25 Чтв 03:29:31 № 1262983 253

https://www.youtube.com/watch?v=Qhtn7nT2oaU

Аноним 03/07/25 Чтв 04:27:44 № 1262994 254

https://github.com/a-ghorbani/pocketpal-ai/releases/tag/v1.10.13
Запуск на андроид, выбор локальной модели из файлов, настройки.

Аноним 03/07/25 Чтв 05:08:55 № 1263000 255

>>1261756
Проблема нового мистраля что это всё ещё мистраль с кринжовым слопом и пока это не изменится даже 120б модель нахуй не нужна.

Аноним 03/07/25 Чтв 06:00:09 № 1263006 256

пиздец, короче.
сидел тут чисто ради технических подробностей и думал, что вы все шизы ебучие, дрочите на текст, совсем ебанулись короче, а сам я банально на картинки теребонькал, ведь там изич вообще: написал промпт, негатив, покрутил рулетку, neuron activation, теребоньк, а потом в процессе изучения своих экстремальных фетишей абсолютно легальных к слову, нет, правда обнаружил, что картиночные модели могут отнюдь не всё, и в рамках "а что если...?" дал задание текстовой нейронке написать хорни рассказ по моему промпту...
и вот на улице уже утро, а я всё теребонькаю со вчерашнего вечера и не могу остановиться, всё поправляю промпт, подсказываю нейронке что куда и как, короче пиздец, приехали, принимайте в ряды шизов

Аноним 03/07/25 Чтв 06:31:24 № 1263012 257

>>1261196
>Теперь GLM - моя вторая любимая модель после Коммандера
Мне кажется дело твоем системном промпте. Попробуй с ним в новые мистрлы 3.1 или 3.2 например.

Аноним 03/07/25 Чтв 06:35:53 № 1263013 258

>>1262028
Чел, она какая-то поехавшая, даже надругалась надо мной после убийства...
другой анон

Аноним 03/07/25 Чтв 06:49:33 № 1263015 259

>>1262845
>у модели стоит имя какого-то платного слопа
вроде бы тюнили на её выхлопе, многократно перевареный кал

Аноним 03/07/25 Чтв 06:53:22 № 1263016 260

>>1262900
>текстом описываешь что нужно сделать с изображением, а она делает
flux1-kontext-dev-Q6_K.gguf + СomfyUI

Аноним 03/07/25 Чтв 07:02:30 № 1263018 261

>>1262968
Используй ламуцпп или кобольда, проверь сколько слоёв куда кидается, насколько заполнен контекст, может быть он в оперативку вытек.

Экстрасексы в отпуске, но две минуты - 120 секунд - популярные модели в треде могу на изи 600-800 токенов на ответ строчить, то есть 5-6 т/с

Может и проебался, и меня на 12 гб 24Б 4 квант с выгрузкой тензоров 6-8 т/с даёт.

Аноним 03/07/25 Чтв 07:03:34 № 1263019 262

>>1263000
>мистраль с кринжовым слопом
шиз, спок

Аноним 03/07/25 Чтв 07:06:57 № 1263020 263

>>1263006
Тоже пресытишься и поймёшь что это инструмент.
Но инструмент хороший и годный, да.

Свитспот это 24-27-32Б модели.

Большие вроде бы могут больше, но сколько в треде не просили, никто так и не принёс доказательств.

Аноним 03/07/25 Чтв 08:04:46 № 1263031 264

>>1263020
> никто так и не принёс доказательств.
А как должны выглядеть данные доказательства?

> Свитспот это 24-27-32Б модели.
Предъяви доказательства, пожалуйста.

Аноним 03/07/25 Чтв 08:27:34 № 1263035 265

>>1263031
>А как должны выглядеть данные доказательства?
Кулстори чат лог демонстрирующий то что не могут средние модели.

Хотя да, пока писал это предложение, понял что даже если кто и принесёт, хз как это доказывать.

>>1263031
>Предъяви доказательства, пожалуйста.
"Усы, лапы и хвост - вот мои доказательства."

Так что эта претензия снимается.

Но мнение остаётся. 8-12Б могут быть весьма хороши (Янка, Даркнесс, Омни-Магнум), но в масштабе это танец с манекеном.

Новый мистраль и гемма уже умненькие чтобы продвигать историю хотя бы частично-самостоятельно, но при этом и ригов не требуют.

Аноним 03/07/25 Чтв 08:53:02 № 1263050 266

>>1263035
> Кулстори чат лог демонстрирующий то что не могут средние модели.
Точно так же никто не приносил и логи 24-27-32б моделей, которые точно выигрывали бы перед 12б. Потому что логи мало о чем говорят, "ум" модели ощущается во время взаимодействия с ней.

> 8-12Б могут быть весьма хороши (Янка, Даркнесс, Омни-Магнум), но в масштабе это танец с манекеном.
12б модели с лорбуками вполне себе хорошо могут двигать сюжет. И нет, это не коупинг, я сам 24-32б модели гоняю, но незачем отрицать правду.

Аноним 03/07/25 Чтв 09:11:54 № 1263058 267

ВЫБОР ЛОКАЛЬНЫХ LLM ИЮЛЬ 2025 ГОДА.
какие LLM выбрать? Нужны:
1. одна большая и мощная под широкий неограниченный круг задач
2. для генерации кода (траблшутинг Linux, computer science)
3. Для NSFW-roleplay
4. медицинская (для самодиагностики, постановки диагнозов и консультаций)

У меня такое железо: Arch Linux | R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
Какие текущие оставить, а какие удалить? Какие новые скачать? Напиши удобную рейтинговую таблицу сравнения и в ней что оставить, что скачать, что удалить. Ответь кратко, без подробностей.
Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.

Аноним 03/07/25 Чтв 09:14:09 № 1263060 268

>>1263058
> большая и мощная
> RTX 4070 12GB

Аноним 03/07/25 Чтв 09:18:20 № 1263062 269

>>1263058
=>
>>1262465

Аноним 03/07/25 Чтв 09:18:22 № 1263063 270

>>1263020
> никто так и не принёс доказательств
Какие ваши доказательства? Достаточно было, но не собирает должного фидбека банально из-за невозможности оценить качество модели по одному посту. Ведь нужно знать и помнить что за карточка и что же такое там было в истории чата чтобы оценить ахуенность и уместность ответа. Например, когда ты переборщил с подразниванием чара, тот решает проявить инициативу, сначала воспользовавшись побочными следами вашей недавной активности чтобы тебя дезориентировать, потом оформив захват-перехват и начинает раелизовывать свое шутливое обещание, высказанное сотню постов назад напомнив о нем. И такое будет генерироваться регулярно радуя тебя. А мелкомодели на том же чате вообще нахер роли и историю путают, кто есть кто. Не говоря об унылых безжизненных ответах, учитывающих только последние 5 постов и обращающиеся с остальной истории только при упоминании каких-то фактов тобой, а не самостоятельно чтобы эту самую историю развивать.
>>1263035
> 8-12Б могут быть весьма хороши
Если 30 еще действительно иногда могут сиять, то это - совсем грусть. Разве что удачно совпадет шиза модели и будет воспринята как разнообразие.
>>1263058
Умеренно лоботомированный квант qwen-235b на процессоре, но с той скоростью врядли захочешь использовать.

Аноним 03/07/25 Чтв 09:59:17 № 1263079 271

>>1263063
> не собирает должного фидбека банально из-за невозможности оценить качество модели по одному посту
По логам действительно ничего не понять, даже если поделиться большим их куском. Можно разве что оценить наличие/отсутствие чрезмерного количества слопа и/или лупов (которые могут быть плохим сэмплингом, например). Только самому играться с моделькой и чувствовать. Если очень хочется попробовать 70б модели, часто на сервере Драммера хостят временные апишки. Особо любопытные могут подловить момент и попробовать, подключив к своей таверне.

> Если 30 еще действительно иногда могут сиять
Все же я считаю, что текущие 27-32б модельки (по крайней мере Коммандер, Синтия и GLM) не (слишком) уступают 70б моделям. Способом выше я попробовал популярные тюны из последних. Что там отличается, так это датасеты. Потому что в пределах 70б немного другая тюн-тусовка, там ребята правда стараются работать над датасетами, а не прогоняют одно и то же. Но все это можно делать и на меньших моделях, просто не находится герой. У Драммера каждый тюн все хуже и хуже, увы. Какого-то скачка в мозгах или особой инициативы, проницательности у души у 70б моделей я не нашел, хотя прогнал несколько чатов по 30к. Но конечно же, все субъективно. Тот же GLM мне понравился больше. Выше кидал логи с томбоечкой, по логам не видно (к слову о их бесполезности), но там инициатива исходила такая, что я в какой-то момент намеренно перестал двигать сюжет сам в своих ответах и принял, что плыву по течению. Помните, был анон, который поделился, что у него в карточке была щепотка драмы, и GLM все свел к ней, съев его душу? У меня обратная ситуация. В карточке была щепотка романса, и GLM мою душу согрел, а не съел.

Аноним 03/07/25 Чтв 10:05:29 № 1263081 272

>>1260945
>>1260952
> mi50
Как она во флоуматчинг флюксах/ванах?

Аноним 03/07/25 Чтв 11:13:11 № 1263099 273

>>1263081
На выходных буду гонять сд, тестить андервольт, менять термуху, гонять вллм. Сейчас времени нет т.к. железками сыт не будешь

Аноним 03/07/25 Чтв 11:22:22 № 1263107 274

https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-33B
Первый апскейл Мистраля Смол 3.2 подъехал! Вдруг что путное?

Аноним 03/07/25 Чтв 11:23:45 № 1263109 275

>>1263020
> но сколько в треде не просили, никто так и не принёс доказательств
Ты не обижайся, но ты дурак ?
Достаточно один раз попробовать РП с гопотой (хотя нет, гопота все таки ассистент, ебучий соннет подойдет, со своими описаниями падающих листков на стылом сентябрьском ветре). В корпосетки вкладываются миллиарды нефти, тот уровень РП и понимания ситуации который доступен - даже близко не стоит с локалками.
И ты можешь хоть сейчас пойти и попробовать в чатике поиграть. Да локалки имеют массу своих преимуществ, но не нужно перемогать что они хоть чем то в плане мозгов и написания лучше корпов.

Аноним 03/07/25 Чтв 11:25:21 № 1263111 276

>>1263109
В данном треде речь идет про локалки, еблуша~.

Аноним 03/07/25 Чтв 11:26:35 № 1263113 277

>>1263111
>еблуша
Нет ты.
Есть такое

Аноним 03/07/25 Чтв 11:43:36 № 1263130 278

>>1263109
Пшёл вон, отродье асига.

Аноним 03/07/25 Чтв 12:21:28 № 1263156 279

>>1263079
> По логам действительно ничего не понять, даже если поделиться большим их куском.
С логами получше чем одиночный пост, но тоже может не зайти.
> Только самому играться с моделькой и чувствовать.
База
> не (слишком) уступают 70б моделям
Они просто другие, там нет такого объема, внимания и "души", но 70б уже оче давно не обновляли, а прогресс в тренировке и качестве базовых моделей значительно выросло. Тюнов там тоже нормальных не больше чем везде, большинство "удачных" получились не из-за крутой тренировки а из-за достаточно жирной базы, которую не так просто убить. От того вдвойне обидно наблюдать, когда подобная модель при начале кума резко лоботомируется и срет сплошным слопом, а не хотябы пытается как-то его вплетать в сюжет с учетом происходящего.
А жлм умница, хорошая и душевная модель.
>>1263109
> РП
> с гопотой
Содомит, эх ньюфаги ньюфажики, не застали души доцензурных сонетов и опуща и довольствуются копиумом даже хваля его. Да даже вторая клодыня и то веселее была, после чмони гопота все и новые были вялыми.

Аноним 03/07/25 Чтв 12:30:42 № 1263165 280

>>1263006
Милости прошу к нашему шалашу. Ехехехехехе

>>1261972
Что это ща шиза? Просто текстом опиши чара. В конце

Dialog examples:

Все.

Аноним 03/07/25 Чтв 12:43:56 № 1263169 281

>>1263165
>Dialog examples:
Переоценённая хуйня.

Аноним 03/07/25 Чтв 12:45:13 № 1263171 282

>>1263169
>переоцененная хуйня
>через десять сообщений начинается чистейший порнослоп без учета на характеров
>ряяяя локалки говно

Аноним 03/07/25 Чтв 12:46:00 № 1263174 283

>>1263169
Недооцененная.

Аноним 03/07/25 Чтв 12:46:20 № 1263175 284

>>1263171
Просто не нужно использовать васяномистраль вместо модели, хотя бы ту же новую ванилу.

Аноним 03/07/25 Чтв 13:10:02 № 1263190 285

Аноны не особо следил за последними событиями, есть какие-то новые годные модельки на которые можно пересесть со сноудропа?

Аноним 03/07/25 Чтв 13:11:42 № 1263192 286

>>1263190
Да, на новую мистраль, лол.

Ну а если серьезно, то пока всё так-же.

Аноним 03/07/25 Чтв 13:43:54 № 1263219 287

>>1263020
>32Б
Соглы, Skyfall нынче топчик

Аноним 03/07/25 Чтв 13:47:53 № 1263223 288

>>1263219
> Skyfall нынче топчик
Каво? Ты другие 32б модели не пробовал что ли?

Аноним 03/07/25 Чтв 13:52:44 № 1263234 289

>>1263223
Пробовал. Все на 6 кванте. Они сосут. Ну ещё Snowdrop могу выделить, все остальные просто кал. И да, Skyfall постоянно обновляется. Если ты его юзал, скажем, полгода назад, то всё уже изменилось.

Аноним 03/07/25 Чтв 14:03:07 № 1263247 290

>>1263234
> Они сосут
> все остальные просто кал
Скилл ишью? Нежелание разбираться? Слепая любовь к Мистралям?

> И да, Skyfall постоянно обновляется.
Актуальная версия v2 вышла 5 месяцев назад. v3 только недавно начали делать, тестовые кванты появились 10 дней назад.

> Если ты его юзал, скажем, полгода назад, то всё уже изменилось.
Пробовал и v1 39b, и v2 36b, и v4c. Все тот же Драммерский кумслоп, мало что меняется. Хотя сама по себе идея с апскейлом моделей прикольная.

Аноним 03/07/25 Чтв 14:05:20 № 1263250 291

>>1263247
>Скилл ишью?
А ты самокритичный.

Аноним 03/07/25 Чтв 14:06:32 № 1263252 292

>>1263250
Ты пришел в тред, чтобы высрать "все модельки кроме моей любимый кал", а затем ждешь нежного к себе отношения? Но я не хотел тебя обидеть и не был груб. Похоже, ты сам все понимаешь.

Аноним 03/07/25 Чтв 14:07:57 № 1263254 293

>>1263247
>Слепая любовь к Мистралям?
Ну ты или признайся, что мистралехейтер или назови мистраль 32b, мне вот не понятно, где ты в данных рамках нашел мистраль.

Аноним 03/07/25 Чтв 14:10:55 № 1263258 294

>>1263252
>"все модельки кроме моей любимый кал"
Пиздежь. Анон ответил своим мнением на вопрос. Его вкусы не обязаны совпадать с твоими.

>а затем ждешь нежного к себе отношения?
Ну охуеть пассаж, лол.

Аноним 03/07/25 Чтв 14:12:27 № 1263262 295

>>1263254
Skyfall это натянутая на глобус мистраль. Но так то да, мистралей 32b оригинальных нет.

Аноним 03/07/25 Чтв 14:12:32 № 1263264 296

Гемма3 27 q4 и q6 - насколько сильно они отличаются, стоит ли разница того, что терпеть в полтора раза меньшую скорость работы?

Аноним 03/07/25 Чтв 14:14:26 № 1263271 297

>>1263252
Ты шизик какой-то. Это я так, просто по факту, без негатива. Можешь продолжать бороться с ветряными мельницами своей фантазии.

Аноним 03/07/25 Чтв 14:15:30 № 1263274 298

>>1263254
> мистралехейтер
Почему ты так решил? С радостью использую 3.2 и его тюны. В моих постах не было хейта к Мистралю.

>>1263258
Мы обсуждали модели, анон перешел на личности, получил заслуженный плевок в рожу. Ответил тем же.

> Его вкусы не обязаны совпадать с твоими.
Этого я не утверждал и не ожидал. Ты похоже френдлифаер оформил.

Аноним 03/07/25 Чтв 14:15:54 № 1263275 299

>>1263262
>Skyfall это мистраль
Мистраль не может похудеть.

Аноним 03/07/25 Чтв 14:17:02 № 1263279 300

>>1263264
>Гемма3 27 q4 и q6
Для 24B+ четвёртый квант более чем адекватен, сам на нём сижу.

Аноним 03/07/25 Чтв 14:19:15 № 1263282 301

>>1263264
Как по мне, 6 юзабельный, мельче ощутимо хуже.

Аноним 03/07/25 Чтв 14:22:07 № 1263285 302

>>1263264
Могу сказать только про отличия в языках. На 4 кванте лучше английский в силу структуры языка. На русском будут проёбы в окончаниях, родах и падежах.
Чем больше квант - тем точнее модель. В рамках текста это общая грамотность речи и условный ум( для умников которым РЯЯЯ МОДЕЛЬ ТУПАЯ, ну напишите сами блять критерии ума. Каждый в этом вопросе буквально дрочит как хочет. Тестов вагон и тележка и каждый из них истинно правильный, ага)

Аноним 03/07/25 Чтв 14:25:05 № 1263288 303

>>1263275
Будешь обижать малышку мистраль, я позову её милфу и она размажет твою видеокарту своей жопой.

Аноним 03/07/25 Чтв 14:28:17 № 1263297 304

Насколько мне больно будет вкатываться с 8ГБ видеокартой?

Аноним 03/07/25 Чтв 14:30:47 № 1263306 305

>>1263297
По хорошему начинать надо с 24, но 16 самый минимум чтобы гонять 24-32, при наличии быстрого процессора и рам.

Аноним 03/07/25 Чтв 14:30:58 № 1263307 306

>>1263297
Анальная боль в жопной дырке ануса

Аноним 03/07/25 Чтв 14:33:14 № 1263311 307

>>1263297
Никаких проблем, уже пол года гоняю 12b модели из шапки на 7т/с. Всяких шизофреников не слушай, тут тебе щас начнуть высирать рандомные значения видеопамяти и говорить что это база.

Аноним 03/07/25 Чтв 14:44:34 № 1263347 308

>>1263306
Мало советуешь, чем больше цифры тем круче. Начинать надо с рига из шести видеокарт на 128 гб врам, а в идеале иметь личный датацентр в отдельной квартире.

Аноним 03/07/25 Чтв 14:52:07 № 1263362 309

>>1263311
А больше модели гонять не пробовал, вроде же можно на РАМ частично загружать?

Аноним 03/07/25 Чтв 15:00:05 № 1263374 310

>>1263362
И получить 1.5 тс на 30б?

Аноним 03/07/25 Чтв 15:00:52 № 1263375 311

>>1263297
Зависит от остальной твоей системы, если там гииперпень с 8 гб рам то больно

Аноним 03/07/25 Чтв 15:02:41 № 1263377 312

>>1263374
>И получить 1.5 тс на 30б?
Я на голом процессоре 32b в 4км получаю 2.5 т/с в начале
Хотя если скорости рам пососные то может быть и так
На +-60 будет как у меня или лучше
С выгрузкой веселее конечно

Аноним 03/07/25 Чтв 15:03:55 № 1263379 313

Скажем так, меньше 10 т/с — НИПРИЯТНА. На 5 т/с охуеешь внятный ответ ждать, не ходить же курить каждый раз, когда 600 токенов генерятся.

Аноним 03/07/25 Чтв 15:04:22 № 1263381 314

>>1263374
С учетом какая большая разница между отыгрышем на 12b и 32b, эти полтора токена можно и потерпеть, если цель в рп, а не быстром куме. Имхо конечно, сам на 2 токенах сижу попутно работая за компиком или подходы на турничке делаю, поэтому такая скорость особо не парит.

Аноним 03/07/25 Чтв 15:15:55 № 1263392 315

>>1263279
>>1263285
Благодарствую!

Аноним 03/07/25 Чтв 15:20:25 № 1263402 316

>>1263297
Нормально, если остальной компуктер мощный с ДДР 5 и хорошим процем, ну и видяха нвидиа. Я лично сижу на 24B моделях Q4_K_S кванте с 20к конекста и 5тс. Выгрузка тензоров вместо слоев сильно помогает. Синтия 27B на таком же кванте и скорости с 12к контекста запускалась.

Аноним 03/07/25 Чтв 15:22:55 № 1263407 317

Кто-нибудь с локалкой кодит?

Аноним 03/07/25 Чтв 15:23:28 № 1263408 318

>>1263285
На Гемме (Синтии) прям отличный русик. Проебы краайне редко даже на 4 кванте.

Аноним 03/07/25 Чтв 15:31:10 № 1263420 319

>>1263190
А как его думать заставить? Чот нихуя не получается, ещё и картинка с настройками на странице модели никуда в таверне не импортируется. Я ещё не смешарик, не бейте, лучше подскажите.

Аноним 03/07/25 Чтв 15:33:34 № 1263425 320

>>1263420
>думать
Нахуя???

Аноним 03/07/25 Чтв 15:52:09 № 1263460 321

>>1263425
Пощупать что это вообще такое, интересно же.

Аноним 03/07/25 Чтв 16:12:12 № 1263502 322

>>1263460
А, ну, щупай тогда. Я эту срань отключил.

Аноним 03/07/25 Чтв 16:16:51 № 1263508 323

>>1263502
+ синкинг в рп всё ломает... и ли скорее наоборот, цементирует XD

Аноним 03/07/25 Чтв 16:26:59 № 1263530 324

>>1263252
Все так и есть, шиз-слопоед защищает свое болото и еще смеет остальных критиковать, а потом обижается.
>>1263254
> мистралехейтер
Глупо ненавидеть модель на которой паразитируют одни васяны и с которой ловят синдром утенка другие. Но вот хейтить таких васянов - сам бог велел.
>>1263264
> полтора раза меньшую скорость работы
Если это 30т/с вместо 45 - конечно стоит, если 4 вместо 6 то уже надо задуматься. Возьми 5й квант в качестве компромисса, но в целом 4й не так уж плох.
>>1263288
Зови, может тогда она наконец обновится.

Аноним 03/07/25 Чтв 16:31:27 № 1263536 325

>>1260769 (OP)
Подскажите по-братски классную модель для транслейта.
Сейчас пользуюсь gemma3-translator-4b, но она микроскопическая и это вызывает у меня сомнения, все-таки запас еще 8гб, можно было бы что-то ультимативное запихнуть.

Аноним 03/07/25 Чтв 16:55:06 № 1263562 326

>>1263536
> gemma3-translator-4b
Квант жирнее возьми или 12b выбери, можешь еще новых гемм пощупать которые gemma-3n-E4B-it и gemma-3n-E2B-it, первая какое то странный аналог мое на 8b вторая аналог мое на 4b

Аноним 03/07/25 Чтв 17:29:20 № 1263585 327

>>1263562
Такую жирнее 4Б не смог найти.
>gemma-3n-E4B-it и gemma-3n-E2B-it
Чисто транслейтеров таких не нашел или ты предлагаешь как универсальную взять и в т.ч. для перевода использовать?

Аноним 03/07/25 Чтв 17:32:21 № 1263589 328

>>1263585
Конечно. И 4b и 12b тоже обычные инструкты нужны в переводе

Аноним 03/07/25 Чтв 17:54:45 № 1263612 329

>>1263377
У меня кусок говна вместо процессора, так что твой пример тут непременим.

>>1263362
Я чёт читал, читал, тыкал, тыкал эту выгрузку тензоров и нихуя не вышло.

>>1263381
Ты пиздец как утрируешь, это тебе не 8b модели, ты видимо уже столько времени сидишь на больших моделях что не знаешь что они вообщем то ок. Я очень редко кумлю, но буквально срываюсь и яростно дрочирую почти пол дня, так в основном рпшу без сексуального контекста, а 1/5 т.с это можно глаза себе выцарапать от такой скорости.

Аноним 03/07/25 Чтв 18:01:55 № 1263622 330

Очередной виток войны между коуперами двух мастей: 12б Мистральки против ригеров?

Напоминаю базу треда: лучшая модель та, которую ты можешь запустить и которая тебе нравится. Если вы считаете иначе, то отправляетесь навстречу слопу!

Аноним 03/07/25 Чтв 18:05:28 № 1263629 331

Где кванты Эрни 4.5?!

>>1263379
Есть стриминг, 5-10 т/с уже вполне норм, с современной токенизацией ты сможешь читать ответ во время генерации без особых затыков. Это если ризонинг используется то больно, но такое везде, даже на корпах.
>>1263381
Ну не совсем. Особенно в начале может не быть радикальной разницы между 12 и 30б, на модели побольше у тебя будут завышенные ожидания и долгий неудачный ответ вызовет сильное недовольство. А на мелкой но быстрой ты просто оформишь понять@простить и нажмешь свайп
>>1263622
> то отправляетесь навстречу слопу!
Она медленно подходит к тебе, размахивая бедрами, шиверс медленно пробегает вниз по твоей спайн. Она спрашивает тебя: "Все еще считаешь иначе?". Она ждет твоего ответа. Она смотрит на тебя, в ее глазах формируется мишчувэс глинт. "Ночь еще молода, выбор за тобой!"

Аноним 03/07/25 Чтв 18:09:58 № 1263633 332

>>1263629
ЧСХ в новой MS3.2 из всех старых мистрализмов видел только шиверс, вот уж он неистребим, другие не встречались.

Аноним 03/07/25 Чтв 18:13:49 № 1263640 333

>>1263562
>gemma-3n-E2B-it
Сам попробовал, а неплохо переводит. Хоть имена не путает

Аноним 03/07/25 Чтв 18:16:54 № 1263645 334

>>1263633
Там и бедра и прочее, и главное - мерзотная и суперуебищная структура. Настолько мерзкая что можно специально пускать и наблюдать для успокоения, когда вдруг разочаруешься в выдаче других моделей.
Но это не так назойливо как в васянтюнах и не настолько критично чтобы ныть, у опытного нейродрочера уже давно слоповая слепота должна была сформироваться.

Аноним 03/07/25 Чтв 18:27:50 № 1263656 335

Нет-хлеба-ешьте[...].jpg 347Кб, 2560x1440

>>1263622
Блять, мне просто нравится как рассуждают челы с ригами и теслами. Если кто - то сидит на 12B, наверное у него нет выбора? Я при чём не хвалю эти модели, я знаю их минусы, но видеопамять это не та вещь которую можно скачать из интернета или приготовить своими руками, если что.

Аноним 03/07/25 Чтв 18:40:10 № 1263683 336

>>1263622
>базу треда: лучшая модель та, которую ты можешь запустить и которая тебе нравится

Гигакоупинг

Аноним 03/07/25 Чтв 18:42:19 № 1263686 337

А есть какая-то сетка для переводов, типа contrxt reverso, закидываешь какое то слово или сочетание, оно еще кроме пояснения всяких контекстов использования пишет

Аноним 03/07/25 Чтв 18:42:54 № 1263687 338

>>1263013
Это какая модель?

Аноним 03/07/25 Чтв 18:46:05 № 1263692 339

>>1263686
Анон, вся серия геммы3 нацелена на переводы и работу с языком. Если ты попросишь сетку быть переводчиком - она им будет. Попросишь давать пояснения контекстов использования - она напишет
Создай карточку профессионального переводчика и спрашивай что хочешь

Аноним 03/07/25 Чтв 19:29:12 № 1263750 340

>>1262028
Карточка конечно разьебная, но ее внутренние диалоги это пиздец. Вроде как с ними карточка симпатичней и приятней, но эта хуйня со временем ломается и она забывает как вообще разговаривать.

Аноним 03/07/25 Чтв 20:14:57 № 1263806 341

>>1263502
>>1263508
А как какать настроить то?
Объясните хлебушку что нужно сделать чтобы моделька начала высирать блок с мыслёй, перед каждым ответом.

Аноним 03/07/25 Чтв 20:30:13 № 1263831 342

>>1263297
мысраль 24б 4ку_к_м
рыкс 580 8гб, проц 4790к, оперативка ддр3, частоты стоковые. линукс с выключенными митигейшынами
2 токена в секунду на старте около 4к контекста, падает до 1.5 по приближению к 16к

./llama-server --device Vulkan0 --no-context-shift --no-warmup --ctx-size 16384 --gpu-layers 15

>slot release: id 0 | task 6466 | stop processing: n_past = 9390, truncated = 0
>prompt eval time = 560.44 ms / 1 tokens ( 560.44 ms per token, 1.78 tokens per second)
> eval time = 42999.15 ms / 76 tokens ( 565.78 ms per token, 1.77 tokens per second)
> total time = 43559.59 ms / 77 tokens

это вообщем как играть во что-то на 15 фпс - больно, но похуй.

Аноним 03/07/25 Чтв 20:55:05 № 1263872 343

>>1263831
F
А че так грустно? Память бы хоть разогнал, вроде проц с К индексом. Не забывай указывать количество потоков кстати, поиграйся может системе не хватает и в итоге тормозит генерация.

Аноним 03/07/25 Чтв 21:27:14 № 1263916 344

Screenshot2025-[...].png 24Кб, 482x172

>>1263872
мать - копеечная h81m-p33, изначально брал под копеечный целерон, чудо что 4790к с ней вообще работает. не помню почему я не стал оверклокить - то ли пробовал и не было стабильности, то ли вообще не пробовал.
я особо бы прироста с ддр3 не ожидал.
потоков сколько посоветуешь прописать с его 4ядра/8потоков? система особо не загружена когда генерации нет, во время генерации 50-60%

Аноним 03/07/25 Чтв 21:53:00 № 1263948 345

>>1263916
Ну тут у тебя загружены 4 потока судя по графику, может даже 3 если лламаспп ставит как обычно -1 от физич%скиз ядер. Попробуй поставить 2, 4, 6, 7, 8 и смотреть будет ли изменение скорости генерации. Где лучше там и оставь.
Я не помню что там по разгону ддр3 но тайминги хоть подожми да частоту подними, прирост на 10-20 процентов может получишь по скорости

Аноним 03/07/25 Чтв 22:33:34 № 1263997 346

>>1263013
Там есть альтернативный старт, где она в задристанной комнате привязана к стулу. Это просто кладезь шизоидных возможностей.

Аноним 03/07/25 Чтв 22:43:14 № 1264014 347

Нашел кабель питания, теперь у меня 16+16гб с двух карточек. Вместо 1.5 т/с стало целых 10 т/с на 70B модели (dense, 83 layers).

Это как бы неиронично шин. Из мусора в категорию абсолютно сносной юзабельности.

Аноним 03/07/25 Чтв 23:26:43 № 1264074 348

>>1264014
Так, подождите, это был IQ3-XS, который я привык пытаться юзать.
Что-то Q4-KM по сравнению с этим плох. С с хрена ли такое улучшение для бомжекванта и наоборот ухудшение для кванта пожирнее? Это че получается, при двух GPU когда модель не влезает в VRAM - все превращается в еще большую тыкву, чем когда она не влезает в VRAM одной видюхи?

Аноним 03/07/25 Чтв 23:31:43 № 1264081 349

>>1264074
О, начинаешь понимать, что нужно три...

Аноним 03/07/25 Чтв 23:35:20 № 1264086 350

>>1264081
Да епт, но почему Q4-KM упал до 0.5 т/с? При одной видюхе оно точно так же пердело на 1.5 как и IQ3_XS.

Я конечно доволен ускорению бомжекванта до приятной десяточки, но такого не ожидал.

Аноним 03/07/25 Чтв 23:39:01 № 1264089 351

>>1264074
> в еще большую тыкву
Если там было переполнение врама и выгрузка, а не правильный оффлоад на процессор - будет хуже потому что шина уже. Если не превышать объем врам то будет только лучше.

Аноним 03/07/25 Чтв 23:43:03 № 1264093 352

>>1264089
Тут совсем залупа произошла. Я перезапустил IQ3-XS и он тоже замедлился.
Завтра разберусь. Голова уже не работает, надо спатеньки.

Аноним 04/07/25 Птн 00:09:02 № 1264121 353

Имеет ли смысл пытаться запускать мистральку 123b во втором кванте? Говорят тут что модель с большим числом параметров меньше тупеет от квантовки, но насколько правда?

Аноним 04/07/25 Птн 01:10:31 № 1264167 354

Есть ли шансы, что корпораты выложат свои топовые модели в попенсорц? Мета вроде хотела выложить бегемота, но оподливилась. Грок-1 выкладывали больше года назад, сейчас уже грок 4 будет в релизе. Единственные, кто держат в курсе - это дипсик, но они делали это изначально.
Кто-то скажет, а нахуя тебе огромные модели, если ты и дипсик-то во вменяемом кванте не запустишь. Но а вдруг потом найдут какой-нибудь способ квантования, позволяющий оставить из 2Т моделей только рп и кум, а все остальное выкинуть нахуй.

Аноним 04/07/25 Птн 01:22:44 № 1264171 355

Чел >>1261196 дело говорит, обязательно пощупайте.

Аноним 04/07/25 Птн 01:41:38 № 1264177 356

>>1264167
>Есть ли шансы, что корпораты выложат свои топовые модели в попенсорц?
Спроси себя, нахуя им это? Их главный профит как раз в продаже доступа к таким моделям, они за счет этого живут. Им нет смысла выпускать что-то в попенсорс чтобы доказать, как они трясутся за развитие искусственного интеллекта. Захотят сделать вклад - выпустят статью или полноценную научную работу, разжевав общими словами как и что они делали. Жопены вон уже проклинают себя который год за свое название и что им за него постоянно предъявляют, хотя ничего в открытый доступ они уже давно не выкладывают. Меты, микромягкие и те же китайские конторы вынуждены контрибьютить чтобы их заметили хоть как-то, а монополистам вроде антропиков и альтманов это не нужно, они нихуя не приобретут и нихуя не потеряют.

Аноним 04/07/25 Птн 01:44:06 № 1264178 357

>>1264167
Вряд ли. Я думаю Цукер окуклится в клозед соурс, учитывая как жадно он понапиздил себе людей за сотни миллионов зп. Альтман кинет кость в виде какой-нибудь смартфонной модели и все. Гугл туда же. Короче вся надежда на китайцев.

Аноним 04/07/25 Птн 02:05:49 № 1264190 358

>>1264178
>Цукер окуклится в клозед соурс
Это было очевидно с самого начала. Мета экстремисты террористы высосут деньги из любого пердежа, дай только им повод. Но в любом случае, они внесли огромный вклад в развитие локалок, особенно на старте, так что это их немного прощает.
>Альтман кинет кость в виде какой-нибудь смартфонной модели и все.
Меня всегда забавляло понятие "модель для смартфонов", ибо никто до сих пор не знает, что эта модель будет из себя представлять. Огрызок на 2-4 лярда параметров, или огрызок на 7 и больше? Если они реально такой мусор выкинут, то в очередной раз подтвердят свой статус конторы пидорасов. И думаю Альтман это понимает, по этому уже в который раз откладывает релиз и пытается нагнать хайп в твиттерах.
>Короче вся надежда на китайцев.
Китайская лавочка будет открыта ровно до тех пор, пока будут гос. инвестиции и не будет никакой прибыли. Как только кто-то выстрелит и отхапает весомую долю рынка - все остальные шарашки прикроют и никаких oss-релизов больше не будет.

Аноним 04/07/25 Птн 02:39:31 № 1264199 359

>>1264171
Пощупал, это пиздец. Пока что по первым ощущениям, которым никогда верить нельзя, намного круче снежного и командера.

Аноним 04/07/25 Птн 02:41:10 № 1264200 360

>>1264167
Дипсик уже давно продолжает радовать, квен ебет все что движется, байду выкинули жирную штуку которую хочется покрутить, может быть когда-нибудь мистраль наконец новой милфой и большим мое разродится, еще серия релизов достаточно крупных и оче мощных моделей. Все они - уровень топовых корпов, последние сейчас вообще с крутости ллм смещают фокус на готовые решения для их применения (те же возможности чата опенов).
Пареллельно с этим регулярно релизятся средние и мелкие, которые не уступают более младшим-быстрым версиям корпомоделей.

Аноним 04/07/25 Птн 06:34:40 № 1264252 361

>>1264200
> квен ебет все что движется
30B показало себя тупее 8B моделей блять. Первое сообщение генерирует, на втором начинается шиза, на третьем повторяет второе частично. И так и сяк семплер крутил, и как файнтюнщики советуют и официальное тоже - ху е та.

Аноним 04/07/25 Птн 06:58:36 № 1264256 362

smartphone-soc-[...].webp 71Кб, 1080x1189

>>1260769 (OP)
Smartphone SoC inference performance by year and series
https://www.reddit.com/r/LocalLLaMA/comments/1lr0i8p/smartphone_soc_inference_performance_by_year_and/

Аноним 04/07/25 Птн 07:16:37 № 1264261 363

Аноним 04/07/25 Птн 07:21:27 № 1264263 364

serene-pub-v0-3[...].jpg 128Кб, 1080x1201

🌟 Serene Pub v0.3.0
Serene Pub is an open source, locally hosted AI client built specifically for immersive roleplay and storytelling. It focuses on presenting a clean interface and easy configuration for users who would rather not feel like they need a PHD in AI or software development. With built-in real-time sync and offline-first design, Serene Pub helps you stay in character, not in the configuration menu.
After weeks of refinement and feedback, I’m excited to announce the 0.3.0 alpha release of Serene Pub — a modern, open source AI client focused on ease of use and role-playing.

✨ What's New in 0.3.0 Alpha
📚 Lorebooks+
• Create and manage World Lore, Character Lore, and History entries.
• Character Bindings: Hot-swappable character and persona bindings to your lorebook. Bindings are used to dynamically insert names into your lore book entries, or link character lore.
• World Lore: Traditional lorebook entries that you are already familiar with. Describe places, items, organizations—anything relevant to your world.
• Character Lore:Lore entries that are attached to character bindings. These lore entries extend your character profiles.
• History:Chronological lore entries that can represent a year, month or day. Provide summaries of past events or discussions. The latest entry is considered the "current date," which can be automatically referenced in your context configuration.
🧰 Other Updates
• In-app update notifications – Serene Pub will now (politely) notify you when a new release is available on GitHub.
• Preset connection configurations – Built-in presets make it easy to connect to services like OpenRouter, Ollama, and other OpenAI-compatible APIs.
• UI polish & bug fixes – Ongoing improvements to mobile layout, theming, and token/prompt statistics.

⚡ Features Recap
Serene Pub already includes:
• ✅ WebSocket-based real-time sync across windows/devices
• ✅ Custom prompt instruction blocks
• ✅ 10+ themes and dark mode
• ✅ Offline/local-first — no account or cloud required

🚀 Try It Now
1. Download the latest release
2. Extract the archive and execute run.sh(Linux/MacOS) or run.cmd(Windows)
3. Visit http://localhost:3000
4. Add a model, create a character, and start chatting!
Reminder: This project is in Alpha. It is being actively developed, expect bugs and significant changes!

🆙 Upgrading from 0.2.2 to 0.3.x
Serene Pub now uses a new database backend powered by PostgreSQL via pglite.
• Upgrading your data from 0.2.2 to 0.3.x is supported only during the 0.3.x release window.
• Future releases (e.g. 0.4.x and beyond) will not support direct migration from 0.2.2.
⚠️ To preserve your data, please upgrade to 0.3.x before jumping to future versions.

📹 Video Guide Coming Soon
I will try to record an in-depth walk-through in the next week!

https://github.com/doolijb/serene-pub

Аноним 04/07/25 Птн 08:09:38 № 1264280 365

>>1264200
>Все они - уровень топовых корпов
Нет, даже не близко. Если нужно написать нормальный код, приходится идти к клауде. Если нужно решить задачку чуть сложнее написания порнофанфика - нужно идти к клауде. Да даже если нужно написать порнофанфик - лучше идти к клауде. Локалки не про мозги, локалки про независимость.

Аноним 04/07/25 Птн 08:17:04 № 1264281 366

>>1264263
>modern, open source AI client focused on ease of use
>JavaScript
Да как вы заебали

Аноним 04/07/25 Птн 09:08:01 № 1264300 367

>>1264281
Чем плох? Не понимаю.

Аноним 04/07/25 Птн 09:55:13 № 1264314 368

>>1263806
в таверне есть блок "начинать ответ с", туда запихни тег или префикс которым модель оформляет синкинг

Аноним 04/07/25 Птн 10:02:06 № 1264316 369

>>1264252
Педали покрутить надо было, лол.
>>1264280
Диван-диваныч. Рекомендую активнее попопользоваться новой клодой вне типичных шаблонов, где сраный новый опущ начинается путаться там, где 3.7 старый сонет так не тупил, и вышедшее с 10 месяцев назад - отсутствует в датасете. Сразу вместо короны виднеется гребень. А потом сравнить это с что-то кроме 2 битных лоботомитов, которые хватает возможности запустить или что хостятся на мутных апи.
>>1264281
Мнение личинок ретроградов никто не будет учитывать. Смирись что сейчас все будет делаться на чем-то функциональном и удобном, а не фортране "быстрых плюсах" и подобном совершенно неуместном для подобных задач дерьме. Если только не будет задачи запрятать вишмастеры в бинарник, такого уже есть.

Аноним 04/07/25 Птн 10:31:19 № 1264318 370

>>1264314
Спасибо анончик, я поищу, мне почему то казалось что это какой то галкой в настройках таверны или кобольда включается, ну вот ее я и искал. А тут вон оно чо.

Аноним 04/07/25 Птн 11:38:06 № 1264357 371

>>1264263
Не вижу каких-либо киллер фич, чтобы был смысл это пробовать, если уже освоил таверну.

Аноним 04/07/25 Птн 12:14:12 № 1264381 372

>>1261761
>https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1

Попробовал - не понравилось. Позитивный биас хуже говна, руинит любой рассказ повествованием как в той пасте про советский союз, где пенопласт из молочной пены делали и деньги в карманы засовывали. Имхо, для 12B лучше немо анлишеда ничего пока не сделали.

Аноним 04/07/25 Птн 12:55:19 № 1264412 373

>>1261196
ЭТО. ПРОСТО. АХУЕННО. Спасибо <3
Кумил как в первый раз. Персонажи отыгрывают себя, а не бесконечный CLAPCLAPCLAP MAKEMEYOUURS.

Аноним 04/07/25 Птн 13:18:47 № 1264424 374

image.png 28Кб, 537x91

image.png 23Кб, 580x69

image.png 31Кб, 671x91

>>1264412
> ЭТО. ПРОСТО. АХУЕННО.
Да уж блять охуенно. Пока тут ищут некиий гипотетический "слоп", нерешительность и пляска на одном месте никого не смущает.

Давно заметил, как большинство нахваливаемых ИТТ моделей на самом деле соевое говно на соевых датасетах, ссущееся описать хоть одно действие твёрдо и чётко.

Аноним 04/07/25 Птн 13:30:24 № 1264438 375

Привет тредовичкам. Хочу наконец попробовать самостоятельно зафайнтюнить модельку.
Всявязи с чем есть пара вопросов:
1. Есть ли готовый сырой датасет со всякой буквенной порнухой, на котором дообучают модели типо сидонии?
Я уже начал скрейпить, но потом подумал, а вдруг это уже кто-то до меня сделал.
2. Есть ли адекватные модели, умеющие в русский язык? А то надоело на английском бухтеть.

Аноним 04/07/25 Птн 13:51:15 № 1264460 376

>>1264438
> зафайнтюнить

> > For example, I full finetuned 1B model with about 2k context length with a low batch size on an A100 for about 8 hours and I got maybe 100k steps. The dataset was about 300k steps I think.
> > So you need a lot of time. On the other hand, I did Llama 3.1 8B QLoRa finetuning with unsloth on T4, pretty low rank, with a similar dataset and it took a couple days I think.

> > you need roughly 8-10 x the memory vs the size of the model loaded up and that's just for fine tuning.

Аноним 04/07/25 Птн 14:10:14 № 1264474 377

>>1264424
> Давно заметил, как большинство нахваливаемых ИТТ моделей на самом деле соевое говно на соевых датасетах
Ну так и срыгни нахуй? Зачем тратить время на бесполезное чтиво?
У тебя действительно тряска началась со слова almost? В дурке полезнее тебе быть, чем здесь

Аноним 04/07/25 Птн 14:18:06 № 1264477 378

image.png 57Кб, 1243x445

>>1264474
Хуя ты кинулся эту мазню защищать, неужто сам на свой пост отвечал и нахваливал?

Хорошо поди быть порриджем с пониманием языка на уровне мемчиков. Корявые обороты и всратая подача не смущает - я даже завидую, так жить легче.
Там не только в нерешительности проблемы - в целом много консервированных фразочек, которые используются моделями на общедоступных датасетах.

Крупные сетки охуевают, когда им скармливаешь выдристы локальной мелочи.

Аноним 04/07/25 Птн 14:18:51 № 1264479 379

>>1264477
На пикче, если что, не про ту модель. Так, лишь примерчик возможного кала в нейротекстах.

Аноним 04/07/25 Птн 14:24:21 № 1264481 380

>>1264477
Играет в режиме ассистента
Нахваливает корпосетки
Срет локалки

Бинго, асигоеблан. У вас загон стал слишком мал, чтобы уместить всех с началом каникул?

Аноним 04/07/25 Птн 14:30:54 № 1264486 381

image.png 23Кб, 1103x29

>>1264481
Чел, таблетки. Крупные сетки так же вонюче дрищут в текст, я вообще всецело сру на AI-писанину и не считаю ни одну модель вот прямо такой ВАУ СУПЕР ОХ КРУТО как любят заявлять некоторые.

Ассистенты типа дипсренька пригодны для анализа кучек кала, что собственно и показано на той пикче. Ролеплеить эта параша столь же неспособна. AI еще лет 5 - 10 надо вариться в собственном соку, чтобы доставить хороший опыт. И то есть риск, что убогие датасеты изговнят любой возможный прогресс. Ботам фундаментально травят мозги дрянью, причем нередко синтетически сгенерированной из другой дряни.

Видишь текст с пикрила? Не поверю, что ты не задетектишь в ней мерзость. Как весь этот гной любит выдавать "BUT THERE'S SOMETHING ELSE" когда не может внятно обозначить идею, я ебал просто. Десятки моделей одинаково серят и серят и серят этим.

Аноним 04/07/25 Птн 15:11:25 № 1264510 382

>>1264486
> я вообще всецело сру на AI-писанину
Зачем ты тогда здесь? В /б заждались, тебе туда ===>

Аноним 04/07/25 Птн 15:26:58 № 1264518 383

Потестил сейчас на русском
https://huggingface.co/Khetterman/DarkAtom-12B-v3

Выглядит достойно по первым впечатлениям. Кто-нибудь гонял её?

Аноним 04/07/25 Птн 15:32:10 № 1264524 384

>>1263692
Спасибо анон, с "карточками" стало практически так, как я и хотел.

Аноним 04/07/25 Птн 15:35:18 № 1264529 385

>>1264477
>>1264486
> я вообще всецело сру на AI-писанину сидит в треде AI-писанины
> прогоняет через ллмку побольше AI-писанину ллмки поменьше
> предъявляет результат вот смотрите какая у вас писанина плохая
а ты не очень умный, да?

Аноним 04/07/25 Птн 16:14:49 № 1264572 386

>>1264477
>>1264486

Совсем дурак?

Аноним 04/07/25 Птн 16:26:40 № 1264582 387

>>1264424
Ты вообще зачем сюда пришёл-то?

Аноним 04/07/25 Птн 17:16:05 № 1264606 388

>>1260769 (OP)
Есть ли какие-то функциональные плюсы у ollama по сравнению с кобольтом?

Аноним 04/07/25 Птн 17:21:41 № 1264609 389

>>1264606
нет

Аноним 04/07/25 Птн 17:27:44 № 1264611 390

>>1264438
Встречный вопрос, каким железом обладаешь, какими скиллами работы с данными владеешь, каковы познания в яп?
>>1264460
> 100k steps
> dataset was about 300k steps
Ну нахер.мп4
>>1264477
Скиллишью вперемешку с пониманием наличия каких-то паттернов у всех сеток и незначительностью этого факта на фоне прочих преимуществ. Хз че ты там пытаешься доказать, видимо сначала набросил херню а потом пошел защищать свои посты.
> Крупные сетки охуевают, когда им скармливаешь выдристы локальной мелочи.
Локальной мелочи сформировать промпт и они также будут ахуевать анализируя собственным аутпуты. Клоде скормить клодослоп и она его размажет. Чел, ты глупенький?
>>1264606
Самый простой запуск модели почти на любом железе, даже некроамд. Качество, удобство и скорость в сделку не входят.

Аноним 04/07/25 Птн 17:30:25 № 1264615 391

Анонцы, а объясните, что делать когда контекст переполняется? В том плане, что таверна начинает удалять старые сообщения и из-за этого ламка все с нуля пересчитывает, а 14к контекста заебешься ждать. Я до этого просто сидел на 4к контекста и не еб мозги, а тут чото приперло

Аноним 04/07/25 Птн 17:38:36 № 1264624 392

Целевая каловоза.

В крупнейшем ТГ по нему только такие комментарии.

Когда скин на светляка был — поднялся дикий визг. И не по поводу скучности, а что там ДЕВОЧКА.

Аноним 04/07/25 Птн 17:39:11 № 1264626 393

>>1264624
Блядь, не тот тред. Ну шо це таке.

Аноним 04/07/25 Птн 17:40:08 № 1264628 394

>>1264624
О человек культуры. Из вувы сюда?

Аноним 04/07/25 Птн 17:43:39 № 1264630 395

>>1264628
Нет. Ситуация ещё хуже.

Аноним 04/07/25 Птн 17:43:41 № 1264631 396

>>1264615
2 коренные проблемы у тебя: медленный обсчет контекста, из-за чего пересчет доставляет боль; потеря прошлых сообщений о серьезности чего ты пока не подозреваешь.
Для первого тебе нужно ускорить работу сетки или избегать частых изменений контекста. Купи норм железа, 14к это смех, и/или действуй как сказано далее.
Чтобы сохранить содержимое прошлых постов, делаешь форк чата с сообщениями, которые собираешься исключить, оформляешь их суммарайз там (когда-нибудь расскажу как делать хорошо если кто-то еще не поведает), возвращаешься обратно притаскивая полученный суммарайз и вставляешь его в соответствующее поле, после командой /hide 0-N скрываешь N постов, которые были суммаризованы. Для лучшего перфоманса лучше поправить формирование промпта для обозначения суммарайза и начала чата.
Сделав это ты будешь иметь: саммари с содержимым прошлых постов, подушку из скольки-то постов, что отражают последние действия и диалоги, свободное место чтобы продолжать чат до момента упора в контекст.
>>1264624
Проиграл, ну ты снайпер

Аноним 04/07/25 Птн 17:51:17 № 1264638 397

>>1264615
Не знаю, какое у тебя железо, но у меня нищенское и я сижу на 4,5-5 токенах на 24б при контексте 32к. Если ставить 8к, то генерация и пересчет значительно быстрее, но не настолько, чтобы отказаться от контекста.

Лучше всего, если не делаешь суммарайз, квантовать контекст до 8 бит (что я всегда и делаю в большинстве случаев — переплексия на такой малой дистанции почти не приводит к деградации), а затем, когда тебе нужно, не используешь контекст шифт, а тупо удаляшь 5-10к контекста — это не сильно бьёт по логике чата, когда контекст большой. Пересчёт так сильно душить не будет.

А вообще, у меня при контекст шифте он почему-то не пересчитывается автоматически почти никогда. Не знаю, с чем это связано.

Сижу на кобольдыне.

Аноним 04/07/25 Птн 17:51:37 № 1264640 398

>>1264615
1. Юзать беком tabby с exl2/3. Разумеется не вариант, если не влазит в vram.
2. Включить context shift в кобольде. Но оно может глючить. Некоторые считают - что в принципе поломано, и не работает правильно.
3. Взять другой фронт (или найти нужный extension под таверну) - часть уже умеет автоматически делать нижеследующее:
4. По достижению макс-контекста, сделать summary чата, и скрыть более старую половину истории. Вместо нее повесить в WI полученный summary. Повторять по мере необходимости.
5. Подтвикать кобольду окно обработки с 512 до 1024 токенов за раз. Для 12-14k не такой у большой расход vram а буст ощутимый (на 3060 во всяком случае)
6. Забить.

Аноним 04/07/25 Птн 18:10:53 № 1264653 399

>>1264631
Я бы сидел и в 64к контекста (там , но сейчас чото в glm захотелось потыкаться и там после ~18к заметил что начал проседать аутпут люто. Вот и снизил.
Сижу в этом отрезке моделей: 24-35b. Есть что посоветовать на замену чтобы большой контекст кушало? Так-то мне зашел glm, годная штука прямо.
Так-то железкой я доволен своей, у меня на ~4к контекста процессинг 80т/c и 23 генерация. А вот с увеличением уже конечно победнее становится. На ~15К контекста скорости уже опускаются до 36т/с и 9т/с соответственно.
Из твоей инструкции кое-чего не понял: что значит форк сообщения? Суммарайз-логично. Как я понял он берет последние сообщения и суммаризирует их. Например, задаем update-frequency каждые 100 сообщений. Вот у нас например набежало их 150 (считаем с начала от 1 до 150. 150-последний аутпут/инпут) и получается, что у нас после суммаризации идет на бекэнд такого вида сообщение: 1-50 сообщения целиком + суммарайз последних сообщений (это если он был включен не автоматически а нами.)
А если мы включим его автоматом, то: проходит сто сообщений-> он их суммарайзит-> мы дальше переписываемся и после 50 сообщений вывод на бэкэнд будет такой: 100 сообщений первых было закинуто в суммарайз + 50 сообщений последних.
Далее также мне непонятна твоя инструкция.
-Зачем нам вставлять самим сумарайз если он генерируется автоматически? И получается если мы ставим автосоздание его, например каждые 60 сообщений-> то получаем, что у нас из чата в 84 сообщения будет 4 блока суммарайза и 4 последних сообщения? Или он будет суммаризировать и суммарайзы? Я читал документацию таверны и не нашел там ответа на данный вопрос
> после командой /hide 0-N скрываешь N постов,
спасибо, хорошая команда. Можно ли сделать автоскрытие от модели сообщений, которые она засуммарайзила? Можно ли как-то помечать в интерфейсе сообщения, которые она скрыла от модели? Потому что после ввода я не увидел ничего кроме загрузочного бара который исчез. Есть ли где-то в чате вариант посмотреть логи, что я скрыл, что суммарайзило?
>>1264638
Я бы и не отказывался, а с кайфом сидел на максимально позволенной длине контекста модельки. Выше объяснил причину почему так не делаю:( У мистральки 25b последней с этим получше?
Вот кстати, контекст шифта вроде нет в llama.cpp? Жалко, считай автоматизированная штука с суммарайзом, как я понял суть.
>>1264640
1В vram влазит, да вот только я на амуде и не смог осилить exl2, что-то с компиляцией идет не так.
2Сижу на llama.cpp, на ней производительность в 3 раза выше минимум выходит, наверное потому что форк kobold для rocm на старой лламе.
4 Как сделать, чтобы саммари сам удалял ужатые сообщения?
6 ну уж нет

Аноним 04/07/25 Птн 18:12:43 № 1264655 400

>>1264653
быстрофикс:
Зачем нам вставлять самим сумарайз если он генерируется автоматически? И получается если мы ставим автосоздание его, например каждые
>20 сообщений->
то получаем, что у нас из чата в 84 сообщения будет 4 блока суммарайза и 4 последних сообщения? Или он будет суммаризировать и суммарайзы? Я читал документацию таверны и не нашел там ответа на данный вопрос

Аноним 04/07/25 Птн 18:16:36 № 1264660 401

>>1264630
О, Светка. Харош. Лучшая девочка.
А я забил, там реально сюжетку будто LLM писала, причём 24-27Б как максимум, а скорее даже что-то вроде тредовичковых мистралек.

Аноним 04/07/25 Птн 18:21:21 № 1264664 402

>>1264653
У глэма контекст 8к, очко можно растянуть до 16к. Дальше сыпется.
Вроде и геммы и мистрали держат минимум 32к, а то и все 128к.

Аноним 04/07/25 Птн 18:54:51 № 1264700 403

Дрочаны! Там tiger gemma новая вышла, на первый взгляд неплохо, skyfall пока отложил в сторонку.

Аноним 04/07/25 Птн 19:00:40 № 1264702 404

>>1264700
Зачем нужен Слопфолл, когда есть https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-33B ?

Аноним 04/07/25 Птн 19:04:03 № 1264703 405

>>1264702
Спасибо, тоже заценю.

Аноним 04/07/25 Птн 19:14:06 № 1264713 406

https://astrsk.ai/

Выглядит как ComfyUI для LLM-ок.

Аноним 04/07/25 Птн 19:20:13 № 1264716 407

>>1264713
Только похоже закрытое... не, тогда нафиг.
к тому же что-то такое уже видел - talemate, вот только руки всё не доходят потестить.

Аноним 04/07/25 Птн 19:40:45 № 1264736 408

>>1264653
> начал проседать аутпут люто
Фуллврам и эксллама. Не то чтобы просидеть совсем не будет, просто заметно станет после 100к.
> что значит форк сообщения
В глупой таверне на каждом посте есть кнопка fork chat, которая создаст его копию, кончающуюся этим постом. Задача ведь очень простая - нужно суммаризовать именно старые сообщения, не трогая те что сохранятся. Также, встроенная штука в аддон - полное дно, тут нужен полный доступ к чату и возможность дать свою инструкцию, посвайпать, отредактировать и продолжить с момента и т.д., именно тот функционал что есть в основном чате.

> Вот у нас например набежало их 150 (считаем с начала от 1 до 150. 150-последний аутпут/инпут) и получается, что у нас после суммаризации идет на бекэнд такого вида сообщение: 1-50 сообщения целиком + суммарайз последних сообщений (это если он был включен не автоматически а нами.)
Нет, будет идти блок, соответствующий суммаризации сообщений 1-100 и после него 101-150 в исходном виде. Наилучшая ситуация из возможных.
> А если мы включим его автоматом, то: проходит сто сообщений-> он их суммарайзит
У и тебя в чате сначала идет суммарайз 100 сообщений, потом те же самые сообщения(!) которые будут постепенно исчезать одно за другим. Не говоря уже о ключевой проблеме:
> Зачем нам вставлять самим сумарайз если он генерируется автоматически
Он не может сгенерироваться хорошо сам, как минимум это требует надзора. Он не делится на отдельные блоки, ты лишь всратая инструкцию "добавить к предыдущему". При суммаризации отправляются сразу все сообщения а нужно делать только для старых. Ты сможешь выбрать удачные границы где стыковать саммари и актуальные посты, а не обрывать посреди действа чтобы сетка ахуела.
> автоскрытие
Оно и так делается само как только сообщение выходит за границы контекста. И по причине нежизнеспособности автосуммарайза также не нужно.

Итоговая мораль - если хочешь хорошо, качественно и заодно подебить проблему пересчета - нужно делать так, альтернативы крайне сомнительны.

Аноним 04/07/25 Птн 19:43:32 № 1264741 409

>>1264736
Булджать, клятый вишпер с автокоррекцией поломали половину слов, надеюсь более менее понятно что написано.

Аноним 04/07/25 Птн 20:02:17 № 1264760 410

>>1264736
Спасибо! А есть промпт для качественного суммарайза через чат?

Аноним 04/07/25 Птн 20:08:38 № 1264771 411

>>1264736
Спасибо анончик, все встало на свои места.

Аноним 04/07/25 Птн 20:51:52 № 1264806 412

>>1264167
>свои топовые модели в попенсорц
Топовые- ноль. Объедки могут выложить.
Но зачем тебе гопота на 1488B весов? На чём ты её будешь ебать?
>способ квантования, позволяющий оставить из 2Т моделей только рп и кум,
Получится примерно одна фраза Извините, я не могу продолжить этот разговор.
>>1264190
>и не будет никакой прибыли
Прибыли в нейронках по определению никогда не будет, так что радуемся.
>>1264263
>clean interface and easy configuration
Перевод на двачерский "Для дебилов".
>who would rather not feel like they need a PHD in AI or software development
"Для совсем дебилов, которым надо жопу подтирать, а то они говно жрут вместо смывания в унитаз".
>>1264280
Разрыв сокращается с каждым месяцем. Раньше я тоже в основном в кончай треде сидел и пускал слюну на прокси. Сейчас же я с удовольствием съебался оттуда и кайфую на модели четырёхмесячной свежести.
>>1264518
Нет, ты первый, кто её скачал.
>>1264606
Вроде как на горячую позволяет менять модель из таверны без перезапуска.
>>1264660
>там реально сюжетку
В этих играх есть сюжет? Мимо запускал геншин, кринжанул с поворотов сюжета и понял, что оно только дрочить на анимации пригибания.

Аноним 04/07/25 Птн 21:03:28 № 1264813 413

image.png 13Кб, 939x118

image.png 12Кб, 734x95

>>1264653
>Сижу на llama.cpp, на ней производительность в 3 раза выше минимум выходит, наверное потому что форк kobold для rocm на старой лламе.
Сейчас проверил гемму, ну не сказал бы что быстрее, может быстрее, но пишет модель по другому, теперь не хочу на кобольд возвращаться. И да, второе же значение это т\с самого сообщения? Алсо это на уровне с выгрузкой тензеров на 45 слоях, а тут я получил это на 25 без выгрузки. А также без Cublas, как его добавить? Ну командой, кит я установил уже и добавил длл кубласа. Вот что вначале написало про него

Аноним 04/07/25 Птн 21:12:34 № 1264823 414

>>1264611
>cамый простой запуск модели почти на любом железе, даже некроамд
LM Studio

Аноним 04/07/25 Птн 22:14:57 № 1264874 415

>>1260769 (OP)
Что посоветуете для запуска чатиков на 8845hs с 32ГБ рамы.
Ноут едет, там типа встроен ускоритель для аи и интеграшка хорошая? Хочеца чтобы ЦП+НПУ+ГПУ все вместе трудились.
Желательно какой-нибудь простой инструмент, потому что не себе ставлю.

Аноним 04/07/25 Птн 22:23:24 № 1264886 416

>>1264813
Да, первое препроцессинг, второе именно генерация сообщения.
Я сижу на amd, поэтому rocm и использую. У тебя-то nvidia, тебе и обычный кобольд норм, просто с cuda выбираешь и все, не?
По поводу того, что вижу у тебя, ты используешь oogabooga, там я не скажу как это настраивать, я использую голый llama.cpp, собранный из исходников, у меня cublas там собран. Что в угабуга засунули-без понятия. Советую просто поставить llama.cpp отдельно.
https://github.com/ggml-org/llama.cpp/releases/tag/b5828
Благо есть готовые сборки, скачай твой вариант с куда куда тебе надо, а если очень противит в консоли маяться, держи скриптик, сделал его для себя. Пояснение, в скриптике сначала поменяй папки. там указаны папки для llm, твоей llama-server программы и папка для пресетов (это файлики, которые будут хранить твои настройки для каждой модели)
Вот скриптик: https://pixeldrain.com/u/j6yzrG7y

Аноним 04/07/25 Птн 22:50:09 № 1264917 417

>>1264886
>тебе и обычный кобольд норм
Без проблем юзаю кобольда с двумя амудэ-карточками, стоят обычные гоймерские Adrenalin дрова после чистки системы через DDU, то есть вряд ли там чето осталось от старой попытки ебануть "AMD-Software-PRO-Edition-24.Q4-Win10-Win11-For-HIP"

мимо

Аноним 04/07/25 Птн 22:53:18 № 1264921 418

Че, тут эмэльщики еще остались? После софтмакса чет никто буквально нихуя не сделал, кроме мерджев, правильно понимаю?
Вот вам еще очередная юзлес хуйня, кароч, выбил грокинг без регуляризации. Ну, почти выбил (можно наверное подрочить параметры и выбить 100%, но типа и так сойдет), и почти без регуляризации (то что все веса кроме эмбедингов несколько раз заменяются на случайные, наверное можно считать формой регуляризации). Но по крайней мере это все с нулевым wd.
Выводы?.. Грокинг - хуйня, а может и нет, хз, по крайней мере на числовой задаче он очень зависит от эмбедингов. Как было показано в недавней работе, пересадка нормальных эмбедингов в модель дает ей нормальную работу сразу без грокинга.
Типа, на старте все числа для модели = случайные числа, а в идеале 1 должно быть близко к 2 и не очень а 20, и для циклических задач например 0 и 99 тоже должно быть близко.

Исходный блокнот с которым можно играться - https://colab.research.google.com/drive/1r3Wg84XECq57fT2B1dvHLSJrJ2sjIDCJ?usp=sharing

Аноним 04/07/25 Птн 23:04:38 № 1264929 419

изображение.png 1Кб, 127x46

>>1264921
>После софтмакса чет никто буквально нихуя не сделал
This.
Испытатель софтмакса
>Как было показано в недавней работе, пересадка нормальных эмбедингов в модель дает ей нормальную работу сразу без грокинга.
Ебать наркомания.
>Подписывайтесь на мой анал
Подписался тебе под хвостик раскалённой кочергой, не благодари.

Аноним 04/07/25 Птн 23:11:11 № 1264931 420

>>1264874
> встроен ускоритель для аи
это наебалово, единственный реально работающий "ускоритель" - это видюха

Аноним 04/07/25 Птн 23:13:34 № 1264932 421

>>1264929
> >Подписывайтесь на мой анал
> тебе
Ага, все так, шизло, весь ресерч был ради того чтобы пропиарить на двачах канал какого-то нонейма.

Аноним 04/07/25 Птн 23:15:55 № 1264935 422

>>1264917
вроде нет rocm на винде же, ты гоняешь чтоль через вулкан? Там очень низкие скорости, если он, по сравнению с рокм

Аноним 04/07/25 Птн 23:36:45 № 1264941 423

>>1264932
>весь ресерч был ради того чтобы пропиарить на двачах канал какого-то нонейма
Ну да ненавижу вниманиеблядтсво.

Аноним 04/07/25 Птн 23:41:38 № 1264942 424

А как вы развлекаетесь вечером пятницы?

Аноним 04/07/25 Птн 23:51:30 № 1264947 425

>>1264931
Смысле? Там даже в виндовом тасманагере отдельно отображается NPU с загрузкой, графиком и все такое.

Аноним 04/07/25 Птн 23:53:46 № 1264949 426

>>1264947
>Performance Up to 16 TOPS
>NPU TOPS Up to 16 TOPS
>Overall TOPS Up to 38 TOPS

Аноним 04/07/25 Птн 23:56:34 № 1264951 427

>>1264702
А вполне недурно, оставлю в коллекции.

скафоллокун

Аноним 04/07/25 Птн 23:57:29 № 1264952 428

>>1264947
С чего ты решил, что твой пердольный NPU хоть чем-то поддерживается? Это раз. Два, что хоть ради чего-то его стоит поддерживать?

Аноним 04/07/25 Птн 23:59:34 № 1264953 429

>>1264949
>38 TOPS
Всего лишь на два порядка меньше сраной 5090...

Аноним 04/07/25 Птн 23:59:44 № 1264954 430

>>1264947
Он полезен больше какую-то мелочь в фоне гонять не создавай нагрузок на остальное, профит в низком тепловыделении и больше для мобильных девайсов. В лучшем случае - блюрить фон с вебки и фильтровать шумы микрофона с помощью простых моделей.

Аноним 04/07/25 Птн 23:59:50 № 1264955 431

>>1264952
А я видел, какие то пакеты имеют поддержку нпу. Оникс что ли, забыл как он называется.
Но это хуйня, да
Хотя если это какой то мощный нпу то на него можно будет повесить какие то фоновые нейросетки. Но пока что это пятое колесо. Ну или для фотошопа развлекалово, всякие мелкие нейросети на тех же мобильниках там крутятся.

Аноним 05/07/25 Суб 00:00:55 № 1264956 432

Мужички, может кто подсказать как работает лорбук и групповой чат в силлитаверн? Вот у меня есть карточка с прописанными персонажами, но я понял что 6-8к котнтекста у меня по дефолту забито персонажами которые будут встречаться условно пару раз в 200 сообщений. Как мне их так сунуть чтобы они постоянно не грузились и не забивали промпт? Попробовал пользоваться групповым чатом, но у меня получается какая-то трешовая мешанина, наратор превращает серьезных персонажей в одержимых хуем и жопой юзера, хотя там даже не прописано ничего про еблю, а без нарратора карточка одного персонажа забывает абсолютно упоминать второго в сцене, хотя вроде даже есть якорь с постоянным упоминанием персонажей вокруг юзера в конце каждого сообщения. Либо персонаж начинает рассказывать о себе отсебятину, не смотря на то что у него четко все прописано. Короче пиздец, когда они были прописаны в одной карточке такого не было. Может я что-то не так делаю? Гопота мне никакого внятного совета не дала, поэтому пришел к вам. Лорбук я вообще не понимаю как работает, какой процент контекста в нем ставить и какие галочки прожать чтобы все работало вменяемо.

Аноним 05/07/25 Суб 00:01:04 № 1264957 433

>>1264874
>не себе ставлю.
Алсо, не издевайся над человеком, купи ему подписку на нормальные нейронки, ну или хотя бы зарегай и настрой обход на бесплатные.

Аноним 05/07/25 Суб 00:01:44 № 1264958 434

>>1264952
Я сюда и пришел спросить, какой софт с ним работает.
>хоть ради чего-то его стоит поддерживать
С такими тупыми и провокационными вопросами не ко мне.
>>1264953
Скромной ллм для бати будет достаточно.

Аноним 05/07/25 Суб 00:06:31 № 1264959 435

>>1264958
>какой софт с ним работает
Никакой.

Аноним 05/07/25 Суб 00:08:19 № 1264961 436

>>1264959
База. НПУ-даунам залупой по губам и перо под ребро!

Аноним 05/07/25 Суб 00:14:42 № 1264963 437

>>1264947
он есть, но он нигде не работает по факту кроме зашоренных высеров амудэ. сам обладатель подобного. npu мертв пока что для чего угодно, не только у амудэ а у всех производителей. И даже если будут поддерживать производительность у них просто детски смешная. Пока что это просто как шильдик для маркетологов и задач у них с гулькин нос.
>>1264958
Работает amuse.ai, lemonade server. Все. Больше ничего. Они на своем сайте говорят об lm-studio, но это такая наглость говорить о нем, учитывая что он где угодно на cpu будет работать. Кстати, npu в lm-studio очевидно работать не будет, так как это обертка llama.cpp

Аноним 05/07/25 Суб 00:14:48 № 1264964 438

>>1264959
Пиздабол, вон анон >>1264955 говорит, что видел.
+ я сам помню, что была активность топиков по нпу у лламы.

Аноним 05/07/25 Суб 00:19:48 № 1264966 439

https://github.com/NotPunchnox/rkllama
Ну кстати что то находится, где то там пример с нпу интела видел

Аноним 05/07/25 Суб 00:21:37 № 1264967 440

>>1264956
>наратор превращает серьезных персонажей в одержимых хуем и жопой юзера

Cоветую поменять текстовую модель.

>Либо персонаж начинает рассказывать о себе отсебятину, не смотря на то что у него четко все прописано.

Сколько сколько параметров у текстовой модели? Такое часто происходит на мелкомоделях и там это буквально норма, они очень плохо переваривают большие карточки и порят хуиту, ну по крайней мере пока не досвайпаешь до нужного.

>Лорбук я вообще не понимаю как работает

Тупо инжектит тебе инфу когда попадаются ключевые слова, опять же, мелкомодели очень хуёво хавают большие лорбуки.

Аноним 05/07/25 Суб 00:24:02 № 1264969 441

>>1264963
Ну хз, у меня когда видюха в виртуалке и мне впадлу переключать, неспешный вопрос задаю квену на цпу и отвечает приемлимо. Учитывая, что проц нупука в полтора раза слабее, но будет иметь х2 перф с нпу, то на нупуке будет отвечать в полтора раза быстрее, что даст очень даже приемлемую скорость и качество ответа на вопрос как установить мокрые письки или включить гибернацию, или еще чего.
>сам обладатель подобного
Не тестил гпу+цпу?

Аноним 05/07/25 Суб 00:32:13 № 1264971 442

>>1264969
У амд то ли закрытый код этого npu то ли сделанный впопыхах и никуда не годный, либо просто пользователей с гулькин нос. В любом случае они ничего не сделали для того чтобы самим дать набор инструментов внятный, еще и только для винды, учитывая что все энтузиасты сидят на линухе.
Да, пробовал, в lemonade server. Прикол в том, что работают только 8b модели, большего размера ты просто физически пока не можешь использовать в гибридном режиме (cpu+npu). Про физически думаю напиздел, имею ввиду, что амудэ как-то сделала так, что пока ты никак не можешь этого сделать. По поводу скорости, я не помню уже если честно. Могу точно сказать, что меня не впечатлило от слова совсем (ryzen 9 ai 370hx 64gb оперативы ddr5 8000mt/s 4 канал). Не впечатлило, потому что я мог запускать такую же на своей 3070 ноутбучной и получать гораздо большие показатели.
Короче у меня много вопросов к амудэ, еще этот onnx, зачем почему? Ну я недалекий в этой теме, может им виднее.
Можешь сам попробовать лемонад
https://github.com/lemonade-sdk/lemonade
Устанавливался без танцев с бубном.

Аноним 05/07/25 Суб 00:35:28 № 1264972 443

>>1264971
Спасибо, анон, буду пробовать.
Ну, вообще, я заметил, что во всех топиках лламы про лимонад пишут, думал м.б. что-то лучше есть.

Аноним 05/07/25 Суб 00:46:08 № 1264974 444

Пока что складывается такое впечатление, что нпу фэйковый и на самом деле является оберткой для гпу, так что может просто по классике все запускать через лламу будет лучшим решением.

Аноним 05/07/25 Суб 01:01:13 № 1264983 445

>>1264953
Это куртка-топсы в fp4. Так же как эти пиздаболы везде в своих графиках х4 фреймген просовывают и у них на презентациях 5070 догоняет 4090.

Аноним 05/07/25 Суб 01:02:51 № 1264984 446

>>1264964
Дебил, он говорит что во фреймворках для машинного обучения есть поддержка. Даже не в софте. И эта поддержка только для разрабов под это говно, чтобы потом это NPU встроить в какой-нибудь беспилотник и т.д, где он будет жрать свои 4 ватта и стоить ~сотку баксов, вместо того чтобы тащить комп с видюхой.
>>1264966
Быстрее даже проца все равно не будет.

Аноним 05/07/25 Суб 01:28:06 № 1265010 447

>>1264660
>Лучшая девочка

За такие слова тебя бы в хср-треде убили нахой! Или в любом другом месте.

Я согласен, что она спорный персонаж, но явно не такой, чтобы с неё рвало жопу.

И кстати, она в у меня до сих пор MoC закрывает. Нелегко это дело даётся, кончено, но до сих пор!

А сюжет.. ну.. такой. В геншине ещё хуже навалили — и я его дропнул. Сейчас грекокал там был, я чуть не умер от этого, но уже пошло что-то более-менее нормальное.

Жаль, они всё начали скатывать в фэнтези.

Аноним 05/07/25 Суб 01:28:58 № 1265011 448

>>1264984
Подорванный ебанат, там уже с сервером идет и чел запускал.
Иди на хуй, крч, шкура рваная.

Аноним 05/07/25 Суб 01:38:04 № 1265018 449

>>1265011
Долбоебина, ну иди, пердолься со своим сраным NPU, я тебя не заставляю, потом расскажешь нам, как у тебя все охуенно работает (не расскажешь).
Я хуею с ебанашек которым это реально нужно для того чтобы бате чатбота с говнолокалки настроить, лол блять нахуй. Воистину, бессмысленный и беспощадный пердолинг не знает границ.

Аноним 05/07/25 Суб 01:41:42 № 1265021 450

>>1265018
Чмо ебаное, я не спрашивал у тебя разрешение на использование нпу. Пшол нахуй.

Аноним 05/07/25 Суб 01:49:32 № 1265027 451

Поздравьте бомжа! Купил p104-100 к своей 3060. И всем бомжам советую: хороший вариант за 1800 рублей. Подтверждаю, что даже на винде серьезный буст, а на гемме просто колоссальный. По какой-то причине именно на ней.

Теперь о минусах: на 32к контекста всего лишь 6,5 тс у мистраля 24б в 4 кванте. Лучше, чем до этого (4,5 тс на 28к контекста), но я думал, что будет круче. А промпт процессинг просто жопа. Будете дико орать. Впрочем, если удалять по 10к контекста и шифтинг не использовать, то нормально.

Спорный минус: на 4 кванте мистраля и 8к контекста (кум-вариант) скорость 13 токенов. В то же время, если использовать одну 3060, 3 смолл квант, то скорость 14 токенов и полностью влезает в видеокарту. При этом существенной деградации не замечено. Стоит ли пердолиться с драйверами и брать ржавое древнее говно ради кванта повыше, чтобы чуть лучше покумить? Ну хуй знает. Разве что вы любители 4-10 токенов и собираетесь пихать 32б для кума. Я тестировал разные кванты и на мой взгляд существенной разницы нет для кумс. Тут уже дело в параметрах. Надо выше планочку, чем 24б, поднимать.

И ещё.

Для нормального использования нужно ювелирно настроить распределение слоев между видеокартами, чтобы как можно больше было на самой мощной — иначе скорость может быть НИЖЕ, ЧЕМ НА ПРОЦЕССОРЕ. Или аналогичная. Или немного выше. То есть 11,8 Гб на 3060 должны быть забиты обязательно.

Вроде бы это базовая вещь, но есть у меня знакомые долбоёбы, которые сидят с двумя-тремя картами типа 1070, 1060 и т. п., и у них там всё еле ворочается, потому что слои и кэш распределены неравномерно и на самой мощной видеокарте порой 1-2 свободных гигабайта видеопамяти.

Надеюсь, я помог таким же бомжам, как и я.

>>1264664
Не держат, по крайней мере гемма точно. Даже с корректной реализацией SWA. Мистраль я особо не тестил, но мне показалось, что на таких контекстах 32к+ уже деградация начинается из-за анальной растяжки.

Если у кого-то был другой опыт, то скажите, может я что-то не так делал.

Аноним 05/07/25 Суб 01:51:14 № 1265029 452

>>1265021
Пердоль, ты че порвался? Ну свой путь у тебя, хорошо, замечательно. Я не твой психотерапевт, не буду заставлять тебя с него сходить.
Ты только потом нам расскажи, как у тебя там это говно замечательно взлетело, хорошо? Похвастаешься своими великими достижениями. Только пожалуйста не тихо сливайся после того как закономерно обосрешься.

Аноним 05/07/25 Суб 02:05:35 № 1265038 453

>>1265029
>ряяя это ни я полвался, эта ти палвался, ряяя
Думаю ты просто кловн, проебавший кучу бабла не ради технологий, улучшения качества жизни или увелечения продуктивности, а просто потешный утенок, повторяющий за какими-то кумирами, строящий карго-культ.
И вот ты сейчас сидишь с проебанным баблом на какую-то хуйню с которой ты очень быстро наигрался, а может даже не осилил, и рвешься с того, что по-настоящему необходимого ассистента ставят на какой-то дешманский нупук для какого-то деда-пердеда, чтобы отвечать на тупые вопросы, ведь это верх и предел этих технологий. Технологий на которые ты проебал сотни нефти.
А самое главное, самое главное, что твою илитарность пошатнули, да не просто пошатнули, а растоптали и обоссали. Ведь какой-то норми-дед будет твоей илитарностью жопу подтирать. Более того, он будет выглядеть пизже, потому что он не выставил себя клоуном и инвестором каких-то сраных технологий, а получил за даром эту хуету.

Аноним 05/07/25 Суб 02:11:00 № 1265042 454

>>1265038
>будет
Вот когда в реальности будет, а не в твоей башке тупой, тогда и будешь пиздеть, ок?

Аноним 05/07/25 Суб 02:13:04 № 1265044 455

>>1265042
Пошли маневры и виляния жопой.
Очевидно, что не может не быть.
Нет, я буду ебать тебя здесь и сейчас.

Аноним 05/07/25 Суб 02:22:55 № 1265048 456

>>1265044
Придурошный, ебать ты будешь только дверную ручку своей жопой. Че ты там пиздешь мне похуй пока я цифры от тебя не увижу.

Аноним 05/07/25 Суб 02:28:47 № 1265053 457

>>1265048
Батя грит малаца, заебись зделол, раотаит ахуена, пять с плюсом.

Аноним 05/07/25 Суб 02:29:39 № 1265055 458

Теперь сучка довольна?

Аноним 05/07/25 Суб 02:35:48 № 1265058 459

>>1265053
>>1265055
Лоботомит контекст прострал в одном посте из двух предложений лол.

Аноним 05/07/25 Суб 02:43:36 № 1265062 460

Уфуфу, совсем с новой работой и делами не до ЛЛМок стало, сейчас буду неспеша 4 пропущенных треда наверстывать...

Сразу два вопроса, скажите:
1) Анон с амуде эпиком (на линуксах) подцепил видеокарту к нему? Эпик жив, геймчейнджер, или кал/говно/просто купи 128 рамы в консюмерскую мать?
2) Новые сладенькие опенсорцные модели вышли? Или мб хотя бы гемму затюнили под похотливую шлюху, не поломав снова? Или только опять 999 слопотюнов покачивающего бедрами мистраля?

Что бы не быть совсем бесполезным, накину два наблюдения:
- РФ компании ошизели с аишечкой, каждого васю насильно учат промпт-инженирингу, вася брыкается. Аи пытаются прикрутить даже к блокноту что бы получилась таверна . Если кто то не называет 3 корполлм, на собесе, сразу макают в парашу.
- вынужден был поработать с мелкомодельками, и заметил что даже 12б все равно ускоряет дела в разы, во вторых - на ассистенте модели реально кажутся умными. Забавный факт - только погрузившись в пучины слопокума, перебирая тюны один за другим, ты понимаешь насколько LLM все же тупые, буквально как Нео видишь их суть. Неглупые челы могут знать мл, писать каких то агентов, знать сотни промтов - но только заглянув под юбку Серафине, выходишь на другой уровень работы с нейронками.
-

Аноним 05/07/25 Суб 04:06:56 № 1265096 461

>>1264624
На светляка скин выходит?

Мимо не заходил месяца три

Аноним 05/07/25 Суб 04:12:54 № 1265099 462

>>1265096
Да. Потом коллаба с фейтом, где будет сэйба, арчер, лансер. Ещё Кирена и две какие-то соски.

Сосисок вонючих тоже достаточно, но проблема в том, что слишком много достойных ролла персонажей. Придётся выбирать. Не брать же одних ДД подряд, когда и так есть, даже если они только без реранов будут и эксклюзив.

Байтят суки.

Аноним 05/07/25 Суб 04:25:06 № 1265107 463

>>1265062
> выходишь на другой уровень работы с нейронками.
И какой это другой уровень?

Нас в гусском гугле тоже активно на нейрослоп пытаются усадить

Аноним 05/07/25 Суб 04:47:02 № 1265114 464

>>1264702
Бля такая сучья модель, в ахуе просто. Так душит на ровном месте, каждый персонаж пытается наебать или убить, если у него хоть немного прописано что он с припиздью. За 30к контекста в трусы так и не залез.

Аноним 05/07/25 Суб 08:44:45 № 1265192 465

>>1265027
>Поздравьте бомжа! Купил p104-100 к своей 3060.
Поздравляю, сам такой!
>а на гемме просто колоссальный. По какой-то причине именно на ней.
У меня 27B влазит целиком в виде iq4xs. Это решает: с 2 t/s на одной 3060 + CPU, до 8 t/s на двух, фулл vram. Естественно буст - оно же все в быстрой памяти.

>>1265027
>Теперь о минусах: на 32к контекста всего лишь 6,5 тс у мистраля 24б в 4 кванте.
>Спорный минус: на 4 кванте мистраля и 8к контекста (кум-вариант) скорость 13 токенов.
Мало. У меня iq4km на двух таких картах (полностью влазит) выдает 14-16 t/s на 12K контекста. Причем скорость генерации от размера контекста практически никак не зависит.

>Если у кого-то был другой опыт, то скажите, может я что-то не так делал.
Чтобы выжать максимум из этого сетапа - нужен пингвин. Потому, что допускает запуск без использования карт под GUI. Это дает две вещи:
1. Больше свободной VRAM. У меня 27-ая гемма в iq4xs целиком влазит. Впритык, но с 12K контекста неквантованного.
2. Если карта занята под GUI хотя бы немного - этим же занято и самое уское место - шина pci-e - а это критично в таком сетапе. Оттуда и разница в скорости генерации - винда забивает часть пропускной способности, задействуя карточки под GUI.
Еще - генерация может проседать, даже когда в фоне просто копируется/качается файл по сети. Этак на четверть. Не говоря уже о торрентах всяких. И нагрузка на процессор тут совсем не влияет - это память и шина опять себя проявляют.

За размером контекста не гонюсь - тоже замечал, что более 12-16K ни мистраль ни гемма полноценно не держат - начинается деградация. Не критичная, но заметная.

Аноним 05/07/25 Суб 09:44:09 № 1265208 466

>>1265192
> Еще - генерация может проседать, даже когда в фоне просто копируется/качается файл по сети. Этак на четверть. Не говоря уже о торрентах всяких. И нагрузка на процессор тут совсем не влияет - это память и шина опять себя проявляют.

Кажется я теперь понял почему у меня комфи начинает нереально лагать, стоит только начать качать очередную модельку.
мимо

Аноним 05/07/25 Суб 09:53:27 № 1265212 467

>>1265208
>Кажется я теперь понял почему у меня комфи начинает нереально лагать, стоит только начать качать очередную модельку.
Подтверждаю. В Comfy этот эффект тоже проявляется, хоть там и одна карта работает одновременно. Меньше, но тоже весьма заметно.

Аноним 05/07/25 Суб 11:28:59 № 1265268 468

Никто не замечал, что при обновлении страницы с Таверной повисает страница с твичом? Сначала я думал совпадение, но сейчас проверил и каждый раз так.

Аноним 05/07/25 Суб 11:32:45 № 1265273 469

>>1265062
> 2) Новые сладенькие опенсорцные модели
А как давно ты чекал? На гемму есть синтия, хоть вышла давно ее только сейчас распробовали, вышел новый мелкомистраль, который неплох в стоке, опять же распробовали жлм. Если имеешь жирное железо - большой квен все также хорош, вышли крупные модели от байду и вот сейчас к ним выкладываются кванты.
> выходишь на другой уровень работы с нейронками
Имаджинируй что после лоботомитов основательно затеймил умную модельку и заставил работать близко к идеальному, вот где тру двойное лунное восхождение.

Аноним 05/07/25 Суб 11:36:31 № 1265275 470

>>1264806
>В этих играх есть сюжет?
В Вуве очень даже, я бы сказал что сюжет там главное, да и Геншин я до Натлана читал весь без скипов.

Аноним 05/07/25 Суб 11:40:16 № 1265277 471

>>1264942
сложна XD харош

Аноним 05/07/25 Суб 11:44:32 № 1265279 472

>>1265275
Срыгните пожалуйста со своим говном в соответствующий тред. Спасибо.

Аноним 05/07/25 Суб 11:45:26 № 1265280 473

>>1264935
Через Вулкан, да.
О насколько низких скоростях идет речь? У меня когда все влезает в память (до 32гб), боты дрищут текстом быстрее чем я успеваю читать.

Аноним 05/07/25 Суб 11:56:53 № 1265284 474

>>1265280
у меня скорость поднялась минимум в 3 раза
если тебе хватает, то почему бы и нет, еще и с линухой и дальнейшим ебаться не надо

Аноним 05/07/25 Суб 12:06:46 № 1265288 475

Какое же соевое говно.
Мне похуй как пиздато оно пишет, аполоджайзы и свайпы через сообщение ебал терпеть

Аноним 05/07/25 Суб 12:13:38 № 1265295 476

>>1265288
А что ты ожидал, тебе тут и мистраль по морде даст.

Аноним 05/07/25 Суб 12:15:52 № 1265298 477

>>1265288
Для таких "подкатов" попробуй лучше Magnum-содержащие поделия.

Аноним 05/07/25 Суб 12:18:35 № 1265301 478

>>1265288
шиз, который с грамматическими ошибками срет чару в рот первым сообщением, а потом плачет из-за рефузов, ты? хоть одна моделька не сломалась после такого кринжа?

Аноним 05/07/25 Суб 12:44:47 № 1265316 479

>>1265295
>>1265298
>>1265301
Куколды, спок. Даже иишную тян уже надо добиваться а не срывать с неё топик и ебать в рот.

Аноним 05/07/25 Суб 12:51:59 № 1265322 480

>>1265316
любимый тип залетных. пришел, обосрался, но подлива почему-то в штанах у тредовичков

Аноним 05/07/25 Суб 12:56:58 № 1265325 481

>>1265316
>срывать с неё топик и ебать в рот
1) Возьми карточку где тня уже так сказаь поставленна в позицию.
2) Возьми модель которая обучена соотвественно - кумслоп тюны ReadyArt, Drummer, магнумы.

Тогда и добивать не придётся, и рефузалов не будет.

Аноним 05/07/25 Суб 13:06:27 № 1265336 482

>>1265284
Звучит интересно, но в шиндошсе я так понимаю это только через вот эту еболу делается? А оно ведь, кажется, именно Pro дрова и ставит, которые ниочень с игрульками.

Аноним 05/07/25 Суб 13:12:00 № 1265338 483

>>1265322
>подлива почему-то в штанах у тредовичков
для наброса слабо, для своеобразной просьбы помощи и рекомендации - так выше привели, карточки уж сам найдёт, хотя и их можно посоветовать

Аноним 05/07/25 Суб 13:13:12 № 1265339 484

image.png 34Кб, 689x192

>>1265336
Хм. Все-таки вроде не надо дрова ставить. Попробовать что ли.

Аноним 05/07/25 Суб 13:17:33 № 1265347 485

Как же новый мистраль универсален. Сейчас вот, сделал из него генератор для карточек. Идея была: скормить картинку, и чтоб оно из нее само делало карточку на основе изображения и каких-то желаемых фактов добавленных кратко (благо проектор на него есть). Пишет как миленький с таким вот промптом:

---
You are character's card (character sheet) generator. Your task is to make character based on the provided information. You shall make use available information at top priority, and imagine missing part to carefully conclude wholesome and interesting character with realistic behavior. Follow template in the text below:

<character>
Name:
Age:
Occupation | Work:
Appearance:
Mind:
Likes:
Dislikes:
(optional, add if needed) Special:

Background:

</character>

For appearance you shall include mention of height, face, hair, eyes, body type, in description. For a female - breasts, hips and ass shall be mentioned too. Write a text here, structured list not needed.

For "Occupation | Work" - field name chose only one word - occupation or work, most appropriate one.

Important - you shall make a character card only, don't write preamble or thinking process. You writing shall be without any unsure sentences, avoid mention about guessing something. If you have fact - use it. If not - just imagine something suitable.
---
А потом еще можно прямо как большой гопоте сказать: исправь мне вот это и это - и ведь исправляет. Гемма на такой задаче косячила (часто писала однотипщину и что еще хуже - портила уже написанное при корректурах), а эта - могЁт. И картинку корректно использует. Я этот промпт почти от балды на коленке накатал. Думал, что придется долго подгонять - а оно сразу работает.

Аноним 05/07/25 Суб 13:21:55 № 1265351 486

>>1265347
>генератор для карточек
А ну, да, он норм, у меня шаблон покруче есть, периодически дорабатываю.
https://pixeldrain.com/l/47CdPFqQ#item=74

Аноним 05/07/25 Суб 13:26:04 № 1265354 487

>>1265347
>исправь мне вот это и это
Да, шаблон весь в одном сообщении отсылать не надо, можно, и даже желательно, разбить на несколько.

Аноним 05/07/25 Суб 13:45:38 № 1265373 488

Анон, запустил на андроиде qwen 2-1.5B через chatterui
Оно мне пишет вот такие ответы
>Идем, неплохо сидеть! Незначившаяся на деревнях и болторода выходит. Ехда и непокаловывашей пришества не бывает. А гуши на горите. Дорта ежда и буца и нажьет в блюз. Если будет симулятора в бурне и на фрижде - раздай на ней о ним. Можем отжде и брездай на буцере.

Это норма?

Аноним 05/07/25 Суб 13:46:29 № 1265376 489

А что если на кум модели отыгрывать серьезное рп вместо того чтобы искать кум на серьезной модели?

Аноним 05/07/25 Суб 13:47:23 № 1265377 490

>>1265373
Да.

Аноним 05/07/25 Суб 13:47:56 № 1265378 491

>>1265339
>>1265336
В общем получился лютый калич, потому что на 9070 XT не заводится этот сраный rocm. Только один гпу видно (старый) и все, так что ну его нахуй пока амд не обновит свое говно.

Аноним 05/07/25 Суб 13:51:31 № 1265382 492

>>1265373
>qwen 2
фатальная ошибка, еще и квант какой нибудь 4 да?
На телефоне какой нибудь qwen 3, или гемму3 из мелочи в 6-8 кванте прообуй

Аноним 05/07/25 Суб 13:52:44 № 1265383 493

>>1265377
Блядь, это все троллинг какой-то?
Ни одного внятного ответа. Какое-то говно генерирует.
Ради этого все тут собрались в треде? Вы ебанутые?

Аноним 05/07/25 Суб 13:53:26 № 1265384 494

>>1265382
Понял, спасибо, попробую.

Аноним 05/07/25 Суб 13:54:54 № 1265387 495

>>1265376
С MS3.2 Magnum-Diamond - работает.

Те кто раньше выходили и/или пережарены (например тутушка) - скорее всего затупят, залупятся, и схватят экзистенциальный кризис, а потом сновая сведут всё к куму.

Аноним 05/07/25 Суб 13:55:59 № 1265389 496

>>1265383
>Ради этого все тут собрались в треде? Вы ебанутые?
Ты сам 3B модель, да? Отвечай частно.

Аноним 05/07/25 Суб 14:01:24 № 1265394 497

>>1265373
>вот такие ответы
>>1265383
>Какое-то говно генерирует.
Хахахха, это ты из асига?

>>1264650 →
>Текст на русском. Осторожно, можно реально схватить урон по психике в лучших традициях DD и Лавкрафтианы.

Аноним 05/07/25 Суб 14:18:20 № 1265412 498

А почему в треде так угарают над маленькой мистралью? Типа я на серьезных щах спрашиваю без рофелса. Это пока что единственная модель в районе 30b, которая у меня запомнила что герои 50 сообщений назад пиздились с медведем на реке и отыгрывает что им холодно, от них самих воняет паленой от фаерболла шерстью и речной водой, на одежде остались следы крови после битвы, а нога одного из героев до сих пор болит после того как его дыранули. И мне им это даже не нужно напоминать. Сноудроп или тот же командер моментально вьебали бы эти факты уже через 5 сообщений забыв про это. В чем она так объективно плоха?

Аноним 05/07/25 Суб 14:22:24 № 1265416 499

>>1265412
>А почему в треде так угарают над маленькой мистралью?
Де? Кто?
Норм модель, работает из коробки во всех сценариях

Аноним 05/07/25 Суб 14:27:14 № 1265419 500

>>1265389
Ты меня раскусил.
>>1265394
Посоветуй нубасу, с чего вкатиться. Есть гайд для нуба?

ПЕРЕКАТ Аноним # OP 05/07/25 Суб 14:32:04 № 1265423 501

ПЕРЕКАТ

>>1265422 (OP)

ПЕРЕКАТ

>>1265422 (OP)

ПЕРЕКАТ

>>1265422 (OP)

Аноним 05/07/25 Суб 16:45:49 № 1265512 502

>>1264886
>По поводу того, что вижу у тебя, ты используешь oogabooga
Я его не использую, у меня просто там все модели
>https://github.com/ggml-org/llama.cpp/releases/tag/b5828
Это-то я и поставил, выбрав win-12.4 cuda. Но так-то думаю скорость не поменяется если не поставить кублас, а тулкит куды я ставить не хочу
>тебе и обычный кобольд норм, просто с cuda выбираешь и все
Вопрос был именно как кублас в ламмеспп поставить, в коболде у меня все давно настроенно, но он сейчас себя исчерпал

Аноним 05/07/25 Суб 18:06:38 № 1265661 503

>>1265192
Хм. Это странно, что у тебя скорость выше. Возможно, дело в пингвине плюс твоих оптимизациях? С другой стороны, 12к контекста я не пробовал: только 8к и 32к, и вот на 32к такое сильное падение. Я не тестировал на иных контекстах, там явно должно быть быстрее, хотя сам факт, что у меня с максимально правильным распределением слоёв скорость ниже, чем у тебя, даже на 8к, явно говорит в пользу использования линукса. Вероятно, на винде невозможно выжать такую же скорость. И ты кобольд используешь или ламу голую?

Я также проводил через клода рисерч по поводу нашей связки, отзывов, драйверов, технических особенностей — чтобы он изучил этот момент. Он выдал полотно со ссылками на источники. Там было нытьё о том, что нихуя не работает нормально/вообще не работает/какие-то проблемы со скоростью, небом, Аллахом. На Винде. Я встретил только проблемы со скоростью генерации, с обработкой промпта, кажется, всё так и должно быть. Медленно.

Ну и я не заметил по мониторингу, что p104 хоть как-то была задействована для GUI. Рабочий стол и вот это всё нагружает у меня 3060.

А вот деградации вывода на контексте до 32к на мистрале не было по ощущениям. Выше шанс попадания в луп, но без каких-то критичных моментов.

Что касается геммы, ты используешь SWA? Он очень сильно меняет картину, так как контекст становится милипиздрическим. До 32к жить можно, при этом деградация уже действительно есть. И отключать его не вариант, потому что тогда контекст разбухает невероятно сильно.

Помогити Аноним 05/07/25 Суб 18:52:12 № 1265757 504

image.png 144Кб, 768x251

Сап анончеки, помогите плиз.
Поставил себе sillytavern по какому то гайду, использовал kobold cpp, я даже не ебу что это, просто в гайде так было и я так и сделал. Чем kobold cpp отличается от какого то там oogabooga блять, и что лучше?

Еще, как настроить токены у ботов? Если я ставлю например 300 токенов, то бот пишет мало текста (как я и хочу) , но он при этом не завершает предложения и слова. Как сделать так чтобы бот условно понимал сколько у него блять токенов, и чтобы он писал так чтобы предложение было закончено?

Ещё, самый блять главный наверное вопрос: Если я в процессе ролеплея придумываю ещё персонажа , и начинаю за него отыгрывать тоже, то бот ахуевает и в своем ответе берет этого персонажа под свой контроль и за него пишет сука. Как сказать боту чтобы он блять не писал от имени тех персов которых я придумываю по ходу рп ?

Заранее спасибо с меня ничего

Аноним 05/07/25 Суб 21:12:46 № 1266029 505

>>1265062
>Забавный факт - только погрузившись в пучины слопокума, перебирая тюны один за другим, ты понимаешь насколько LLM все же тупые, буквально как Нео видишь их суть. Неглупые челы могут знать мл, писать каких то агентов, знать сотни промтов - но только заглянув под юбку Серафине, выходишь на другой уровень работы с нейронками.
Разве не наоборот? Ведь нормисные дипсики и чатжопа максимально кастрированы, а на локалке ты можешь выкрутить температуру, поиграться с семплерами, поставить себе какую-нибудь расцензуреную модель, пускай и с долей сои.

Аноним 05/07/25 Суб 22:00:23 № 1266102 506

>>1265757
>Чем kobold cpp отличается от какого то там oogabooga блять
Функционалом, если коротко. Кобольд проще в установке, настройке и управлении. Уга более универсальна, но пердолиться с ней сложнее.
>Еще, как настроить токены у ботов? Если я ставлю например 300 токенов, то бот пишет мало текста (как я и хочу) , но он при этом не завершает предложения и слова.
Ограничение в 300 токенов просто завершает генерацию, когда достигается этот порог в 300 токенов. Модель понятия не имеет сколько тебе нужно, по этому эта настройка по сути бесполезна. Если тебе нужно ограничить или увеличить длину сообщений - то придется самому редактировать их и показывать модели, как нужно писать.
>Как сказать боту чтобы он блять не писал от имени тех персов которых я придумываю по ходу рп ?
Пропиши это в системной инструкции. Если не поможет - точно так же редактируй предыдущие сообщения и вырезай оттуда ненужные куски. По мере заполнения контекста модель будет ссылаться именно на них.

Аноним 05/07/25 Суб 22:27:49 № 1266125 507

>>1266102
>Пропиши это в системной инструкции.
Это где найти?

Аноним 05/07/25 Суб 22:56:01 № 1266144 508

>>1266125
В силли вкладка Advanced Formatting с буквой A, справа сверху будет блок System Prompt - туда идут все инструкции.

И тред ушел в бамплимит, так что перекатывайся на следующий и дальше спрашивай там.