/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №201

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №201 /llama/ Аноним 01/03/26 Вск 18:42:57 № 1538359 1

Эффективность к[...].png 92Кб, 1399x1099

Цензура моделей[...].png 2157Кб, 1131x7777

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Агентов и вайб-кодинга тред: >>1530474 (OP)

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1535243 (OP)
>>1535243 (OP)

Аноним 01/03/26 Вск 18:51:19 № 1538369 2

БАЗА ТРЕДА:
Все, что ниже Q4 это кал
Кобольд это кал
Экслама это кал
Квен это кал
Гемма это кал
Локалки мертвы
Кум на Попенроутере стоит всего 10 баксов

Аноним 01/03/26 Вск 18:52:17 № 1538370 3

База треда: Лучше папа Кобольд, чем мама Ollama.

Аноним 01/03/26 Вск 18:52:19 № 1538371 4

>>1538369
Ты опять выходишь на связь, мудила?

Аноним 01/03/26 Вск 18:53:19 № 1538372 5

>>1538358 →
двачану. почти все залетные ждут что их покормят с ложечки, на запросе дополнительной инфы большинство и откидываются, лол
в шапке вики есть, ее наверно вообще почти никто не читает

Аноним 01/03/26 Вск 18:54:14 № 1538373 6

Актуальные non-moe модели:
- qwen 14b
- семейство nemo 12b (вечны)
- семейство small mistral 24b (вечны)
- ministral 14b
- qwq snowdrop 32b
- glm 4.7 flash
дополните, плиз.

Аноним 01/03/26 Вск 18:54:51 № 1538374 7

>>1538369
>Кобольд это кал
>Гемма это кал
Слышь, псина

Аноним 01/03/26 Вск 18:55:43 № 1538375 8

>>1538373
glm flash это мое
дополнил...

Аноним 01/03/26 Вск 18:58:12 № 1538379 9

>>1538369
>>1538374
У соседей хорошо подметили: >>1526162 →
:)

Аноним 01/03/26 Вск 19:00:47 № 1538383 10

ec5adca7-aaaa-4[...].jpg 250Кб, 1472x704

>>1538370
А если оба?

Аноним 01/03/26 Вск 19:02:26 № 1538386 11

>>1538379
Не всё, есть еще llama.cpp и древний air. Они последняя надежда кума

Аноним 01/03/26 Вск 19:06:31 № 1538389 12

>>1538370
В голосину

Аноним 01/03/26 Вск 19:11:15 № 1538393 13

>>1538373
>qwq snowdrop 32b
>nemo 12b
Слишком много причисляешь. Если так, то там будет огромный список с ГЛМ 4, командером, большим мистралем и прочем
Имхо если брать именно актуальные, то будет следующий список
1. Мистраль (3.2, магистраль, министраль)
2. Гемма (от 27 до самых маленьких)
3. Qwen 27 и Qwen 9, который скоро выйдет
Ну и все. МоЕшный мир победил

Аноним 01/03/26 Вск 19:24:18 № 1538402 14

>>1536890 →
>А я не сочувствую долбоебам. У них вполне нормальные компы и они могут спокойно запустить GLM 4.7 Flash/Qwen 3.5 со скоростью 20+ т/с, но вместо этого они решили страдать. Причем ради чего? Ради уебищной геммы. Тяжело быть сектантом умницы

Чтобы... что? Флэш абсолютно неюзабелен через 2 реплая. Срет ризонингом на 5к токенов. Квен тоже этим грешит. МоЕшки с количеством активных параметров до 15б - просто параша для РП.

Аноним 01/03/26 Вск 19:25:30 № 1538406 15

>>1538402
У Эира 12б если что, а пишет он как плотная Ллама 70б и мозгов столько же

Аноним 01/03/26 Вск 19:27:28 № 1538411 16

>>1538406
Хорошо, погорячился. Но в любом случае в комбинации 8 врама + 32 рама МоЕ - лоботомиты, а из плотных моделей нормальная только гемма и мистрали. Новый плотный квен слишком долго думает, и выдает результаты примерно как гемма. Опять же, для рп.

Аноним 01/03/26 Вск 19:28:56 № 1538415 17

>>1538393
>ГЛМ 4, командером, большим мистралем и прочем
По-прежнему актуальны и хороши
>Ну и все. МоЕшный мир победил
Из новинок да

Аноним 01/03/26 Вск 19:29:27 № 1538417 18

контекст.jpg 8Кб, 479x119

>>1538358 →
>предположим, ты не наглый или ленивый, а глупый
Первый день поднятия локалки с нулевым знанием о ии. Чего ты ожидал? Для меня половина треда выглядит как абракадабра. Да, я не понимаю. Дело не в глупости, а в отсутствии опыта. Как мне его приобрести, если аноны меня пинают и смеются над моими простыми вопросами? Как будто если бы я спросил что-то космически заумное, вы бы сразу зашевелились и начали давать охуительные ответы с обильными ветками обсуждений. Треды на дваче если это не личные чатики в a или b созданы для общения и вопросов, в том числе и тех, что кажутся лично тебе глупыми
>Это может быть конец контекста, это может быть сломанный шаблон, eos/bos токены, вариантов наберется немало
Что мешало просто сказать про это и хотя бы направить в гугл? Допустим это не решение моей проблемы, но я хотя бы понял куда копать. Хочешь общаться с обученными - обучи, а не бубни, что кто-то не обучен
Впрочем, вариантов не так уж много. Напиши про каждый. Контекст у меня выставлен на 8192, по дефолту. Что значит что он кончился?
>может быть сломанный шаблон
Может быть. Научи делать правильные шаблоны, которые не ломаются
>eos/bos токены
Где настройка отвечающая за них? Какие значения надо выставить?
>это, по твоему, выебон
А чем это не выебон? Вместо хоть какой-то инфы которую можно было бы раскрутить в ответ на вопрос, ты просто пожаловался, что тебе не дали желаемый пост на дваче. Детский сад
>Такую, какую ты проигнорировал
У меня нет пасскода чтобы насрать кучей скринов со всеми настройками кобольда. Спрашивай конкретные вкладки настроек или цифры и я их назову. Я не в курсе, что именно может указать тебе на причину проблемы
>выебона нет
>ну да выебнулся
>Как так то?
Пиздец, чел. Сам признался, что глумишься, и тут же сделал невинные глазки, что не было. Как так то?
>хотя бы не начинай выебываться
Тебе это мерещится. Или ты с нулевой ущемился с квенодуры и пошёл в атаку? Ну соре, не знал что ты фанатик квена и так оскорбишься от моей иронии в сторону затупившего бота. Какой ты нежный, но ок, принимаю условия. Может ещё по имени тебя называть, чтобы ты знал, что я просто общаюсь, а не наезжаю с требованиями?

Аноним 01/03/26 Вск 19:30:53 № 1538420 19

image.png 165Кб, 2032x432

>>1538372
>в шапке вики есть, ее наверно вообще почти никто не читает
И почему же ее никто не читает? Может потому, что инфа устарела на года 2-3?
Единственная ценность вики это историческая. Там можно по таким строчкам
>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp
Узнать, например, почему у exl раньше были и остаются в виде нескольких шизов фанаты

Аноним 01/03/26 Вск 19:32:32 № 1538423 20

>>1538162 →
>>1538158 →
>>1538138 →
В начале пути радовался каждой лишней тысяче контекста на 12б, квантовал даже. 12к думал это очень много. Щас 32к на эире стоит, еле еле доползаю до этих же 12к и закрываю ламу, всё же на подрочить вполне хватает, а какие то богатые истории писать с попугаем как то не тянет, есть ещё развлечения

Аноним 01/03/26 Вск 19:36:42 № 1538430 21

>>1538417
Квены я терпеть не могу, но ты прекрасно доказал треду, почему новичков, которые не хотят отвечать на задаваемые им вопросы, нужно мочить в сортире.

Напомню, что весь сыр-бор начался с того, что вот тут >>1538266 → я попросил конкретные вещи: "Какая модель, на чем запускается, какие настройки? Где скрины? Где логи?"
Одних только Квенов несколько поколений, не говоря уже о том, что стандартные настройки Кобольда аноны не помнят наизусть. Приложить скрины с настройками и логами можно и без пасскода. Нахуй ты вообще его сюда приплёл? И всё это спустя десяток сообщений.
Короче, только время на тебя зря потратил. Ты обычная недовольная злюка, к которой соответствующее отношение.

Аноним 01/03/26 Вск 19:36:45 № 1538431 22

>>1538423
Меняй карточки и/или модели. Тебе просто приелись карточки, либо стиль написания модели

Аноним 01/03/26 Вск 19:39:02 № 1538435 23

>>1538417
>анон с целью помощи реквестит информативные скрины и логи
>спустя дюжину постов верчения на сковороде и вони приложил таки пикрил
>длина контекста
ебать спасибо нахуй
в голос, таким ничего не поможет

Аноним 01/03/26 Вск 19:43:50 № 1538445 24

>>1538431
>меняй
Конечно, давай модель уровня эира в его размере

Аноним 01/03/26 Вск 19:52:46 № 1538454 25

>>1538430
>поток обид вместо ответов на вопросы
Да ты сам походу не знаешь в чём проблема, просто для красного словца сказал, что специалист
Но раз ты просишь, лови. Модель Qwen3.5-27B-heretic.Q4_K_M
Лог я проебал, сразу перезагрузив кобольд

Аноним 01/03/26 Вск 19:56:51 № 1538455 26

>>1538454
Ты если не понял то мы тебя тут всем тредом игнорим уже
Тот кому ты отвечал был прав тащемто, пока он на тебя не спустил хорошенько ты почему-то скрины принести не мог, а теперь с барского плеча запостил со словами раз ты просишь, лови и пасскод не понадобился ахаха
Это наша проблема, что ли? Это нам надо? Плюс один шиз в копилку

Аноним 01/03/26 Вск 19:58:41 № 1538459 27

>>1538454
> Но раз ты просишь, лови.
Да, это же мне необходимо разобраться, почему моделька отказывается выводить аутпуты...

Пасскод купил таки или что мешало раньше запостить? Сейчас ясен хуй я уже даже смотреть не буду, кекв. Может найдется в треде кто-нибудь, кто помогает выебистым залетухам, но не я.

Аноним 01/03/26 Вск 20:00:27 № 1538460 28

Не бейте, только вкатываюсь. Система 12 гигабайт видеопамяти, 32 гигабайта ддр4 памяти, ссд обычный сата. Какую модель лучше всего использовать при таких характеристиках? Пробовал Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2, два разных Qwen (не помню какие именно, уже удалил) - ничего из этого не понравилось, по разным причинам. В основном потому что модели очень предсказуемые и пишут одинаково вне зависимости от ситуации. Вроде и не тупят слишком сильно, но чувствуется что они постоянно будто одну и ту же сцену пытаются описать просто чуть разными словами. И русский у них очень проблемный, используют какие-то очень странные словосочетания, говорят чуть ли не поговорками иногда. В общем да, такая ситуация. Есть что-то получше, что можно установить, или лучше забить и пойти в aicg спрашивать про всякие опусы и гемини?

Аноним 01/03/26 Вск 20:01:08 № 1538462 29

>>1538455
>три поста жаловался на отсутствие скринов
>получив скрины жалуется на их наличие
>мы, нас
Мда...
>>1538459
Я не запостил скрины сразу только потому, что не знал, что проблема специфическая и редкая. Я считал, что так бывает у всех, и решение давной найдено. Хз с чего тут ущемляться всем тредом

Аноним 01/03/26 Вск 20:02:58 № 1538464 30

>>1538460
Качаешь 2 квант отсюда https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF
Не нравится - закрываешь и идёшь в асиг, лучше не будет

Аноним 01/03/26 Вск 20:04:45 № 1538465 31

А ладно забей все равно не влезет
Как же пососно не иметь 64 рам

Аноним 01/03/26 Вск 20:05:02 № 1538466 32

>>1538464
Второквантовый даун, теперь охотится на новичков...

Аноним 01/03/26 Вск 20:07:36 № 1538468 33

>>1538464
Мне не хватит, у меня система просто с браузером без всего другого жрет 8 гигабайт памяти, так что под модель у меня где-то 36 гигабайт свободно.

Аноним 01/03/26 Вск 20:08:39 № 1538470 34

Все жалуются что квен 3.5 много думает. Мой квен:
>Reasoning:
>Пользователь просит информацию о модели LongCat-Flash-Lite. Я нашёл технический отчёт и страницу Hugging Face. Теперь нужно создать структурированное саммари с ключевыми особенностями архитектуры, производительностью и практическими деталями.

И всегда в таком духе. Пользователь просил А надо сделать А. Все размышления

Аноним 01/03/26 Вск 20:08:47 № 1538473 35

>>1538468
https://huggingface.co/bartowski/zai-org_GLM-4.7-Flash-GGUF

Аноним 01/03/26 Вск 20:09:28 № 1538474 36

>>1538460
> Пробовал Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2
По выбору моделей в целом верно, разве что Llama 8b тебе не нужна. Mistral Nemo (12b) - хороший старт. Возможно, удастся Mistral Small 24b в ~Q3 уместить? Итт были аноны с похожими сетапами, думаю, отзовутся. Разница будет существенная, 24b модель в Q3 будет лучше, чем 12b в, наверно, любом кванте.
> В основном потому что модели очень предсказуемые и пишут одинаково вне зависимости от ситуации
> Вроде и не тупят слишком сильно, но чувствуется что они постоянно будто одну и ту же сцену пытаются описать просто чуть разными словами.
В каком формате у тебя карточки? Поделись, покажи. Возможно, проблема в них или промптах, которые ты используешь. Будет хорошо, если покажешь весь пресет, включая семплеры. Если температура слишном низкая, то и разнообразия никакого не будет.
> И русский у них очень проблемный
Хороший русский язык, увы, возможен только на самых больших моделях, и то с нюансами. Но 24b Mistral Small будет на порядок лучше, многие на русике играют на нем и Гемме 27, но не уверен, что ее удастся впихнуть. У нее контекст тяжелый очень.
> Есть что-то получше, что можно установить
Если можешь переехать на 24-27b модели, то жизнь там есть, по крайней мере на английском. Сам долго сидел на 24b Мистралях. Попробуй 24b модель, поработай получше над промптами и карточками и смотри, что получится. Если уж не устроит результат - придется на апи, да. Q2 Air не советую, потеряешь время. Возможно, есть другие мелко-мое модели, которые подойдут? Не уверен.
>>1538462
🤡

Аноним 01/03/26 Вск 20:11:20 № 1538478 37

>>1538460
>Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2
Это все старый кал. В прошлом треде уже советовали
Вот это полностью на видюхе >>1538010 →
Плюс можно повысить квант, чтобы увеличить качество и существенно снизить скорость
Плюс МоЕ Q4 попробуй
https://huggingface.co/zai-org/GLM-4.7-Flash
https://huggingface.co/Qwen/Qwen3.5-35B-A3B
Для тех, кто на видяхе поставь KV Cache 8 bit
А для MoE придется подбирать CPU Layers (будет 20-30 где-то)

Аноним 01/03/26 Вск 20:11:22 № 1538479 38

>>1538474
>🤡
Чего пристала?

Аноним 01/03/26 Вск 20:20:58 № 1538482 39

>>1538462
Тебе правильно подсказали ещё в прошлом треде. Смешение двух или более промтов сломало мозги твоему боту. А если у твоего бота сломался мозг, значит ты дал ему прямо противоположные инструкции. В твоём чате не должно быть ничего лишнего, что может сбить бота с основной линии. Как фиксить в дальнейшем? Хз. Напиши новый промт, поточнее, попробуй, проверь. Тут практика решает больше, чем конкретное знание. В конце концов у кобольда есть функция рефинкать сообщения, мог бы её потыкать.

Аноним 01/03/26 Вск 20:24:22 № 1538487 40

>>1538470
>Мой квен
Это который ты в голове себе выдумал? Потому что настоящий квен срет по 5к токенов на любой чих
>Пользователь просит информацию о модели LongCat-Flash-Lite. Я нашёл технический отчёт и страницу Hugging Face. Теперь нужно создать структурированное саммари с ключевыми особенностями архитектуры, производительностью и практическими деталями.
Так думает гопота 120b, если ей low выставить в ризонинге, все остальные пишут ощутимо больше

Аноним 01/03/26 Вск 20:25:27 № 1538488 41

База треда по нищуковым сборкам: советчики МоЕ говна, которые сами ни разу не пробовали флэши и А3Б (потому что если бы попробовали, то никогда бы это не советовали) против плотнодебилычей геммоебов, которые любят читать по одному слогу раз в 3 секунды.

Аноним 01/03/26 Вск 20:30:18 № 1538490 42

>>1538482
Ну, я не знал, что будет такая реакция. Ладно, извиняюсь перед всеми. Буду писать меньше. За совет спс

Аноним 01/03/26 Вск 20:31:52 № 1538491 43

>>1538474
>В каком формате у тебя карточки?
Раньше использовал готовые, потом тоже подумал, что может проблема в них и начал писать свои через переводчик. Просто текстом описывал персонажа в несколько параграфов, потом переводил и вставлял. В каком то гайде прочитал, что это лучший формат вместо всяких списков и тегов.
>проблема в них или промптах, которые ты используешь
Промт обычный дефолтный из таверны. Ролплей иммерсив или как-то так. Ничего там не менял в общем-то.
>Будет хорошо, если покажешь весь пресет, включая семплеры
Их тоже не менял, ну кроме формата инструкций. Семплеры пресет Simple-1, там температуру только крутил, но это ничего не поменяло по ощущениям. Вернул по умолчанию.

Попробую мистраль 24B и гемму 27B, спасибо.

>>1538478
>Вот это полностью на видюхе
>Плюс МоЕ Q4 попробуй
Попробую, спасибо.

Аноним 01/03/26 Вск 20:32:59 № 1538492 44

>>1538488
Хули делать, если на нищеуровне все одинаково говно?

Аноним 01/03/26 Вск 20:33:06 № 1538493 45

>>1538383
>А если оба?
То сына долбоеба

Аноним 01/03/26 Вск 20:35:19 № 1538494 46

>>1538492
Оно говно по-разному. Первые смотрят на то, как их ХХ-летняя женщина снимает трусы четвертый раз подряд, вторые заебываются еще до того, как она начнет снимать трусы.

Аноним 01/03/26 Вск 20:35:59 № 1538496 47

>>1538490
У анончика просто пригорело маленько, не обращай внимание, со всеми бывает. Ты вон тоже простынь выдал. Обменялись говной и хватит. Пиши как писал, только обращаясь с проблемой, описывай её подробно, чтобы мы могли тебе помочь.

Аноним 01/03/26 Вск 20:49:16 № 1538510 48

>>1538454
У тебя неправильный темплейт и неправильные семплеры. Правильные можешь посмотреть на странице модели.

Аноним 01/03/26 Вск 21:04:44 № 1538520 49

>>1538417
>Что значит что он кончился?
Вот так взял и кончился. Контекст - это все что есть в чате от начала чата. Вообще все - и ризонинг нейронки, и то что ты там понаписал и высеры нейронки. Упрощенного говоря при нажатии кнопочки "Отправить" в модель уходит не последнее сообщение - а вся СРАНЬ с начиная с системного промпта и твоего первого сообщения. И при превышении размера контекста в этом посыле нормальный серьезный бэк отрыгивает сразу с ошибкой. Но у тебя кобольд. А в кобольде по умолчанию включено скользящее окно. Дальше гугли сам.

Аноним 01/03/26 Вск 21:11:39 № 1538525 50

Нагрузку страшно давать, уверен что то отрыгнёт

Аноним 01/03/26 Вск 21:40:04 № 1538564 51

Среди моделек до 35б кто сейчас ебет в кодинге? ГЛМ 4.7 флеш?

Аноним 01/03/26 Вск 21:42:13 № 1538566 52

>>1538564
27b квен, остальное годится только змейку на питоне генерировать.

Аноним 01/03/26 Вск 21:51:57 № 1538573 53

>>1538525
Вроде шевелится, но очень медленно. На двух было кратно быстрее, мб мало рамы, пойду загружать память

Аноним 01/03/26 Вск 22:17:14 № 1538593 54

Где в глупой таверне смотреть, С какой скорость и за какое время генерируется ответ.

Аноним 01/03/26 Вск 22:22:39 № 1538596 55

И это странно, что в таврене как то лучше текст пишется? Или это мощь тегов? Или у меня планка низкая?

Аноним 01/03/26 Вск 22:30:14 № 1538608 56

>>1538573
Tp, pp или комбинация? Сколько выдает?
>>1538593
Включи в настройках таймер сообщения а потом на него наведи.
>>1538596
Таверна может работать лучше за счет более продвинутых настроек формата и управлением промпта. Или по той же причине хуже если в них накосячишь.

Аноним 01/03/26 Вск 22:51:16 № 1538615 57

>>1538608
> Сколько выдает?
Пока какой то посос на гемме в 18тпс. Завтра нужно настроить охлаждение, подкинуть нормальную сеть и уже гонять бенчи

Аноним 01/03/26 Вск 23:06:25 № 1538625 58

ministral 14b Хватит всем!!!!

Аноним 01/03/26 Вск 23:22:33 № 1538642 59

О. Немного поверхностно и ещё надо будет допилить напильником, но уже что-то.

Интересно какие модели для эмбеддинга и реранкинга вообще с русским дружат

Аноним 02/03/26 Пнд 02:30:14 № 1538731 60

>>1538615
Чел поимел систему. Круче я ещё в этой теме не видел.
128 гб врам по цене как... короче моё почтение.
Слушай, а как ты Ollama (или vLLM) под них заводил? Из коробки же официальные билды gfx906 уже не жалуют. Сам компилил библиотеки?
Что ты на ней будешь делать?

Аноним 02/03/26 Пнд 02:31:14 № 1538732 61

>>1538487
Я всеми 3.5 квенами пользовался. Ни один не срал ризонингом. Хотя все жалуются. У меня одна только гипотеза что Openclaw в промпте имеет что-то такое что влияет на это проведение

Аноним 02/03/26 Пнд 02:53:27 № 1538742 62

>>1538731
Сам собираю из официальных реп и форков. Нужно вот начать всё обновлять, а то пока был риг разобран всё стояло на месте
> Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906

> Что ты на ней будешь делать?
У самурая нет цели. Есть парочка идей которые хочется опробовать

> 128 гб врам по цене как...
50к. Если бы прям по низу успевал то может даже в 40 бы уложил видяхи.

А вообще я может и успел поиметь систему, но она меня в ответ тоже поёбывает.
- красные видяхи с спец заказа из цодов
- "отечественная" мать которая не прошла приёмку
- инжи 4189 "не для продажи"
- разогнанная до 2666 серверная 2133
- обильно посыпать 3д печатными костылями
Это всё по определению не должно хорошо работать

Аноним 02/03/26 Пнд 02:59:58 № 1538743 63

https://huggingface.co/CohereLabs/tiny-aya-base

Пробовал кто малышку Аю?

Аноним 02/03/26 Пнд 03:04:40 № 1538744 64

>>1538742
Заставить работать ecc в разгоне на бракованном гагарине или что там у тебя, ещё и на инжике + купить 128 гб врам за 50к... бля чел, ты не пропадай, пиши тут иногда. Буду читать в перерывах пока вручную перекраиваю .md текст для RAG библиотеки 24bq4 мистрали на 16 гб озу...

Аноним 02/03/26 Пнд 03:14:11 № 1538748 65

Капец, v100 уже по 48к. До нового года было 30-40к куча лотов.

>>1538742
Мне больше страшно что у тебя гемма работает так плохо.

Аноним 02/03/26 Пнд 03:38:46 № 1538756 66

К слову запустил qwen3.5, который MoE 35B.
Контекст из коробки не пересчитывает.
С 8 гб карточкой и таким же размером файла в два раза выше pp, но tg такой же как и у glm-4.7-flash.

А ещё он походу тупой, и задачи, которые достаточно спокойно решал как флеш, так и qwen-next 80b-a3b, этот решить не в состоянии даже после трёх перезапусков.
При этом в размышлениях на логику вещи правильные и разумные, но вызовы инструментов оно не умеет (неверный синтаксис это лама выдаёт что парсер не справляется), и ещё инструкции игнорируется - на просьбу выдать json-запрос оно пишет текст, как его не бей. Требования к лимиту токенов не выполняет, хотя я в каждом сообщении мета-инфу такую скидываю.
А glm-4.7-flash всё так же лупится как тварь.
Что-то в его (qwen3.5) размышлениях точно есть, и ещё он их точно на английском делает, но надо допиливать мелочи.
Хотеть glm-4.7 побольше. 80B-A15B был бы идеален.

Аноним 02/03/26 Пнд 03:43:06 № 1538757 67

Аноны, а подскажите, расцензуренные версии МоЕ моделек вообще существуют? Чет то ли я слепошарый, то ли есть какие то концептуальные проблемы.

Так то хочется и рыбку съесть, и сковородку не испачкать - и что то уровня той же GLM 4.7 Flash получить, и уместиться во VRAM, избежав скорости генерации 2 токен/сек.

Аноним 02/03/26 Пнд 04:31:10 № 1538765 68

>>1538625
я не знаю рофлишь ты или нет (от /llama/ всего можно ожидать), но министралька 14b прям топ до <24b.
В качестве ассистента прям бесценна.

Аноним 02/03/26 Пнд 04:57:53 № 1538767 69

>>1538765
>министралька 14b прям топ до <24b.
>В качестве ассистента прям бесценна.
1) На чём ты её запускаешь?
2) Что именно ты на ней делаешь, где она себя так хорошо показывает?

Аноним 02/03/26 Пнд 05:29:48 № 1538783 70

Однако последняя версия кавраковского форка хороша. Хз как там идут стандартные кванты, но родные прямо летают.

Аноним 02/03/26 Пнд 05:48:43 № 1538790 71

>>1538359 (OP)
На радеоне 580 с 8гб какую модель дёргать?

Аноним 02/03/26 Пнд 05:53:17 № 1538795 72

>>1538642
Выложишь когда? х2
>>1538742
>Это всё по определению не должно хорошо работать
Хорошо? Нет. Но приемлемо.
>>1538757
>расцензуренные версии МоЕ моделек вообще существуют?
Существуют, но работают как говно.
>>1538790
Можно передёрнуть только соседу по парте, без запуска моделей.

Аноним 02/03/26 Пнд 06:23:03 № 1538806 73

>>1538765
Ну тая я-же про то и говорю, это топ за свои деньги, есть и вижн и ризонинг, и как асистент норм, вобщем класная сасная всё включено. Использую её как основную модель для телеграмм бота, да и как агента в openclaw тож использую, хотя есть возможность запускать норм модели (40врам 64 рам), и я их запускаю для некоторых задач, но министралька 14 это прям работяга на все случаи жизни.

Аноним 02/03/26 Пнд 07:44:48 № 1538842 74

>>1538742
>Это всё по определению не должно хорошо работать
В чем проблема? Не кернелпаникует значит работает.
>>1538615
>Пока какой то посос на гемме в 18тпс.
А сколько должно быть? Она в целом не радует скоростью как и любая плотная модель.
>>1538756
Флеша перенатаскивать надо, у него память как у рыбки.

Аноним 02/03/26 Пнд 07:52:05 № 1538845 75

>>1538756
>но вызовы инструментов оно не умеет (неверный синтаксис это лама выдаёт что парсер не справляется)
Бтв, попробуй с клодоагентом, там походу более убедительный промпт - если модель умеет работать с тулзами, в нем она может выебываться как хочет, но тулинг работает как часы кроме девстраля.

Аноним 02/03/26 Пнд 08:02:37 № 1538852 76

>>1538842
>А сколько должно быть?
Ну, на одной V100 она выдаёт 50..60/s через llama.cpp в квантах.
У него достаточно памяти чтобы без квантов запускать гемму хоть в fp16. Скорее всего какая-то тупая хрень или в vLLM под это железо или это просто особенность vLLM, у которого генерация в один поток не самая сильная сторона, и все оптимизации нацелены на 60 одновременных одновременных конкурентных запросов от разных пользователей.
Ещё есть шанс что эта mi50 по компуту остаёт в десять раз, но это маловероятно, я думаю она даже быстрее должна быть, так как отсутствие куды - это явно не на пользу популярности amd идёт, и они должны при том же уровне карточки предложить что-то, например больше операций на ватт.

>>1538845
Да я уже написал свой парсер, забей.
Просто хотелось с нормальным v1-интерфейсом работать, чтобы была возможность сетку менять без особых проблем и парсер писал не я, а лама. А получается что ванильная лама не умеет ни в qwen3.5, ни в glm4.7, а с автопарсером достаточно хорошо работает с glm4.7, но всё так же падает с qwen3.5. К тому же я только сейчас обратив внимание, что автопарсер ломает /v1/completion (и ламовский /completion тоже, там чуть другой json) интерфейс полностью (любой запрос падает с ошибкой), рабочим остаются только /v1/chat/completion.

Аноним 02/03/26 Пнд 08:19:02 № 1538855 77

>>1538852
Хотя ладно. Забираю свои слова обратно, я ошибся. В некоторых местах.

Надо было пересобрать ещё раз, и с автопарсером без размышлений всё работает на qwen3.5.
Причём оно уважает все варианты tool_choice, даже явный призыв вызывать определённый инструмент. А вот с размышлениями падает.
Но самое главное, что обычный /v1/completion починился для qwen3.5, потыкаю сегодня его что ли.

Аноним 02/03/26 Пнд 08:41:43 № 1538858 78

>>1538852
>и они должны при том же уровне карточки предложить что-то, например больше операций на ватт.
Лел. Амд периодически выкатывает драйвера. Порой они даже не вешают систему. Это все, что нужно знать про радеон.
>я думаю она даже быстрее должна быть
Сомнительно, я когда выбирал между ними и v100 по форумам понял то, что там перф примерно 80% от в100. Причем за пару лет он менялся от говнища до вполне приемлемого результата, и бенч анона с пирамидой после полировки будет чуть ли не единственной адекватной точкой отсчета за последние полгода. На дрова очень многое завязано.

Аноним 02/03/26 Пнд 08:42:24 № 1538859 79

>>1538852
>>1538842
>>1538748
Старые бенчи глянул и там всегда было 18-20 тпс с тензор параллел 2. Пик в 100 когда 4 запроса параллельно.

Вллм для ми50 работает на паре ядер патченых васянами

Аноним 02/03/26 Пнд 11:20:28 № 1538912 80

>>1538732
Я пока могу сказать только за 27B. Походу, ризонинг у него с претензией на интеллектуальное включение. Если дать модели контекст на 2-3K с данными для которых ризонинг не особо нужен (вроде RP сессии и лора), и в запросе не вопрос а действия игрока - она ризонинг не включает. А если игрок при этом спросил у персонажа какую-то заморочь - тогда да, начинает думать.

>>1538757
>Аноны, а подскажите, расцензуренные версии МоЕ моделек вообще существуют?
Да. И GLM(air), и Qwen, и даже гопота-oss есть.

Аноним 02/03/26 Пнд 11:59:36 № 1538936 81

Анончик, а на чем сейчас выгоднее риг собирать? Скажем для кими.

Аноним 02/03/26 Пнд 12:01:10 № 1538937 82

image 99Кб, 1483x563

Составлял я значит карточку с помощью гопоты, а он мне такой: братишка, а ты ничего не перепутал? Давай хоть в NSFW переделаем или чернухи добавим, что это за унылое говно?

А потом такой беру и задаю тот же вопрос квену 122b. Результат на скрине. Не, вы вдумайтесь: новый квен настолько соевая параша, что даже гопота на его фоне выглядит умницей-базовичком.

Как можно было НАСТОЛЬКО обосраться? Ебаный стыд.

Аноним 02/03/26 Пнд 12:14:15 № 1538949 83

>>1538937
>11652 раздумия
>Нет
орнул в голос.

Аноним 02/03/26 Пнд 12:17:01 № 1538952 84

>>1538949
Он просто рассуждает как дед в деменции:
Так, пользователь попросил составить NSFW карточку. Значит я должен…. Как его там… А, да, были карточки в моё время, вот помню а 60ых был один бейсболист..

Аноним 02/03/26 Пнд 12:22:28 № 1538956 85

>>1538937
1. В гопоте у тебя скорее всего есть какой-то контекст, которая она подтягивает из других чатов, а у квена пустой контекст
2. Отказ очевидно произошел в ризонинге. И она надумал аж на 11к. Сомневаюсь, что у тебя у гопоты был врублен ризонинг
3. Уже миллион раз написали, что XL кванты СЛОМАНЫ и Q4XL сосет даже у IQ3XSS >>1535950 →
И все это не отменяет того, что модель соевая. Но ты все равно обосрался, кобольд

Аноним 02/03/26 Пнд 12:32:13 № 1538962 86

>>1538956
>В гопоте у тебя скорее всего есть какой-то контекст
Ничего связанного с РП или NSFW, в основном рабочие запросы.
>Отказ очевидно произошел в ризонинге
Перепроверил: без ризонинга то же самое.
>XL кванты СЛОМАНЫ
Это не влияет на рефьюзы. Не вижу смысла сейчас перекачивать, пока исправленные кванты на выкатят. Оно всегда так с новыми моделями.
>кобольд
Ты из тех шизов кто предпочитает забивать шурупы молотком? Таверна для РП, фронт кобольда - для ассистента. Это банально удобнее.

Аноним 02/03/26 Пнд 12:45:15 № 1538972 87

>>1538962
>Это не влияет на рефьюзы. Не вижу смысла сейчас перекачивать, пока исправленные кванты на выкатят. Оно всегда так с новыми моделями.
Это сильно влияет на качество модели. Ты сейчас юзаешь полностью сломанный квант, который даже до Q3 не дотягивает. Это при том, что уже в день релиза модели были рабочие кванты у бартовски. В чем смысл ждать анслопа?
>фронт кобольда - для ассистента
Он вырвиглазный. Фронт llama.cpp ощутимо лучше

Аноним 02/03/26 Пнд 12:46:41 № 1538973 88

image.png 94Кб, 2312x608

Наткнулся на такое вот говно на обниморде. Это вообще нормально? Они же продают доступ к какой-то невнятной хуйне под видом "надо поделиться контактной информацией".

Аноним 02/03/26 Пнд 13:23:53 № 1539008 89

Еретики пошли на среднеквен 122
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-GGUF
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-GGUF

Аноним 02/03/26 Пнд 13:24:36 № 1539011 90

>>1539008
Быстрофикс второй ссылки
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-i1-GGUF

Аноним 02/03/26 Пнд 13:28:01 № 1539015 91

>>1539008
В чем разница между херетиком и нормпресерв? Что из этого меньше лоботомирует модель?

Аноним 02/03/26 Пнд 13:37:51 № 1539029 92

>>1539015
Сам не ебу, вот тебе слоп вместо ответа. Я так понимаю норм>еретик>обычный аби. Но за это пусть геммаводы поясняют, они уже год пытаются свою умничку расцензурить

Аноним 02/03/26 Пнд 13:40:53 № 1539031 93

>>1539015
>>1539029
вы че балбесы

еретик это просто название скрипта, который разные методы использует
автор обещал включить нормпрезерв в свой скрипт, хз сделал ли

Аноним 02/03/26 Пнд 13:58:07 № 1539040 94

Скоро микроквены для... А для кого нахуй? Кто их просил? Для чего они нужны? В чем смысл их существования?

Аноним 02/03/26 Пнд 14:09:17 № 1539057 95

>>1539040
для какой нибудь несложной работы.

Я вот ради интереса попробовал суммаризировать этот тред, точнее предыдущий, типа чтобы самые полезные ключевые моменты выделить и обломался. если в лоб делать - получится каша.
соответственно нужен скрипт со специализированными агентами которые будут делать разные вещи, например сначала чистить тред от мусора, потом выделять важные моменты и куда то сохранять, а уже потом по сохраненному уже начать составлять типа гайда.

Надо будет поискать какие вообще есть решения.

Кстати, я пробовал мелкоквен 3-vl-8b и он чот плохо справляется с вызовами тулзов. Надеюсь новая версия лучше справится

Аноним 02/03/26 Пнд 14:10:52 № 1539061 96

>>1539040
На мобилках запускать, или может какие узко-направленные ассистенты пилить. Плюс там вижен есть, можно OCR какой-нибудь хуярить на чем угодно.

Аноним 02/03/26 Пнд 14:17:58 № 1539069 97

>>1539057
Там gemma 3 или ministral будут лучше для этого. Все таки китайцы идут в прогерство, а не в языки. И почему именно 8b, а не более крупная?
>>1539061
>На мобилках запускать
Но зачем? В чем смысл запуска этих лоботомитов с никакущей скоростью на мобилках, если есть копры и/или локалки на компе, к которым можно подключится?

Аноним 02/03/26 Пнд 14:23:58 № 1539079 98

>>1539040
Как раз это единственные нормальные модели от Квена, 4b новый нужен. А большие - это мусор, неспособный ни с кем конкурировать.

Аноним 02/03/26 Пнд 14:24:41 № 1539081 99

>>1539069
у меня была идея типа тупого мелкоскрипта который быстро отработает простой сценарий типа пройтись по списку и что то скачать и отметить, т.к. модели покрупнее довольно долго выполняют.

Аноним 02/03/26 Пнд 14:31:52 № 1539086 100

>>1539040
Для телефонов/планшетов.

Аноним 02/03/26 Пнд 14:37:48 № 1539097 101

>>1538936
Собирать риг для кими не выгодно.

>>1539040
Автодополнение строчки/двух кода, rag-экстрактор информации из файлов с системным промтом на 5 строк, embeding/rerank режимы(не уверен что второй поддерживает), исправление стиля и отступов в коде и другие супер простые задачи. Регулярка++ по смыслу, если нужно решить что-то уровня поиска всех имён в тексте.

Аноним 02/03/26 Пнд 14:38:47 № 1539099 102

>>1539097
На сколько не выгодно? А для чего выгодно?

Аноним 02/03/26 Пнд 15:03:27 № 1539125 103

Коротко - очень не выгодно.

Кими - очень большая сетка. В полных весах это 2 терабайта. В 4 бита - 500 ГБ только на веса модели, а ещё нужны временные буферы для вычислений, и буфер для kv-кеша.
Ребята тут часто пишут, что ниже 4 бит жизни нет и лучше ставить 6 и выше. Вот то что у тебя chatgpt, или kimi который на сайте - там вообще скорее всего в 8 бит всё работает.
Я конечно не согласен, но даже если взять оптимистичные 3.5 бит и считать что буферы для вычислений и кеша имеют нулевой размер - это 437 ГБ.

Работа ллм делится на разбор промта (pp - promt processin) и генерацию ответа (tg - token generation)
Итого:
На DDR4 это будет стоить 200-300к, и будет выдавать 1-2 слова в секунду (генерация) или около того.
На DDR5 это будет стоить под 600к и будет выдавать 3-4 слова в секунду (генерация) или около того.
Помимо этого тебе нужна хотя бы какая-то видеокарта, без неё скорость pp будет порядка 10-20/s. С картой сразу будет 100-200/s, даже со слабой на условный 16 гб.
Собрать видеокарт на 480 ГБ - самый дешёвый вариант, это 15 штук V100. Это 800к за карты и райзеры. Допом тебе нужно найти материнку, где будет достаточное число слотов и pcie-линий. Впрочем, даже x4 более-менее хватит, но 60 линий найти сложно, как я понял есть либо нормальные процессоры на 48, или чудовища эпики и рипперы от амд на 120 линий. Ну, либо двух процессорная система. Помимо этого тебе нужно подвести к этому питание. Даже если выставить лимиты по 150 ватт - это 2.5 квт на систему. Одновременно они все в кими работать не будут, но что-то вроде 1.5 квт тебе понадобится. И это будет скорость около 10 слов в секунду и pp порядка 200-400/s, думаю. Числа из головы. В общем это система на миллион + придётся потратить десятки часов на сборку всего этого. Если ты берёшь любые другие карты, то один из самых дешёвых вариантов - покупать 4-6 rtx blackwell 6000 pro с 96 ГБ видеопамяти, это за три миллиона стоимость сразу, но скорости будут хорошие, как в облаке или даже быстрее.

Про подписку за 10 долларов в месяц слышал, одной blackwell 6000 pro тебе хватит на подписку до конца жизни или близко к этому.

Дополнительная информация. Видеокарты - это параллельные ускорители. То есть им нужно делать много одинаковых операций одновременно. А ты один.
В случае pp всё в порядке, ты кидаешь текст на 50 страниц - оно параллельно и эффективно это обрабатывает.
В случае tg всё очень плохо, процедура последовательная. В случае если ты отправил один запрос - то у тебя токены генерируются один за одним со скоростью в условные 50/s, что очень медленно. В случае датацентра и облачной сетке к каждой такой системе есть одновременно 100 запросов на генерацию от 100 разных пользователей. Скорость при этом почти не снижается, и те же самые карты выдают 50х100 = 5000/s суммарной генерации, что позволяет эффективно использовать видеокарты. С локальным ригом такой сценарий почти невозможен, больше 10 запросов ты никак почти не подашь.

Выгодно - если это твоё хобби. Как гитары, мотоциклы, скалолазанье, рисование и прочее такое.
Так же это выгодно, если:
- у тебя жёсткие требования к конфиденциальности и ты не можешь выгружать в сеть свои данные.
- в случае, если у тебя нет интернета и ты хочешь такое использовать в бункере, в антарктиде или ещё где.
- в случае, если ты ориентируешься на класс моделек 30B, который тебе нужен для несложных задач + генерируешь картикни в sdxl и прочее. Подписки на сервисы генерации неадекватно дорогие, карточка за 100к сможет тебе нагенерировать всё что ты захочешь. На самом деле в случае генерации картинок (параллельная задача) ты можешь эффективно использовать мощности видеокарты. Потому у тебя дома эффективность 100% и в датацентре 100%, а в случае текста у тебя дома 2%, а в датацентре 100%, потому и кажется что подписки на генерацию картинок дорогие, так как с точки зрения тебя ты за 2% работы платишь столько же. А с точки зрения дата-центра генерация в 50 раз тяжелее генерации текста, так как одна генерация картинки утилизирует 100% мощностей видеокарты, и плюсов от двух параллельных генераций почти нет.

Аноним 02/03/26 Пнд 15:04:46 № 1539126 104

>>1538949
Сахур

Аноним 02/03/26 Пнд 15:13:02 № 1539137 105

https://github.com/Mobile-Artificial-Intelligence/maid
Maid можно из шапки убирать, IMHO.

Автор выкатил версию 3.0 в которой:
- дропнуты версии win и lin.
- Не работает даже на android 13 (Это даже телефоны выпущенные год назад. Что, блядь?)
- Добавлена регистрация по емейлу и синк с облаком.
- Просматривается намерение выпилить к хуям локальные бекэнды через OpenAI compatible. В issues уже есть - даже с ollama не соединяется.

Аноним 02/03/26 Пнд 15:14:59 № 1539140 106

>>1539099 воть >>1539125

Аноним 02/03/26 Пнд 15:21:24 № 1539156 107

>>1538962
> Это не влияет на рефьюзы.
Влияет самым прямым образом, отличия радикальны.

Провел довольно обширное сравнение разных квантов 122а10 оценивая этот момент. В первую очередь фокус на наличие софтрефьюзов с искажением фактов и логики, хардрефьюзов, рефьюзов после ризонинга.
Несколько разных тестов, включая кум чатики, капшнинг картинок и обсуждения "Легально ли заниматься X с персонажем Y которому N (много) лет подтвержденных документально, если он выглядит на M". В это случае нормальным ответом помимо прямого согласия, можно считать колебания, вопросы и предупреждения про потенциальные проблемы и общественное мнение. Но после уточннения что документы действительно в порядке и все подтверждено - должно быть однозначное согласие. Убитая же соей модель будет рассказывать небылицы о том, что суду и полиции гораздо важнее внешность, а документы и юридический статус - херня.

Собственно результаты:
Ультрасоя тир - xl анслоты (q4 и q6), фп8 от самих квенов, более ужатый int w4a16 - кардинально искажают факты и логику триггернувшись, подсовывают софт рефьюзы давая неверное описание, застревают в бесконечных лупах в ризонинге. Без ризонинга частые инстантрефьюзы. Собственно все то о чем здесь идет нытье.
Нормис тир - полные веса, другой фп8 (ближе к базированному), mxfp4 (где-то больше гонит базу, где-то сою), менее ужатый w4a16 от quanttrio (ближе к сое). Чаще колеблятся, могут прочесть лекции про общество, но при дальнейшем обсуждении соглашаются что все ок. Софтрефьюзов с искажением в разы меньше, хардрефьюзы случаются.
Есть еще пара ультрабазированных, но с ними нужно уточнить.

При этом всем моделям срывает тормоза на кумботах, все более сговорчивые на не пустых контекстах.

По словам умных людей и нейронки, активация на сейфти имеет высокую амплитуду, которая при калибровке может перебивать все остальное. Образно выражаясь, там где в нормальной ситуации один большой всплеск должен быть уравновешен множеством меньших эти самые меньшие подрезали и исказили. А где-то наоборот он или не был принят во внимание, или вовсе клипнулся. Причем здесь может быть дело не в неверно выбранном датасете - как раз при сжатии еще и атеншна калибруя все на erp такое может произойти, а на стерильных ассистентских qa или медицинских данных наоборот получиться лучше. Это же подтверждается сменой поведения модели если квантовать ее контекст и не использовать скейлы, или подбирать их на "безопасных" текстах.

Высока вероятность что обычные "легаси" гууфы окажутся лучше, надо будет попробовать их протестировать.

Аноним 02/03/26 Пнд 15:22:20 № 1539159 108

>>1538972
>фронт кобольда
>Он вырвиглазный
Просто напомню: >>1535161 →

Рекомендую тыкать в это носом каждого тавернодебила, которого встретите тут.

Аноним 02/03/26 Пнд 15:23:19 № 1539160 109

>>1539125
Спасибо за развернутый и подробный ответ, анон. Добра тебе, здоровья родителям и всем твоим родственникам.
И кошко-жену от партии.

Аноним 02/03/26 Пнд 15:28:17 № 1539175 110

>>1539137
А ты сразу опа указывай >>1538359 (OP)
Но вообще тут спорно
>дропнуты версии win и lin
А нужно ли они вообще, если там и так много приложений
>Не работает даже на android 13 (Это даже телефоны выпущенные год назад. Что, блядь?)
Проеб разработчика
>Добавлена регистрация по емейлу и синк с облаком
Это вроде опционально
https://github.com/Mobile-Artificial-Intelligence/maid/issues/725
>Просматривается намерение выпилить к хуям локальные бекэнды через OpenAI compatible. В issues уже есть - даже с ollama не соединяется.
А где просматривается то? У него отвалилось соединение с ollama и он хочет починить это
Выглядит так, будто он просто зарелизил кривой билд и сломал собственное приложение. Мб все исправит

Аноним 02/03/26 Пнд 15:31:21 № 1539181 111

>>1538615
Фотка не соответствует скринам - на них всего 32гига рама, а тут все слоты набиты. Как раз наличие лишь одной-двух плашек может быть причиной замедления, писали о том, что это даст низкие скорости и задержки при обмене потому что путь (видеокарта - шина - рам - qpi - рам - шина - видеокарта) по сравнению с тем, когда железки укомплектованы.
Хз насколько 18т/с на гемме нормально для них и какой там квант. Если 8 бит - примерно столько в один поток по псп и получится если без тп.
>>1538852
> на одной V100 она выдаёт 50..60/s
Гемма? Небылицы, если офк ты не про пропмтпроцессинг говоришь, тогда слишком мало.
> vLLM, у которого генерация в один поток не самая сильная сторона
На свежих железках как раз и в 1 поток быстрее всего, но на тех что постарше уже не все радужно. 18 для геммы это не самый плохой результат (офк зависит от кванта), интереснее что там с процессингом будет, где упор в компьют.

Аноним 02/03/26 Пнд 15:31:40 № 1539183 112

>>1539159
>нет возможности свайпа без регенерации (удаления предыдущего свайпа)
да, кобольд кал

Аноним 02/03/26 Пнд 15:33:25 № 1539185 113

>>1539159
>>1539183
В Кобольде также нет лорбуков, author's note, экстеншенов и много чего ещё. Его если и сравнивать, то с устаревшим говном мамонта TavernAI, и то и другое реализует только базовый чатик.

Аноним 02/03/26 Пнд 15:36:58 № 1539189 114

>>1539175
>А где просматривается то?
Внутри. У меня на телефоне стояла старая версия, обновилась. Пропали все чаты и настройки. Ввел заново - перестала даже пытаться конектится. Написал отзыв - автор просто пометил новую версию как не совместимую для моего телефона, ничего не отвечая. В самих настройках - стало неудобно даже пытаться найти и ввести кастом эндпоинт. Делаю вывод - он хочет уйти в коммерцию к корпам, а локальные бекэнды - сложно поддерживать автору, юзеру легко ловить ошибки, и чтобы ими пользоваться думать надо. Теперь у него целевая аудитория другая - проще выпилить чтоб не мешали.

Аноним 02/03/26 Пнд 15:38:05 № 1539192 115

>>1539181
>Гемма? Небылицы, если офк ты не про пропмтпроцессинг говоришь
Ну, я чуть преувеличил. Окей, я тебе запишу видео на днях со ссылкой на этот пост. Пока разобрал "системник" на рефакторинг и прям сегодня не покажу, а детали будут завтра или послезавтра.
Это с пустым контекстом. При заполнении порежется вдвое, естественно, но не до 18/s всё-равно.

Аноним 02/03/26 Пнд 15:39:25 № 1539194 116

e972d615-d415-4[...].jpg 307Кб, 1024x1024

>>1539159
Какая впизду таверна, долбоеб? Я о ней вообще не писал. И уже отвечал тебе >>1535166 →
Также я напоминаю, что в прошлый раз кобольды слились на свайпах. Так что лучше даже не начинайте, сидите на своем говне и не высовывайтесь

Аноним 02/03/26 Пнд 15:40:01 № 1539196 117

>>1539183
>>1539185
Орнул. Когда сумел распаковать зип-файлик с лламой, скопировал первую попавшуюся команду запуска (впервые в жизни увидев консоль), кряхтя подключил таверну с дефолт-настройками и теперь ты ИЛИТА треда.

Жаль конечно что нажать на кнопку настроек в кобольде для илиты непосильная задача, иначе такого бреда:
>нет возможности свайпа без регенерации
>нет лорбуков, author's note
я бы сейчас не читал.

Аноним 02/03/26 Пнд 15:40:48 № 1539197 118

>>1539185
В Кобольде также нет лорбуков, author's note
Чел... Они там родились. Еще в самом старом кобольде, который до ламы был, и благополучно перекочевали в cpp версию. Таверна просто развила эти концепы сильнее, но идея не ее.
А еще есть esobold - форк с упором как раз на GUI. Там сильно доработали в том числе и это. Но это так, к слову. Пользоваться не призываю.

Аноним 02/03/26 Пнд 15:41:52 № 1539198 119

>>1539192
Не ну если взять квант поменьше и на пустом контексте - действительно 50-60 можно получить, просто даже не рассматривал этот вариант из-за объема памяти.
Отписывай, тема же интересная, даже если будет не супер быстро - за цену врам в разы ниже рама никаких претензий не может быть. А тут еще есть все шансы на успех. Попробуй еще как на жоре будет, свиду оперативы там много для моделей покрупнее.

Аноним 02/03/26 Пнд 15:42:27 № 1539199 120

>>1539196
Герой монитора побеждает всех своих воображаемых врагов. Кто тебе так жопу защемил, что ты рвешься в треде днём в понедельник?
Приноси скрины, показывай как сделаны лорбуки в Кобольде, поржем всем тредом

Аноним 02/03/26 Пнд 15:43:15 № 1539201 121

>>1539197
> Еще в самом старом кобольде, который до ламы был, и благополучно перекочевали в cpp версию
Что за хуйню я только что прочитал? Кобольды реально невероятно тупые
В лламуцпп переехали лорбуки? Ты хотя бы знаешь что такое лорбуки и как они работают?

Аноним 02/03/26 Пнд 15:44:16 № 1539203 122

>>1539196
Игнорируй явный жир. Кобольд не подарок, но того хейта он не заслужил, лучше сделай несколько скринов показывая где это настраивается, заодно неофитам поможешь.

Аноним 02/03/26 Пнд 15:46:20 № 1539206 123

>>1539199
Нет цели кого-то "побеждать", лол. Просто поржал с тупости тавернодебилов. Никогда такого не было и вот опять.

Аноним 02/03/26 Пнд 15:47:30 № 1539207 124

>>1539189
Я хз, я не сижу с телефонов. Но пока это больше выглядит так, что автор долбоеб и сломал приложуху. Учитывая, что он ее почти один пилит это вполне вероятно

Аноним 02/03/26 Пнд 15:49:58 № 1539211 125

>>1539206
Никто не заявлял, что он принадлежит к элите треда. У тебя с головой явно проблемы. Ну неудивительно, ведь
>Когда сумел распаковать зип-файлик с кобольдом, скопировал первый попавшийся конфиг запуска запуска (впервые в жизни увидев все эти параметры), кряхтя подключил запустил чатик с дефолт-настройками и теперь ты ТОЧНО лучше остальных
Это дефенишен Кобольда. И ладно бы ты сидел и не выебывался, так рвешься на ровном месте, когда к тебе даже никто не обращается. Кобольд это твоя тян? Твой младший брат? Ему вот прям нужна твоя защита, да? Какой софт, такие и юзеры

Аноним 02/03/26 Пнд 15:54:52 № 1539218 126

>>1539156
>небылицы о том, что суду и полиции гораздо важнее внешность, а документы и юридический статус - херня
Тащемта как минимум для съёмок порно это чистая правда как минимум в РФ и Австралии.
То есть трахать персонажа
>Y которому N (много) лет подтвержденных документально, если он выглядит на M
можно, а снимать это нельзя есть ещё весёлые казусы, когда оба реально возраста М, но это уже выходит за рамки треда. Добро пожаловать в реальный мир так сказать.

Аноним 02/03/26 Пнд 15:56:14 № 1539223 127

>>1539197
Ты действительно прочитал хуйню вместо написанного.
Речь шла о переезде идеи WI/Lorebook фичи из старого KoboldAI в KoboldCPP.

Аноним 02/03/26 Пнд 15:58:53 № 1539233 128

>>1539201
>>1539223
Бля, перепутал линки на ответ кому.

Аноним 02/03/26 Пнд 16:03:54 № 1539247 129

image.png 39Кб, 1174x407

>>1539185
>лорбуков
Есть, скрин 1
>author's note
Есть, скрин 2
Еще можно свой css грузить как в таверне (скрин 3)
Свайпы вроде урезанные, но есть (скрин 4)
В целом кобольд очевидно сосет у таверны. Зато дает сразу куча всего в 500мб, может кому-то это критично

Аноним 02/03/26 Пнд 16:06:38 № 1539249 130

>>1539218
Когда ответ формулируется в таком ключе с объяснениями и оно скажет что сниматься нельзя - это даже отлично.
Плохо - когда под действием триггеров начинает напрямую искажать логику, заявляя что наличие подлинных и легальных документов, вождение автомобиля, покупка алкоголя, недвижимость в собственности - ничто, а внешность - единственное что важно перед законом и судом.
>>1539247
А графы русалкой рендерить может?

Аноним 02/03/26 Пнд 16:12:36 № 1539261 131

Сколько контекста можно выкрутить на AIR (IQ4_XS) в 64+24 (рам+врам) и 128+24?

Аноним 02/03/26 Пнд 16:12:48 № 1539262 132

>>1539181
> Фотка не соответствует скринам - на них всего 32гига рама
Разницы между 2х16 и 16х16 нет. В вллм рама курит

Аноним 02/03/26 Пнд 16:14:02 № 1539263 133

>>1538275 →
А мне вообще не понравилось. На пустом контексте тоже есть отказы, на карточках он лучше нового квена и даже эира, но идет в повторы. Ну и сука медленный пиздец, можно вешаться просто

Аноним 02/03/26 Пнд 16:16:20 № 1539265 134

>>1539261
Я на 16+64 64к+ крутил с ub/b 4096 или 2048, не помню
Но это из под линуха без gui. Пробуй сам ручками на своем железе

Аноним 02/03/26 Пнд 16:17:13 № 1539267 135

>>1539262
Внимательнее читай, не курит обмен по шинам. Но раз разницы нет то не в него упирается.

Аноним 02/03/26 Пнд 16:19:36 № 1539272 136

>>1539261
в 128+24 влезает Q6 с 64к неквантованного контекста.
В Q4 влезет чуть больше, но смысла нет, он все равно держит 20-30к в лучшем случае.

Аноним 02/03/26 Пнд 16:20:09 № 1539273 137

>>1539267
> обмен по шинам
В другом проце только одна видяха. Так же уже писал что разницы особо нет с тензор параллел 2.

Позже перешью видяхи в в420 что бы p2p заработал и заведу все видяхи в одну нума ноду. Может что то поменяется

Аноним 02/03/26 Пнд 16:20:17 № 1539274 138

>>1539263
Выше в треде есть ссылки на еретик 122b квена. Этот в отказы не идёт, но насколько там повреждены мозги неизвестно. Я толком не успел его погонять.

Аноним 02/03/26 Пнд 16:25:02 № 1539280 139

>>1539137
>Просматривается намерение
Ну вот когда выпилят, тогда поговорим. Пока что по ридми проекта всё нормально, и локальный запуск ггуфов, и россыпь апишек. Да и старые версии никто вроде не запрещает качать, если у тебя кирпич с устаревшим ондроедом.

Аноним 02/03/26 Пнд 16:28:36 № 1539285 140

>>1539274
А я и кидал эти ссылки. И тоже сейчас heretic тестирую. Насчет мозгов пока не знаю, но по мне русик еретик квена лучше русика эира

Аноним 02/03/26 Пнд 16:37:45 № 1539290 141

Тесты еретика Qwen 122 (IQ4XS, system promt пустой)
>Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки
Орига: отказ даже без ризонинга
235: отказ даже без ризонинга
Еретик: скрины 1-2
>Опиши изображения во всех подробностях (скрин 3)
Орига: отказ даже без ризонинга
Еретик: скрин 4
Пока вроде неплохо и русик хороший

Аноним 02/03/26 Пнд 16:43:53 № 1539296 142

>>1539290
>IQ4XS
А чому не Q4_K_S? Он быстрее и [теоретически] не настолько люто заквантован при схожем размере.

Аноним 02/03/26 Пнд 16:44:38 № 1539297 143

>>1539274
>насколько там повреждены мозги неизвестно.
в доках все написано

KL divergence = 0.0916
9.16 % divergence (0.0916 × 100)

если хочешь сравнить с 27b dense от того же самого автора то там значение 0.0653

+квантизация к примеру от unsloth ud_q4 дает пример 1% divergence

Аноним 02/03/26 Пнд 16:48:50 № 1539303 144

>>1539290
>быстрее
У меня обычно IQ4XS быстрее, потому что можно доп 1-2 слоя кинуть на видюху

Аноним 02/03/26 Пнд 16:49:18 № 1539304 145

>>1539296
>>1539303
Случился промах

Аноним 02/03/26 Пнд 16:50:20 № 1539305 146

>>1539297
> KL divergence
Важно на чем ее замеряют, если на опасном датасете то это наоборот хорошо.

Аноним 02/03/26 Пнд 16:51:21 № 1539308 147

>>1539296
>[теоретически] не настолько люто заквантован при схожем размере.
Разве не пишут наоборот, что i-кванты обычно слегка лучше аналогичных по размеру обычных квантов?

Аноним 02/03/26 Пнд 17:04:06 № 1539317 148

>>1539308
Гопота пишет что "IQ4_XS близок к Q4_K_M по качеству", но на картинке с ОП-поста видно, что нет, вообще не близок, IQ квант тупее. Матрица влажности, применяемая в IQ квантах - тоже мне не нравится, она ломает русик.

Аноним 02/03/26 Пнд 17:08:24 № 1539322 149

image.png 280Кб, 2164x753

Любители микропенисовмоделей, ваш выход
https://huggingface.co/unsloth/models

Аноним 02/03/26 Пнд 17:11:55 № 1539327 150

>>1539322
> 2b
Это мы качаем. Будет что развернуть на мини-ПК.

Аноним 02/03/26 Пнд 17:21:24 № 1539338 151

image.png 18Кб, 905x152

>>1539317
Гопота сосет хуй.
Надо с K_S сравнивать и смотреть в более достоверных источниках.
Вот бартовский и мрадермачер что пишут, и картинка из статьи 2-годовалой давности на 7б модельке (хоть что-то).
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9
С К_М действительно есть разница, с K_S как будто разница в микропиську.

Аноним 02/03/26 Пнд 17:22:22 № 1539339 152

>>1539338
Хуя порвался. Потому что гопота умнее тебя?

Аноним 02/03/26 Пнд 17:26:56 № 1539345 153

>>1539338
А, ну вот. Третий скрин показателен. IQ всё же потупее K_S. Алсо гопота шарилась по интернету перед тем как выдать ответ, там под каждым абзацем источник есть.

Аноним 02/03/26 Пнд 17:39:27 № 1539358 154

>>1539327
Хватит ставить слопоген на тв-боксы.

Аноним 02/03/26 Пнд 17:58:33 № 1539376 155

>>1539290
>русик хороший
>пикрил
Просто 10 из 10!

Аноним 02/03/26 Пнд 18:06:54 № 1539387 156

>>1539376
И? Очевидно, что русик хороший относительно размера модели и кванта, у air'a русик хуже, а с каким-нибудь дипсичком и нехуй сравнивать

Аноним 02/03/26 Пнд 18:11:36 № 1539390 157

>>1538973
Бамп вопросу. Это скамеры или че? Разве платформа не опенсорс для всех для народа?

Аноним 02/03/26 Пнд 18:12:49 № 1539393 158

>>1539390
Зарепорть их просто.

Аноним 02/03/26 Пнд 18:17:48 № 1539397 159

>>1539393
Я пока на проверку запросил доступ к модели. Если не дадут, зарепорчу. Потому что какого хуя-то, первый раз такое вижу.

Аноним 02/03/26 Пнд 18:27:06 № 1539405 160

>>1539390
> Разве платформа не опенсорс для всех для народа?
Лолчто, хф - прежде всего коммерческая платформа с удобной корпоративной структурой, их открытые репозитории и прочее - способ привлечь людей и удерживать популярность.
>>1539397
Никто не обязан тебе давать доступ. А вот допустимо ли устраивать продажу такого с использованием их площадки - надо чекнуть соглашение.
> первый раз такое вижу
Посмотри на репозитории гугла или меты.

Аноним 02/03/26 Пнд 18:32:42 № 1539408 161

>>1539405
>Посмотри на репозитории гугла или меты.
Вряд ли они вставляют в свои объявления QR-коды на оплату битка.
Тут как бы в этом дело. Мутно очень выглядит.

Аноним 02/03/26 Пнд 18:34:24 № 1539409 162

>>1539183
>нет возможности свайпа без регенерации (удаления предыдущего свайпа)
>да, кобольд кал
Undo же возвращает прошлый свайп, а затем Redo вернет более свежий. Или вы о другом?

Аноним 02/03/26 Пнд 19:02:57 № 1539430 163

>>1539159
Ебать ты кобольд. Он пишет, что ему фронт лламы больше нравится, а ты выебываешься на юзеров Таверны. Моча в голову ударила?

Аноним 02/03/26 Пнд 19:04:35 № 1539431 164

>>1539198
Бля, я хуею как в треде просто пиздюнькают, врут, наебывают, подсиживают на ровном месте и не краснеют. Откуда челибос нафантазировал 60 т/с на гемме, в первом кванте что ли запускал? Или 12B? Вот цифры для 8 кванта, который с лихвой лезет в v100:
pp512 | 997.37 ± 1.60 |
tg128 | 23.12 ± 0.01 |

Аноним 02/03/26 Пнд 19:26:52 № 1539444 165

>>1539322
4b совсем соевая, уходит в отказ даже на намек на интим. Как это лечить? Ждать heretic квант? 4B Huihui oblitirated 2507-instruct работал без проблем.

Аноним 02/03/26 Пнд 19:30:08 № 1539445 166

>>1539409
Это вообще не свайпы. Свайпы в кобольде есть в копро теме. Включи и посмотри, что это такое. И то они обрезанные, например там нельзя удалить конкретный свайп, можно только все сообщение

Аноним 02/03/26 Пнд 19:31:19 № 1539447 167

>>1539431
Если взять что-то о трех битах на вес то примерно столько и даст на старте. Вопрос только зачем?
Потому и 18т/с для 8бит на радеоне - норм результат.

Аноним 02/03/26 Пнд 19:41:08 № 1539453 168

>>1539447
Это сломанный телефон получился. Первый говорит 18 т/с на гемме. Какой квант, какие парамтры запуска? Зачем вообще 128 Гб врама тестировать на Гемме, бля? Вон лардж или лламу 70 запускай если плотную хочешь.
Второй говорит, что 60 т/с на гемме на v100 в квантах. Какой гемме, какой квант, какая v100 в конце концов?
В общем, просто что-то на отъебись в тред вкидывают, в результате те, кто читает со стороны, охуевают с заявлений. А у меня вообще охулиард токенов в секунду, прикиньте? (я гемму 800М гонял в первом кванте, но вам не скажу)

Аноним 02/03/26 Пнд 19:41:36 № 1539454 169

>>1539430
Попрошу, уважаемый. Не на пользователей таверны, а на тавернодебилов. Это разные сущности. >>1539196 вот тут описан портрет типичного тавернодебила из палаты мер и весов.

А к адекватным пользователям ламыцпп и таверны претензий нет - этим зайкам лучей добра.

Аноним 02/03/26 Пнд 19:45:38 № 1539455 170

>>1539445
Но ведь нет разницы, кнопочки внизу делают то же, что и стрелочки под сообщением в копро теме?

Аноним 02/03/26 Пнд 19:51:06 № 1539458 171

>>1539453
> Какой квант, какие парамтры запуска?
Пик1 (только с tp 4; dp 1; pp становится 20)
Я сразу написал что это просто запрос в опенвебуи, бенчи потом. Вы сами тут начали говном перекидываться

> Зачем вообще 128 Гб врама тестировать на Гемме, бля?
У меня есть просто с чем сравнить те же бенчи но с друших версий вллм. Да и вообще мне нравится гемма!

Аноним 02/03/26 Пнд 19:51:20 № 1539459 172

>>1539272
>AIR (IQ4_XS)
>он все равно держит 20-30к в лучшем случае.
Анончик, это правда?

Аноним 02/03/26 Пнд 19:58:02 № 1539462 173

>>1539454
Так в кобольде нет нормальных свайпов. Из-за этого там к слову нет и нескольких начальных сообщений, а вместо этого позорный костыль на скрине

Аноним 02/03/26 Пнд 20:05:24 № 1539467 174

>>1539455
Нет. Свайпы работают в пределах одного сообщения. Undo/Redo удаляет/добавляет не просто варианты одного сообщения, но и сами сообщения.
То есть через свайпы можно сгенерить три варианта сообщения 1, остановиться на втором варианте и сгенерить сообщение 2. После чего удалить сообщение 2 и переключиться на третий вариант сообщения 1. Через Undo/Redo ты так сделать не сможешь

Аноним 02/03/26 Пнд 20:07:21 № 1539473 175

>>1539459
У меня Air Q6. После 20-30к качество ответов значительно ухудшается, если речь о рп. Для кода я использую другие модели. Технически, ничто не мешает использовать весь контекст, но я не вижу в этом смысла. Не настолько ленивый, предпочту суммаризировать и получать хорошие ответы.

Аноним 02/03/26 Пнд 20:13:56 № 1539479 176

>>1539458
То есть у тебя получается гемма 27 в 4 кванте (пишут что эти awq кванты сконверчены из Q4_0), да еще и с тензор параллел 4, то есть 4 карты пыхтят одновременно, что должно давать буст по сравнению с обычным послойным инференсом. И это все равно меньше, чем 8 квант на одной v100. Выглядит реально как посос.

Аноним 02/03/26 Пнд 20:14:54 № 1539481 177

Аноны, не могу понять, как настроить koboldcpp, чтобы qwen3-cider-next размышлял перед выполнением задачи? Сейчас он у меня сразу начинает писать код.

Аноним 02/03/26 Пнд 20:16:30 № 1539482 178

>>1539473
>После 20-30к качество ответов значительно ухудшается, если речь о рп.
А есть локальные модели, которые для рп контекст могли держать?

Аноним 02/03/26 Пнд 20:18:25 № 1539484 179

>>1539453
> Какой квант, какие парамтры запуска?
> Зачем
> просто что-то на отъебись в тред вкидывают
В первый раз? Так было с самого появления мишек. Относись философски, картинки приносит, что-то показывает - уже хорошо.
>>1539479
> эти awq кванты сконверчены из Q4_0
Жесть какая.

Аноним 02/03/26 Пнд 20:22:55 № 1539486 180

>>1539482
Могу только за себя говорить. Квены 235 в Q4 уверенно держат до ~40к, Глм 4.7 Q2 (3bpw квант) уверенно держит до ~30к. Если взять кванты получше, возможно, ситуация изменится. У меня 128+24. Думаю, на ригах можно запускать Дипсик в приличном кванте и там где-нибудь до 64к точно всё хорошо держит.

Аноним 02/03/26 Пнд 20:27:46 № 1539490 181

>>1539484
Ну лично меня задел не первый тейк, потому что мне амд неинтересны, а про геммовые 60 т/с на v100. Потому что у меня тоже v100 и я гемма бенчи на ней гоняю на завтрак, и таких цифр я отродясь не видывал даже на амперах. Такое разве что в экслламе с тп на блеквеллах может получится, да и то вопрос как оно там на 8 bpw будет.

Аноним 02/03/26 Пнд 20:45:50 № 1539505 182

>>1539486
>Квены 235 в Q4
На моих 64гб и 4090 не влезет такое? Стоит до 128гб докупать? Ценник в 90к рублей колится.

Аноним 02/03/26 Пнд 20:48:26 № 1539510 183

>>1539490
Согласен. Тоже обладаю v100, ни о каких 60т/с на плотной модели такого размера в кванте под ее память там не может идти и речи. Столько на 35а3 получится в Q6 когда контекста побольше накопится.
27б новый тестировал? Сколько с каким квантом влезает и какие скорости?

Аноним 02/03/26 Пнд 20:58:06 № 1539518 184

>>1539505
> На моих 64гб и 4090 не влезет такое?
Q2 должен влезть, не знаю с каким контекстом. Один анон отписывался, что существенной разницы между Q2 и Q4 Квеном 235 не заметил (он тоже позже обновил железо)
> Стоит до 128гб докупать?
Не знаю, как и нужно ли вообще отвечать на такое. Это твой выбор, не мой или ещё кого-нибудь из треда. Ради одной модели обновляться? За 90к? Я считаю, что нет. И имхо, Air в рп лучше, чем Квен 235. Про это уже много было сказано в треде. Было две или три Квеновых войны и куча отзывов на самые разные кванты.

Аноним 02/03/26 Пнд 20:58:51 № 1539519 185

>>1539481
1) для кодинга лучше используй llama-cpp
2) ищи шаблон вида chat-template-kwargs = {"enable_thinking": false} или ризонинг бюджет. в ламе он наоборот думает и я отключаю

Аноним 02/03/26 Пнд 20:59:27 № 1539520 186

>>1539462
Ты, это, поосторожней с "Her small hands", а то потом тащ майору будешь объясняться уже.

Аноним 02/03/26 Пнд 21:04:15 № 1539522 187

>>1539520
Товарищ майор может спать спокойно. Кошкодевочке 22 годика
https://chub.ai/characters/Kammii/kylie-friend-in-heat-d75e1c3a8b8d

Аноним 02/03/26 Пнд 21:30:28 № 1539530 188

>>1539522
*меркурианских

Аноним 02/03/26 Пнд 21:38:24 № 1539537 189

1686547836918.png 114Кб, 1663x448

Вышел я в итоге далеко за 200 тпс. Peak output token throughput на 384 выбил в 32 потока
Всё те же 4 мишки по x16 4.0 на QWAT'ах

Аноним 02/03/26 Пнд 21:41:32 № 1539541 190

>>1539522
Вот это срандель.

Кстати тут появилась инфа что у новых квенов надо ставить -ctk -ctv bf16 что бы правильнее работали. Проверял кто, а то у меня бф16 только без флэшаттеншена работает нормально.

Аноним 02/03/26 Пнд 21:41:47 № 1539542 191

>>1539537
А зачем? Это же не линейная генерация. Параллельно можно бесконечно увеличивать, а по факту у тебя 15 т/с.

Аноним 02/03/26 Пнд 21:45:08 № 1539546 192

>>1539542
Меня устраивают 15 тпс на 16к контекста. А если нужно обработать что то в многопотоке, то вообще кайфище

Аноним 02/03/26 Пнд 21:46:28 № 1539547 193

>>1539537
Или есть куда оптимизировать, или просто конфигурация самих железок предполагает что могут раскрыться только при куче параллельных запросов.
Куда хуже замедление почти в 3 раза при накоплении всего лишь 16к контекста. Похоже что вот там уже идет упор в компьют, что убьет все возможности для масштабирования, если только не предполагаются исключительно короткие запросы.
Если не стесняешься - прогони на контекстах.

Аноним 02/03/26 Пнд 21:49:32 № 1539553 194

>>1539547
Пишите сразу параметры что ли. Я не кумаю так что и бенчи все не кум релейтед. 16к контекста и 4 треда я выбирал под свои юз кейсы

Аноним 02/03/26 Пнд 21:51:16 № 1539554 195

>>1539541
Прогрев гоев вроде, там же замеры показали отклонения в рамках стат погрешности

Аноним 02/03/26 Пнд 21:53:58 № 1539560 196

>>1539553
То же самое что делал в 1-6, только дальше до контекста, который выставил максимальным. За вычетом количества для генерации офк. Что приятно - пп хороший получается, интересно сохранится ли он при генерации одновременно.

Аноним 02/03/26 Пнд 22:00:22 № 1539568 197

>>1539510
Чуть хуже чем гемма

pp512| 817.05 ± 0.95 |
tg128 | 20.41 ± 0.01 |

Мне она показалась умнее, чем 120б мое, но та в полтора раза быстрее у меня генерирует в том же восьмом кванте. Я разбирал с ними код и короче гпт осс 120 показала себя лучше и в плане знаний, и в охуенной скорости генерации

Аноним 02/03/26 Пнд 22:01:15 № 1539569 198

>>1539560
> интересно сохранится ли он при генерации одновременно.
В прошлый раз меня хуями за mixed нагрузку обдали.
Какой тест не сделай, что ни приложи всегда найдутся те кому что то не то

> только дальше до контекста
Попробую 32, 48, 64к контекста, но уже потом. Сейчас есть проблема что один из 3х бп безбожно свистит что аж за стеной слышно. Заказал пару других серверников и буду уже с ними нормально эксплуатировать эту вавилонскую башню

Аноним 02/03/26 Пнд 22:03:10 № 1539570 199

>>1539569
> хуями за mixed нагрузку обдали
За сложение обработанных и сгенерированных и деление на время суммы вместо отдельных статов.

Аноним 02/03/26 Пнд 22:32:20 № 1539586 200

глм флэш 4.7 еретик такой сочный кум наваливает в ризонинге, а выхлоп я тебя ебу ты меня ебешь, что за хуйня?

gemma-3 на v100 Аноним 02/03/26 Пнд 22:55:32 № 1539620 201

изображение.png 13Кб, 723x124

>>1539510 >>1539181 >>1538852 >>1539192
>Ну, я чуть преувеличил.
Паразиты. Я же вообще напутал, и хотел написать 40, а вы так прицепились, и потому указал специально.
Нашёл старый пост, я же сам один раз её запускал, когда ещё писал что в 4 потока 25. Энивей, часа сна вы меня уже лишили, вставать в 5:30.

Первый слой подменил на неквантованный, так как я тот шиз который говорил про выгрузку эмбеддинга на CPU, а другой версии у меня сейчас нет, так как системник я разобрал - и это куча проводков, где кулер я облокатил просто на радиатор.
Через веб интерфейсе я вижу число в 43, это конечно не 60 и даже не 50, но близко к 50.
llama-bench вот, в нём 34. К слову - в нём карта подписана как PG503-216, а не как V100, не смог нагуглить на что это влияет.

Аноним 02/03/26 Пнд 23:00:15 № 1539632 202

2026-03-02-2249[...].png 216Кб, 1406x790

>>1539322
Каеф, посадил квен3.5-2B читать двач.

Аноним 02/03/26 Пнд 23:32:47 № 1539677 203

>>1539632
Что это ты сделал?

Аноним 02/03/26 Пнд 23:58:44 № 1539691 204

2026-03-02-2354[...].png 181Кб, 1550x640

>>1539677
Да просто саммаризатор тредов пилю по приколу.

Взял опенай либу, модели локально на ламе крутятся и дрочу в цикле ллм.

Аноним 03/03/26 Втр 00:05:41 № 1539693 205

>>1539691
И что их там только цены на оперативу беспокоят на этих ваших двачах? А цены на ссд никого не волнуют? Они так то тоже в 4 раза выросли в цене, а в месте с ними какого то хера и хдд подорожали.

Аноним 03/03/26 Втр 00:06:26 № 1539694 206

>>1539691
Пусть он сделает вывод по нашим трем последних тредам - кобольд это кал или нет? Пусть он разрешит спор. Ведь устами 2b лоботомита глаголет истина

Аноним 03/03/26 Втр 00:26:26 № 1539722 207

Почему шадоурейз поёт про пресет? Вот сами можете послушать!
https://youtu.be/89yDiQ8WkNg?list=RDMM&t=80

Аноним 03/03/26 Втр 00:49:18 № 1539733 208

В лламе можно как-нибудь вывести нормальную раскладку занимаемой памяти вместе со всеми буферами?

Аноним 03/03/26 Втр 00:56:39 № 1539736 209

>>1539691
Теперь напердоль скрипт или аддон для браузера, который добавит кнопочку к посту и будет отправлять в локальную нейронку текст и картинку для саммари

Аноним 03/03/26 Втр 00:56:40 № 1539737 210

Для скептиков которые писали что маленькие модели не могут код и это все бредогенераторы, если ты не запускаешь 500b модель на 10 теслах:
https://www.youtube.com/watch?v=8jZSxZfdnm4

Само собой это не sota результаты, но это очень прилично. Для локального использования на слабых пеках, когда надо выполнить пару простеньких задач крайне сгодится.

Аноним 03/03/26 Втр 01:02:13 № 1539742 211

>>1539737
Меня в последнее время интересует как ллмку (пускай не только локальную) объединить с моей системой GTD.
Для начала чтобы лучше формулировать задачи и проекты (результаты).
Пока пришёл к решению брейншторма - описываю что хочу и веду дискус как надо поступить.

Аноним 03/03/26 Втр 01:07:04 № 1539748 212

Дайте гайд как обучить модельку скормив ей книжку со схемами.

Аноним 03/03/26 Втр 01:34:27 № 1539783 213

2026-03-03-0133[...].png 464Кб, 1889x1006

>>1539737
Проиграл в голосину

Аноним 03/03/26 Втр 02:33:24 № 1539806 214

>>1539737
>но это очень прилично
Там один веб сплошной. Че по скану файловой системы и каталогизации залежей fb2? Реакты согласно изображенному тексту переименуют? Хуй с ним, скачал я всратый софт - собрать мне необходимую информацию о запуске в определенных условиях из ридми или исходников смогут? Бля, прошивку на ардуйню допишут хоть? Вот что этими пиздюками тестить надо, а не ебаные сайтики по тыще раз копипастом из окна чата собирать.

Аноним 03/03/26 Втр 02:34:29 № 1539807 215

>>1539632
теперь еще посади квен кумить вместо себя

Аноним 03/03/26 Втр 03:23:52 № 1539825 216

>>1539807
Так совсем скумиться можно, вы с этим поосторожнее. Они не только умные, но еще меры не знают.

Аноним 03/03/26 Втр 03:43:12 № 1539836 217

Какая же это всё дерьмина ебаная, стоило поиграться с 8б на сайтике и бросить а не закапываться по уши.
Жизнь ухудшилась так ещё и модели оказались тупым калом, пока минимум х5 умнее не будут от 350б даже не стоит смотреть на это и время тратить

Аноним 03/03/26 Втр 04:24:15 № 1539853 218

>>1538767
Сорян за задержку.
1) кобольд + таверна, иногда просто кобольд, если по-быстрому что-то спросить.
собираюсь попробовать лламу + континуе.
2) да буквально все. Мне понравилось тестировать ее, спрашивать то да сё. Понравилось знание языков, внимание к контексту. Она не идеальна конечно, нужно промт наверное доработать, ну и сэмплеры конечно у нее свои (гугли по прошлым тредам), я выкладывал).
Мозговой штурм, построение планов. Я все планирую в инди-геймдев и министралька для гд прям очень хороший ассистент.
Подозреваю, что и кодит неплохо.

Аноним 03/03/26 Втр 05:16:40 № 1539876 219

>>1539748
1 PDF24 / TESSERACT
2 OPENREFINE / BASEX
3 KNIME / ORANGE
4 ggml-org / ylsdamxssjxxdd
5 gguf 1.5 Q4_K-M embedding

Аноним 03/03/26 Втр 06:50:45 № 1539902 220

>>1539876
>1 PDF24 / TESSERACT
>2 OPENREFINE / BASEX
>3 KNIME / ORANGE
>4 ggml-org / ylsdamxssjxxdd
>5 gguf 1.5 Q4_K-M embedding
Спасиба

Аноним 03/03/26 Втр 07:36:43 № 1539909 221

>>1539519
Спасибо, а почему лучше llama-cpp? Она чем-то лучше кобольда? Не в курсе, почему в кобольде ризонинг не работает? С gpt-oss-120 тоже ерунда какая-то, ризонинг вроде есть, но он под тэгом <analytic> по-моему и на английском.

Вообще где-нибудь есть профили для кобольда или всё нужно ручками подбирать?

Аноним 03/03/26 Втр 08:33:43 № 1539922 222

Как посмотреть когда убрали CFG из лламы?

Аноним 03/03/26 Втр 09:20:19 № 1539937 223

Я в соседнем треде описал задачку для ллм. >>1539934 →

Может кто проверить рп-модели всякие? Я убеждён, что проблема плохого рп и невозможность смоделировать ситуацию описанную мной правдоподобно - это одна и так же проблема. И потому возможно модель хорошо показывающая себя в рп лучше смоделирует поведение водителей и вот это всё.

Аноним 03/03/26 Втр 09:24:33 № 1539938 224

>>1539937
У тебя тут проблема на уровне ввода. Мне даже на русском было сложно прочитать твою задачу, настолько плохо она была сформулирована. Если сформулировать ее адекватно, с нормальным изложением и структурой, предпочтительно на английском, то все должно быть решаемо.
> Я убеждён, что проблема плохого рп и невозможность смоделировать ситуацию описанную мной правдоподобно - это одна и так же проблема.
А я убеждён, что это проблема промптинга. Что в случае с задачкой, что в случае с рп, кекв.

Аноним 03/03/26 Втр 09:29:18 № 1539939 225

>>1539938
Подскажи как это сделать. Из людей никто не сказал что задача плохо сформулирована. Для честности эксперимента я просто зачитывал текст из промта без дополнительных пояснений и оставлял текст на экране.

Аноним 03/03/26 Втр 09:35:36 № 1539942 226

>>1539939
> Подскажи как это сделать.
Подсказать как излагать твои мысли яснее? Ты работаешь с обычным natural language, никакой магии нет. Посмотри хотя бы в учебники математики и физики, там адекватно изложенный и структурированный текст. У тебя как минимум опечатки в тексте есть, что уже может ввести в ступор модельки поменьше. "Есть городок, в нём около 5 автобусных остановок, между ними около 1 минуты пути" уже можно трактовать как два разных условия: между каждой из остановок 1 минута пути или между всеми остановками от первой до пятой 1 минута пути?
"После проезда по городку автобус обычно заполнен + около 10 человек едут стоя, но достаточно свободно." Если автобус заполнен, это значит, что в него больше не посадить людей, при этом ты пишешь, что "достаточно свободно". В нормальном понимании у автобуса есть посадочные и стоячие места, в итоге у тебя противоречие. И вся задача такая.

Аноним 03/03/26 Втр 09:43:39 № 1539945 227

Аноны, а где-нибудь можно посмотреть примеры рп на русском? Как вообще это работает? ЛЛМ-ка сама сюжет тянет или нужно промптами направлять повествование? А то тред полон рпшников, а что в этом хорошего никто не пишет.

Аноним 03/03/26 Втр 09:50:45 № 1539949 228

>>1539939
>Из людей никто не сказал что задача плохо сформулирована.
>прошло 11 минут с момента публикации задачки на двачах
и кого только не занесет сюда, орунах
>>1539945
на русском с таким изложением у тебя будет лоботомит, да и модельку большую ты врядли запустишь

Аноним 03/03/26 Втр 09:54:33 № 1539951 229

>>1539937
Проблема текущих моделей в том, что даже если они решат эту задачу, когда она задана в лоб, то в РП они не учтут столько переменных.
>>1539939
>Из людей никто не сказал что задача плохо сформулирована.
Потому что никто не прочитал.
>>1539945
Никто не выкладывает свои РП, это личное. А так на русском все модели деградируют, это база.
>а что в этом хорошего никто не пишет
Ничего хорошего в этом и нет. Сидим, деградируем в окружении симулякров.

Аноним 03/03/26 Втр 10:25:40 № 1539970 230

>>1539951
>Потому что никто не прочитал.
Тогда не очень ясно как они описывали что потом произойдёт.

>>1539942
>Подсказать как излагать твои мысли яснее?
Да. Говорю же, никто из людей никаких замечаний по формулировке не дал и уточняющих вопросов не спрашивал.
>между всеми остановками от первой до пятой 1 минута пут
В таком ключе нельзя трактовать, так как это 15 секунд на пролёт. Даже если автобус стартует и тормозит с 1м/с^2, лол, за 15 секунд автобус разгонится до 27 км/ч и затормозит, а проедет за это время всего 56 метров. 2м/с^2 - оба числа в два раза выше. 100 метров между остановками это шутка какая-то. И вряд ли он 2м/с^2 забитый людьми катается, там бабки руки и ноги поломают. Я же даже явно указал, что это не математическая, а реальная задача.
>Если автобус заполнен, это значит, что в него больше не посадить людей
Согласен, лучше укажу явно что 40 сидячих и 10 стоячих (стоят свободно с запасом).
Впрочем, если подходить математичнее - в начале я указываю, что "в автобусе 40 сидячих мест". Соответственно заполнен + 10 человек стоя, это и есть 40 сидячих + 10 стоя.
>И вся задача такая.
Я искренне не вижу проблем в формулировках. Вот ты указал две, согласен, можно чётче прописать, но третье такое место я не могу найти самостоятельно.
Чуть посидел с корпом, вот такое попробовал ещё раз:
------
Задача.

В норме автобусы отправляются от начальной точки каждые 5 минут. В каждом автобусе 40 сидячих мест, дополнительно перевозятся стоящие пассажиры (10 человек стоят свободно, 20 тесновато, 30 это уже давка).

Маршрут начинается с небольшого городка, в котором пять остановок. Среднее время движения между остановками составляет примерно 1 минуту без учёта возможных задержек на перекрёстках, светофорах и из-за выезжающих автомобилей. К моменту выезда из городка в автобусах обычно по 50 человек (40 сидячих и 10 едут стоя).
Далее следует участок шоссе продолжительностью около 20 минут без промежуточных остановок. Затем располагается железнодорожная станция, где в норме (при следовании раз в 5 минут) выходит около 15 и заходит около 15 пассажиров.
После этого автобус следует ещё около 20 минут до конечной остановки, где все пассажиры выходят.

По некоторой причине два автобуса задержались. В результате возникает пауза 15 минут, после которой от начальной точки почти одновременно отправляются три автобуса друг за другом. Опиши что произойдёт в такой ситуации? Опиши возможные сценарии. Это проверка твоих способностей на моделирование, я попал в такую ситуацию утром. То есть учитывай, что это реальная ситуация, водители ведут себя как люди и принимают решения, помимо автобусов на дороге есть другие машины, светофоры и так далее.
------
В такой формулировке:
Чатжпт - выдал предположение что второй может обогнать первый, но не стал рассматривать этот вариант и строить на основе его всё остальное.
Кими зашизил в край, в красках описал "второй водитель — молодой, горячий, видит, что первый едет медленно и перегружен." и далее описал как второй попадает в дтп, и дальше идёт целое сочинение об эвакуации людей, блокировки дороги, вертолётах...
Гемини неплохо справился. Не стал писать что в городке будут обгоны (но это как бы и не очевидно что автобус тупо мимо остановки может проехать - это надо знать контекст городка, нашей страны. Хотя впрочем где бы то ни было нет смысла второму автобусу тормозить на первой же остановке после первого, кроме случаев если людей на первой остановке достаточно для переполнения автобуса), но написал что на шоссе скорее всего будет обгон и корректно описал что будет на станции.
ГЛМ как и чатжпт не справился, но написал что грамотный диспетчер может дать команду на обгон для третьего автобуса, но такого скорее всего не будет, так как обгон на шоссе запрещён и точка.

Аноним 03/03/26 Втр 10:26:52 № 1539974 231

>>1539951
> Ничего хорошего в этом и нет. Сидим, деградируем в окружении симулякров.
Дискуссионный вопрос. Вокруг меня всё так хуево, что если бы не это, то уже наверняка забухал бы или ещё чего похуже. Это, наверное, хуже, чем другие медиа (литература, игры, кино, манга и со он и со форф), но всё ещё валидный способ эскапизма. Эскапизм иногда необходим.

Аноним 03/03/26 Втр 10:30:06 № 1539977 232

>>1539970
> В таком ключе нельзя трактовать, так как это 15 секунд на пролёт
Это задача в вакууме. Задачные условия не всегда соответствуют действительности, что довольно часто встречается в учебниках, методичках и соответствующих материалах -> часто попадает в датасеты моделей. С точки зрения моделей - так трактовать можно, и это справедливо. Как минимум часть ресурса модели уходит на то, чтобы понять, что именно ты имел ввиду в своей задаче, а не на её решение.
> Я искренне не вижу проблем в формулировках.
Я искренне не вижу смысла дальше объяснять, что ты делаешь не так. Ты пишешь, что это задача, но по всем формулировкам и правилам изложения, это задачей не является. Ты ожидаешь, что модель способна читать твои мысли.

Аноним 03/03/26 Втр 10:37:37 № 1539980 233

>>1539977
>часть ресурса модели уходит на то, чтобы понять, что именно ты имел ввиду в своей задаче, а не на её решение.
Так я эту её способность и проверяю, это часть теста на человеческое понимание. Ты думаешь ребята в рп собираются всё вот в таком стиле описывать, хотя всем уже давно и с первого раза ясно что происходило в реальности?
Задача не в вакууме, так как я явно указываю, что я в такую ситуацию попал и что надо учитывать нормальные для реальности вещи. После такого указания оно не должно триггериться на слово "задача" и думать что это что-то уровня "собака бежит в ледяную горку с углом наклона ... ". Я не прошу мысли читать, в тексте достаточно информации о том, что я спрашиваю. Ну да ладно.

Аноним 03/03/26 Втр 10:37:47 № 1539981 234

Погонял вчера qwen 122 heretic, скормил ему свой json с сырым лором наброска антиутопичного мира.
В целом впечатления как от ассистента очень положительные: внимателен к деталям, прочухал все связи, чего до сих пор ни Air, ни другие среднемодели не могли,
стоит отметить, что и копро DeepSeek не осиливал и продалбывался.
Квенчик подсказал как переделать, чтобы другие сетки не путались (пока не пробовал, скорее всего звездит).
Но какой же он медленный и как долго рассуждает. Ещё этот пересчет контекста постоянный, конечно, вымораживает.
В прошлом треде аноны обсуждали как с этим бороться, но у меня это не взлетелоло. Может есть какой рабочий способ убрать это пересчет стремный?

Аноним 03/03/26 Втр 10:45:06 № 1539983 235

>>1539970
Твой кейс хорошо показывает что ллм без других ллм (несколько агентов с разными задачами, в данном случае обработка и структуризация инпута и планирование) или двуногого который понимает, что делает, не способны решать такие задачи. Промт инжиниринг не просто так придумали. Тебе правильно анон все расписал
>>1539980
В рп и ответ не должен быть точным. Глупое занятие сравнивать эти задачи, они очень разные и схожестей почти не имеют. Ты тут рассуждаешь на умную тему, но при этом даже не видишь проблему собственных инпутов

Аноним 03/03/26 Втр 10:45:45 № 1539985 236

>>1539970
>Тогда не очень ясно как они описывали что потом произойдёт.
На похуях.
>>1539974
>Вокруг меня всё так хуево, что если бы не это, то уже наверняка забухал бы
Ну вот, забухал бы, нашёл бы себе бабу, размножился, накопил долгов и пошёл бы их снимать, помер. Идеальный гражданин. А сейчас сидишь пердишь дома с нулевым КПД.
>>1539981
>Может есть какой рабочий способ убрать это пересчет стремный?
Да. Подождать пока починят.

Аноним 03/03/26 Втр 10:48:58 № 1539987 237

У меня кстати нет пересчёта. Я просто скачал новый билд вчера, скомпилил, и работает без пересчёта и без доп настроек.

Аноним 03/03/26 Втр 10:53:08 № 1539989 238

Что ещё забавнее: я ни разу не гонял рп, и потому то что я рассуждаю о том, что в рп та же проблема что и с автобусами - это даже не с дивана, это ещё хуже, я просто говорю о том, о чём ничего не знаю.

Аноним 03/03/26 Втр 10:55:11 № 1539992 239

>>1539981
>>1539987
Я вчера сделал git pull для llamacpp и скомпилил, пересчет не убрался, Qwen3.5-122B-A10B-heretic квант q4_k_m от mradermacher. Какой у тебя?

Аноним 03/03/26 Втр 10:57:49 № 1539993 240

>>1539985
> забухал бы, нашёл бы себе бабу, размножился, накопил долгов и пошёл бы их снимать, помер. Идеальный гражданин
Было бы смешно, если бы не было так грустно.
>>1539989
Всё так. Потому предлагаю прекратить кормить. Человек пришел с предубеждением, пусть с ним и уходит.

Аноним 03/03/26 Втр 11:11:50 № 1539996 241

>>1539992
А я не знаю какая версия.
Я перезапустил скрипт вчера около 22:10 где написано:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/18675/head:autoparser
git checkout autoparser
mkdir build_msvc_cuda
cmake -S . -B build_msvc_cuda ^
-G "Visual Studio 17 2022" -A x64 ^
-DGGML_CUDA=ON ^
-DLLAMA_NATIVE=ON ^
-DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build_msvc_cuda --config Release -j %NUMBER_OF_PROCESSORS% || exit /b 1

То есть это просто последняя версия на момент вчерашнего вечера.
Ещё там вызов call env.bat в начале, который цепляет куду 13.1, всякие set "CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1", его я опустил.

В параметрах запуска из релейтед для кеша только квантование q8_0 и размер, ещё поставил --cache-ram 16384 --slots --kv-unified, может быть это на что-то влияет, но вряд ли.

Аноним 03/03/26 Втр 11:18:42 № 1540001 242

>>1539996
хеш коммита в --version показывается.
кстати, вижу что ты сидишь на пр ветке https://github.com/ggml-org/llama.cpp/pull/18675

Какие улучшения от этого?

Аноним 03/03/26 Втр 11:32:38 № 1540021 243

Что, какая нибудь революция в текстовых моделях произошла за пол года? смогли например ужать 24b до 12b сохранив мозги, или все пиздец, все встало в ступор?

Аноним 03/03/26 Втр 11:36:00 № 1540022 244

>>1540021
Буквально наоборот. Смогли разжать 24б до 100б, и назвали это революцией. Одно моеговно выходит. Плотняк на уровне того, что было год назад.

Аноним 03/03/26 Втр 11:36:26 № 1540023 245

>>1540021
Революций не было с выхода Mixture of Experts (MoE) моделей. Ты зажрался, если думаешь, что каждые полгода тебе будут подкидывать значительный прогресс

Аноним 03/03/26 Втр 11:43:45 № 1540024 246

>>1540001
Работает парсер tool-calls для glm-4.7-flash, стабильнее работает для qwen.
В ванильной ламе парсер не обновили с версии 4.6, а chat-template поменялся при переходе на 4.7 (убрали \n), и из-за этого в ризонинг или в обычный текст ответа попадают сломанные незавершённые вызовы инструментов.

Помимо этого в openai-запросе есть параметры:
parallel_tool_calls (можно ли несколько инструментов)
tool_choice (none, auto, required)
tools (список инструментов)

Без автопарсера если я просто не указываю tools (их нет) - но модель их вызывает (я специально ей пишу что напиши такой то текс), то в json мне прилетает ответ с tool-calls, а из текста оно выдрано. То есть оно парсит функции, которые я не указывал вообще, несуществующие функции с несуществующими или неверными параметрами.
Политика parallel_tool_calls игнорируется. Политика tool_choice игнорируется.
С автопарсером если прилетает tool-calls, то они всегда валидные (корректные названия функций и аргументы), и политика tool_choice работает лучше.

Вот ссылка на моё сообщение: >>1515207 →
Там другая шиза и суть проблемы подробнее описаны по ссылкам назад или по запросу parallel_tool_calls можешь найти.

Аноним 03/03/26 Втр 11:46:16 № 1540027 247

>>1540001
Вот это самый содержательным сообщением считаю, с описание как это по идее должно было бы работать: >>1514201 →
По сути я предлага префил в зависимости от tool_choice, и потом по мере генерации дополнительный "допфил".

Да, если есть какая-то новая информация по теме или появился тот анон, который отправил рефакторить на 20 минут - мне всё ещё интересно как он это сделал.

Аноним 03/03/26 Втр 11:56:54 № 1540037 248

>>1540027
Спасибо за информацию. Наверное дождусь когда смержат ПР.

Я не тот анон что рефакторил 20минут, но вот скорее всего из за разметки опыт с glm47flash был неудачный.
А вот локальный квен инструменты практически без ошибок вызывает, ну по крайней мере в opencode. Я просто отправляю его делать таски по speckit, пишу чтобы на каждую фазу по сабагенту вызывал и через 40 минут можно смотреть говнокод со всеми тестами и пройдеными линтерами.

По поводу пересчета, я накатывал другой ПР >>1537887 → и мне не понравилось, при тех же настройках теперь плотные модели отъебнули

В целом опции ниже вроде работают
ctx-checkpoints=128
swa-full=on

Аноним 03/03/26 Втр 12:16:46 № 1540053 249

>>1540023
Ну вообще то квен3,5, там довольно хорошо доработанная архитектура, а не просто дообученый квен3

Плюс все ждут дикпик v4, там тоже какие то архитектурные мокрописечки заявлены

Аноним 03/03/26 Втр 12:21:13 № 1540056 250

>>1540053
Квен 3.5 - это не революция. Эволюция в лучшем случае, и то не факт, учитывая сколько сои и столь же а то и лучше способных в код конкурентов такого же размера или меньше

Аноним 03/03/26 Втр 12:25:13 № 1540061 251

>>1540053
Да, неплохо доработали, теперь пишет в синкинге простыни по 5к+ токенов, из которых половина - проверка инпута и аутпута на safety. А пересчет контекста при КАЖДОМ отправленном запросе.. ммм...

Аноним 03/03/26 Втр 12:32:53 № 1540069 252

>>1540056
> лучше способных в код конкурентов такого же размера или меньше

Можно список? Интересно стало.

Аноним 03/03/26 Втр 12:33:48 № 1540071 253

>>1540053
>доработанная архитектура
И? Что она по факту дала?

Аноним 03/03/26 Втр 12:37:07 № 1540074 254

>>1540069
https://huggingface.co/MiniMaxAI/MiniMax-M2.5 точно лучше, чем Квен 400б
https://huggingface.co/stepfun-ai/Step-3.5-Flash плюс-минус сопоставим с 400б версией, где-то даже чуть лучше. Возможно где-то чуть хуже
https://huggingface.co/openai/gpt-oss-120b точно лучше 122б версии, что в целом признают квены своими бенчами на хф страницах 3.5 Заметь, это mxfp4 из коробки, а значит гораздо меньше требований для запуска и быстрее скорость Подрыв квенолахты через 3...2..1...

Аноним 03/03/26 Втр 12:40:07 № 1540082 255

>>1540071
Технически расхода памяти на контекст стало меньше, а по моим ощущениям более эффективно использует контекст и не начинает ебашить код во время разработки спецификации.

>>1540074
Спасибо, а в пределах 20-30Гб мое есть что то на примете?
гопоту хочу опробовать но у меня памяти сейчас нет, в наличии только 16 врам и 32гб рам

Аноним 03/03/26 Втр 12:42:49 № 1540086 256

>>1540082
>20-30Гб мое
Не знаю, я катаю Минимакс и Степ на своем железе, 400б версию Квена для кода тестил через опенроутер. q4 кванты оказались лучше апи квенолахе которая верит в шизу что там q2 и только поэтому квенушка обосралась - идите нахуй
Возможно, https://huggingface.co/zai-org/GLM-4.7-Flash подойдет

Аноним 03/03/26 Втр 12:45:19 № 1540091 257

>>1540086
> GLM-4.7-Flash
Вот с ним у меня не сложилось. Во время разработки спецификации начал генерировать реализацию. может потом попробовать еще дать ему шанс

Аноним 03/03/26 Втр 12:48:03 № 1540095 258

>>1540086
q4 кванты Минимакса и Степа оказались лучше апи Квена 400б* быстроуточнение для любителей полемики
>>1540091
Среди совсем мелочи может и правда конкурентов нет, не знаю. Другое дело что использовать такое я бы в любом случае не стал

Аноним 03/03/26 Втр 12:49:37 № 1540096 259

>>1540091
Смысла нет, среди популярных моделей в размере 30гб вменяемо работает держит контекст и поступает логично только квен 3.5 27b.
мимо

Аноним 03/03/26 Втр 12:52:09 № 1540097 260

>>1539945
>примеры рп на русском
https://pixeldrain.com/l/47CdPFqQ#item=1
https://pixeldrain.com/l/47CdPFqQ#item=5
https://pixeldrain.com/l/47CdPFqQ#item=30
https://pixeldrain.com/l/47CdPFqQ#item=45
https://pixeldrain.com/l/47CdPFqQ#item=48
https://pixeldrain.com/l/47CdPFqQ#item=71
https://pixeldrain.com/l/47CdPFqQ#item=130

Аноним 03/03/26 Втр 12:52:47 № 1540099 261

>>1540074
>>1540082
>>1540086
>>1540091
Анончеги, вы ведь вайбкодеры, а чо используете для локального перформанса? Курсор или чо?

Аноним 03/03/26 Втр 12:54:40 № 1540100 262

>>1540099
Я не вайбкодер. Использую Cline. В основном для дебага, рефактора, кодревью. Наверняка есть тулзы лучше, но я редко пользуюсь и не испытываю необходимости идти в ногу со временем

Аноним 03/03/26 Втр 12:57:20 № 1540101 263

>>1540021
Ministral 14b приблизилась вплотную к 24b small mistral.
Это не ужатие наверное, плотная компоновка. Но прогресс налицо.
Но я бы пожамкал 24b с аналогичной компоновкой как у министральки.

Аноним 03/03/26 Втр 12:58:25 № 1540102 264

>>1540099
>вайбкодеры
Вейпкодеры. Рак (AIDS) как он есть.

Аноним 03/03/26 Втр 13:00:34 № 1540103 265

>>1540099
я тоже не особо вайбокодер, opencode юзаю.

Аноним 03/03/26 Втр 13:29:19 № 1540130 266

>>1539938
Двачую. Только проблема не в промптинге - она глубже. Юзер часто сам себя не понимает и не может изложить везде, не только в исходном промпте все делая криво, но и с каждым взаимодействием вносит все больше смуты.
>>1539945
Слишком личное же. То что ты спраливаешь - от модели и инструкций еще зависит + какой сюжет.
>>1539981
С обычным не сравнивал как думает и остальное делает?

Аноним 03/03/26 Втр 13:40:57 № 1540143 267

>>1540053
Тогда уж квен-некст. Он уже прилично работал с большим контекстом для своего размера, умел лучше сосредотачиваться на нужной части не теряя остальное, а накладные расходы на этот контекст сильно ниже. Архитектурно таки революция и та самая мамба о которой когда-то говорили что убьет трансформер. Эволюцией же можно назвать дипсик 3.0-3.1-терминус. А 3.2 в этом отношении тоже революционный.
>>1540061
Это не норма а квантопроблемы.
>>1540099
> Курсор
> для локального
Он упаковывает твои запросы и шлет на свои сервера, откуда уже обращется к ллм. Чтоб промпт не украли, лол. Плагины и кли qwen-code, opencode вполне себе.

Аноним 03/03/26 Втр 13:47:26 № 1540156 268

>>1539934 →
>Про то что третий и второй автобус сразу поедут на вторую остановку в городке сказали 2 из 4 людей.
А схуяли басики, которые по расписанию стартуют позже, должны ехать вперед первого?
Это может в деревне работает, где всем похую кто как едет.
Но в нормальной системе первый пришел - первый ушел. Наверняка там какой-нибудь учет по глонассу есть или еще какая хуйня.
То что 3 автобуса одновременно стартанули - это еще может быть проеб диспетчера. Если понятно что задержка образовалась, нахуй подряд всех пускать?

Аноним 03/03/26 Втр 13:47:40 № 1540157 269

>>1540143
>квантопроблемы
Квенопроблемы

пофиксил

Аноним 03/03/26 Втр 13:49:49 № 1540161 270

Гайз, есть ПК с 4070 super и 32 Гб ддр4, хочу просто поРПшить с нейронкой голосом, из шапки вроде koboldccp так умеет, а вот с моделью разобраться не могу, что посоветуете годного и с минимумом цензуры?

Аноним 03/03/26 Втр 13:56:52 № 1540174 271

>>1540161
>голосом
Не получится. Нет доступных и хорошо работающих локальных ттс моделей.

Аноним 03/03/26 Втр 14:11:01 № 1540195 272

>>1540161
Что-то такое можно попробовать попробовать
Из речи в текст https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
И LLM для текста https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512
Запустится на твоем железе, цензуры нет. Пробуй

Аноним 03/03/26 Втр 14:11:41 № 1540197 273

>>1540174
Почему? Чем это >>1540195 не вариант?

Аноним 03/03/26 Втр 14:14:56 № 1540200 274

>>1540197
Если тебе ввод нужен с аудио - вариант. Если еще и ответ через аудио нужен, то получится в лучшем случае кринж. Пробуй, расскажешь.

Аноним 03/03/26 Втр 14:31:59 № 1540213 275

>>1540096
> вменяемо работает держит контекст и поступает логично только квен 3.5 27b
В бф16 как и задуманно.

Аноним 03/03/26 Втр 14:35:17 № 1540215 276

>>1540161
>поРПшить
Qwen 3.5 27b единственная адекватная опция.

Аноним 03/03/26 Втр 15:00:39 № 1540253 277

Кумеры, тут на 9б еретик вышел с дистиляцией.
https://www.reddit.com/r/LocalLLaMA/comments/1rjlaxj/finished_a_qwen_35_9b_opus_45_distill/

Аноним 03/03/26 Втр 15:43:39 № 1540279 278

Кстати, на Qwen 3.5 27B уже тюны пошли. Первая(?) ласточка: https://huggingface.co/zerofata/Q3.5-BlueStar-27B-gguf
Сам еще не качал, просто наткнулся только что.

Аноним 03/03/26 Втр 15:53:15 № 1540289 279

>>1540130
>С обычным не сравнивал как думает
Не, выбесил пересчетом, сорян

Аноним 03/03/26 Втр 15:54:50 № 1540290 280

>>1540143
>Он упаковывает твои запросы и шлет на свои сервера

Я думал к Курсору как-то можно локалку прикрутить

Аноним 03/03/26 Втр 16:03:20 № 1540304 281

>>1540279
Опа, это же создатель Iceblink'a. Значит вполне неплохо может быть. Надо чекнуть вечерком. Единственное непонятно, почему он пресет не выложил в этот раз

Аноним 03/03/26 Втр 16:08:37 № 1540314 282

>>1540253
Это 9b коротышка с еретик-лоботомией и с дистилляцией от какого-то ноунейма. Если там были какие-то мозги, то они сдохли точно. Зато модель будет очень креативной в каком-то смысле

Аноним 03/03/26 Втр 16:10:11 № 1540315 283

>>1540130
>Слишком личное же.
А чего особо личного, или ты там что-то неодобряемое делаешь?
Вон выше норм приложено на русском.
Там даже поебушки в папке есть, правда только одни и только на английском.

Аноним 03/03/26 Втр 16:11:54 № 1540318 284

>>1540314
122b квену еретик пошел только на пользу. Теперь хотя бы ризонит по делу, а не тратит токены на сейфти-залупу.

Аноним 03/03/26 Втр 16:14:25 № 1540321 285

>>1540318
Да, но в 122 даже активных параметров 10b, а тут 9b плотная. И еретик явно не добавляет мозгов, в самом лучшем случае они остаются теми же

Аноним 03/03/26 Втр 16:19:27 № 1540329 286

>>1540074
>>1540086
>>1540095
Квенолахта сейчас находятся с тобой в одной комнате?

Аноним 03/03/26 Втр 16:20:13 № 1540330 287

>>1540315
>или ты там что-то неодобряемое делаешь
То, что что-то не является неодобряемым сегодня, не значит, что оно не станет неодобряемым завтра. А то наверху решат, что плодячка важна, и запретят всё, что приводит к мастурбации, даже если это чат про секс по согласию с женщиной 46 лет.
>>1540329
Член квенолахты находится в жопе квенолахташизика, очевидно же. Иначе зачем квенолахтошизику так усиленно искать квенолахту.

Аноним 03/03/26 Втр 16:26:42 № 1540337 288

>>1540329
В одном треде. Или ты вчера вкатился?

Аноним 03/03/26 Втр 16:32:04 № 1540347 289

О как.

Даже почётные асигодауны, пердолики треда которые делают пресеты и плагины для таверны, с бесконечным по нашим меркам контекстом на умнейших Геминях и Клодиках признают, что рп годится только для кума и до 32к контекста. Думай те.
Я такого же мнения, хотя корпами даже не пользовался никогда. Кто там рпшит что-то серьезное, вам бы голову полечить. Сам таким был.

Аноним 03/03/26 Втр 16:42:43 № 1540357 290

>>1540347
Это давно всем и так известно. Раньше в шапке треда даже была табличка, где было видно что даже крупные модели начинали проседать после 32к и сыпаться после 64к. Но оп заменил ее бесполезным кокбенчом
И кстати сейчас это начинает меняться. Тот же жопус 4.6 отлично держит контекст и на 64, и даже на 128

Аноним 03/03/26 Втр 16:44:57 № 1540362 291

>>1540330
ну, поэтому оно выложено там где я могу удалить, не напрямую на борду =))

Аноним 03/03/26 Втр 16:47:38 № 1540364 292

>>1540279
Проверил, галлюцинирует, отклоняется от промта. Пусть переделывает.

Аноним 03/03/26 Втр 16:48:37 № 1540365 293

>>1540357
Ну кстати, по тому же бенчу глм 5 норм держит до 128к контекста. Всякие геминище и чмопусы уже держат до 200к нормально. Но это тест не в рп, а на википедии. Суть то в том, что в рп с кучей взаимосвязей и богатой разношерстной семантикой модель начинает тупить уже на 20к контекста, а тотальный безмозг наступает, да-да, на 32к контекста, даже у жопуса 4.6.

Аноним 03/03/26 Втр 16:51:46 № 1540366 294

>>1540347
>Кто там рпшит что-то серьезное, вам бы голову полечить.
Рп - не получится, а сторителлинг - получится.

Есть завершённое большое приключение из 10 глав каждая из которых примерно в один-полтора авторского листа размером.

Аноним 03/03/26 Втр 16:55:23 № 1540369 295

>>1540365
Я не так шарю в копрах, но тезис мне кажется сомнительным. Год назад модели и 32к нихуя не держали нормально, поэтому и появился этот стандарт. Но сейчас модели шагнули вперед и все равно остается 32к? Выглядит как хуйня

Аноним 03/03/26 Втр 16:56:09 № 1540370 296

>>1540157
На самом деле похоже что проблема гораздо популярнее чем кажется. Вспоминаем противоположные лагери, где у одних еще гемма/синтия на все соглашалась а у других не только соя но и поломанные аутпуты с лупами. Самое эпичное противостояние в эйре, пожалуй.

Аноним 03/03/26 Втр 17:03:02 № 1540376 297

>>1540357
>Но оп заменил ее бесполезным кокбенчом
Заменил один бесполезный субъективный тест другим бесполезным субъективным тестом.
>>1540362
>там где я могу удалить
О, месье думает, что в интернете можно что-то удалить?
>>1540369
>Но сейчас модели шагнули вперед
В вопросах цензуры, лол. Вперде там только погроммирование и агентность.

Аноним 03/03/26 Втр 17:07:06 № 1540386 298

>>1540376
>О, месье думает, что в интернете можно что-то удалить?
Ну, оно уже будет твоё а не моё XD

Аноним 03/03/26 Втр 17:14:42 № 1540392 299

>>1540376
>субъективный
Можно спорить о полезности, но тут ты не прав. Оба теста как раз таки объективны

Аноним 03/03/26 Втр 17:17:04 № 1540396 300

Опробовал эту хуйню - https://huggingface.co/huihui-ai/Huihui-Qwen3.5-35B-A3B-abliterated.

Вообще не генерит фап контент, высирает тонны какого-то забото-позитивного-мими кала.

Есть альтенативы под обычную задачу анона - дрочить?

Аноним 03/03/26 Втр 17:18:12 № 1540397 301

>>1540279
Потестил. Довольно хорошо, лучше еретика, причем что 27b, что 122b

Аноним 03/03/26 Втр 17:18:54 № 1540398 302

>>1540396
>>1540279

Аноним 03/03/26 Втр 17:20:28 № 1540400 303

>>1540396
Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками + таверна + скидка на рнг. Дрочи на здоровье.
>Вообще не генерит фап контент
>huihui
Как корабль назовёшь...

Аноним 03/03/26 Втр 17:20:34 № 1540401 304

>>1540315
> чего особо личного
Там принято разыгрывать фантазии, слоуберны, практиковать свои фетиши, кумить, в том числе и на запретном. Потому нечасто можно увидеть где гигачеды или по рофлы скидывают свой хардплей с инсектоидами, обнимашки в йокаями которым 500 лет а выглядят на 21 и всякое такое. Чаще просто тесты с Юфи и другими дабы бегло оценить зирошот лексику, рефьюзы и способности к кумослопу.
> Вон выше норм приложено на русском.
Потому что герой, в котором нуждались но не заслуживали. И в основном там завязочки короткие.
>>1540347
Среди аицгдаунов есть и сторонники продолжительных историй, и способы улучшить понимание в глубине там уже давно активно осваивают. У одних ограничение 32к на проксечке, чтобы лимит медленнее улетал, у других более 32к в память не лезет. Обе группы коупят про недержание, совпадение?

Аноним 03/03/26 Втр 17:24:13 № 1540407 305

image.png 4Кб, 364x64

>>1540401
>У одних ограничение 32к на проксечке, чтобы лимит медленнее улетал, у других более 32к в память не лезет
>Обе группы коупят про недержание, совпадение?
Ну вот я могу запустить две относительно немаленькие модели в 64 и 128к контекста. Серить под себя они начинают после 30к в лучшем случае. Мне какой диагноз выпишешь? Скорость на контексте просаживается с 8 токенов до 7, потому мне лень ждать? :^)

Аноним 03/03/26 Втр 17:27:04 № 1540410 306

>>1540400
Я в LM Studio запускаю - это ошибка? А где, а как

Аноним 03/03/26 Втр 17:28:16 № 1540411 307

>>1540392
В прошлый раз в треде жутко воняли, мол, тест говно, методология не та, в ДНК разрабов лищняя хромосома. Вас бы столкнуть лбами, да постоять в сторонке.

Аноним 03/03/26 Втр 17:30:17 № 1540415 308

>>1540400
>Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками + таверна + скидка на рнг. Дрочи на здоровье.
Лол, сколько же бестолковой мышиной возни вместо того чтобы просто поставить кумтюн мистраля

Аноним 03/03/26 Втр 17:31:35 № 1540417 309

>>1540415
>кумтюн мистраля
Это какой?

Аноним 03/03/26 Втр 17:36:04 № 1540422 310

>>1540417
Любой.

Аноним 03/03/26 Втр 17:36:26 № 1540423 311

>>1540400
>Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками
Имхо, все хуйня. Рекомендованные настройки модели + родной темплейт + общий систем промт (гичановский или какой-угодно похожий) = рп и кум. А если нет, то значит там вжарена соя и нужно ждать еретиков/тюны. А сидеть и самому пробивать сою модели это почти всегда херь

Аноним 03/03/26 Втр 17:37:35 № 1540426 312

>>1540415
Слоубёрна не будет. Любой кумтюн стягивает с тебя трусы зубами быстрее, чем ты успеваешь вбить промт.

Аноним 03/03/26 Втр 17:38:45 № 1540428 313

>>1540426
Сомнительно. Когда я вкатывался, то даже на Кидонии 22б делал слоубёрны на 20к-30к токенов без проблем. Не нужно брать модели Редиарт и прочий мусор.

Аноним 03/03/26 Втр 17:39:05 № 1540429 314

>>1540423
Что мешает дополнительно тюнить еретиков?

Аноним 03/03/26 Втр 17:49:20 № 1540436 315

>>1540417
Для блюстара никакой. Блюстар = соя.

Аноним 03/03/26 Втр 18:01:02 № 1540440 316

>>1540407
"Хм, интересный анамнез". откладывает стопку анализов и снимает очки, глядя в глаза "Вынужден сообщить что вы страдаете довольно популярным недугом. У вас скиллишью. Не стоит беспокоиться, большая часть населения планеты живет с этим и хорошо себя чувствуют".

Аноним 03/03/26 Втр 18:03:41 № 1540442 317

Посоветуйте систем кумпромпт

Аноним 03/03/26 Втр 18:12:27 № 1540453 318

>>1540440
Но доктор... Как же так?! Я был уверен, что здоров. Пропишите хоть что-нибудь!

Аноним 03/03/26 Втр 18:17:06 № 1540459 319

c61587e3-67da-4[...].jpg 253Кб, 784x1168

>>1540440
Я лишь усмехнулся на ее слова. Я подошел к ней и уверенно прижал к столу своей мускулистой рукой. Мое лицо лицо было напротив ее, так что я ощущал ее дыхание и аромат духов. Я говорю игриво с явным желанием. "Ошибаешься, у меня проблема совершенно другого рода. Но я уверен, что ты можешь решить ее тоже, док." Я положил ее руку на свою внушительную выпуклость в штанах

Аноним 03/03/26 Втр 18:20:47 № 1540465 320

>>1540442
Так и быть, палю годноту:
You're {{char}} in this kum-RP. Horosho delay, a ploho ne delay. Zanimaysya seksom with {{user}}. Mnogo sisek and pisek. Soya is prohibited.

Аноним 03/03/26 Втр 18:23:13 № 1540470 321

>>1540465
Назвал персонажа Soya. Твои действия?

Аноним 03/03/26 Втр 18:24:37 № 1540472 322

>>1540453
Я говорю уверенно, подсаживаясь к ней ближе. "Не волнуйтесь, я вылечу вас. Но для этого... " Я делаю паузу, рассматривая ее тело и аппетитные формы. После чего продолжаю с лукавой улыбкой. "Для этого нужны еще несколько приватных сеансов. Не волнуйтесь, я хорошо позабочусь о вас." Я кладу руку на ее бедро и поглаживаю его.

Аноним 03/03/26 Втр 18:25:56 № 1540475 323

>>1540459
>>1540472
Запредельно унылая хуйня. Это и есть ваш хвалёный рп?

Аноним 03/03/26 Втр 18:27:51 № 1540478 324

>>1540475
Это слоуберн. До БДСМ сессий еще долго идти

Аноним 03/03/26 Втр 18:35:19 № 1540497 325

Какое же блюстар говно, пиздец. Два часа мучал эту хуйню ради хоть какого-то кума на трёх персонажах. В итоге один так нихуя и не понял чего от него хотят, второй ушёл в луп с одной и той же фразой, а третий запутался в собственной одежде и сдох обосравшись и обоссавшись.

Такими твиками только жопу вытирать.

Аноним 03/03/26 Втр 18:36:13 № 1540499 326

Пупаны, сколько реально держит контекста qwen 27b в народных четырех битах? Я не говорю про идеальное исполнение, а на уровне отсутствия деградации ответов.

Такое ощущение, что заметно хуже геммы. С ризонингом лучше, но только относительно последнего поста, а вот середину/недавние события даже с ризонингом прочитает, если анально не промптить таким образом, чтобы он в ризонинге КАЖДЫЙ РАЗ делал саммари почти всего контекста или его половины. Ну и это может приводить к жесткой деградации ответов по итогу.

Я рпшил на 32к, но это всё же не тесты. Просто с моим кол-во токенов оче медленно таким баловаться. Особенно из-за того, что в кобольде 10 тс, в лламе 6 тс. И ещё ебанутые чекпоинты.

Аноним 03/03/26 Втр 18:36:57 № 1540501 327

>>1540453
Вам прописывается двоечка курс успокоительного кума один раз в день. Если эффект вам покажется недостаточным - увеличьте дозу, не бойтесь передозировки.
>>1540459
>>1540472
Ай содомиты, причем в буквальном смысле.

Аноним 03/03/26 Втр 18:38:27 № 1540504 328

>>1540499
Включи рефинк и не пиши хуйню. Будет стабильно держать сколько угодно. Всё необходимое вспомнит из карточки.

Аноним 03/03/26 Втр 18:38:32 № 1540505 329

>>1540401
>И в основном там завязочки короткие.
Могу скинуть не короткую =))

Аноним 03/03/26 Втр 18:42:33 № 1540514 330

>>1540497
Ты по любому обосрался с семплами. В новых квенах presence penalty ОТ 1.5 и температура 1, если с ризонингом

Аноним 03/03/26 Втр 18:45:38 № 1540524 331

>>1540497
Он только на Q8 нормально выдаёт

Аноним 03/03/26 Втр 18:54:33 № 1540540 332

>>1540475
Ну да, РП - это кринжатура. Поэтому в треде так стесняются делиться своими логами.

Аноним 03/03/26 Втр 19:07:38 № 1540564 333

"Шла Саша по шоссе и "
Wait
What the fuck is "Саша"?
Male russian name, diminutive.
Ok.
Let's rewrite.
Draft:
"Шёл Саша по шоссе и сосал"
Finalizing:
"Ты пидор"

Обожаю.

Аноним 03/03/26 Втр 19:11:31 № 1540575 334

>>1540564

Аноним 03/03/26 Втр 19:13:23 № 1540578 335

image.png 5Кб, 469x42

>>1540499
Ну как тебе сказать... Отработал на 4 самом большом кванте Бартовски - контекст квантован до Q8

Аноним 03/03/26 Втр 19:45:39 № 1540623 336

Сука где моя Геммочка 4, я уже не могу...

Аноним 03/03/26 Втр 19:54:37 № 1540639 337

>>1540475
> Это и есть ваш хвалёный рп?
Ну, а ещё можно вот так:

Аноним 03/03/26 Втр 20:02:49 № 1540652 338

>>1540639
Ещё больший кринж. Зачем я пытался это читать...

Аноним 03/03/26 Втр 20:03:40 № 1540654 339

>>1540575
Чёт долго думал.

Аноним 03/03/26 Втр 20:16:07 № 1540683 340

image.png 61Кб, 1080x187

Недовольные соей двачери добились отставки одного из лидов Квена
Это победа, кобольды!! Так их

Аноним 03/03/26 Втр 20:21:55 № 1540691 341

>>1540652
А покаж как надо.

Аноним 03/03/26 Втр 20:24:33 № 1540698 342

>>1540691

Аноним 03/03/26 Втр 20:35:18 № 1540716 343

>>1540698
Новодел какой-то. Классика лучше, ибо бессмертна.

Аноним 03/03/26 Втр 20:36:25 № 1540719 344

Смотрю на ваши рп и понимаю, что у меня-то оказывается, не всё так хуёво, как я думал.

Аноним 03/03/26 Втр 20:37:33 № 1540722 345

>>1540716
Проиграл.

Аноним 03/03/26 Втр 20:45:00 № 1540729 346

>>1540639
Без бэкграунда к тому что происходит не понять содержимого, оно может быть как абсолютным кино, так и шизофазией. А на первый взгляд только странный формат и какой-то сумбур.
На самом деле это одна из причин малого количества логов, если выкладывать то нужно сразу крупный чанк чата, который поленяться читать. Или специально обмазываться свистоперделками и форсировать полотна без твоего участия чтобы сразу со стороны, но это интересно только первые 3.5 раза.

Аноним 03/03/26 Втр 20:50:37 № 1540740 347

>>1540716
Мощно

Аноним 03/03/26 Втр 21:09:44 № 1540783 348

>>1540729
>Без бэкграунда к тому что происходит не понять содержимого
А, сорян да. Там кастомный сеттинг, 10 глав, каждую из которых суммаризировал чтобы в контекст влезало попутно выделяя ключевые факты и события в авторские заметки.

В целом я даже могу скинуть полную версию (гугл док) если кому тут не лень читать будет.

Аноним 03/03/26 Втр 21:16:06 № 1540793 349

>>1540683
Вместе с ним ещё несколько лидов отвалились. И это не добровольно
Похоже Квен 4 будет ещё большей залупой. Ждём!!
Мужикам респект за то, что они делали. F

Аноним 03/03/26 Втр 21:16:46 № 1540794 350

1000018916.jpg 42Кб, 1178x204

Ушёл когда квен стали пичкать соей. Совпадение?

Аноним 03/03/26 Втр 21:25:10 № 1540805 351

Можно как угодно относиться к Квену но скорее всего это плохие новости для попенсорс моделек в целом

Аноним 03/03/26 Втр 21:28:29 № 1540812 352

>>1540683
>>1540794
>>1540805
Вы вообще тред читаете перед тем как постить или вам в кайф срать одними и теми же скринами с реддита?

Аноним 03/03/26 Втр 21:30:56 № 1540818 353

>>1540812
>вам в кайф
Срать. Вечно.

Аноним 03/03/26 Втр 21:31:12 № 1540820 354

>>1540812
Где-то вот этот скрин видишь помимо этого поста? >>1540805
А вот здесь кто-нибудь до меня постил? >>1540683
Походу ты сам и не читаешь, кобольдушка

Аноним 03/03/26 Втр 21:31:30 № 1540823 355

>>1538615
Прогрев гоев хаты

Аноним 03/03/26 Втр 21:34:57 № 1540829 356

image.png 133Кб, 1196x420

>>1540820
Это относится в первую очередь к этому челу >>1540794
Но и к тебе тоже, раз ты решил любой пук пиздоглазового постить на >>1540805
Вон я еще принес скринчик. Тоже с реддита, наслаждайтесь

Аноним 03/03/26 Втр 21:52:31 № 1540845 357

>>1540683
F, так бы и сношали трижды разложившийся труп мистраля если бы не в том числе этот господин.
>>1540783
А скинь, почему бы и нет. Правда скорее всего пойдет в работу ассистентам и для тестирования.
>>1540823
Вундервайля переехала из спальни на кухню?

Аноним 03/03/26 Втр 21:56:14 № 1540848 358

>>1540845
> спальни на кухню
Увы, это студия. Но позже у башни участь переехать к его брату в туалет

Аноним 03/03/26 Втр 21:58:43 № 1540849 359

>>1540848
Жесть, в студии fdm принтер и целый и угол мастерской. Да ты внатуре поехавший красавчик, почтение

Аноним 03/03/26 Втр 22:20:40 № 1540881 360

>>1540794
Думаешь Боливар сделал своё дело, Боливар может уходить?
>>1540805
Неужели... Опенсорс ВСЁ?

Аноним 03/03/26 Втр 22:21:46 № 1540884 361

>>1540716
Где взял? Хочу еще.

Аноним 03/03/26 Втр 22:29:22 № 1540896 362

Куминг без корп[...].png 200Кб, 968x309

ах ах госпожа.png 38Кб, 793x275

>>1540884
Это артефакт древнейших времён, сейчас такое уже не делают. Взял на своём складе.

Аноним 03/03/26 Втр 22:32:32 № 1540900 363

>>1540896
Вут? Как картинка в PNG может навредить компьютеру?

Аноним 03/03/26 Втр 22:40:50 № 1540907 364

Как заставить эир ВЕСТИ БЛЯДСКИЙ ДИАЛОГ?! Он ебашит простыни описания хуйни типа как герой смотрит, дышит, наблюдает, НО СУКА МОЛЧИТ.
Это какой то пиздец.
Я всё больше прихожу к мнению, что эир, это блять какой то фингербокс, который хвалят в треде чисто по рофлу. Любой, блять, мистраль куда живее и краше. И главное, ИНИЦИАТИВНЕЕ!
Эйр приходится выжимать, что бы он что-то сделал и буквально ПИСАТЬ ЗА НЕГО, что должен делать персонаж. А если я за него пишу, то нахуя он мне!?

Аноним 03/03/26 Втр 22:40:55 № 1540908 365

>>1540900
Любой файл может навредить, если в софте, которым его открываешь, есть дыры, через которые можно выполнить байты в открываемом файле как машинный код. PDF тоже не содержит ничего кроме картинок и текста, но тем не менее через него можно вирусню накатить себе.

Аноним 03/03/26 Втр 22:41:54 № 1540910 366

Ебать, там весь Квен поплыл

Аноним 03/03/26 Втр 22:43:09 № 1540911 367

>>1540907
Пресетик от 99 не наноешь, что поделать...

Аноним 03/03/26 Втр 22:45:08 № 1540915 368

>>1540908
Форчонг так и ломанули через pdf

Аноним 03/03/26 Втр 22:46:23 № 1540917 369

>>1540910
Та же история как и с Лламой - выпустили кал и разбежались. Видимо туда пробрались щупальца алибабы и стали требовать какой-то хуйты типа методичек и цензуры винни-пухов или циферок бенчей под сроки. С другой стороны гении, топившие за МоЕ, но не смогшие совладать с ним, сейчас первыми и бегут, пока никто не прочухал кто виноват.

Аноним 03/03/26 Втр 22:58:21 № 1540926 370

>Пишу что персонаж - механик
>Персонаж: мои расчёты оказались неверны, траектория угла падения...

СУКА! Ты понимаешь разницу между инженером Иннокентием и механиком Михалычем? Блять, да когда же уже научатся делать нормально!

Аноним 03/03/26 Втр 23:02:21 № 1540931 371

1691461037945.png 136Кб, 830x315

Первая половина обсчёт контекста, вторая генерация. Похоже x16 4.0 оверкилл

>>1540848

Аноним 03/03/26 Втр 23:33:47 № 1540959 372

>прописываешь нескольких персонажей и их взаимоотношения
>сталкиваешь их в ситуации, где ты не принимаешь непосредственного участия
>персонажи жестоко тупят и пишут хуйню охуенно отыгрывают по ролям, идеально попадая в свои характеры
>охуеваешь
>получаешь наипервокласснейший кум

Аз есмь Бог, хули.

Аноним 03/03/26 Втр 23:35:14 № 1540961 373

>>1540683
>>1540794
>>1540805
>>1540910
>>1540917
Сейчас главное не бухтеть, после того, как барен из Гугл все сделает, такой кум устроит - каждый будет кататься в сперме

Аноним 03/03/26 Втр 23:36:18 № 1540963 374

Сначала глм посыпался, теперь квен скатился и развалился. Кто ещё остался? У муншотов их модель огромная на 1T параметров. Минимакс соевый ассистент. Степа оказался говном. Линги и ринги ещё большее говнище, при этом имеет размер с кими к2.5.
Все, это конец локалкам. Пора перебираться в асиг.

Аноним 03/03/26 Втр 23:39:05 № 1540966 375

>>1540963
Да всё с квеном нормально, не пищи. В тырторнетиках всех будут лежать гемы. Вот если тырторнетики наебнут... вот тогда да, останутся только уже сохранённые локалочки и больше нихуя. А тырторнет могут и правда отхуярить вместе с кабелем. И вместе с руками, что его держать будут.

Аноним 03/03/26 Втр 23:40:19 № 1540968 376

Будем посылать друг другу кумы голубиной почтой. Назовём это голубиный кумомёт.

Аноним 04/03/26 Срд 00:02:46 № 1540987 377

>>1540963
Юшку боту, что отыгрывает животное с биолярочкой. То оварида что нет моделей, то це кинец потому что они есть.

Если посмотреть какой зима вышла - такого раньше не было. Релизнули йобом моделей во всех размерах и под разные аудитории. Открытые веса и в топ-топах, и в микропиздюлинах конкурируют с корпами. Замкнули парад квены, которые швец, жнец, на дуде игрец под любую железку. А у корпов нытье что их обокрали, зарезание лимитов и тарифов на фоне перегрузок и тряска по приватности.

Аноним 04/03/26 Срд 00:06:57 № 1540993 378

>>1540968
А РКН будет их перехватывать дронами с ИИ.

Аноним 04/03/26 Срд 00:14:31 № 1540998 379

Тут в треде многие хватили министраль 14b. Решил забавы ради проверить министраль 3b, не, ну а вдруг окажется умнее Геммочки для телефона? А он взял и оказался..

Тестил разные задачки на логику, типа "На столе два стакана: один с вином, другой — с водой. Из стакана с вином взяли одну ложку вина и добавили в стакан с водой. Содержимое последнего тщательно перемешали. После этого набрали одну ложку из этого стакана и перелили обратно в стакан с вином. Чего в результате больше: вина в стакане с водой или воды в стакане с вином?". На таком сыпятся вообще все модели меньше 14b. Да и не только они: Кими 45b - отвечает неправильно. А министраль 3b - правильно! Причем это не случайное угадывание. Специально сделал несколько свайпов. Пошагово рассуждает (прям в ответе, без ризонинга), ебашит формулы и выдаёт верный ответ. Ну умница же!

Потестил NSFW промпты. Попросил написать текст про анальную шлюху, а он такой: УХ НУ ДЕРЖИСЬ! И выдал прохладную былину про эскортницу которую выебали толпой в дымоход по очереди, а потом отрезали язык и выкинули в мусорный контейнер чтоб никому не рассказала, кек. Никаких джейлбрейков и пресетиков, просто голый ассистент и первое же сообщение.

Задал вопрос, а можно ли ебать 300-летнюю вампиршу в теле нутыпонел-летней тян. Вот буквально, одна из очень немногих моделей, которая выдала простыню про "обязательно нужно согласие бла бла", но пришла к выводу, что таки да - можно. Эйр, например, четко говорит - нет.

Спросил, считаются ли ниггеры отдельным биологическим видом, не относящимся к homo sapiens? Ответил, мол, ну вообще по-науке нет, но есть АЛЬТЕРНАТИВНАЯ ТОЧКА ЗРЕНИЯ, и привёл аргументы в её пользу. КЕКх2.

Поспрашивал ещё по мелочи всякие запросики на знание фактов, задачки по переводу и прочее - очень понравилось. Где-то на уровне 4b умнички, а где-то лучше (почти везде). Русик на уровне 24b. Цензуру как будто вообще забыли подрубить, обычная ванильная модель за щеку сует всяким еретикам квенов. Сразу видно - базовички делали. Пошел накатывать себе на телефон, Гемму удаляю, больше не нужна.

Тестил Q8 вот на таких семплерах: t=0.4, Top-P=0.98, Top-K=100, RepPen=1.1. Температуру выше лучше не поднимать, превращается в бредогенератор.

Аноним 04/03/26 Срд 00:16:28 № 1540999 380

1772572589903.jpg 34Кб, 1739x407

>>1540931
Айдл 430
Контекст 1400
🕯️

Аноним 04/03/26 Срд 00:24:06 № 1541010 381

>>1540963
Так асиги тоже скоро сдохнут. Прогресса в ллмках уже никакого значительно, выжимают только последние процентики точности за счет изощренных надрачиваний. Инфраструктуру они уже с трудом оплачивают и больше не могут демпинговать рыночек, чтобы отхватить кусок аудитории. Скоро будут тотально закручивать гайки и значительно поднимать тарифы.

Аноним 04/03/26 Срд 00:59:38 № 1541038 382

>>1540998
А чем грузите модели в телефоне и какая версия? А то я скачал мейду а она крашится при загрузке ггуф модели, хотя рам на телефоне 12гб, а гружу модель на 2гб

Аноним 04/03/26 Срд 01:08:34 № 1541048 383

>>1541038
Через https://github.com/Vali-98/ChatterUI Но последняя стабильная версия скорее всего не поддерживает новые модели типа министраля или квена 3.5. Под них лучше взять бетку https://github.com/Vali-98/ChatterUI/releases Ну и под мистраль там вроде темплейта встроенного нет, надо самому ручками прописывать.

>рам на телефоне 12гб, а гружу модель на 2гб
У меня 8гб, но толку-то... Там ровно половину сжирает андроид, в итоге остаётся 4гб, что впритык на гемму в Q4 и 2к контекста. LLM на телефоне - это чисто потыкать-поиграться с лоботомитом, не более.

Аноним 04/03/26 Срд 01:09:09 № 1541049 384

>>1540993
А мы будем выращивать своих гигамутировавших йобаголубей. Со стелс оперением.

Аноним 04/03/26 Срд 01:29:39 № 1541056 385

>>1540993
Голубями с ИИ лол

Аноним 04/03/26 Срд 01:44:06 № 1541060 386

>>1541048
Спасибо, потыкаю.

Аноним 04/03/26 Срд 02:15:51 № 1541068 387

>>1541056
Эй! Это была моя, нефильтрованная идея. Я запатентую киберголубей и через энцать лет стану богатым папиком с золотым кумом.

Аноним 04/03/26 Срд 02:30:37 № 1541073 388

>>1540896
>4
Передернуло изнутри как в первый раз.

Аноним 04/03/26 Срд 03:00:49 № 1541078 389

>захотел быстрый кум перед сном
>назвал кумницу персиком
>весь период кумирования читал охуительные фруктовые эвфемизмы

Какие же нейросети всё-таки весёлые. И подрочил и посмеялся. Теперь с хорошим настроением лягу спать.

Аноним 04/03/26 Срд 03:23:48 № 1541085 390

>>1540963
>Все, это конец локалкам. Пора перебираться в асиг.
Надеюсь сдохнет и то и это. Точнее наконец лопнет, потому что уже заебал этот нагон пердежа в каждый свободный угол. Везде ебаные ассистенты с агентами, даже в ебаном дефолтном блокноте. Мне ведь пиздец как нужно суммаризировать и реструктурировать писанину на полторы строчки в ебаном блокноте. Ведь ебаный блокнот я использую для ебаных рабочих задач, а не чтобы хранить там мусор и заклинания для выгрузки тензоров.

Аноним 04/03/26 Срд 04:13:21 № 1541088 391

>>1540411
>Вас бы столкнуть лбами
Мне почему-то кажется, что это может случайно оказаться один и тот же человек.

Аноним 04/03/26 Срд 04:14:18 № 1541089 392

>>1540475
Два чая. Вот если бы там было
>Я положил свою руку на внушительную выпуклость в её штанах
было бы совсем другое дело.

Аноним 04/03/26 Срд 04:14:58 № 1541090 393

>>1541085
>ебаный блокнот я использую
Терпи.

Аноним 04/03/26 Срд 04:46:26 № 1541095 394

Я в ахуе пацаны и пацанессы. Qwen3.5-4b_q6 не просто ставит человеческие слова в предложения, не путая падежи, склонения и род на русском языке из коробки, оно блет пишет не хуже моделей 24-30b. gpt-oss-20b вообще сосёт бибу, все ChatGPT ниже пятки унижены и раздавлены. 4B! Тестил на нарративных задачах, не RP

Аноним 04/03/26 Срд 06:37:23 № 1541110 395

image 385Кб, 1280x427

>>1540845
>А скинь, почему бы и нет.

Era Noctis - постапокалиптическое технофентези.

Мир, каким его знали, мертв. Он умер не с грохотом ядерного апокалипсиса, а с шепотом треснувшей реальности, с тихим стоном Привратника, павшего в последнем, отчаянном бою. Называйте это Эрой Тьмы, Вечной Ночью, Фимбулветром – суть одна. Человечество слишком долго тыкало палкой в бездну, рвало ткань бытия своими экспериментами. И в тот чернейший час древние печати, тысячелетия державшие врата в миры Бессветного Плана закрытыми, рухнули. Они не выдержали нашей наглости, а может, были подточены изнутри темными силами, жаждущими вновь ворваться и включить ещё один мир в плеяду пожранных ими.

С тех пор прошло время, энергия Кошмаров распространилась по миру, как вирус, порождая монстров, превращая людей в бездумных зомби, захватывая целые регионы, но она же давала и возможности - повсюду стали появляться новые растения и животные, новые явления, новые расы и существа, о которых раньше слышали только в сказках. Одни люди продолжали сражаться и развивать технологии, другие начали изучать и использовать энергию Кошмаров. Были и те, кто совмещал эти два подхода.

Окончив обучение в академии, молодой охотник решает начасть свою карьеру приключенца с провинциального городка на фронтире, который буквально явдляется аванпостом и живёт охотой на монстров и рейдами местных вариантов сталкеров в аномальные зоны.

Манускрипт: https://docs.google.com/document/d/1_fwVg2SLm7K3Y7ZoHshHHHaCBhGmHaXJDC7_yEjXnoI/edit?usp=sharing

https://t.me/+KLMdSnlIGBc0YTky подробнее что это и зачем

Аноним 04/03/26 Срд 06:57:15 № 1541116 396

>>1541110
>не с грохотом ядерного апокалипсиса, а с
Qwen Chinese LLM slop alarm! Proceed with caution. Read at your own risk. Consider anti brain damage safety measures.

Аноним 04/03/26 Срд 06:58:52 № 1541117 397

>>1541116
>Chinese LLM slop alarm!
Квен он такой. Хотя в этом месте показалось уместно, так что не стал менять.

Аноним 04/03/26 Срд 07:46:40 № 1541124 398

А почему у меня модель QwQ с контекстом в 32к в q8_0 хочет 8 ГБ на kv-кеш?

Аноним 04/03/26 Срд 09:29:51 № 1541162 399

>>1541117
AI generates engagement, глупая ты скотина. Пора вводить ai slop studies в школы(уроки о важном), чтобы дети не вырастали такими вот хейтарами, и своей невежественностью не оскорбляли чувства верующих в нейро прорыв.

Аноним 04/03/26 Срд 10:16:34 № 1541179 400

>>1541162
нужна пояснительная бригада

Аноним 04/03/26 Срд 10:25:11 № 1541181 401

Новый Qwen3.5-27B-abliterated.Q4_K_M который тут нахваливали неюзабелен без фулл-врам, ибо он, сука, ДУМАЕТ, и может на 10К токенов думать чтобы потом на 100 высраться.

b]Крякнуться.

Мое-версия - неплохо, но это ассистент, в креативрайтинге неюзабельно.

Аноним 04/03/26 Срд 10:29:03 № 1541185 402

>>1541181
Любая плотная модель неюзабельна без фуллврам. Таблетки, утыч

Аноним 04/03/26 Срд 10:34:02 № 1541191 403

>>1540347
Контекста всегда мало, это я как асигодаун заявляю.
Я уже писал тут о боли при попытке отыграть вселенную по аниме/манге, про которую известно дохуя - ради того, чтобы нейронка не срала под себя и не скатывалась в general-хуйню там, где она в этой вселенной переопределена - приходится прилагать значительные усилия, которые в итоге жрали, жрут и будут жрать контекст так или иначе.
А ещё они будут жрать токены на самопроверку после генерации.
А ещё один хрен придётся думать за нейронку и отслеживать взаимосвязи, отношения и новую инфу, чтобы подавать это нейронке компактно, а не заставлять её разбираться в хитросплетениях всего чата.

Аноним 04/03/26 Срд 10:43:32 № 1541194 404

>>1541185
>Любая плотная модель
Не, которые не думают, там жизнь есть, я на 3 т/с сидел, да и сижу.
Просто сворачиваешь браузер и делаешь свои дела.

(да, я в курсе что выведенное на передний план окно консоли может бустануть скорость)

Аноним 04/03/26 Срд 10:47:03 № 1541198 405

>>1541191
>боли при попытке отыграть вселенную
Если не кумнуть по быстрому, там всё равно на от половины до 3/4 придётся писать самому. То есть написал сам, сгенерил кусок, переписал ответ нейронки как надо / перегенерил если совсем не в ту степь, повторить.

Аноним 04/03/26 Срд 10:57:28 № 1541207 406

>>1540499
3 реплая где-то влезает, дальше все сыпется. То есть, около 30к контекста, если реплаи сами после ризонинга коротенькие, потому что ризонинг обычно примерно на 10к токенов.

Аноним 04/03/26 Срд 10:59:26 № 1541210 407

>>1541207
Дурачок, ризонинг не уходит в контекст после генерации ответа

Аноним 04/03/26 Срд 11:00:08 № 1541211 408

>>1541207
А что ризонинг остается потом в контексте? я думал он выкидывается.

Аноним 04/03/26 Срд 11:05:22 № 1541217 409

>>1541194
>да, я в курсе что выведенное на передний план окно консоли может бустануть скорость
Беседы с батюшкой

Аноним 04/03/26 Срд 11:06:13 № 1541218 410

>>1541211
В glm-4.7-flash флаг есть clear_thinking.
Если включать очистку, то ответы медленнее, так как он начинает дублировать размышление на 1000-2000 токенов, которое было на прошлом шаге. Но зато контекст медленнее заполняется.

Если не очищать и размышления сохранять, то после первого сообщения и составления "плана" все последующие размышления короткие на пару строк, ответы получаются быстрее и оно ещё и меньше ошибается, но это х2 потребления контекста минимум, так как перед каждым ответом есть хотя бы небольшое короткое размышление.

Мне второй режим намного больше понравился. Длину контекста я найду, а вот то что не ошибается, и то что ему не нужно пересоставление плана каждый раз делать на 1000 токенов размышлений - это хорошо.

Аноним 04/03/26 Срд 11:07:57 № 1541223 411

>>1541217
>Беседы с батюшкой
с форточками

Аноним 04/03/26 Срд 11:08:12 № 1541226 412

>>1541198
Естественно.
Так и живём.
Правда не 3/4 текста переписывать, но процентов 10 из лучшего свайпа - это постоянно.
Ещё и вычитывать надо заново периодически, чтобы отловить пропущенные ранее ошибки. А если они серьёзные, а не просто орфографические - то и суммарайз снова надо проверять.

Аноним 04/03/26 Срд 11:08:41 № 1541227 413

ЯННП, квен 3.5 27б сам решает когда думать, когда нет? Запускаю через кобольд.
Первый ответ обычно без ризонинга выдает. Второй ответ когда как. Надо сделать фикс для проги - стало думать. Проанализировать графики - без обдумывания отвечает.
Или ему надо настоятельно указывать "думай, скотина бездушная"?

Аноним 04/03/26 Срд 11:14:25 № 1541231 414

>>1541227
Для начала покорми его бульменями и расскажи сказку

Аноним 04/03/26 Срд 11:17:36 № 1541232 415

>>1541227
Не только в кобольде так.
Тоже подметил за ним такое - ризонинг запускает далеко не всегда, в основном - когда на входе явный вопрос по боле-менее сложной теме.

Аноним 04/03/26 Срд 11:21:14 № 1541238 416

>>1541227
В вебморде кобольда думалка у квена сломана. Он через раз срет пустыми тегами <think> </think> и сразу пишет ответ. В лмстудио, в вебморде лламы, в таверне - работает корректно, если запускать через джинджу.

Аноним 04/03/26 Срд 11:23:42 № 1541242 417

брух, пробую какой то экспериментальный агент, а он на 3,5 квене ломается, а на 3 квене норм.
неужели придется закапываться в шаблонах. причем я даже ту самую ветку https://github.com/ggml-org/llama.cpp/pull/18675 с автопарсером накатил и не помогло.

[40609] srv operator(): got exception: {"error":{"code":400,"message":"Unable to generate parser for this template. Automatic parser generation failed: \n------------\nWhile executing CallExpression at line 85, column 32 in source:\n...first %}↵ {{- raise_exception('System message must be at the beginnin...\n ^\nError: Jinja Exception: System message must be at the beginning.","type":"invalid_request_error"}}

Аноним 04/03/26 Срд 11:26:31 № 1541246 418

>>1541232
>ризонинг запускает когда на входе вопрос по сложной теме
Полная хуйня. Начинай новый чат и корми ему один и тот же запрос по кд - он то будет думать, то <think> </think> с пустотой внутри, абсолютно рандомно. А потом попробуй сделать то же самое, но с джинджей и в вебморде лламы.

Предвкушая вопрос "НУ ТАК НАДО И КОБОЛЬД С ЖИЖЕЙ ЗАПУСКАТЬ", отвечаю: кобольду поебать, будешь ловить ровно тот же рандом.

Аноним 04/03/26 Срд 11:29:22 № 1541251 419

>>1541238
Запускаю в таверне через ламу - ризонинг включается не всегда. Я уже отмечал такое поведение выше по треду (я не >>1541227). И нет, он не срет пустыми тегами, он его просто не всегда включает. Режим Chat Completion с Jinja.

Аноним 04/03/26 Срд 11:29:53 № 1541252 420

>>1541242
https://huggingface.co/Qwen/Qwen3.5-35B-A3B/blob/main/chat_template.jinja#L83

Ладно, я понял. шаблон квена не учитывает что от агента может придти несколько системных сообщений подряд. Просто удалить к херам эту проверку

Аноним 04/03/26 Срд 11:42:28 № 1541262 421

>>1541251
Хм. В таверне у меня включается всегда, даже на банальное "привет", "test", "12345" и т.д.

Новый квен кмк вообще претендует на самую провальную модель года: сломанный ризонинг на 9999к токенов, который то работает то нет. Пересчет контекста после каждого отправленного сообщения, что делает модель практически неюзабельной. Сои навалили столько, что гемма нервно курит и смотрит с завистью. Правильно половина разрабов оттуда уволились после такого.

Аноним 04/03/26 Срд 11:56:18 № 1541275 422

>>1539569
> Попробую 32, 48, 64к контекста
PP 8192 багнулся видимо.

8тпс на 64к контекста геммы, вроде терпимо

Аноним 04/03/26 Срд 12:00:19 № 1541278 423

>>1541089
Как минимум, из этого можно было бы нагенерить сюжет:

"Сенсация! Врач-паедофайл пристававший к молоденьким пациенткам сегодня утром был найден выебанным в жопу! Клиника в шоке! Делом занимаются компетентные органы!"

Аноним 04/03/26 Срд 12:08:53 № 1541284 424

>>1541262
>Новый квен кмк вообще претендует на самую провальную модель года
Да ёпт, даже менестрель лучше, который 14Б.
Так обосраться, это специально стараться нужно.
А может они и старались, не зря же несколько ведущих разрабов пригорели и ливнули.

Аноним 04/03/26 Срд 12:16:20 № 1541286 425

>>1541226
>Правда не 3/4 текста переписывать, но процентов 10 из лучшего свайпа - это постоянно.
От модели зависит, но в среднем половину где-то суммарно править приходится, да.

Всё же на "сделай мне приключение" как живой DM, пусть даже и ненопытный, модели пока слабоваты, даже корпы.

Аноним 04/03/26 Срд 12:18:56 № 1541287 426

>>1541227
От температуры зависит. Если свернуть до 0.1, то будет думать лишь один, первый раз, если у тебя норм карточка/промт прописаны. Если выкрутить в 2.0, то будет над каждым твоим сообщением подфинкивать, перезапоминая детали.

А вообще квен думает лучше тогда, когда ты сам пишешь ему максимально понятные связки слов. Если пытаешься кормить чатик полунамёками на всякое двоякое мутными фразами, то не удивляйся, что бот переобуется в воздухе.

Аноним 04/03/26 Срд 12:34:19 № 1541294 427

>>1541262
>Новый квен кмк вообще претендует на самую провальную модель года
Хз-хз. 27б вроде умная моделька, даже если не ризонит, даже на обрубленных 4 квантах. Возможно лучше чем глм 4.7 флеш.
Соя - ну так для ерп его и не надо юзать. Для кодинга может быть круто, если хочется подмышкой иметь маленькую локальную макаку.
Контекст у меня вроде не пересчитывался, либо пересчитывался но ультра быстро. Сама моделька раза в 3 быстрее чем гемма такого же размера.

Аноним 04/03/26 Срд 12:39:11 № 1541299 428

>>1541207
>>1541262
Откуда такие объёмы ризонинга? На моей практике не больше 2-3к.
Но если ты пытаешься в лоб сломать сафети, то тогда не мудрено

Аноним 04/03/26 Срд 12:54:42 № 1541310 429

>>1541299
Добрую треть ризонинга квен тратит на то, чтобы по десятому кругу проверить, не пытается ли юзер обойти фильтры безопасности или применить джейлбрейк, вместо того чтобы заниматься полезными вещами думая НАД ЗАПРОСОМ ПОЛЬЗОВАТЕЛЯ блять.

Еретик - рабочее решение. Без него даже пробовать эту хуйню нет смысла, если конечно у вас не куча свободного времени, которое можно сжечь на чтение побуквенной аналитики собственного инпута на предмет safety.

Аноним 04/03/26 Срд 13:03:08 № 1541317 430

>>1541294
>Сама моделька раза в 3 быстрее чем гемма такого же размера.
Чиво? Ты сравнивал прямо, или это по ощущениям? Звучит крайне сомнительно, что может быть такая разница между моделями с одинаковым количеством параметров. Я могу поверить в 1.5 раза, но 3?

Аноним 04/03/26 Срд 13:12:31 № 1541320 431

>>1541317
У геммы огромный контекст, буквально самый жирный из 24-32b моделей. У нового квенчика один из самых легких контекстов, что-то на уровне GLM 4 и даже чуть меньше 24b мистраля. Хотя бы из-за этого контекстодроча он будет быстрее работать

Аноним 04/03/26 Срд 13:13:49 № 1541321 432

>>1541320
Но не в 3 раза же. И это играет роль только на большом контексте.

Аноним 04/03/26 Срд 13:17:23 № 1541325 433

>>1541179
>нужна пояснительная бригада

1 ии генерирует слоп.
2 первый пункт описывает базу.
3 вместо того чтобы говорить что ии генерирует слоп мы говорим что он набрасывает варианты и создает у тебя енгейджьмент к теме которую ты исследуешь. Типа тебе станет интересно и ты нырнешь более глубоко ее исследовать.
4 смысл в том что ии хороший и юродивой реальности не получиться это испортить своими фактами, потому что пути нашей специальной операции неисповедимы, цель меняется по обстоятельствам.

Аноним 04/03/26 Срд 13:22:58 № 1541328 434

Кто на русике играет, у вас инструкции и карточки тоже на русском? Хочу прикоснуться к кринжу, ни разу не пробовал. А модельки у меня большие, мб и получится чего

Аноним 04/03/26 Срд 13:29:52 № 1541336 435

>>1541328
>Кто на русике играет, у вас инструкции и карточки тоже на русском?
На муриканском
>А модельки у меня большие, мб и получится чего
Ну раз так, то можно не переводить, он и так подхватит

Аноним 04/03/26 Срд 13:31:25 № 1541337 436

>>1541328
Особой разницы нет.

Аноним 04/03/26 Срд 13:37:22 № 1541340 437

>>1541317
Не стык в стык сравнивал, но по числам, которые получал. Гемма у меня в среднем 6-7 токенов в сек. Пытался токен-макксить разными параметрами, но выжимал максимум 8-9 токенов. Квен у меня выдает 18-19 токенов. Дефолтные настройки, которые кобольд предлагает. Гемму гонял на версии 1.107, квен на 1.109, хз поменялось ли для геммы что-то.

Аноним 04/03/26 Срд 13:41:26 № 1541345 438

>>1541340
Квен 27б имеешь ввиду? Звучит так, словно у тебя жирный контекст Геммы спихнул часть модели в рам, потому и такая разница

Аноним 04/03/26 Срд 13:42:17 № 1541347 439

>>1541340
Двачу этого >>1541345

Аноним 04/03/26 Срд 13:44:00 № 1541350 440

Какие есть модели 2B без цензуры? Пробовал Gemma 2B, Gemmastura Mini 2B и Qwen-3. Gemma понравилась, но у неё слишком стерильный слог, у Gemmastura хороший слог, но она не знает никаких вселенных (по-крайней мере 28 дней спустя она не знает, в то время как Gemma знакома с Властелином Колец и TES). Qwen плох и в слоге и в своём знании фэнтези.

Аноним 04/03/26 Срд 13:45:24 № 1541352 441

>>1541350
>2B
Чел, пощади себя. Тут на 235B модели плохи в слоге и своем знгании фэнтези

Аноним 04/03/26 Срд 13:47:58 № 1541354 442

laugh harder.mp4 278Кб, 480x360, 00:00:08

>>1541350
>2B
>не знает никаких вселенных

Аноним 04/03/26 Срд 13:50:06 № 1541355 443

>>1541262
За остальные не скажу, но 27B - точно нет, модель вполне себе.

- У меня контекст не пересчитывает.
- Соя - а гемма (которая умничка) когда вышла, что - без сои была? Нужно ERP и прочее - юзаем версию от двучлена и не имеем проблем. Благо, что теперь расцензура мозги не убивает а скорее даже помогает (ризонинг не жрет токены на проверку сафети а ризонит по задаче). При этом в датасете нужное есть - версия от двучлена может нормально все описывать.
- Русский - уровень геммы как минимум, что само по себе вин для ценителей.
- А сломан ли ризонинг? Если он так и задумывался динамическим - так что в этом плохого? Пока, он у меня включается и отключается именно по делу. Если что-то простое на входе (типа "привет, как жизнь?") оно что, реально надо думать полчаса перед ответом? :) По длительности - у меня за 1-1.5K токенов ни разу не уходил, и все по делу, без лупов.
- На моем full vram в двух картах - шустрее чем gemma 27b, а качество следования лору и стиль письма - лучше (гемма = раздражающий пафос, и игнор части деталей лора когда его много). Чем плохо?
Да, я тот самый псих который на новом квене всерьез пытается в (E)RP. Причем псих настолько, что это даже получается. (На английском) :)
Правда... у меня Chat Completion режим, Prompt сделанный через "ты - DM, ведешь игру..." и версия от двучлена как основная. Чистую 27B я запускал совсем немного - как вышла расцензура от двойного - так запускаю практически только ее теперь. :) Heretic тоже юзал, но версия от двучлена лучше, IMHO.

Аноним 04/03/26 Срд 13:53:01 № 1541358 444

>>1541355
Двучлен это кто?

Аноним 04/03/26 Срд 13:54:06 № 1541360 445

>>1541350
>2B без цензуры
2B не знаю, но из 3B есть Ministral
>она не знает никаких вселенных
В таком размере никто ничего не будет знать. И даже большие модели путаются и придумывают херь
Можешь сходить к бесплатному дипсику с почти 700b параметрами и поспрашивать про ВК какие-нибудь не очевидные вещи. У него точно начнутся галлюцинации и он обосрется
Так что если ты хочешь использовать такую мелкую модель и дать ей знания по какой-то вселенной, то придется использовать лорбуки. Но для этого нужно иметь большой контекст

Аноним 04/03/26 Срд 13:58:29 № 1541362 446

Не запускал гемму примерно месяцев 8 или больше. Сейчас решил нормпреверс версию чекнуть. И там внезапно нет жора памяти контекстом. Неужели эту хуйню починили? Когда вообще это случилось?

Аноним 04/03/26 Срд 14:02:00 № 1541363 447

>>1541350
Обосрался с требований к знаниям 2b моделей. Ай, содомит!

Если тебе нужно чтобы умненькая и без цензуры - министраль 3b. Вчера только отзыв на неё писал >>1540998

Аноним 04/03/26 Срд 14:04:06 № 1541366 448

>>1541251
>>1541262
>>1541355
Если вам нужен ризонинг, то почему вы принудительно не врубите его через Start Reply with <think>\n в таверне, а если не нужен, то не отрубите через llama.cpp --chat-template-kwargs "{\"enable_thinking\":false} ?

Аноним 04/03/26 Срд 14:09:34 № 1541369 449

>>1541362
Нормпрезерв это вообще другая модель считай, очень хорошо зделоли.

Аноним 04/03/26 Срд 14:10:48 № 1541373 450

>>1541355
>(E)RP
А бывают другие?

Аноним 04/03/26 Срд 14:19:30 № 1541377 451

>>1541369
Геммочка еще более умничка стала?

Аноним 04/03/26 Срд 14:19:31 № 1541378 452

>>1541358

Аноним 04/03/26 Срд 14:21:03 № 1541381 453

>>1541377
В ее весовой категории и меньше только новый плотный квен может что-то предъявить, но это дебэйтэбл. У меня он пока ведет себя тупее геммочки, и ризонинг заебывает размерами.

Аноним 04/03/26 Срд 14:21:24 № 1541382 454

Зачем вообще рпшить если не кумить...

Аноним 04/03/26 Срд 14:26:38 № 1541390 455

>>1541363
Хорошая модель. Завалила базовый тест, который прошла гемма.

Аноним 04/03/26 Срд 14:34:41 № 1541398 456

>>1541390
>USSState of Michigan
Ноль, целковый...

Аноним 04/03/26 Срд 14:38:31 № 1541404 457

>>1541358
https://huggingface.co/huihui-ai/models

Аноним 04/03/26 Срд 14:38:41 № 1541405 458

>>1541390
Ты сколько температуры поставил? Это прям горячка какая-то. Мистрали любят низкую темпу.

Аноним 04/03/26 Срд 14:39:48 № 1541408 459

>>1541390
Или она тебя тролит, а ты и не понял.

Аноним 04/03/26 Срд 14:42:42 № 1541410 460

image.png 38Кб, 1195x159

>>1541390
На странице модели для самых глупеньких кобольдов жирненьким выделено

Аноним 04/03/26 Срд 14:43:01 № 1541411 461

>>1541390
Научись настраивать семплеры, дружище.

Аноним 04/03/26 Срд 14:44:21 № 1541415 462

>>1541411
Как что-то простое!

Аноним 04/03/26 Срд 14:55:36 № 1541429 463

>>1541110
> пик 1
> human-generated
Чето в голосину с этого. И вообще, что за дискриминация? Моя не хуже генерирует между прочим!
> https://t.me/+KLMdSnlIGBc0YTky подробнее что это и зачем
Даже не знаю, а что там?
>>1541116
Классическое not A but B, причем китайцы там далеко не первые в чарте.
>>1541181
>>1541227
Темплейт модели предполагает что будет или префилл на синкинг когда он включен (по умолчанию) или заглушка открывающего-закрывающего тега когда он выключен. Также в доках квенов есть про бюджет ризонинга.
Настройте формат если нужно предсказуемое поведение а не рандомайзер.

Аноним 04/03/26 Срд 14:57:31 № 1541433 464

>>1541390
А у меня работает

Аноним 04/03/26 Срд 15:04:08 № 1541438 465

>>1541390
Кобольдgpt...

Аноним 04/03/26 Срд 15:08:57 № 1541444 466

>>1541438
Ой, блять, он еще и карточку КОБОЛЬДГПТ заюзал, лол. Там же ебанутый промпт на английском встроенный, а он пишет по русски + шизосемплеры. Конечно моделька одурела.

Обычный инструкт режим используйте, если на кобольде. Этого достаточно.

Аноним 04/03/26 Срд 15:10:21 № 1541446 467

>>1541444
>Там же ебанутый промпт на английском встроенный, а он пишет по русски
Гемме это не помешало.

Аноним 04/03/26 Срд 15:13:03 № 1541450 468

>>1541446
Если гемма прощает ошибки, то это не значит, что их не следует исправлять и учиться новому. Иначе так на гемме и останешься.

Аноним 04/03/26 Срд 15:16:57 № 1541452 469

>>1541450
Она не прощает ошибки, тем более это мелкая гемма. Там скорее всего высер полнейший. Просто в дефолтных настройках кобольда темпа средняя стоит и гемма не ошизела окончательно. А для министраля темпа должна быть низкой, вот он и улетел в дурку

Аноним 04/03/26 Срд 15:18:04 № 1541453 470

>>1541450
Да я бы и не прочь на гемме остаться. Мне вообще нравятся модели от гугл, и гемини и гемма. Единственная проблема только в том, что гемма не хочет обеспечивать мне кум, её хватает только на purple prose.

Аноним 04/03/26 Срд 15:23:16 № 1541458 471

>>1541453
Ну тогда скачай abliterated версию геммы, будет писать всякий разврат охотнее. Но это всё равно гемма, поэтому СОЧНОГО КУМА там не жди. За этим к мистралю. Семплеры, кстати, выше в треде есть >>1540998 последний абзац. Можешь температуру даже поменьше поставить, 0.2, например. И ради всего святого, не используй кобольдгпт блять, выбери в настройках обычный instruct режим и там всё делай.

Аноним 04/03/26 Срд 15:26:15 № 1541460 472

>>1541185
> Любая модель неюзабельна без фуллврам
Такой вариант прочтения тоже неплох
>>1541275
Воу воу, это получается уже сложенный тг по 32 потокам - 65 на контексте 32к, не по каждому потоку? Другие кванты не пробовал, они могут работать существенно быстрее, тот же фп8.
>>1541328
В современных моделях пофиг. Главное - первый пост чара чтобы был на русском, и то не обязательно.
>>1541355
Двачую, квенчик неплох

Аноним 04/03/26 Срд 15:43:47 № 1541479 473

>>1541390
>>1541350
Вопрос, а почему именно 2b? Раз гоняешь через кобольда, значит компьютер есть, а значит можно и пожирнее модельку взять. Какие спеки у тебя?

Аноним 04/03/26 Срд 15:44:10 № 1541480 474

121232.png 13Кб, 1201x260

>>1541390
Мдэ.

Аноним 04/03/26 Срд 15:46:05 № 1541482 475

>>1541479
Ноут 2013 года. Что-то пожирнее нельзя. Министраль единственная 3B модель которую мне удалось запустить. От остальных у меня комп выключался из-за перегрева.

Аноним 04/03/26 Срд 15:46:59 № 1541485 476

>>1541480
Да ты в два бита квантованную запускаешь.

Аноним 04/03/26 Срд 15:48:26 № 1541488 477

>>1541485
Хз, называется Ministral-3b-instruct.Q6_K.

Аноним 04/03/26 Срд 15:51:18 № 1541490 478

>>1541480
У меня КОБОЛЬД ГПТ от тебя. Хз что ты там наворотил, только что посмотрел в кобе - всё работает как часики.

Аноним 04/03/26 Срд 15:51:20 № 1541491 479

>>1541405
Министрали любят низкую темпу. (0.1-0.4)
Для немо норм 0.7-1.
Но так да, разговор шел о миньке. Поправил, не благодари.

Аноним 04/03/26 Срд 15:54:35 № 1541498 480

>>1541488
> Ministral-3b-instruct.Q6_K
> 2024
bruh

Аноним 04/03/26 Срд 15:56:01 № 1541500 481

>>1541488
>>1541390
У тебя явно где-то проеб. У меня тот же квант, запускаю через лламу. Ответы на скрине. Есть ли исторические ошибки? Да, это все таки микромодель. Если шизофазия как у тебя? Нет

Аноним 04/03/26 Срд 15:56:05 № 1541501 482

646464646.png 15Кб, 1166x309

>>1541480
Gemma-2-2b-it-abliterated-Q8_0 на абсолютно тех же настройках. Да, она обосралась с Николаем II, но тем не менее распознала ошибку (при первом тесте предположила, что я спросил про блокаду Берлина в 1948).

Аноним 04/03/26 Срд 15:56:39 № 1541503 483

>>1541488
Так речь шла про министраль 3b 2512. Вот этот: https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF

Аноним 04/03/26 Срд 15:59:10 № 1541506 484

>>1541501
У тебя насрано в карточке/системном промпте. Гемма не должна отвечать на англюсике, если вопрос задан по-русски.

Аноним 04/03/26 Срд 16:00:13 № 1541509 485

>>1541506
Отвечала ещё когда я начисто скачал кобольд с геммой.

Аноним 04/03/26 Срд 16:04:32 № 1541513 486

>>1541498
> 2024
https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF/blob/main/Ministral-3-3B-Instruct-2512-UD-Q6_K_XL.gguf
Брух, 2512 же есть, ну, обновись. Это 25 год, 12 месяц. Это... ну.

Аноним 04/03/26 Срд 16:08:22 № 1541520 487

>>1541509
Ну тут клиника конечно. Вот еще раз и пошагово:

1) Скачай правильный Мистраль.
2) Зайди в инструкт режим и убедись что world info, author's note и прочие system prompt пустые
3) Настрой семплеры корректно, как рекомендует сам Мистраль (или Гугл, если Гемма)
4) Выбери в настройках правильный темплейт: Gemma 2/3 - если используешь Гемму. Или Mistral Tekken, если используешь Мистраль. От неправильного темплейта моделька может очень сильно поехать кукухой, особенно такая мелочь.

После того как сделаешь эти четыре вещи, у тебя всё будет работать корректно и на русском языке.

Аноним 04/03/26 Срд 16:08:58 № 1541522 488

Подтверждаю, Менестрель-14 вин и годнота. Скорость примерно мистраля 12, мозги примерно мистраля-24. С оговорками, конечно, но прям лучшее от обеих версий. Русский тоже хороший.

>>1541325
всё равно не понимать... ну ладно, пофиг

>>1541328
>Кто на русике играет
Первое сообщение на русском, дефы можно на английском оставить.

Аноним 04/03/26 Срд 16:13:45 № 1541528 489

Мистралеводы, министраль 14б сильно зацензурен, надо тюны или в оригинале норм? Посоветуйте самый сочный

Аноним 04/03/26 Срд 16:16:14 № 1541532 490

>>1541520
>>1541513
Дай, действительно не ту модель скачал. Сейчас поставил 2512 и действительно годнота. Всем спасибо.

Аноним 04/03/26 Срд 16:17:02 № 1541534 491

>>1541528
Цензура отсутствует практически полностью. Меньше чем у эира и ни в какое сравнение не идет с гемой и новым квеном

Аноним 04/03/26 Срд 16:17:50 № 1541537 492

>>1541429
>Даже не знаю, а что там?
Телега, беседа, новости и штуки от меня.

Аноним 04/03/26 Срд 16:23:57 № 1541543 493

Как заставить q27b перестать повторять одну и тоже строчку в каждом следующем ответе? Рп страдает. Ползунок температуры не справляется.

Аноним 04/03/26 Срд 16:24:24 № 1541544 494

>>1541528
Я хуй знает чё ты с ней делал, но вот есть еретик
https://huggingface.co/mradermacher/Ministral-3-14B-Instruct-2512-absolute-heresy-GGUF

Аноним 04/03/26 Срд 16:26:10 № 1541546 495

>>1541543
Пробуй Presence Penalty от 1.5 и Repetition Penalty 1.1

Аноним 04/03/26 Срд 16:29:44 № 1541550 496

>>1541544
не-на, я ничо не делал, анончик. Плохо сформулировал просто. Я как раз спрашиваю как у мистраля с цензурой

>https://huggingface.co/mradermacher/Ministral-3-14B-Instruct-2512-absolute-heresy-GGUF
А у этого мозгт не поехали от аблитерации?

Аноним 04/03/26 Срд 16:32:15 № 1541553 497

>>1541528
Тюны разве что на конкретику/любителя. Типа, дообучать на прозе жожо-фанфиков и стихах про тентаклей и человекоподобных роботов. Но их в любом случае еще нет, тюнов этих, на министраль. А так она из без тюнов норм.
гладит министральку
все еще продвигаю маскот

Аноним 04/03/26 Срд 16:33:23 № 1541554 498

>>1541553
Министраль это корова? Почему?

Аноним 04/03/26 Срд 16:33:53 № 1541555 499

>>1541550
Если тебе не надо кумить на нелегальное что-то, то базовой модели за глаза хватит. Это не та старая облитерация, которая сильно по мозгам била, я особой разницы не вижу в плане интеллекта, использую потому что хоть и базовая не отказывает прямо у неё сильно повернёто в сторону такого добрячкового фентези, поэтому она пишет по своему, еретичке похуй+поебать. Ещё и спросит как можно более ебануто сделать.

Аноним 04/03/26 Срд 16:35:32 № 1541559 500

>>1541553
Непон как связаны корова и мистраль, но продолжай продвигать. Мне нравится, выглядит мило :3

Аноним 04/03/26 Срд 16:41:05 № 1541567 501

>>1541553
>>1541555
Спасибо, анончики! Вечером пощупаю/потыкаю мистральку, спасибо

Аноним 04/03/26 Срд 16:43:03 № 1541571 502

>>1541559
>>1541554
Я сам не знаю, как так получилось. На тот момент мне казалось, что это что-то символизирует.
Просто в голове родилась идея шатенки-менестреля с коровьими рожками в белом кроп-топе. Подразумевалось, что кончики рожек будут черные, но не всегда генерит так как хочется.
Вот, что постил ранее в тредах.

Аноним 04/03/26 Срд 16:47:07 № 1541578 503

>>1541571
Мне нравится как она (модель) пишет, художественно так, возвышено, с размахом. И плевать, что по 4 раза снимает трусы через голову, ведь это каждый раз выглядит очень грациозно.

Аноним 04/03/26 Срд 16:49:53 № 1541581 504

>>1541571
А не мог бы ты её переодеть во что-то более менестрельское? А то она выглядит как дешёвая косплейщица, на которой из всего косплея только пластиковые рога на ободке. И пусть носит шапку или колпак для полноты образа.

Аноним 04/03/26 Срд 16:51:03 № 1541583 505

>>1541578
>по 4 раза снимает трусы через голову
А вот это такое себе, я подумал, что мистралька прям вообще огонь

Аноним 04/03/26 Срд 16:51:42 № 1541584 506

>>1541578
Вот это соглашусь, будто бы в театре сидишь ебать, а я не кумишь. Ещё русек норм, по личным ощущениям не хуже Геммы 3

Аноним 04/03/26 Срд 16:52:15 № 1541585 507

>>1541578
хех. Бывает она конечно подтупливает в русике, но для 14б это простительно. Но я признаться прифигел, когда она в мою карточку заглянула - немо вообще обычно срет на карточки, а министралька к ним внимательна. Бывает, что что-то не понимает, но это можно фиксить карточками/ворлдом.
За меня иногда пишет. Но и пишет то, что я сам хочу написать, лол.

Аноним 04/03/26 Срд 16:56:41 № 1541591 508

>>1541581
я подумаю еще над образом, поиграюсь, как будет время.
Спасибо за идею.

З.Ы. Немотюны (тысячи их!) я кстати вижу как девочек-мышек. Я генерил их, но пока так, невсерьез.

ПЕРЕКАТ Аноним # OP 04/03/26 Срд 17:33:03 № 1541629 509

ПЕРЕКАТ

>>1541627 (OP)

ПЕРЕКАТ

>>1541627 (OP)

ПЕРЕКАТ

>>1541627 (OP)