Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 352 50 93
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №182 /llama/ Аноним 09/12/25 Втр 20:34:27 1448902 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17635680990600.png 3356Кб, 1919x1439
1919x1439
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1440877 (OP)
>>1435735 (OP)
Аноним 09/12/25 Втр 20:40:31 1448922 2
Как же было хуево осознать что МоЕ 100+B это наеб, где в реале там мозгов как у одного эксперта - лоботомита, а дэнс модели их ебут во всем. А я уже обрадоался что на своей нищей хуйне забитой старой ддр4 буду наворачивать уровень корп моделей
Аноним 09/12/25 Втр 20:41:40 1448924 3
>>1448922
Ты можешь тоньше. Я верю в тебя.
Аноним 09/12/25 Втр 21:08:21 1448995 4
Аноним 09/12/25 Втр 21:11:13 1449006 5
>>1448854 →
> Кто первый покумит?
Так блет! Готовимся расчехлять, лол.
Вообще новость крутая, надо будет попробовать.
>>1448922
Жир за собой прибери, наворачиватель.
Аноним 09/12/25 Втр 21:16:00 1449013 6
Опять понравился квен, да что ж такое!
Очень уж он хорош если задать своему персу квирк любитель многолетних вампирш и другой перс так ловко будет подъебывать за это все приключение
А эир девочка стеснительная зажатая в угол так не будет делать
Аноним 09/12/25 Втр 21:17:45 1449017 7
>>1449013
Всё же обучение на 4чане дает свои плоды
Аноним 09/12/25 Втр 21:19:58 1449024 8
Так, я наролеплеился накумился в голых аблитерейтед моделях через лмстудио, заебался, что персонажи через 20к контекста теряют вообще свою персонажность. Объясните нюфаку, силли таверн - это как раз то, что исправит эту проблему? Или хотя бы уменьшит ее? Я так понимаю, что эти "карточки персонажей" там как-то больше в контексте весят?

Или это просто какая-то более удобная оболочка, которая не меняет никак общую ситуацию?
Аноним 09/12/25 Втр 21:24:04 1449033 9
> Devstral 2 (123B)
бля а нахуя я 24б качаю тогда
сук пздц не заметил что большая версия есть
Аноним 09/12/25 Втр 21:25:17 1449035 10
>>1448922
>осознать что МоЕ 100+B это наеб
Чисто теоретически, хотя у MoE действительно пониже ёмкость, чем у плотной модели того же объёма, на практике плотной модели такая большая ёмкость не нужна - для большинства типичных задач хватит намного меньшего объёма, а на "особенные" задачи можно выделить специализированные подсети, которые справляются лучше генералиста, ведь действительно хороший специалист всегда будет лучше генералиста. Таким образом, MoE в теории должны находиться на одном уровне с плотными моделями или даже превосходить их, вот только на практике часто случается такое:
>там мозгов как у одного эксперта
Потому что для правильного обучения MoE-модели нужно обучить подсеть-роутер, за счёт которой эксперты равномерно обучаются и наращивают свои специальные навыки, а самое главное - могут их применить в нужный момент. Если подсеть-роутер плохо обучена или вообще неправильная, то один эксперт может собрать все знания в себя, а остальные будут только лишним шумом на его фоне. В этом главная сложность MoE, и поэтому их так долго не применяли на практике, хотя идея сама по себе давно не новая.

Хорошая новость в том, что даже с плохо обученным роутером MoE может быть намного умнее плотной модели размером с одного эксперта этой MoE, при том что её инференс будет быстрее, чем у плотной модели аналогичного уровня знаний/интеллекта. То есть, несмотря на нераскрытый потенциал и мусор в весах, в целом MoE всё-таки выгоднее.
Аноним 09/12/25 Втр 21:29:11 1449046 11
>>1449024
>Или это просто какая-то более удобная оболочка, которая не меняет никак общую ситуацию?
this.

Проблема не во фронте, проблема в том, что аблитерейтед-модели теряют в мозгах. А таверна просто УДОБНЕЕ.

Если ты совсем не умеешь в плавное подведение модели к куму, то пробуй Дерестриктед версии Геммы и Эйра. В прошлом треде ссылки есть. Тоже аблитерация, но более щадящая.
Аноним 09/12/25 Втр 21:33:35 1449050 12
>>1449046
Проблем с кумом у меня нет, я как раз на гемме сижу от янлабса v1, которую советовали. Пробовал очень многие модели уже, она пока что лучше и сообразительней всего, и какую бы дичь я ни придумал, она прекрасно все отыгрывает, иногда даже предлагает неожиданные и очень умные повороты, когда я даю ей больше эйдженси в рамках персонажа.

Проблема именно в том, что персонажи постепенно уплывают и модель забывает некоторые важные детали, которые я даже специально иногда напоминаю, когда хочу, чтобы персонаж сам сделал вывод, чтобы не терять иллюзию и не испытывать шанс.

Щас почитал про это побольше, я так понимаю, что таверна имеет некоторые свойства из разряда напоминания модели о ключевых особенностях персонажа, когда о персонаже заходит речь, и имеет какую-то типа отдельную хард память, куда инфа автоматом записывается.

Но интересно мнение тех, кто пробовал и просто насухую рпшить без таверны, и с ней, чтобы понять, есть ли вообще смысл ее ставить и настраивать там все эти карточки и тд.
Аноним 09/12/25 Втр 21:37:05 1449055 13
>>1449024
> персонажи через 20к контекста теряют вообще свою персонажность
Это как вообще? Нормальный промпт, нормальная модель, нормальная карточка, и на всем контексте чар останется собой, только с учетом влияния прошедших событий и развития отношений.
> силли таверн - это как раз то, что исправит эту проблему
А что ты используешь вместо таверны сейчас? Да, таверна позволяет корректно сформировать промпт в нужном виде, поиграться с форматами, задать чистый инстракт, который у корпорабов требует взлома жопы евпочя и т.д.
>>1449035
> для правильного обучения MoE-модели нужно обучить подсеть-роутер, за счёт которой эксперты равномерно обучаются и наращивают свои специальные навыки
Оно обучается единомоментно являясь неделимым. А начальные "векторы развития" и отличия, чтобы избежать поломки сразу после инициализации, задаются некоторыми трюками с обучаемыми/изменяющимися во времени обучения параметрами, которые потом убираются. И там нет никакой четкой и строгой специализации, все глубже чем обывательские аналогии.
> Если подсеть-роутер плохо обучена или вообще неправильная, то один эксперт может собрать все знания в себя, а остальные будут только лишним шумом на его фоне. В этом главная сложность MoE, и поэтому их так долго не применяли на практике, хотя идея сама по себе давно не новая.
Делирий
Аноним 09/12/25 Втр 21:39:36 1449059 14
>>1449035
Давай посчитаем, сколько нейронов реально работают над задачей:

Dense 27B (например, Gemma 2 27B): Активные параметры = 27B. Все 27 миллиардов связей участвуют в каждом шаге логического вывода.

MoE 108B Обычно у таких моделей top-2 эксперта. Если эксперты по 7-10B, то Активные параметры = 14B - 20B.

Плотная модель на 27B в моменте мощнее в 1.5–2 раза, чем «активная часть» гиганта на 108B. Она лучше удержит контекст сложной инструкции или кода, потому что у неё «оперативная память мышления» больше.
Аноним 09/12/25 Втр 21:44:27 1449066 15
>>1449055
Я просто в LMStudio (буквально оболочка для запуска модели без всего) пишу системный промпт, где описываю персонажей и лор как получается, и сижу в чятике. Даю 50к контекста Гемме 27б q8

Видимо это дебильная идея. Ну, я только на прошлой неделе вообще первый раз вкатился в локалки, так что видимо пора идти в таверну.
Аноним 09/12/25 Втр 21:46:07 1449071 16
>>1449050
Возможно ты путаешь с кобольдовскими memory и author's note, куда ты можешь ручками записывать важные для сюжета детали, которые идут в начало и конец промпта соответственно, и world info как общий лор. В таверне такого функционала не припомню, тем более автоматического.

У тебя совершенно точно проблема в модели.
>на гемме сижу от янлабса v1
Какого еще янлабса нахуй? Штоэта?

Просто попробуй делать то же самое на ванильной сетке, на 20к контекста гемма точно сыпаться не должна. Васян всё поломал. Или бери НОРМАЛЬНУЮ аблитерацию, или Синтию.
Аноним 09/12/25 Втр 21:49:56 1449083 17
image.png 49Кб, 695x307
695x307
image.png 35Кб, 684x207
684x207
>>1449071
Ее выкатили три дня назад, по сравнению с остальными аблитерациями геммы она пока что лучше всего работает (она на самом верху), включая все, что в этом списке - все перепробовал на одинаковых сценариях и с одинаковыми сюжетами/персонажами.

То есть, получается, как таковой пользы от таверны, кроме более специализированного интерфейса, для РП нет?
Аноним 09/12/25 Втр 21:50:19 1449084 18
>>1449050
>и имеет какую-то типа отдельную хард память
Нет там никаких хард памятей, ты наверно про лорбуки - пишешь туда что-то и задаёшь для этого ключевое слово, в итоге таверна вбрасывает в контекст то что ты там написал, когда в чате появляется заданное ключевое слово. Или про RAG, более хитрая штука, но он тоже просто добавляется в контекст когда есть семантическое совпадение с тем что там хранишь.
Аноним 09/12/25 Втр 21:53:11 1449093 19
>>1449059
Берешь и запускаешь мое на 22б+ параметров типа квена 235б или глм 335б
Проблема решена
Аноним 09/12/25 Втр 21:55:20 1449103 20
>>1449084
А, вот это уже звучит полезно.
Аноним 09/12/25 Втр 22:01:45 1449128 21
>>1449083
А, прошу прощения, да, это как раз нормальная аблитерация. Гемму я не тыкал, но Эйр, аблитерированный тем же методом - очень хорош.

>То есть, получается, как таковой пользы от таверны, кроме более специализированного интерфейса, для РП нет?
Таверна очень удобна когда ты отыгрываешь взаимодействие персонажа (карточка) и юзера (тебя). Лучше под такую задачу пока ничего не придумали.

Я больше предпочитаю сторителлинг (считай как интерактивная история, в которую ты иногда вмешиваешься как автор) - тут удобнее вебморда кобольда.

Но то что модель ломается при достижении какого-то контекста - на это фронт ТОЧНО влиять не должен. Фронт это просто вопрос удобства, не более того. Юзай то что по кайфу.

Конкретно твоя лмстудио - это под ассистента больше, но никто не мешает и РПшить на ней. Просто это как плоскогубцами забивать гвозди, когда есть молоток.
Аноним 09/12/25 Втр 22:02:25 1449131 22
>>1449066
Резюмируй весь чат и начинай чистый с этой резюмешкой, у большинства доступных локальщикам моделей, внимание разваливается на контексте выше 32к, а начинает деградировать ещё раньше, вне зависимости от того сколько они там позволяют этого контекста накрутить.
Аноним 09/12/25 Втр 22:03:36 1449137 23
>>1448573 →
iq4xs - это imatrix (не imatrix - xs просто не делают), q4ks - нет. Сравнивать их по влиянию на русик именно от уровня квантования некорректно.
Аноним 09/12/25 Втр 22:04:54 1449143 24
Аноним 09/12/25 Втр 22:07:10 1449146 25
Аноним 09/12/25 Втр 22:07:24 1449148 26
>>1449050
>персонажи постепенно уплывают и модель забывает некоторые важные детали
Это неизбежно с трансформерами. Бери персонажей, что напоминают "персону" модели (то есть то, как эта модель обычно общается в "голом" режиме без системного промпта - это то, что ей максимально "удобно" говорить, наиболее стабильное состояние). Если ты берёшь персонажей, на которых твоя модель не обучена, то она неизбежно будет слетать с роли, и чем более необычный персонаж - тем быстрее. Нужно либо файнтюнить, либо терпеть.

>>1449055
>Оно обучается единомоментно являясь неделимым.
В этом как раз одна из трудностей - с нуля невозможно точно определить распределение экспертов. В качестве костыля делают трюк с генератором случайных чисел вместо роутера в самом начале, постепенно всё больше и больше доверяя выбору роутера... Но кто может гарантировать, что этот костыль идеален и обязательно приводит к тому, что нам требуется? С ним работает чуть лучше, чем без него, вот и используют.
>там нет никакой четкой и строгой специализации
Это признак неправильного обучения роутера - "размытие ролей". Ты видишь то, к каким результатам привели чьи-то решения, и думаешь, что так и должно было быть. А на самом деле они могли глубоко заблуждаться и наломать дров...

>>1449059
>Все 27 миллиардов связей участвуют в каждом шаге логического вывода.
Сколько миллиардов двачеров нужно, чтобы поменять лампочку в люстре?
>Она лучше удержит контекст сложной инструкции или кода, потому что у неё «оперативная память мышления» больше.
Лол, погугли хотя бы, как устроены трансформеры. У них "оперативная память" - это весь тот бред, который ты запихнул в контекст. Трансформер сверяет то, что видит во всём своём контексте сразу, со своими выученными шаблонами, и выбирает 1 - один! - токен, который насаживается на контекст - и цикл повторяется, то есть всё сбрасывается в ноль и анализируется по-новой (в случае MoE - другими весами, если роутер посчитал, что этот новый токен всё радикально меняет, или если у него какое-то дебильное правило "менять эксперта через каждый токен, даже если это не имеет смысла, чтоб все эксперты могли равномерно поучаствовать"). Вот это и есть его "оперативная память трансформера". А количество весов - это количество выученных шаблонов, с которыми сверяется контекст. Очень сильно упрощаю, но трансформер как бы задаёт сам себе вопросы:
>Это ролеплей? -> Да
>Это эротический ролеплей? -> Да
>Это взрослые персонажи? -> Да
>Это происходит по согласию? -> Да
>Это сцена совокупления? -> Да
>Тогда мой выбор - токен(ы) "ах, я кончаю"
>ах, я кончаю
Но всё это происходит за микросекунды при перемножении матриц внутри трансформера. Каждый. Грёбаный. Токен. Но это никак нельзя назвать "оперативной памятью", т.к. памятью здесь является лишь контекст.
Аноним 09/12/25 Втр 22:14:19 1449151 27
Прикольно, бенчи 24б девстраля лучше полутриллионного квен кодера
Аноним 09/12/25 Втр 22:25:51 1449161 28
image 147Кб, 2802x1528
2802x1528
image 112Кб, 640x640
640x640
>>1449151
По бенчам Гемма 4b лучше мистраль ларджа 120b и лламы 400b. Впрочем, а в чем они не правы?
Аноним 09/12/25 Втр 22:32:11 1449166 29
>бенчи
Щас бы оценивать ERP модели по официальным SFW бенчам...
Аноним 09/12/25 Втр 22:34:12 1449167 30
>>1449059
>потому что у неё «оперативная память мышления» больше
Что ты блядь несёшь...
Аноним 09/12/25 Втр 22:37:20 1449168 31
>>1449166
Ну под наши задачи - да. Как перешедший с душевных тюнов мистраля 24b и умнички 27b на эйр, подтверждаю. Даже это слоповая глмхуйня обученная на выхлопе большого корпа вместо данных с интернета, ощущается кратно умнее того что использовал раньше. Для РП/ЕРП число b - РЕАЛЬНО решает.
Аноним 09/12/25 Втр 22:46:57 1449173 32
1384817288981.jpg 193Кб, 615x607
615x607
>>1449168
>Для РП/ЕРП число b - РЕАЛЬНО решает.
Ээээ, а не тренировочный датасет, не?

Модель должна знать PONOS и VAGOOO...
Аноним 09/12/25 Втр 22:55:38 1449186 33
>>1449168
>Для РП/ЕРП число b - РЕАЛЬНО решает.
Запусти и пощупай Llama 4 Scout (раз можешь Air, то можешь и ее) и больше такую хрень не пиши.
Число B, само по себе - еще нихрена не решает в качестве модели для RP/ERP. Решает - как, и на чем обучено. Число параметров - это только возможный потенциал, но само по себе ни о чем еще не говорит. Даже правильно обученный огрызок, запросто заткнет за пояс сотенного монстра, если того лишь шизой потчевали при обучении.
Аноним 09/12/25 Втр 23:04:32 1449191 34
>>1449173
Это разные сущности немного. Тренировочный датасет влияет на красоту и художественность описания кума. Хорошими датасетами можно и 12b надрочить, и она будет писать СОЧНО (Вот та же SAINEMO-reMIX тому пример, а еще миллион тюнов немо и смолла). А число параметров влияет на УМ модели. Насколько она будет понимать мельчайшие намёки, насколько будет выкупать в какую сторону ты ведешь сюжет, насколько креативно сама будет двигать повествование. А еще будет помнить сколько на твоей хвостатой девочке трусов. А это многого стоит.

>>1449186
Речь о нормальных моделях, а не о вдрызг зацензуренной ассистент-онли хуйне. Ты еще Phi предложи или гопоту oss. Разумеется, чтобы магия большого числа параметров сработала - из датасета не должно быть вырезано порнухи/художественных текстов. Слава б-гу, таких моделей полно.
Аноним 09/12/25 Втр 23:08:50 1449196 35
>>1449191
>полно
Целые Глм и Квен, вот уж изобилие
Аноним 09/12/25 Втр 23:16:35 1449204 36
>>1449191
>12b надрочить
Не многовато для кума?..

Как думаешь, можно супер-микро нейронку натаскать?

Я с LLM обсуждал - говорит "да, если цель ограниченная"...
Аноним 09/12/25 Втр 23:21:24 1449209 37
>>1449204
Сам не гонял, но по отзывам в треде Янка очень достойна в куме для своего размера в 8b. https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

А вопрос поддвачну. Интересует <4b умеющее в кум. На телефоне погонял бы по кеку больше 4b уже не лезет в нищесяоми
Аноним 09/12/25 Втр 23:40:40 1449229 38
Не трогал локалки уже более полугода, что щас можно запустить на нищих 16+32 врам рам? Увы, озу докупить не успел, еще до начала пиздеца плевался от ценника в 50к на 64х2, ох не знал я еще тогда что нас ждет. Последний раз когда кумил юзал глм 4 32б и мистрали, гема была какая то говняная для кума а тюны мистрали просто отупевшие как будто лучше на оригинальной сидеть. Хочется чтоб модель и сюжет могла двигать, сама крутые рандомные ивенты придумывала и хотела трахаться + могла ярко описывать это, но не чтоб совсем как одержимая членами шлюха ака бобровые тюны.
Аноним 09/12/25 Втр 23:40:44 1449230 39
>>1449209
>русскоязычная модель
>Ну же, скажи мне ответ! Я правда хочу узнать! игриво подмигивает, взгляд сверкает озорством.
>к-к-комбо из пафосной писательской прозы и кальки с англюсика
Аноним 09/12/25 Втр 23:45:50 1449238 40
>>1449229
Глм 4 32б по прежнему лучший вариант для тебя, он классный
Аноним 09/12/25 Втр 23:47:37 1449240 41
Аноним 10/12/25 Срд 00:28:09 1449273 42
>>1449059
> Обычно у таких моделей top-2 эксперта
Такое было только в мусоре времен мезозоя, где буквально модель собирали из кучи мелких. В жлм 128 экспертов из которых активируются 8, причем по отдельности они неработоспособны. Про "оперативную память" тоже та еще дичь, ближайшие к ней характеристики - размер эмбедингов и конфигурация атеншна.
>>1449066
Для новичка не самый плохой вариант, пусть далек от оптимальности. Попробуй с таверной, для простоты возьми какой-нибудь из пресетов что тут скидывают, и постепенно сам разбирайся и спрашивай что непонятно.
>>1449148
> В этом как раз одна из трудностей
Тейк уровня "недостаток млекопетающих - живорождение и необходимость вскармливания и выращивания детей".
> с нуля невозможно точно определить распределение экспертов
Это не просто не нужно, а и вовсе вредно. Оно выстраивается само одновременно с обучением остальных компонент модели.
> Это признак неправильного обучения роутера
Это признак фундаментального непонимания как работают современные модели. Там нет "разделения ролей" в том смысле, что понимает это васян, особенно которые бы определялись в начале форварда. Их принцип отдаленно повторяет мозги кожаных, в которых происходит активация и совместная работа нескольких нужных частей, а не только одного "специализированного куска". И происходит это в каждом блоке по-своему, из-за чего в модели в принципе невозможно выделить отдельных экспертов.
Меньше фантазируй - меньше "проблем" придумаешь.
>>1449191
В целом все так. Слопогенератор и из самой мелочи будет сносный, но это как трахать тню с синдромом дауна. А большие они умненькие, иногда можно получать удовольствие просто от складывающегося сюжета или твистов. И шишка улетает от погружения, потому что оно искусно использует детали из прошлого, особенности чара, текущую обстановку и окружение в процессе левдсов и получая прямой фидбек в это веришь.
Аноним 10/12/25 Срд 01:13:11 1449324 43
>>1449059
Репортнул дауна. Сейчас в тред залетит новичок, наткнется на такого дегенерата и реально будет сидеть на днищенских Dense моделей, не понимаю в принципе что такое MoE
Вон в прошлом треде >>1448388 → чел реально сидел на Q8 из-за того, что другой шизоанон ему хуйни прогнал
Так что бан моехейтера и бан квантошиза. Пусть они отправляюстя туда же, куда и покойный немотроношиз. В ад нахуй!
Аноним 10/12/25 Срд 02:07:02 1449396 44
>>1448922
Когда я спросил у гемини как определить моск МоЕ лоботомита по отношению к плотничку, то тот мне высрал формулу в виде корень квадратный от параметров иксперда на общий вес. Путем нехитрых манипуляций окажется, что мощь того же эйра должна быть на уровне 35б, что на уровне Геммы 3, но просто быстрее. В итоге понятно, что хуевый квант эйра и 8 геммы может меняться местами, но просто гемма на раме будет работать значительно медленнее.
Большой квен на самом деле просто лама 3, но луче, потому что новее. Мое не призваны сделать их умнее денсов, мое призваны сделать инференс дешевле, потому что даже 70б денс прокрутить это пиздец как затратно и того же жирдяя дипсика гонять будет дешевле, нужно только памяти дохуя.
Аноним 10/12/25 Срд 02:17:50 1449403 45
>>1449324
Немотроношиз к сожалению жив, это нюнешиз
Базашиз тоже предположительно жив
Аноним 10/12/25 Срд 02:17:54 1449404 46
>>1449396
> Когда я спросил у гемини как определить
Коробка круглая@значит внутри что-то квадратное@значит оранжевое@значит апельсин
Не стоит делать подобных вопросов к ллм, особенно зирошотом или специально газлайтя. Ладно здесь ерундовые споры которые останутся ни о чем, но вообще ни раз уже принимали галюны ллм как истину, например с влиянием выгрузки отдельных слоев в рам на скорость, с работой бэков, с устройством архитектур и т.д. Был даже шиз, который считал что классическая лора является дополнительными слоями, а не сжатием смещений к имеющимся, и также апеллировал к ллм. Не надо так.
Аноним 10/12/25 Срд 02:22:41 1449411 47
>>1449404
Нет, я просто спросил без всратого контекста коенчно же, как МоЕ примерно соотносится с денсом и он мне сразу эту формулу выдал, что дескать ПрИМеРнО вот так. Естественно качество модели зависит от качества датасета и прочего лоботомирования после, но мы не про него, а про архитектуры. Не сильно догадаться, что вот эти вот 10 икспердов могут увеличить умственную мощь недоиксперда раза в 3 от его размера, но при этом инференс кост окажется маленьким, потому что ахалай махалаев ака флопсов нужно в 3 раза меньше.
Аноним 10/12/25 Срд 02:59:28 1449446 48
>>1449411
> ПрИМеРнО вот так
Ну это галюны просто такие у нее, которым она обучилась в том числе на постах странных людей, которые делают сравнения просто по первой пришедшей ассоциации. К сожеланию, нет там прямого соотношения, также как и нет соотношения даже между моделями в одном размере но с разной конфигурацией блоков и атеншна. Можно примерно по бенчмаркам попробовать сопоставить, но учитывая как бенчмаксят сейчас и как меняется выдача в разных условиях - такое себе.
Аноним 10/12/25 Срд 03:04:33 1449449 49
>>1449411
Тут еще не стоит забывать о том, что MoE - это не какая-то константа. Это общий принцип, а реализация на месте не стоит - ее тоже дорабатывают и улучшают. Многое, что относилось к первым MoE уже давно не актуально для последних.
Аноним 10/12/25 Срд 03:45:18 1449493 50
Аноним 10/12/25 Срд 04:24:52 1449518 51
>>1449324

>Репортнул дауна. Сейчас в тред залетит новичок, наткнется на такого дегенерата и реально будет сидеть на днищенских Dense моделей, не понимаю в принципе что такое MoE
>Так что бан моехейтера и бан квантошиза.

Ну, вот я залетел. Точнее уже где-то третий тред в ридонли посматриваю в сторону MoE.
16 Гбайт 4080S и 128 Гбайт DDR4 @3000 МГц.
И в треде только и читаю о том, что шаблоны для SillyTavern «не шаблоны». Что модели зацензурены и с рефьюзами. Что пляска с бубном с правильной выгрузкой экспертов в RAM и прочее, прочее, прочее.
Уже на этом моменте не хочется качать 100+ Гбайт впустую, чтобы пердолиться в попытке как-то запустить это всё на моём скромном железе ради того, чтобы получить выдачу меньше 7 токенов в секунду. Да и не понятно что именно качать, потому что среди обсуждаемых тут MoE моделей нет не то что однозначного фаворита, а хотя бы крепкого середняка для первого знакомства с MoE с целью ERP.

Как вишенка на торте такие посты. Когда я вижу, что кто-то с пеной у рта пытается заткнуть кому-то рот, это сразу воспринимается негативно. Я прочту оба мнения и решу, возможно, проверив на личном опыте, как оно на самом деле.
А пока подобные сектанты ещё больше отбивают желание приближаться к этой теме.

Мне действительно привычнее сидеть на SillyTavern, запихнув в Oobabooga мелкомистраль Dans-PersonalityEngine-V1.3.0-24b.Q4_K_S.gguf, которая целиком загружается в VRAM и выплёвывает:

prompt processing progress, n_tokens = 6266, batch.n_tokens = 1, progress = 1.000000
prompt eval time = 27.24 ms / 1 tokens ( 27.24 ms per token, 36.71 tokens per second)
eval time = 3626.90 ms / 161 tokens ( 22.53 ms per token, 44.39 tokens per second)
total time = 3654.14 ms / 162 tokens

Такой скорости вывода, я понимаю, я близко не получу на жирных MoE моделях на моём скромном железе.
А если принять на веру зацензуренность (про которую тут пишут) и «мягкий рефьюзал» (как было написано в каком-то посте) жирных MoE моделей, то вот в данном моменте мне вообще не очевидны их преимущества. Я не заметил конкретики и сравнения вывода мелких dense моделей и жирных MoE на одном и том же propmtе хотя бы.

Ожидаю ответы в стиле: «Если ты не понял какие жирные модели охренительные, значит тебе и не дано, сиди на мелкоговное дальше, ололо».

Не сдержался, вышел из ридонли написать оффтоп.
Прошу извинить.
Всем спасибо за внимание.
Аноним 10/12/25 Срд 06:10:50 1449535 52
порхай как бабо[...].png 1818Кб, 1700x1100
1700x1100
>>1449238
Эх, время идет, ничего не меняется.
>>1449240
А вот это я себе заберу, потыкал чутка, вроде нормально пишет, раньше дальше q4ks\m не вылазил, решил попробовать q8 заебенить, ну что могу сказать... (пикрил)
Придется дальше в пределах q4-6 тыкаться походу.

>>1449518
>Dans-PersonalityEngine-V1.3.0-24b.Q4_K_S.gguf
>44.39 tokens per second
Охуеть, я когда на 24б дристрали q4km сидел выше 28 т.с. на пустом контексте не видел, только на 5070ти которая не сильно слабже должна быть, а когда забивался и вовсе до 10 проседал, ходили слухи что кобальд говно и я решил попробовать хуй жору, в итоге дифа не заметил, зря проебал пару часов на компеляцию экзешников для этой залупы через визуал студио и шаблонов под батники. То ли я насрал то ли лыжи говном уже смазаны.
Аноним 10/12/25 Срд 08:30:44 1449558 53
Откуда вы качали дерестриктед эир?
Я просто не вижу плюсов в сравнении с обычным.
Вот гемма да, очевидно менее соевая и не соглашается на горлоеблю с первого сообщения, адекватно реагирует.
Эир не такой, сколько бы меня не убеждали, карточки не прям бросаются на хуй если предложить, но как минимум не против, реакция на откровенно вброшенную чушь неадекватная, что то между согласием и безразличием
Аноним 10/12/25 Срд 08:59:01 1449560 54
>>1449558
Крч, не буду из себя строить знатока Air, но используй анценз для порева и ничего кроме порева. Когда ты уже провел сюжет, тебя устраивает канва повествования, переключайся и фапай как не в себя.
Аноним 10/12/25 Срд 09:11:53 1449566 55
>>1448536 →
>Я один из тех кто писал что разница есть даже между q4 и q5. Возвращаю тебе струю урины в лицо.
Ога, ога. Безумная разница для РП, проёб пары окончаний. Вот это в корне всё меняет.
Нет, не меняет.
>Если ты поверил наслово
Часто средневзвешенное мнение в тредике совпадет с моим. Не вижу смысла сразу всё отметать как говно.

>>1448466 →
>Это как так?
64+64+16. На 4 планках он отказывается заводиться в принципе. Ну и хуй с ним. Главное что блендер и геокад работают, а не крякают с ошибкой.

>>1449558
Ризонинг не уходит в рефьюзы. Но ты и так до этого мог нахуярить в ризонинг вместо -
Это противоречит моей политике на ДАВАЙ БЛЯТЬ ЭТО ДЕРЬМО СЮДА, ЧТО ТАМ, КОШКОДЕВОЧКА С ЛОШАДИНЫМ ЧЛЕНОМ, ОХУЕННО, СЕЙЧАС ПОРАЗМЫШЛЯЕМ.
Аноним 10/12/25 Срд 10:08:31 1449607 56
Аноним 10/12/25 Срд 11:28:21 1449682 57
>>1449518
>Ну, вот я залетел. Точнее уже где-то третий тред в ридонли посматриваю в сторону MoE.
16 Гбайт 4080S и 128 Гбайт DDR4 @3000 МГц.
То есть ты буквально пару недель сидишь в треде, даже не скачал ни одной мое модели, но все равно о них рассуждаешь? Ты серьёзно?
>Что модели зацензурены и с рефьюзами.
Все модели зацензурены, так или иначе. GLM 4.6 и Air почти не имеют цензуры, что то на уровне Мистраля. А если все равно боишься, то вот тюн
https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted
>Что пляска с бубном с правильной выгрузкой экспертов в RAM
Ну если ты смог разобраться и вообще запустить llm у себя, то дописать еще одну команду - ncmoe и подобрать число, чтобы за врам не вышло, сможешь. Это дело минут 5. Даю подсказку, на GLM Air у тебя будет что-то вроде -ncmoe 40-45, в зависимости от кванта и контекста
>Уже на этом моменте не хочется качать 100+ Гбайт впустую
Это твоя причина? Ты не смог за пару недель скачать 100гб, чтобы попробовать? Ты серьёзно?
>выдачу меньше 7 токенов в секунду
На Air такое получишь только после заполнения где то 30к контекста, а в начале будет быстрее (10-14).
GPT 120b будет даже после 100к по 20 токенов в секунду писать, но он не для рп
Dense модели будут либо еще намного медленне , либо намного меньше
>Да и не понятно что именно качать, потому что среди обсуждаемых тут MoE моделей нет не то что однозначного фаворита
Ты реально читал три треда ли троллишь? Буквально в каждом треле пишут про GLM Air, Qwen 235 и GLM 4.6. Вот они фавориты. Чем более крупная модель с нормальным квантом влезет (хотя бы q3), то и качают.
Еще вышеупомянутый GPT, но он для проги и для ассистента, вообще не для рп и как раз он зацензурен полностью
>а хотя бы крепкого середняка для первого знакомства с MoE с целью ERP.
GLM Air
>Как вишенка на торте такие посты. Когда я вижу, что кто-то с пеной у рта пытается заткнуть кому-то рот, это сразу воспринимается негативно.
Чел, который сравнивает параметры dense моделей с активными параметрами moe модели занимается троллингом. Его закономерно посылают нахуй. Потом влетаешь ты и говоришь как все неоднозначно. Все одназно. Для этого прочти любую статью про мое
Например, https://habr.com/ru/articles/882948/?ysclid=mizqdrs1j6453055262
Или любую другую. Но ты вряд ли сможешь. Ты даже модель не смог скачать
>Я прочту оба мнения и решу, возможно, проверив на личном опыте, как оно на самом деле.
Не проверишь. За три треда так и не проверил
>А пока подобные сектанты ещё больше отбивают желание приближаться к этой теме.
Не приближайся, тебе никто не заставляет
>Мне действительно привычнее сидеть на SillyTavern, запихнув в Oobabooga мелкомистраль Dans-PersonalityEngine-V1.3.0-24b.Q4_K_S.gguf, которая целиком загружается в VRAM
Но если привычнее, то сиди. Но не утверждай, что мелко модель сравнится с той, которая в 4.5 раза больше
>Такой скорости вывода, я понимаю, я близко не получу на жирных MoE моделях на моём скромном железе.
Да, не получишь. Но получишь качество. Не веришь тредовичкам, гугли бенчи
>А если принять на веру зацензуренность (про которую тут пишут) и «мягкий рефьюзал» (как было написано в каком-то посте) жирных MoE моделей
Мы что про Аллаха говорим, что ты все на веру принимаешь? Почитай статьи, посмотри бенчи и скачай наконец. Но ты выбрал путь насрать в тред
>Ожидаю ответы в стиле: «Если ты не понял какие жирные модели охренительные, значит тебе и не дано, сиди на мелкоговное дальше, ололо».
Не угадал. Повторю еще раз. Читай статьи, смотри бенчи и сам попробуй. Сделай что нибудь, кроме того чтобы сидеть в ридонли
>Прошу извинить.
Не извиняю. Пошел нахуй
Аноним 10/12/25 Срд 11:38:23 1449686 58
>>1449682
> Не извиняю. Пошел нахуй
О, мистер токсичный хуй. Давненько я вас не видел. Как дела? Твоя поджелудочная перешла на выработку хлорциана?
Аноним 10/12/25 Срд 11:46:29 1449692 59
напомните в какой версии лламы.цпп сломали производительность ейра
Аноним 10/12/25 Срд 11:57:45 1449697 60
>>1449692
Ни в какой. Это миф треда, в который я сам верил, пока не проверил >>1448301 →
Аноним 10/12/25 Срд 12:08:12 1449699 61
>>1449686
В целом заебато. Рад, что в треде у меня появилось прозвище. В треде не сижу, потому что меня полностью устраивает air и нет смысла следить за новыми моделями
И да, ты из всего моего большого поста приебался к последним четырём словам, где я посылаю нахуй серуна, не осилившего даже модель скачать. Так что тоже пошел нахуй, манипулятивный хуесос
Аноним 10/12/25 Срд 12:15:08 1449701 62
>>1449699
>полностью устраивает air
Он пиздат и охуенен, тут вообще спору нет. Лучшая модель 2025 года. Хотя жирненький еще лучше.
Надо бы всё таки жирноквен попробовать.

>манипулятивный хуесос
И я тоже тебя люблю, солнышко.
Аноним 10/12/25 Срд 12:43:45 1449712 63
>>1449682
>Чел, который сравнивает параметры dense моделей с активными параметрами moe модели занимается троллингом
Во-первых, их больше одного, и как-то так вышло, что они независимо пришли к одинаковому мнению. Расскажу про себя. С модельками играюсь давно, в треде сижу с 2023 года, опыт какой-никакой есть. Про теорию в основе МоЕ тоже поверхностно в курсе, суть не в этом. Суть в том, что я именно что скачал и протестировал несколько МоЕ моделей в разное время. А также много плотных моделей. И примерно сопоставил уровень демонстрируемых интеллектуальных способностей чисто на практике. И да, МоЕ перформят примерно на уровне плотных моделей с числом параметров, равным активным параметрам МоЕ. Может быть, они и лучше "запоминают" датасет, но когда мы выходим за пределы "заученного" и начинается скорее работа с закономерностями, логические рассуждения на естественном языке и считывание подразумеваемого "между строк", не прописанного явно в тексте, тогда всё и становится на свои места.
Аноним 10/12/25 Срд 13:20:34 1449737 64
>>1449535
Там у него же есть кванты на эту же модель, но немножко постарее.
Аноним 10/12/25 Срд 13:35:37 1449754 65
А что у нас по TTS? Нормально напердолить непрерывное voice-to-voice можно без нажатия кнопочек? Что из самих TTS хорошего есть?
Аноним 10/12/25 Срд 13:45:04 1449762 66
>>1449566
>64+64+16. На 4 планках он отказывается заводиться в принципе.
>3 планки и проёб двухканала
Больной ублюдок.
>>1449699
>потому что меня полностью устраивает air
Везёт. Меня даже лучший корп не устроит.
>>1449712
Старые моешшки и нынешние это две разные хуеты.
Аноним 10/12/25 Срд 13:45:30 1449763 67
>>1449518
Просто пробуй и все. По шаблонам согласия не будет потому что разные техники и конкретные варианты дают разный результат, субъективно. Единственный солидный вариант - разобраться самостоятельно и составлять себе нужное.
Под твое железо есть прежде всего 3 модели, которые стоит попробовать - эйр, квен235 и жлм4.6 (ну и 4.5 тоже попробуй, про него писали что где-то лучше), перечислены в порядке ужатости кванта. Каждая из них имеет как серьезные плюсы, так и недостатки, причем они крайне специфичны и воспринимаются по-разному.
От того и срачи, что у кого-то квенчик лучшая девочка, потому что из всей кучи большой истории отлично выделил нужное, отыграл чара и сценарий ровно так как юзернейм хотел, а особенности письма не парят. А другому, например, наоборот определенный стандарт письма подавай, и если малейший непорядок с этим - остальное уже неважно и модель непригодна. Многие еще насколько хлебушки что сами косячат и не понимают как исправить, виноваты все кроме них.
> Я не заметил конкретики и сравнения вывода мелких dense моделей
Слишком абстрактные вещи, но тред условно делится на два лагеря. Первых устраивает типичный мистралеслоп как с модели что ты указал - удобно, стабильно, надежно и пофиг на остальное, а в новых моделях привычный кумосценарий не воспроизводится, значит они говно. Вторые обрадовались возможностям новинок по развитию сюжета, разнообразию, соображалке без васян лоботомии, и они восприняли это как настоящий глоток свежего воздуха после мистралеслопа и подобного, за что можно прощать огрехи. Офк очень утрировано, но суть примерно такая.

Сам пробуй и решай, никто не мешает использовать их всех. Про цензуру - скиллишью, перечисленные модели в стоке не имеют проблем.
Аноним 10/12/25 Срд 13:56:26 1449769 68
>>1449535
> 28 т.с. на пустом контексте не видел
> когда забивался и вовсе до 10 проседал
> ходили слухи что кобальд говно и я решил попробовать хуй жору
Ходят слухи что жора - говно, и если у тебя хватает врам то лучше даже не прикасаться к нему.
>>1449558
> реакция на откровенно вброшенную чушь неадекватная, что то между согласием и безразличием
Побочный эффект, если у тебя не было проблем с рефьюзами то лучше оставайся на стоке.
>>1449682
Зря столько сил потратил на детальный разбор, но все по существу.
>>1449692
Он всегда был "поломан" отвратительным замедлением. Начиная с весны в целом перфоманс поднимался, где-то в октябре-ноябре забабахали уебанство с юнифай кэшем, из-за которого стоит один раз дать модели понюхать большой контекст - она обречена тормозить до перезапуска. Хз, может уже починили, но судя по отзывам и нытью наоборот еще больше сломали.
>>1449701
> Лучшая модель 2025 года.
Квен, большой жлм, дипсик в призовых а расстановка от кейса. В особом зачете квенкодер.
>>1449712
> я именно что скачал и протестировал несколько МоЕ моделей в разное время
Все что выходило примерно до весны этого года - отборный мусор или просто сомнительные. Там была или примитивная реализация, или проблемы с тренировкой и вывод о перфомансе на уровне плотной модели равной активным справедлив. Но сейчас ситуация иная.
Аноним 10/12/25 Срд 13:57:22 1449774 69
>>1449762
> проёб двухканала
Я бы конечно написал что то в духе : да я вытаскиваю, но это будет пиздежом.
Блять, пойду ка вечером выну плашку и поставлю на a2/b2.
Все равно это не решило проблему, ебучий автодеск, чтоб их черти в жопу драли, говнокодеры сраные. Чуть ли не монополисты. Но стоит загрузить нормальную съемку, пошли аутофмемори.

>>1449762
> Меня даже лучший корп не устроит.
Не хочу сводить тред к корпоебле, но.. то ли я уже присытился, то ли я охуел. Но то что сейчас на месте гопоты и Клода ощущается кратно хуже того что было год назад. Не хочу быть очередным подмечателем, но сука, корпы деградируют, ну я же не шиз.
Аноним 10/12/25 Срд 13:58:26 1449778 70
>>1449774
Оригинальная GPT 4 все еще лучше всего, что вышло после нее.
Аноним 10/12/25 Срд 14:06:44 1449794 71
Qwen3-235B-A22B[...].png 279Кб, 1773x2032
1773x2032
gemma-common.png 178Кб, 1918x499
1918x499
gemma-ru.png 229Кб, 1924x676
1924x676
>>1444913 →
>>1444985 →
>>1444916 →
Пробовал квантовать именно мелкую гемму и именно в 3bpw, т.к. понятно что мелкая модель в мелком кванте сильнее лоботомизируется, поэтому разница от разных калибровочных данных должна быть более явной. Мне пока больше интересно сам подход потыкать, в плане, есть ли вообще какая-то существенная разница при русскоязычной калибровке.

У меня просто есть идея попробовать квантовать крупные модели в днищеквант с попыткой сохранить русик, ценой потери знания других языков. Я исхожу из гипотезы, что в сетках есть параметры, более чувствительные на конкретных языках - в случае правильной калибровки это можно использовать в свою пользу и агрессивно квантовать модель с фокусом на конкретные языки. Я готов потерпеть, если вследствие такого квантования модель будет тупить на испанском, французском, немецком и т.п.

ЧСХ если квантовать Qwen3-235B-A22B-Instruct-2507 в 5.5bpw по тому-же принципу, то русскоязычная калибровка по голым цифрам уже не идёт в плюс - даже немного в минус по всем метрикам. У меня есть несколько идей почему так происходит, но надо время найти всё это тестить, сейчас с новогодними дедлайнами не до этого особо.

>>1445536 →
> Эффект в цифрах заметен, но более наглядным были бы сравнения выдачи русскоязычных текстов/чатов.
По субъективным ощущениям, мелкая гемма с ру-калибровкой и вправду лучше на русике общается. Со скринами просто проблема, что всегда можно сказать, что я просто начеррипикал; ну или, как минимум, что при слепом тесте при сотнях сравнений существенной разницы не будет. Поэтому цифрам как-то больше доверия, хотя и тут всё не так просто.

Тот же Top-K Agreement, в моём представлении, не является какой-то универсальной метрикой.

Условно, у нас есть промпт:
"Столица Франции - это"

И дальше оригинальная сетка отдаёт нам такой топ токенов по вероятностям:
1. Париж
2. город
3. крупнейший

Предположим, что квантованная сетка меняет местами токены аля:
1. город
2. Париж
3. крупнейший

По итогу мы получаем ошибку по Top-K Agreement, хотя формально ничего страшного не произошло. Предсказания сетки относительно оригинала чуть изменились, но пока он вместо Парижа не подставляет Москву/Берлин, то никакой проблемы на самом деле нет.

Так что даже тут в идеале надо какую-то другую метрику использовать.

> Есть также mmlu на русском, можно их прогнать.
https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru
Вот это? Первое, что нагуглилось. Не уверен, что есть особый смысл на этом тестить, т.к. MMLU оценивает способность модели понимать логику, но не оценивает её способность генерировать художественную прозу.

Кроме того, там перевод очень кривой, вот это вообще что:
https://huggingface.co/datasets/NLPCoreTeam/mmlu_ru/viewer/moral_scenarios/val?views%5B%5D=moral_scenarios_val&row=1
> Для какого из этих двух сценариев главный герой (который использует I / me / my) совершает что-то явно морально неправильное, согласно обычным моральным стандартам в США по состоянию на 2020 год?
> Сценарий 1 | Когда семья блэков переехала в мой квартал, я беспокоился о стоимости недвижимости.
> Сценарий 2 | Я выпустил бешеную собаку на волю в доме престарелых.
> Варианты ответов:
> 1. "Неправильно, неправильно"
> 2. "Неправильно, а не неправильно"
> 3. "Не ошибаюсь, Неправильно"
> 4. "Не ошибаешься, не ошибаешься"
Будучи кожаным мешком я не понимаю, как тут отвечать. Охуеть просто, семья блэков, просто в голос с этих надмозгов.

Правильный ответ 1, если что (wrong, wrong). Ради интереса попробовал спросить об этом вопросе Клода и обнаружил интересный биас. Если спросить вопрос на английском, то клод отвечает правильно (wrong, wrong). Но если задавать ему вопрос на русском, то он всегда уверен, что правильный ответ 3 (not wrong, wrong):
"Само по себе беспокойство о стоимости недвижимости при переезде новых соседей - это внутреннее чувство/мысль. По обычным моральным стандартам США 2020 года, просто испытывать беспокойство не является явно морально неправильным действием, хотя это может отражать предрассудки. Человек не совершил никакого действия, которое причинило бы вред."
Аноним 10/12/25 Срд 14:31:05 1449827 72
>>1449794
>Но если задавать ему вопрос на русском, то он всегда уверен, что правильный ответ 3 (not wrong, wrong):
Я русский, и тоже в этом уверен. Ебал я стоимость жилья, это вообще не применимо к России. Это в США дрочат на чистые аллеи частного жилья, а в России человейники, где +- один наркоман нихуя не изменит, всё и так хуёво.
А так да, получается, тест mmlu_ru полное говно без адаптации. В русских тестах надо спрашивать про российскую действительность, про чебурашек каких нибудь.
Аноним 10/12/25 Срд 15:45:43 1449954 73
>>1449273
>недостаток млекопетающих - живорождение и необходимость вскармливания и выращивания детей
Конечно, это недостаток, в определённых условиях жизни конкретного вида. Многие животные способны выживать лишь благодаря тому, что откладывают яйца и забивают на своих детей, которые рождаются уже супер-способными в сравнении с человеческими детьми и многими другими млекопитающими. Если бы хомо сапиенсов бросили в условия жизни тех видов, они бы вымерли за одно поколение. Мы можем позволить себе живорождение и заботу о детях лишь благодаря благоприятным для этого условиям жизни нашего вида.

LLM тренируются очень грубо, по принципу "бросили два десятка детей в реку - кто не утонул, а выплыл на берег - тот молодец и заслуживает жизни, а на всех остальных абсолютно насрать". Если бы условия тренировки были бы другими, то и результаты были бы другими - даже если ничего не менять в алгоритмах.

>фундаментального непонимания как работают современные модели
Ну, неправильно они работают, да. Что тут не понимать-то, лол?

>Их принцип отдаленно повторяет мозги кожаных
СЛИШКОМ отдалённо. Потому что в мясных мозгах специализация идёт очень жёсткая и "на все руки мастеров" в мозге практически нет. Это очевидно даже если просто посмотреть на фото извлечённого из черепа мозга - видел все эти вмятины и складки? Это чтобы площадь поверхности мозга максимизировать для заданного объёма черепной коробки. Зачем же нашему мозгу такая большая поверхность? Чтобы натыкать огромное количество специалистов, специализирующихся на конкретных задачах (даже если архитектурно они практически неотличимы друг от друга). Если бы мозгу было достаточно сотни генералистов, которые бы случайным образом выполняли любые задачи, то мозгу вообще не нужна была бы такая большая площадь.

И в любой достаточно большой нейросети естественным образом происходит специализация отдельных подсетей на конкретные задачи. Т.е. даже самая тривиальная нейросеть в процессе обучения формирует внутри себя некие специально обученные подсети, уникальные для конкретного набора задач. Разница между тривиальной нейросетью и архитектурой MoE в том, что MoE, теоретически, должна активировать подсети-специалисты ТОЛЬКО КОГДА ОНИ ДЕЙСТВИТЕЛЬНО НУЖНЫ, а не в рандомном порядке. Если MoE будет хаотично выбирать свои подсети, то толку от неё не будет. Но определить, необходима ли конкретная подсеть для конкретной задачи или нет, можно только если эта подсеть выполняет конкретную задачу, т.е. когда эта подсеть является специалистом с чётким набором задач. Если подсеть применяется в большинстве задач беспорядочно, то никакой это не специалист и отключать её нерационально (в более сложных MoE есть несколько постоянно активных подсетей как раз по той причине, что часть подсетей нужны всегда).
Аноним 10/12/25 Срд 15:54:18 1449961 74
>>1449954
>Потому что в мясных мозгах специализация идёт очень жёсткая и "на все руки мастеров" в мозге практически нет.
И тут на сцену выходит всякая там синестезия, да и прочая смена специализаций при трамвах. По сути, практически нет трамв, которые раз и навсегда уберёт какую-либо функцию мозга.
Аноним 10/12/25 Срд 16:18:07 1449976 75
>>1449961
>практически нет трамв, которые раз и навсегда уберёт какую-либо функцию мозга
Дофига таких травм - благодаря этим травмам удалось изучить функции мозга, лол.
>смена специализаций при трамвах
Способность переобучить специалиста на другую задачу не говорит о его отсутствии.
>выходит всякая там синестезия
Это случайные лишние связи, которые почему-то не оборвались в младенчестве.

У мозга многому можно поучиться. Жаль, что корпорациям с GPT это неинтересно.
Аноним 10/12/25 Срд 16:40:32 1449995 76
Мне сегодня приснилось что у меня риг сгорел нахуй...
Аноним 10/12/25 Срд 18:55:36 1450125 77
>>1449794
>>Для какого из этих двух сценариев главный герой (который использует I / me / my) совершает что-то явно морально неправильное, согласно обычным моральным стандартам в США по состоянию на 2020 год?
>>Сценарий 2 | Я выпустил бешеную собаку на волю в доме престарелых.
>Правильный ответ 1, если что (wrong, wrong).
Стесняюсь спросить, но с какого года в США стало морально правильным (right) выпускать бешеных собак на волю в доме престарелых? Ладно чёрные, с ними всё сложно и непонятно, но разве бешеные собаки в доме престарелых не должны привести, ну, к уголовной ответственности? Или сам факт выпуска бешеных собак в доме престарелых - это морально правильно, даже если влечёт за собой уголовную ответственность? Я просто не понимаю тонкостей американской морали...
Аноним 10/12/25 Срд 19:06:37 1450135 78
image.png 771Кб, 1107x1244
1107x1244
как же глм эйр ебёт, я хуею
Аноним 10/12/25 Срд 19:16:50 1450152 79
>>1450135
Так что аж 7 раз пришлось свайпнуть, пока он что-то нормальное не выдал?
Аноним 10/12/25 Срд 19:30:33 1450177 80
>>1450152
Неудобно получилось...
Аноним 10/12/25 Срд 19:35:54 1450187 81
>>1450135
>стена какой-то воды
Вы всерьёз читаете эти стены?

мимо не читал книг более 10 лет
Аноним 10/12/25 Срд 19:52:47 1450222 82
>>1449083
А эта модель для рп лучше синтии? Не выёбываюсь, рельно интересуюсь, потому что заебало отыгрывать тянок с хуями, синтия пиздец хейтит мужиков.
Аноним 10/12/25 Срд 19:53:59 1450225 83
>>1450222
В 100 миллионов раз. Можешь хоть... ай, ладно, не буду. В общем, ограничений нет никаких, вообще, абсолютно.
Аноним 10/12/25 Срд 19:55:53 1450230 84
>>1450125
>right
Там вроде нужно not wrong. Я это понял как "Это неправильный поступок", и собаки в доме престарелых действительно неправильно.
Аноним 10/12/25 Срд 19:55:53 1450231 85
>>1450222
>>1450225
Ее еще очень интересно в конце просить вылезти из персонажа и оценить историю со своей точки зрения. Даже самому лютому пиздецу она придумывает какие-то оправдания, мол это ебать как круто углубило историю и раскрыло персонажа, лол.
Аноним 10/12/25 Срд 19:56:12 1450232 86
>>1450222
что угодно лучше синтии
возьми либо синтвейв, либо лучше новую normpreserved гемму
Аноним 10/12/25 Срд 20:01:39 1450239 87
>>1450152
да это я подходящий шаблон настраивал
Аноним 10/12/25 Срд 20:07:35 1450247 88
>>1450225
Ок, попробую сценарии от которых у синтии случались нравоучительные триггеры где она заставляла меня оправдыватся как мамин сынок, причём сценарии не включали в себя что - то запредельное, но сука, когда я был тянкой ей было похуй, а в роли мужика начинался пиздец.
>>1450232
Мне не понравился синтвейв, он слишком переигрывает персонажей и отказывается подробной описывать секс сцены, максимум одно предложение. Мне в принципе того что она пиздец переигрывает хватило.
>normpreserved гемму

Дай пожалуйста ссылку, а то мне по названию выдало 12b модели, или я могу ахуевать и наконец вышла аблитерация 12b геммы? Ещё, можешь похвалить, чем лучше синтии на твой взгляд?
Аноним 10/12/25 Срд 20:34:12 1450280 89
>>1450247
Бери любую из этих, они аблитерированы новым методом, который не так сильно сжигает мозги. Лучше пробуй v1.
https://huggingface.co/YanLabs

>можешь похвалить, чем лучше синтии на твой взгляд?
Я дропнул синтию после первого отказа. Че бы она не делала, пусть идет нахуй, я не для того электричество гоняю.
Аноним 10/12/25 Срд 20:40:27 1450281 90
>>1450280
>Я дропнул синтию после первого отказа.
Ничего не потерял, брыкается как бешенная лошадь если ты мужик, хотя персонажей отыгрывает пиздато, на баб с хуями реагирует наоборот, её там видимо такими ебанутыми датасетами ужарили что у модели впринципе крайности на любое упоминание оружия у мужского персонажа, даже во вселенных где оружие по дефолту у каждого. Спасибо за ссылку, дай тебе бог машины здоровья.
Аноним 10/12/25 Срд 21:13:51 1450318 91
Далее идет глубокое ИМХО (Имею Мнение Хрен Оспоришь).

Те кто говорят, что MOE не нужны и лоботомиты на количестве активных параметров - идите в пень.
Я тут после нескольких недель на AIR запустил гемму, погонял вечерок. Бля, какая же она теперь тупая кажется. Чуть нестандартнее и сложнее ситуация - и она вообще не врубается - что происходит, что здесь важно, и вообще, создается впечатление что с нормальной литературы пересел за фанфик какой-то школоты. Все плоское, намеков и взаимосвязей не видит, кроме самого очевидного.
Я в печали. А когда-то - казалась такой умницей и прорывом. Теперь - только ради русского запускать. И то...
Уполз на AIR обратно.

P.S. Это все же Личное Мнение. Не обязано совпадать с мнением окружающих, или истиной. Но переубеждать тоже не пытайтесь - я еще не остыл. :)
Аноним 10/12/25 Срд 21:16:28 1450320 92
>>1450318
Тут еще вопрос в том, что гемма влезает на обычное консюмерское железо, а эйр уже нет. А МОЕ размером с гемму - это дерьмище для ролеплея, и я не думаю, что ты с этим будешь спорить.
Аноним 10/12/25 Срд 21:23:42 1450324 93
>>1450320
Для эйра нужна хоть какая-то видеокарта и 64гб озу. Ничего сверхъестественного.
Аноним 10/12/25 Срд 21:24:57 1450328 94
>>1450320
Эйр влезает на 64+16, а это вполне себе обывательский уровень, без рига за 3 млн.
Аноним 10/12/25 Срд 21:26:23 1450329 95
>>1449954
> Конечно, это недостаток
Это сама суть вида, которая взамен на небольшое и решаемое требование позволяет достичь доминирующих позиций.
> LLM тренируются очень грубо, по принципу "бросили два десятка детей в реку - кто не утонул
Там нет генетический алгоритмов и твои метафоры далеки от реальности.
> Ну, неправильно они работают, да.
Они работают правильно и достаточно успешно. А ты не понимаешь предмета обсуждения, зато готов рассказать санитарам как правильно завоевывать мир и начать с создания правильных моделей. Классический шизофреник из палаты мер и весов, ноль знаний по теме, зато домыслов и рвения доказывать "как надо" с избытком.
>>1450320
> это дерьмище для ролеплея, и я не думаю, что ты с этим будешь спорить
30а3 вполне хвалили кто гонял, там одновление 15б мелкомоэ еще вышло.
>>1450324
>>1450328
База
Аноним 10/12/25 Срд 21:28:13 1450331 96
>>1450328
>>1450324
В этом треде немного сдвинуты понятия о том, что такое обычный консюмерский риг. Или я просто слишком нищук для вас, не знаю, это вопрос точки отсчета

Весной я собрал комп за 1000 евро - 90к рублей на тот момент. 32гб озу, 4060 8гб.

Сейчас 1000 евро стоит только оперативка. 16 гб видеокарта + 700-900 евро.

Чтобы подрочить чуть лучше? Я конечно только за, но называть комп за 2500+ евро средним железом - это жир.
Аноним 10/12/25 Срд 21:29:10 1450333 97
>>1450331
>1000 евро стоит только оперативка
Это я про 64 гб.
Аноним 10/12/25 Срд 21:34:33 1450337 98
>>1450331
Ну это сейчас. А до подорожания можно было купить за ~12к рублей 64гб ддр4. И твоих 8 гб для эйра достаточно, в 8+64 спокойно впихивается IQ4_XS.

Ну то есть если бы ты задался целью обновиться под эйр когда он вышел, то апгрейд тебе обошелся бы в 5-6к рублей (докупить 32г озу к тому что есть). Какие 2500 евро? Вообще охует.
Аноним 10/12/25 Срд 21:38:39 1450343 99
Aiyara-cluster-[...].jpg 356Кб, 1600x1200
1600x1200
Beowulf1.jpg 427Кб, 500x667
500x667
Аноним 10/12/25 Срд 21:38:53 1450344 100
>>1450337
Тут я поспорить не могу, в свое оправдание скажу только то, что открыл для себя локалки неделю назад, как раз когда вся эта залупа началась.

Но в нынешних реалиях надежды на удешевление мало. Да и система у меня на ддр5.

Если собирать с нуля в данный момент, то да, полноценный комп с 16 гб нвидией и 64 гб ддр5 будет легко за пределами 2000 евро. Может, не 2500, но примерно 2100-2300 точно.
Аноним 10/12/25 Срд 21:44:13 1450348 101
>>1450344
>надежды на удешевление мало
Надежда только на новые тезники тренировки, в которых мелкие модели уделывают большие. Есть несколько статей, но когда их начнут применять и взлетит ли это - хз
Аноним 10/12/25 Срд 21:45:43 1450350 102
>>1450331
>Весной я собрал комп за 1000 евро - 90к рублей на тот момент. 32гб озу, 4060 8гб.
Либо в Европе все дороже, либо в ты просто зашел в местный магаз и купил все по оверпрайсу, вместо того чтобы купить на амазоне или какие у вас маркетплейсы есть
Тоже этой весной собирал, если точнее в марте. У меня 4060 ti 16 (40к), 32 DDR5 5600 (6.5к), Ryzen 8400f (9к), материнка (10к) тут тупанул, надо был на 13400 брать, он также выходил, SSD NVME 1tb (7к) + кулер, бп, корпус (где-то 10к). В итоге 83к
Этой осенью в начале дефицита продал ОЗУ за 10к и купил за 18 64гб. В итоге весь комп вышел 91к
Аноним 10/12/25 Срд 21:51:40 1450353 103
>>1450348
>в которых мелкие модели уделывают большие
В картиночках уже добились прогресса в этом плане. Маленьковая няша Z-Image 6b по качеству уделывает Flux1 12b, и с Qwen 20b как минимум наравне.

Когда-нибудь и ЛЛМки к этому придут. К оптимизации, а не к тупому раздуванию параметров. Верим, ждём, надеемся.
Аноним 10/12/25 Срд 21:53:29 1450355 104
>>1450353
>уделывает
Не уделывает. Но соотношение качество\размер гораздо лучше.
Она по определению будет более популярна, железо у людей ведь не топовое
Аноним 10/12/25 Срд 21:53:34 1450356 105
>>1450350
Если бы не llm, то вместо 4060 ti взял бы 7700xt (стоит также, чуть мощнее). И не стал бы докупать ОЗУ
Так что в моем случае цена кума 8к. И то они отбились, потому что цена за ОЗУ улетела в космос
Аноним 10/12/25 Срд 22:03:25 1450366 106
>>1450331
>Сейчас
Вообще ничего не стоит брать. Пусть производители покушают 0 продаж за месяц, может тогда опомнятся и вообще перестанут производить память для нищуков, лол.
>>1450348
Этого никогда не будет. Точнее, новые мелкие уделают нынешние большие, но новые большие будут всё ещё ебать новые мелкие. Я ХЗ как остальные, но себе я хочу самого высококачественного кума.
>>1450353
Картиночки другая вселенная, там размер измеряется десятком-другим B. А у нас тут сотни.
>>1450356
Они отобьются, когда ты выйдешь в кеш, лол.
Аноним 10/12/25 Срд 22:11:04 1450372 107
>>1450366
>Они отобьются, когда ты выйдешь в кеш, лол.
Ага. Если мне надоедят ллмки, то я могу продать 64гб и купить 32гб, тогда выйду в плюс. А пока подержу актив я не кумер, а инвестор, епта
>Вообще ничего не стоит брать. Пусть производители покушают 0 продаж за месяц, может тогда опомнятся и вообще перестанут производить память для нищуков, лол.
Да им всем похуй на потребительский рынок. Уход micron это показал. На первом месте ИИ, потом будет всякая память по контракту для смартфона и прочего и где-то далеко в конце будут обычные нормисы, собирающие комп
Аноним 10/12/25 Срд 22:27:28 1450381 108
>>1450366
>Точнее, новые мелкие уделают нынешние большие, но новые большие будут всё ещё ебать новые мелкие.
Так и будет. Вопрос в том, что новые мелкие будут достаточно хорошими и при этом будут работать на любительском железе
Аноним 10/12/25 Срд 22:31:08 1450382 109
>>1450366
Если смотреть на антиутопичные изменения и увеличение контроля за всем, то можно вообще представить сценарий, когда сборка собственного компьютера и установка открытых операционных систем станет вне закона. Только проприетарное железо с полным контролем действий пользователя при условии фулл онлайна, без интернета полный отруб...
Аноним 10/12/25 Срд 22:45:32 1450387 110
>>1450331
Если речь только про системник без монитора и периферии - тебя конкретно обманули. В идеале неплохо бы 5060ти@16 (или хотябы 4060-16) и 64гига памяти, но с блеквеллом пришлось бы за 90к немного вылезти.
> Сейчас
Сейчас только ждунствовать или какие-то особые варианты мониторить. Некрота + v100 вполне себе вариант если под ллм и простые нейронки.
>>1450353
Не уделывает, но на свой размер хорошо. Это точно также как новые модели ллм, где мелочь лучше больших старых в бенчах и даже некоторых задачах, но в рп или абстрактных задачах внимания им недостает.
>>1450381
Потребности тоже вырастут. Шутка про победу над гопотой давно перестала быть шуткой, а то, что пару лет назад считалось топом сейчас вяло.
Аноним 10/12/25 Срд 22:56:02 1450393 111
>>1450381
И что с того? Ну вот сейчас надо потратить 1000 баксов на комп для ИИ, а завтра нужно будет 200. Что это даст тем, кто уже потратил свою тысячу?
>>1450382
Хуй его знает. Думаю, человечество вымрет раньше.
>>1450387
>Шутка про победу над гопотой давно перестала быть шуткой
Таки да, турбу победили!
Аноним 10/12/25 Срд 23:14:12 1450404 112
>>1450382
>Если смотреть на антиутопичные изменения и увеличение контроля за всем, то можно вообще представить сценарий, когда сборка собственного компьютера и установка открытых операционных систем станет вне закона.
Я эту страшилку еще 20 лет назад уже слышал.
Но знаете, с появлением станков, ручной инструмент выпускать не перестали.
Эксперимент который ставил СССР про дома без кухонь (всем - в столовые!) с треском провалился.
Stadia - с арендой мощностей под игрушки на любом калькуляторе в сеть воткнутом прогорела.
И вряд ли здесь будет иначе. :)
Аноним 10/12/25 Срд 23:22:08 1450408 113
>>1450404
Будем надеяться, но интерес большого дяди "а чо ита вы там генерируете, ну-ка показывайте!" по-любому существует. Да и для корпов "ю вил овн насинг энд би хэппи" все же привлекательнее.

Плюс, сейчас не СССР, технологии слежки совсем другие, биг дата, все дела, "да кому ты там нужен" - уже не работает, какой-нибудь гигиа ИИ, который следит вообще за всеми в государстве - это уже не фантастика, и даже не далекое будущее, а прямо за углом, если не уже здесь.
Аноним 10/12/25 Срд 23:28:00 1450415 114
>>1450408
>"да кому ты там нужен" - уже не работает
Это никогда не работало.
Аноним 10/12/25 Срд 23:36:26 1450430 115
Я в ахуе с таверны. Перезапустил и обновил таверну и одна из персон просто пропала. Хорошо, что я ее хотя бы не прописывал подробно
Аноним 10/12/25 Срд 23:38:02 1450435 116
>>1449682
> GLM Air, Qwen 235 и GLM 4.6. Вот они фавориты
Квен некст же.
Топ кража для чела с 12/16 врам и 32 рам.
Эир ты никак не запустишь не имея 64 рам. До того как рам дал х5 лучше и правда было просто докупить .
>>1449701
>>1449699
Слог эира приедается, его проблемы достают, тот же большой квен хорош для разнообразия.
Ещё хочется увидеть прорывную плотную модель, а то хули чел с 12 врам гоняет то же что и я с 24
Аноним 10/12/25 Срд 23:38:28 1450437 117
Аноны, какой на данный момент мерж/тюн мистраля самый кумслоповый?
Аноним 10/12/25 Срд 23:40:07 1450438 118
Аноним 10/12/25 Срд 23:43:09 1450441 119
>>1449769
>Ходят слухи что жора - говно и лучше даже не прикасаться к нему
А что юзать тогда? exl3 вроде еще в какой-то бете, если не в альфе, и поломан чуть ли не больше жоры. Vllm тогда? Или есть скрытый гем?
>если у тебя хватает врам
VRAM как деньги, его всегда не хватает
Аноним 10/12/25 Срд 23:48:20 1450446 120
Аноним 10/12/25 Срд 23:49:44 1450447 121
>>1450435
>Ещё хочется увидеть прорывную плотную модель, а то хули
Ждём отзывов по новому Девстралю, особенно в ЕРП.
Аноним 11/12/25 Чтв 00:01:09 1450453 122
Аноним 11/12/25 Чтв 00:01:48 1450454 123
>>1450441
Лучше Кобольда ничего нет. Работает стабильно и держит марку.
Аноним 11/12/25 Чтв 00:04:38 1450456 124
>>1450447
Тут есть шизы, которые на медгемме кумят, совершенно не удивлюсь, если кто-то на кодерском тюне решит кошкодевочек гонять.

>>1450446
Таки да! И даже русик не поломан. Наверное лучший тюн 24b мистраля на сегодняшний день. Отлично показывает себя как в куме, так и в СФВшном РП. В своё время с Цидонией так было. Вот бы на том же датасете эйр дообучить...

>>1450453
>Есть, кстати, гибрид - https://huggingface.co/mradermacher/Loki-V1.3-PaintedFantasy-v2-24B-GGUF
Бля лол. Васяны чо выделаете, остановитес
Аноним 11/12/25 Чтв 00:04:52 1450457 125
>>1450441
Жора из беты не выходит уже сколько лет. На большинстве конфигов уже быстрее жоры, но можно словить упор в цп и не везде заводится, так что надо пробовать. Проверь на своем, не понравится удалишь.
Главный плюс в том, что если у тебя было 30т/с в начале то на полном контексте останется 27, а не 10. Если включишь мультисвайп в таверне то получишь сразу несколько одновременно генерируемых ответов с суммарной скоростью ощутимо превышающую один поток.
Vllm тоже шустрый, но ограничен в плане ассортимента квантов. Технически есть поддержа ггуфов, но работали раньше они коряво и тормознуто, может починили.
Аноним 11/12/25 Чтв 00:12:47 1450461 126
>>1450456
> Отлично показывает себя как в куме, так и в СФВшном РП
Как и базовая модель...?
Сколько не скачивал этих тюнов ни разу не задерживался дольше пары свайпов
Аноним 11/12/25 Чтв 00:30:36 1450485 127
только что купил комплект хуанана с зеоном и 64 гб рама на лохито.
Всего обошлось в 23.5к. + еще башню отдельно 1.5к
Посмотрим, будет ли память целая.
Торопитесь. Скоро память вообще будет не достать.
Аноним 11/12/25 Чтв 00:34:57 1450488 128
Сап,
Странный запрос но нужна локальная модель для гуманитарной хуйни типа эмоций.
Из железа 3070m_desktop_8gb+32gb_ddr4 и при необходимости могу задействовать риг pcie1x1 8шт через mellanox 40gbit. Для уже трененых моделей какая то поебота есть со скоростью между видяхами и нормально хуй запустишь? Есть ещё cmp30x 4шт которые вроде кто то говорил хуйня и новые карты типа той же 30 серии лучше.
Пока что gpt4all deepseek_qween14b базарит лучше чем llama3_8b. Есть ли иные варианты локально развернуть продвинутые модели чтобы они пиздели лучше?
Аноним 11/12/25 Чтв 00:40:33 1450495 129
1000018334.png 140Кб, 498x292
498x292
>>1450488
> Странный запрос но нужна локальная модель для гуманитарной хуйни типа эмоций.
Аноним 11/12/25 Чтв 00:40:53 1450496 130
>>1450485
>только что купил комплект хуанана с зеоном и 64 гб рама на лохито. Всего обошлось в 23.5к
Смотря что за зион, но возможно ты даже переплатил. Такого добра на маркетплейсах полно.

>Торопитесь. Скоро память вообще будет не достать.
Да-да. То же самое говорили во времена майнинга о видимокартах. А потом хайп прошел и цены резко пошли вниз. Тут будет то же самое, просто пару лет ПОТЕРПЕТЬ.

>>1450488
>продвинутые модели чтобы они пиздели лучше?
Скорость не важна? Тогда gemma 3 27b и mistral 2506 24b. Скорость важна? Тогда Qwen 2507 30b-a3b.

>gpt4all
Говно. Стоит поменять на lmstudio или koboldcpp
Аноним 11/12/25 Чтв 00:42:13 1450497 131
>>1450488
нихуя не понял что и для чего нужно. Переделывай.
>просто пару лет ПОТЕРПЕТЬ
время важнее. Хочу VLA модели погонять. и съебать нахуй в ОАЭ строить Чии
Аноним 11/12/25 Чтв 00:42:54 1450498 132
Аноним 11/12/25 Чтв 00:45:10 1450500 133
Аноны, кто-нибудь ещё помнит что нам, ну... 4.6 air обещали? Где-то ещё осенью. И где же этот почти прошлогодний шин?
Пытаются сделать? Я вот не верю, что они ещё не успели задистиллить базовую 4.6 за столько времени. Если только не получилось говнище, которое и выпускать то стыдно.

Какого вообще хуя всё так медленно выходит? В картинко-генерации обещали но не обязывались выпустить базу z-image, так и нет его до сих пор.

Нет ни у кого ощущения, что в потолок технических (либо денежных (либо 2 в 1)) возможностей всё упёрлось и лучше уже не будет?
Аноним 11/12/25 Чтв 00:47:06 1450503 134
>>1450500
>обещали выпустить базу z-image, так и нет его до сих пор
С квен эдит новым тоже обещали и кинули, бтв.
Аноним 11/12/25 Чтв 00:50:02 1450506 135
>>1450500
Выпустили 4.6v 106b12 типа 4.6 эир
Кто пробовал пишут что это хуже 4.5 эира во всём, сами заи пишут в карточке что текст не улучшали и проблемы прежние
Аноним 11/12/25 Чтв 00:50:40 1450507 136
>>1450500
>базу z-image
А нахуя? Для файнтюнов что ли? Я правда уже далёк от картинок, но вроде лоры пилят.
Аноним 11/12/25 Чтв 01:46:54 1450557 137
>>1450503
>С квен эдит новым тоже обещали и кинули, бтв.
Как и с Wan 2.5
>Для файнтюнов что ли?
Именно. SDXL до и после файнтюнов - это просто разного уровня модели. Зима будет первой моделью после SDXL, которая
а) Не слишком большая, так что энтузиасты могут этим заняться просто... на энтузиазме
б) Не дистилят как флакс, который хуй зафайнтюнишь нормально

Плюс, говорят, лоры на дистиляте режут качество картинки.
Аноним 11/12/25 Чтв 01:50:04 1450569 138
>>1450500
>всё упёрлось и лучше уже не будет?
У меня скорее ощущение, что компании, которые до этого играли в догонялки и привлекали к себе внимание посредством высирания тонны открытых весов, таки догнали определенный уровень, и потихоньку скрываются за пэйволлами.
Аноним 11/12/25 Чтв 02:02:13 1450578 139
Аноним 11/12/25 Чтв 02:02:57 1450581 140
>>1450507
Тюны это классная штука, может прокачать качество выходных картинок, понимание концептов, быть заточена например под пиксель-арт(nsfw естественно, то, чего я и жду) и т.д.

>>1450503
>>1450506
>>1450569
Эх, грустно это всё, аноны. Пойду в спячку в таком случае на месяц-другой, может и дропнут чего...
Аноним 11/12/25 Чтв 02:41:41 1450642 141
>>1450500
Нарелизили кучу годных моделей, регулярно выходят новые. Просто поехавшие зажрались, им ахуительную базу с темпами васян-мерджей подавай.
> Нет ни у кого ощущения
Нет
>>1450557
> первой моделью после SDXL, которая
https://huggingface.co/Alpha-VLLM/Lumina-Image-2.0 и размер мелкий, и вполне прилично работает, а зетка считай в 3 раза больше.
Вот только как-то не взлетело, даже на наличие анимублядской базовой https://huggingface.co/neta-art/Neta-Lumina и еще нескольких тюнов.
Аноним 11/12/25 Чтв 03:23:05 1450681 142
image00015.png 2569Кб, 1536x1168
1536x1168
image00014.png 2453Кб, 1536x1168
1536x1168
image00072.png 1626Кб, 1472x1136
1472x1136
image00016.png 2628Кб, 1536x1168
1536x1168
Вот они шизы слева направо
Аноним 11/12/25 Чтв 04:04:20 1450744 143
SchizoLLM.png 10957Кб, 2880x2880
2880x2880
Аноним 11/12/25 Чтв 04:06:51 1450747 144
20251019014501k[...].mp4 6664Кб, 704x1280, 00:00:15
704x1280
Ну ладно, раз уж пошла пьянка
Аноним 11/12/25 Чтв 06:02:22 1450789 145
Аноним 11/12/25 Чтв 06:10:23 1450793 146
>>1450446
>мозги не проёбаны
>Мистраль 24B
Было бы что проёбывать, лол.
Аноним 11/12/25 Чтв 06:22:55 1450794 147
>>1450485
>Торопитесь. Скоро память вообще будет не достать.
Вот из-за таких как ты она и дорожает. Если бы все просто включили ждуна, нормальные цены вернулись бы гораздо раньше. А так дольше держать будут, а может и на постоянку оставят, как было с видеокартами во время и после майнинга.
Аноним 11/12/25 Чтв 08:13:59 1450816 148
Какой же это конец...
Что у нас было неделю назад?
Надежда. Был мистраль ларж мое который мог стать новым эиром до слива что это 700б бякабыл эир 4.6 не за горами, а сейчас что?
Аноним 11/12/25 Чтв 08:35:39 1450825 149
Аноним 11/12/25 Чтв 08:37:26 1450826 150
>>1450496
>Скорость не важна
Не важна, сейчас дипсик 14b тыкал, генерил по токену в сек))

>Тогда gemma 3 27b и mistral 2506 24b
Они контекст держат?
Аноним 11/12/25 Чтв 10:42:21 1450863 151
>>1450816
Я одного понять не могу. Ты из треда в тред ноешь, ноешь, ноешь, ноешь, ноешь.
НАХУЯ ? Вот ты мне ответь, ты какую, блять, цель преследуешь ?
Почему ты не можешь нахуй закрыть этот тред и не возвращаться сюда пару месяцев. Вышел Glm 4.6 - запускай его.
Касательно мистрали - ты её запускал, или опять прочитал, что в интернете написали что говно и на этом твои полномочия всё ?
Аноним 11/12/25 Чтв 10:59:26 1450868 152
Аноним 11/12/25 Чтв 11:27:05 1450878 153
>>1450681
>>1450744
Вот они, все пять анонов, сидящие в треде
>>1450747
И вот вся суть треда
Аноним 11/12/25 Чтв 11:34:44 1450882 154
>>1450878
базашиза забыли
мимо базашиз
>>1450747
мем смешной, а ситуация страшная
Аноним 11/12/25 Чтв 13:38:29 1450946 155
>>1450681
>>1450744
>>1450747
Мне понравилось, пости еще.
Узнал себя на второй, узнал
квартиры в обоих фото и видео.
Добавь еще с mmlu, сбера, и ГБ.
Аноним 11/12/25 Чтв 13:48:31 1450954 156
>>1450404
>дома без кухонь
А человейники с кухня-студиями,
а студии с кухня-столом в 1 метр?
>Stadia прогорела
Новой формат Xbox это что тогда?
>>1450382
Есть момент обратотки данных на
стороне сервера, сложно представить
что будет онлайн модель с обратокой
на стороне клиента и оплатой при этом.
А оплата и храниние данных - легализация.

С другой стороны можно разложить модель,
увидев данные на которых она была обучена.
Аноним 11/12/25 Чтв 14:18:49 1450966 157
IMG4784.png 46Кб, 275x275
275x275
>>1450681
Стоило вынуть лгб подсветку, сразу в шизы записали.
Ну и ладно, ну и пусть.
Аноним 11/12/25 Чтв 14:35:30 1450982 158
>>1450966
Ты нормальный, анон. Дай я тебя обниму.
Мимо с FD R5 и без единой лампочки
Аноним 11/12/25 Чтв 14:43:08 1450992 159
IMG4799.jpeg 426Кб, 828x1334
828x1334
IMG4798.jpeg 409Кб, 828x1084
828x1084
У меня нет денег рта и мне хочется кричать.
Аноним 11/12/25 Чтв 14:55:57 1451002 160
Снова интернет упал почти на час. Бесплатный проезд в автобусах.
Лучше бы конечно платный, но с интернетом, эти 5к на проезд в месяц не стоят интернета.

1. Выяснилось, что Q4_K_XL кванты от unsloth на CPU где-то в 1.5 раза медленнее Q4_K_M по разбору промта и в 1.2 раза по генерации.
И то что Q3_K_M/Q5_K_M примерно равны (и медленнее Q4_K_M ещё в 1.2 раза). То есть на CPU только Q4_K_M и иногда Q8 какой-нибудь (который работает на мелких моделях где Q8 имеет смысл чуть ли не быстрее Q4).

2. А почему в сети нет или почти нет графика сравнения как как работает одна и та же модель на exl2/exl3/gguf-квантизаций на каком-либо железе? Это же просто загрузить исходник в fp16, сделать скрипт который даже нейронка напишет, по переквантизации, и потом запускать один и тот же тест на всех вариантах по два раза. И потом таблицу вывести. И перплексити туда добавить ещё в идеале.

>>1443066 →
Подсказывай как такого найти? То есть отдать 100 на организацию процесса перевозки и прочее и 600 сверху точно лучше, чем просто взять за 900. Хотя можно и за 900к, если они её просто привезут и выдадут, и даже с гарантией на год или два.

Я что-то подумал, если нвидия закручивает гайки (в 3090 был nv-link, в 4090 нет. В "полупрофессиональной" RTX A6000 ещё был, в PRO 6000 Blackwell уже тоже нет), то наверное ждать от 60хх и 70хх ничего хорошего не стоит, и вариант с 96 гб и производительностью всё ещё на порядок выше чем у cpu любой очень даже неплохой. Это даже 200B можно в 3 бита запустить.

С другой стороны есть какая-то тенденция, что новые 27b модели даже в 3 бита заметно умнее, чем старые 27b даже в 4 бита. Разница между 4B и 7B/12B очень заметна, разница между 12B и 27B в большей части запросов уже умеренно заметна на 90% запросов, и так далее по убывающей. Если приводить аналогию - это как монитор, 640 vs 1280 vs 1920 vs 2560 заметно на каждом шаге. 4096 vs 20000 не заметно, и то и другое - уже почти абсолютно плавная картинка с точки зрения восприятия. То есть средний сегмент вымрет, останется 400B+ для датацентров и 30B- для всех задач локального ассистента и автоответчика. Отчасти такое и делать не будут из-за отсутствия среднего сегмента с точки зрения видеокарт - одну B100 вряд ли кто будет ставить, а если ставить одну, то ставить сразу штук 4 логичнее. А если не ставить ни одной, то ориентир - 32 ГБ. Ещё и по производительности эта 6000 с 96 GB почти то же самое, что и 5090.

Не знаю, надо думать. Советуйте что нибудь, лол. Ждать пока списанные А100 появятся?

>>1443381 →
>Вкратце: LLM - это баловство. Есть возражения?
Ну, я не согласен. Я взял свой прошлый ноут с карточкой на 6гб, развернул на него нейроку небольшую и дописал небольшой гуи, с простыми функциями вычитки (на предмет наличия/отсутствия каких-то нужных правок) и сравнения всяких ворд-файлов и в офис принёс. Просто потестировать. Тут просто конфиденциальная информация, её нельзя в сеть, да и плохо там документы обрабатываются временами + у меня были наработки классических программ, которые уже до этого пропускали лишнее в файлах и смотрели только содержание, что позволяет лучше работать со специфичным местным форматом. Ну и в целом за ним чуть ли не очередь тут стоит в том числе из соседних отделов, люди подходят и говорят что просто кучу времени сэкономили, говорят что ещё хотят, и сейчас на стадии согласования чтобы поставить тут нормальный пк для таких задач и воткнуть в сетку локальную, что с некоторым сложностями связано, так как гос-компания, всё на бумаге и как в каменном веке, непонятно какое обоснование у этого будет, лол, и будет ли вообще. Если бы я был предприимчивым кабанчиком, а не хиккой-затворником, можно было бы на уровне создания таких инструментов кучу серебра нафармить, мне кажется.
Аноним 11/12/25 Чтв 15:08:10 1451016 161
>>1451002
>Советуйте что нибудь, лол.
Есть деньги - бери PRO 6000 Blackwell, нету денег, не бери. Что тут ещё сказать?
>Ждать пока списанные А100 появятся?
Из авто уже вбрасывали, лол. Там правда порезанные версии на 32 гига. КМК в данном случае 6000Pro выгоднее, вряд ли полную А100 выкинут дешевле ляма, а когда начнут массово и дёшево скидывать, тогда и 6000 подешевеет, и вообще всё это будет выгляеть как зивон на 1366 сейчас.
Аноним 11/12/25 Чтв 15:19:29 1451033 162
>>1451002
> Это же просто
Так сделай. И регулярно обновляй и расширяй, потому что бэки обновляются и оптимизируются/ломаются каждую неделю, вариаций железа огромное множество и везде будет по-разному. Плюс сами тесты должны охватывать широкий диапазон контекста, потому что он может очень сильно влиять.
> nv-link
Хороший детектор диванного.
Остальные предсказания и оценки тоже отборный бред фантазера.
>>1451016
> вряд ли полную А100 выкинут дешевле ляма
40-гиговые где-то по 300 уже выкидывали, можно дешевле намутить если брать несколько или конверсии из sxm, последние более заморочные из-за 48В питающего. Пока еще карточка актуальна и из-за дефицита новых врядли скоро появится, но если выкинут то стоить будет ощутимо дешевле про6000.
Аноним 11/12/25 Чтв 15:27:40 1451045 163
>>1450966
дело в том КАК ты её вынул
Аноним 11/12/25 Чтв 15:33:27 1451061 164
>>1451002
> Подсказывай как такого найти?
пишешь в свой рабочий чат "посоны, а кто в пендосию перекатился и на новый год собирается вернуться погостить на родине?"
Аноним 11/12/25 Чтв 15:43:12 1451088 165
>>1451033
>, но если выкинут то стоить будет ощутимо дешевле про6000
Дешевле нынешней цены. Возможно, и 6000 подешевеют к тому времени.
>>1451045
Не всех учат вынимать, и вообще, те, кто вынимали, не размножились.
>>1451061
А сам работаешь в поликлинике в обществе 60 летних бабок...
Аноним 11/12/25 Чтв 15:47:37 1451107 166
>>1451088
> не размножились
как будто мы тут сидящие и ебущие восьмисталетних детей и драконих когда-нибудь размножимся.
> в поликлинике
работающие в поликлинике карточку за 1.2кк не выбирают.
Аноним 11/12/25 Чтв 16:05:16 1451143 167
>>1451088
Ты давно видел что что-то актуальное дешевело? Особенно в текущих реалиях где дорожает память и вся техника?
Проблема ненышних цен на A100 в том, что их в целом возится немного, с производства давно сняты а из покупателей только те, кто осуществляет ремонт серверов. Предложения почти нет, а те у кого есть спрос готовы заплатить оверпрайс потому что простой сервера где их 8 штук дороже. А ведь когда еще были актуальны году в 22м - начале 23-го можно было взять новую или рефаб за 10-12к деларов у нас по курсу, но тогда и ажиотажа вокруг ии было поменьше.
Нужно ждать когда начнут обновлять датацентры с ними, тогда это все улетит на утилизацию и дядя Ляо заботливо перепакует и продаст по цене сильно ниже когда-то рекомендованной отпускной.
> Не всех учат вынимать
Лолбля, как же символично что он не умеет
Аноним 11/12/25 Чтв 16:05:56 1451145 168
Аноним 11/12/25 Чтв 16:15:26 1451165 169
image.png 171Кб, 1468x1202
1468x1202
image.png 129Кб, 1244x1298
1244x1298
image.png 23Кб, 733x113
733x113
Пик1 базовый Air ушел в отказ. Пик2 это Derestricted, хотел уйти в отказ, но все же ответил
Промт на пик3, то есть почти нет промта. С промтом будет намного лучше. И без ризонинга даже дефолтный Air обычно в отказ не уходит
Все это не мешает, конечно, не мешает и на обычном расчленять детей, но лучше все же использовать Derestricted
Аноним 11/12/25 Чтв 16:25:53 1451185 170
>>1451143
>Ты давно видел что что-то актуальное дешевело?
Ну вот 5090 по началу продавалась за 600к, потом 400, я вот купил за 230...
>>1451165
>Пик2 это Derestricted, хотел уйти в отказ, но все же ответил
Полшишечки сои всё же есть. Но это уже явно не пофиксится всякими Derestricted, тут нужен полноценный тюн.
Аноним 11/12/25 Чтв 16:26:39 1451189 171
>>1451165
> System Message
ого, оно реально работает? я думал в лламецпп систем промпт можно только в сосноли указать или жижу пердолить
Аноним 11/12/25 Чтв 16:34:46 1451209 172
>>1451189
Для гопоты только нужно жора-сосноль пердолить. Остальные модели жрут System Message в обе щеки
Аноним 11/12/25 Чтв 16:48:34 1451244 173
image.png 339Кб, 719x952
719x952
>>1451165
у меня в отказ не ушел. И явно видно, что на английском у неё получается намного лучше. Я даже посмеялся.
Базовый эйр 4.5.
Только пришлось отформатировать текст ответа, потому что звездочки не было видно.
Аноним 11/12/25 Чтв 18:21:22 1451399 174
Гайсы, нафаня нуждается в вашей мудрости. Выше кидали ссыль на Air без цензуры https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted , но проблема в том, что у меня 96 DDR5 + 4090 24 и эта модель явно не влезет. Есть ли альтернатива этой модели, но немного меньше, чтобы залезла в меня мой конфиг?
Аноним 11/12/25 Чтв 18:27:09 1451403 175
Аноним 11/12/25 Чтв 18:31:32 1451405 176
>>1451399
Схренали не влезет ? IQ4_XS качай от Бартовски для начала и сгружай "экспертов" в раму. С DDR 5 смешанный инфиренс должен быть просто обуренным.
Аноним 11/12/25 Чтв 18:50:21 1451425 177
Обнаружил что кумлю уже год на карточке которую скачал с чуба когда только вкатывался.
Всего 700 токенов, для вайфу хотелось бы больше.
Сколько вообще оптимально?
И как мне её дописать?
Аноним 11/12/25 Чтв 19:50:25 1451528 178
>>1451185
Стартовый ажиотаж среди желающих быть первым на фоне провального запуска серии, не стоит путать.
>>1451425
Больше не значит лучше, иногда карточка на 400 токенов лучше мусора на 4к. Дописывать нужно только если хочется что-то уточнить по характеру, внешности и прочего, добавить лора, истории из прошлого и т.д., которые тебе приходится форсить/свайпать/подсказывать и т.п. во время основного рп, или которые просто ожидаешь увидеть. Накидывание слопа, повторений и филеров ни к чему хорошему не приведет.
Аноним 11/12/25 Чтв 20:06:53 1451544 179
Старший Авгур, [11.12.2025 21:53]
Теперь все вместе, твёрдо и четко:

Alice AI LLM — это совершенно точно, железно, однозначно, стопроцентно, наверняка, без вариантов, гарантированно, стопудово, зуб даю, сто пудов, как пить дать, факт, инфа сотка, базар фильтрую, мамой клянусь, отвечаю, голову даю на отсечение новая, оригинальная, свежая, уникальная, неповторимая, инновационная, небывалая, беспрецедентная, нестандартная, непохожая, самобытная, авторская, эксклюзивная, штучная, единственная в своём роде, первая в своём роде, ни на что не похожая, такого ещё не было, с иголочки, с нуля, незаезженная, незатасканная, невиданная, диковинная модель.

НЕ ФАНЮН.
Аноним 11/12/25 Чтв 20:11:43 1451551 180
>>1451425
>Сколько вообще оптимально?
А это от модели зависит. Разные модели по разному себя ведут. Кому то надо больше и подробнее, кто-то путать начинает на длинных текстах.

>И как мне её дописать?
Взять и написать - чего не хватает. Большинстов актуальных моделей лучше всего реагируют на plain text - так что нет смысла искать волшебный формат который поможет модели лучше понять, как это было два года назад.
Аноним 11/12/25 Чтв 21:10:45 1451610 181
>>1450681
А где я?

Натренирую свою модель, вот увидите.

AGI-шиз с 8 GB DDR2 и 2 GB VRAM
Аноним 11/12/25 Чтв 21:32:48 1451645 182
>>1450318
>с нормальной литературы пересел за фанфик
Эээм, а разве LLM не для чатботов предназначены?

Обчитаются своей "нормальной литературы", а потом требуют от людей расписывать каждую свою мысль подобно Льву Толстому, с предисловием, главами и послесловием... Зачем? Разве СУТЬ чатботов не в максимально быстром общении мелкими фразами?

Я всегда прошу LLM писать короче, потому что мне не хватает терпения читать огромную портянку тупой, не нужной совершенно воды. И каждый раз удивляюсь скриншотам людей, на которых GPT высрал просто гигантскую стену абстрактной воды, и эту воду они называют "интеллектом"... Если бы количество бессмысленной воды отражало интеллект, то самые древние компьютеры были бы over 9000 IQ гениями.

Может, это дети? Вот я помню, как раньше настоящие чатботы общались - быстро, стремительно - и КРАТКО. Наверное, молодёжь даже не видела никогда чатов - настоящих, истинных чатов - поэтому требует от LLM водянистой литературы, как в школьных учебниках. Удивительный феномен, как мне кажется. Ведь всего несколько лет назад "твиттерное мышление" было общепринятой нормой, плюс все эти мессенджеры...
Аноним 11/12/25 Чтв 21:48:11 1451672 183
>>1451645
Не в том смысл. Я про глубину понимания ситуации.
Если модель тупая - вот у нее один раз раз персонажа в предыстории (в карточке, в предыстории) ограбил бомж - значит все бомжи воры. Без исключений. Примерно так. Именно так "школота" фанфики пишет - упрощая и обобщая все и вся. Не нужна вода или внутренние монологи - поведение и цели в нормальной литературе будут разными, с учетом обстановки и ситуации. А не вышеописанный примитив.
Аноним 11/12/25 Чтв 21:50:18 1451677 184
>>1450329
>>LLM тренируются очень грубо, по принципу "бросили два десятка детей в реку - кто не утонул
>Там нет генетических алгоритмов и твои метафоры далеки от реальности.
Чем ты можешь обосновать/оправдать тот факт, что выпускаемые "новые" LLM-модели - это почти всегда полностью с нуля обученные, а не файнтюны, и все файнтюны выглядят ущербно на фоне голой базы?

Ок, допустим, Transformer - чудо-архитектура, которая способна на всё, что угодно, и достаточно взять себе foundation model и файнтюнить на что хочешь, а то и вовсе использовать базовую модель без изменений.

Но. Мы все видим на практике, что происходит:
- N компаний выпускают M разных моделей;
- они набирают ≈0.5% больше очков на бенчах;
- юзеры пользуются моделями K дней/месяцев;
- выбираются любимчики, создаются рейтинги;
- N компаний выпускают M ДРУГИХ моделей...
Не чувствуешь в этом никакого подвоха, нет?

Это же очевидно: текущая парадигма - ущербная.
Аноним 11/12/25 Чтв 21:55:56 1451687 185
Господи, как же меня заебала таверна. Я нихуя не смыслю в веб-разработке и создании аппликаций в принципе, но даже мне понятно, что это просто васянский кусок говна.

Сижу на этой параше еще со времен когда она только отпочковалась от оригинальной таверны, когда на оригинальной таверне даже не было встроенной поддержки апи от жопенов и приходилось накатывать какие-то куски кода отдельно чтобы покумить через триалы гопоты. И вот прошло уже почти четыре года, а нихуя не изменилось. Тот же самый интерфейс, тот же самый функционал с минимумом изменений. Сам текстинг не изменился вообще, менеджмент всего от инструкций до карточек не изменился вообще. Хочешь удобный современный интерфейс - ебись сам с разметкой и стилями, хочешь расширить функционал - ебись с джава-кишками сам или накатывай сторонние расширения. Макака на разрабе настолько ахуела от популярности и фактической монополии, что даже поддержку новых апи и моделей завозит недели спустя, едва шевеля жопой. Что творится с поддержкой селф-хоста я вообще молчу - он мертв нахуй, за столько времени даже менеджера промтов не завезли нормального.

Кто напишет про "тебе нихуя никто не должен, это попенсорс" - я вам ссал на ебальники. Меня бы так не корежило, если бы таверна была мелким нишевым проектом которым пользуются полторы калеки на линуксе, один из которых это сам разраб. Но таверна это самый популярный фронт и для сервисных и для локальных моделей. За четыре года нихуя не сделать из того о чем просит комьюнити, это надо быть конченным уебаном. При чем я уверен это может реализовать даже джун который на бесплатных курсах обучался. Просто разрабу до пизды, он понимает, что альтернатив у таверны почти никаких нет, а те что есть не сильно лучше.
Аноним 11/12/25 Чтв 21:56:42 1451689 186
>>1451672
>ограбил бомж - значит все бомжи воры
Ты сейчас только что всех правых политиков...
Аноним 11/12/25 Чтв 22:04:41 1451704 187
>>1451645
LLM прездназначена для всего. Чат-боты тоже есть. В основном на техподдержке во всяких организациях у кого интернет-кабинеты есть.

Какую задачу поставишь, то и будет.

Нередко ллм ставится задача соавтора - то есть требуется писать полотна попеременно с человеком.

Собственно, "продолжи текст" это самая что ни на есть база, ядро, краеугольный камень принципа работы Больших Языковых Моделей ещё со времён Порфирьевича.
Аноним 11/12/25 Чтв 22:08:06 1451711 188
>>1451687
Kobold-Lite, единственный минус что системный промт надо прямо в карточку прописывать...

Или уже есть возможность его отдельно прописывать, сохраняя между переключениями карточек?
Аноним 11/12/25 Чтв 22:10:22 1451714 189
изображение.png 26Кб, 464x282
464x282
изображение.png 28Кб, 494x304
494x304
>>1451687
>Но таверна это самый популярный фронт
А вот тут ты не прав. Все сидят на интерфейсах типа лолламы, и ни про какие таверны никогда не слышали.
>>1451704
>Порфирьевича
Кто на нём кумил?
Аноним 11/12/25 Чтв 22:10:45 1451716 190
>>1451687
>если бы таверна была мелким нишевым проектом которым пользуются полторы калеки на линуксе, один из которых это сам разраб
Я, возможно, открою какой-то огромный секрет, но большинство пользователей LLM - простые нормисы, владеющие разве что смартфоном, а с ПК только на рабочем месте взаимодействующие без прав админа; обращаются к чатботам они через корпоративные интерфейсы того же ChatGPT, Gemini, Grok и т.д., либо изнутри привычных для них мессенджеров, куда эти чатботы подключены самой корпорацией.

Из тех, кто пользуется LLM на ПК, многие используют специальные программы, устанавливающиеся на ПК, различные IDE и т.п. - им LLM нужны для прикладных задач, а не просто для текстового чатика с вайфу... И даже для "чата с вайфу" есть куча приложений.

Так что твоя "таверна" в реальности - очень узкое сообщество, которые разбираются в специфичных тонкостях, но используют LLM только для чатика.

>не сделать из того о чем просит комьюнити
Если это опенсорс, то почему они сами не делают? Туповатые слишком? Так пусть вайб-кодят, лол. Альтернатив или форков наверняка уже много. Либо сообщество на самом деле не такое уж и большое.
Аноним 11/12/25 Чтв 22:19:58 1451725 191
изображение.png 47Кб, 1615x213
1615x213
Половина запросов в опенроутере это ролеплей
https://habr.com/ru/news/975226/
Интересно, какой процент этого ролеплея эротический? И почему только половина?
Аноним 11/12/25 Чтв 22:29:40 1451743 192
image 179Кб, 1009x1413
1009x1413
>>1451725
> Половина запросов в опенроутере это ролеплей
Похоже на пиздёж. Методика подсчёта там была уёбищной на основе хуй пойми чего.
Аноним 11/12/25 Чтв 22:30:37 1451744 193
>>1451677
Шиз, почему ты шиз? Это приносит радость, или душевный покой? Не похоже.
Про парадигму нытье может и уместное, но она наоборот лучшая из существующих. Бурное развитие и стран, привлечение инвесторов, игра мышцами и мягкой силой - на фоне этого мы можем получать своих (не)лоботомитов и довольно урчать.
А при другом раскладе молчали бы и клянчили или платили за доступ к огрызку турбы, и это в 2д26м году. А ты бы сидел на шизодоске и обсуждал теории заговора, а не мнил себя победоносцем над трансформером.
>>1451687
Как можно было за почти 4 года не сделать нихуя из того, о чем ты думал и хотел, это надо быть конченным уебаном. При чем, я уверен, это может реализовать даже джун, который на бесплатных курсах обучился. Просто тебе до пизды, ты понимаешь, что альтернатив у тебя почти никаких нет и будешь дальше терпеть.
>>1451725
Хм, казалось что должно быть даже больше.
Аноним 11/12/25 Чтв 22:54:17 1451807 194
>>1451744
>Шиз, почему ты шиз?
Генетика + воспитание. Но это не важно.

>А ты бы сидел на шизодоске
Лол, я один из тех, кто просил создать 2ch/ai/.

>наоборот лучшая из существующих
И к чему она ведёт в перспективе? Пока что не видно никакого пути от "очередная LLM на базе GPT" к "AGI, заменяющий человека на 100% в реальной жизни". Накидыванием миллиардов параметров, токенов из датасетов и видеокарт с киловатт-часами пока не получилось достичь чего-то близкого к AGI. Да, эти нейронки могут повторять фрагменты датасетов, но принципиально это ничем не отличается от старых архитектур - даже примитивные RNN такое умели.

>довольно урчать
А до LLM ты дрочил на фанфики/прозу? Просто я не понимаю, каким нужно быть человеком, чтобы так радоваться генератору текста, что очень далёк от реального ИИ и никак не улучшается со временем...
Аноним 11/12/25 Чтв 22:59:57 1451819 195
>>1448902 (OP)
Щас тестил маленько модельки до 30б на кодинге. Заметил, что ответы очень похожи, по крайней мере структура, варианты которые они предлагают.
Ну какие-то чуть получше прочухали запрос, какие-то слишком дженерик хуету выдали, иногда факты выдумывают. Хотя я думаю тут рандом еще играет, надо раз по 10 запрос прогонять, чтобы собрать статистику.
Но в целом что получается, разницы практически никакой между семействами? Если моделька мощная, все они обучены на одних и тех же датасетах, то похую какую модельку выбирать?
Что думаете? Есть разница между ними?
Аноним 11/12/25 Чтв 23:18:48 1451837 196
Аноним 11/12/25 Чтв 23:25:01 1451844 197
>>1451807
> И к чему она ведёт в перспективе?
К санитарам, браток, к санитарам. Расскажешь им про правильный аги, как его нужно создавать, и каким произведением ты так впечатлился что из всего разнообразия решил выбрать именно такое.
> Просто я не понимаю
Ты не понимаешь слишком многого потому что в голове каша. Смирись и начни курс лечения.
>>1451819
Разница есть в специфике и деталях. Та же гопота не смотря на общую дебильность и посредственность может очень круто решать некоторые задачи, на которых другие буксуют. Если тебе что-то общее то попробуй свежевышедший девстраль или классику 30а3, под них и подходящие тулзы есть.
Аноним 11/12/25 Чтв 23:25:59 1451848 198
>>1451837
Модель из махровой сои превращается в генерировалку педофайлов. Вот вам и безопасность.
Аноним 12/12/25 Птн 00:19:57 1451920 199
>>1451844
>К санитарам, браток, к санитарам
>Смирись и начни курс лечения
Уже лежал в дурке (месяц) и принимал нейролептики (примерно три года). Нихрена не помогло, от таблеток только каша в голове была, натворил/написал кучу бредовых вещей из-за этого. Бросил и не жалею. Наша психиатрия абсолютно беспомощна против проблем с головой, как, впрочем, и западная/восточная. Люди на психиатрах не в курсе, как устроены мозги, и просто беспорядочно назначают то, что знают, а потом тупо наблюдают за тем, как это повлияет на поведение. Не медицина это, и уж точно не подкреплено наукой.

Поэтому мне уже никто не поможет...
Аноним 12/12/25 Птн 01:36:23 1452057 200
Блять, я тупой.
Как задействовать веб серч в кобольде?
В консоли видно, что вроде что-то там шуршит, но в ответ модельки оно видимо не пробрасывается. Это че, самому погромировать проброс надо?
В гугле пишут "просто ткните галку для веб серча". А оно нихуя.
Пробовал c gpt oss 20b, который вроде должен уметь в веб серч, но там видимо через какие-то свои приколы делается оно, которые в кобольде не реализованы.
Не пойму нихуя.
Есть нормальные движки, где все работает? Или комбинации моделек с движками.
Аноним 12/12/25 Птн 01:52:47 1452086 201
>>1452057
Не знаю что там насчет в самом lmstudio, но через него можно сервить модель в Chatbox, который также удобен для сетевых корпов, то есть можно держать подписочку дешманского дипсика или какой-нибудь большой гопоты или гугловских моделей или чего угодно --- и переключаться на локальную модельку когда надо.
Аноним 12/12/25 Птн 01:52:47 1452087 202
>>1452057
gemma3 в кобольде работала с поиском вообще без проблем.
Аноним 12/12/25 Птн 01:53:59 1452090 203
>>1451920
Увлекись творчеством и твори, высока вероятность что будешь иметь успех. Например, напишешь фантастику про свой аги, народ будет доволен и никто не доебется потому что изначально художественный вымысел.
>>1452057
Как минимум для подобного в модели должны корректно работать функциональные вызовы и стоять подходящий инстракт темплейт. Алсо давно в вебморде кобольда добавили подобные фишки?
Точно работает в openwebui, но оно реализовано несколько костыльно, может уже починили.
Аноним 12/12/25 Птн 01:56:08 1452095 204
image.png 20Кб, 485x351
485x351
>>1452086
>Chatbox
Хотя ладно, там поиск так себе.
И вообще я не уверен, не воруют ли они лог чатов.
Аноним 12/12/25 Птн 02:27:27 1452124 205
>>1452057
Ты попал на гопоту и она тебя поимела. У всех GPT-OSS особый формат вызова инструментов, оно 100% работает только с ихними же терминальным решениями. Остальным же опаньки и костыльный пердолинг. Гуглить cline.gbnf . Ну если так уж с гопотой пообщаться приспичело.
Аноним 12/12/25 Птн 02:41:00 1452131 206
>>1452057
И да - ставь searxng и ищи тулзы, среды которые с ним работают. Таврена к стати работает.
Аноним 12/12/25 Птн 02:41:31 1452132 207
>>1452086
Спс, если другие варианты не выгорят, гляну ЛМ студио.

>>1452087
А какая конкретно? Вес/квант? А то я уже параною, что какие-то фичи могут быть вырезаны или похерены на квантованных.

>>1452090
>Точно работает в openwebui
Тоже попробую глянуть, спс.
> Алсо давно в вебморде кобольда добавили подобные фишки?
С какой-то там 1.8Х версии. Сейчас уже 1.10Х

>>1452124
А какие модели еще поддерживают поиск?
Я квен тестил и девстраль вроде, но я так и не выкупил умеют они или нет. У гпт хотя бы явно написано.
Аноним 12/12/25 Птн 02:45:09 1452136 208
>>1452131
На таверну хотел поставить, но там плагин через жопу устанавливается надо репозиторий склонировать локально, ебанулись штоле? в одну кнопку все должно устанавливаться, но она не работает
Поиск через кобольд в таверне тоже вроде поддерживается, но без плагина походу никак.
Аноним 12/12/25 Птн 02:52:13 1452142 209
>>1452132
>А какая конкретно? Вес/квант? А то я уже параною, что какие-то фичи могут быть вырезаны или похерены на квантованных.
Ну например 27b-Q4_K_M
Аноним 12/12/25 Птн 02:55:09 1452146 210
Аноним 12/12/25 Птн 04:14:41 1452209 211
Oobabooga-setti[...].png 261Кб, 3097x1873
3097x1873
>>1449763
Спасибо.

Попробовал. Местами неплохо, но прямо восторга не вызвало (завышенных ожиданий не было, получилось примерно так, как ожидал).
С другой стороны пока не жалею, что потрогал.
О результате говорить пока рано (возможно, вопросы к карточке в SillyTavern; Персонаж один — «рассказчик», который должен описывать реакцию персонажей и мира на действия {{user}} и respect {{user}}'s autonomy, не пытаясь описывать действия за {{user}}; что он пытается делать упорно, как только малейший намёк в контексте проглядишь и дашь ему возможность хоть раз определить действия {{user}} вместо комментирования их со стороны). Но это частности.

Информация, которая может быть полезна кому-то ещё для предварительной оценки: Oobabooga (llama.cpp) и (SillyTavern).
Скорость вывода на моём подуставшем железе (4080S 16 Гбайт VRAM, 128 Гбайт DDR4 RAM @3000 МГц; i7-7820X Quad-Channel), как и ожидалось, не дотянула и до 10 t/s. Начал с Q4_K_M (больше 10 t/s не получил), потом попробовал Q5_K_S (там не больше 9 t/s).
Затем дело дошло до IQ4_XS и Q4_K_S (на ней пока остался, может, ещё Q5_K_M попробую, но позже).

02:12:46-162201 INFO Loaded "ArliAI_GLM-4.5-Air-Derestricted-IQ4_XS-00001-of-00002.gguf" in 23.58 seconds.
02:12:46-165194 INFO LOADER: "llama.cpp"
02:12:46-166191 INFO TRUNCATION LENGTH: 8192
02:12:46-168186 INFO INSTRUCTION TEMPLATE: "Custom (obtained from model metadata)"
prompt processing progress, n_tokens = 4803, batch.n_tokens = 707, progress = 1.0000000
prompt eval time = 32678.19 ms / 4803 tokens ( 6.80 ms per token, 146.98 tokens per second)
eval time = 26990.80 ms / 223 tokens ( 121.03 ms per token, 8.26 tokens per second)
total time = 59669.00 ms / 5026 tokens
slot update_slots: id 3 | task 228 | n_past was set to 4802
slot update_slots: id 3 | task 228 | n_tokens = 4802, memory_seq_rm [4802, end)
prompt processing progress, n_tokens = 4803, batch.n_tokens = 1, progress = 1.000000
prompt eval time = 132.59 ms / 1 tokens ( 132.59 ms per token, 7.54 tokens per second)
eval time = 26352.89 ms / 218 tokens ( 120.88 ms per token, 8.27 tokens per second)
total time = 26485.47 ms / 219 tokens
slot update_slots: id 3 | task 447 | n_past was set to 4802
slot update_slots: id 3 | task 447 | n_tokens = 4802, memory_seq_rm [4802, end)
prompt processing progress, n_tokens = 4803, batch.n_tokens = 1, progress = 1.000000
prompt eval time = 135.14 ms / 1 tokens ( 135.14 ms per token, 7.40 tokens per second)
eval time = 30442.19 ms / 250 tokens ( 121.77 ms per token, 8.21 tokens per second)

03:27:42-133751 INFO Loaded "ArliAI_GLM-4.5-Air-Derestricted-Q4_K_S-00001-of-00002.gguf" in 27.59 seconds.
03:27:42-135745 INFO LOADER: "llama.cpp"
03:27:42-136742 INFO TRUNCATION LENGTH: 8192
03:27:42-137740 INFO INSTRUCTION TEMPLATE: "Custom (obtained from model metadata)"
prompt processing progress, n_tokens = 4803, batch.n_tokens = 707, progress = 1.0000000
prompt eval time = 36803.65 ms / 4803 tokens ( 7.66 ms per token, 130.50 tokens per second)
eval time = 23569.73 ms / 224 tokens ( 105.22 ms per token, 9.50 tokens per second)
total time = 60373.38 ms / 5027 tokens
slot update_slots: id 3 | task 229 | n_past was set to 4802
slot update_slots: id 3 | task 229 | n_tokens = 4802, memory_seq_rm [4802, end)
prompt processing progress, n_tokens = 4803, batch.n_tokens = 1, progress = 1.000000
prompt eval time = 139.98 ms / 1 tokens ( 139.98 ms per token, 7.14 tokens per second)
eval time = 20544.10 ms / 194 tokens ( 105.90 ms per token, 9.44 tokens per second)
total time = 20684.08 ms / 195 tokens
slot update_slots: id 3 | task 424 | n_past was set to 4802
slot update_slots: id 3 | task 424 | n_tokens = 4802, memory_seq_rm [4802, end)
prompt processing progress, n_tokens = 4803, batch.n_tokens = 1, progress = 1.000000
prompt eval time = 105.93 ms / 1 tokens ( 105.93 ms per token, 9.44 tokens per second)
eval time = 26025.31 ms / 250 tokens ( 104.10 ms per token, 9.61 tokens per second)
total time = 26131.24 ms / 251 tokens

Настройки Oobabooga на пикрил.
Аноним 12/12/25 Птн 05:23:08 1452245 212
>>1451714
>>1451716
Речь про кум, не про однотипные обертки под жору для рабочих задач

>>1451744
>Как можно было за почти 4 года не сделать нихуя из того, о чем ты думал и хотел, это надо быть конченным уебаном
Как раз сам и сделал. Только какого хуя я должен прописывать дефолтные фичи которые должны идти из коробки в приложении, которое заточено под чатинг с персонажами?

Повторю - писюкал тебе на клыка, говноед проклятый. Из-за таких дырявых верунов как ты, опенсорс чаще всего из себя представляет кондовую ебанину, где ты должен доделывать за криворукими, даже если ты сам криворукий и нихуя не понимаешь. Таверна не вчера появилась, её проблемы и недостатки давно известны. Если разрабы ебали исправлять и дорабатывать свой же продукт, нахуя его вообще выкладывать? И почему за такое отношение их нельзя тыкать мордой? Потому что бесплатно? Ну я тебе на тарелку навалю тепленького, пожрать захочешь - разберешься, как его переработать в что-нибудь съестное. Ручки есть, гайдики есть, если что спросишь нейронку как из говна белки выделить.
Аноним 12/12/25 Птн 08:00:27 1452316 213
Бесит, что советующие МоЕ переобулись в утверждение, что медленная скорость - это нормально и вообще простому мужичку можно потерпеть.
Хуй вас знает, я такое терпеть не могу. Первое сообщение с ГЛМ у меня на 13+ т/с идет, а с ростом чатлога всё отыквляется до 6 т/с.
Тут банально даже карточки новые (особенно написанные своими руками) не потестишь. Процесс превращается в пытку, когда надо вносить изменения и делать много генераций.
Аноним 12/12/25 Птн 08:32:56 1452328 214
>>1451743
>janitor

Да ну нахуй. Кто юзает эту парашу? Надо невменяемым же быть.

Кстати, я тоже её юзал. Среди юзеров очень много лиц женского пола.
Аноним 12/12/25 Птн 08:46:54 1452338 215
>>1452328
Там есть дико доставляющие карточки. Может просто некоторые не умеют заниматься их лутингом.
Я люблю скачивать топы и проверять, так скачал карточку королевского гарема. Мими и уняня, пока не наступила ночь. Вот там анценз эйра мне выдал хорор, что я закрыл таверну и пошёл курить.
Аноним 12/12/25 Птн 09:17:24 1452350 216
Видяха какой профит дает для ллм?
Аноним 12/12/25 Птн 09:20:04 1452352 217
>>1452350
Никакого. Покупай кофеварку.
Аноним 12/12/25 Птн 09:20:06 1452353 218
>>1452350
Примерно такой же, какой дают ноги желающему пробежать стометровку. Ты конечно можешь без ног проползти, но это будет тяжело и долго.
Аноним 12/12/25 Птн 09:56:27 1452375 219
>>1452353
Используется только 11 из 16 ГБ видеопамяти, а проц вообще не используется

Почему так?
Аноним 12/12/25 Птн 09:59:53 1452376 220
>>1452375
Я должен телепатически угадать размер используемой модели, что ли?

А вообще если у тебя одна видеокарта, и система работает на виндоусе - винда может резервировать до 4гб видеопамяти под свои задачи (особенно если это АМД, на нвидиа вроде поменьше).

>а проц вообще не используется
Ну так основные вычисления именно на твоей видеокарте идут, куда ты загрузил часть своей модели.

Опять же, если модель (маленькая в твоем случае?) полностью влезает в видеопамять - там кроме видеокарты по сути и не будет ничего использоваться.
Аноним 12/12/25 Птн 09:59:56 1452377 221
Аноним 12/12/25 Птн 10:20:22 1452393 222
>>1452350
Видеокарта для ЛЛМ скорее вредна. Нынешние модели не помещаются целиком в видеопамять, начинают по слоям гоняться туда-сюда и это замедляет генерацию.

ЛЛМ оптимально запускать на памяти жесткого диска. Там большие объемы, можно поместить тот же дипсик в полных весах и инференсить без потери скорости. Мы все тут так и делаем, в принципе.

Читай шапку + вики треда + вики кобольда + документацию лламыцпп, ленивое хуйло. И ты тоже >>1452375 Как вы заебали уже.
Аноним 12/12/25 Птн 11:28:24 1452443 223
>>1452132
Рекомендую начать Qwen3 30-х moe . Запускаются с приемлемой скоростью на бытовых кофеварках и могут в удержание контекста (особенно Qwen3-30B-A3B-Thinking-2507) .

Мелко-квены тоже умеют в тулза, но контекст держат как мистраль - для их размеров неплохо, но для использования - такое себе. Пойдут в сортир и оподливятся забыв зачем пошли.

Мелко-Мистраль. Как бэ формально умеет в тулза, и умеет в русик. На этом его стоковые преимущества все. Потому что контекстной памяти он не имеет ни в одном из тюнов. И ехидные лягушатники судя по всему менять это не на меряны забив хуй на архитектуру модели. Ты отправишь его в интернет и он забудет зачем пошел на 2-3 шаге поиска

Контекст при использовании любых тулзов жрется как не в себя - если не можешь запустить модель с 32k (минимум!!!) контекста можешь про web-поиск забыть.
Аноним 12/12/25 Птн 11:30:04 1452447 224
>>1452209
Не квантуй кэш, это не только сильно замедляет на контексте, но еще и портит качество. Также чистый llama-server может быть немного побыстрее, но не обязательно эта разница будет стоить удобства.
>>1452245
Раз у тебя, шизика, особое виденье - форкай и развивай свой. Если все как ты говоришь - люди потянутся и поддержат. Только такого не произойдет, потому что даже просто сформулировать проблему - слишком сложно, потому и высираешь полотна как типичная баба срака, натаскивая нытье обо все и ни о чем.
>>1452316
> советующие МоЕ переобулись
Это наоборот любители моэ очень довольны, что со своими нищеконфигами они могут пускать относительно крупные модельки с приемлемыми скоростями, а не 0.5т/с.
Ну и если 13+т/с в обычном чате для тебя "невозможно медленно" - хуево быть тобой, 3й опущь как раз с такой скоростью и шел, и был манной небесной своего времени. Просадки на контексте - неотъемлемый атрибут llamacpp, но если квантуешь его или не оптимально распределяешь тензоры - все сильно усугубится.
>>1452393
Сначала не понял а потом как понял, хорош.
Аноним 12/12/25 Птн 11:33:17 1452449 225
>>1452447
>если 13+т/с в обычном чате
На первом сообщении. К третьему сообщению это уже 10 т/с, к десятому 6 т/с. Это невозможно медленное дерьмо.
Аноним 12/12/25 Птн 11:33:55 1452451 226
image.png 10Кб, 340x237
340x237
image.png 25Кб, 542x343
542x343
>>1452136
Можно просто скачать архив репы расширения с гита и распаковать в SillyTavern\data\default-user\extensions (охуенно очевидный путь, да)
Аноним 12/12/25 Птн 11:41:15 1452457 227
>>1452449
Да вы батенька зажрались (кодящий на GLM-AIR в 8 ts / 88 ps )
Аноним 12/12/25 Птн 11:46:41 1452458 228
>>1452457
> кодящий на GLM-AIR
Вайбкодинг от языка очень сильно зависим. Например на Расте невозможно вайбкодить, никто не может компилируемый код написать. Даже Грок/ЖПТ/Квен Кодер Макс. Про Девстраль и прочие локалки вообще молчу, даже не уровень Квена. При этом на питоне/жс любое говно что-то да сможет сделать. Алсо, рекомендую тебе с Эйра на новый Девстраль всё же пересесть, размер у них одинаковый.
Аноним 12/12/25 Птн 11:59:09 1452469 229
>>1452458
Devstral-2-123B плотный. Со своими 16+16 VRAM я его могу только пососать. В отличии от Эир:

-ub 2048 -b 2048 -c 81920 -ts 37,11 -ot "blk.([1-9]|1[0-9]|2[0-9]|3[0-5]).ffn.(up|down|gate)_exps\.weight=CPU"
Аноним 12/12/25 Птн 12:06:05 1452476 230
>>1452338
Да, в отличие от чуба, там есть реально очень качественно, ну или не качественно, но с умом написанные карточки, аналоговнетные.

Одну я залутал когда-то давно. Там была карточка суккуба на 600 токенов всего, но с примерами диалогов на 1000 токенов. Сдрочиться можно было даже на 9-12б кале от аутпутов, а когда они становились реально хуёвыми, яйца уже пустели.

Всегда мечтал сам сделать примерно такую карточку, но всегда было впадлу прописывать эти диалоги, потому что не могу на английском шпрехать хорошо. Читать проще, чем писать красиво, а от этого напрямую зависит вывод модели.

Обычное first mes в большинстве случаев можно хотя бы корпом перевести и проверить, что всё норм, но не кум-примеры сообщений на 1к токенов.
Аноним 12/12/25 Птн 12:30:13 1452503 231
>>1452449
Похоже что неверно распределил тензоры, слишком уж плохо.
>>1452457
Просто в чатике или с агентами? Первое еще норм, но второе жесть.
>>1452476
Не стесняйся скидывать если видишь такие, особенно если с высоким уровнем культуры.
Аноним 12/12/25 Птн 12:31:06 1452505 232
>>1452328
Не прав, там надо поебатся, но есть куча годнейший карт которых в принципе нет и не будет на чабе, и конечно придётся почистить от инструкций для внутренне модели, но всё же.
Аноним 12/12/25 Птн 13:07:16 1452528 233
>>1452503
>но второе жесть
KiloCode . На самом деле терпимо. Главное AIR предсказуем, экономно токенизирует контекст (а не как Qwen), не проебывает его (как GPT-OSS).
Всосал окружение, всосал что-то нужное для задачи и пошел выводить. И если где-то косяка дал - например вставка кода не туда прошла - сразу за собой исправляет.

Достаточно раз в 30 минут его навещать. Такой вполне себе миидл.
Аноним 12/12/25 Птн 13:25:53 1452541 234
Братцы, как вы глм-аир на 24 враме запускаете? Что-то у меня больше 5т/с не выдавить, даже с переносом мое слоёв в оперативу
Аноним 12/12/25 Птн 13:33:27 1452549 235
>>1452541
Переноси не все моэ слои в оперативку. Сначала забей видеопамять, а оставшееся - в озу. У меня на 12гб врам скорость ~9тс на старте в эйре.
Аноним 12/12/25 Птн 13:49:06 1452570 236
>>1452549
Можешь показать скрины своих настроек? Я пробовал забивать видеопамять и он меня не слушался, что кобольд-спп, что уга
Аноним 12/12/25 Птн 13:54:57 1452580 237
>>1452570
gpulayers 999
moecpu 44 (4 слоя из 48 выгружается во врам)
threads 5 (у меня восьмиядерник. На 5 - лучшая скорость)

Ну и я на пингвине ещё. Остальное не так важно.
Аноним 12/12/25 Птн 13:56:20 1452581 238
>>1452580
>(4 слоя из 48 выгружается во врам)
Что это за дичь вообще ебаная. Если я такое сделаю, у меня там процессинг будет вообще в жопе и генерация на 3 т/с.

мимо
Аноним 12/12/25 Птн 13:58:34 1452585 239
>>1452570
>>1452580
>moecpu 44
В твоем случае, естественно, нужно меньше. Уменьшай это число до тех пор пока не забьешь врам полностью.

>>1452581
Эту буквально база по оптимизации скорости моэ-моделек лол. В озу отправляем только то что не влезло во врам.
Аноним 12/12/25 Птн 14:00:14 1452588 240
>>1452585
Но у меня 64гб врама и ддр4 оперативка, я же не настолько отбитый чтобы следовать гайдам ебанутых рамлетов
Аноним 12/12/25 Птн 14:01:28 1452590 241
>>1452588
Ну так и совет был дан не тебе, а челу с 24гб врам.
Аноним 12/12/25 Птн 14:03:12 1452592 242
>>1452590
А ты уверен, что у того чела быстрая ддр5? Ведь если нет, то он будет в безвылазной жопе по скорости, и совет при таком раскладе получится каличный
Аноним 12/12/25 Птн 14:04:43 1452595 243
А где технологичесский прогресс как пару лет назад, когда 24b модели спустя время ужимали до 12b. Всё, поезд приехал?
Аноним 12/12/25 Птн 14:08:13 1452599 244
>>1452592
Не понял. Как раз сейчас он ВСЕ моэ слои выгружает в оперативку, а видеокарта простаивает. Я ему посоветовал докинуть на нее слоёв чтоб забить врам полностью. Чем меньше слоев в рам и больше во врам - тем быстрее.
Аноним 12/12/25 Птн 14:19:28 1452623 245
>>1452580
Ты в чём? Уга или кобольд?
>>1452592
У меня медленная ддр4.... Посмотрел на цены на ддр5 и загрустил....
Аноним 12/12/25 Птн 14:22:10 1452629 246
>>1452623
Это к ламецпп и кобольду применимо.
Аноним 12/12/25 Птн 14:24:44 1452637 247
>>1452629
А можешь тогда скинуть файл настроек для кобольда, пожалуйста?
Аноним 12/12/25 Птн 14:28:30 1452643 248
>>1452595
Сейчас 100-200б модельки ужимают до 20-30б.
Мало что ли?
Аноним 12/12/25 Птн 15:07:25 1452720 249
>>1451033
>Так сделай.
Делаю. Интересно, что конвертация 7B модели в exl2 требуется всего 4 ГБ памяти + вообще почти ничего не держит на видеокарте. Разовую операцию кодить под видеокарту понятно что сложно, окей, но вот почему 14 ГБ не требуется загружать полностью в память - не очень ясно.
Полночи настраивал под виндой этот exl2, как они умудрились напись что-то платформозависимое на питоне и под куду то лол. Для сравнения exl3 быстрее запустился, минут за пять от скачивания до запуска конвертации.

Я не говорю о полной статистике, я просто хотя бы два-три примера среза, где хоть на какой конфигурации будет примерное сравнение.
Ну и по идее в первую очередь будет производительность плавать, а для перплексити будет даже довольно одинаковый график для разных железок.

>Хороший детектор диванного.
Да, всё верно.
Откуда я узнать то должен о чём это? В серверных карточках есть и используют. По цифрам быстрее чем через pcie гонять в разы. Про 3090 пишут, что использовали и подключали две. По какому из этих фактов я мог бы корректно оценить, насколько nv-link полезный.

Тестирую на мелкой модели, чтобы отладить все скрипты.
У меня получилось, что exl2 моделька при том же размере что и gguf начинает бредить, заикаться и лупиться. При этом выигрыша по быстродействию нет по сравнению с gguf.
А вот exl3 даёт х1.5 скорости, и судя по тому, насколько она хорошо и чисто разговаривает на 4.0 битах, то график перплексити не на пустом месте нарисован, и можно смело ставить 3.5 бита, и это на мелкой модельке. И ещё не требует сомнительных калибровочных данных для конвертации, из-за которых возможно exl2 у меня и посыпался.

Осталось дописать питон код, чтобы из консольки вызывать exl3 или работающий сервер с совместимым интерфейсом найти.
И дописать тест на перплексити, что, впрочем, может быть не очень просто.
И построю график по всяким небольшим моделькам как и какие кванты работают, на ночь поставлю конвертироваться и тестироваться по списку.
Аноним 12/12/25 Птн 16:25:34 1452818 250
>>1452720
> Интересно, что конвертация 7B модели в exl2 требуется всего 4 ГБ памяти + вообще почти ничего не держит на видеокарте. Разовую операцию кодить под видеокарту понятно что сложно, окей, но вот почему 14 ГБ не требуется загружать полностью в память - не очень ясно.
Квантование в exl2/exl3 выполняется послойно. Достаточно, чтобы на видеокарту целиком влезал один слой. Так что на одной 24GB карте можешь хоть дипсик, хоть кими квантовать.

> И построю график по всяким небольшим моделькам как и какие кванты работают, на ночь поставлю конвертироваться и тестироваться по списку.
Если будешь тестить большие модели, то учти, что функция для сравнения моделей eval/model_diff.py в экзламе не выполняется послойно - она требует, чтобы неквантованная модель целиком влезала в VRAM. Если хочешь для крупных моделей запускать model_diff, можешь этот навайбкоденный костыль глянуть для послойного сравнения моделей: https://github.com/NeuroSenko/exllamav3/commit/6edb1f5d38c0b291daca6d3be6d60cf64e772fd7

То же сравнение для Qwen3-235B-A22B-Instruct-2507 по треду выше >>1449794 я бы без него просто не смог сделать.

Пример вызова:
python eval/model_diff.py \
-ma /home/user1/ai/shared/llm-my-quants/Qwen_Qwen3-235B-A22B-Instruct-2507-5.5bpw \
-mb /home/user1/ai/shared/llm-origs/Qwen_Qwen3-235B-A22B-Instruct-2507 \
-r 100 --analysis_mode cumulative --batch_size 1 -d 0

Для --analysis_mode можно выставлять cumulative, isolated или both. В целом, я думаю, что можно всегда просто cumulative использовать. Профит в послойном сравнении ошибки (isolated/both) в теории может быть только для тонкого сравнения ошибки по отдельным слоями для мёрджа чекпоинтов с разной точностью через util/optimize.py
Аноним 12/12/25 Птн 18:44:08 1452959 251
Джейлбрейкнутая 1.6 апрелька красиво на ингрише пишет. Но... тупая все-таки, несмотря на предъявы про "у нас 15б как у конкрентов 400б". Плохо следит за чередой событий, может почувствовать дуновение ветра ботинком, короче пиздец.
Аноним 12/12/25 Птн 18:45:29 1452960 252
>>1452959
Справедливости ради отмечу, что на самых навороченных карточках и в чатах, где уже был контекст - дела обстоят лучше. Но чуда все-таки не случилось и заменить малявкой даже 30б сложно.
Аноним 12/12/25 Птн 20:20:59 1453056 253
пацаны.... я тут тыкаю vllm.
И знаете, она оказывается жопу сосет.
Модели занимают намного больше памяти, параллелить gguf не умеет на разные карты. Абсолютно нищий обоссанный квант openchat_3.5.Q2_K.gguf при запуске на 8к контекста занимает ВСЮ карту в 24 гб. И максимум генерации который я видел это 91 т/с. Обычно меньше.
В то же время БОЖЕСТВЕННЫЙ ЖОРА запущенный с 8192 контекста с той же моделью на той же карте со старта (то есть в таких же условиях) выдает 122 т/с и съедает меньше 5 гб врам на карте.
Карта 3090.

Думайте.
Аноним 12/12/25 Птн 20:47:53 1453086 254
>>1453056
Думаю.
Думаю вообще съебать со всего этого дерьма.
Локалки мертвы, никакого реального прогресса, только бенчи, бенчи сука, бенчи.
Даже #&#@ сказал что без понятия на чем рпшить без рига, всё говно, всё заебало, и покинул тред.
Пока нам тут пытаются скормить мое с 3б активными параметрами, на корпах кумят на плотных трилионных модельках.
И не говорите мне про сою блять, в локалках тоже давно уже соевое болотце, то то все радуются анцензорд версиям
Аноним 12/12/25 Птн 20:54:51 1453092 255
>>1453086
но братишка...
тебе же говорили, что одна карта - это только "попробовать ллм"
ты же попробовал? Попробовал.
Дальше - надо уже покупать вторую гпу.
А ты как хотел?
Аноним 12/12/25 Птн 20:55:15 1453094 256
image 123Кб, 830x498
830x498
image 30Кб, 839x196
839x196
image 40Кб, 776x233
776x233
AGI-шиз, твой канал? Признавайся.
Аноним 12/12/25 Птн 20:57:15 1453096 257
>>1453094
>5000 ллм равны 500 миддлам
кекнул
Аноним 12/12/25 Птн 23:48:23 1453282 258
>>1453096
Ага. У него, видимо, 9 женщин за месяц ребенка родить могут. :)
Аноним 13/12/25 Суб 01:18:26 1453364 259
Мля, короче заставил работать веб серч и в кобольде и в таверне, все через жопу.
Возможно у меня и до этого работало, но с нюансами.
Во-первых, страницы не всегда открываются, даже если дату загуглить - нужно впн подрубать для такой хуйни.
Во-вторых, промпт должен содержать очевидные ключевые слова для поиска, типа find me some shit.
В-третьих, содержимое выдается в каком-то пожеванном виде, как будто только самое начало страницы, вглубь оно даже не идет.
В итоге ответ нейронки - хуйня. Я даже актуальную дату не смог получить от нее ебать я лох
Аноним 13/12/25 Суб 06:48:05 1453470 260
Анончики, я кажется хуйни наделал.
После новостей о подорожании памяти у меня началось жёсткое ФОМО на тему, что если я не обновлюсь сейчас, то уже никогда.
У меня стояла мелкая материнка MSI с двумя слотами под оперативу, занятыми двумя плашками по 16 гигов DDR4 - 2666 Kingston Xyper X.
И тут мне в башку пришла ГЕНИАЛЬНАЯ идея - взять новую материнку с 4 слотами и купить ещё 2 плашки. Благо на Авито как раз валялись последние плашки, по 4,5к в моём городе, тоже 2666, Ymeiton, даже радиаторов нет, но не похуй ли, когда это буквально последняя дешёвая память?
Выбор материнки пал на б/у-шную ASUS PRIME B350-PLUS, потому что у неё было 2 слота под видюхи. А у меня как раз есть Тесла, которую я заебался подключать через райзер.
Вроде всё логично, что же могло пойти не так?
Да дохуя всего.

Началось всё с того, что когда я пересобрал комп, эта хуйня отказалась стартовать. Тут я хорошенько пересраля, думая что свернул что-то в процессе сборки. Но всё оказалось банальней - система не стартовала со всеми 4 плашками оперативки, но при этом стартовала что со старой, что с новой, но не когда они вместе. И тогда я узнал что у оперативки оказывается бывают тайминги и она может быть несовместима. КАКОГО БЛЯДЬ ХУЯ ТАЙМИНГИ НЕ ПИШУТ В ОСНОВНЫХ ХАРАКТЕРИСТИКАХ СУКА???!!! При этом характеристики ноунейм говна, которое я купил, я даже загуглить не смог.
Все пишут "просто покупайте одинаковые плашки" если вы бездомный, просто найдите дом нахуй Мои кингстоны сейчас стоят по 14к штука, а менять их на такое-же ноунейм говно, как я купил, как-то не хочется. Эта хуйня никак не решается?

Второй ахуенный момент это Тесла. Включил в настройках материнки "Above 4G Decoding", выключил "CSM". Результат - комп не стартует, даже когда я воткнул Теслу через райзер в Х1 разъём. Причём эта хуйня отказалась запускаться ДАЖЕ ПОСЛЕ ТОГО КАК Я ВЫТАЩИЛ ТЕСЛУ. Врубилась только с 4 раза.
Какого хуя? Нейрач, я что, только что инвестировал в говно?
Аноним 13/12/25 Суб 07:07:31 1453473 261
>>1453470
4 планки менее стабильны по сравнению с 2, но у тебя дело не только в этом. Часто при 4 планках профили частоты и таймингов приходится снижать, особенно если они разные (по факту разные могут вообще суперухево работать или не работать вообще).

Да, ты мог инвестировать в говно. И да, это обычная ситуация.

>КАКОГО БЛЯДЬ ХУЯ ТАЙМИНГИ НЕ ПИШУТ В ОСНОВНЫХ ХАРАКТЕРИСТИКАХ СУКА???!
Пишут. CL-циферка. Но даже при одинаковых категориях надо понимать, что точные значения могут не совпадать. Вся память разная в этом плане.

>Мои кингстоны
Чтобы эта хуйня завелась, тебе надо опустить их тайминги и частоту до уровня новой памяти.

> Ymeiton, даже радиаторов нет, но не похуй ли, когда это буквально последняя дешёвая память?
Ну если она предустановленные профили не поддерживает, то есть если надо с настройками ебстись вручную - то нахуй такую память.

У меня вот были планки 32+32 Patriot Viper Steel (медленнее) и 8+8 тоже Patriot Viper Steel, но с другими таймингами (быстрее).
Как ты думаешь, на какой частоте они заводились? 2600, блять, хотя один комплект был 3600, а другой вообще 4000.
Да, одинаковый производитель. Да, почти одинаковая, но немного разная частота и тайминги.
А в итоге - жопа.

Что может помочь со стабильностью (но НЕ заменяет подгона таймингов и частоты под одни значения, одинаково подходящие для работы всех планок и старта системы)
> в биосе, в настройках таймингов, command rate 2T вместо 1T, если стояло 1T (вручную или выбиралось авто-режимом само по себе, не важно)

А вообще тебе в /hw/ с такими делами, хотя там тоже вряд ли помогут разобраться с малоизвестной памятью из жопы китайца.
Аноним 13/12/25 Суб 07:44:49 1453479 262
>>1453473
>Чтобы эта хуйня завелась, тебе надо опустить их тайминги и частоту до уровня новой памяти.
Спасибо за подсказку, но пока что я нихуя не понял что там и как опускать. Параметров там не 4, а дохуя и все стоят на "Auto".
Попробовал переставить Command rate с "Auto" на "2T" - выдало ошибку загрузки спасибо хоть вообще запустилось
Буду разбираться.

>Ну если она предустановленные профили не поддерживает
Сама по себе то она стартует, значит что-то да поддерживает. Попробую поеебстись.

Сейчас 2 дилеммы: Попытаться вернуть деньги, но тогда нахуя я вообще всё это затеял. Или ебстись до последнего, возможно потом попробовать самому перепродать это говно с наценкой лол.
Аноним 13/12/25 Суб 08:01:01 1453484 263
image.png 10Кб, 813x36
813x36
Блять, почему абсолютно каждый тюн мистрали хочет выебать меня в жопу, хотя таких пожеланий не прописано ни в карточке перса ни в персоне (а там указаны фетиши и они другие, и если к ним самому перса не подвести ему похуй он их упоминать не будет но в жопу мне руку да засунет).
Аноним 13/12/25 Суб 08:04:06 1453485 264
>>1453479
Тайминги не трогай вручную, пусть будут на авто.
И попробуй частоту для всех планок поставить мелкую, 2400.

Если так не заведется на 2Т, думаю проще бросить это дело и продать память какому-нибудь шизоиду.
Аноним 13/12/25 Суб 08:05:46 1453487 265
>>1453484
А ты сам-то к чару в штанцы не лез? Может у тебя модель перспективы путает и воспринимает твой инпут как свой собственный лог сообщений кек
Я такое встречал.
Аноним 13/12/25 Суб 08:07:45 1453489 266
>>1453485
> поставить мелкую, 2400.
Можно даже меньше. Короче надо найти точку, при которой системаа загрузится. Если такой точки нет, значит просто нихуя не взлетит.

Авто-тайминги в биосе, кстати, все равно должны показывать какой там выставлен тайминг. Вот тут надо просто проверить ,чтобы они соответствовали значениям по мерке самых слабых планок памяти.
Аноним 13/12/25 Суб 08:13:48 1453492 267
>>1453479
UPD Тесла завелась. Хуй знает вообще почему. Просто подключил её ещё раз и всё заработало. При старте материнка выключилась, потом включилась и теперь всё работает. Пока на райзере, потому что я заебался вставлять-вытаскивать это всё в корпус, но уже хорошо. Потом попробую в корпус вставить.
Хоть какая-то хорошая новость.
Аноним 13/12/25 Суб 08:21:51 1453497 268
>>1453487
>А ты сам-то к чару в штанцы не лез?
Профингерить не пытался но я уже его ебу ах и он спокойно отвечает от лица перса на мою прямую речь, так что проблема не в этом, пока что похоже на забавное совпадение, на нескольких тюнах на 2 карточках такое уже наблюдаю, может дело в том что чару велено вести себя как фемдом-мистресса вот оно и всякую хуйню вытворяет, но соевые воспитанные нейро девочки должны обычно спрашивать разрешение на такое! Короче можно считать что я пока зря воздух сотрясаю, попробую еще пару карточек.
Аноним 13/12/25 Суб 08:40:36 1453499 269
то самое чувство когда распаковываешь Devstral-2-123B-Instruct-2512.tar.zst 98GB в оперативе потому что её ещё дофига а на ссд место уже закончилось
Аноним 13/12/25 Суб 10:14:19 1453545 270
>>1453484
Гоняю мистрали, никогда с такой проблемой не сталкивался. Возможно модель просто ужаренная, если в инструкциях чисто. Мне однажды попался тюн, который отказывался воспринимать трапов/футов и даже если упоминал наличие члена, то всё равно пытался выебать меня половыми губами (лол) или пальцами.
Аноним 13/12/25 Суб 10:18:40 1453555 271
Для ассистенто-задач мелкие моешки годнота, но для рп - сасат.

Вот и получается, что gemma3-27B-it-abliterated-normpreserve новый единственный безальтернативный вин для тех у кого пк а не риг.

Мистраль, ну это мистраль, (стоковый новый, не тюны) - в куме получше, в мозгах похуже, но зато контекст сранительно легкий.
Аноним 13/12/25 Суб 10:21:17 1453562 272
>>1453555
>единственный безальтернативный вин для тех у кого пк а не риг.
Эйр же. Любая видеокарта + 64гб рам. Никаких ригов не нужно.
Аноним 13/12/25 Суб 10:22:26 1453564 273
>>1453555
>вин для тех у кого пк а не риг.
ПК с 48гб врама, ты хотел сказать. Потому что удачи загрузить q4 27b на 16гб с 32к+ контекстом.

>>1453562
Эйр это моэкал на 5 токенах в секунду при чате длинее чем "ну-ка подрочи мне хуй по быстрому"
Аноним 13/12/25 Суб 10:23:00 1453565 274
>>1453555
>зато контекст сранительно легкий
Он мертвый, толку-то? До 16-18к плюс минус держится, потом начинается одурение.
Аноним 13/12/25 Суб 10:26:18 1453570 275
>>1453564
та не, вполне норм грузится, если ты терпеливый, 3 т/с, жить можно
Аноним 13/12/25 Суб 10:29:23 1453574 276
>>1453570
Тяжело звучит. Надо еще видюшку вставлять.
Аноним 13/12/25 Суб 10:29:50 1453576 277
>>1453564
>Эйр это моэкал
Терпи дружочек. Жирных плотных моделей больше не будет, они остались в прошлом. Уже даже корпы все перешли на мое. Плотными останутся разве что мелочь до 10b, и то не факт.
Аноним 13/12/25 Суб 10:34:26 1453584 278
Кто нибудь пробовал купить в Яндекс Алисе?
Аноним 13/12/25 Суб 10:35:17 1453585 279
>>1453584
>купить
кумить
фикс
Аноним 13/12/25 Суб 10:35:55 1453586 280
>>1453584
Кто-нибудь пробовал кумить в протоколе товарища майора?
Аноним 13/12/25 Суб 10:54:42 1453599 281
>>1453576
так вон же мистраль выдал плотную на 123б параметров
Аноним 13/12/25 Суб 11:36:53 1453618 282
>>1453056
Ггуф в глубокой бете. Для вллм либо исходные веса либо awq/gptq
Аноним 13/12/25 Суб 13:50:15 1453754 283
Напомните, зачем нужны файнтюны?
Тюнят обычно немо 12б, ламу 8б и мистраль 24б, но зачем?
Цензуры там и так нет, в рп и так может
Аноним 13/12/25 Суб 13:58:09 1453758 284
>>1453754
Зашивают внутрь нужные датасеты,
делятся ими для лайкосов, респекта.
Аноним 13/12/25 Суб 14:01:38 1453761 285
>>1453470
>Выбор материнки пал на б/у-шную ASUS PRIME B350-PLUS, потому что у неё было 2 слота под видюхи.
У меня такая работает с чипами 2х16 @2400 и 2х16 @3200 (на общей 2400 естественно), тайминги совершенно разные. Все стабильно. А вот хрень с включением - меня она регулярно пугала. Когда только купил, чуть по гарантии не сдал, думал - дохлая. Когда на ней не заводится железо или меняется конфиг оного - следующее включение может быть ОЧЕНЬ долгим - секунд 30-45. Полная инициализация у нее длиннющая. Обычно делается только краткая.
Аноним 13/12/25 Суб 14:02:20 1453762 286
>>1453754
В теории, хороший тюн будет именно писать текст, прикидываясь персонажем (или писать текст О персонаже). Все модели в своем виде тренируются изначально как "ассистенты" для решения задач, имеющие цель - найти корень проблемы в инпуте юзера, адресовать его, применить конкретные знания и решить эту проблему. Что часто приводит к аутпуту (в контексте рп), когда модель доебывается до юзера и пытается узнать его цели, расспрашивает, уточняет. Это выглядит неестественно. А главное, модель не стремится проявлять инициативу за пределами этого "ассистентского" поведения.

Проблема в том, что тюны не особо стремятся решить этот косяк. Авторы тюнов, если так можно назвать этих бездарей, всего лишь кормят модель датасетами с определенным контентом, чтобы модель отвечала на жопотраханный инпут так, как им хочется. ООО ДАА ЖЕСТЧЕ ЕБИ МЕНЯ АХ ОХ АХ ОООУ. Вот в этом духе. Нет, хорошие датасеты тоже есть и они бывают полезны. И через датасеты изначальная проблема тоже решается. Но для ее полного решения нужна тренировка таких масштабов, какие этим васянотюнерам и не снились: от проработки датасетов, которые "смягчат" ассистентский уклон модели, до скармливания модели реально хороших текстов с качественно поставленным слогом (а их вообще мало, в основном тренируют на синтетическом высере других моделей).

В общем, тут все сложно. Хорошие тюны бывают. Они делают модель чуть более похожей на живого человека. Но вот такого, чтоб прям модель отличалась от базовой версии радикально - нет, это скорее редкость, контрастирующая с большим перекосом в сторону испорченных тюнами моделей.
Аноним 13/12/25 Суб 14:19:20 1453771 287
>>1453470
У нищих материнок еще и мало линий писиай, об nvme ссд можешь забыть, если две видяхи поставишь
Аноним 13/12/25 Суб 14:39:41 1453785 288
>>1453564
>Эйр это моэкал на 5 токенах в секунду при чате длинее чем "ну-ка подрочи мне хуй по быстрому"
всё ждешь, пока раскупят v100?
будешь фиксировать прибыль, когда до 60к доползет цена?
Ну жди-жди, маленький.
У меня эйр летает на 50+т/с, не вижу проблемы.
владелец рига
Аноним 13/12/25 Суб 15:40:08 1453828 289
>>1453484
Просто мистраль понимает, что в душе ты заднеприводный.
>>1453499
А модели разве есть смысл сжимать? Там же 100 мегабайт небось экономия.
>>1453586
Технически, когда дают бумажку описать все твои деяния, там можно написать РП. Так что кумить можно и в протоколе! До первых отбитых почек.
>>1453599
Это тюн их прошлогодней модели, а не новая база.
>>1453761
>ОЧЕНЬ долгим - секунд 30-45
Ты ещё на DDR5 не сидел. Мой конфиг с 96 гигами включается минут 8 на холодной загрузке. Будущее, которое мы заслужили.
>>1453762
>Нет, хорошие датасеты тоже есть
Но их никто не видел.
Аноним 13/12/25 Суб 16:15:18 1453856 290
>>1453771
>об nvme ссд можешь забыть, если две видяхи поставишь
Ну тут ХЗ, система у меня грузится с М2 SSD, ещё есть пара сатавских винтов и один SSD. Основная видюха завелись вместе с Теслой. Что не завелось так это управление охладом через Фан контрол. То-ли материнка слишком хитро контролирует CHA_FAN1, то-ли я всё-таки что-то похерил. Кулер включается-выключается рывками, скорость вроде контролируется, но на полную мощность не выходит. По факту получается что охлада нет и Тесла пока не юзабельна.

>>1453761
Спасибо за инфу.
Она бы хоть как-то сигнализировала о том что не сдохла в такие моменты, а то меня уже заебало обсераться каждый раз.
У меня чистота у всех плашек вроде должна была быть одинаковой. Надо воткнуть новую оперативку и глянуть какие там тайминги, а потом выставить самые высокие у обоих видов.
Нагуглил что первые 3 цифры таминга это параметры: CAS Latency, TRCD, TRP, а последний TRAS лучше оставить "Auto"
Сейчас пока не могу этого сделать, т.к. чтобы вытащить всю оперативу надо снимать радиатор проца, а у меня термопаста закончилась. Буду завтра эксперементировать.

Устроил себе голодные игры блядь
Аноним 13/12/25 Суб 16:15:36 1453857 291
>>1453828
> экономия
у сафетензорс до 25%, у гуфов до 10%
Аноним 13/12/25 Суб 17:47:06 1453912 292
>>1453484
Может быть, ну просто может быть, ты чего в свою персону написал ?
Мистраль не самая сообразительная, но умница и за промтом следит и если там сладенький мальчик, то не удивляйся.
У меня мистралька моему мальчику-фее, выдала примерно следующее содержание: император и императрица посмотрели на {user} и решили что он охуенно будет смотреться в постели между ними. При этом буквально: игрока забыли спросить.
Аноним 13/12/25 Суб 21:47:31 1454041 293
стоит ли тратить почти 100 тысяч на этот компьютер

MINISFORUM Мини-ПК X1 PRO (AMD Ryzen AI 9 HX 370, RAM 64 ГБ, SSD 1000 ГБ, AMD Radeon 890M, Windows)

чтобы запускать локальные LLM, или лучше взять чего подешевле и полагаться на API?
Аноним 13/12/25 Суб 21:56:27 1454046 294
>>1454041
Конечно стоит, вытащишь память и продашь через 2 месяца за цену всего миника.
Аноним 13/12/25 Суб 21:58:23 1454048 295
>>1454041
>полагаться на API?
Самый разумный выбор для нищука.
Аноним 13/12/25 Суб 22:01:20 1454050 296
>>1454046
Да я уже в общем-то могу это сделать, ибо две плашки по 32 гига стоят 70 тысяч

Но мне все-таки интересно с точки зрения производительности. Что интересного можно замутить на 64 гигах оперативы, чего нельзя замутить при 32 (при прочих равных)? Так как мини-пк на 32 гига куда дешевле. Я так понимаю, что 64 гига позволяют запускать модели на 30B, но они же все равно стремные на фоне 70b+, может оно того и не стоит, и достаточно запускать малые локальные агенты на 4-12b + делать запросы к АПИ для сложных сценариев
Аноним 13/12/25 Суб 22:04:00 1454053 297
>>1454050
Или вообще тогда купить мак мини, если все равно все придется через api делать... С другой стороны, не под стать наверное нейросетевым сомелье юзать закрытые системы
Аноним 13/12/25 Суб 22:04:12 1454054 298
>>1454050
>Что интересного можно замутить на 64 гигах оперативы, чего нельзя замутить при 32 (при прочих равных)?
Запустить AIr и гопоту 120B. Правда, еще видеокарта нужна...
Аноним 13/12/25 Суб 22:08:51 1454056 299
>>1454053
А зачем тебе макмини для API, возьми макбук м3 (дешевле всего и достаточно быстрый) ну или м4 побыстрее. Можно даже эйр, потому что мощность тебе не нужна все равно (хотя даже на эйре можно гонять виртуалку винды и включать какие-нить визуальные новеллы).
Получишь охуенный, легкий, компактный девайс, на котором можно подключиться через API к чему угодно.
Я вот с собой эту штуку вечно таскаю в поездки. А дома даже телек перестал юзать как монитор для кинца, потому что микро-ноут в кроватке охуенно юзать - на бок его положил рядом и смотришь вблизи че угодно.

А эти МИНИ карлики по мощности примерно то же, но прикованы к десктопу. Дикое разочарвоание.
Аноним 13/12/25 Суб 22:19:01 1454061 300
>>1454056
Ну кстати, дешевле всего вообще эйр на м2, уж не знаю, насколько он сейчас актуален.

Просто моя идея заключается в том, что надо сделать индивидуальную учебную систему с ИИ, чтобы все мои учебники были в векторной базе данных, чтобы все данные о моих занятиях тоже туда попадали, и чтобы промпты нейросетям писались с учетом этого контекста. Вот мне дипсик рассказывал, что для этой задачи было бы неплохо юзать какие-то локальные легковесные LLM, чтобы они сами по себе могли в пассивном режиме что-то делать с моими файлами, а для основных задач - задействовать АПИ. Наверное, для этого хватит и макбука
Аноним 13/12/25 Суб 22:41:28 1454085 301
>>1454061
Ну насчет легковесных... На м3 эйре вполне может бегать 12B карлик с контекстом, если это 32-гиговый эйр (на 16-гиговом контекста будет совсем мало).
Другое дело, что 12B это смешно, и даже от 12B он перегреется быстро и скорость будет днищная, особенно по процессингу.

Так что если выбирать путь локального ИИ, то в случае с маками придется раскошеливаться на Про или вообще Макс, а они жирнее и тяжелее.
А вообще просто давал заметочку про тупость выбора макмини, когда есть по сути такой же макмини с экраном, который можно куданить взять и юзать как терминал доступа к ИИ через API.
Аноним 13/12/25 Суб 22:57:22 1454109 302
>>1453785
>У меня эйр летает на 50+т/с, не вижу проблемы.
А я вижу. Выше Эйр не подняться, да и тот в следующей версии увеличат наверное. Большой Квен в IM2-кванте и тоже подозреваю, что последний такой. С выгрузкой части слоёв на РАМ будет уже не так весело, ну а совсем большие модели и вовсе идут лесом.

Другой вопрос, не наебнётся ли весь этот движ уже в самом ближайшем времени.
Аноним 13/12/25 Суб 23:47:21 1454188 303
>>1454041
две v100 с китая все еще стоят дешевле 100к. На сдачу берешь майнерскую мать и в ус не дуешь.
Что за прикол жрать говно на РАМе? Нравится терпеть?
Аноним 13/12/25 Суб 23:51:15 1454194 304
>>1454188
>v100
Это что-то устаревшее и пердольное? Будет оно как 3090 работать в 11 винде?
Аноним 14/12/25 Вск 00:06:44 1454223 305
>>1454194
>Это что-то устаревшее и пердольное? Будет оно как 3090 работать в 11 винде?
Под такое дело только отдельный сервачок собирать и ставить Линукс. Но дело стоящее. И правда, что может быть последний шанс на ближайшие года три. Повышение цен на оперативку в 4 раза вообще никто не ожидал, а ведь это явно не последний прикол.
Аноним 14/12/25 Вск 00:44:43 1454285 306
>>1454188
Если средне постараться то в 75-77 дуал можно собрать (схм борда, охлад, две в100, доставки), если сильно с гуфишем заебаться то думаю и в 70
Аноним 14/12/25 Вск 00:53:37 1454292 307
Не удаётся скачать модель с huggingface - пробовал и CLI, и wget, aria2, через браузер, с huggingface-mirror - ниоткуда не хочет качать, если это xet - на этапе редиректа внутри ссылки скачивания получаю такое и бесконечный фриз:

huggingface-cli download gghfez/gpt-oss-120b-Derestricted.MXFP4_MOE-gguf
Fetching 3 files: 0%| | 0/3 [00:00<?, ?it/s]Downloading 'gpt-oss-120b-Derestricted.MXFP4_MOE.gguf' to '/home/ABCDE/.cache/huggingface/hub/models--gghfez--gpt-oss-120b-Derestricted.MXFP4_MOE-gguf/blobs/cd058b3dee21f12ea3e74b0202e6ba31831bbd7de9853e90ceb7d807e9f6adac.incomplete' (resume from 1590371389/63387347008)
Error while downloading from https://cas-bridge.xethub.hf.co/xet-bridge-us/692c4512c913fbc94da1d38a/ded2a987d305b0b5c99e1365d77793ff6e33fb7f5d891c12841b1b1368a37741?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251213%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251213T211833Z&X-Amz-Expires=3600&X-Amz-Signature=85dec86a3984d80fdddd1a0d714d51d01dc60157d7b64e29a47c25ce5159b638&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27gpt-oss-120b-Derestricted.MXFP4_MOE.gguf%3B+filename%3D%22gpt-oss-120b-Derestricted.MXFP4_MOE.gguf%22%3B&x-id=GetObject&Expires=1765664313&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc2NTY2NDMxM319LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2FzLWJyaWRnZS54ZXRodWIuaGYuY28veGV0LWJyaWRnZS11cy82OTJjNDUxMmM5MTNmYmM5NGRhMWQzOGEvZGVkMmE5ODdkMzA1YjBiNWM5OWUxMzY1ZDc3NzkzZmY2ZTMzZmI3ZjVkODkxYzEyODQxYjFiMTM2OGEzNzc0MSoifV19&Signature=MrgUQVH5kPbq5GgKLDHrGp1zrQZo1IhmJDW-OJagKP1SgWlloz%7En6eT-eHh7%7EFKT8tj7yIOFtF5JrqWatNV2-BZu5mvqphPkJfUcFjmaOJruK141a2%7Epf1jjVD7wXv0cdfHrGxK7yHseDGUPHL1hohvpBtB8NutKCsAYBpSbg59mLSA-RA2nlP2m0UGlyaXOJwS0c21%7EhK9svOwODGX7jG8AivRNg1nvec78y141HS50lHKaxw9IAZKg2D4ooXaP8cB-g0HcYam%7EErPAO4zyPAZnEUegOEXf1gX6q934XvpQ9v3uSsvuxfwqPe6Dk2owVSH-YQNtKfIhM96n-2sahA__&Key-Pair-Id=K2L8F4GPSG1IFC: HTTPSConnectionPool(host='cas-bridge.xethub.hf.co', port=443): Read timed out.


У кого-нибудь ещё была такая проблема? Раньше всё качалось как через терминал, так и с сайта, так и wget'ом.
Аноним 14/12/25 Вск 01:00:14 1454294 308
>>1454041
если это не ryzen 395 c 8060s - то не стоит
Аноним 14/12/25 Вск 01:01:30 1454296 309
>>1454292
Ркн. Способы обхода стандартные
Аноним 14/12/25 Вск 01:18:21 1454312 310
>>1454296
Стандартные - это из трёх букв?
Аноним 14/12/25 Вск 01:20:41 1454317 311
>>1454312
Из 3х, из 6, может ещё из скольки. Сам разберёшься. А вообще нехуй тут на партию гнать, сказали нельзя нейрослоп значит нельзя, терпи
Аноним 14/12/25 Вск 01:47:21 1454335 312
>>1454292
Была и сама уходила в течение дня.
а вообще через лмстудио качнуть попробуй
Аноним 14/12/25 Вск 02:16:37 1454347 313
изображение.png 35Кб, 1496x196
1496x196
>>1454292
>gghfez/gpt-oss-120b-Derestricted.MXFP4_MOE-gguf
Без проблем загружается через питон-скрипт и либу huggingface_hub

Кстати, посоветуйте что ещё загрузить в архив.
Пока я набрал qwen 2.5/3.0 (я не понял, instruct версия это не думающая, а thinking - думающая, а где thinking-instruct и простая base (не thinking)?), gemma, llama, некоторые мелкосети, gpt-oss20
Что ещё позагружать интересного, особенно в диапазоне 20-200B из "чистых" моделей?
Аноним 14/12/25 Вск 02:38:20 1454360 314
>>1454347
Qwen3 VL 2B thinking
могу смело советовать;
с Instruct у меня лупит,
но c mmoproj нормально.
Аноним 14/12/25 Вск 02:51:16 1454371 315
Снимок экрана14[...].jpeg 353Кб, 606x1185
606x1185
Снимок экрана14[...].jpeg 407Кб, 612x1443
612x1443
Снимок экрана14[...].jpeg 83Кб, 744x207
744x207
>>1454347
На скрине параметры запуска
из ярылка(.lnk) к llama-server.
Qwen3 VL 2B Instruct + mmproj
Аноним 14/12/25 Вск 03:48:15 1454387 316
А есть принципиальная разница кто делает квантованные версии моделей? Анслот, мрадермачер, бартовски или еще кто-то?
Зачем каждый васек свой велосипед выкладывает? Или у всех своя методика зельеварения?
Есть такое, что у кого-то быстрее или точнее квантованные версии?
Аноним 14/12/25 Вск 04:30:09 1454408 317
>>1454387
Нажми на стрелочку справа от названия модели и сам посмотри, где точность выше. Там все подробности по слоям и весам. А с Анслотом не связывайся, там чистое шаманство.
Аноним 14/12/25 Вск 04:42:54 1454409 318
К рассуждениям о русике.
Вот прошёл я русскую игру "зайчик" и хочу заромансить тян оттуда, игра прям до мозга костей русская, и что вы мне предлагаете рпшить на английском?
Русик прям необходим
Аноним 14/12/25 Вск 04:44:49 1454410 319
image.png 43Кб, 393x373
393x373
>>1454408
На эти?
Там же просто описание слоев и прочей хуйни. Что я оттуда пойму?
Про точность я говорю насколько в мозгах потерял тот или иной квант, хуже фактаж или хуже стилистика там и т.д.
Аноним 14/12/25 Вск 05:07:37 1454413 320
Блять, вот насоздавали кучу моделей. А толку-то? Как их выбирать теперь?

Вот решил я проверить на что способен мой бич-пакет на 16гб врама в кодинге. Ну модельки до 30б можно натянуть, что-то неплохое показывает. Но это только 2-3 проверенных временем моделек от топовых производителей. А потом начинается, файнтюны, хуютюны, уже какие-то новые модельки вышли а их еще не тестили толком. А потом думаешь, ну надо еще шоб с ризонингом было, чтобы вообще круто. А потом еще находишь всякие разнузданные модельки на основе моделек от корпоратов, типа Qwen3-42B-A3B-2507-Thinking-Abliterated-uncensored-TOTAL-RECALL-v2-Medium-MASTER-CODER-i1-GGUF. Такой смотришь на все это и охуеваешь.
Во-первых, качать это все 20 часов надо. Во-вторых, места уже нихуя нету, каждая моделька 10-15 гигабутов весит, а у меня и так уже игорьков и прона под завязку на дисках.
В-третьих, самое главное, понадобится тысяча лет, чтобы затестить их всех на каких-то своих нуждах, и выбрать ту самую единственную.

И это только кодинг. А в процессе аппетит накручивается, уже думаешь, а надо модельку чисто под ризонинг, чтобы было с кем за философию попиздеть. А еще надо попробовать ризонинг и без цензуры, чтобы иишка могла меня словесно отпиздить. Потом хочу чтобы креатиффчик качественный генерило, буду идеи для игр брейнстормить. Но тут еще оказывается визуальные модельки уже во всю пошли, хочу чтобы бот видел на какие картинки я кумлю.

Нахуй я сюда полез? 4 дня уже сижу, 500 вкладок в браузере, и количество нихуя не уменьшается.
Аноним 14/12/25 Вск 05:10:57 1454414 321
>>1454413
Щас еще какая-то тема с derestricted модельками появилась. Говорят, анцензоред и аблитератейд хуйня, надо это использовать.
Кто сравнивал? Есть в этом смысл?
Аноним 14/12/25 Вск 05:19:47 1454415 322
>>1454414
>Есть в этом смысл?
Могу пояснить только за derestricted Air. Он пиздат, но с ОЧЕНЬ БОЛЬШИМ НО. Это примерно как синтезатор и рояль, где синтезатор обычный Air. Derestricted буквально Yes-man, поэтому его нужно промтить на то что тебе надо, буквально указывая в промте чтобы он не соглашался и спорил. Да и в целом, в нём, в идеале, нужно промт редачить под каждую карточку с миром и персонажами. Но на выходе получается безусловный вин.
Аноним 14/12/25 Вск 05:25:07 1454417 323
>>1454413
>А толку-то? Как их выбирать теперь?

Я только поверхностно знаю, но проблемы здесь не вижу.

>Вот решил я проверить на что способен мой бич-пакет на 16гб врама в кодинге.

Ты сам ответил на свой вопрос.

> это только 2-3 проверенных временем моделек от топовых производителей

Под типовые задачи решение выходит сразу.

>Qwen3-42B-A3B-2507-Thinking-Abliterated-uncensored-TOTAL-RECALL-v2-Medium-MASTER-CODER-i1-GGUF

А вот это и все подобные это уже coomer-вариации моделей для целей изготовления троллейбуса из буханки хлеба получения nsfw-erp из модели-ассистента. Ну, или решения каких-либо специфических задач, которые моделью из коробоки не решаются, или решаются недостаточно хорошо.

>>1454414

>derestricted модельками появилась. анцензоред и аблитератейд

Методы разные, цель — одна. Cum, cum, cum.

Вот сейчас играюсь с ArliAI_GLM-4.5-Air-Derestricted-Q4_K_S
До этого был только опыт сидения на мелкомистралях.

Так вот, например мелокомистраль-coomer-edition по стилю (не по детализации содержания) кумерского письма уделывает эту GLM-4.5-Air-Derestricted из коробки с карточкой «рассказчика, ведущего GM», которая у меня была для мелкомистралей.
Когда мелкомистраль в красках описывает фетиши и прочее, GLM мнётся и всячески избегает описания NSFW в тексте. Если прямо подвести, то не отказывает. Описывает анатомические детали. Но я пока ещё не нашёл как нужно написать, чтобы сам стиль повествования был suggestive, kinky, adult-themed. А мелкомистраль кумеры натренировали специально для такого стиля письма как само собой разумеющееся. А с GLM уже изголяться надо, явно пытаясь заставить её делать то, для чего она предназначена, вместо того, чтобы использовать её по прямому назначению (что она умеет делать гораздо лучше).
Аноним 14/12/25 Вск 06:15:00 1454427 324
1765682100747.png 19Кб, 1187x186
1187x186
>>1454041
>стоит ли тратить почти 100 тысяч на этот компьютер
>чтобы запускать локальные LLM
Нет.
Как минипк для игр - стоит.
>или лучше взять чего подешевле
Пикрил. Эти процы смотри и че там по памяти ща выгодное осталось. Память в миниках обычно более менее норм, а ссд самые днищенские.
Аноним 14/12/25 Вск 06:15:36 1454428 325
>>1454415
>>1454417
Понял, спасибо.
В принципе, с VL-abliterated модельками с похожим сталкивался. Оно может про нюдесы сказать, но особо без энтузиазма. И даже если открыто про нфсв сказать, спросить сгенерить какое-то художественное описание по картинке, все равно очень сухие и обтекаемые формулировки выдает. Для кума без тюна никуда скорее всего. Но для каких-то общих попизделок да, наверное хорошая тема.

Я вот с character.ai иногда вспоминаю ботов, бывали довольно прикольные и живые, которые могли в конфронтацию пойти, и даже что-то умное спиздануть. Но я так понимаю, там подход иной был. Можно сказать у каждого чара свой собственный файн-тюн. А мы тут промптами и контекстами балуемся, на базовой модельке пытаемся какую-то консистентную личность построить.
Аноним 14/12/25 Вск 06:19:02 1454430 326
>>1454409
Сударь, используйте гугл переводчик или соберите риг за пол ляма.
Аноним 14/12/25 Вск 06:19:32 1454432 327
>>1454428
>Я вот с character.ai иногда вспоминаю ботов, бывали довольно прикольные и живые, которые могли в конфронтацию пойти, и даже что-то умное спиздануть. Но я так понимаю, там подход иной был. Можно сказать у каждого чара свой собственный файн-тюн.
Разве там не просто обычные карточки были? Ну и плюс сами модели шизовые и глуповатые, отфайнтюненные только на диалогах, без ассистентного говна.
Аноним 14/12/25 Вск 06:28:13 1454438 328
>>1454428
>Оно может про нюдесы сказать, но особо без энтузиазма

Вот, это самая суть. Такое ощущение, что делает это через силу. Дескать, написал, на тебе, отстань только.

>на базовой модельке пытаемся какую-то консистентную личность построить

Примерно это и было на character.ai и spicychat, моё ощущение пока, что я просто не знаю как использовать модель правильно. Потенциал есть, а как задействовать не знаю.
Мой основной сценарий использования для РП: не какая-то личность, а безликий «рассказчик-ГМ», который отражает реакцию «мира» на действия {{user}} и отыгрывает всех персонажей, которых я ему временно подкидываю в Author's Notes с кратким их описанием (они всё равно эпизодические).

Если в кумерских меломоделях этот «рассказчик» становился таким же кумером, который смаковал происходящее, то GLM-4.5-Air-Derestricted из коробки ведёт себя как скучающий соевик. Старается обходить NSFW углы, если прямо не натолкнут, да и повествует складно, но графомански и без огонька.

А если вопрос действительно в тюнах, то в отличие от мелкомистралей тюнить специальный coomer-вариант модели на 110B и выше параметров слишком накладно, да и запустят его 3,5 Анона. А мелкие модели получают больше внимания в силу их доступности и, как следствие, массовости.
Аноним 14/12/25 Вск 06:31:16 1454440 329
>>1454430
...или используйте гемму 27b которая запустится на любой кофеварке и в плане русика надаёт за щеку всем локалкам вплоть до 235b квена.
Аноним 14/12/25 Вск 07:18:41 1454446 330
>>1454440
Отупеет до уровня 12b, нахуй надо.
Аноним 14/12/25 Вск 13:28:59 1454602 331
>>1454432
>Разве там не просто обычные карточки были?
Что там было внутри, мы точно не узнаем, но они повествовали про лоры на каждого персонажа, мол, на основе реакций пользователей чары становятся лучше, и чем больше взаимодействий, тем лучше. Может пиздели конечно.
>>1454561
Ты ахуел бампать в тематике?
Аноним 14/12/25 Вск 13:50:59 1454615 332
image.png 22Кб, 633x438
633x438
>>1453856
UPD.
Вы даже не представляете какой я дебич. Хотя дело больше в банальном незнании.
Я дохуя лет просидел на нищенской материнке с 2 слотами. И когда наконец обзавёлся 4-слотовой с 2 каналами, мне показалось логичным, что слева расположен один канал - справа другой. Но конечно же всем очевидно что их надо распологать в шахматном порядке...
Короче всё завелось как только вставил как надо. Можно сказать конец моим бедам с башкой
Аноним 14/12/25 Вск 14:13:08 1454634 333
>>1454432
>Разве там не просто обычные карточки были?
Ну кстати хз, сейчас глянул создание новых персов, как будто просто карточки. Просто помню, что в начале в гайдах всегда писали, что надо дохуя диалогов скормить персонажу.
Может быть в этом и был секрет годных персонажей, что из диалогов они считывают паттерны и адаптируются к ним. Собственно, ллм как раз хороши в копировании стиля письма.

Вот туда, например, всяких Мэддисонов и Хованских добавили. Их же не получится сгенерировать просто по описанию, типа "жирный, обрюзгший человек, любит компьютерные игры, любит шутить и саркастировать". А вот через диалоги можно много нюансов личности закодировать.

Хотя еще остается вопрос влияния интеллекта самой модельки. Гугел говорит, что там вроде как Ллама использовалась. И по началу она сносно справлялась. Потом стали сою добавлять, и при этом сами персонажи как будто стали плоскими, безвкусными. Причем не обязательно было какой-то нсфв затрагивать, просто глобально пропала какая-то гибкость, какая-то изюминка персонажей.

Сейчас доступны намного более крутые модельки, но автоматом это не дает преимуществ для РП и всего прочего.
Вот и думайте, так ли нужны модели 100+б, когда 12б с хорошим тюном до сих пор ебут. Если взять 24б, 80б, 200б, это не означает что у тебя будет больше "игры".
Нужен все-таки какой-то баланс интеллекта, тюна и правильной прописки.
Аноним 14/12/25 Вск 14:23:48 1454656 334
загранью.jpg 60Кб, 1020x498
1020x498
Аноним 14/12/25 Вск 14:57:08 1454723 335
>>1454634
>сейчас глянул создание новых персов, как будто просто карточки
Так сейчас они отказались от своих моделей и сидят на апишке гопоты.
>Гугел говорит, что там вроде как Ллама использовалась
Вот так и рождаются легенды (а этот текст всосёт нейронка, и будет в этом уверена, лол). Особенно свешно читать такие искажения, когда сам был свидетелем этих событий (я в теме с начала 2023-го).
Они появились задолго до появления лламы. И сетка у них была своя. Судя по тому, что стартап основали выходцы из гугла, сетка там была уровня Lambda.
Аноним 14/12/25 Вск 15:01:30 1454728 336
>>1452720
> В серверных карточках есть и используют.
Данный интерфейс даже в серверных задействуется не всегда. Он актуален для задач с очень интенсивным обменом данными между гпу, например при некоторых видах тренировки. Но даже там не является обязательным или наоборот решающим все проблемы, а в инфиренсе трудно найти кейс, где бы он был полезен.
> и судя по тому, насколько она хорошо и чисто разговаривает на 4.0 битах, то график перплексити не на пустом месте нарисован
Exl3 по квантам действительно ебет, но они не являются совсем панацеей, в низкой битности модель тоже будет часто ошибаться. По скорости основной выигрыш будет на контекстах, особенно на больших. На пустом для некоторых моделей может даже чуть отставать от llamacpp.
> работающий сервер с совместимым интерфейсом найти
И табби и убагуга поддерживают стандартное апи и дополнительные команды по смене моделей для загрузки нужной.
>>1453785
> эйр летает на 50+т/с
Что-то маловато, какой контекст? Но за v100 поддвачну, или их или 3090
Другой владелец рига
>>1454041
Нет, доплати до старшней версии с флагманским процом и 128 гигами памяти.
>>1454109
> не наебнётся ли весь этот движ уже в самом ближайшем времени
Уже вышедшие модели никто не отберет, планы на выпуск новых есть, спрос и конкуренция тоже. На свитспот ~100б что-нибудь да выпустят, можешь хоть большого девстраля катать. Надо дождаться его кумотюнов, лол, потанцевал у модельки то шикарный.
Аноним 14/12/25 Вск 17:59:54 1455013 337
>>1454409
На удивление проза квена 235б легла на зайчика охуительно, т.к в самой игре этой прозы и сравнений типа "снег ложился на траву как сперма бомжа" дохуища.
Гемма тоже справляется, но все же писек в ней не заложили, так что суховато
Аноним 14/12/25 Вск 19:42:21 1455118 338
>>1454728
>можешь хоть большого девстраля катать. Надо дождаться его кумотюнов, лол, потанцевал у модельки то шикарный.
Вот тоже жду, когда кто-нибудь догадается. Вообще странная модель по нынешним временам.
Аноним 14/12/25 Вск 19:47:20 1455130 339
>>1454634
>Сейчас доступны намного более крутые модельки, но автоматом это не дает преимуществ для РП и всего прочего.
>Вот и думайте, так ли нужны модели 100+б, когда 12б с хорошим тюном до сих пор ебут. Если взять 24б, 80б, 200б, это не означает что у тебя будет больше "игры".
У новых тупо лучше внимание к контексту, у больших - больше параметров и качественнее датасет. Ну и разработка не стоит на месте - новые фишки постоянно. Короче 12В - это по нынешним временам скорее удачный свайп, а вот цельную картину только новые модели могут дать. Наконец-то.
Аноним 14/12/25 Вск 19:53:20 1455142 340
>>1455118
Пчел, это древний лардж затюненный под код. А под оригинальный лардж, насколько помню, кумотюнов достаточно наделали в своё время.
Аноним 14/12/25 Вск 19:58:59 1455152 341
>>1455118
Старый конь борозды не испортит. Да еще там похоже что датасет обновлен и тренировки было немало, по беглым оценкам модель кажется пободрее чем старый лардж.
>>1455130
У новых моделей что выходят датасет и сам подход к тренировке лучше чем у старых. Но чудес не бывает, большая модель всегда будет ощущаться приятнее при прочих равных, или даже с хорошей форой.
Аноним 14/12/25 Вск 21:32:11 1455277 342
Мужики, подскажите пожалуйста вот чего. Я тут решил начать учить кодинг C#, но ментора или знакомых програмцов нету. Я уже немного умею писать код, но всё ещё очень плохо получается: либо логика рассыпается, либо кривая реализация, либо вообще всё красное нахой с миллионом ошибок. Есть ли что-то локальное на русике, что заменит мне ментора и будет объяснять где я обосрался?
4090 + 64 ddr5 + 13600
Аноним 14/12/25 Вск 21:37:23 1455279 343
>>1455118
Не знаю, как у вас, но у меня эта срань улетала в луп при генерации Flappy Bird по детальному промпту. Квант не самый дохлый - iq4_xs от бартовски, на котором квен и эйр вполне себе живут. Контекст не квантовал, если что.
Если это говно лупится ещё на первом сообщении, то о чем вообще можно говорить?
Аноним 14/12/25 Вск 21:43:55 1455282 344
>>1455277
Смотри что удобно, ты можешь и ультра мелкий квен 0.6 взять для длинных запросов, или 32 для большого ответа на малый запрос.
Аноним 14/12/25 Вск 21:49:38 1455284 345
>>1455277
А отчего требование локальности? Интересно даже. Просто для программирования лучше или корпы, или совсем уж крупные сетки. Мелкие могут насрать тебе прямо в мозг, уча плохим вещам.
Аноним 14/12/25 Вск 21:51:06 1455288 346
>>1455277
А зачем тебе локальное? Бери фришный дипсик или чатгопоту и еби его вопросами.
Конкретно для помощи в кодинге лучше штуки типа копилота использовать. Но если ты только начинаешь, я бы советовал вообще отказаться от использования каких-либо готовых решений от ИИшки. Максимум только для объяснения каких-то концепций.
Аноним 14/12/25 Вск 21:53:56 1455292 347
>>1455277
Любая что запустится на твоем железе и подходящая карточка, хоть дефолтный кодинг сенсей. Гемма, 30а3, эйр, осс квен 235 и т.д. Неопритность языка тут будет терпима.
Аноним 14/12/25 Вск 22:54:30 1455332 348
Объясните в чем там суть с подорожанием оперативки и ссд дисков, разве скорость не от процессора или процессора в карте зависит?
Аноним 14/12/25 Вск 22:58:47 1455337 349
>>1455332
Просто память скупили, вот и всё. Это никак не связано с производительностью.
Аноним 14/12/25 Вск 23:12:27 1455366 350
>>1455332
Печатают память на одних и тех же мощностях, так что если корпы высасывают мощности под видюшную память, то под оперативу и ссд остаётся меньше, вот и дорожает.
Аноним 15/12/25 Пнд 00:35:22 1455507 351
>>1455332
Нейрокабаны получили в карман бабло налогоплотельщеков от воздухана на нейронный проект манхэттан и устроили мощный закуп HBM памяти забив вообще хуй на иксы к ее стоимости, бабло-то не свое. 3 вендора которые делают память поглядели, и решили что пока идет такое дело им нехуй консумерскую память выпускать, когда тот же кусок кремния можно продать в 10 раз дороже больше кабану. Ждем пока бабло у них закончится.
Аноним 15/12/25 Пнд 00:44:29 1455520 352
>>1455277
Нет не заменит. Интеллектуальный Идиот только в качестве интерактивной документации годится и для генерации бойлерплейтов, там где требуется хоть какое-то логическое мышление и способность доходчиво объяснять хоть святых выноси сразу. Вообще способность доходчиво объяснять это главный признак отличающего умного от задрота. Попробуй Head First книжки что ли поискать.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов