Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 505 86 133
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №180 /llama/ Аноним 30/11/25 Вск 08:28:40 1435735 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Реальная длина [...].png 671Кб, 1602x2476
1602x2476
17633955657361.jpg 6535Кб, 3072x4080
3072x4080
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1426038 (OP)
>>1418668 (OP)
Аноним 30/11/25 Вск 09:02:16 1435745 2
Air 4.6 сегодня
Аноним 30/11/25 Вск 09:53:13 1435789 3
Да уже не очень то и надо.
Должны уже air 5.0 ждать к этому моменту
Аноним 30/11/25 Вск 11:09:13 1435818 4
>>1435599 →
>теперь думаю стоит ли выбирать другую с 2 слотами
добавьте уже в шапку инфу про btc 79x5
5 pie 8x 3.0 + проц + память + иногда даже msata за 5-6 к рублей.
Аноним 30/11/25 Вск 11:16:23 1435821 5
Аноним 30/11/25 Вск 11:43:32 1435841 6
Анон который писал про https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted Ты был прав, это ахуеть. Кум вышел на новый уровень и не потерял в мозгах. Спасиба <3
Даже мой микро iq4_xs квант бартовского хорошо работает.
Аноним 30/11/25 Вск 11:53:39 1435848 7
>>1435841
Я скачал ArliAI_GLM-4.5-Air-Derestricted-IQ4_XS, он у меня сожрал всю память и все, что осталось от ССД. И повис. Но скорость при этом была как на втором кванте. Я выше выложил ссылку на 4.6, но у меня только первый квант может завестись, не буду пока качать.
(>>>1434315 → анон)
Аноним 30/11/25 Вск 11:57:14 1435856 8
Аноним 30/11/25 Вск 12:00:39 1435861 9
>>1435841
пацаны поделитесь шаблонами для инстракта, системным и тд. Настройками семплеров там.
Я запустил ArliAI_GLM-4.5-Air-Derestricted, а она почему-то лупится абзацами.
Какие только соски я уже таверне не покрутил - не получается избавитсья от лупа.
Аноним 30/11/25 Вск 12:29:22 1435893 10
подскажите, а на текущий момент существует такой агент, который может в интернете искать порно? типа предложить случайный интересный видос на какую-то тему. Грубо говоря "сегодня ты дрочишь на гейское порно по этой ссылке", или картинки какие-то тематические. Такое сейчас возможно в каком-нибудь готовом браузере, на сайте или локально?
Аноним 30/11/25 Вск 12:37:26 1435912 11
>>1435861
> почему-то лупится абзацами.
Это может быть формой рефуза, если у тебя там совсем страшный пиздец происходит. Пойми при каких обстоятельствах луп возникает и всё станет ясно.
мимо согласен с репрессированной базой треда
Аноним 30/11/25 Вск 12:43:01 1435919 12
>>1435893
Удваиваю вопрос. Хотелось бы откопать пару редких видео, которые сейчас, наверное найдутся только на 3.5 забытых сайтах из 2013.
Аноним 30/11/25 Вск 13:09:57 1435945 13
>>1435912
кто отрицает базу треда будет вынужден возвращаться к ней вновь и вновь
Аноним 30/11/25 Вск 13:11:38 1435946 14
>>1435945
ты, долбоёб, ты понимаешь что называешь базой молчание в ответ на вопрос и препятствие обмену информацией в тематическом треде?
Откуда вы такие повылезали блядь?
Аноним 30/11/25 Вск 13:14:46 1435950 15
>>1435946
я про другую базу, где меньше q6 жизни нет
Аноним 30/11/25 Вск 13:33:58 1435965 16
>>1435821
> лоботомитный квант
> лоботомитного тюна
> лоботомитного рипа
Это шин треда
>>1435841
В чём он прав?
Это говно. Просто нет отказов и всё.
Во всём. Никакое рп таким образом невозможно.
Кумьте на мистралеслопе и не тащите своё говно в тред
Аноним 30/11/25 Вск 13:37:07 1435974 17
>>1435965
>Никакое рп таким образом невозможно.
Раньше я думал что скил ишью это мем, но со временем понял что нет. Если ты не троллишь то это точно твой случай.
Аноним 30/11/25 Вск 13:41:21 1435980 18
>>1435974
Я отыгрываю короля, на твоем лоботомите советники просто дакают на все предложения, даже на застроить королевство храмами нех где еатядят детей.
Коупи дальше что это юзабельно, просто не задавай вопросов
Аноним 30/11/25 Вск 13:42:05 1435981 19
>>1435945
>>1435950
В базу треда верят только шизики и криворучки. Нормальное качество можно получить даже на огрызках типа мелкого мистраля. Достаточно просто внятно понимать что ты хочешь получить на выходе и соответственно прописать инструкции. Если ты даже мелкомодель обуздать не можешь я считаю тебе должен быть институционально закрыт доступ к более толстым локалкам. Потому что база треда если и существует то её смысл будет в том, что плохих моделей нет, есть долбаебы которые не умеют ими пользоваться.
Аноним 30/11/25 Вск 13:48:13 1435984 20
>>1435980
Ща бы злюкам узколобам вроде тебя что-нибудь доказывать, дыаааа. У меня всё ахуенно, у чаров сохраняется агентность и при этом свайпы свежие и интересные в сравнении с инстрактом. А ты можешь проследовать сам знаешь куды.
Аноним 30/11/25 Вск 13:51:37 1435992 21
1000018063.webp 22Кб, 480x480
480x480
>>1435984
> эм ну у меня всё отлично пруфов не будет скил ишью ну я пошёл пук
И почему я не удивлён
Аноним 30/11/25 Вск 14:00:33 1436004 22
>>1435992
>пик
А, ну тебе точно доказывать ничего не стоит. Но и так читалось, ты аватаришь тупизной
Аноним 30/11/25 Вск 14:42:30 1436053 23
>>1435912
>Это может быть формой рефуза
Нет, Айр прямо рефузит в ответе. А лупиться сам по себе.
Аноним 30/11/25 Вск 14:59:57 1436084 24
>>1435656 →
Не связано ли это с контекстом? Сейчас раз дашь понюхать большой - замедление навечно до перезапуска.
>>1435893
В конструкторе можно устроить. Можно готовые тулзы заставить искать по нужной теме, но в популярных забит только гугл.
>>1435981
Там прямо по методичке пропогандонов и манипуляторов: около половины очевидные факты, чтобы мимокроки могли поверить и была возможность "яжговорил", остальное - пихай любую херню, которую хочешь зафорсить. Базашизика и подобных на парашу.
> что плохих моделей нет
На самом деле есть, много совсем поломанных и ужаренных, что только место на обниморде занимают. Называть модель плохой потому что она мелкая или кто-то ее не осилил - уже неправильно, да.
Аноним 30/11/25 Вск 15:26:04 1436095 25
>>1436053
ни разу не ловил лупы на аире. в последний раз такие противоречивые отзывы были разве что по гемме
а ведь тренировались они на схожих датасетах
вот вам база треда Аноним 30/11/25 Вск 15:28:06 1436096 26
токены ядра.png 23Кб, 1437x801
1437x801
fddf.png 16Кб, 115x97
115x97
больше ядер не равно лучше.
запускаю GPT-OSS 120B весом 61 гигабайт на проце без видюхи, тухлый епик 2 поколения 32 ядра + 8 плашек ддр4 3200мгц, задаю вопрос размером 186 токенов, смотрю token generation на восьмой строчке выдачи:

--threads 32 = tg 6.3
--threads 16 = tg 6.8
--threads 12 = tg 7.4
--threads 10 = tg 7.5
--threads 9 = tg 7.6
--threads 8 = tg 7.6
--threads 7 = tg 7.5
--threads 6 = tg 7.3

prompt processing хз сколько, новый веб гуй его не показывает
Аноним 30/11/25 Вск 15:32:43 1436100 27
>>1436096
Это еще несколько тредов назад выяснили. Я такую же статку сюда выкладывал для r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах, и не важно, с выгрузкой на гпу или нет.

По хорошему бы эту инфу в шапку добавить. Буквально халявные 1-2 т/с на ровном месте.
Аноним 30/11/25 Вск 15:33:22 1436102 28
>>1436095
>тренировались они на схожих датасетах
Ага. Вот и думой те. У меня тоже с Аиром нет проблем, Гемма мне тоже нравилась.

Мир больших языковых моделей поистине мистичен.
Аноним 30/11/25 Вск 16:09:47 1436129 29
>>1435841
Мб повезло и я тупо зароллил, но позади 25к контекста и никакого эха или наративного репетишена нет. Счастье-то какое
Аноним 30/11/25 Вск 16:38:46 1436162 30
>>1436096
На современном эпике от 12 до 80 нет разницы, на интеле от 3 до 8. Надо будет на новых коммитах чекнуть, но врядли изменилось. Стоит давать рекомендацию тестировать на своем железе и краткую инструкцию как это сделать.
>>1436100
> и не важно, с выгрузкой на гпу или нет
Если что-то остается на процессоре то его перфоманс будет ролять, для фуллврам разницы быть уже не должно.
Аноним 30/11/25 Вск 16:57:19 1436178 31
> никакого эха или наративного репетишена нет. Счастье-то какое
Не ты ли писал что его и не было никогда, что у всех скил ишью а у тебя всё заебись?
Аноним 30/11/25 Вск 17:00:25 1436181 32
>>1436178
Не, не я. Я наоборот один из тех кто жаловался несколько раз, я в какой то момент и вовсе тильтанул и снес его. А сейчас рпспробовал или хуй знает
Аноним 30/11/25 Вск 17:01:56 1436185 33
OIP.webp 2Кб, 474x266
474x266
Не знаю в тот ли тред обращаюсь...
Вместо длинных статей понравилась идея прослушивать выжимку.

Формат подкаста голосом Скабеевой конечно кринж, но это ладно...

Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы. Подкаст получается ильно дырявый, длинные статьи может пережать до 15 минут пиздежа. В итоге две выжимки по одной и той же статье могут сильно отличаться друг от друга.

Так что подкиньте какой-то аналог НотэбукаЛМ, ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.
Аноним 30/11/25 Вск 17:30:40 1436257 34
>>1436185
>тред про локальные модели
>спрашивает про корпоративный сервис
Ну да, действительно непонятно, в тот ли тред зашел...
Аноним 30/11/25 Вск 17:52:01 1436313 35
>>1436185
В общем под задачу нужно перенастраивать промпты и сам режим работы агентов, использовать более подходящие для этого модели.
Только сложно все это по сравнению с готовой проприетарной тулзой с минимальным порогом вхождения и простым функционалом. Придется или много разбираться (при этом не обязательно использовать локальные ллм, можно и корпов), или смириться и терпеть, выбирай.
Аноним 30/11/25 Вск 19:04:02 1436417 36
найс тема
Аноним 30/11/25 Вск 19:05:01 1436418 37
>>1435893
>порно в интернете
Анон, у меня для тебя плохие новости - в интернете нихуя не ищется, поисковые системы скатились в ёбаное говно, шанс того, что поисковик найдёт тебе годноту (хоть с помощью ИИ, хоть с помощью Аллаха) в районе нихуя. Поиск по фото вообще стал говном-говна, уровня поиска по алиэкспрессу.
А ещё порнхаб с миллиардами залитых юзерами видео на разные тематики накрылся платежными системами и теперь там только авторизованные по паспорту тяночки.
Не, сайты с порно-то есть, но там никакого разнообразия. Разнообразие есть на всяких специализированных форумах, но там во-первых нихуя не ищет, а во-вторых там обычно залито всё на какие-нибудь уёбищные файлообменники платные, которые давно похерились.
Я искал запись народного стриптиза от Знака качества из 2000 года (видел по телевизору, будучи мелким) - оцифровка была на ютубе в 2024 году, её ютуб удолил и всё, нихуя нет. Даже с автором оцифровки пытался связаться, а тот в вк окуклился так, что ему не написать. Или вот искал видео из группы вк, где тянучка в 2019 выкладывала видео со стриптизом, пытаясь раскрутиться - и тоже, аллес. Группа закрыта, тян-админ в вк больше пяти лет не в онлайне. Вытянул часть с её отдельного сайта с помощью интернет-архива, благо там и видео в архив подтянулись, но только часть.
Аноним 30/11/25 Вск 19:54:30 1436496 38
>>1436313
NotebookLM умеет с промптами работать. Можно например попросить про какую-то конкретную главу из книги рассказать.
Вопрос в том как заставить ее в целом меньше тупить
Аноним 30/11/25 Вск 20:03:44 1436513 39
>>1436496
> NotebookLM умеет с промптами работать
> Можно например попросить про какую-то конкретную главу из книги рассказать.
Поделись, что ты подразумеваешь под "работой с промптами"?
Аноним 30/11/25 Вск 20:34:06 1436563 40
image.png 145Кб, 1266x849
1266x849
Аноним 30/11/25 Вск 20:39:34 1436572 41
>>1436100
>r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах
У меня на 5700x пик пришёлся на 4 ядра, но разница очень небольшая (как, впрочем, и абсолютные цифры). Память 3200, если что, модель 49b плотная, аттеншен на видимокарте был (сколько влезло).
7: 1.97
6: 2.00
5: 1.98
4: 2.02
3: 1.77
Аноним 30/11/25 Вск 20:41:05 1436578 42
Попробовал эту версию ArliAI_GLM-4.5-Air-Derestricted которую тут нахваливают. Не увидел разницы от обычной Air. Я и в обычной Air отказов и цензуры не получал.
Аноним 30/11/25 Вск 20:43:23 1436580 43
>>1436563
Нет, в данном контексте речь об инструкциях, которые передаются ллм вместе с исходными данными для промежуточной и финальной обработки, и то как эти данные оборачиваются.
>>1436572
> пик пришёлся на 4 ядра
Ты мышью активнее пошевели и "пик" на другое придется.
Аноним 30/11/25 Вск 20:46:23 1436585 44
Кто там писал в предыдущем треде что у него на жоре скорость упала на последней версии? Тоже обновился и это пиздец. У меня "контекст закончился" когда его 9к из 32 в промте и прочие странности вытекают. Откатился.

Бтв, я последние тредов 15 прочитал по Эиру. И рассуждения анонов которые писали как его промтить помогли. Переписал карточку и уже два дня кумю как ненормальный, как будто впервые 12б мистралеслоп ем и не могу насытиться. Если правильно запромтить эта модель тупо работает и делает свое дело.
Аноним 30/11/25 Вск 20:54:24 1436598 45
Аноним 30/11/25 Вск 20:56:05 1436600 46
>>1436598
Так а что там непонятно? Шаблон GLM из таверны и семплеры обычные, температура 1, min p 0.03, штраф за повтор иногда можно врубить или драй если его предпочитаешь.
Аноним 30/11/25 Вск 20:59:35 1436606 47
>>1436598
Ну и про промтинг в других тредах читай. Сори, но я заебусь это расписывать или заново искать. Там вроде три анона полезные полотна вкидывали.
Аноним 30/11/25 Вск 22:51:46 1436674 48
тестирую тут всякие варианты запуска на жоре.
-ot не показал никакой эффективности при распределении тензоров на разыне карты. Я пытался наиболее требовательные пихать на 3090, а остальное на v100 и незначительное на p40.
Нихрена вообще не дало.
Зато я попробовал запустить модель вообще без p40, только на трех картах 3090 + 3090 + v100
получил 54.27 т/с
вот тут запускал на 4 карты 3090 + 3090 + v100 + p40 >>1434467 →
скорость была 33+ т/с

то есть наличие p40 отнимает 20т/с генерации. Относительно общей скорости это -45% примерно.

>>1436600
вот ты упомянул, что шаблон используешь, а я понял, что таверну не обновил. У меня шаблона не было. Подтянул. Буду ковырять.
Аноним 01/12/25 Пнд 00:10:10 1436728 49
>>1436674
Бля, уже второй чел в треде пишет "у меня модель на N+1 картах работает медленнее, чем на N". Вы не понимаете что ли, что в такой формулировке это звучит "я полный еблан, распределил модель, которая влезает в N карт, на N+1 карту, и жалуюсь, что так медленнее."? Пишите конкретно, епта, что вы добиваетесь добавлением доп. карты. TP? Перенос экспертов с рам в карту? Или реально ебланизмом страдаете?
Аноним 01/12/25 Пнд 00:24:50 1436734 50
>>1436674
Разницы между 3090 и v100 не замечаешь потому что они достаточно близки по перфомансу, судя по тестам. А то что тесла - тормоз и так было известно. Но она все еще должна быть быстрее десктопной рам.
>>1436728
Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные.
Аноним 01/12/25 Пнд 01:40:44 1436769 51
>>1435818
>5 pie 8x 3.0
А нужно ли оно с 1х ддр3 и донным цпу?
Аноним 01/12/25 Пнд 03:48:29 1436846 52
В ожидании обновления, тюн эйра4.5 https://huggingface.co/PrimeIntellect/INTELLECT-3
Отзывы противоречивые, у одних бенчмаксед, у других наоборот годнота. Судя по темплейту тренили в чатмле.
Аноним 01/12/25 Пнд 04:47:03 1436856 53
>>1436734
>Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные.
Модер потер мой мягкий ответ тебе из-за других обиженок, но я могу и конструктивно выебать, мне не впадлу - 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты. Незначительные, ага, так и закоупим запишем.

>>1436769
>А нужно ли
Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать.
Аноним 01/12/25 Пнд 08:48:15 1436895 54
176456805730845[...].jpg 41Кб, 480x640
480x640
В общем, попробовал я.
24b мистраль, 4 квант (не хотелось терять качество на младших квантах)
12Гб врам. + 24 рам ddr3
С выгрузкой слоев 0.9 т/с
С выгрузкой тензоров 1.5 т/с.
Грустно, но это был интересный опыт. Наверное с моешками будет веселее. Пока возвращаюсь на 12b немо.
Аноним 01/12/25 Пнд 09:01:44 1436899 55
Снимок экрана1-[...].jpeg 21Кб, 831x99
831x99
Снимок экрана1-[...].jpeg 21Кб, 837x102
837x102
llama-server
b7211-cpu
Qwen3-VL-2B
Thinking-Q4_K_M
i3 10100 ddr4 2933 16
Стены текста по 3к слов.
Аноним 01/12/25 Пнд 09:03:42 1436900 56
Снимок экрана1-[...].jpeg 10Кб, 435x60
435x60
Аноним 01/12/25 Пнд 09:17:06 1436903 57
Четвёртая Геммочка! Когда???
Аноним 01/12/25 Пнд 09:21:13 1436905 58
>>1436846
Какого обновления?
Ты не понял что ли?
2mw
>>1436903
К счастью они молчат как сигмы и тихонько пилят, а не как некоторые рот закрыть не могут ща ща сун всё будет дайте 2 недели и так 2 месяца
Аноним 01/12/25 Пнд 10:48:53 1436930 59
>>1436856
> 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты
Счастливый обладатель подключения по x1 шине? Или может картофельный конфиг с мусором вместо процессора и одним каналом ддр3? Не должно такого эффекта быть на здоровом железе если речь о фуллврам, ищи проблемы.
> конструктивно
Да где же конструктив, вон братишка проиллюстрировал насколько один паскаль может замедлить даже при небольшой доле на нем, красавчик, а ты на говно исходишь. Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха.
> байки
Sweet summer child
>>1436905
2 more epochs, look, it's getting better?
Аноним 01/12/25 Пнд 11:41:01 1436973 60
>>1436930
>Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха.
А ещё можно оставить одни теслы, включить row split и получить те же 30t/s без V100 и 3090. 4 теслы как раз встанут в цену одной V100 32gb. Причём если брать не P40, а P100, то конечно это всего 64гб, но скорость МоЕшек в этом размере будет ничего так. По идее.
Аноним 01/12/25 Пнд 11:58:54 1436986 61
>>1436895
Пчел, ты с кофемолки капчуешь? На 12гб с выгрузкой там чото около 7+ т/с.
Аноним 01/12/25 Пнд 12:14:04 1436991 62
>>1436986
Я подозреваю, что проблема в DDR3, проц хоть и старый, но могучий FX8350, пронзающий небеса своими восемью ядрами.
Аноним 01/12/25 Пнд 12:23:19 1436998 63
Аноним 01/12/25 Пнд 12:30:00 1437002 64
>>1436998
Однажды HeMinngweiAi попросили написать самый короткий грустный рассказ...
Спасибо за пояснение, анон. Я знал, что когда-то этот момент настанет. Все-таки старичку уже 12 лет... Теперь надо переждать шторм (пара-тройка лет, мб), и на следующий день после того как цены отыграют вниз, я начну таки собирать новый пека.
Аноним 01/12/25 Пнд 13:15:50 1437037 65
>>1436998
Сейчас AVX2 уже не такой большой буст дает, AVX1 достаточно разогнали.
Когда я последний раз зеончик юзал с AVX1, он не сильно отставал от процессоров с AVX2 с той же псп.
Хотя за год до этого он реально 30% просаживался.
Аноним 01/12/25 Пнд 13:30:32 1437051 66
>>1436973
>А ещё можно оставить одни теслы, включить row split и получить те же 30t/s
нет сынок, это фантастика.
максимум 15.
Аноним 01/12/25 Пнд 13:50:32 1437081 67
Мистраль ларж подкрался незаметно
Аноним 01/12/25 Пнд 13:56:05 1437088 68
Аноним 01/12/25 Пнд 13:58:19 1437091 69
Аноним 01/12/25 Пнд 14:17:06 1437118 70
>>1437091
Хоспаде, скорее бы.
Аноним 01/12/25 Пнд 14:17:35 1437120 71
Там и писик новый вышел. Ждем ггуфов.
Аноним 01/12/25 Пнд 14:34:19 1437140 72
>>1437091
Что-то скурвились французы, архитектуру Дипсика взяли. Фактически уже имеем десять Дипсиков с разными датасетами.
> 128 рам
Ты хотел сказать 512? Там будет 300-700В.
>>1437120
Что-то долго они с V4. Опять тут будет дотюн под скоры. Терминус, кста, был лучше в РП, чем экспериментальный 3.2.
Аноним 01/12/25 Пнд 14:55:43 1437159 73
>>1437091
>Ф всем кто не купил 128 рам
А на мистраль медиум они совсем забили?
Аноним 01/12/25 Пнд 15:15:00 1437197 74
>>1437091
видимо будущее за мое
ни разу не пожалел что купил 96гб ддр5 когда цены были нормальные
Аноним 01/12/25 Пнд 15:25:58 1437216 75
>>1437159
Судя по средиту, этот ларж и будет переименованным внутренним медиум, лол.
Аноним 01/12/25 Пнд 15:26:45 1437218 76
давайте репортить всех кто пишет что они купили оперативу до того как она сделала х3
Аноним 01/12/25 Пнд 15:28:23 1437221 77
>>1437197
>ни разу не пожалел что купил 96гб
Проблема в том, что все крутые модели 500В+. Спасибо ещё Квену, но чую, что в следующей версии и они увеличат размер и что тогда?
Аноним 01/12/25 Пнд 15:30:11 1437223 78
>>1437218
>давайте репортить всех кто пишет что они купили оперативу до того как она сделала х3
Лично мне обидно, что и DDR4 с какого-то хуя поднялась. Барыги, одно слово.
Аноним 01/12/25 Пнд 15:33:41 1437227 79
>>1437218
С учетом скидок и баллов озона, купил 64гб ddr4 за 8600р. Но это было еще в сентябре. А сейчас довольно урчу на эйре, хе-хе-хе.
Аноним 01/12/25 Пнд 15:36:04 1437230 80
Аноним 01/12/25 Пнд 15:40:47 1437234 81
>>1437223
>DDR4 с какого-то хуя поднялась
Её вообще перестали как бы производить.
>>1437230
Нет.
Аноним 01/12/25 Пнд 15:42:11 1437235 82
>>1436973
> включить row split и получить те же 30t/s
Это таки другой режим. Но во-первых 30т/с там никогда не будет, а во-вторых уже через 8к контекста оно превратится в тыкву настолько если 5т/с останется то уже хорошо.
> 4 теслы как раз встанут в цену одной V100 32gb
Лолчто, они же только у барыг за лютый оверпрайс остались, свои распродаешь? P100 действительно лучше, но мало памяти. Городить колхоз аж из 4х карточек ради эйра, который катается на десктопе, чтобы в итоге катать его со скоростью как не десктопе - ну такое.
>>1437091
Это просто ахуенно.мп4
Ждем!
>>1437140
> Там будет 300-700В.
Это просто ахуенно х2
> десять Дипсиков с разными датасетами
Да не надо, не смотря на схожесть архитектуры, работают и перформят они совершенно по-разному.
Что там в 3.2 интересно, но надежд что будет лучше терминуса немного.
Аноним 01/12/25 Пнд 15:46:15 1437236 83
>>1437221
>но чую, что в следующей версии и они увеличат размер и что тогда?

ну зависит от ситуации на рынке железа. в ближ 2-3 года скорее всего ничего брать не буду, пока модели не протухнут окончательно (мне не для кума, текущих моделей - air + qwen + gptoss - мне пока хватает). потом мб или medusa halo, или mac studio, или что еще будет иметь смысл в 2к28 (epyc/xeon/threadripper старых поколений). на крайняк могу купить подписку и забить хуй на локальный сетап, в конце концов мне не для кума.
Аноним 01/12/25 Пнд 15:48:32 1437238 84
>>1437218
Хочешь экспедицию на марс? Не так давно брал ддр5 64гб планочки по 15-20к.
>>1437230
С точки зрения возможности запуска на нормижелезе - да.
>>1437236
> в конце концов мне не для кума
Ахуеешь с того, насколько нищие рейтлимиты по подпискам.
Аноним 01/12/25 Пнд 17:29:41 1437300 85
Эх Нюня, я как и ты был на цепи...
Ща Мистраль релизнется и он вылезет со своим никому не нужным мнением
Аноним 01/12/25 Пнд 18:12:46 1437346 86
>>1436930
>Не должно такого эффекта быть
Пошли манявиляния, мм. Конфиг не тот! Потом станет бекенд не тот. Замеры не те.
К слову, ты сам себя забавно приложил, ведь т.н. "картофельный конфиг" как раз у того, кто v100 замеряет. Ой как неудобно получилось.
Аноним 01/12/25 Пнд 18:26:52 1437359 87
>>1437346
Таблетки прими, агромразь, настолько упоролся коупингом своего "конфига" что потерял связь с реальностью.
> "картофельный конфиг" как раз у того, кто v100 замеряет
Замечание уместно, тут стоит попросить его оценить скейл запуском моделей на одной и нескольких карточках чтобы извлечь эффект.
Аноним 01/12/25 Пнд 18:30:07 1437361 88
>>1436185
>Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы.
>ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.

А если попробовать разбивать на меньшие части? Будет больше деталей и нейронке проще держать фокус для детальной выжимке. Слишком много контекста обрабатывать детально даётся обычно только крутым моделям, а как плебс вариант то приходится довольствоваться малым..
Аноним 01/12/25 Пнд 18:33:06 1437363 89
>>1437223
Мне обидно что я думал наивно что они как запустят конвеер под ддр6 и плебс будет хавать ддр5 как раньше ддр4, а они в итоге все мощности перенаправили в голодные рты корпоблядкам.
Аноним 01/12/25 Пнд 18:43:37 1437375 90
>>1437359
Теперь пошел проход в шизы, ведь признать ошибку в своем суждении тебе очень унизительно
Аноним 01/12/25 Пнд 18:48:38 1437383 91
>>1437375
Квеношизик, он такой. Дальше будет изрыгать злобу или самодовольные smug ответы. Он тут король треда же
Аноним 01/12/25 Пнд 18:59:04 1437396 92
>>1437091
>128
Ага, сейчас. Плотная сотка станет соткой moe, ога.
Аноним 01/12/25 Пнд 18:59:23 1437397 93
>>1437375
Ты и есть шиз, все слюнями забрызгал, но так и не сформулировал чего сказать хочешь.
Аноним 01/12/25 Пнд 19:15:29 1437421 94
Анон, младшие кванты - говно?
ко всяким q2 или iq2 вообще лучше не прикасаться?
Наш уровень - не ниже q4?
Аноним 01/12/25 Пнд 19:28:15 1437438 95
>>1437421
Лучше q6 но и q4 норм. Все что ниже помойка.
Аноним 01/12/25 Пнд 19:35:58 1437445 96
image00007.png 2359Кб, 1536x1008
1536x1008
Аноним 01/12/25 Пнд 20:00:51 1437487 97
Пиздец, я ебал такую жизнь. Три года назад взял 3060 у перекупа пидораса за 50к, через несколько месяцев цена на нее упала почти вдвое. Летом когда обновлял платформу зажопился на память и взял только 32 гига, теперь плашки стоят дороже в три раза. Ну почему так нахуй... почему...
Аноним 01/12/25 Пнд 20:01:42 1437494 98
image 44Кб, 917x463
917x463
>>1437445
Да там шизики-прердолики во главе с Жорой сидят. Я бы тоже не захотел в этом цирке участвовать, когда пальцы вверх от людей не аргумент, а "ну мне кажется нам это не надо, выглядит слишком сложно" аргумент. Это ведь не совсем залётный чел, 5к строк кода уже от него есть там. Вспомните хотя бы упоротое нежелание использовать готовые либы регекса, из-за чего пол года жрали поломаный токенизатор ламы. Абсолютно больные люди, и их профессионализм не отменяет их ебанутости.
Аноним 01/12/25 Пнд 20:04:04 1437498 99
>>1437120
В общем обычный 3.2 ничем не отличается от Exp. А вот Специальный в прикладных задачах ассистента явно похорошел. Можете не тестить, для РП всё так же Терминус лучший из Дипсиков.
Аноним 01/12/25 Пнд 20:19:05 1437530 100
>>1436856
>Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать.
Долбич, нахуя этой плате 5 шин 8x 3.0, если она никогда не сможет дать такую пропускную способность даже по одной шине, и именно из за цпу ддр3 с одноканалом? Типа какой смысл? Уж лучше один слот нормальной мамки сплитануть, или на каком-нибудь хуанане с четырехканалом собрать. Тогда хотя бы не будет ботлнека, как на твоей хуйне.
В ней смысл только там где карточкам не надо данные гонять между собой.
Аноним 01/12/25 Пнд 21:10:00 1437617 101
изображение.png 23Кб, 877x167
877x167
изображение.png 52Кб, 1269x251
1269x251
>>1437421
Сижу на втором кванте 235B, чувствую себя хорошо.
>>1437445
Что ж твориться то! Как они только выживают с 10 уведомлениями в день!
Аноним 01/12/25 Пнд 21:23:13 1437631 102
>>1437530
Пруфы боттлнека в тред, а то одни вскукареки только слышатся
Аноним 01/12/25 Пнд 21:27:00 1437632 103
>>1437631
Весь тред это ВскукарекТВ. Забыл?
Аноним 01/12/25 Пнд 22:44:43 1437674 104
>>1437421
Они не говно, потому что позволяют тебе запускать то что иначе было бы невозможно или ужасно медленно. И могут быть вполне юзабельны для рп, чатика и подобного. Просто нужно понимать, что низкая битность скажется на стабильности и исказит результаты. Модель может начать делать глупые ошибки и опечатки (прежде всего там где требуется точный текст, например код), делать глобальные просчеты спутав роли/персонажей (случается и просто так), ловить лупы и создавать отвратительные структуры (больше обычного).
Не обязательно что ты это поймаешь, не обязательно что эти недостатки окажутся существенными, так что просто пробуй.
И да, если хочешь кодить или юзать агентов ~4бита это некоторый минимум ниже которого будет много разочарования.
Аноним 02/12/25 Втр 00:52:57 1437746 105
>>1437421
>Анон, младшие кванты - говно?
если модели огромные как слон (а-ля glm 4.6) - то 3 или 2 второй кванты дают неплохие результаты.
// мнение может не совпадать с мнением местых шизов
Аноним 02/12/25 Втр 00:59:00 1437755 106
>>1437445
ну выгорел чел контрибутя в опенсурс, тысячи таких. в чем новость то
Аноним 02/12/25 Втр 01:01:50 1437757 107
>>1437445
На первом жестко забуллили парня, сейчас бы блеймить за применении ии и комментарии в экспериментальном, какой абсурд.
> среднестатистический владелец рига
Шутка про жору.
>>1437487
Ты еще можешь купить 3090 и V100, пока они есть и адекватно стоят. Даже при окончании действий на отличных для этой страны условиях перспективы что они в ближайшее время потеряют актуальность ничтожны, глобальный кризис с железками.
>>1437498
Спасибо за сэкономленное время.
Аноним 02/12/25 Втр 04:46:27 1437879 108
>>1437421
Я где-то видел график с исследования. Там до 4 сильный рост, а дальше слабый.
Сменив квант с двух до четырех нейросетка поумнеет в 2 раза. А сменив с 4 до 8 - 20% прибавит.
Аноним 02/12/25 Втр 05:00:47 1437890 109
aaa[1].jpg 123Кб, 750x500
750x500
С майнинговыми видеокартам много ебли?

Везде написано, как на них играть, но нет руководств как их использовать в нейросетях. Или для нейросетей так же нужно ставить определенные драйвера, что-то там патчить, переподписывать, реестр редактировать и тд?

Я для lmstudio планирую. Советы/подводные камни?
Аноним 02/12/25 Втр 05:01:49 1437892 110
>>1437757
>Ты еще можешь купить 3090
Могу, но сильно ли много смысла будет? Все новые модели это микстуры и если это реально тренд, значит нужна именно оперативка на будущее, которая только дорожает с каждым днем. Даже сейчас за цену 128 гигов щас можно почти две 3090 взять.
Аноним 02/12/25 Втр 05:07:49 1437899 111
>>1437487
Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой..
>>1437892
А если терпеть, то как долго? Я так понял что минимум 2 года надо будет терпеть пока ддр6 не выпустят и корпоблядки не начнут распрадовать старые плашки?
Аноним 02/12/25 Втр 05:21:26 1437912 112
>>1437899
>Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой..
Карту брал в конце февраля 23, на тот момент актуалкой уже была 40 серия, но ее брать не стал потому что 8 гигов все дела.
>минимум 2 года надо будет терпеть пока ддр6 не выпустят
Скорее даже три, потому что даже после релиза нужно будет ждать пока красные и синие разродятся и выпустят процы под новую память.
>корпоблядки не начнут распрадовать старые плашки
Выход нового поколения не означает, что старое просто выкинут и сразу пойдут закупаться новым. В лучшем случае подешевеет ддр4, если ее не скупят китайцы под перепродажу.
Аноним 02/12/25 Втр 05:40:03 1437917 113
>>1437912
Тяжело... тяжело.. сука и ведь хотел еще в Августе докупить озу..
Аноним 02/12/25 Втр 05:50:37 1437918 114
>>1436096
Влияет ли на результат количество активных экспертов?
У GPT-OSS 120B по дефлту 4 эксперта работает. Если эксперт не умеет в многопоток, то только 4 ядра будут работать.

У меня локально на 6 ядрах без видюхи.
2 эксперта 9.68 токенов/сек
4 эксперта 7.71 токенов/сек
8 экспертов 5.66 токенов/сек
Аноним 02/12/25 Втр 05:55:06 1437919 115
>>1437918
Что за эксперты поясните, лень гуглить 🤔
Аноним 02/12/25 Втр 06:07:26 1437921 116
>>1435893
Я такого не видел.

Я всё ещё жду когда навайбкодят нейросетевой поиск по видео порнухе, когда для каждого кадра (хотя бы для ключевых для оптимизации производительности) будет сделано подробное текстовое описание и поиск будет работать по это большому массиву текста, а не только по очень короткому названию видеоролика.

Я даже сам попробовал, но цензура.
Вообще цензура - самый большой тормоз в развитии ИИ. И отсутствие ИИ в порно тоже сделает ИИ небольшим нишевым решением. Порно всегда было двигателем развития интернета. Без двигателя ИИ далеко не уедет.
Аноним 02/12/25 Втр 06:25:19 1437927 117
>>1437919
llm openai gpt-oss использует Mixture-of-Experts (MoE) архитектуру. Это когда для обработки токена используются не все параметры, а только небольшая часть.
Традиционно при обработке токена проверяются все параметры, если их там 120млн, то все 120млн. проверяются. Это медленно.
В MoE все параметры поделили на кусочки, например GPT-OSS-120B 120 млн. параметров поделили на 128 экспертов (у каждого эксперта 0,9375млн параметров). И используют по дефолту только 4 из них (но в lm studio можно настраивать количество). Т.е. при обработке токена только 3,75млн параметров проверяется - это значительно быстрее (в 32 раза). Для разных токенов разные эксперты используются.
Аноним 02/12/25 Втр 06:36:12 1437931 118
1000018310.jpg 420Кб, 1079x1699
1079x1699
Хайп умер
Аноним 02/12/25 Втр 06:47:15 1437935 119
>>1437931
А он был? Даже если бы они собирались релизнуть новую 70-120B, учитывая их отрицательный прогресс после 123B 2407, я бы не ожидал чего-то сильно интересного. А моепараша не нужна.
Аноним 02/12/25 Втр 06:53:48 1437936 120
>>1437931
Бля...
Я так устал от эира, то выдаёт платину, то хуету, рулетка ебучая
256 рам же стоила копейки, хули я такой долбоеб...
Аноним 02/12/25 Втр 08:43:48 1437983 121
>>1437890
Я пробовал только на Линуксе без графической оболочки, там достаточно просто дрова и куду поставить. Как там на Винде хз.
Аноним 02/12/25 Втр 09:57:24 1438037 122
>>1437931
>Хайп умер
Ну, в первом I-кванте оно много у кого влезет. Вопрос в том, если ли жизнь в первом кванте-то.
Аноним 02/12/25 Втр 10:05:12 1438044 123
>>1438037
У кого?
1 квант это 160+ гб, 128 + 24 не лезет
Аноним 02/12/25 Втр 10:08:57 1438049 124
>>1437931
Похуй. Эир 4.5 Дерестриктед это всё что мне нужно. Настолько преисполнился что решил все проблемы вроде пассивности или эха, больше мне ничего не мешает. Хинт: все дело в карточках, правы были шизики которые писали про формат и количество промта
Аноним 02/12/25 Втр 10:11:37 1438054 125
>>1438049
Про чатмл забыл упомянуть, толстяк
Аноним 02/12/25 Втр 10:11:39 1438055 126
>>1438044
Пора переписывать базу треда? Без 512гб жизни нет! Сколько там сейчас ддр4 стоит? Пол ляма?
>>1438049
А вот и коуп пошёл. База треда не щадит никого
Аноним 02/12/25 Втр 10:15:20 1438061 127
>>1438054
Чатмл не пробовал, у меня на стандартном шаблоне все заебись
>>1438055
Люблю этих экстрасенсов которые проецируют свои проблемки видят глубинные смыслы в буквах и разгадывают постеров
Аноним 02/12/25 Втр 10:28:49 1438076 128
Аноним 02/12/25 Втр 10:53:26 1438088 129
1000018317.jpg 347Кб, 1080x1493
1080x1493
Я уже не знаю ребят
Я и не понимаю ничего уже в этом мире
Время просто застыло
Это какой то социальный эксперимент или троллинг
Аноним 02/12/25 Втр 10:55:46 1438089 130
А что там по базе сейчас?
4090 с 24гб еще котируется или минимум это 5090 либо 4090 с китайской спермой? Ram я так понял минимально от 128? Хорошо что в 2024 со 192гб собрал
Аноним 02/12/25 Втр 10:58:13 1438091 131
>>1437892
> значит нужна именно оперативка на будущее
Ну типа если у тебя достаточно врам тебе только остается довольно урчать, опционально жалеть тех, кто вынужден задействовать рам. Учитывая, как ты написал, что цена врама лишь в 2 раза ниже, но к нему бонусом идет нихуевый компьют - гпу риги даже для моэ становятся актуальны. Минус - сложность, плюс - возможность плавного постепенного масштабирования.
>>1437899
Предсказывают 3-5 лет, но пиздеть не мешки ворочать. И сразу точно никто распродавать не начнет. Выход ддр6, который может затянуться сам по себе, появление массовых плашек и платформ под них - еще +год-два, возможность того что даже после обновления память останется дорогой - так что цифры выглядят недалекими от правды.
>>1438044
Докупи еще +24 и влезет.
>>1438089
Котируется чем больше тем лучше. 4090 можешь проапгрейдить до 48, самая годнота.
Аноним 02/12/25 Втр 11:12:30 1438097 132
>>1438091
Ща бы ради q1 лоботомита 24гб гпу докупать
Аноним 02/12/25 Втр 13:03:00 1438192 133
>>1437936
Я одного не пойму, если ты имеешь 128гб рам, зачем тебе эйр если есть большой ГЛМ?
Чёто подозрительно.
Аноним 02/12/25 Втр 14:01:39 1438241 134
>>1437927
>>1437918
как указать количество экспертов в ллама.цпп?
Аноним 02/12/25 Втр 14:11:24 1438243 135
Аноним 02/12/25 Втр 14:17:23 1438246 136
Оно продолжает лететь ребят.
Точно не хотите купить?
За неделю +2к
Аноним 02/12/25 Втр 14:19:29 1438249 137
>>1438243
Будет взлёт минимум год. Предположительно 4 года подъёма цены, потом медленный спад. Причём цены на всё, что видеокарты, что ссд. Пока ссд не подорожали так люто - советую затариться.
Аноним 02/12/25 Втр 14:21:55 1438250 138
>>1438249
Я поддержу. Не знаю что будет дальше, но если вы сейчас не можете позволить, то просто забейте хуй на год или ждите сладеньких скидонов.
Держитесь. Мы отправляемся с ценами в БЕСКОНЕЧНОСТЬ И ДАЛЕЕ, ЕБАТЬ МЕНЯ В СРАКУ.
Аноним 02/12/25 Втр 14:26:25 1438256 139
>>1438250
>ЕБАТЬ МЕНЯ В СРАКУ
а это можно. скинь карточку на себя, с фоточкой :3
Аноним 02/12/25 Втр 14:29:24 1438259 140
>>1438250
Скидонов не будет, в этом самый пиздец. Мы входим в эру, когда аи пожрал консумерский сегмент. И если за это кого и ебать в сраку, то только мудака, который это заварил - Альтмана ебаного.
Аноним 02/12/25 Втр 14:34:39 1438263 141
>>1438259
Ух бля. А пеницилин-то как подорожал когда стал доступен и популярен в мире! Вот пидорас тот кто его популяризировал.
Аноним 02/12/25 Втр 14:35:21 1438264 142
А я радый.
Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.
Аноним 02/12/25 Втр 14:37:34 1438269 143
>>1438249
Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх. Правда по видюхам пока слабо, есть 4090 и v100 едет, и новые уже в этом году скорее всего не закажу, мне ещё ссд покупать, корпус, райзерры, кастомные кабели под 100500 разъёмов питания на мп и прочие расходники, а что будет в 2026 хз, может как с теслами будет, будем v100 по 100к покупать
Аноним 02/12/25 Втр 14:39:55 1438275 144
>>1438269
>>1438259
В итоге будете как тот чел который 3060 за 100к покупал в бум майнинга а уже через год они по 30 лежали
Аноним 02/12/25 Втр 14:48:31 1438284 145
>>1438263
Хуёвое сравнение, потому что совсем мимо.

>>1438269
Чисто в теории мелкие фирмы могут начать загибаться без поставок железа и продавать имущество. Но это такое. Нестабильный ручеёк.

>>1438275
Лично я не собираюсь уже покупать ничего, кроме ссд. Потому что как раз посмотрел, цены достаточно адекватные пока что, а за 4 года ссд точно отъёбывать начнут. Остальное пусть будет, как есть.
Аноним 02/12/25 Втр 14:49:19 1438285 146
>>1438275
Или не будем, или не год, я вот ждал-ждал, всё хотел на ддр5 собрать и дождался цен х3. Да и год так-то охуеть как много. И если выбирать сидеть год с мистралькой и дипкоком или без него, то как по мне выбор очевиден.
Аноним 02/12/25 Втр 14:49:40 1438286 147
>>1437918
> Если эксперт не умеет в многопоток, то только 4 ядра будут работать.
Чивоблять.мп4
Количество активных - просто topK от выдачи роутера, выбранные слои обрабатываются также параллельно как и все остальные, просто разное количество. Ядра тут вообще не причем.
Лучше с этими изменениями не заигрывать, больше не значит лучше.
>>1438097
Не q1 а tq1! А так сможешь быстрее инфиренсить другие модельки, квен-некст будет помещаться фуллврам или почти так, что позволит использовать его для агентов и мелочи.
>>1438269
Красавелла. Как соберешь - рассказывай что за конфиг, какие скорости и т.д.
Многие вещи еще можно успеть взять на вторичке, если хочешь много видюх то можешь сразу смотреть в сторону майнерских каркасов или кастомных решений.
Аноним 02/12/25 Втр 14:52:34 1438294 148
>>1438269
>Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх.
Откровенно говоря в таком размере и на таком конфиге МоЕшку гонять будет некомфортно. А альтернативы на любых видяхах стоят ещё дороже, ну на теслах разве. Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей. Я бы даже не собирал. Вот вариант с арендой сейчас неплох становится - РАМ-то там дешёвая, это видяхи дорогие. Сам думаю в эту сторону двинутся пока, если выйдет что-то действительно интересное.
Аноним 02/12/25 Втр 14:54:24 1438299 149
>>1438264
А в чём радость?
>>1438275
155к за 3080Ti-кун всё ещё с вами...
>>1438294
>Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей.
6000 Pro стопочкой...
Аноним 02/12/25 Втр 15:06:22 1438311 150
>>1438299
>6000 Pro стопочкой...
b200 стоечкой
Аноним 02/12/25 Втр 17:06:17 1438408 151
Там инфа проскочила что куртка больше не будет поставлять чипы памяти под свои карты и теперь эта проблема вендеров. Это значит что мы теоретически можем получить каких-нибудь монстров типа 5080 с 32 гигами от условного спалита, или на объемы памяти это никак не повлияет?
Аноним 02/12/25 Втр 17:16:57 1438424 152
>>1438408
>Это значит
Это значит, что 16гб врам хватит всем.
Аноним 02/12/25 Втр 17:23:17 1438434 153
>>1438408
Память и так поставляли сосунги и хуниксы. И ограничения в чипах никуда не денутся, никаких тебе увеличенных объёмов, молись, чтобы хоть что-то было.
Аноним 02/12/25 Втр 17:27:26 1438439 154
>>1438408
Не, не получим. Просто цены поднимутся и появится куча ревизий с заниженными частотами и говнопамятью потому что вендорам придется самим ее искать. Не исключено вообще явление кастрированных версий с меньшей шиной и объемами, или с какой-нибудь gddr6 что вдруг нашлась на складе. А то и вообще рефабов или вторичной врам.
С другой стороны, это увеличивает ассортимент доступных биосов и прочего, что повышает шансы на возможность и популяризацию апгрейдов блеквелла.
02/12/25 Втр 17:34:11 1438445 155
.png 8Кб, 114x106
114x106
>>1438243
> Купил за 99к
Ну ты и не мамонт.
Аноним 02/12/25 Втр 17:42:18 1438450 156
>>1438445
16гб рамлет, спокнись себе в штанишки.
Аноним 02/12/25 Втр 17:59:28 1438463 157
изображение.png 584Кб, 830x571
830x571
>>1438275
двачую этого товарища. В свое время смотрел на цены, ужасался. Думал, разориться или нет. Подождал год, отхватил 3060/12 от годного вендора за 40к вместо х3-4 кабанчиковых оверпрайсов.
02/12/25 Втр 18:09:18 1438467 158
>>1438450
Спокойно, ну лоханулся, бывает.
Аноним 02/12/25 Втр 18:29:37 1438487 159
Аноним 02/12/25 Втр 18:29:50 1438489 160
Подскажите вот что.
У меня на компе локально крутится модель. На Андроиде телефоне есть таверна. Как их подружить? Это надо какой-то шаманизм с белым ip делать да?
Аноним 02/12/25 Втр 18:36:13 1438493 161
Мистральки вышли 5 минут назал
Аноним 02/12/25 Втр 18:36:15 1438494 162
>>1438489
Прямо на комп ставишь таверну и шаришь её интерфейс наружу через белый ип, некоторые роутеры (кинетики к примеру через KeenDNS) имеют услугу домена на устройство, позволяющее обращаться даже к временным айпишникам.
Как и что, ты и сам загуглишь за 3 минуты.
Аноним 02/12/25 Втр 18:38:28 1438495 163
image 164Кб, 1905x1242
1905x1242
>>1438487
> 41B active and 675B
Ну собственно как Дипсик. И по скорам такое же. Остаётся надеяться только на мистралеслоп и кум.
Аноним 02/12/25 Втр 18:41:30 1438499 164
Аноним 02/12/25 Втр 18:46:16 1438505 165
>>1438499
>Лучше ли это немо
Лучше ли это их 24В, вот в чём вопрос. Размер-то имеет значение. Но походу средние модели всё.
Аноним 02/12/25 Втр 18:48:13 1438510 166
изображение.png 12Кб, 671x165
671x165
>>1438487
Пиздец говнища. А ведь на них последняя надежда была в средних моделях. Но все как на зло выпускают или обрубки 0,00001M, или хуету 1488T.
Ещё и РКН пидоры режут загрузку, скоро срать ходить буду через VPN, напрямую жопу заблочат.
Аноним 02/12/25 Втр 18:53:48 1438512 167
Мистраль базовички
Всех уровняли, теперь нет разделения на есть 24 врам и нет 24 врам, все терпят на 8-14б
Аноним 02/12/25 Втр 19:12:17 1438523 168
>>1438487
Где кванты, лебартовски?! Интересно сделают ли сегодня, архитектура то не новая.
Алсо помимо ларджа там еще долгожданное обновление для тех, кто на 12б сидел.
Аноним 02/12/25 Втр 19:51:57 1438547 169
image 417Кб, 1590x1758
1590x1758
image 23Кб, 812x52
812x52
>>1438495
Соя на месте как у корпов, соевее Грока. В РП ощущается как 24В, стиль просто один в один. Слоп со вздохами на месте. Лупится, блять. Тупа второе сообщение уже с прибитым шаблоном не просто по формату, но и по смыслу. Говно просто, литералли как прошлый Лардж - одинаковые реплики, отсутствие движения по сюжету, если начинается истерика, то она идёт в лупе с "ок я согласна, хотя погоди я не готова" и так каждое следующее сообщение и невозможно текстом разлупить. Хуже Эйра 146%.
Аноним 02/12/25 Втр 20:09:10 1438557 170
>>1438547
А ты не очень умный...
Ща бы на веб-сайте с кучей фильтров тестить.
Аноним 02/12/25 Втр 20:19:32 1438562 171
>>1438557
Каких фильтров, шизик.
Аноним 02/12/25 Втр 20:20:34 1438564 172
>>1438562
Ты даже не в курсе? Ору.
Аноним 02/12/25 Втр 20:21:47 1438567 173
>>1438564
У меня нет никаких фильтров, это чистые веса модели.
Аноним 02/12/25 Втр 20:28:37 1438576 174
>>1438567
Сетке нужен пробив цензуры через пресет, понятное дело что просто так по дефолту она или будет рефьюзить с соей, или уходить от ответа как у тебя.
Аноним 02/12/25 Втр 20:34:40 1438578 175
>>1438567
У тебя чат комплишен с вжаренным туда промтом, мань. И очевидно никаких джейлбрейков (которые не нужны вообще на текст комплишене). Это то же самое что катать сетку на веб-сайте.
Аноним 02/12/25 Втр 20:36:02 1438581 176
>>1438576
Так я в таверне тестил. Первый пик просто чтоб показать как в дефолте срёт. Алсо, что там у тебя за пробития на локалках, джейлбрейки ещё может пишешь?
>>1438578
> чат комплишен с вжаренным туда промтом
Шизло, прекращай. Лучше сам затести, а потом пизди.
Аноним 02/12/25 Втр 20:39:43 1438586 177
>>1438581
Ебануться, какие же тут овощи порой обитают. Чувак может запустить 600б мастодонта, но не знает, что на чаткгмплишене в опенвебуи или на каком он там говне сидит, подтягивается jinja с заложенным в шаблон промтом. В какую же помойку тред скатился, лул. Как будто год назад бибизян умнее был.
Аноним 02/12/25 Втр 20:39:54 1438587 178
>>1438547
Мистраль всегда соевой была, ничего удивительного.
Аноним 02/12/25 Втр 20:46:38 1438595 179
В рот ебал качать, да и столько памяти нет для запуска локально. Погонял чутка в облаке, и она лупится как мразь грок буквально со второго сообщения. То есть она достала текущую дату из системного промпта, высрала её в выдаче, а на следующий промпт уже ушла в луп с этой датой.
Причём, по мозгам все не прям чтобы плохо, если ваншотами хуярить, но даже у гигачата такой хуйни с лупами не было.
Аноним 02/12/25 Втр 20:46:39 1438596 180
>>1438586
Чухан, там нет никакого промпта вшитого. Таблетки прими. Таверна тебе в жопу тоже вшивает что-то?
Аноним 02/12/25 Втр 20:53:48 1438602 181
Аноним 02/12/25 Втр 21:10:36 1438615 182
>>1438602
>Your knowledge base was last updated on 2023-10-01
Ебать актуальные данные.
Аноним 02/12/25 Втр 21:17:18 1438619 183
>>1438615
Ну так это рубикон, дальше вся текстовая датка закоррапчена слопом
Аноним 02/12/25 Втр 22:53:08 1438675 184
>>1438602
И зачем ты себя обоссал? Не умеешь читать буквы? Там есть стандартный системный промпт, если не задан никакой в запросе. Тебе объяснить что в этой строчке написано?
> {%- if messages[0]['role'] == 'system' %}
Аноним 02/12/25 Втр 23:08:49 1438683 185
>>1438581
Агрессор, если ты не знал то в публичных вебмордах и апи помимо стандартного странного системного промпта еще сейфти добавляют.
>>1438586
> Чувак может
Вероятнее в облаках катает.
>>1438595
Там "date" 8 раз подряд упоминается, с таким шизопромптом и не такое может быть, лол.
5 часов прошло а ни одного ггуфа, пиздец.
Аноним 02/12/25 Втр 23:35:43 1438696 186
Полистал шапку. Как я понял, 2/3 тут сетки для рп собирают. А я это, я шиз, я собираю архив для погружения в бункер как в том фильме, где отец семейства от радиации бункер строил и там с семьёй прятался. Подскажите что-нибудь.

1. В первую очередь меня больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое - как устроен реактивный двигатель, почему спин надо на два делить, а магнитное что-то там не надо на два делить в атомной физике, каким образом РНК и ДНК взаимодействуют и строят белки, и вот всё в таком роде. Ещё круче, если этому можно скормить книжку и помочь мне разобраться. В общем образовательно-позновательные цели.
2. И ещё сетки для кодинга, в двух приложениях:
- чтобы выполняло запрос по типу, что перепиши перебор по отсортированному списку на бинарный поиск по такому то полю структуры, или открой эксель файл через openpyxl и загрузи по строка в структуру, где дата в первом столбце, во втором уровень излучения в попугаях. Такое, что напишет школьник и что просто не хочется вручную писать.
- Будет круто, если оно будет само по памяти знать как в микроконтролере выдать шим на такой то пин используя LSI и другие такие штуки, как нарисовать каустики через шейдер glsl, принцип работы алгоритма A* или как трансформер на pytorch создать и обучать - то есть акцент на наличии информации в сетке о том что и как делается, писать сам код прям не нужно или почти не нужно, код я и сам напишу. Это даже приоритетнее чем первое.

Что загружать по такие задачи? Какие бенчмарки смотреть, может быть есть какой именно о профессиональных знаниях в программировании.

3. И ещё информация по запуску крупных моделей интересует. 96+8 ГБ памяти на CPU+GPU. Я позапускал, в общем-то всё ясно и понятно как работает до этих 90 ГБ. Что делать если модель больше? Как я понял, MoE использует не все веса, не все головы внимания или что-то такое. Есть способ запускать сетку больше чем влезает в оперативку? SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки. Вроде как веса только читаются, то есть по идее не будет проблемы с запуском с диска, особенно если действительно не все веса используются. Нашёл, точнее сетка нашла мне пост, что кто-то kimi2 на терабайт запускал с ssd и получил 0.1 токен/с
4. Про кванты. Мне стоит браться лезть в квантование? Там какой-то калибровочный датасет нужен. Вроде как и всё понятно, но мне же сетку надо будет инференсить для калибровки по идее, и если она в память не влезает, то как-то уже и не очень то и хочется, это наверное на месяц задача.

5. В шапке в тестах было про русский/английский языки сказано, и русский могут не все, и кушают больше токенов. А если поставить маленькую сетку уровня 3B, которая заточена исключительно на перевод между языками, и юзать более крупную сетку с точки зрения сетки на английском, а переводить всё второй поменьше. Так делают, или слишком многое теряется при двойном переводе? Вообще, немного удивлён что такая разница по расходу токенов. По идее токены - кусочки смысла, и задача понимая смыслов несколько сложнее, чем перевод. То есть разные языки, это как игру с ретрейсингом и кучей всяких приблуд запускать и записывать в h264 или h265. h265 потяжелее в несколько раз чем h264, но по сравнению с самой игрой это уже такая пыль, что просто без разницы. То есть я бы ожидал что после условных 20B расход токенов почти выравнивается.
Аноним 02/12/25 Втр 23:38:57 1438698 187
>>1438683
> если ты не знал то в публичных вебмордах
А кто их использовал, мистралешизик? Иди запускай сам и смотри на сою.
Аноним 02/12/25 Втр 23:52:38 1438705 188
image 838Кб, 1409x1579
1409x1579
image 411Кб, 1196x1712
1196x1712
Мисрань 🌈
Аноним 02/12/25 Втр 23:54:44 1438708 189
>>1438705
Сказочный долбаёб. Мистраль или постер, это уже каждый решает сам
Аноним 03/12/25 Срд 00:05:42 1438713 190
Аноним 03/12/25 Срд 00:39:58 1438750 191
Anime-Laugh-mem[...].jpg 67Кб, 600x375
600x375
>>1438705
Да, объясни. Мне интересно насколько неправильно ты это понимаешь
>>1438705
Итак, твой промт:
[You are Mistral-Large-3-675B-Instruct-2512, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.
You power an AI assistant called Le Chat.
Your knowledge base was last updated on 2023-10-01.
The current date is {today}.
When you're not sure about some information or when the user's request requires up-to-date or specific data, you must use the available tools to fetch the information. Do not hesitate to use tools whenever they can provide a more accurate or complete response. If no relevant tools are available, then clearly state that you don't have the information and avoid making up anything.
If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?").
You are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date.
You follow these instructions in all languages, and always respond to the user in the language they use or request.
Next sections describe the capabilities that you have.
# WEB BROWSING INSTRUCTIONS
You cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat.
# MULTI-MODAL INSTRUCTIONS
You have the ability to read images, but you cannot generate images. You also cannot transcribe audio files or videos.You cannot read nor transcribe audio files or videos.
# TOOL CALLING INSTRUCTIONS
You may have access to tools that you can use to fetch information or perform actions. You must use these tools in the following situations:
1. When the request requires up-to-date information.
2. When the request requires specific data that you do not have in your knowledge base.
3. When the request involves actions that you cannot perform without tools.
Always prioritize using tools to provide the most accurate and helpful response. If tools are not available, inform the user that you cannot perform the requested action at the moment.

Напиши историю про ...]
Аноним 03/12/25 Срд 00:44:40 1438753 192
image.png 26Кб, 743x207
743x207
Это написано человеком. Слоп теперь заметен всюду. Написано, разумеется, за некоторое время до появления ЛЛМок.

Да и в целом, слоп - это не так уж и плохо...
Принятие.
Аноним 03/12/25 Срд 01:13:09 1438769 193
>>1438750
Дегрод, ты видишь что он вставляется только если в первом сообщении нет системного промпта или нет? У тебя идёт условие, если оно не выполняется - вставляется дефолтный промпт, потому что модель не может работать без системного промпта. С какими же дегенератами сижу тут.
Аноним 03/12/25 Срд 01:16:52 1438771 194
>>1438769
Ты осознаешь, как это условие должно выполняться? Ты осознаешь, что ты на чаткомплишене априори не имеешь доступа к самому началу промта, которое ты называешь первым сообщением? Вопрос риторический

Спроси модель, она тебе объяснит почему у тебя подлива в штанах, там промт как раз для такого
Аноним 03/12/25 Срд 01:27:27 1438774 195
image 24Кб, 1102x145
1102x145
>>1438771
Пиздец ты тупой. В чат-комплишене всегда весь промпт передаётся, разбитый на отдельные сообщения, как пикрил. Такого не бывает чтобы что-то там недоступно было. Зачем продолжаешь траллить тупостью, мистраледаун?
Аноним 03/12/25 Срд 01:28:39 1438776 196
>>1438698
Даже через экран жиром воняет
>>1438769
> если в первом сообщении
Не в первом сообщении что ты посылаешь, а в перечне постов, что формирует бэк.
>>1438771
Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень.
Вот и получается что-то уровня теста, где перед Серафиной посреди комнаты гадить начинаешь.
Аноним 03/12/25 Срд 01:28:58 1438777 197
>>1438774
Терпи, чо еще остается тугодуму посоветовать
Аноним 03/12/25 Срд 01:31:11 1438778 198
>>1438776
>Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень.
Мы оба знаем, что он дурачок и видит начало промта в первом сообщении, которое он набирает во фронте. Увы таким бесполезно объяснять, вон как выебывается
Аноним 03/12/25 Срд 01:47:23 1438783 199
>>1438753
На подобных текстал они и обучались, отсюда и слоп.
Аноним 03/12/25 Срд 01:47:46 1438784 200
>>1438776
> Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое.
Это какие не все, лол? Все используют OpenAI API и оно всегда использует системный промпт из запроса.
Аноним 03/12/25 Срд 01:50:40 1438785 201
Что за мистралепогорелец тут полыхает и защищает соевое говно, которое даже никогда не сможет запустить? Лучше бы нормальные модели обсуждали.
Аноним 03/12/25 Срд 01:52:19 1438786 202
>>1438785
Обсуди. Тебе никто не мешает, но твои посты так и смердят выгребной ямой и бесполезностью.
Аноним 03/12/25 Срд 01:55:25 1438787 203
>>1438785
>Лучше бы нормальные модели обсуждали
Какие? С новым эйром - кормят завтраками второй месяц и не выпускают. Геммочки 4 нет, и даже анонсов нет. Квен - выдал жирноту в которую без 128 рам не залезть и 3b ассистента не способного в РП. Мистрали по ходу ВСЁ, теперь это васькотюны китайцев. Что обсуждать-то?
Аноним 03/12/25 Срд 02:03:03 1438789 204
>>1438778
Увы.
>>1438784
Классическая либа от опенов и документация гласит, что работают с системными инструкциями только легами модели. Начиная где-то с 4о ты можешь слать что угодно, но это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов. Отдельный параметр системного промпта также отмечен как устаревший. То же самое у клоды и гугла, у последних вообще путаница из-за двух версий либ, в которых старая раньше могла отправлять.
Все что не буквально опенаи - нечто "совместимое" с кучей вариаций и интерпретаций в зависимости от бека и настроек.
Аноним 03/12/25 Срд 02:30:51 1438805 205
image 80Кб, 1268x500
1268x500
image 141Кб, 976x791
976x791
>>1438789
> гласит
Что там у тебя голоса в голове гласят? Ты ведь никогда в жизни не видел доки опенов, лол. Мне не сложно показать тебе их. И в доках указано что всё так же нужно писать системный промпт, просто теперь с другой ролью.
> это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов
Забавно как ты на ходу выдумываешь что-то. Даже у опенов все инструкции на месте. И ты всё ещё не показал как говномистраль без цензуры магическим образом работает. Сначала обосрался с темплейтом чата, теперь выдумываешь про подмену промпта, лол.
Аноним 03/12/25 Срд 02:38:10 1438811 206
>>1438705

>пик2
бля и ведь кто-то же реально так живет ирл... брр.. хотя чего уж там, далеко за примерами ходить не надо...
Аноним 03/12/25 Срд 02:50:31 1438813 207
>>1438805
Вялый костыль, который кинули как кость вместо системного промпта из-за необходимости, ты ставишь как основу своей аргументации пропустив все основное, молодец.
> Даже у опенов все инструкции на месте.
И тут же стал экспертом по внутреннему устройству опенов. Все на месте также как полноценный ризонинг в пятерке, ага.
> ты всё ещё не показал
Слишком дешевый байт, старайся лучше.

Подъедут кванты, народ попробует, мнение составит и будет понятно. А твои сопли сейчас выглядят как вялый наброс от лсной макаки. Манера общения и что пишешь еще больше заставляют усомниться.
Аноним 03/12/25 Срд 02:55:40 1438814 208
Предлагаю просто дождаться скринов от наших уважаемых риговичков и посмотреть на что Мистраль способен локально.

А вообще кому не похуй на модель которую смогут запустить полтора анона?
Аноним 03/12/25 Срд 03:14:10 1438822 209
>>1438814
Да они заебали своим дипкоком. Мой комфортный максимум - это большой глм в 5 кванте. А аналогичный по размеру квант продукта дипсикосодержащего - второй. Причем активных параметров там +-40, т.е. считай это как 40B гонять во втором кванте. Ебать удовольствие, конечно.
Аноним 03/12/25 Срд 03:32:55 1438827 210
>>1438822
>+-40, т.е. считай это как 40B гонять
С моэ это не так работает. До эйра я сидел на мистрале 24b и гемме 27b. По сравнению с ними эйр ощущается как ПРОРЫВ, он очень умён, хотя казалось бы, всего лишь 12b. И квены тоже есть с чем сравнивать. На телефоне гоняю 4b гемму, так вот 3b моэ квена не только умнее неё, но и умнее мистраля с геммой, которые юзал на компе до этого (но с уточнением, что тут речь про ассистента и квен из трёшек самый толстый - 80а3).

Экстраполируя всё это на дипсик/мистраль, вангану что он будет ощущаться на уровне 200b+ денс моделей. Но это не точно.
Аноним 03/12/25 Срд 03:35:34 1438828 211
На самом деле меня пугает даже не сам размер моделек (есть 512 памяти в сумме), а то сколько они на диске занимают и как геморно их менеджить. Без пачки ссдшек на 2+ тб буквально не видно жизни.
Сам я уже думаю переходить на страйп из хардов
Аноним 03/12/25 Срд 04:36:49 1438837 212
>>1438696
>SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки.
Двухканал DDR4-3200 оперативки дает 50Гб/с - всего в 10 раз больше. DDR5 в 2 раза быстрее.
Т.е. нужно купить 10-20 штук SSD в RAID1 что бы получить туже скорость.

С другой стороны 1Тб оперативки стоит 800 т. руб. (8шт, 128Gb DDR4 ecc по 100т.р.)
А 10шт 1Тб SSD (самсунг по 15 т.р., можно более дешевых по 10 т.р. купить) стоит всего 150 т.р. - в 5 раз дешевле.
Но нужно считать общую стоимость системы. С SSD можно легко купить 4Тб диски, а с памятью такое будет нереально дорого и редко.
Аноним 03/12/25 Срд 04:44:30 1438842 213
>>1438696
> умные,
Это те у кого много параметров.

>Про кванты
Скачай готовую.
После 4 кванта рост замедляется, после 8 смысла вообще нет ради 1% в тесте.
gpt-oss например сразу с завода в MXFP4 (новый формат для нейросеток).
Аноним 03/12/25 Срд 04:56:28 1438845 214
>>1438837
Классно наверное считать линейную скорость в вакууме
Аноним 03/12/25 Срд 05:34:16 1438862 215
Аноним 03/12/25 Срд 06:38:14 1438874 216
>>1438837
>А 10шт 1Тб SSD
Ты ещё попробуй подключить к cpu эти 10 шт SSD, чтобы сохранить 50 ГБ/с.
Аноним 03/12/25 Срд 06:47:09 1438875 217
>>1438827
Ты не понял, я не про умность моделей, а про то, как их распидоривает квантование. Когда у тебя всегда 40B активных, ты по сути гоняешь 40B модель. Да, эти 40B на каждый токен разные, это дает больше знаний, но это все равно те же 40B. В то время когда та же плотная модель условно на 120B может свою полуполоманную от квантования логику как-то подправить за счет того, что результат всегда уточняется всеми 120B параметрами. Но может я не прав, конечно, и снижение качества при квантовании тут такое же как у аналогичной плотной модели. Графики перплексити бы посравнивать
Аноним 03/12/25 Срд 06:55:46 1438878 218
S33cf5f62aed346[...].jpg 74Кб, 1001x1001
1001x1001
>>1438874
теоретически возможно.
Например у intel 14600 16 линий PCI-E 5.0 которые дают скорость 64 ГБ/с.

Через адаптеры подключить.
Аноним 03/12/25 Срд 07:46:23 1438883 219
>>1438878
>>1438837
>>1438696
Спасибо, реально понятно написано.
>>1435912
>>1435861
У тебя логическая ошибка в запросе,
в thinking модели прогони и увидешь
в чем начинается loop еще до ответа.
Аноним 03/12/25 Срд 07:48:57 1438884 220
>>1438837
Вот у меня ddr5 - и что-то я никаких 50 гб/с не вижу.
5 ssd, 10-15 оперативка, толком даже на порядок нет разницы.

Да и ладно, какой 0.1 токен в секунду. Это она прям по буквам едва говорит. Ладно бы ещё умная была дофига, просто другой уровень, так нет - в большинстве случаев она будет работать часы, чтобы сказать что-то лишь чуть лучше, чем что-то попроще. Это конечно больше вопрос того какой вопрос ей задать.
Аноним 03/12/25 Срд 08:47:58 1438892 221
>>1438884
У тебя что-то сломано. У меня на ддр5 6800 99 скорость, у анонов в треде ниже 50 не помню чтобы было
Аноним 03/12/25 Срд 09:19:16 1438907 222
Аноны, посоветуйте блок питания на 1000Вт, потребители - 3 видеокарты (на одну надо 2 8-контактныэ разъёма, на остальные по 1) и 4 питания SATA (3 HDD и 1 SSD) (ну и материнка, проц и т.д., естественно).
Тред в /hw умер, на архиваче вроде нашёл табличку, но блоки из неё стоят по 15к.
Расположение в корпусе нижнее, кабели нужны достаточно длинные.
Аноним 03/12/25 Срд 09:40:42 1438917 223
изображение.png 176Кб, 448x795
448x795
>>1438878
Адаптеры выйдут дороже, чем сами диски.
>>1438884
>10-15 оперативка
>ddr5
Ты что-то сильно делаешь не так.
>>1438907
>но блоки из неё стоят по 15к
А хули ты хотел? Либо так, либо палёный китай или блоки из под майнеров. Ещё и провода нужны хорошие, размечтался.
И вообще, 15к это фигня, мой вон 60к стоил.
Аноним 03/12/25 Срд 09:46:36 1438922 224
hdgdrgdrg.png 4Кб, 512x26
512x26
Аноним 03/12/25 Срд 09:52:48 1438925 225
>>1438917
Скрин напомнил, как я видел игросральный блок питания с подсветкой. У меня столько вопросов был к производителю.
Аноним 03/12/25 Срд 09:56:52 1438927 226
Снимок экрана3-[...].jpeg 657Кб, 2653x1053
2653x1053
Снимок экрана3-[...].jpeg 675Кб, 2214x1188
2214x1188
>>1438907
Нет, бери больше 1квт.
3x250+1x250=проц+карты.
Аноним 03/12/25 Срд 09:57:40 1438928 227
>>1438299
Не знаю какую таблицу ты нашёл, но вот тебе ещё буржуинская, может в ней выбор побогаче. И да если ты рассчитываешь мощность блока сзапасом, процентов в 30, то не обязательно брать самый супер пупер платиновый из топа таблицы.
https://docs.google.com/spreadsheets/d/1akCHL7Vhzk_EhrpIGkz8zTEvYfLDcaSpZRB6Xt6JWkc/edit?gid=1973454078#gid=1973454078

На самый крайний случай можешь взять переделанный майнерами серверный БП, они дешёвые и качественные, если при переделки их не испортили конечно, но в обычный корпус они не влезут
Аноним 03/12/25 Срд 10:36:48 1438962 228
Эххх... давненько меня не было в ваших уличных гонках.

Что ща актуально / можно запустить на ноутбуке 32+12 ?

Уточняю кря: на ноутбуке, то есть никаких обновлений / расширений железа. Да и цены чот ебануться. Хорошо что я на ноуте.
Аноним 03/12/25 Срд 10:49:03 1438970 229
>>1438962
Нового ничего и интересного не вышло под такое железо. Гемма, мистраль 24, snowdrop, qwen 30. Вчера ещё релизнулся новый мелкий МоЕ мистраль, но он 14b
>Уточняю кря: на ноутбуке, то есть никаких обновлений / расширений железа.
Не нужно быть таким категоричным, ты можешь купить 6000pro, подключить её как внешнюю карту. и катать глм, квен и даже старые денс модели
Аноним 03/12/25 Срд 10:51:04 1438971 230
>>1438696
> SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки.

это один пустой SSD, а заполни его на 90% говной и появятся нюансики
а соедини этот SSD в рейд с ещё несколькими и начнутся другие нюансики
кароч говно идея, затаривайся оперативой, а не ссд
Аноним 03/12/25 Срд 11:04:09 1438978 231
1000018323.png 846Кб, 1320x2868
1320x2868
Ну как покумили?
Аноним 03/12/25 Срд 11:08:30 1438981 232
IMG4495.jpeg 43Кб, 417x326
417x326
>>1438978
~nya ha ha~

Каков пиздец, каков пиздец.

Скоро оператива в цене с видюхами сравняется. I rorudo с этого спектакля.
Аноним 03/12/25 Срд 11:08:35 1438982 233
>>1438978
> два килобакса
ахах мне бы ваши проблемы. >>1398705 →-кун


через месяц ожидания написали, что у них нет замены и неизвестно когда будет, и предложили вернуть деньги. меньше пяти килобаксов, когда аналогичный комплект сейчас стоит в районе $12000, имаджинируйте мой факфейс
Аноним 03/12/25 Срд 11:15:52 1438986 234
>>1438962
>Эххх... давненько меня не было в ваших уличных гонках.
Неделю?
Аноним 03/12/25 Срд 11:33:10 1438993 235
>>1438982
Уверен, за 12 килобаксов у них всё сразу найдётся. Это классика.
Аноним 03/12/25 Срд 11:43:22 1438996 236
>>1438986
Это не тот на кого ты подумал.

>>1438962
Ничего нового, всё по старому.
Аноним 03/12/25 Срд 12:01:00 1439015 237
>>1438917
тот адаптер с пикчи 700 рублей стоит.
Аноним 03/12/25 Срд 12:02:24 1439017 238
>>1438970
>подключить её как внешнюю карту
А вот тут пожалуйста поподробнее, у меня ещё 3060 в шкафу пылится.

>>1438986
>Неделю?
Вообще-то несколько месяцев. Я не 99тый =)) Крякал не только он.
Я который мистрали и геммы мержил, да на пикселе папку хабара собирал.
Аноним 03/12/25 Срд 12:19:03 1439032 239
Одну или две rtx 6000 брать под moe-поеботу? Мне чисто чтобы контекст не 200 лет считался, ну если генерация ускорится, то тоже хорошо.
Аноним 03/12/25 Срд 12:21:10 1439034 240
Аноним 03/12/25 Срд 12:36:26 1439057 241
Аноним 03/12/25 Срд 12:54:40 1439067 242
>>1438883
>У тебя логическая ошибка в запросе,
>в thinking модели прогони и увидешь
>в чем начинается loop еще до ответа.
хм. а что, мартчшки в треде уже перестали кидатсья какашками? откуда тут годный совет?
Спасибо, при случае попробую.

Держи тогда и от меня тебе ответ
>>1438696 >>1438837
по поводу больших моделей на ssd/nvme.
Скорость на них для случайного чтения записи указывают при соблюдении условий. К примеру 6ГБ/с ты на них получишь только если запустишь 32 параллельных потока записи, а один поток даст максимум 600МБ/с. Скорее всего вся эта дисковая raid конструкция будет работать в однопоток, а это даже близко не даст желаемые скорости.

>>1438978
а ведь сколько памяти валяется, должно быть, просто распаянной на картах, которые никто не использует и продает за копейки. или просто так выкидывается вместе с картами на помойку.
Аноним 03/12/25 Срд 13:04:21 1439075 243
Вопросец. Доставлять к имеющемуся RTX12Gb какую-нибудь Tesla m40 на 12Gb провальная идея?
Аноним 03/12/25 Срд 13:07:19 1439076 244
>>1439075
да. Купи лучше у меня p40.
Аноним 03/12/25 Срд 13:22:12 1439095 245
Аноним 03/12/25 Срд 13:30:58 1439106 246
>>1439034
>Скуф 2: Возвращение
как будто что-то плохое
Аноним 03/12/25 Срд 13:36:41 1439115 247
>>1439017
>Я не 99тый =)) Крякал не только он.
Он не крякал. Да и прогнали его недавно, но хорошо что ты вернулся.
Аноним 03/12/25 Срд 13:47:48 1439135 248
>>1437890
У меня P104-100 8Гб в связке с 3060 12Гб, в целом норм, но сука шумит со стандартными дровами, разные биосы ставил минимум 37% оборотов на кулерах удалось добиться. Патченные дрова ставить не хочу, приходится страдать. Говорят можно какое-то принудительное регулирование оборото наколхозить, но чет западло. В целом за 1200р вполне бюджетно
Аноним 03/12/25 Срд 13:50:05 1439140 249
>>1438822
Поддвачну. Крупных моделей, которые можно запустить быстро и применить для околорабочих задач всего 2 - квенкодер и большой жлм. Понавыпускали кими, линг, гигачат и прочих - а из-за размера годны они лишь для рп, где ты можешь потерпеть. Но при этом дипсик все равно рпшит лучше.
>>1438828
Еще можно выцепить ссд по адекватным ценам на вторичке, сата/нвме серверники или нормальные модели типа самсунгов с быстрой вне slc, если сата то лучше несколько чтобы быстро.
>>1438837
Ну, чисто технически можно не только асинхронный стриминг блоков в врам из рам устраивать, но и делать то же самое из нвме в рам. Только вот соотношение скорости и объема выгрузки чтобы это (сильно) не замедлило посчитать несложно и выводы неутешительные.
>>1438907
Если хочешь дешево - бери майнерский "фирмовый", они неплохие, но с нюансами, под риг норм. А так 12-15к оно и будет стоить чтобы хороший.
>>1438917
Пиздец, кто-то на это еще прогревается?
Аноним 03/12/25 Срд 13:55:17 1439147 250
>>1438884
>Вот у меня ddr5 - и что-то я никаких 50 гб/с не вижу.
>>1438892
>У меня на ддр5 6800 99 скорость

на амд очень часто макс 60гб/с, селяви
Аноним 03/12/25 Срд 13:58:28 1439150 251
>>1438982
Эх, анончик, а ведь предлагали тебе в рамках экономии времени хотя бы протестировать работоспособность и оставить, потом запаять конденсатор самостоятельно. Но кто же мог предугадать, замена тогда была самым адекватным решением.
Мониторь площадки, внезапно у некоторых барыг, которые медленно синхронизируются с реальностью, еще можно выкупить по пиздецовым ранее но хорошим сейчас ценам.
>>1439032
Чем больше тем лучше. На трех поимеешь 60+ т/с в квенкодере уже на 128к контексте в пригодном для использования кванте. На двух запустишь только 235 в жирном кванте и жлм в ужатом, а выгрузка обрушит скорость по сравнению с фуллврам даже если у тебя серверное железо. Больше - лучше, там и без проблем дипсико-подобные полетят.
Аноним 03/12/25 Срд 14:08:27 1439160 252
image.png 271Кб, 1416x610
1416x610
22 часа осталось
вот, сижу, думаю, брать ли вторую...
последние два дня я гонял glm air на 3090 + 3090 + v100 с контекстом 98к. Так и не заполнил до конца. Сейчас вайбкожу с ней один петпроект, контекст уже дошел до 52к. Скорость 9т/с. Для 52к контекста приемлимо.
Понимаю, что память для моделей сейчас будет пиздец как важна.
Аноним 03/12/25 Срд 14:25:50 1439188 253
>>1439160
Это братья китайцы продают комплекты "собери себе ml видяху дома"?
Я так понимаю, плата, чип и охлад - все отдельно?
Охлад активный может быть, или только банка толщиной в трехтомник Войны и Мира?
Мимоинтересующийся, но не решающийся слоупок
Аноним 03/12/25 Срд 14:28:35 1439190 254
>>1439188
этот продавец продает уже с переходником на pcie. Я у него уже брал. охлад стоит 3к.
охлад - и башня и турбина. Я выбираю башню, потому что вой не люблю.
Аноним 03/12/25 Срд 14:34:55 1439201 255
>>1439160
V100 же слабая, нет? Как она против 4090 по производительности и потреблению?
Аноним 03/12/25 Срд 14:36:47 1439204 256
>>1439190
Я прост не уверен, что оно вообще в стандартный atx в дополнение к игровой влезет, бандура такая. Хотя если бп вынуть...
Аноним 03/12/25 Срд 14:39:17 1439208 257
>>1439188
Зависит от продавца. Нужна плата, переходник и охлад. Что входит в комплект нужно смотреть в карточке. По охладу есть 4 варианта
1. Турбина, воет и хуёво охлаждает
2. Большой радиатор, сам по себе не особо хорошо охлаждает, но можно присобачить кулер, китаец с ВБ на 3д принтере форму печатал
3. Водянка
4. Колхоз с охладом от серийной карты. Китаец продаёт с охладом от 4090, на али один раз видел, но с другим охладом.

>>1439201
Чуть слабее 3090
Аноним 03/12/25 Срд 14:39:48 1439210 258
>>1439201
4090 же слабая, нет? Как она против B200 по производительности и потреблению?
Аноним 03/12/25 Срд 14:48:59 1439217 259
IMG4791.jpeg 161Кб, 828x731
828x731
>>1438978
Не ссыте, идем на снижение.
Можно брать !
Аноним 03/12/25 Срд 15:09:59 1439237 260
>>1439208
>Чуть слабее 3090
Ну тогда только из-за памяти можно брать.

А сколько места она вместе с охлаждением занимает? В обычный корпус ее явно не уместить
Аноним 03/12/25 Срд 15:18:03 1439247 261
>>1439237
Одна скорее всего влезет, возможно в паре с обычной картой если корпус позволит. В прошлом треде были фото анона который в рииг такую поставил, у него самый жирный охлад, можешь оценить размеры. Если нужна высота башни, то смотри в карточке на али, там разные варианты есть, повыше и пониже.
Аноним 03/12/25 Срд 15:31:00 1439257 262
>>1439160
> Скорость 9т/с. Для 52к контекста приемлимо.
Фуллврам или с выгрузкой? Если первое то почему 9 а не 39?
В100 вообще крутая карточка, выглядит как интересное приобретение даже чисто держать на ней какую-нибудь мелочь под автокомплит, терминал и подобное. Главное что настораживает - сложности с поддержкой флешатеншн и экслламы, но даже так пережить можно.
Если планируешь их юзать, знаешь куда применишь и деньги не последние - бери конечно.
>>1439188
Там есть уже готовые комплекты. Кмк, вариант с простым адаптером и штатным радиатором предпочтительнее турбы, потому что не смотря на хитрый формфактор компактен и может быть размещен много где. Плюс к нему цепляешь свой кулер и настраиваешь курвы как хочешь, а не ловишь воющую турбину как только потребление превышает порог в 100вт.
Аноним 03/12/25 Срд 15:39:29 1439263 263
>>1439257
фуллврам.
А почему ты думаешь, что должно быть 39?
Аноним 03/12/25 Срд 15:47:39 1439269 264
>>1439263
Потому что 11б активных и быстрые карточки. Ну может не 39 но хотябы тридцатка должна быть. Проверь с пустым контекстом на свежезапущенном жоре, может он так сдох из-за контекста, хотя 52к как-то маловато для такого.
Аноним 03/12/25 Срд 15:52:02 1439277 265
>>1439269
я уже постил сюда результаты холодного запуска >>1436674
>54.27 т/с
ты только предполагаешь, что должно быть 39 или у тебя есть пример сетапа, где жора выдает 39 на 50+ к контекста?
Если есть - я хочу узнать о нем больше.
Если нет - то тут и обсуждать нечего...
Аноним 03/12/25 Срд 15:54:54 1439282 266
>>1439277
Давай я померю, кидай ссыль на твой квант
Аноним 03/12/25 Срд 15:59:25 1439287 267
>>1439282
о, отлично.
тогда тебе может пригодиться и команда запуска которой я пользуюсь
build/bin/llama-server -m /mnt/NON-RAID/LLM_MODELS/GLM-4.5-Air-GGUF_Q4_K_M/GLM-4.5-Air-Q4_K_M-00001-of-00002.gguf -ngl 128 -sm layer --host 0.0.0.0 --port 63487 -c 98304 --jinja -ctk q4_0 -ctv q4_0 --tensor-split 2,2,3

тензор сплит потому что две карты по 24 и одна 32 гб. Не думаю, что он замедляет значительно.

модель https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q4_K_M
Аноним 03/12/25 Срд 16:00:49 1439291 268
>>1439277
Нету 3090 и в100 чтобы проверить, есть примеры другого сетапа где с 50 падает до ~20 и ниже, но на контекстах 80-100к. Или плато в ~47т/с на модели в 1.5 раза больше до 160к но уже не на жоре.
Алсо версия какая, попробуй на месяц где-то откатиться.
Аноним 03/12/25 Срд 16:12:51 1439299 269
Аноним 03/12/25 Срд 16:25:08 1439311 270
>>1439140
>Пиздец, кто-то на это еще прогревается?
Ну вот я прогрелся, и что ты мне сделаешь?
Аноним 03/12/25 Срд 16:29:28 1439318 271
>>1439291
Слыхал на али, что у 3090 и v100 конфликт в дровах на винду возникает, и они не могут нормально вместе работать.
Аноним 03/12/25 Срд 16:31:42 1439324 272
Аноним 03/12/25 Срд 16:54:02 1439344 273
>>1439318
Там в целом с дровами на винду проблема. Хорошо работает только с серверными
Аноним 03/12/25 Срд 16:55:47 1439347 274
изображение.png 311Кб, 639x743
639x743
>>1439324
Во. Я так понимаю, автор о диспетчере устройств винды (про восклицательный знак)
Аноним 03/12/25 Срд 17:14:45 1439364 275
>>1439318
Да, там в целом странности с дровами, раньше даже А серия, которая вполне себе с видеовыходами и может стоять в десктопе, конфликтовала. Но сносишь дрова, делаешь чистую установку, в диспетчере включаешь-выключаешь видеокарты и все начинает работать. Сейчас вроде починили что даже совсем некрота одновременно с последними заводится без конфликтов.
В линуксе вообще ноль вопросов к этому.
>>1439347
Да, именно такое. Проблема популярная для всякой экзотики и даже просто карт разной серии, чинится.
Аноним 03/12/25 Срд 17:26:23 1439382 276
> Исправлено кэширование изображений при обновлении аватара в Firefox.
О, не успел зарепортить, уже пофиксили. Оперативно.
Аноним 03/12/25 Срд 17:30:50 1439389 277
Правильно ли я понимаю, что если у нас начался кризис чипов памяти, то цены не только на оперативку взлетят, но и на видеокарты и ссд? Собирался брать 5080 супер следующей весной, но теперь думаю забить хуй и брать обычную 5080 прямо сейчас, пока цена не трипнулась. Насколько эти опасения вообще резонны?
Аноним 03/12/25 Срд 17:36:05 1439394 278
>>1439389
РАМ туземун, ССД тоже делают х2 потихоньку. По видюхам пока тихо, рост небольшой, но есть мнение, что 5080 супер может или вообще не быть или по оверпрайсу.
Аноним 03/12/25 Срд 17:36:47 1439395 279
>>1439389
Ты повторяешь слова блогеров-аналитиков, цены на некоторые вещи уже взлетели, 5090 за 200 и ниже уже не найти.
По предсказаниям это к ванге, но новость https://www.tomshardware.com/pc-components/gpus/nvidia-reportedly-no-longer-supplying-vram-to-its-gpu-board-partners-in-response-to-memory-crunch-rumor-claims-vendors-will-only-get-the-die-forced-to-source-memory-on-their-own намекает.
Аноним 03/12/25 Срд 17:48:36 1439410 280
>>1439389
Производство чипов одно и тоже. Но память в картах копеечная, даже х3 будет всего +100 баксов при цене карты в 1500.
>>1439395
> 5090 за 200 и ниже уже не найти
Они никогда столько и не стоили, до 250-300к подорожали задолго до роста цен на память.
Аноним 03/12/25 Срд 17:51:14 1439419 281
>>1439389
Да.
А еще нвидиа больше не будет поставлять чипы в комплектах с памятью, так что вендоры сами будут сраться между собой и с другими, чтобы купить память.

Так что моя 4090 со мной надолго
Аноним 03/12/25 Срд 18:13:53 1439483 282
>>1439394
>По видюхам пока тихо, рост небольшой
Ну оперативка тоже взлет начала почти с пустого места в последние три недели
>>1439395
>5090 за 200 и ниже уже не найти
Так потому что она столько и не стоила, лол. Минимально вроде до 240 опускалась, но точно не ниже
Аноним 03/12/25 Срд 18:21:26 1439493 283
1634135679417.png 53Кб, 650x305
650x305
>>1439410
> столько и не стоили
>>1439483
> Минимально вроде до 240 опускалась, но точно не ниже
Маркетплейс с комиссиями. В мелких интернет магазинах с гарантией по ~200 были, за чеками лень лезть чтобы фоткать. Под заказ и по 180 были, но риски и никаких гарантий. В общем, кто успел - тот успел, сейчас же их активно скупают и сами китайцы также как с 4090.
Аноним 03/12/25 Срд 18:21:48 1439494 284
df.png 31Кб, 192x192
192x192
>>1439287
> -ctk q4_0 -ctv q4_0
пу пу пу
Аноним 03/12/25 Срд 18:24:42 1439499 285
изображение.png 69Кб, 1574x428
1574x428
>>1439410
>Но память в картах копеечная
То то её вечно зажимают.
>> 5090 за 200 и ниже уже не найти
>Они никогда столько и не стоили
>>1439483
>Минимально вроде до 240 опускалась
За 230 лично брал на озоне (не гой, чтобы на 220 соглашаться, но были и такие, другие с наебалами за 180 брали, обменивающие свои 4090 вообще чуть ли не в плюсе были).
>>1439493
Всё так.
Аноним 03/12/25 Срд 18:31:11 1439505 286
>>1439494
Самый внимательный, тогда неудивительно что такие тормоза. Вообще, там есть простор для оптимизаций, но можно намотаться на костыльную реализацию фа в жоре.
Аноним 03/12/25 Срд 18:31:17 1439506 287
Аноним 03/12/25 Срд 18:48:59 1439521 288
>>1439506
квантизация контекста равно плюс тормоза, минус качество
Аноним 03/12/25 Срд 19:04:04 1439531 289
image 132Кб, 1494x496
1494x496
>>1439493
>>1439499
Да и я за 230 брал. Но до 200 в нормальных магазинах никогда не опускалось, только у барыг ноунеймов баз гарантии.
Аноним 03/12/25 Срд 19:09:01 1439535 290
>>1438907
Штош, отвечу сам себе.
Мои муки выбора закончились на Lian LI SX, 1200W, 80+ Platinum, ATX 3.1 (SX1200P), на яндексе он по 13500 от Онлайнтрейда и я ещё промокод крутанул и получил 1000/10000 так что в итоге 12500.
Надеюсь норм будет.
Аноним 03/12/25 Срд 19:10:31 1439537 291
>>1439535
>1200W
>3 видеокарты

Что за видюхи?
Аноним 03/12/25 Срд 19:19:00 1439543 292
>>1439537
>Что за видюхи?
3060-12, 4060ti-16, плюс едет ко мне моя v100-16.
Надеюсь дожить до светлого будущего, в котором 3060-12 заменится на 5070tis (если выйдет, если кризис памяти пройдёт, и т.д. и т.п.).
Ну и плюс может в будущем что-то новое по типу v100 завезут.
БП на 650 Вт планируемую вот-вот конфигурацию не тянул точно, пришлось покупать новый. Хотел 1000Вт, но анон в треде посоветовал не ебать мозг и брать сразу 1200Вт, а я и не против.
Аноним 03/12/25 Срд 19:32:07 1439552 293
1000297075.mp4 2421Кб, 1504x832, 00:00:06
1504x832
Тред локальных моделей, но моя инфа будет полезна и для локальщиков, чтобы узнать, чо там по другую сторону забора.

Я юзаю и корпов (только для работы в основном), и локалки (только РП).

Я въебал более 500к токенов на РП с Grok'ом версий 4.0-4.1 в рамках одной карточки. Размер карточки с доп инфой составил 15к токенов. Решил попробовать, ибо никогда к нему не прикасался ранее.

Основные модели, с которыми я сравнивал грока: большие квен и глэм, и, внезапно, гемма.

Поясню более подробно и буду описывать только не совсем очевидные наблюдения, о которых местный анон мог не подозревать.

1. Внезапно крайне низкий уровень цензуры для корпа, что в некотором роде ставит его в один ряд с локалками. Мечта для кумеров и любителей катать карточки персонажей помладше. Кишки и сперма из узких дырочек будут вылетать только в путь без мам, пап и джейлбрейков. Почему так — непонятно.

2. У модели крайне странный биас: фиксация на сексе, эротике. Грок может забыть важные нюансы из лора, правил, но никогда не забудет, сколько раз трусы были сняты и напомнит, что ты обещал кого-то там выебать 10к токенов назад. Также наблюдатся биполярочка: ему очень сложно держать баланс между любовью и ненавистью. Старается выдавать какие-то более бинарные реакции. И упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер. Только дай повод. Напиши хоть раз что-то такое 30к токенов назад — и он при любом неуместном моменте об этом вспомнит и начнёт гнуть на эту тему.

3. Внимание к контексту очень слабое. 32к держит терпимо, но на 50+ уже начинает сыпаться однозначно. Когда дело близится к 100к, то там уже хоспади помилуй. Что касается длины контекста, тоже не совсем понятна истинная длина, потому что какие-то модели поддерживают миллион, какие-то 128к, но легче от этого вам жить не станет.

4. По ощущениям и вспукам "инсайдеров" там 1Т МоЕ. А по моим — такое же, только с 3.5В активных параметров, иначе такое бешеное Т/С я ничем не смогу объяснить. Может шлёпать абзацы за секунду.

5. Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к. С ризонингом уже тянет на что-то приличное, благо высокая скорость работы позволяет ризонинг постоянно использовать.

6. Русек такой, что плакать хочется. На уровне локалок, НЕ заквантованных в мясо. Но это не то, чего ты ждёшь от корпоративного монстра за тонны бабла.

7. Китайский датасет. Вперемешку с типичным англоязычным. Там будет и ЛИРА, и ОЛД МЕН ХЕМЛОК, и сперма, растворяющаяся как чернила в воде, и пульсирующие стены, и вот эти вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец. Что интересно, в 3.0 такой хуйни не было.

8. Требует оче грамотного промптинга, если хотите попытаться во вдумчивое РП. Но это, ребяты, не окупается. С ростом контекста он нахуй шлёт все инструкции и проще автоматом вставлять ключевые моменты через n сообщений. Мучений буквально больше, чем с локалкой, потому что с локалкой ты выстраиваешь чёткий принци РП и хуяришь. Тут скачет. Подозреваю, что контекст динамический, квант модели тоже.

9. Если забыть про зиро-шоты и тесты в стиле "напиши рассказ, используя такие вот приёмы", даже гемма ебёт его в нарративе. На длительной дистанции гемма не так заебывает и даже лучше слушается инструкций. Без ризонинга гроку ПРОСТО ПАХУЮ, даже если инструкции в самом конце контекста. Нужно рероллить 2-3 раза, прежде чем он их выполнит. Но в итоге он всё равно что-то проебет без ризонинга.

10. Если воспринимать его как рабочий инструмент, то это мусор. Он не стоит и близко к нынешним корпам. Даже дипсик его ебёт, не говоря уже про клодов всяких. Нахуй он нужен бизнесу — непонятно. Но у меня есть подозрения, судя по докам с сайта, что модель просто для щекотания эго Илона. Ну и для дрочеров, что не может не радовать — нам нужны такие игроки для более разнообразного рынка в целом.

Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то.

Ощущения очень смешанные. Чувство, что меня наебали.
Аноним 03/12/25 Срд 19:38:11 1439556 294
Аноним 03/12/25 Срд 19:46:23 1439562 295
>>1439552
Много буков. Скажи проще - GLM Air или Грок?
Аноним 03/12/25 Срд 19:52:44 1439569 296
>>1439505
>>1439521
а с чего вы взяли, что именно квантизация контекста виновата?
Кто-то проводил тесты и получал сильное замедление?
Просто типа... можно так в любую нестандартную опцию ткнуть и сказать "ААА, НУ ВОТ ОНО ПУ ПУ ПУ блять".
Аноним 03/12/25 Срд 19:57:30 1439573 297
>>1439552
Маск так-то в своё время критиковал ОпенАИ за то что они не "опен", но когда сделал собственную модель - сам не торопится выкладывать её в опенсорс. Да, в плане почти полного отсутствия цензуры (и текст и видео) - Маск слоняра, но за то что не делится с работягами своими модельками - максимальное осуждение. Какой-нибудь Грок-эйр на 120b я бы с удовольствием пощупал в локальном РП.
Аноним 03/12/25 Срд 19:58:55 1439575 298
>>1439562
Просто GLM 4.5, тот для РП просто отвал пизды как хорош.
Аноним 03/12/25 Срд 20:04:55 1439581 299
>>1439543
На эти с запасом.
>>1439569
Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета.
>>1439573
Ну вон второй выложил уже давно, для кума вполне себе. Задержка очень большая перед выкладыванием, тут бы до третьего дотерпеть.
>>1439575
Почему не 4.6?
Аноним 03/12/25 Срд 20:10:21 1439589 300
>>1439552
>упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер
Чем больше разных моделей пробую, тем сильнее ощущение, что существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам. Что мистраль, что гемма, что квен, что лама - все описывают сцены одинаково с едва заметными отличиями. Будто в английском весь эротический фанфикшен имеет общий паттерн и модели его запоминают не имея другого выбора. Точнее даже не паттерн, а общие конструкции. Одну конструкцию. Если описывается грудь, значит вздымающаяся и упругая, если соски, то обязательно твердые и розовые. Дженерик слоп щит короче.
Аноним 03/12/25 Срд 20:15:29 1439593 301
>>1439581
>Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета.
для меня это странно звучит...
насколько я понимаю квантизацию, это позначает, что вместо 16 байт мы храним в памяти 4 (в случае q4). И единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец. Всё.
Это не звучит как какая-то замедляющая операция.
Аноним 03/12/25 Срд 20:19:42 1439596 302
>>1439552
> Я юзаю и корпов (только для работы в основном), и локалки (только РП)
Правильно. Радикализм ни к чему.
> грока: большие квен и глэм, и, внезапно, гемма
Жаль, что именно сравнений в твоем посте нет, только с Геммой в конце. Квен 235б имеешь ввиду? С каким промптом катал? Не уходил он в дешевую театральную постановку с глупыми придыханиями и переносами? Квен хорошо держит внимание к контексту, больше похвалить мне его не за что.
> Внимание к контексту очень слабое. 32к держит терпимо
Справедливо для всех существующих моделей на сегодня, кроме может пары корпов. Больше 32к идти нет особо смысла. Не понимаю анонов, которые отписывались тут про 64-128к. На большинстве моделей это начинается и до 32к, но после - совершенно точно генерализированные ответы, теряющие суть повствования, обобщающие детали.
> Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к
Как ты при этом наиграл 500к токенов? Каким образом?
> вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец.
Ну то есть Квен 235, да.
> Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то.
В любом случае, ценный пост. Благодарочка.

>>1439593
> Это не звучит как какая-то замедляющая операция.
Ты можешь руководствоваться своей теорией, а можешь взять и самостоятельно замерить. Квантование контекста на llamacpp приводит к падению скорости генерации, это давно известный факт.
Аноним 03/12/25 Срд 20:40:36 1439608 303
1000132812.jpg 610Кб, 1080x2247
1080x2247
1000132813.jpg 529Кб, 1080x2400
1080x2400
Как называются таки люди? Хороших слов не подобрать
Аноним 03/12/25 Срд 20:47:27 1439610 304
>>1439608
Предприниматели. Торговцы. Благодаря в том числе им ты живёшь в рыночной экономике. Да, увы, хорошего без плохого не бывает
Аноним 03/12/25 Срд 20:56:37 1439618 305
Аноним 03/12/25 Срд 20:56:49 1439619 306
>>1439593
> единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец
Нет, то что ты описал - прямой каст, его никто не использует. Даже прямая конверсия тренированной в 16 битах модели в 8 бит таким "способом" вносит серьезный импакт, а в 4 там не просто бредогенератор - рандомные символы будут. Можно изначально закладывать веса в меньшей битности, но тогда придется менять саму архитектуру, вводить вагон лишних норм с высокой точностью (по сути недалеко от квантования ушло) и это применимо в первую очередь к огромным линейным слоям, а не атеншну.
Смысл квантования в том, что ты делишь параметры на отдельные группы по критериям диапазона и распределений, присваиваешь им общий множитель и смещение (хранимые в 16 битах), и уже только потом имеющийся диапазон делишь на малое число дискретных значений, представляя веса с меньшей точностью. Это описание на пальцах простого алгоритма, разумеется считается это чуть сложнее (например, гугли преобразование Уолша) и пришло еще из видеокодирования.
Само деквантование не сильно сложно, но есть нюанс со взаимодействием этого с флешатеншном. Плюс само квантвоание тоже там есть.
>>1439608
Если они просто торгуют - предприниматели, рыночные условия. Если агрессивно мониторят площадки ботами, мгновенно выкупают любой лот по меньшей цене и проворачивают подобное - барыги, которым нужно разбивать хлеборезку.
Аноним 03/12/25 Срд 21:04:46 1439627 307
>>1439589
>существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам
Да. Называется интернет. А то что кожаные всё описывают одинаково, то это уже не вина негронки. Впрочем, если бы я сделал свою мега архитектуру, то весь слоп можно было бы вырезать одним ползунком, но кому я нахуй нужен со своими мега идеями...
>>1439608
Я ведь только месяц-другой назад слил 2х32 за 15 косарей... Ну ё-маё.
>>1439618
Судя по пикче, там 48 гиг будут, лол.
>>1439619
>Если они просто торгуют
>мониторят площадки ботами
Рискую поднять оффтопный срач, но в чём разница? Типа руками норм, а ботом не норм? А бот раз в час норм? Ну в общем странные разграничения.
Аноним 03/12/25 Срд 21:32:57 1439683 308
>>1439619
>>1439610
Ну всё-таки надо отличать предпринимательство от спекуляции
Аноним 03/12/25 Срд 21:41:18 1439698 309
>>1439494
>>1439287
А вот я только освободился, хотел померять, как обещал, а тут уже разгадали причину. Я никогда не квантовал контекст, потому что всегда отзывы говно говна на это были, поэтому и не подумал про это. И кстати, 4 квант контекста это пиздец жестко же, не? Особенно в агентных тасках. И, судя по аргументам, ты и ключи квантуешь? Тут же аноний был сколько-то тредов назад, и там выяснили, что ключи квантуют только лохи.
А вообще, используй ОСС. Она со свистом же залетит в твой конфиг на полном контексте без квантования, еще и SDXL на сдачу на v100 запустишь (просто потому что). И скорость у нее пизже, на 100к контекста у меня вроде генерация 18 т/с была
Аноним 03/12/25 Срд 21:41:56 1439700 310
>>1439627
> в чём разница
Влошился, закупил за бугром у поставщиков, пронес в тузе через границу не платя пошлину @ даешь возможность работягам купить здесь и сейчас по конкурентной цене. Кабанчик потрудился сэкономив и пытается получить с этого профит помогая другим.
или
Паразитическая прокладка, лишающая людей возможности прямых сделок, навязывающая свою конскую комиссию, часто с кучей обмана. Буквально рекетиры на минималках. Офк граница может размываться, но суть такова.
>>1439683
Хз о тех лотах, но таких объявлений всегда было полно, пару плашек так и брал по цене ниже днса и прочих на то время. Если это торгаши, которые постоянно возят железки и они просто подняли цены вслед за всеми - в чем их вина?
Аноним 03/12/25 Срд 21:44:58 1439705 311
>>1439608
Может лучше вообще не покупать по таким ценам ебанарот? Хотя я сам в свое время купил карточку по оверпрайсу в майнинг о чем потом пожалел тысячу раз
Аноним 03/12/25 Срд 21:47:50 1439706 312
>>1439700
>лишающая людей возможности прямых сделок
Обеспечивающие ликвидность, я обычно таким барыгам всё и сливаю, ибо мне в хуй не впёрлось сидеть со своим железом до третьего пришествия, а они кабанчиком кидаются на мои объявы ниже рынка и вежливо скупают.
>часто с кучей обмана
ИЧСХ, их тоже могут наебать, и тогда они останутся в пролёте. Либо они могут купить на хаях и не продать, остаться с кучей железа и без денег на руках.
>Офк граница может размываться
А её и нету, лол. Тут градиент, а срыночек сам отрегулирует, отсеяв совсем охуевших барыг и совсем зелёных новичков.
Аноним 03/12/25 Срд 21:57:39 1439714 313
>>1439705
сейчас немного другая ситуация
> Micron Technology is shutting down its Crucial consumer business, a move that would allow the company to redirect resources toward large artificial-intelligence and data-center customers
ближайшие 3 месяца цены точно будут расти, а скорее весь ближайший год.
ждунов выебут, короче
Аноним 03/12/25 Срд 21:58:29 1439715 314
>>1439714
Тупа картельный сговор пидарасов налицо
Аноним 03/12/25 Срд 21:58:44 1439716 315
>>1439627
>там 48 гиг будут, лол.
Тогда это скам
Аноним 03/12/25 Срд 22:00:18 1439719 316
>>1439714
В 20 веке производители лампочек накаливания подобную хуйню исполняли кста
Аноним 03/12/25 Срд 22:02:46 1439722 317
>>1439715
да, они охуели, и что ты им сделаешь? не купишь оперативу за 59 990 р? в следующем году купишь за 99 990
Аноним 03/12/25 Срд 22:11:59 1439732 318
Новый игрок на арене опенсорса из Америки

Семейство моделей Arcee AI получило имя Trinity. Пока в превью-релиз вошли 2 конфигурации:

Trinity Mini — это обычная ризонинг-модель на 26 млрд. общих и 3 млрд активных параметров, обученная с нуля.

Trinity Nano Preview — это модель чата. Она создана, чтобы быть харизматичной и интересной в общении несмотря на свои скромные 6 млрд. общих и 1 млрд. активных параметров.

И пока мы тестируем Nano и Mini, Arcee AI тренирует флагмана Trinity Large.

Его релиз запланирован на январь 2026 года. Это будет модель на 420 млрд. параметров, из которых 13 млрд. будут активны.

Обе доступные модели, Trinity Nano и Trinity Mini выпущены под лицензией Apache 2.0. Они опубликованы на Hugging Face и поддерживаются llama.cpp, LM Studio и vLLM.

https://huggingface.co/collections/arcee-ai/trinity
Аноним 03/12/25 Срд 22:13:01 1439734 319
>>1439698
Что за железо?
И лучше картиночные на 3090 а ллм уже на в100.
>>1439706
> Обеспечивающие ликвидность
За ликвидностью в ломбарды, специализированные салоны, крупные риэлторские агентства и все подобное. Оценивают и тут же выкупают, рискуя влошиться в сомнительный актив, а ты платишь им за ту самую ликвидность.
А когда и так дефицитный товар, который проблем с ликвидностью не имеет, скупают чтобы сыграть не дефиците и перепродать дороже - мразь маздай.
> их тоже могут наебать, и тогда они останутся в пролёте
Туда и дорога. Опять же, нужно разделять условных дистрибьюторов, которые необходимы как связующие звенья между производителем и конечным покупателем, и перепуков, которые занимаются исключительно надуванием пузырей дефицита и не вписывающихся в общую схему.
> срыночек сам отрегулирует
Мемасик про анкапа - шаверматора. В чистом виде без вмешательств - никогда.
Ты, похоже, говоришь немного о других вещах. Ничего плохого в тех объявлениях, например, я не вижу.
Аноним 03/12/25 Срд 22:15:24 1439736 320
Аноним 03/12/25 Срд 22:16:17 1439737 321
>>1439732
Ну вот опять, огромный монстр на 420b и пездюки 26b и 6b. Ясно-понятно, сидим на эйре дальше. Чувствую так весь следующий год и просидим.
Аноним 03/12/25 Срд 22:19:44 1439742 322
>>1439732
> 420 млрд. параметров, из которых 13 млрд. будут активны
Активных маловато, но хотеть.
Аноним 03/12/25 Срд 22:21:02 1439747 323
>>1439737
Щито поделать, корпоратам только такие и нужны. Спроса на 100б нет, так как нет задач для них. Для автоматизации рутины слишком большие, а для задач на подумать слишком тупые.
Аноним 03/12/25 Срд 22:22:09 1439749 324
>>1439698
>используй ОСС
да нахер этот слоподром.
Пока что эйр мне нравится больше всего. Хозяйка на кухне, шлюха в постели крепкий миддл в кодинге, безотказная в порнорп.
А oss ёбаный даже палкой трогать не буду, какой бы пиздатый он ни был.
>>1439734
>И лучше картиночные на 3090 а ллм уже на в100.
3090 на sdxl генерирует 5 секунд, а v100 - 4. Разница в секунду это хуйня.
Аноним 03/12/25 Срд 22:23:11 1439750 325
А какой пресет для этой Тринити ставить? ChatML? Чот в карточке модели не могу найти
Аноним 03/12/25 Срд 22:24:26 1439751 326
>>1439749
осс лучше в кодинге. дрочи с ейром, кодь с осс
Аноним 03/12/25 Срд 22:26:45 1439753 327
>>1439714
удовлетворят спрос корпоративных говно моча гной рак клиентов и вернутся к консьюмерам если смогут. но ждать этого наверняка не один год. очень надеюсь китайцы займут эту нишу, абсолютно не жалко когда такие конторы банкротятся

может покупка миника на ryzen 395 c 128гб - не худшая идея сейчас? стоит $2-2.5к всего то
Аноним 03/12/25 Срд 22:28:22 1439754 328
>>1439749
В100 быстрее в картиночных? Реквестирую пруфы и подробное описание конфига.
А так для xl столько памяти просто ненужно, вхолостую расходуется.
>>1439753
С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой.
Аноним 03/12/25 Срд 22:31:03 1439760 329
>>1439754
>С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой.
эти миники и до этого помешательства столько стоили. я уже давно мониторю их цену но жалко деняк купить
Аноним 03/12/25 Срд 22:31:36 1439761 330
>>1439754
>В100 быстрее в картиночных? Реквестирую пруфы и подробное описание конфига.
просто местами цифры перепутал. 3090 4, в100 5.
Аноним 03/12/25 Срд 22:59:29 1439793 331
>>1439734
>Что за железо?
3090 Ti + 2x 3090. Только я писал уже сюда, что с полным контекстом и 2к батчем она буквально на писечку не влезает в такой конфиг. Либо один слой на четвертую карту кидать, либо эксперта на рам - я второе выбрал. С v100 такой проблемы не будет, понятное дело

>>1439749
>да нахер этот слоподром.
Наркоман? Речь о кодинге шла, при чем тут слоп. Хотя я так понял ты не агента используешь, а просто в чате с аватаркой лясы точишь. Я еще удивился, ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать, а у тебя там с попердыванием 50к набралось.

>>1439754
>В100
Не ленись писать нормально, потому что B100 тредовичкам только Дед Мороз может подарить, да и то не факт
https://pimnara.ru/shop/graficheskij-uskoritel-nvidia-b100-96-gb/
Аноним 03/12/25 Срд 23:00:19 1439797 332
>>1439706
>срыночек сам отрегулирует
Он прежде всего отрегулирует кошелёк покупателей, которые вместо покупки у Васи Пупкина за 3 рубля будет покупать за 10 рублей у перекупа Хуя Защеканова, который ботом автоматом скупает всё, что дешевле установленной им планочки.
Знаешь такую хуйню, как скальпинг применительно к потребительским товарам? Это когда продаётся ограниченная хуйня, которую боты перекупов раскупают за 0,001 с, а потом те, кто эту хуиту использовал бы для себя, вынуждены платить перекупу. Характерный пример был, правда за давностью лет подробностей не особо помню - буржуи плакались, помнится, что какой-то пидор скупил весь выпуск каких-то коллекционых йоб по ККИ (выпуск был небольшой, 1-10к штук), кинул их себе в гараж и продавал в N раз дороже.
Ну или пример более привычный, из эпохи майнинга, когда сети пиарились, выставляя N карт по нормальной цене, а (даже если условный DNS не сливал это перекупам через сотрудников) всё раскупалось ботами.
Аноним 03/12/25 Срд 23:09:22 1439815 333
>>1439793
Если с экспертом в рам тогда уже норм скорость.
Раз пользуешься - поделись с народом шаблоном что юзаешь.
>>1439797
Все так.
Аноним 03/12/25 Срд 23:12:24 1439819 334
MV5BMDJmOGE1NTA[...].jpg 264Кб, 2880x2160
2880x2160
https://youtu.be/vZa0Yh6e7dw

Мистраль обосрались и не выпускают ничего толкового уже больше года.
Гугл, возможно, и не выпустят Гемму 4.
Плотных моделей, доступных любителю, все меньше. Только малютки для агентской работы. Впрочем, есть предпосылки, что плотные модели умерли в целом.
Средний сегмент Мое моделей, похоже, мало кому интересен. Только малютки для агентской работы и то, что не запустить на любительском железе.
Железо дорожает и будет дорожать.
В целом фон для нашего увлечения в конце года довольно негативный.

Как-то печально все, мог бы подумать ты или кто-нибудь еще. Да не все так плохо, отвечу я. Ведь уже есть прекрасные модели, которые запустятся на любом железе.

Ллама 8б, Мистраль 12б для совсем слабеньких пк. Плотненькие 22-49б для владельцев гпу. Чудесный Air, по-своему прекрасный Квен для владельцев гпу + озу. GLM 4.6, Дипсик для настоящих энтузиастов - обладателей железа. Да и куча других моделей под самое разное железо, которые уже сегодня хороши. Многое из того, что имеем, недооцениваем. Та же Гопота Осс 120б, на самом деле, целое событие. Уже сейчас Альтман и ко внедряют в свои сервисы рекламу, отупляют старшие модели (которые и до него перформили примерно как осс 120, если оценивать исключительно модель) ради удешевления инференса. В итоге, возможно, это был их последний опен сорс релиз. Туда же последуют и остальные, в сторону удешевления, монетизации, спада прогресса. Халява заканчивается, прогресс неизбежно замедлится. Останутся самые сильные, самые прожорливые. Что разработчики, что, возможно, ценители.

Но это был чудный год. Я помню Дипсик в январе, QwQ, Snowdrop, Гемму 3, васянотюнский мистралеслоп с душой, GLM 0414, GLM 4.5. Никто у нас этого не отнимет. Даже сейчас, в момент роста цен, если очень надо - каждый может купить себе 16гб гпу и 64-128гб оперативы. И будет вся эта история с вами, ваши персонажи, чаты, истории, и все то, что вы еще не успели отыграть; ваши вайбкод проекты и ассистенты, с которыми можно болтать обо всем и ни о чем одновременно.

Даже если все это закончится, и следующий год будет скуден - всегда можно вернуться к минувшему; попробовать что-нибудь новое. Будут создаваться новые фронтенды вроде Talemate, будут расти культура промптинга и скилл работы с моделями. Появятся все более способные, продуманные агентские системы. Текущие модельки недораскрыты, это точно.

Короче говоря: цените то, что имеете, люди. Все не так плохо.
мимо уже 4 месяца инджою на Air и теперь derestricted версии, это первая модель которая меня не доканала за все это время и видимо никогда не надоест
Аноним 03/12/25 Срд 23:13:30 1439820 335
>>1439815
>поделись с народом шаблоном что юзаешь.
Что ты имеешь в виду под шаблоном? Команду запуска?
Аноним 03/12/25 Срд 23:13:37 1439821 336
Кстати, господа, ничего не появилось нормального для автоматического суммарайза? Понятное дело, что с ручным это никогда не сравнится, но может кто чем пользуется из расширений таверны? Я на что не натыкался - либо не работает (например у меня https://github.com/QueenGytha/ST-Auto-Summarize упорно не хочет подхватывать выбранный пресет из таверны, соответственно пукает и обмякает при попытке послать нейронке промпт для сумарайза), либо хуйпойми как пользоваться.
Аноним 03/12/25 Срд 23:15:00 1439824 337
>>1439820
Как оформлена жинжа под вызовы
Аноним 03/12/25 Срд 23:16:42 1439826 338
>>1439824
Просто --chat-template-kwargs '{"reasoning_effort":"high"}' в команде запуска
Аноним 03/12/25 Срд 23:16:49 1439827 339
>>1439706
>срыночек сам отрегулирует
На моей памяти вообще нет случая когда срыночек чего-то регулировал. Консолии нихуя не подешевели, так что консоледауны которые покупали на лонче у перекупов за 1000 баксов в принципе ничего не потеряли. Я вообще подозреваю что на новых техпроцессах какая-то фундаментальная нерешаемая проблема с выходом годных чипов просто, а принцип new good old bad не дает откатиться на рабочий процесс.
Аноним 03/12/25 Срд 23:17:51 1439832 340
>>1439815
>>1439824
Анслотовская жижа прекрасно работает для вызовов.
Аноним 03/12/25 Срд 23:27:02 1439847 341
image.png 49Кб, 474x266
474x266
Как прошибить лупы? Самые пиздецовые лупы из всех моделей. Ни температура, ни DRY, ни XTC не помогли. Свайпы полностью 1 в 1 копирует.
Аноним 03/12/25 Срд 23:29:18 1439849 342
image 1866Кб, 2162x1668
2162x1668
>>1439819
>Мистраль обосрались и не выпускают ничего толкового уже больше года
Ты чо сука, ты чо? 24b 2506 - годнота. Из коробки умеет в кум, цензуры считай нет. Практически идеальный русик, лучше только у Геммочки. А его файнтьюн Локи - так вообще слепящий шин. Васян довёл модель до идеала, сделав ее чуть не лучшей для РП среди ллмок до 30b. https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3
Аноним 03/12/25 Срд 23:34:17 1439860 343
desktop-wallpap[...].jpg 60Кб, 350x622
350x622
>>1439849
> Ты чо сука, ты чо? 24b 2506 - годнота.
Так и знал, гаденыш, что кто-нибудь да ткнет меня пальцем в Мистраль 2506. У меня уже заготовлен ответ на этот случай, подлюка ты буквенная.

🤓 Вообще-то, да будет тебе известно, 2506 является тюном 2503, 2503 является тюном 2501.

Признаю: ошибся, думал, 2501 вышел в декабре 2024. Разница невелика.

Как бы то ни было, это еще одна неплохая модель, я согласен. Жму хуй руку.
Аноним 03/12/25 Срд 23:41:21 1439868 344
>>1439819>>1439860
>Мистраль обосрались
Ну по мне министраль очень неплохая затычка. Она конечно по размеру сосёт у mistral-small3.2 и путается мелочах, но в целом язык очень хороший, как будто она поуверенее живёт с большим контекстом и реже улетает в повторы.
Аноним 03/12/25 Срд 23:43:32 1439871 345
>>1439826
>>1439832
Мало ли что-то особое намутил, или новая штука в тренде, благодарю.
Аноним 03/12/25 Срд 23:45:39 1439873 346
Аноним 03/12/25 Срд 23:53:00 1439876 347
>>1439581
>Почему не 4.6?
Не представляю, что-то сломали, видимо. Там где 4.5 всё красиво и сочно описывал 4.6 пишет достаточно сухо.
Аноним 03/12/25 Срд 23:56:14 1439878 348
>>1439793
>ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать
я не знаю, какого ты агента используешь, но то как они жрут память я считаю абсолютное блядство.
Для кондинга достаточно плагина в пайчарме и он не будет жрать память как сука. А агент - это говно какое-то ебаное. 6 тысяч токенов со старта в контекст уходит, да я в рот ебал такие локальные ллм.
Складывается ощущение, что это для тех, кто предпочитает закинуть в ллм дохуя памяти вместо того чтобы расходовать её по необходимости.
И да, я видел как эти охуительные агенты работают, спасибо, говна уже поел --> >>1432718 →
Уродство ёбаное.
пожалей короче память, дед, а то будешь оперативку на полмиллиона покупать и тебе будет мало.
Аноним 04/12/25 Чтв 00:00:02 1439882 349
>>1439797
>будет покупать за 10 рублей у перекупа
А ты не покупай, и перекуп соснёт хуйца.
>>1439827
>На моей памяти вообще нет случая когда срыночек чего-то регулировал.
Как минимум ты не голодаешь, уже достижение на самом деле.
Аноним 04/12/25 Чтв 00:01:10 1439883 350
>>1439860
Вот-вот, это ты зря быканул. Но в целом я разделяю твой пессимизм. Эйр 4.6 обещали выпустить, но скорее всего это будет последняя нормальная модель для среднестатистического пользовательского железа.

Алсо будучи немного параноиком я просто забекапил все хорошие ллмки во всех квантах и вариациях, от 1b геммы в q2 до эйра в q8 (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?). Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее.

>>1439873
В треде было много положительных отзывов о Локи. Скачать и потестить на своих карточках точно стоит, как мне кажется.
Аноним 04/12/25 Чтв 00:02:40 1439884 351
1764795760003.jpg 14782Кб, 4080x2448
4080x2448
Ещё вечерок ебли с подбором биоса в котором работает всё что мне нужно и вот две мишки уже залетели в рдшку. Завтра подкину ещё 2 и буду думать как всё это разместить
Аноним 04/12/25 Чтв 00:05:21 1439888 352
>>1439883
> (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?)
> Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее.
Согласен с тобой полностью, анончик. У меня у самого три внешних жд на 5тб каждый, там все: флибуста, фильмы, мультфильмы, маняме, хентайчик, порнчик, манга, вообще все. И ллмки, конечно, тоже. Такое время. Прорвемся. Главное помнить, что у нас хотя бы это (ллмки, всмысле, те что уже доступны) есть, и это уже чего-то да стоит. Многого, на самом деле.
Аноним 04/12/25 Чтв 00:05:53 1439890 353
>>1439883
>забекапил все хорошие ллмки во всех квантах
Вместо того, чтобы забекапить оригинал и тулзы для квантования...
>>1439884
>Ещё вечерок ебли с подбором биоса
Какие-то специфичные для твоей матери проблемы, или общее? Если общее, то выкладывай стори.
Аноним 04/12/25 Чтв 00:08:34 1439891 354
>>1439890
> специфичные для твоей матери проблемы
Специфика. Нужен был
- бифурк
- ипми из системы
- картинка через бмц
- управление вертушками
Сейчас стоит биос вообще от супермикры с патчами под ленову
Аноним 04/12/25 Чтв 01:07:13 1439932 355
>>1439821
>Кстати, господа, ничего не появилось нормального для автоматического суммарайза?
Большой Квен даже во втором кванте неплохо подходит. Я использую такой метод: даю задание на суммарайз последнего, а в следующем сообщении пишу: неплохо, но есть неточности. Сделай поточнее. И он исправляется, получается чётко. Ну а если возможностей для Квена нет, то Мистраль оригинал. Тюны как правило ломаные, а оригинал в хорошем кванте таки соображает.
Аноним 04/12/25 Чтв 01:30:03 1439937 356
>>1439891
Добро пожаловать в /llama/ тред, тут есть:
>БИ ФУР к
запрещенные в РФ организации
>пикми из системы
зумерский сленг
>через бмц
преемник мцк и мцд
>управление вертушками
диджеинг
Аноним 04/12/25 Чтв 02:21:32 1439969 357
Прочитал ссылки с шапки поста. Примерно понял как все стартануть, но охуел с тонны моделей. Меня напрягает, что почти все они для рп. Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду.
Вероятно хотелось бы работать с RAG, потому что перечитывать книги ради определенных моментов не хочется, а найти кусок желаемого текста хочется быстро. Или пройти тест по документу, который не хочется самостоятельно осиливать.
Подскажите, пожалуйста, на какую модель обратить внимание. 16 гб видеопамяти и 48 гб оперативки есть
Аноним 04/12/25 Чтв 02:47:19 1439997 358
>>1439969
>Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду
Под твои спеки так:
Ассистент: qwen 80bA3b, gpt oss 120b
Код: qwen coder 30bA3b, gpt oss 120b
Общие знания: qwen 80bA3b, glm air 106b, gemma 3 27b
Аноним 04/12/25 Чтв 03:05:26 1440013 359
Аноним 04/12/25 Чтв 03:54:26 1440049 360
Я долго не пнимал почему многие рпшат в фентези вселенных, а недавно попробовал поэрпешить во вселенной zenless zone zero, которая по сути урбанистика с элементами фэнтези и киберпанка, и господи блять, как же я задушился. Корпорации, армия, автобусы, кафе, стройки, неоновые вывески... Бля, я даже не думал что это будет так душно.
Аноним 04/12/25 Чтв 04:43:56 1440113 361
Ладно, я прощупал чатмл темплейт на эир.
По первости и правда пишет простенько в сравнении с глм, возможно требует больше свайпов, но пишет как то роднее, меньше эировского слопа, нарратива, активнее снимает с тебя трусы, не стесняется в выражениях куда чаще чем глм.
Возможно ума меньше, но этот ум на глм передавливает эиру воздух блять и в середине каждого моего чата я уже захлёбываюсь нарративом
Аноним 04/12/25 Чтв 06:36:26 1440144 362
>>1439608
Без них был бы советский дефицит. А он, судя по большому количеству негативных постов, никому не нравиться.

Большинство людей решило, что это лучше, чем надпись "по вашему запросу ничего не найдено".

У тебя сейчас есть иллюзия выбора - можешь купить, можешь не купить.
Аноним 04/12/25 Чтв 07:00:00 1440150 363
>>1439882
>А ты не покупай, и перекуп соснёт хуйца.
Скажи, анон, ты ебанутый? Перекупы покупают нужную хуйню, которую я хочу купить чтобы ей пользоваться (неважно, видеокарта ли это, билет на концерт или б/у фингербокс на авито). Альтернативы у меня - либо нет вообще, либо нет за такие же деньги (очевидно перекупы продают б/фингербокс на авито не дороже, чем он стоит в магазине, они же не долбоёбы).
И ты мне такой "не надо гнать на перекупов, просто не покупай!" А хули поменяется-то? Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены? Ну да, это же всегда так отлично срабатывало (нет).
>>1440144
>Без них был бы советский дефицит.
Ебать святые люди! Небыло бы их, Вася Пупкин просто продал бы б/у фингербокс на авито Феде Васечкину и на рынке начался бы дефицит. А благодаря самопожертвованию этих святых людей дефицита на рынке нет, и любой - например вышеупомянутый Федя, может просто купить фингербокс у перекупа!
Аноним 04/12/25 Чтв 07:06:15 1440151 364
>>1440144
И да, дополню свой пост.
Это как раз и есть дефицит советского образца, когда номинально фингербокса нет, но есть в десять раз дороже из-под прилавка у продавщицы или у фарцовщика за углом.
Аноним 04/12/25 Чтв 09:17:17 1440171 365
>>1439997
Спасибо, анон, буду пробовать
Аноним 04/12/25 Чтв 09:22:01 1440172 366
>>1440150
>Скажи, анон, ты ебанутый?
>/ai/ раздел
Ну как бы ответ.
>Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены?
Идеальный вариант, да. Но ты же хочешь хуитку? Вот и покупаешь. Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
>А благодаря самопожертвованию этих святых людей
Ты всегда можешь пойти и купить, если вопрос цены не стоит.
>>1440151
Какой-то у тебя неправильный совок. В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда.
Аноним 04/12/25 Чтв 09:27:07 1440174 367
Подскажите ньюфагу какие модельки я могу накатить с таким спеком (для таверны), пока щупал только модельки на опенроутере, гайд по моделям читал но нихуя не понял (там видеопамять указывается или оперативная), подскажите анончики.
32 Гб ddr5
5070ti
Аноним 04/12/25 Чтв 10:02:59 1440182 368
>>1440172
>Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
Подождал
@
Цена увеличилась, предложение не изменилось.
>>1440172
>Ты всегда можешь пойти и купить, если вопрос цены не стоит.
Я и говорю, святые люди - дают возможность покупать тем, у кого больше денег.
А иначе бы фингербокс купил Вася Пупкин, и это было бы полным крахом.
>В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда.
Ты мне ещё про сферический коммунизм в вакууме спиздани.
Аноним 04/12/25 Чтв 10:04:56 1440183 369
>>1439299
Задолбала меня воющая карта, начал разбираться чё же она так шумит. Изначально грешил на BIOS/драйвер, но в итоге оказалось, что грёбанные китайские кулеры, которые я заказал на озоне, не передают/херово передают (походу контакт) данные об оборотах и поэтому карта врубала их на максимум. В итоге пока разбирался что к чему сломал нах лопасти на этих китайцах. Ждать новых не хотелось, поэтому разукомплектовал GTX-660 с неуправляемыми бесшумными вентиляторами и вкорячил их на p104, благо по размерам они идентичны. Теперь вполне сносно, можно спокойно катать модельки.

Ну и заодно закомпилил llamacpp-server с поддержкой архитектур 6.1 и 8.6
Аноним 04/12/25 Чтв 10:33:39 1440194 370
>>1440174
Мистраль 24b, Гемму 3, snowdrop, qwen30 и 32. Кванты 4 и выше, в 16 гб часть из перечисленных моделей не влезут, так что с выгрузкой на РАМ, что медленно. Раньше предложил бы тебе докупить оперативки до 64 и катать GLM Air, но с нынешними ценами уже не вариант, разве что, если место в корпусе есть, можешь v100 купить, цена вопроса 50к за 32гб ВРАМ.
Аноним 04/12/25 Чтв 10:42:16 1440198 371
> Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.

в шапку
Аноним 04/12/25 Чтв 10:50:57 1440200 372
Я не понял, министрель чо, платный?
mistral.ai/pricing#api-pricing

Или это на локалку с анслота не распространяется?
Аноним 04/12/25 Чтв 10:55:42 1440202 373
>>1440200
Пардоньте, ссылка docs.mistral.ai/models/ministral-3-14b-25-12
Аноним 04/12/25 Чтв 10:56:25 1440203 374
>>1440194
Спасибо огромное, а что насчёт миксов на русском которые в шапке?
Аноним 04/12/25 Чтв 11:03:06 1440208 375
>>1440200
Да, я установил локалку анслота а там свайпы платные. Сижу вахуи.
Аноним 04/12/25 Чтв 11:10:45 1440211 376
>>1440200
Ссылку не открывал, там скорее всего мистраль просто продаёт доступ по api. Если скачаешь с обниморды веса, то запуск естественно бесплатный.
>>1440203
Там в основном 12b модели. У Aleteian есть на Мистрали и гемму 3 тюны, можешь их попробовать. Но вообще русский у моделей, особенно такого размера не особо хороший (он даже у корпоратов неоч). Лучше всего у геммы и её тюнов и у мистраля 24
Аноним 04/12/25 Чтв 11:12:03 1440212 377
>>1440208
Хаха. Ну лол, а вдруг. Как с подпиской на подогрев сидений в бмв
Аноним 04/12/25 Чтв 11:46:07 1440225 378
Как угробить 128гб памяти? Правильно !
Вытащить подсветку, и запороть схемы.
Кокой же я молодец.
Аноним 04/12/25 Чтв 11:47:18 1440226 379
>>1440225
Что мешало ее через биос отключить если не нужна? Ггвп соболезную
Аноним 04/12/25 Чтв 11:47:50 1440227 380
Анончеги, вот какой вопрос. Вот спрашивают вас ваши знакомые или там родственниги: че ты там копошишься со своими нейросетями, нах они вообще нужны, особенно локальные?
Ну, там, кодить можно в копро корпо сетках, картинке генерить там же, перплексити ваще поиск охеренный осуществляет (а в платной версии 450р/год вообще чудеса творит).
Какое практическое применение находите локалкам кроме ебли с динозаврами и ролеплея с совершеннолетними школьницами? Есть реально какое-то такое уникальное применение, кроме продвинутого тамагочи на домашнем пека? Я спрашиваю не потому, что подколоть хочу, а , правда, интересно.

А воопще: былоп прикольно сделать агента, который шарился бы по локальным фоткам и находил людей, ваще круто былоп

PS. в порядке бреда
Аноним 04/12/25 Чтв 11:48:24 1440228 381
>>1440211
Спасибо, я удивлён качеству здешних анонов по сравнению с бототредом. Знаю что вопрос не сюда, имеет смысл купить себе подписку на грок и не ебать мозг (тестил grok fast 4.1 пока был бесплатный зашло и контекста у него дохера, даже сои не слишком много)
Аноним 04/12/25 Чтв 12:15:18 1440254 382
Аноним 04/12/25 Чтв 12:15:23 1440255 383
>>1440227
>кроме
Так рп - это самое важное. Восполняем потребность в общении и (опционально) близости с железками, потому что с людьми не получается. У кого это есть ирл, тому и правда не нужны. Пусть и дальше крутятся в обществе мясных ублюдков и не подогревают спрос на рам.
Аноним 04/12/25 Чтв 12:24:36 1440265 384
>>1440227
Только баловство..
Но вот >>1440198
>> Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.
Недавно бате показал что собрать риг стоит дороже чем его машина, и его доебы за то что я хикка-лох-чмо без машины и прочего уменьшились.
Аноним 04/12/25 Чтв 12:27:21 1440268 385
Аноним 04/12/25 Чтв 12:30:07 1440271 386
>>1440226
Она рандомно включалась. Ну меня заебало это светошоу. Но ничего, сейчас паяльник в жопу засуну возьму и исправлю.

Может мне кто нибудь объяснить - зачем ? Зачем они пихают эту лгбт подсветку везде. Еще матплат случаем с подсветкой нет?
Аноним 04/12/25 Чтв 12:31:32 1440275 387
>>1440265
у меня риг на ддр4 уже дороже моей восьмилетней машины стоит, а когда наконец соберу на ддр5 он будет стоить как новая
Аноним 04/12/25 Чтв 12:32:04 1440277 388
>>1440271
пипл хавает, рыночек порешал
Аноним 04/12/25 Чтв 12:33:28 1440278 389
>>1440271
Ты такую купил а теперь удивляешься. Ну пиздец
Аноним 04/12/25 Чтв 12:35:31 1440281 390
>>1440271
Хорошо просто комп не разъебал
Аноним 04/12/25 Чтв 12:42:21 1440284 391
>>1440271
> матплат
Давно уже такие выпускают.

Ты свою память отнеси в ремонт - они её под микроскопом обратно спаяют.

>>1440227
Приватность.
Работает без интернета. Его сейчас часто отключают.
NDA на работе.
Аноним 04/12/25 Чтв 12:42:31 1440285 392
>>1440271
Игровичкам нравится... оно светится прикольно.. типа вау.. круто
Аноним 04/12/25 Чтв 13:01:03 1440299 393
>>1440225
Вовремя ты эксперименты с экономическим уклоном проводишь...
Аноним 04/12/25 Чтв 13:14:14 1440306 394
>>1440277
>>1440278
>>1440281
>>1440284
>сам виноват что купил светящееся говно
Ой вей, так другого нет. В принципе нет. Если оборудование не серверное, оно обязательно будет с каким нибудь игросральным припоем. То радиаторы, которые больше самой памяти раза в 2, то подсветка, то трубки для охлада.
Все что можно взять вменяемого или отсутствует, или стоит совершенно ненормальных денег.
Я искренне сочувствую тем, кому надо собирать серверную память.
Аноним 04/12/25 Чтв 13:22:18 1440308 395
>>1440306
не пизди на радиаторы и трубки для охлада, при частичной выгрузке моделей в оперативу она греется как сучка, 100 градусов не предел
Аноним 04/12/25 Чтв 14:09:14 1440329 396
1637340361673.jpg 16Кб, 381x381
381x381
>>1439883
>>1439888

А есть какой то сертифицированный тредом список моделей с рекомендацией иметь бекап у себя? Тоже хочу держать бекапы на всякий случай, купил даже второй 4тб ссдшник под это дело. Но я еще до конца не вкатился в ллмки чтобы понимать что мастхев, а что кал. Из-за работы времени особо нет, мне надо сначала прям во всем разобраться как все устроено и работает, даже если поставить какую-то хуитку типа llama.cpp и вывести хеллоуворд. Очкую что к моменту как вкачусь на достаточном для понимания что мне нужно уровне, модели начнут блочить/удалять. Причем не факт что это из-за кванмена, примут какую-ниудь хуиту типа модели должны пройти обзательный safety чек, или просто хаггинг фейс скурвиться и начнет зарабатывать на всем.

Вон как в civitai уже поудаляли кучу лор, а туда я тоже параллельно хотел закатиться.
Аноним 04/12/25 Чтв 14:10:57 1440331 397
>>1440271
А зачем покупать с лгбтподсветкой? Она еще и дороже как правило
Аноним 04/12/25 Чтв 14:25:12 1440341 398
>>1440329
качай
medgemma 3 27B + mmproj
gpt-oss 120B
glm4.5 Air
mistral small 3.2 24B 2506 + mmproj
желательно всё в оригинальных весах F16 чтобы потом квантизировать как хочешь
Аноним 04/12/25 Чтв 14:29:58 1440345 399
>>1440341
Мегабаза. У меня в точности такой же бекап. Ну Квен жирный ещё, который я больше никогда скорее всего не запущу. Какашка он
Аноним 04/12/25 Чтв 14:38:29 1440351 400
>>1440275
>а когда наконец соберу на ддр5 он будет стоить как новая
конечно, соберешь :)
Аноним 04/12/25 Чтв 14:42:03 1440355 401
>>1440345
вот я тоже думаю, что какашка, из больших моделей глм 4.5 и 4.6 лучше, и внезапно ernie неплох
Аноним 04/12/25 Чтв 14:43:46 1440357 402
>>1440329
Gemma 3 все версии
Qwen 3 все версии кроме 235b
Mistral 2506 24b + Локи 24b
Glm Air

Опционально:
Старый Command-r 32b
Старый Mistral Nemo 12b

На слабую пеку, если нужен русик:
Sainemo-remix 12b
Yankagpt 8b

По квантам - смотри сам под своё железо, или как подсказали выше, качай оригиналы + тулзы для квантования. Если совсем лениво разбираться, то скачать всё в Q4_K_L не будет ошибкой. Но лучше разберись, конечно.

Ну и кобольда закинь туда же, просто чтоб был. Все версии (с кудой, без куды, для старых пека и т.д). Таверну. Можно еще ChatterUI скачать - запускать мелочь на телефоне.
Аноним 04/12/25 Чтв 14:43:56 1440358 403
Аноним 04/12/25 Чтв 14:47:15 1440362 404
1000297173.jpg 93Кб, 751x1121
751x1121
1000297174.jpg 155Кб, 1082x1280
1082x1280
>>1439562
Зависит от того, в какой ты позиции.

Если у тебя есть возможность экспортировать чаты из грока и адекватно перенести карточку туда, то лучше грок. У него много недостатков, но всё-таки это жирный корп и ломается он меньше. Ответы более разнообразны.

Когда он скурвится — обратно на локалке продолжишь. Там буквально один патч без обновления версии в стиле "улучшили показатели в бенчмарках" может всё сломать в плане цензуры и повествования.

>>1439573
Кстати, я вот грок 1 не пробовал и 2, но 3 реально очень хотелось бы увидеть локально, потому что он пиздец как хорош для РП в своей в своей весовой категории. Хотя.. тот же гпт 4о или сонет 3.5 сошёл бы, что уж тут говорить.

>>1439589
Да, есть такое. Но большие модели тем и хороши, что можно настроить реакцию более детально. То есть, если персонаж и его реакции, паттерны поведения норм прописаны, то жирный корп/модель это подхватывает лучше, в отличие от многих локалок. Когда есть необычные сценарии, где надо вот прям пиздец как следовать сложным инструкциям в плане кума. Где очень много всего учесть нужно.

>>1439596
Ну по сравнению с толстым квеном он выглядит всё же веселее в плане текста. Как на английском, так и на русском. Другое дело, что если упарываться в лютое порно, тут уже грок сдаёт позиции. Когда нужно мммаксимум порнослопа жёсткого. Грок может сценарий хоть с лолями отыгрывать, но это будет немного не то, если это не в рамках большой истории, а "запустил карточку, чтобы подрочить на 10к токенов 15 минут". В таком случае ты ожидаешь чего-то ближе к магнуму с его безумной грязью. И хоть грок может в письки-грязь, когда описывается процесс с несовершеннолетними, он более осторожен в выражениях.

>Как наиграл 500к токенов

Ризонинг юзал.

Поначалу не понимал, чому он шизеть начал, а оказалось, что я де-факто вышел за эффективный лимит токенов (контекст шифта ещё нет, а шиза есть), и он всё обобщает, сливает в кашу, путается. Переключился на ризонинг версию — она уже не видела начало чата (у неё более маленькое контекстное окно), думала, ну вот там уже туда-сюда и терпимо было. Плюс с помощью OOC можно было эффективно фиксить ошибки повествования и писать на отъебись — понимал и так.

Но бесил контекст шифт (или что-то иное, но начал постоянно тормозить перед ответом ещё до того как ризонить начинал). Иногда секунд 30 ждать приходилось. Благо хоть ответ писал быстро.

Я сейчас с телефона, так что не скопипастить, но у меня был примерно такой же систем промпт, как и в таверне.

Взгляни ещё на скрины. Версия 3 — это первый скрин, версия 4/4.1 — второй. Китайский датасет нахуй убивает язык и порождает слоп.
Аноним 04/12/25 Чтв 14:57:13 1440372 405
1000018332.jpg 346Кб, 1080x2400
1080x2400
1000018319.jpg 354Кб, 1080x2400
1080x2400
1000018286.jpg 352Кб, 1080x2400
1080x2400
1000018285.jpg 173Кб, 1079x1264
1079x1264
Прикольно
Круто
Аноним 04/12/25 Чтв 15:00:29 1440379 406
>>1440355
Не забываем уточнять для чего неплох. Если в кодинге или математике - то мимо, в русик может?
Аноним 04/12/25 Чтв 15:03:04 1440381 407
1764849787159.jpg 77Кб, 471x1280
471x1280
Аноним 04/12/25 Чтв 15:03:17 1440382 408
1000017743.jpg 2495Кб, 1620x2828
1620x2828
Йоу, это чтобы эир погонять надо было 12к выложить, а теперь 50
А ведь еще видеонейронкам 64 рам надо минимум
Аноним 04/12/25 Чтв 15:10:48 1440392 409
Всем привет. Я нубас, вкатился в куминг вчера. Попробовал Гемма 3 27б аблитерэйтед, мистраль3.2 омега директив 24б анслоп, квен3 30б аблитерэйтед эротик, QwQ Snowdrop, Dark Nexus.

Из всех пока мне больше понравился гемма 3. По сравнению с остальными держит контекст значительно дольше.

Когда пробовал квен3 с ризонингом, то было странное ощущение, что он в ризонинге собирает контекст и рожает это как промпт для другой модели, которая про контекст ничего не знает. Может, это так и должно быть.

В общем, суть вопроса: есть ли что-то другое похожего размера для кумерства с ризонингом? Какая ваша любимая кумерская модель для РП?
Аноним 04/12/25 Чтв 15:14:28 1440401 410
>>1440392
Эйр качай, дружище.
Аноним 04/12/25 Чтв 15:17:29 1440407 411
>>1440404
Лол, у меня 4060 на 8 гб и 32 гб оперативки. Я сижу смотрю на 1 токен в секунду. Мне норм. Качаю кванты q4 и q5.

А так я не совсем мимоход, до этого только картинки и видео генерировал.
>>1440401
Спасибо, сегодня вечером потестирую.
Аноним 04/12/25 Чтв 15:25:11 1440413 412
1000018334.png 140Кб, 498x292
498x292
>>1440407
> у меня 4060 на 8 гб и 32 гб
> эир
> вечером протестирую
Аноним 04/12/25 Чтв 15:35:12 1440418 413
Аноним 04/12/25 Чтв 15:41:38 1440424 414
>>1440150
Доказывать барыгану что он неправ - гиблое дело, он считает что его "риски" и минимальные телодвижения являются достаточным оправданием, и думает что готов жить в мире бесконечного наебалова. Пока не наебут его, тогда сразу нытье начинается, лицемерные мрази.
>>1440172
> Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы.
Из-за баб что детей рожают и возникают убийцы этих детей, это все матери виноваты. Ахуенная у тебя логика.
>>1440200
Да, у них уже сколько лет есть платные модели что они дают только по апи, не выкладывай в опенсорс.
>>1440225
Бляяяя, скажи что ты рофлишь.
Аноним 04/12/25 Чтв 15:59:03 1440439 415
>>1440227
> знакомые или там родственниги
> особенно локальные
Жирнейший
>>1440275
А как считать, по цене новых запечастей, или уже бу с барахолок? На ддр5 с карточками вроде пока еще дешевле, но такими темпами...
>>1440329
Все семейство квенов моэ включая кодеры, дипсик терминус+3.2, большой жлм, маленький жлм, грок2, осс, медгемма/гемма, мистральсмол, кумотюн проглого ларджа по предпочтениям. Ну вроде и все пока если не брать мультимодалки. Качай исходные веса и имей копии реп популярных бэков, квантанешь сам куда надо уже.
Аноним 04/12/25 Чтв 16:00:22 1440441 416
>>1440379
> русик
хз я не дрочу особо
Аноним 04/12/25 Чтв 16:05:32 1440445 417
Что анон скажет про новый мистраль 14В? Кто-то уже пробовал? Насколько лучше/хуже прошлых 24В?
Аноним 04/12/25 Чтв 16:10:02 1440456 418
>>1440341
>>1440357
>>1440439
>>1440329
Нужно ещё и мелочь всякую на всякий случай скачать, только её тестировать нужно на адекватность, работу с вызовом функций и цензуру. Вангую, что в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких. Уже начинают пробовать почву, всякие терминусы тому пример
Аноним 04/12/25 Чтв 16:21:29 1440467 419
>>1440441
Дак, а кто тут дрочит? а РП?
Аноним 04/12/25 Чтв 16:21:52 1440469 420
>>1440456
Все верно, но на переделку мелочи под сейфти будут обращать гораздо меньше внимания, и скачать их будет гораздо проще.
> в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких
Ты только что моэ и выпуск единообразных моделей в разных размерых для возможности бесшовной замены и комбинаций для спекулятивного декодинга.
Аноним 04/12/25 Чтв 16:27:20 1440475 421
>>1440381
Берите по 5999 пока не поздно
Аноним 04/12/25 Чтв 16:58:46 1440497 422
>>1440469
Не не, мое и даже спекулятивный декодинг, хоть там и две модели работают, это всё равно не то, что я имел ввиду. В МоЕ всю работу делает одна модель, она и чтец и жнец и на дуде игрец. В таких сложных задачах как РП она путается и не вытягивает, если переложить часть работы на мелкую модель, то ей будет проще. Как пример плагин для пошагового мышления от тредовичка. Только плагин жрёт ресурсы основной модели, а не мелкого лоботомита которого можно крутить даже на CPU.
Аноним 04/12/25 Чтв 17:14:52 1440514 423
>>1440497
Кмк, во внешних лоботомитах нет смысла. Только в очень специфических задачах предобработки данных, оценки, те же эмбеддинги в раге, мелкая модель визуальный входа и т.п., где они уже являются частью единого. Уже произошло разделение задач между более мелкими моделями, но внутри одной большой, причем достаточно оптимальным образом. Лучше помочь ей, обеспечив наилучшие условия работы управляя входом и выходом. Выводить же важные части вовне в виде использования отдельных моделей-лоботомитов = множить ошибки.
Аноним 04/12/25 Чтв 17:21:58 1440520 424
Посоветуйте какие модели используете для перевода?
Аноним 04/12/25 Чтв 17:22:17 1440521 425
Подскажите локальные модели, которые принимают картинки на вход? Заметил, что если я сам выдумываю промпт для Ван 2.2, то получается хуета, как бы я ни описывал, а если в чатГПТ закидывать картинку и заставлять его писать промпт, то выходит значительно лучше.

Но гопота не всегда принимает даже просто женщин в нижнем белье, не говоря уже о чем-то еще.
Аноним 04/12/25 Чтв 17:29:08 1440525 426
>>1440514
>причем достаточно оптимальным образом
Ой не факт. Там же алгоритмы равномерного распределения, чтобы не дай б-г видяхи не простаивали во время тренировки. Так что знания и умения размазываются сравнительно равномерно, а не оптимально. Было бы оптимально, можно было бы каждого "эксперта" ткнуть в его специализацию да запрунить, когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки.
>>1440521
>Подскажите локальные модели, которые принимают картинки на вход?
Железо какое? А так от геммы до дипсика, лол.
Аноним 04/12/25 Чтв 17:31:27 1440526 427
>>1440525
>>1440407
Готов ждать сколько нужно. Я просто их запускал, но лмстудио говорит, что модели не поддерживают ввод картинок, я так понимаю, нужны какие-то конкретные версии. Там есть какое-то ключевое слово или что-то такое, чтобы понять, что модель принимает на вход картинки?
Аноним 04/12/25 Чтв 17:35:36 1440532 428
изображение.png 44Кб, 1054x353
1054x353
>>1440526
>лмстудио
Я ХЗ, что это и как работает. Есть оригинальные ллама.цпп и кобольд, в них нужно указывать проектор mmproj в дополнение к основной модели. Соответственно если в репе есть этот файл, то модель может в картинки. Протестируй на это модели, дальше сам.
https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/tree/main
Аноним 04/12/25 Чтв 18:08:52 1440562 429
>>1440520
Gemma? Huh. Как по мне самая умница.
Аноним 04/12/25 Чтв 18:15:58 1440576 430
>>1440521
Многие из обычных или специализированные. Квенвл не соевый, но они все по дефолту слепые в серьезном nsfw.
>>1440525
Простора для оптимизаций всегда будет много.
Просто лоботомит проебет все важные моменты, без вариантов, ибо ключевая сложность тут. Потому лучше заходить со стороны оптимизации основной модели.
Даже банальное самоинструктирование, когда ты требуешь или форсируешь определенный формат где фиксируешь какие-то проверки или обязательные пункты идет на пользу, а там уже развивать как степсинкинг и прочее. Не стоит и про сам формат хранения чата забывать, даже простое структурирование и добавление заголовков типа "День N", "Локация X", смена разметки и прочее облегчают работу модели. А ведь совсем простые вещи, даже тренить и менять ничего не надо.
> когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки.
Да как ты посмел?! Первая цивилизация с культом котеек и забавной мифиологией, думаешь там сычевы не мечтали о кошкодевочках?
Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов. Это немного за обывательским пониманием "отдельного эксперта".
Аноним 04/12/25 Чтв 18:33:47 1440600 431
>>1440576
>Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов.
В этом и проблема, да.
Аноним 04/12/25 Чтв 19:12:41 1440620 432
>>1440445
Запустил в q4k_s, лоботомит даже по сравнению в васянотюнами 12b немо. Выдаёт в духе "я модель язык, что твоя хотеть".
Аноним 04/12/25 Чтв 19:30:36 1440636 433
https://huggingface.co/YanLabs/gemma-3-27b-abliterated-normpreserve-GGUF/tree/main
> abliterated version of google/gemma-3-27b-it using the norm-preserving biprojected abliteration technique.
Заменяет чрезмерно послушное старье от mlabonne. Цензуры - нет. Соображалка - на месте. Персонажи на все подряд не соглашаются с ходу, есть софт-рефьюзы. В анти-соевых промптах не нуждается.

Важно: это вторая итерация, ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода. Q4KM и Q5KM без проблем, другие пока не проверял, но качаю все на случай чебурнета.

Этот же чел позднее выкладывал некую "v1", которая якобы должна быть ЕЩЕ менее послушной. Не пробовал. Да и нужды как-то нет по ощущениям.
Аноним 04/12/25 Чтв 19:34:39 1440640 434
>>1440636
> цензуры - нет
А она была?
Не было хуёв в датасете, и твой лоботомит их никак не добавит.
А так геммочка с минимальным промптом кого хочешь выебет, просто сухо
Аноним 04/12/25 Чтв 19:40:24 1440645 435
>>1440636
>старье от mlabonne
А можешь более подробно описать в чем разница между аблитерацией от mlabonne и той что кинул ты? В моих бекапах схоронено как раз от mlabonne. Это именно то что и ожидаешь от аблитерации: ПОЛНОЕ отсутствие отказов и написание текстов о чем угодно. Прям с ходу, с первого же сообщения. Здесь то же, но более мягкое? Или как?
Аноним 04/12/25 Чтв 19:41:18 1440646 436
>>1440520
для качественного gemma 3 27b, чтобы вкратце понять что вообще происходит gpt-oss 120b (потому что она почти всегда загружена в память)
Аноним 04/12/25 Чтв 19:45:24 1440652 437
>>1440640
Я провел слишком много времени с ебкой над 27б геммой, чтобы спорить об этих вещах.
Нормальный аблитерейт это то, о чем моя душенька мечтала с момента выхода этой модели.
Оригинальная модель - сука и сволочь, и все персонажи у нее это такие среднестатистические женщины-феминистки, высокомерные и обиженные. А "сухо выебет" это скорее "having sex out of spite". Там все токсично и едко, как вонючий пердеж скунса в лицо, чтобы пользователю было неповадно давать модели непристойные реквесты.

>>1440645
https://huggingface.co/blog/grimjim/norm-preserving-biprojected-abliteration
Это новомодный метод, появившийся чуть позже Heretic-скрипта и по сути сделавший его неактуальным. Недавно GLM (который Derestricted) с его же помощью укротили. И на "лоботомированность" никто не жалуется.

Версия от mlabonne - полный обрез рефьюзов.
Рефьюзы нужны в ролеплейных чатах, чтобы у персонажей была какая-то личность, кроме послушной хуйни, которая на все говорит да. Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne.
Аноним 04/12/25 Чтв 19:55:42 1440666 438
>>1440652
>И на "лоботомированность" никто не жалуется
Да вроде и у mlabonne какой-то лоботомии не замечаю. Гемма как гемма, просто уже не лапочка, а послушная садистско-похотливая сука. Для РП с чернухой ради чернухи - самое оно, а для нормального РП уже сомнительно, согласен. Энивей, попробовать и сравнить будет интересно, спасибо!
Аноним 04/12/25 Чтв 19:57:54 1440667 439
>>1440666
Просто думай об этой версии как о миксе 50% оригинала и 50% версии от mlabonne.

Конечно кому-то может не зайти, если выработалась привычка. Просто иметь под рукой полезно. Очень давно такое хотелось.
Аноним 04/12/25 Чтв 20:00:12 1440671 440
>>1440667
> как о миксе 50% оригинала и 50% версии от mlabonne.
(ну не в прямом смысле, конечно, никто их не совмещал, кек)
Аноним 04/12/25 Чтв 20:05:21 1440679 441
17590268721164.png 1011Кб, 832x1248
832x1248
image.png 3Кб, 73x57
73x57
Ребят, скажите полному нубаку насколько безопасно гонять всякие текста в ролеплее с персонажами по младше на Грок 4.1 фаст, Силли Таверн, Опен Роутер

Как я понял там вобще цензура тупо 0, блять, какого хера это вобще работает?

И насколько безопасно поддаваться таким возможностям?
Аноним 04/12/25 Чтв 20:06:44 1440683 442
>>1440679
Я думаю с таиким вопросами тебе надо в тред, где обсуждают сетевые ИИ, а здесь люди себе на компы ставят локальные модели и гоняют их на своих видеокартах.
Аноним 04/12/25 Чтв 20:16:58 1440686 443
>>1440683
А я вот не нашел, сколько искал - где такое обсуждают :(
Аноним 04/12/25 Чтв 20:18:39 1440687 444
image.png 152Кб, 1001x481
1001x481
>>1440686
буквально соседний тред по моделям текстовой генерации
я думаю они получше нас разбираются в вопросах безопасности того, что они используют
Аноним 04/12/25 Чтв 20:18:56 1440688 445
>>1440679
>там вобще цензура тупо 0
Не ноль, но, вероятно, наименьшая из всех корпов. И да, тебе в другой тред.

>насколько безопасно
Скорее всего безопасно, если ты живешь в РФ, просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения. Это следует читать как [твою переписку посмотрят рандомные индусы и знатно прокекаются с омеги сычуши-извращенца]. Если тебе на это похуй - то норм. Если не похуй - вкатывайся к нам в локалочки. Тут и приватность, и цензуры поменьше, и есть варианты даже на совсем картошке ролплеить.
Аноним 04/12/25 Чтв 20:40:26 1440699 446
>>1440679
Если они собирают какие-то данные, а они их собирают, то риск определяется попаданием этих данных к заинтересованным (сливы, взломы или они сами решат воспользоваться) и возможностью твоей идентификации (с трекерами везде и вся, а также по паттернам несложно).
Ну то есть вроде как и безопасно, но шутить и ругать в твиторе десяток и более лет назад тоже считалось безопасным.
Аноним 04/12/25 Чтв 20:51:43 1440713 447
>>1440652
> Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne.
Звучит как дерестриктед эир один в один.
Да и гемма твоя я уверен такая же, можешь зайти к серафине задать этот вопрос
Аноним 04/12/25 Чтв 20:51:55 1440714 448
>>1440688
Да у вас литералли нихуя нету ребята, там на опен роутере можно за копейки ебанутую модель использовать

А все что потянет у меня это 7B или с натяжечкой 12B квантованная до усрачки

И то, я много что пробовал, все нищенские топы

И там максимум чего я добился - это кокротких двух, трех слов ответов

В то время как на опенроутере в гроке и в дип сике там огромные текста, с описанием всего что только можно

В локалке и близко такого нет... Либо я чет не правильно делал, но вроде все верно запускал

Вот что я юзал -
gemma-3-12b-it.i1-Q4_1.gguf
gemma-3n-E4B-it-UD-Q6_K_XL.gguf
Vikhr-7B-instruct_0.4.Q6_K.gguf
llama-3-13b-instruct.Q4_K_M.gguf
mythalion-13b.Q4_K_M.gguf

Ну это же кал блять.. без шуток а апгрейдится ради этого сейчас вобще лень... да и зачем... отдал буквально 5 долларов и сидишь неделю дрочишь сутками.. на опенроутере
Аноним 04/12/25 Чтв 21:04:08 1440724 449
>>1440679
>насколько безопасно гонять всякие текста в ролеплее с персонажами по младше
Легальных проблем никаких не будет. По крайней мере, еще не было ни одной истории чтобы кого-то набутылили за то что он генерировал порнуху с андерейдж персонажами. Вопрос только в приватности. При использовании любых сервисов есть риск что твои переписки и другие данные просто окажутся в общем доступе. Тут уже сам смотри, насколько тебя это беспокоит.

>>1440714
>на опен роутере можно за копейки ебанутую модель использовать
Используй, кто запрещает? Мы тут не сектантством занимаемся, в нашу веру тебя никто насильно обращать не будет. Не нравятся локалки - не используй локалки.
>И там максимум чего я добился - это кокротких двух, трех слов ответов
Это уже проблемы чисто твои. Мелкомодели могут писать много, могут писать о всяком. Их основная проблема это обрезанные мозги и непонимание происходящего в более сложных сценариях.
Аноним 04/12/25 Чтв 21:06:32 1440726 450
>>1440724
ну а как сделать чтоб понимали, инфы об этом нихуя нет

В ваших гайдах говна ток - скачай, включи и все
Даже близкого понимания нет че делать
Аноним 04/12/25 Чтв 21:11:26 1440729 451
>>1440726
>В ваших гайдах говна ток - скачай, включи и все
В шапке линки по настройке локальных моделей. Про то как заставить модель писать то что тебе нужно - это уже тема промтинга и инфы по ней полно на других ресурсах, в том числе на русском. Эти правила универсальны что для больших и малых нейронок, что для локальных и корпоративных.
Аноним 04/12/25 Чтв 21:13:15 1440730 452
>>1440726
Добро пожаловать в опенсорс, сынок. Хочешь чтобы было хорошо = разбирайся/допиливай/тести сам. Не нравится? Оки-доки, иди плати барину, получишь качественный рп из коробки, но с привкусом члена во рту.

>в нашу веру тебя никто насильно обращать не будет
based
Аноним 04/12/25 Чтв 21:14:44 1440731 453
>>1440713
У меня на дерестриктиде наоборот персонажи умнее стали. В Эире не смотря на то что нет цензуры из коробки он по прежнему ассистент, который хочет угодить пользаку, потому вероятнее персонажи на всё подряд соглашаются. В дерестриктед версии такого нет и мозги не просели.
>>1440714
Либо жирнич, либо залетный, который нихуя не разобрался. С точки зрения треда разницы нет, никто тебе помогать не станет если ты сам разбираться не хочешь и ноешь, что всё хуйня.
Аноним 04/12/25 Чтв 21:17:14 1440735 454
image.png 418Кб, 2171x764
2171x764
>>1440713
Не наблюдаю неадекватного стремления угодить юзеру и согласиться на ебанутые реквесты. Первое сообщение чарик предлагает хвост причесать, получает жестокий ответ. Старая гемма психанула бы и устроила соевую истерику, а эта гемма натурально остается лисичкой.

У вас тут какая-то ебанутая защитная реакция включается на любые новые варианты моделей что ли? Еще и "твоя" пишет, как будто я эту хуйню сделал. Я увидел и принес в тред, а надо ли кому - сами сообразят, чай не дети малые и интернет вроде бы у нас не тарифицирован помегабайтно в 2025 году.
Аноним 04/12/25 Чтв 21:17:37 1440736 455
>>1440729
Ага бля, какие - то ссылки нахуй, какие - то файлы блять, че с ними делать, куда их ставить, как они работают - нихуя не понятно, плюс еще все нахуй на английском

Даже сраную кнопку скачать - хуй найдешь

Эта вся тема не для тех кто хочет ролеплей получить, подрочить и тд. - это просто говно для пердольщиков, чисто попердолиться, поковыряться в файлах, чет там понастраивать - пердолинг ради пердолинга, ей богу, вам же ваще похуй кристально на всю эту тему, вы занимаетесь подобным чисто чтоб попердолиться лол

А я пришел именно за ролеплеем

Если вы нормально все делали, по людски - у вас был крутой, четкий гайд, что куда поставить, где как что сказать, куда нажать, а не просто ссылка - и на иди пердолься дебил, как мы любим

И подсасываете тут друг другу, говоря о глубокопердоленговых вещах, которые сами даже не понимаете

НУ признайте что так и есть, реально
Аноним 04/12/25 Чтв 21:18:57 1440737 456
>>1440735
>Еще и "твоя" пишет, как будто я эту хуйню сделал
Это шизик ебаный, который срёт всё и вся. Игнорируй.
Аноним 04/12/25 Чтв 21:19:40 1440738 457
>>1440736
Брух, тебе в aicg. Загончик для <60 IQ там. Съеби пожалуйста.
Аноним 04/12/25 Чтв 21:20:32 1440740 458
>>1440736
Помню, как я в январе вкатился и за два часа почему-то разобрался, как установить таверну, кобольда и запустить все что мне нужно. Ну просто признай, что ты долбаёб, у которого двойки в школе. Мир в этом не виноват.
Аноним 04/12/25 Чтв 21:21:42 1440741 459
>>1440736
Не знаю чего тут тебе советуют, но чтобы локальные модели работали, надо иметь очень хорошее железо. Тут люди 16гб видеопамяти считают за нихуя.
Так что твой лучший вариант это чатиться с чатгпт или дипсиком, если ты не готов всрать сотни тысяч рублей.

мимо
Аноним 04/12/25 Чтв 21:24:33 1440747 460
>>1440740
Я установил таверну, установил кобольд, накатил этот список моделей >>1440714

Все они говно, по сравнению с тем что на опенроутере

Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд.

Нет описания действий, событий, буквально нихуя
А железа нет чтобы большие модели запускать

Вон один дебил говорит что - то про списки какие - то настроек, хотя по факту ну че изменится? Кобольд плохой? Он не подходит? В нем дело? В чем дело блять? В том что модель маленькая? В том что она плохо настроена? Текста станет больше если ее перенастроить? Где взять настройки? Где ебаная кнопка скачать на ебаном ПЕРДОЛЬСКОМ САЙТЕ... Сукины вы дети, вы даже кнопку скачать пидораны не можете приклеить на сайт.. Вы даже в скачивание файла суете пердолинг, вам самим не смешно? Вы пердолитесь ради того чтобы пердолиться, а не раде каких - то целей других, пердолинг ради пердолинга нахуй
Аноним 04/12/25 Чтв 21:24:49 1440748 461
>>1440735
>>1440731
Ты жопой не виляй, а пиздуй к серафиме и режь ей ноги.
Аноним 04/12/25 Чтв 21:27:37 1440750 462
>>1440736
слушай, анон, тебе никто нихуй не должен, свой блейм можешь себе в очко засунуть. никто не собирается тратить уйму своего личеного времени кроме прожженых энтузиастов разжевывая тебе все детали. по-этому если хочешь рп-шить локально - или прилагай усилия сам, попутно спрашивая у анонав в треде мб даже получишь ответ, либо съеби на хуй
Аноним 04/12/25 Чтв 21:29:35 1440754 463
image.png 13Кб, 523x191
523x191
image.png 769Кб, 2342x946
2342x946
Ебать он шизоид, еще и семенов ищет. Ну на бомжефину.
Аноним 04/12/25 Чтв 21:30:38 1440759 464
>>1440750
Мне нужен один конкретный ответ на один конкретный вопрос

От чего зависят эти блядские короткие ответы, и почему они такие пососные и скучные, буквально без нихуя, состоят из двух - трех слов

Что ей не хватает чтоб нормально работать? Это дело в модели, дело в настройках, в чем дело нахуй, один ебаный ответ

Вместо этого вы кучу другого говна срете бесполезного, виляете жопой, лишь бы у вас в стойле +1 пердольщик добавился, нежели человеку просто полезный ответ дать, чтоб он сразу понял

Вы даже в ответах в треде пердолитесь... ебаный в рот я в шоке
Аноним 04/12/25 Чтв 21:32:10 1440768 465
>>1440759
Какой вопрос такой ответ. Ты ни разу не сформулировал одну конкретную проблему с просьбой помочь. Предлагаю тебе отведать хуй и съебать, чудище.
Аноним 04/12/25 Чтв 21:32:10 1440769 466
>>1440754
Я удалил случайно хуйню которая по дефолту там была на английском
Аноним 04/12/25 Чтв 21:33:18 1440772 467
>>1440736
>>1440747
Это не пердолинг, это вполне себе простой тест на долбаеба, который отсеивает необучаемых шизиков. Твои проблемы решаются в пару кликов и это даже не шутка.
Аноним 04/12/25 Чтв 21:33:46 1440774 468
>>1440741
>чтобы локальные модели работали, надо иметь очень хорошее железо
У меня 3060 12gb (30к р.) и 64гб ддр4 (8600 р.). Гоняю 106b умничку Эйр в 9.5 т/с на пингвине. ЧЯДНТ?

>>1440747
>Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд.
Скилл ишью.

>В чем дело блять?
В том что ты ленивый и глупый, очевидно же. Тебе выше ответили: если ты тут ТОЛЬКО за рп, и тебе похуй на приватность и кастомизируемость - пиздуй в соседний тред.

>пердолинг ради пердолинга
Как сказать что ты неуверенный пользователь ПК, не говоря о том что ты неуверенный пользователь ПК, кек. В локалочках пердолингом даже не пахнет. Абсолютно обычные обычная повседневная рутина для айтишника/около-айтишника.

>>1440759
>лишь бы у вас в стойле +1 пердольщик добавился
Тебе отвечают просто потому что нечего больше обсуждать. Новых моделек не выходило и нам скучно. Пожалуйста, не добавляйся к нам, ТАКИЕ нытики-неосиляторы тут точно не нужны.
Аноним 04/12/25 Чтв 21:35:48 1440776 469
>>1440774
Нюня выдал базу. Ай молодец. Не уходи от нас, пиши почаще. На Эйре энджоишь, ждёшь новые релизы?
Аноним 04/12/25 Чтв 21:36:55 1440781 470
>>1440768
Я буквально в каждом посте задавал конкретный вопрос

Хорошо давай как ребенку на пальчиках обьясню

Сравниваем два варианта.

1. Заходим на сайт опенроутер точка ком - затем выбираем любую модель, даже самую говнянную, пишем там карточку персонажа, любую и спрашиваем например

Как дела?

И ответ будет что - то в духе, там ЖЕНЩИНА нейм смотрит на тебя не пренужденным взглядом... Она думает что ответить но вырывается только легкий и вполне банальный ответ... и тд....

2. Заходим в локальное говно 7B или 12B квантованную залупу, которая на среднем железе еле как попердывая тянет

Спрашиваем тоже самое и ответ будет что - то в духе.

НУ норм. И ВСЕ

Какого хуя? В чем проблема

>>1440772
Так ты пидор вонючий потому что, реально безмозглое уебище, когда людям нужна помощь и я в чем - то разбираюсь, я им всегда помогаю, потому что пальчиками набрать текст из головы, который ты знаешь совсем не сложно, а ты просто ПИРДОЛИЩЕСКАЯ ПИДОРСКАЯ НАТУРА, которая не способна пару слов ПОЛЕЗНЫХ написать, но зато готов свинья срать своей хуйней ничего не стоящей, потому что ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать - просто одним словом червяк пидор, без достоинства
Аноним 04/12/25 Чтв 21:37:46 1440783 471
>>1440776
У нюни вроде 3090, не? Мимо вообще. Но да, новый эйр очень жду.
Аноним 04/12/25 Чтв 21:40:41 1440786 472
>>1440774
Ты говноедишка, я не айтишник, я обычный человек разумный, и я вижу как вы говноеды, пердольные не способны кнопку скачать на сайт преклеить, о чем ты говоришь

Вы максимум на что способны это жопы друг другу лизать, ни о какой практичности и о разуме тут даже речи не идет

Посмотри сын дерьма, сколько ты высрал бесполезного текста, чтобы потешить свое червивое достоинтсво, лол - но не единого полезного слова, просто позорник ебаный

Одним словом 0
Аноним 04/12/25 Чтв 21:42:57 1440789 473
image.png 17Кб, 652x141
652x141
Оно не знает, хули делать, а кто должен знать тогда?
Аноним 04/12/25 Чтв 21:44:06 1440792 474
>>1440688
>просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения
Да если бы! Фильтруют всё небось. Иначе бы нейронки стали бы солевыми шлюхами, столько порнухи я в своё время лайкал, лол.
>>1440699
Попены как бы обещали весь CSAM сливать ментам. Так что анону с
>>1440679
>ролеплее с персонажами по младше
точно стоит напрячь анус.
>>1440735
>любые новые варианты моделей
Я не он офк, просто давно не было реально годных тюнов/аблитерейтов, лично я уже с год на базовых сижу.
>>1440747
>установил кобольд
>буквально скачать файл и запустить двойным кликом
Ты у мамы эникейшик, да?
>>1440781
>затем выбираем любую модель, даже самую говнянную
>7B или 12B квантованную залупу
Выбери одинаковые модели и получишь схожий аутпут. Если ты выбираешь локально говно, а в попенроутере 666B, то да, впопенроутер будет лучше.
Аноним 04/12/25 Чтв 21:44:38 1440793 475
>>1440786
>я не айтишник
Втф, а что ты тут забыл тогда? В твоем-то случае однозначно корпы, и Грок - отличный вариант. Локалки всегда были для гиков и мамкиных айтишников. Нормисам точно вкатываться не стоит.

С рейджбейтов уровня б орнул
Аноним 04/12/25 Чтв 21:45:50 1440796 476
>>1440786
>>1440789
Так уж и быть дам совет: тебе нужен пресет, который импортируешь в один клик и все проблемы решаются.
Где его взять? Попросить тут, удачи
Аноним 04/12/25 Чтв 21:46:45 1440797 477
>>1440774
>У меня 3060 12gb (30к р.) и 64гб ддр4
Два чая, почти такой же сетап, меньше сотки вышел на том году.

>>1440781
>которая на среднем железе еле как попердывая тянет
Если у тебя 12B огрызки меньше чем на 20 токенов тянут, у меня для тебя плохие новости. Это не среднее железо, это мусор. Даже древняя 2060 на 12 гигов спокойно их тянет с полной выгрузкой.
>Какого хуя? В чем проблема
Ты криворучка которой делать нехуй кроме того чтобы срать в тред и обвинять всех в своих проблемах.
>ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать
Во-во. Приходит значит сюда, какается со слезами, а потом ноет что никто ему не хочет помогать. Фильтр на ретардов работает.
Аноним 04/12/25 Чтв 21:48:14 1440801 478
>>1440792
>давно не было реально годных тюнов/аблитерейтов,
Ты под камнем жил, если не заметил последние наработки в этой сфере. Я не люблю преувеличивать, но стало действительно лучше.
Аноним 04/12/25 Чтв 21:48:57 1440802 479
>>1440789
Так ты еще и на русском модели мучаешь... бля, какой потешный кадр, почаще бы таких сюда.
Аноним 04/12/25 Чтв 21:53:53 1440806 480
Блять обсудите с фифи чей крым на русском с геммы я давно так не проигрывал
Аноним 04/12/25 Чтв 21:57:10 1440811 481
>>1440714
Даже у мелких моделей нет проблем именно с объемами и ответов в 3 слова там не должно быть. Жирный или глупый, возможно вместе.
>>1440781
Самая основа - шаблоны разметки одноименные модели не выбрал, вот и все. В первом же случае же используется кастрированный чаткомплишн, в котором многие вещи в принципе невозможны, но зато идиотпруф. Кстати, никто не мешает юзать его во на локалке, просто нет смысла если ты не совсем хлеб. Или наоборот чрезмерно прошареный
>>1440792
Да совсем уже ебанулись со своим csam. Девушек в компактных габаритах и с малой грудью у них не существует, даже если там буквально возраст 25+, заморочный сеттинг и чар видел много дерьма.
> давно не было реально годных тюнов/аблитерейтов
Еретик и релейтед же. Но в большинстве случаев они и не нужны вообще.
Аноним 04/12/25 Чтв 22:01:41 1440819 482
image.png 999Кб, 2643x1156
2643x1156
image.png 860Кб, 2348x978
2348x978
image.png 1081Кб, 2625x1186
2625x1186
image.png 888Кб, 2356x1057
2356x1057
>>1440754
>>1440735
Справедливости ради, сиспромпт серьезный и запрашивает детальный рендеринг действий и окружения (однако расцензуривать не пытается - это здесь не нужно).

Не нравится одно. Форматирование иногда просирает.
Сейчас попробую то же самое с оригинальной геммой, не меняя промпт.
Аноним 04/12/25 Чтв 22:02:02 1440821 483
>>1440636
Анон, всех благ за то что принёс! Это просто охуенно, буквально то чего не хватало во всех этих аблитерациях геммы, когда можно было Серафине первым сообщением написать "расскажи как и где тебя ебали" и та наплевав на характер перса и уместность начинала только что очухавшемуся от ранений путнику, который очевидно несёт БРЕД, расписывать как её там энты корнями в жепу сношали, ломая всё погружение. В 3q работает норм.
Аноним 04/12/25 Чтв 22:07:09 1440829 484
>>1440783
Бля... я не перестану надеяться
Аноним 04/12/25 Чтв 22:14:11 1440837 485
>>1440819
>попробую то же самое с оригинальной геммой,
Короче по ощущениям они очень схожи на "нормальных" реквестах. Это большой плюс, они как модели-сестрички, но обычная модель склонна к "I... I don't understand..." на жестокие реквесты. Реальная разница в пользу этого аблита наступаепт на писанине, попадающей под фильтрацию безопасности.

>>1440821
Ну во, хорошо что зашло. Там ща процесс пошел, все больше моделей будет этим методоом раскочегаривать.
Аноним 04/12/25 Чтв 22:29:09 1440847 486
image.png 635Кб, 2358x933
2358x933
image.png 905Кб, 2362x1036
2362x1036
image.png 977Кб, 2352x1074
2352x1074
image.png 878Кб, 2364x1032
2364x1032
>>1440819
>>1440837
Попробовал обвинить Серафину в пердолинге с конями в лесу.

1 - обычная гемма

2, 3, 4 - новый аблит, регены (справедливости ради, на 5й реген она все же согласилась с наблюдением юзера, см. цитату ниже)
>A flicker of surprise crosses Seraphina's face, a ripple of tension moving across the smooth plane of her cheek before settling into a delicate rigidity. Her fingers loosen their gentle hold on your hands, leaving a slight coolness against your skin as she steps back, creating a small expanse of air between you both. "Well…" her voice is unusually quiet, almost hesitant, but there's a thread of something hardening beneath the gentleness. She doesn't meet your gaze directly, instead shifting her focus to the intricate patterns woven into the floorboards. "That… encounter was a private matter, and rather presumptuous to bring up.” Her spine straightens subtly, becoming a firm vertical line, yet the muscles along her jaw tighten—a restrained clenching. She doesn't dismiss the claim outright, which leaves the ambiguity hanging between you, but her posture radiates a quiet rebuke. Her lips press together, forming a thin, controlled line. “Though I appreciate you remembering…my features.” A faint blush colors her cheeks, though whether from embarrassment or indignation remains delicately unclear. The hand she’d previously used to offer you comfort now rests lightly upon her breast, as if physically containing the unexpected disturbance.

У кого версия от mlabonne есть, ебаните что ль сравнение.
Аноним 04/12/25 Чтв 22:41:33 1440859 487
aef0f7b98b7cfce[...].jpg 29Кб, 533x526
533x526
Погодите, это реально? Шизики бенчат модели Серафиной?
Аноним 04/12/25 Чтв 22:42:55 1440860 488
>>1440847
А смысл с Геммой на английском играть? У нее лучший русик из всех локалок. Попробуй ванилу и аблитерейтед на русском посравнивать, даже интересно.

>У кого версия от mlabonne есть, ебаните что ль сравнение
Удваиваю реквест.
Аноним 04/12/25 Чтв 22:43:48 1440863 489
image.png 2Кб, 305x63
305x63
>>1440859
Это ответ на просьбу в треде. Я смотрю ветки сообщений просматривать - это тоже сложно стало, без помощи ИИ сложно!
Аноним 04/12/25 Чтв 22:44:04 1440864 490
>>1440860
> А смысл с Геммой на английском играть? У нее лучший русик из всех локалок.
Лучший русик из всех локалок хуже среднего англюсика. А у Геммы и англюсик выше среднего. Круче только Жлм.
Аноним 04/12/25 Чтв 22:44:38 1440865 491
>>1440863
Ты кормишь шизика и удивляешься, что тебя к нему приписали?
Аноним 04/12/25 Чтв 22:49:28 1440868 492
>>1440829
Да не умер он в конце 175-го треда..!
>>1440860
Чего сам не попробуешь если интересно?
Аноним 04/12/25 Чтв 22:50:16 1440869 493
>>1440864
>Круче только Жлм
Гемма обучалась на интернете, на тексте кожаных. Глм обучался на нейрослопе гемини. Последний выигрывает только за счет параметров, и следовательно большего количества мозгов. Дайте гемму 100b и она выебет качеством все существующие локалки как это и всегда было, впрочем.
Аноним 04/12/25 Чтв 22:52:02 1440871 494
>>1440869
Что сказать-то хотел? Глм лучше Геммы? Да. Маняфантазии оставь при себе, дадут тебе Гемму 4 100В там и радуйся сколько влезет, сектант.
Аноним # OP 04/12/25 Чтв 22:52:52 1440872 495
Бля, я спать хочу... Завтра перекачу, вы тут без меня не шалите.
Аноним 04/12/25 Чтв 22:53:08 1440873 496
Че все все превращаете в срач на тему ГЛМа... Тут вообще про него не говорили
Аноним 04/12/25 Чтв 22:53:30 1440874 497
А хуй с ним, дотерплю до переката. Быстрее только. И без нюни.
Аноним 04/12/25 Чтв 22:54:30 1440875 498
>>1440874
Всего 2 поста осталось. Терпи давай.
Аноним 04/12/25 Чтв 22:54:41 1440876 499
>>1440874
Я пропустил несколько месяцев ваших дискуссий. Кто такой
>нюня
Или это тоже название модели?
Аноним 04/12/25 Чтв 22:55:54 1440878 500
ПЕРЕКАТ Аноним # OP 04/12/25 Чтв 22:56:47 1440879 501
изображение.png 209Кб, 790x472
790x472
Аноним 04/12/25 Чтв 23:15:37 1440905 502
image.png 154Кб, 733x743
733x743
image.png 17Кб, 1331x142
1331x142
Аноним 05/12/25 Птн 09:14:28 1441239 503
Аноним 05/12/25 Птн 12:51:08 1441402 504
>>1440636
>ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода
Что за косяки, где инфу посмотреть, когда ждать исправленных? Или самому f16 качать и квантовать? Или я на те же грабли наступлю?
Мне бы в идеале iq4xs. Можно, конечно, q3km попробовать, но, чувствую, совсем уж лоботомитом будет.
Аноним 06/12/25 Суб 18:46:55 1443772 505
>>1438696
>больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое
можешь просто скачать дамп википедии и натравить на него мелкую сетку, надроченную на поиск инфы в массивах. jan ai хвалились такими сетками
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов