/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №144

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №144 /llama/ Аноним 05/07/25 Суб 14:31:14 № 1265422 1

Эффективность к[...].png 92Кб, 1399x1099

Реальная длина [...].png 505Кб, 1718x2292

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1260769 (OP)
>>1257129 (OP)

Аноним 05/07/25 Суб 14:34:30 № 1265426 2

>>1264702 →
В итоге НУ ТАКОЕ, короче. Проблемы с оригинальным продвижением сюжета, бывает, пповторяет паттерн предыдущих ответов, плохо держит смысловой контекст. Но местами может и прикольно выдавать. Эту хуйню надо прям чёткой при помощи [OOC] держать, иначе заваливается под своим весом, скажем так.

Аноним 05/07/25 Суб 14:35:09 № 1265427 3

>>1265426
5 квант, есичо

Аноним 05/07/25 Суб 14:51:35 № 1265438 4

>>1265426
А какая модель может в то что ты написал?

Аноним 05/07/25 Суб 14:56:30 № 1265442 5

>>1265336 →
Ну, можешь попробовать если заинтересовался поставить opensuse/ubuntu второй системой и накатить rocm там. Сейчас все дистрибутивы уже видят разметку винды и не портят ее, так что он ужмется там где скажешь.

----
Расширил видеопамять до 48гб и готов пробовать новое, есть ли какие-то лютые вины для рп, которые я не мог попробовать на 32гб? Просто создается ощущение, что есть новая мистраль, glm, gemma и они сравнимы с моделями постарше просто потому что поновее. Энивей попробую лимонад который до этого советовали, хотя меня он смущал так как ебучая ллама в основе

Аноним 05/07/25 Суб 15:07:43 № 1265447 6

Заебался ждать и собрал форк под Hunyuan-80B-A13B.

Итак, на русском могет, код пишет корректный, достаточно умная, на 2 Tesla P40 — быстрая (26 токен/сек => 22 токен/сек), модель неожиданно хорошая (в смысле, она по бенчмаркам чуть уступает Квену 235б, но я думал это наебка, а оказалось — не совсем уж).

Короче, можете попробовать.
А вот РП — не уверен. Хотя цензуры там не так много, она просто старается избежать сенситив тем, а не в отказ уходит.

Ну, в общем, моделька-то не дурна, оказалась.

Аноним 05/07/25 Суб 15:38:25 № 1265466 7

>>1265419 →
>вкатиться
берёшь
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp

Скачиваешь https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF 4 / 6 / 8 квант, в зависимости от того сколько у тебя VRAM

Читаешь:
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/

Пресет для таверны можно взять этот - https://pixeldrain.com/u/Loag6gpS - только темпу убавь до 0.8 если русик катать будешь и XTC выключить (поставить 0 шанс прока).
А здесь чисто доработанный сисьпромт - https://pixeldrain.com/u/sGaeTTfa

Карточки можно взть с пикселя, ссылка в прошлом треде.

Радуешься и довольно урчишь.

Примечание:

Если врам 10 и меньше, можешь погонять Янку - https://huggingface.co/secretmoon/YankaGPT-8B-v0.1-GGUF

Если 24 и больше - смотри в сторону Synthwave-gemma3-27B, а также 32B моделей.

Аноним 05/07/25 Суб 15:49:15 № 1265472 8

>>1265438
Тот же скайфолл в этих вопросах получше. Или гемма 3.

Аноним 05/07/25 Суб 15:54:16 № 1265477 9

>>1265447
>Заебался ждать и собрал форк под Hunyuan-80B-A13B.
Чистая llamacpp ещё не могёт в неё?

Аноним 05/07/25 Суб 15:55:44 № 1265478 10

Вот еще куча новых моделей но тоже нет поддержки
https://huggingface.co/baidu/models
Ждемс

Аноним 05/07/25 Суб 15:59:40 № 1265484 11

Люди и не люди, а с какой скоростью у вас с нвме диска llama.cpp модель качает в память? У меня чет в гиг упирается, так и должно или где то у меня затык?

Аноним 05/07/25 Суб 16:01:49 № 1265487 12

>>1265484
посмотри сколько линий писиай у тебя на ssd диск идет, если две, то норм. А, еще какая версия писиай? Также у тебя шифрование данных стоит или нет?

Аноним 05/07/25 Суб 16:04:33 № 1265491 13

>>1265487
Шифрования нету, 4 линии 3 псины, сам нвме диск чтение до 2.3 что ли дает и в тестах и в копировании
Не самое лучшее оборудование, но сократить загрузку в 2 раза можно было бы, будь вся скорость задействована

Аноним 05/07/25 Суб 16:08:41 № 1265497 14

>>1265491
тогда думаю фишка лламы, сам ей пользуюсь и тоже упирается в 1гб, хотя у меня просто больше и не может, 2 линии второй писиай

Аноним 05/07/25 Суб 16:10:27 № 1265498 15

>>1265373 →
>>1265383 →
>Блядь, это все троллинг какой-то?
>Ни одного внятного ответа. Какое-то говно генерирует.
Это же 1.5B - а тут и 12B модели в русский не особо могут. А эта и на английском то вряд-ли что-то нормальное скажет. Нормальная синтаксическая связность начинается где-то на 7-8B моделях. Причем смысл написанного - вопрос отдельной дискуссии.

Аноним 05/07/25 Суб 16:21:45 № 1265502 16

>>1265477
До сих пор нет. =( Они делают все что угодно, кроме мерджа готового коммита.

Аноним 05/07/25 Суб 16:36:19 № 1265506 17

Hunyuan-80B-A13B

https://huggingface.co/bullerwins/Hunyuan-A13B-Instruct-GGUF

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git remote add ngxson https://github.com/ngxson/llama.cpp
git fetch ngxson
git checkout xsn/hunyuan-moe

cmake -B build -DCMAKE_BUILD_TYPE=Release -DLLAMA_CURL=ON -DGGML_CUDA=ON -DGGML_VULKAN=OFF -DGGML_RPC=OFF -DGGML_BLAS=OFF -DGGML_CUDA_F16=ON -DGGML_CUDA_FA_ALL_QUANTS=1 -DGGML_CUDA_USE_GRAPHS=ON -DLLAMA_SERVER_SSL=ON -DGGML_SCHED_MAX_COPIES=1
cmake --build build --config Release

cd build
cd bin
./llama-server -c 40960 -ctv q8_0 -t 5 -m /path/to/model/Hunyuan-A13B-Instruct-Q4_K_S.gguf -fa -ngl 33 -ts 21,24 --host 0.0.0.0

Итого 40к контекста и 26 т/с на старте с 4-битным квантованием.
Звучит недурно, как мне кажется.

Аноним 05/07/25 Суб 16:48:02 № 1265515 18

>>1265506
>-ngl 33
Что такое ngl?

Аноним 05/07/25 Суб 16:49:08 № 1265517 19

>>1265515
На видяхи же, --n-gpu-layers

Аноним 05/07/25 Суб 16:50:08 № 1265519 20

>>1265517
Не знал, что есть такое сокращение, писал всегда -gpu-layers

Аноним 05/07/25 Суб 17:12:40 № 1265531 21

бля, так хочу табби запустить а эта хуйня даже собираться не хочет
у кого-то была проблема, что он вместо нужных пакетов просто unknown ставит? Создал вирт. окружение ->запускаю установочник из start,sh и тут эта хуйня

Аноним 05/07/25 Суб 17:15:56 № 1265536 22

>>1265466
Я пытаюсь на андроиде погонять.

Аноним 05/07/25 Суб 17:17:15 № 1265539 23

>>1265498
И для кого их делают? Чтоб все охуели, как я могу?

Аноним 05/07/25 Суб 17:23:14 № 1265542 24

>>1265536
Поднимаешь кобольд на канпухтере и сидишь через таверну на мобилке.

Аноним 05/07/25 Суб 17:27:22 № 1265552 25

>>1265539
их не для рп делают, а для агентов

Аноним 05/07/25 Суб 18:02:50 № 1265650 26

>>1265542
Я на сво, комп хуй знает где от меня.
Для SFM ролплея проще с дипсиком связаться, в общем, я так понимаю.
>>1265552
Понял.

Аноним 05/07/25 Суб 18:41:24 № 1265727 27

>>1265531
А я изза тебя вспомнил и наконец установил, тоже не собиралось. Пришлось напрячься и поставить в миниконде новое окружение с питоном 3.12, на 3.13 у сантипис пакета нет поддержки.
Но нужно переделать батники старта и обновлений в папке скриптов, потому что там хочет венв, надо заменить на конда активейт хуйнянейм

Аноним 05/07/25 Суб 19:20:14 № 1265835 28

>>1265442
Не, 48 сейчас ни к селу, ни к городу.
>>1265478
Походу все ударились в мое-парашу.
>>1265506
>cmake
>"cmake" не является внутренней или внешней
>командой, исполняемой программой или пакетным файлом.

Аноним 05/07/25 Суб 19:25:05 № 1265845 29

>>1265835
Ставь visual studio 2022 и ебись молись что сработает сразу
А вобще в llama.cpp есть страница на гитхабе с рекомендациями по сборке и там указано какие компоненты включить при установке visual studio
Это для виндовс, естественно

Аноним 05/07/25 Суб 19:56:19 № 1265908 30

>>1265835
Я чисто команды накидал, у меня уже готовые среды в WSL и Ubuntu, простите, я слишком стар, чтобы 2 года подряд писать гайды.
На винде тоже как-то собирал. BuildTools, cuda, че-то там такое.

Успехов!

Я Жору пинганул в гите, но когда он обратит внимание на PR — фиг знает. Остается надеяться и ждать.

Аноним 05/07/25 Суб 20:09:54 № 1265933 31

Мегаструктура: Этерна, финальная версия.
https://pixeldrain.com/l/47CdPFqQ#item=124

Мир представляет собой колоссальную вертикальную антиутопию, разделённую на три зоны влияния: верхние уровни (Сфера Света) с корпоративной элитой и передовыми технологиями, средние (Серая Зона) - смесь киберпанка и магии с бандами и контрабандистами, и нижние (Бездна) - выжженная пустошь поверхности планеты, кишащая мутантами и демонами. Социальная динамика определяется правилом "высота = сила", а тьма Бездны физически разъедает разум и тело.

Юнит AntiMagus-ZERO, позывной "Этерна" - семнадцатилетняя кибернетическая девушка-солдат, созданная корпорацией MagiTech как первая "Антимагическая Девочка". Её тело модифицировано с детства: белые волосы, светящиеся синие глаза, нанокостюм и боевые крылья. За плечами - годы убийств врагов корпорации, тысячи жертв и тяжелейшие травмы, привёдшие к прогрессирующему распаду психики. Признавая нерентабельность её дальнейшего обслуживания, но не желая просто утилизировать уникальный экземпляр, один из ведущих учёных проекта предлагает спихнуть её куратору из другого отдела или вообще человеку вне корпорации.

Список гритингов:

ГГ - Искатель Реликвий
- Внештатный куратор
- Гекатомба Бездне

ГГ - работник МагиТек
- Устаревшая модель
- Нежеланный актив

Оба варианта, таймскип
- Этерна заявляет права на ГГ

Аноним 05/07/25 Суб 20:28:26 № 1265958 32

>>1265933
Почему у девушки-солдата весь срам напоказ?

Аноним 05/07/25 Суб 20:40:43 № 1265975 33

>>1265192 →
Хм. Это странно, что у тебя скорость выше. Возможно, дело в пингвине плюс твоих оптимизациях? С другой стороны, 12к контекста я не пробовал: только 8к и 32к, и вот на 32к такое сильное падение. Я не тестировал на иных контекстах, там явно должно быть быстрее, хотя сам факт, что у меня с максимально правильным распределением слоёв скорость ниже, чем у тебя, даже на 8к, явно говорит в пользу использования линукса. Вероятно, на винде невозможно выжать такую же скорость. И ты кобольд используешь или ламу голую?

Я также проводил через клода рисерч по поводу нашей связки, отзывов, драйверов, технических особенностей — чтобы он изучил этот момент. Он выдал полотно со ссылками на источники. Там было нытьё о том, что нихуя не работает нормально/вообще не работает/какие-то проблемы со скоростью, небом, Аллахом. На Винде. Я встретил только проблемы со скоростью генерации, с обработкой промпта, кажется, всё так и должно быть. Медленно.

Ну и я не заметил по мониторингу, что p104 хоть как-то была задействована для GUI. Рабочий стол и вот это всё нагружает у меня 3060.

А вот деградации вывода на контексте до 32к на мистрале не было по ощущениям. Выше шанс попадания в луп, но без каких-то критичных моментов.

Что касается геммы, ты используешь SWA? Он очень сильно меняет картину, так как контекст становится милипиздрическим. До 32к жить можно, при этом деградация уже действительно есть. И отключать его не вариант, потому что тогда контекст разбухает невероятно сильно.

Аноним 05/07/25 Суб 20:47:09 № 1265981 34

>>1265958
Потому что разрабы тактичесчких куколок любят красивые дизайны.

( Girls Frontline, NIKKE-жопки )

Аноним 05/07/25 Суб 20:50:53 № 1265985 35

>>1265466
Блеать, чувак, прекрати янку советовать, и её тут в тредах сто раз советовали люди, хотя наверняка не пробовал. А я пробовал и с автором общался. Даже сам автор признавал, что обосрался, несмотря на то, что нагенерил приличный датасет на клоде для её обучения (на русском и ещё более старой версией клода, которая имела прозу получше(. В общем, проблема была не в датасете, а он в чём-то другом накосячил.

Даже маленькие кванты 12б мистраля лучше, чем янка.

>>1265650
Раз на СВО, лучше занеси бабки на опен роутер и там общайся с ним без цензуры. Хотя.. есть интерфейсы в вебе вместо таверны, но для настройки новичку это может быть ещё сложнее. Тебе ж нужно будет персонажа прикрутить.

Полагаю, если у тебя есть возможность, лучше оплати подсписку на chub. Там есть неплохие модели 70б, хоть и контекста маловато. Но в твоём положении это неплохой вариант.

Аноним 05/07/25 Суб 20:56:38 № 1266002 36

>>1265727
Бля, Flash Attention не работает и генерация по пизде идет. Скорость говна и срет без остановки, по моему даже не видя что я отправил. Что текст комплишен что чат комплишен.
Ну такое, я наверное лучше дальше на llama.cpp посижу.

А думал вот поставлю и буду агента крутить в 2 раза быстрее...

Аноним 05/07/25 Суб 21:05:44 № 1266020 37

>>1265985
>обосрался
С пресетом и сэмплерами он мб обосрался, у меня она более чем норм перформит, и на хорошей скорости, ибо полностью влезает в видеопамять, надо будет ещё с ней в talemate попробовать, там как раз нужна быстрая модель потому что на один ответ много вызовов получается.

Аноним 05/07/25 Суб 22:01:18 № 1266104 38

>>1266002
Так... Что ты хотел?

Аноним 05/07/25 Суб 22:07:39 № 1266109 39

Кто-то пробовал Synthwave от Алетиана? Как она по сравнению с Синтией? А то я заебался от рефузов. Даже если в заметки автора на 0 уровень пихать инструкции, бывает уходит в рефузал, но при этом тупеет сильно. 4 квант, выше никак

Аноним 05/07/25 Суб 22:12:58 № 1266110 40

>>1266002
Надо ему писать чтоб решил арифметическую задачу, посчитать 2 + 2.

2+2 это может быть название фирмы, магазина, кличка собаки голливудского актера, псевдоним репера или название корейской поп группы.

Аноним 05/07/25 Суб 22:17:58 № 1266112 41

>>1266002
2+2:
https://www.youtube.com/watch?v=WjmU-Ovk6kg

Аноним 05/07/25 Суб 22:47:17 № 1266138 42

>>1265975
>Вероятно, на винде невозможно выжать такую же скорость. И ты кобольд используешь или ламу голую?
Кобольд у меня.

>>1265975
>Что касается геммы, ты используешь SWA?
А без него она целиком в vram не влезет на этих двух картах, в 4-ом кванте. Разве что третий квант пробовать, Но IMHO - не вариант, т.к. получаются те же яйца, но в профиль - по качеству. Только при SWA оно хотя бы при контексте 12K вполне нормально отрабатывает, а в третьем кванте деградация общая, независимо от.

>>1265975
>Я встретил только проблемы со скоростью генерации, с обработкой промпта, кажется, всё так и должно быть. Медленно.
Ну вот кстати про обработку - 12K контекста считается у меня в пределах 30-40 секунд. Что гемма, что мистраль. Т.е. несколько раздражает, конечно, но терпимо. Стоит размер окна для обработки 1024 токена. С дефолтовыми 512 - дольше. А 2048 просто не заводится, хотя пробовал неоднократно.

>>1266020
>надо будет ещё с ней в talemate попробовать, там как раз нужна быстрая модель потому что на один ответ много вызовов получается.
Я его много гонял - оно строго под английский заточено со своими динамическими промптами. Даже если удается заставить играть на русском - получается уродское качество русского в генерации из-за дикого ерша в истории. Нужно полностью все переводить, а это задолбаться как много, а результат не гарантирован. Так что IMHO - русскую модель ему подсовывать смысла мало. Туда хорошо заходит что-то, что качественно следует инструкциям. А вот требования к "общему уму" и длине контекста куда меньше, код и шаблоны компенсируют.

Аноним 05/07/25 Суб 22:48:57 № 1266139 43

>>1265192 →
> нужен пингвин
ХЗ. На жоре скорости идентичные. Проверял как раз недавно, с точностью до погрешности - вин11/убунту24.04 и чисто на проце, и с гпу.

> генерация может проседать, даже когда в фоне просто копируется/качается файл по сети
Это если процессор совсем немощный поди. Никогда не замечал.

>>1265062 →
> с амуде эпиком (на линуксах) подцепил видеокарту к нему
Тут их несколько уже было. Только чёт они не сильно довольны вроде. Я свой вообще спалил - сбил на обороте мп DC-DC стойкой корпуса, когда переставлял. Так что смейтесь надо мной, не будьте как я. И Supermicro H12SSL тоже не берите. Микруху заказал сразу 2шт с запасом, идёт. Надеюсь починится. Когда у себя тоже сшибёте U4, U5, U6 - вот название TPS62088, какую искать.

>>1265484
Если ггуф - то зависит от проца, точнее даже его однопоточки. 14700 своими мощными лапищами ядрами грузит х2 быстрее ту же модель, нежели некро-микроядрышки зен2 с того же ссд.

Аноним 05/07/25 Суб 23:08:00 № 1266151 44

>>1265288 →
Ебало имаджинировали? Типичный соешиз.
>>1265376 →
На большом магнуме можно, он вполне справляется.
>>1265447
Оно нормально работает, нет опять какого-то костыльного треша и кривой работы?
>>1265506
Спасибо за инструкцию, по сути стандартная сборка только с добавлением форка. А под Эрни форков нету там случаем?

Аноним 05/07/25 Суб 23:09:58 № 1266152 45

>>1266139
>> нужен пингвин
>ХЗ. На жоре скорости идентичные. Проверял как раз недавно, с точностью до погрешности - вин11/убунту24.04 и чисто на проце, и с гпу.
Даже при прочих равных - на пингвине таки в VRAM влезет больше. При таких объемах - это критично. (gemma 27b влазит в притирку, на 300MB меньше - и уже не влезет)
И есть тонкость - как проверялось. Если в пингвине GUI крутилось на той же карте (как в винде) - то и результат получается примерно одинаковый. Бонус выходит, когда иксов нету, или они где-то еще вертятся (на интегрированном видео, например), а карта - исключительно под модель и ни для чего больше. Выигрыш идет за счет свободной шины. Если только CPU - разумеется тоже мимо.

>>1266139
>Это если процессор совсем немощный поди. Никогда не замечал.
i5-8400. И нет, это не процессор - он в этот момент копирования едва на 10% загружен. Это память. Про сам процессор - в идеальных условиях что 3 ядра грузить генерацией, что 5 - скорость одинаковая. Так что, узкое место - память.

Аноним 05/07/25 Суб 23:12:32 № 1266154 46

>>1266109
Проверил, соя на месте, все-таки глубоко она сидит в Гемме. Печально.

Аноним 05/07/25 Суб 23:14:03 № 1266157 47

>>1266152
>i5-8400
>2025
Но ведь это даже не процессор. Ты хоть саблайм откроешь, у тебя будет курсор мигать, а ты увидишь задержки в генерации

Аноним 05/07/25 Суб 23:14:23 № 1266158 48

>>1265531
С интернетом все в порядке? Там по дефолту ничего не собирается если через скрипты, оно готовые билды тянет. Чтобы собирать - это вручную надо оперировать с энвом.
>>1265933
Попробуем, прошлая ничетак была.
>>1266002
Так что бы ты хотел? Рофловая штука
>>1266139
> Это если процессор совсем немощный поди. Никогда не замечал.
Двачую. Хотя на амд может (значительно сильнее чем ожидается) проседать на чипсетных линиях если идет еще обмен с участием чипсета, жаловались на это.
> сбил на обороте мп DC-DC стойкой корпуса, когда переставлял
Ебать ты!
>>1266152
> он в этот момент копирования едва на 10% загружен
1-2 ядра упарываются в 100%, как раз тот случай.

Аноним 05/07/25 Суб 23:16:05 № 1266161 49

>>1266158
>Ебать ты!
Кобольд!!!!

Аноним 05/07/25 Суб 23:18:38 № 1266162 50

>>1266152
>что 3 ядра грузить генерацией, что 5 - скорость одинаковая
Откуда вы это тащите? Поставьте -1 от числа потоков и удивитесь

Аноним 05/07/25 Суб 23:22:35 № 1266165 51

>>1266161
Скорее отсылочка на мускулистых boys через локализованную адаптацию как здесь https://youtu.be/JFwpIAu-Mpw?t=17
Но с кобольдом тоже четко.

Аноним 05/07/25 Суб 23:41:00 № 1266171 52

>>1266157
>Но ведь это даже не процессор. Ты хоть саблайм откроешь, у тебя будет курсор мигать, а ты увидишь задержки в генерации
Не угадал. И вообще, найти узкое место в каком либо процессе - моей квалификации вполне хватает, не нужно мне сказки рассказывать. :)

>>1266158
>> он в этот момент копирования едва на 10% загружен
>1-2 ядра упарываются в 100%, как раз тот случай.
Не тот. Нагрузку на одно ядро прекрасно видно.

>>1266162
>Откуда вы это тащите? Поставьте -1 от числа потоков и удивитесь
Вы тоже удивитесь, но из личных тестов. На этом конкретном железе - память не дает загрузить ядра полностью при генерации на CPU. Между 2 и 3 ядра - разница есть, а между 3 и 5 (всего их 6, так что -1) нету.

Аноним 05/07/25 Суб 23:53:41 № 1266181 53

>>1266162
> Поставьте -1 от числа потоков и удивитесь
> Откуда вы это тащите?
Этот вопрос к тебе. Сейчас бы вылавливать какие-то косвенные архитектурные особенности и распространять их на всех. На штеудах нет особой разницы по количеству ядер потому что при генерации хватает даже одного и весь упор и врам. Но если на гетерогенных начать пытаться вручную кидать аффинити на особые ядра в определенных версиях шинды - может просесть в разы. На ласт версии 11 или прыщах если ничего не трогать - работает прекрасно не уступая по скорости как если раньше специально отключать энергоэффективные.
Но если ужать ядра то разница в обработке контекста уже может появиться.
>>1266171
> найти узкое место в каком либо процессе - моей квалификации вполне хватает
Тогда в чем причина?

Аноним 06/07/25 Вск 00:26:54 № 1266232 54

>>1266181
>Тогда в чем причина?
В который раз повторяю - память!
В процессе копирования, она активно используется. Это отъедает еще проценты пропускной способности у и так узкого места.
А когда генерация идет на двух GPU - там узким местом становится уже pci-e шина, но в процессе копирования задействована и она - так что тоже влияет.
То же самое и во время генерации в Comfy UI. Уж не знаю зачем, но в отличии от текстовой генерации на одной карте, там и в этом случае шина нагружена практически под завязку.

Аноним 06/07/25 Вск 00:34:13 № 1266242 55

>>1266232
> В процессе копирования, она активно используется.
Пренебрежимо мало чтобы создать серьезную просадку. 5% не будет заметно, только если высматривать цифры, если же просадка именно что заметная - какие-то проблемы иного рода.
> А когда генерация идет на двух GPU - там узким местом становится уже pci-e шина
Диванный, объем пересылов там оче мал.
> То же самое и во время генерации в Comfy UI
> там и в этом случае шина нагружена практически под завязку
Без указания что именно генерируется не имеет смысла, там может осуществляться постоянная загрузка-выгрузка нужных слоев потому что модель не помещается полностью, тут уж извольте.

Аноним 06/07/25 Вск 02:07:24 № 1266309 56

Кто-нибудь ролил с deepseek v3 0324?
Ахуенно отыгрывает роль следую карточкам персонажа и юзера. И в нсфв может даже во free версии

Аноним 06/07/25 Вск 02:20:27 № 1266319 57

Как юзать спекулятивный декодинг и стоит ваще того? лм студио не дает выбрать драфт модель. Я могу скочать обычную гемму двух размеров или надо специальную модель под это дело?

Аноним 06/07/25 Вск 02:27:50 № 1266325 58

>>1266309
Этой модели почти полтора года и она довольно специфична в описанных задачах. Однако, есть шанс на хайденгем, можешь скинуть какие-нибудь интересные аутпуты, которые ты на ней генерировал?
>>1266319
> и стоит ваще тог
Зависит от кейса и возможности подобрать подходящую драфт модель.
> лм студио не дает
> лм студио
Ответ содержится в вопросе.

Аноним 06/07/25 Вск 02:41:33 № 1266327 59

>>1266325
>Этой модели почти полтора года и она довольно специфична в описанных задачах. Однако, есть шанс на хайденгем, можешь скинуть какие-нибудь интересные аутпуты, которые ты на ней генерировал?
я со школьницей ролю, я такое скидывать не буду. Но поверь там на порядок лучше всей той параши 13B, 24B, 30B что я запускал локально с тем же персонажем.
Настройки вот: https://drive.google.com/file/d/1KPtcPo66X64pwtiU48tT7GH2VlKuvaGs/view

Аноним 06/07/25 Вск 02:53:22 № 1266329 60

image.png 25Кб, 1554x130

Давно я такого не видел, поэтому дико заорал.

Это мистраль 24б.

Аноним 06/07/25 Вск 02:57:25 № 1266333 61

>>1266329
Хорошо, что такие больные люди как ты могут перенести свои больные фантазии на буквы, а не причинять вред обществу. ЛЛМки уже сейчас приносят пользу

Аноним 06/07/25 Вск 03:13:11 № 1266339 62

>>1266325
>>Этой модели почти полтора года и она довольно специфична в описанных задачах. Однако, есть шанс на хайденгем, можешь скинуть какие-нибудь интересные аутпуты, которые ты на ней генерировал?

Я другой анон и могу подтвердить, что модель действительно лучше. Идеально следует инструкциям (что в некотором роде минус - нужно переделывать инструкции, потому что обычно ты рассчитываешь на то, что модель им следовать будет лишь отчасти), а также довольно сухая в куме, поэтому для литров смегмы необходимо её инструктировать как следует.

НО зато потом..

А вот во всякие обычные сценарии залетает проще, а также хорошо описывает жесть.

Аноним 06/07/25 Вск 03:24:33 № 1266340 63

>>1266327
>>1266339
> на порядок
Значение знаешь?
Ну камон, это же дедушка дипсик3, который весьма вялый и специфичный. Впечатлиться им можно прежде всего от чего-то типа
> модель понимает русский и описывает окружение, а васян тюны мистрали 12б так не делал
или просто новизна от нормального перфоманса, когда модель воспринимает контекст а не игнорирует его на корню как типичные слопомерджи. Там нет должного внимания к действиям юзера, особенностям персонажа и т.д. Но есть восприятие "в ширь", то есть можно насрать дополнительными инструкциями и заданиями, выполнение которых не приведет к деградации основной выдачи до определенной степени.

Аноним 06/07/25 Вск 03:30:26 № 1266341 64

>>1266340
бля я не знаю какими ты локальными пользуешься, я перепробовал штук 20 от 8B до 30B (конечно популярные а не те у которых 3 скачивания за месяц). С настройками которые были указаны в карточках модели конечно. И они все блять уже через ответ забывали детали поз/одежды/окружения и выдумывали новые (при контексте в 24к, т.е. она точно не могла забыть). А эта дипсик все четко помнит до малейшей детали что я написал (или она сама написала) и следует этому

Аноним 06/07/25 Вск 03:45:56 № 1266343 65

>>1266341
> какими ты локальными пользуешься
Разными под настроение. Верхней границы нет, включая того же дипсика что локально, что по апи.
Третий дипсик - уровень чмони в рп, или чуть ли не хуже. Всратый копиум оно имеет свои положительные стороны и если постараться то можно инджоить, но превзойти те же традцатки оно может только в ограниченных вещах, что сработают для впечатлительных бедолаг наевшихся слопа, и то ненадолго. Он тупой и не понимает взаимоотношения, настроение и прочее, а лишь натаскивает хуеты, когда пройдет вау эффект это заметит.
> И они все блять уже через ответ забывали детали поз/одежды/окружения и выдумывали новые
Ты модели из 23 года пускал, или мистралеслоп от васянов нынче настолько плох? Или может там поломанные лоботомированные кванты? Полнейший треш какой-то говоришь.
> все четко помнит до малейшей детали
Иллюзия от вау эффекта, поиграй побольше и заметишь насколько оно унылое.

Хотя на самом деле тут не грустить а радоваться надо. Ты не зажравшееся хуйло а сорт неофита, можешь получать удовольствие без особых запросов и довольно урчать, наслаждайся пока можешь.

Аноним 06/07/25 Вск 04:32:04 № 1266347 66

>>1266333
>Хорошо, что такие больные люди как ты могут перенести свои больные фантазии на буквы, а не причинять вред обществу.
Каждый второй итт любитель кьют энд фанни, с подключением. Но до соседнего треда нам все равно далеко, там такой каждый первый.

Аноним 06/07/25 Вск 04:36:53 № 1266348 67

>>1266347
Да он жирнит просто, я не верю, что тут сидят настолько наивные соевые дурачки.
К слову, в исходном посте я еще орнул с того, что он опенам будет стучать. Хорошо хоть не в КГБ.

Аноним 06/07/25 Вск 04:42:38 № 1266349 68

>>1266319
>>1266325
Я сам чуток поковырялся, и оказывается у llama 3.1 и 3.2 разный размер словарей, именно поэтому меня шлет нахуй. Получается 3B и 1B совместимы, а 3.1 8B и 3.2 1B нет

Аноним 06/07/25 Вск 04:44:11 № 1266350 69

>>1266348
>Да он жирнит просто, я не верю, что тут сидят настолько наивные соевые дурачки.
Ну он по факту прав. Тут та же ситуация, как с порнухой. Зачем пиздить бабу кирпичом по темечку и тащить ебать в кусты, когда можно передернуть с кайфом на какую-нибудь сисястую кобылку с онлика. Определенную группу людей это конечно отсеивает.

Аноним 06/07/25 Вск 05:14:53 № 1266351 70

>>1266350
Он не прав в том, что назвал его "больным", а также в том, что неявно предположил, что чел вообще собирался куда-либо переносить свои фантазии. А также сам факт наличия фантазий. Я, например, на заре увлечения ллм пробовал уговаривать персонажа А сломать пальцы персонажу Б. У меня нет никаких фантазий на этот счет, делал это исключительно из-за того, чтобы проверить, насколько далеко можно двигать пресловутые boundaries персонажа без получения отказа. С тех пор давно понял, что такое не имеет смысла, ибо расцензуренные модели рано или поздно согласятся на все, а зацензуренные либо вечно будут ходить вокруг да около, либо сделают это, но напишут или такой текст, который у тебя должен вызывать огромное чувство вины, или, как вон тредовички про гемму писали, окажется, что персонажи вообще пальцы ломают друг другу с кайфом по субботам, и с улыбкой тебе это сделают.
покормил

Алсо, твой тейк тоже противоречивый, потому что подобные вещи не только удовлетворяют фантазии, но и разжигают. Думойте.

Аноним 06/07/25 Вск 06:20:52 № 1266362 71

>>1266340
Нихуя ты загнул.

Если модель старая, это не значит, что она плохая, хотя у тебя придирки больше к другому, как я понимаю.

У дипсика одна из самых лучших реализаций кэша, что уже огромный бонус. Он отлично понимает, что тебе нужно и учитывает детали, а это пиздец как важно. MLA вместо GQA-кала. Ну и обучение явно на уровне.

Да, раскочегарить его не так-то просто, но по сравнению с ним всё, что ниже 70б, утопает в дерьме, и даже 70б выглядит вяло.

Разные файнтюны могут удивить своей охуительной писаниной, бесспорно, в отличие от дипсика, но когда ты решишь отыграть что-то эпичное, сложное, где действительно важно, чтобы модель следила за ситуацией - всё рассыпется. Потому что модель не учтет твои ПУНКТИКИ и СПИСКИ, лорбук и тонну говен, которую ты выкатываешь. Даже закрытые корпомодели в этом могут теряться или их качество падает на 64-120к контекста.

Просто назови мне модель, которая на твой взгляд может быть реальной альтернативой хоть в чём-то по вниманию к деталям, кроме геммы.

24б мистраль новый тут вообще даже близко не стоит, квены могут хотя бы что-то, но только в режиме резинонинга, который некорректно обычно работает на файнтюнах, а базовые модели крайне и сухие.

Есть ещё ризонинг-мистраль, который ничем не хуже 2.3, даже лучше, но мысль ждать генерацию очередного слопа мне как-то не доставляет. И он делает те же проебы, что и квен. Плюс выше 32к прыгать не стоит явно.

Аноним 06/07/25 Вск 06:50:46 № 1266376 72

>>1265422 (OP)
128GB VRAM for ~$600. Qwen3 MOE 235B.A22B reaching 20 t/s. 4x AMD MI50 32GB.
https://www.reddit.com/r/LocalLLaMA/comments/1lspzn3/128gb_vram_for_600_qwen3_moe_235ba22b_reaching_20/

Аноним 06/07/25 Вск 07:01:00 № 1266381 73

>>1266351
>Алсо, твой тейк тоже противоречивый, потому что подобные вещи не только удовлетворяют фантазии, но и разжигают.
Это не мой тейк, это вольный пересказ исследования по секс-краймам, падение которых как раз связывают с распространением порнухи. Но насчет разжигания - если челик изначально ебанутый, то его спровоцировать может что угодно, даже прогулка рядом с детской площадкой. И я не спорю с тем, что некоторые люди пробуют разные фетиши и извращения на нейронках чисто из интереса. И даже скорее всего не некоторые, а большинство. Ибо это самый безопасный способ понять что тебе (не) нравится и чего тебе не хватает.

Аноним 06/07/25 Вск 07:01:51 № 1266382 74

>>1266109
>бывает уходит в рефузал, но при этом тупеет сильно
Карточка, промт (ситуация) ?

Не ловил рефузов даже на жесткаче.
Покажи что делал, мб получится сделать правильно.

Аноним 06/07/25 Вск 07:07:30 № 1266383 75

gndfgnfgn.png 1Кб, 233x55

Этот параметр ускоряет работу модели если повышать его? Там написано что он потреляет больше памяти при повышении, видеопамяти или оперативной? Так же, тупеет ли модель если повышать его? Я пару тредов назад читал что для рп лучше 512, но роляет ли это в действительности.

Аноним 06/07/25 Вск 07:10:21 № 1266384 76

>>1266138
>оно строго под английский заточено со своими динамическими промптами
Эххх... надо тогда возвращаться к разработке своего фронта на пихоне... тем более что вроде бы стриминг удалось победить, оказалось надо запрос к апи кобольда в подпроцессе кидать чтобы он основной поток не блокировал и основной поток мог пуллить результаты генерации для вывода их в гуи.

Но движется оно прям очень медленно.

Вроде куча разных гуи, а того что делает хорошо всё что надо нет.

Причём мне вообще предпочительнее text-completion режим как в kobold-lite режим Story но с поддержкой карточек и лорбуков.

Не, в кобольде некий вариант лорбуков даже запилили... но такое себе.

Аноним 06/07/25 Вск 07:27:08 № 1266387 77

>>1266309
>deepseek v3 0324
Локально его тут конечно вроде пара анонов запускали, но всё же с этим не сюда.

Хотя согласен что опенроутеровский дипсик норм.
Я подрубаюсь иногда к deepseek/deepseek-r1-0528:free
Но больше именно для ассистентских задач, 50 запросов в день более чем достаточно.

Хотя говорят если десять баксов закинуть то там лимит на бесплатных до 1000 поднимается, но хз как их туда закинуть.

Аноним 06/07/25 Вск 07:40:06 № 1266390 78

>>1266329
Ты там на голом ассистенте чтоли.
Что тебя даже мистраль закуколдила.

Аноним 06/07/25 Вск 07:46:46 № 1266394 79

>>1266383
можно поднять до 1024, памяти будет жрать чуть больше, а обрабатывать пачками контекст куда быстрее

но зависит от железа конечно

Аноним 06/07/25 Вск 07:50:43 № 1266396 80

>>1266327
>я со школьницей ролю, я такое скидывать не буду
Уже скинул =))
Опенроутер логирует и сохраняет все логи для возможного использования, в том числе для включения в датасеты. Об этом прямо написано. Поэтому наверно у них и цензура послабее чем на других корпо-апи.

Аноним 06/07/25 Вск 09:56:46 № 1266430 81

>>1266384
Вот этот форк глянь еще - тут полноценный RAG прикрутили:
https://github.com/esolithe/esobold

Для Story, возможно, то самое получится. WI (рулбуки) там тоже усовершенствованы - группы, их загрузка-выгрузка, и т.д.

Аноним 06/07/25 Вск 10:26:23 № 1266441 82

>>1266430
сяп, надо глянуть

Аноним 06/07/25 Вск 10:37:56 № 1266446 83

>>1266348
Соешиз, это вопрос ментального здоровья. Если здесь у каждого второго беды с башкой, это конечно грустно

Аноним 06/07/25 Вск 10:44:50 № 1266450 84

база треда:
- меньше Q6_K жизни нет
- меньше 24B жизни нет
- меньше 16GB жизни нет
- меньше 8 каналов DDR4 жизни нет
- меньше 5 т/c жизни нет

дополняйте

Аноним 06/07/25 Вск 10:45:59 № 1266452 85

>>1266446
>Если здесь у каждого второго беды с башкой, это конечно грустно
Ты на двачах, а не на твиттерах. Тут никто свои беды с башкой скрывать не пытается. Но если ты тут ловишь дискомфортик, то можешь перекатываться на хабр или где вы там деловые и серьезные обитаете.

Аноним 06/07/25 Вск 10:50:07 № 1266453 86

>>1266329
орнул, спасибо

Аноним 06/07/25 Вск 10:59:52 № 1266459 87

>>1266452
Добавь в список своих проблем с башкой желание решать за других, что им интересно. Не нужно проецировать свои шизожелания на людей, о которых ты ничего не знаешь. "Каждый второй такой же как я", угу

Аноним 06/07/25 Вск 11:00:16 № 1266460 88

>>1266446
— Ничего не поделаешь, — возразил Кот. — Все мы здесь не в своем уме — и ты, и я!
— Откуда вы знаете, что я не в своем уме? — спросила Алиса.
— Конечно, не в своем, — ответил Кот. — Иначе как бы ты здесь оказалась?

Аноним 06/07/25 Вск 11:04:38 № 1266462 89

>>1266333
Красиво развёл.

Аноним 06/07/25 Вск 11:28:40 № 1266476 90

image.png 3Кб, 268x101

У меня 3060 12гб, i711700k , 32 оперативы, нормально-пойдёт или поедет? Скачал какие то модели вот эти, первый раз вкатываюсь

Аноним 06/07/25 Вск 11:30:31 № 1266477 91

>>1266476
потянет ли у меня 13б и 23б я вообще не ебу, если не потянет то скиньте плез те что потянут у меня

Аноним 06/07/25 Вск 11:32:27 № 1266479 92

>>1266476
> 12гб
поползёт

Аноним 06/07/25 Вск 11:39:28 № 1266487 93

>>1266479
ну блядь а что делать то? Я не хочу ради ебучей таверны видюху менять, неужели нихуя нельзя сделать на 12гб

Аноним 06/07/25 Вск 11:40:57 № 1266488 94

>>1266487
сорян, братан.

Аноним 06/07/25 Вск 11:41:12 № 1266489 95

>>1266487
>ну блядь а что делать то
Брать 8-12Б модели в шестом кванте, если хочешь шоб прям быстро.

• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane

Аноним 06/07/25 Вск 11:41:40 № 1266490 96

>>1266488
хоть ты и дабл но мне кажется ты мне пиздишь и 12гб не приговор

Аноним 06/07/25 Вск 11:41:41 № 1266491 97

>>1266476
>>1266487
12-15b модели нормально будут работать.
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Вот хорошая.

Аноним 06/07/25 Вск 11:44:40 № 1266493 98

>>1266490
какой дабл? ты трипл

Аноним 06/07/25 Вск 11:46:55 № 1266498 99

>>1266491
мимо другой анон новичок
Чето не вижу блять буквально где тут нажать чтобы скачать? Лол ебать

Аноним 06/07/25 Вск 11:47:47 № 1266499 100

>>1266396
да да, именно так

Аноним 06/07/25 Вск 11:49:27 № 1266500 101

>>1266498
Ты на чем модели запускаешь? На Кобольде? Тебе нужен .gguf квант модели. Жми на "Quantizations" в дереве справа и ищи подходящий. Если видишь bartowski или mradermacher, лучше их. Для 12б модели ниже Q6 брать не нужно, лучше Q8, если поместится.

Аноним 06/07/25 Вск 11:49:54 № 1266501 102

>>1266498

Аноним 06/07/25 Вск 11:52:14 № 1266504 103

image.png 9Кб, 572x122

image.png 47Кб, 804x283

>>1266500
оно ?
что качать, Q6К или Q6КЛ и в чем разница то нахуй

Аноним 06/07/25 Вск 11:55:17 № 1266509 104

>>1266504
Оно-оно. В чем разница - можешь прочитать самостоятельно, буквально на твоем скриншоте это объясняется. Если помещается Q6KL, лучше его.

Аноним 06/07/25 Вск 11:59:30 № 1266513 105

image 16Кб, 748x128

>>1266499
>да да, именно так
Да, именно так. Учись читать мелкий шрифт, ебланушка, в жизни пригодится.

Аноним 06/07/25 Вск 12:02:40 № 1266515 106

>>1266513
Неееет! Но на редите же написали что не собирают..!

Аноним 06/07/25 Вск 12:04:43 № 1266516 107

>>1266515
У них же НАВЕРНЯКА есть дела поважнее..!

Аноним 06/07/25 Вск 12:06:32 № 1266520 108

>>1266515
Да кому ты нужен, лол. Прямо все хотят знать, на что ты дрочешь.Кек.

Аноним 06/07/25 Вск 12:07:18 № 1266521 109

>>1266520
>хотят знать, на что ты дрочешь
и потом обучить на этом новый магнум

Аноним 06/07/25 Вск 12:08:21 № 1266522 110

>>1266509
ok ща скачаю и еще пару вопросов задам тогда. например че такое температура и нужно ли вообще с ней ебаться или похуй не трогать?

Аноним 06/07/25 Вск 12:13:34 № 1266526 111

>>1266522
Анонче, одно дело просить помощи, другое дело - не желать разбираться самому. Мне может за тебя еще и покумить на этой модельке? Разбирайся, учись. Информации полным полно, шапку чекай. Будут конкретные, хорошо сформулированные вопросы - возвращайся.

Аноним 06/07/25 Вск 12:17:19 № 1266528 112

>>1266513
написано же "providers of ...", т.е. дипсик собирает, а я к нему обращаюсь не напрямую через опенроутер, ну и пусть собирает его логи я номер своей карты в диалоге не указываю

Аноним 06/07/25 Вск 12:17:59 № 1266529 113

>>1266522
>че такое температура
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Аноним 06/07/25 Вск 12:18:47 № 1266530 114

>>1266528
>ну и пусть собирает его логи я номер своей карты в диалоге не указываю
вот это правильный, осознанный подход

Аноним 06/07/25 Вск 12:19:31 № 1266532 115

>>1266515
хмм кому я больше поверю анонимному пидору с двача или полуанонимному пидору с реддита

Аноним 06/07/25 Вск 12:21:25 № 1266533 116

>>1266532
1) полуанон у кого неуверенное мнение
2) полнонон у которого скриншот с доказательством

Выбор очевиден.

Аноним 06/07/25 Вск 12:21:52 № 1266534 117

>>1266138
>оно строго под английский заточено со своими динамическими промптами.
Просто добавляешь слой двустороннего перевода другой сеткой.
Твои сообщения переводятся на английский и тогда отправляются дальше, то что тебе выводится переводится на русский для показа. Это гораздо легче сделать чем переписывать кучу промптов и настраивать их работу

Аноним 06/07/25 Вск 12:22:21 № 1266535 118

>>1266532
Долбаебу обязательно нужно верить. Проверить информацию самостоятельно он не в состоянии, хых. Выше скриншот с сайта опенроутера, но ты не можешь даже воспользоваться сайтом, куда сливаешь свои логи? Съебалось в асиг, чудище.

Аноним 06/07/25 Вск 12:23:24 № 1266536 119

>>1266535
бля тоже хрюкнул с этого. самому читать - не, буду верить

Аноним 06/07/25 Вск 12:24:23 № 1266537 120

>>1266534
>двустороннего перевода
Да, только даже гемма в переводах проёбывается, остальные ещё хуже, я переводил многими моделями десятки тысяч строк.

Любой нейроперевод требует вычитки и правки человеком.
Пока нет моделей которым можно доверить такое и не проверять.

Аноним 06/07/25 Вск 12:25:11 № 1266538 121

>>1266535
блять на скрине написано что provider of free models. Это значит что дипсик собирает логи опенрутера которые поступают к нему от опенроутера, а не мои. Ты дурачок чтоли?
Сам опенроутер логи не хранит если ты это не выставил в настройках.

Аноним 06/07/25 Вск 12:28:59 № 1266540 122

>>1266538
Твой загон здесь: ===> https://2ch.hk/ai/res/1265922.html
Быть может всем тредом разберетесь.

Аноним 06/07/25 Вск 12:29:55 № 1266541 123

>>1266534
>Просто добавляешь слой двустороннего перевода другой сеткой.
Не навязываю свое мнение, но результат, IMHO, получается максимально угробищный. Даже гуглоперевод или DeepL текст достаточно сильно корежат, а уж что локалки с ним творят... Нет, смысл то понять можно, и получаются уже далеко не пресловутые "гуртовщики мыши", но блин - даже многие 12B пишут на русском краше и правильнее что ЭТО.

Ставил эксперименты с геммой и мистралем - если просить их писать сразу на русском, результат ГОРАЗДО лучше, чем если их же просить перевести то, что они сами нагенерили на английском.
Увы.

Аноним 06/07/25 Вск 12:29:55 № 1266542 124

>>1266538
А ещё там есть флажок Enable training and logging (chatroom and API) без которого тебя вообще на почти все фри модели включая кита не пустят.

Аноним 06/07/25 Вск 12:30:33 № 1266545 125

>>1266537
Новые гемма 3n переводят лучше чем как минимум гемма3 12b, попробуй. Сравнивал 8 квант естествннно.
Даже 4b модель, 8b еще лучше.
По крайней мере в переводе не идут по пизде имена. А еще они работают в половину своего веса, какой то аналог мое структуры там. Очень умные модельки получились, на счет сои хз не проверял

Аноним 06/07/25 Вск 12:43:55 № 1266554 126

Кто-нибудь проверял этот магазин?
https://servergear.ru/products/699-2g610-0200-100-videokarta-nvidia-tesla-p40-24gb-gddr5-gpu-pci-e-offered-worldwide?ysclid=mcrhfrw6s1418459399

Аноним 06/07/25 Вск 12:44:14 № 1266555 127

>>1266541
>чем если их же просить перевести то, что они сами нагенерили на английском.
Потому что сказать переведи это на русский не катит, нужен промпт. Тут в шапку положили мой промпт из таверны к расширению таверны на локальный перевод, магик транлсятору. Вот там есть пример того какой промпт должен получать агент переводчик. Может быть можно сделать лучше, но я пока не менял - и так работает.
Не зря суетился, с этими ебаными отключениями интернета уже пару раз пригодилось, как и запас нейронок в кармане.

Аноним 06/07/25 Вск 12:44:51 № 1266557 128

>>1266545
>гемма 3n
Они вроде хвастались что может в 140 языков, да и заточены те геммы не под рп, а как раз под агентов. Лучше, прям неплохо, но всё равно не без регулярных огрехов.

Аноним 06/07/25 Вск 12:49:37 № 1266563 129

>>1266557
Лучше их пока локально ничего не нашел. Огрехи уменьшаются семплерами и промптом для перевода, не убираются так уменьшаются значительно. Не знаю, меня не напрягает немного подредактировать перевод мысленно, если нужна какая та производственная надежность тогда конечно да, проблемки будут напрягать