/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №126

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №126 /llama/ Аноним 30/04/25 Срд 22:44:48 № 1184583 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

Не корпус, а пе[...].jpg 4144Кб, 2746x3681

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1179397 (OP)
>>1171574 (OP)

Аноним 30/04/25 Срд 22:51:10 № 1184590 2

А ведь у нас реально есть дипсик уже сейчас, полноценный конкурент большим нейронкам типа гемини, на 685b параметров, гопота дома.
Не понимаю какой смысл теперь в видюхах, их время ушло на ближайшие лет 15, модели уже есть а видюх под них нет, сейчас кроме рам вообще ничто не решает.
Я кстати не считал, может даже 3 3090 стоят дороже чем сетап с 405гб рам

Аноним 30/04/25 Срд 22:54:55 № 1184595 3

>>1184574 →
Сразу видно, что нихуя не разбираешься. У 8400f меньше техпроцесс и меньше L3 кэша, поэтому он холоднее 7500f даже при отсутствии припоя. А вот 7400f уже печка, да
>>1184590
Пиздец, первое сообщение в треде и уже насрал дипсикошиз

Аноним 30/04/25 Срд 22:56:55 № 1184598 4

>>1184595
>Пиздец, первое сообщение в треде и уже насрал дипсикошиз
х4 3090 шиз, ты?
Должно быть очень обидно что потратил столько бабок чтоб выебываться перед нищетой, а тут выходит модель в 5 раз умнее и уже ты сидишь на лоботомите

Аноним 30/04/25 Срд 23:01:35 № 1184605 5

>>1184598
Да, я собрал x4 3090 c 8400f. Как ты узнал?
покормил

Аноним 30/04/25 Срд 23:13:15 № 1184617 6

>>1184590
Если уж говорить серьезно о запуске на рам то вот эта штучка более интересна чем дипсик - Qwen3-235B-A22B
Только непонятно какие скорости можно выжать с и без оптимизаций с выгрузкой во врам.
Вот тут анон с ней играется, но цифры не кидает.
Вангую онли cpu где то токена 2-3, с выгрузкой активных экспертов в врам ну может до 10, хз
Обычная llama.cpp как то хуево выгружает их принудительно

Аноним 30/04/25 Срд 23:24:46 № 1184633 7

О заебись, в таверну добавили расширение оффлайн переводчика
Magic Translation

Аноним 30/04/25 Срд 23:26:23 № 1184637 8

>>1184583 (OP)
Ваш топ моделей до 22B для RP на русском языке?

Аноним 30/04/25 Срд 23:28:45 № 1184644 9

>>1184590
>на 685b параметров
Неюзабельно на консюмерском оборудовании, так что мимо.
Мимо жду гемму на 70B

Аноним 30/04/25 Срд 23:32:46 № 1184651 10

>>1184644
Как будто 70б запускаются на консумерском оборудовании

Аноним 30/04/25 Срд 23:33:33 № 1184652 11

>>1184637
Мистраль 24б аблитератед. Именно он. Файнтюны на русике - кал, хотя, возможно, есть нормальные.

Квен 30б, который новый и МоЕ. Он будет даже быстрее у тебя, чем 22б мистраль, если только мистраль целиком в память не влезет.

Но хоть русик у них и значительно лучше, беда в том, что он более формальный и менее живой, чем в тредовичковых миксах на 12б. Но тредовичковые довольно тупые.

Аноним 30/04/25 Срд 23:34:21 № 1184655 12

Кто-то уже гонял Qwen3-235B-A22B? Твое мнение, анон? На мой взгляд как-то жиденько. В переводы на русский - хуже геммы3, что с английского, что с японского (тут даже хуже). В рп вроде бы неплохо, затупы есть, в куме не совсем соевая. Но пока не могу сказать наверняка, тестил только часа два.

Аноним 30/04/25 Срд 23:37:36 № 1184662 13

Подскажите годные сетки переводчии с английского на русский, до 7b

Аноним 30/04/25 Срд 23:37:56 № 1184663 14

>>1184617
Да, на редите пишут, что на 7955WX работает 3 тс, то есть не юзабельно
>>1184651
Запускается. 64 ram уже не особо дорого, просто нужна какая нибудь MoE параша, чтобы на проце нормально работала

Аноним 30/04/25 Срд 23:40:23 № 1184667 15

>>1184663
>Да, на редите пишут, что на 7955WX работает 3 тс, то есть не юзабельно
И это странно, потому что активные эксперты в 4 кванте всего 11 гб занимают. Будто что то неоптимизированно под мое. Потому что та же плотная модель в 11гб выдаст токенов 6

Аноним 01/05/25 Чтв 00:05:57 № 1184685 16

>>1184652
>Но хоть русик у них и значительно лучше, беда в том, что он более формальный и менее живой, чем в тредовичковых миксах на 12б. Но тредовичковые довольно тупые.
Ну нет, для 12В там не то, что всё хорошо, а прямо отлично. Даже не верится что всего 12В.

Аноним 01/05/25 Чтв 00:10:26 № 1184691 17

>>1184685
Илья Гусев, мы тебя узнали, пошел нахуй с треда и свою обосранную сайгу забери

Аноним 01/05/25 Чтв 00:26:15 № 1184707 18

Nvidia 3 раз за месяц высрала свой драйвер. На этот раз ТВЕРДО И ЧЕТКО обещают исправить все баги

Аноним 01/05/25 Чтв 01:02:59 № 1184718 19

1705362641211.png 10Кб, 1500x500

Картинка не для обсуждения.

Аноним 01/05/25 Чтв 01:12:35 № 1184720 20

>>1184707
Не смогли. Снова все поломали. Минус 250мгц по памяти. Видимо придется вечно на декабрьских дровах сидеть

Аноним 01/05/25 Чтв 01:13:40 № 1184721 21

>>1184049 →
А может дело не в Synthia-S1-27b а в карточке? Первый раз такую забористую шизу вижу. Там дальше ещё забористее, но ограничения аутпута прервали поток.

Аноним 01/05/25 Чтв 01:21:18 № 1184723 22

>>1184718
подведём итоги:
Модели уменьшаются в размерах и ускоряются.
За последний год интеллектуальных прорывов нет,
ризонинг посути вшитый промпт "думай шаг за шагом в таком стиле..."
Данных брать не откуда. Синтетика ухудшает модели.
За три года ни одного прорыва, кроме никому ненужных n8 агентов для частных случаев.

Аноним 01/05/25 Чтв 01:22:08 № 1184724 23

>>1184723
Да, луддиты такое каждый раз пишут.

Аноним 01/05/25 Чтв 01:23:27 № 1184725 24

>>1184723
подвёдём итоги:
ты насрал в тред

Аноним 01/05/25 Чтв 01:24:38 № 1184727 25

>>1184721
Проиграл с капса в конце
Скинь текстом, я хочу это прочитать через переводчик

Аноним 01/05/25 Чтв 01:28:16 № 1184730 26

>>1184721
В конце базы навалил, вы все нейросатанисты.

Аноним 01/05/25 Чтв 01:31:09 № 1184731 27

>>1184727
Да я уже потёр эту шизу. К слову шизеет в каждом втором случае. Может микс английского с русским в описании так интересно влияет? Или жесть в описании карточки ломает модели?

Аноним 01/05/25 Чтв 01:33:17 № 1184732 28

>>1184731
Выглядит как сломанный сэмплер

Аноним 01/05/25 Чтв 01:37:02 № 1184733 29

>>1184718
>>1184720
Обосрамс полнейший
https://www.reddit.com/r/nvidia/comments/1kbhda6/game_ready_driver_57628_faqdiscussion/

Аноним 01/05/25 Чтв 01:40:02 № 1184735 30

>>1184732
simple-1 с фиксом от лупов из предыдущего треда. На других карточках работает без проблем.

Аноним 01/05/25 Чтв 02:11:28 № 1184746 31

>>1184651
2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
>>1184663
>просто нужна какая нибудь MoE параша
Мое параша сама по себе параша, лол.
>>1184707
Адепты обновлений вечно страдают. Сижу на дровах, которые сама шинда ставит, на остальное строго похуй.
>>1184727
>Скинь текстом
Не уметь кидать картинки в яндекс в 2025-м...

Аноним 01/05/25 Чтв 02:19:04 № 1184748 32

>>1184590
Прогорклый жир
>>1184721
Да синтия норм, по-своему припезднутая, по-своему уникальная. Тут у тебя какая-то классическая поломка ллм с ошизением, поломанный квант или баганый бэк. Даже не представлю как можно довести до подобного промтом.
>>1184746
> 2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
> Мое параша сама по себе параша, лол.
Двачую

Аноним 01/05/25 Чтв 02:39:19 № 1184751 33

>>1184746
> 2 по 3090 вполне себе подъёмные и размещаются в любом нормальном корпусе.
>>1184748
И какой квант вы собрались запускать на 48гб врама?
Хз, стоит ли оно того вообще

Да и для других задач такое железо не нужно, разве что для 4к игр. Технически - консумер хардвер, да. Де факто - хз, как будто будет интересно только профессионалам 3дшникам и прочим

Аноним 01/05/25 Чтв 02:47:17 № 1184756 34

>>1184751
> И какой квант вы собрались запускать на 48гб врама?
4-5 бит, стоит.
> Да и для других задач такое железо не нужно
Мир нейронок, машинлернинга и ии простирается далеко за пределы кума на локальных ллм, везде нужны гпу.
> как будто будет интересно только профессионалам 3дшникам и прочим
Типа да, в большинстве это действительно для энтузиастов, нердов, задротов, специалистов, странных людей и т.д. Считай что такое технохобби, которые для некоторых перекликается с профессиональной деятельностью.

Аноним 01/05/25 Чтв 02:59:56 № 1184763 35

>>1184751
>И какой квант вы собрались запускать на 48гб врама?
4,25bpw 70B в две карты влезут. Плюс хороший контекст. Другое дело, что как бы Ллама 3.3 70В последней не была.

Аноним 01/05/25 Чтв 04:21:53 № 1184776 36

>>1184756
>>1184763
>>1184748
Лама 70б не заметно лучше геммы 27б.
Я вообще разницы не увидел, даже тупее показалась

Аноним 01/05/25 Чтв 04:37:10 № 1184778 37

>>1184776
>Лама 70б не заметно лучше геммы 27б.
По уму их можно сравнить, вот только на Лламу есть куча тюнов и мержей. И есть хорошие. Ну и количество параметров иногда решает.

Аноним 01/05/25 Чтв 04:46:04 № 1184780 38

image.png 40Кб, 1083x194

Теперь просто ждать как меня наебут

Аноним 01/05/25 Чтв 07:02:13 № 1184791 39

Попробовал Qwen3-14B-Q6_K
Думает интересно. В рп не умеет, постоянно ишет за юзера, но вот в сторителлинге от третьего лица неплох. Хотя по сравнению с той же геммой... меня не покидает ощущение наёба.

Хотя конечно, в два раза меньше параметров.

Аноним 01/05/25 Чтв 07:07:15 № 1184792 40

>>1184721
ебанутые настройки сэмплера / промта, я такую шизу ловил только на в хлам поломанных и/или уквантованых мержах мистралек, (и моделях Давида) хз что надо делать с геммой чтобы её так поломать

ещё может быть проёбанный EOS токен

Аноним 01/05/25 Чтв 07:41:12 № 1184794 41

Что сейчас лучший вариант для рп в формате 27-32В? Квен3?

Аноним 01/05/25 Чтв 08:03:25 № 1184795 42

>>1184794
квен3 / гемма3

даже при том что они не всегда лучшее решение для рп, они просто лучшие в своём типоразмере и это вывозит в том числе и для рп

Аноним 01/05/25 Чтв 08:34:18 № 1184800 43

Qwen3-30B-A3B

Как его правильно запускать?

Аноним 01/05/25 Чтв 10:06:36 № 1184820 44

>>1184776
Довольно спорно, хоть и гемма является по-своему жемчужиной. Таки внимание решает, модель больше пишет более тонко и точнее охватывает контекст. Помимо лламы70 есть еще квен72 и немотрон. Ну и никто не мешает катать 6-8бит геммы/qwq/чего угодно с большим контекстом.
>>1184780
Не держи в себе, с тебя подробная история пердолинга и перфоманс. 32гига с не самым ужасным чипом дешевле чем сейчас теслы торгуются - вкусно.

Аноним 01/05/25 Чтв 10:11:11 № 1184822 45

Star-Command-R-32B

А вот это прям неплохо, первый коммандер который хоть как-то смог, хотя все остальные что пробовал тупняк на тупняке.

Но блин, не токены а золото, даже в третьем кванте, ноутбук не вывозит, так что наверно назад на гемму.

Аноним 01/05/25 Чтв 10:31:28 № 1184830 46

>>1184748
Да, поломанный квант. На заполнении к 8к контекста что выдал, шизеет. Тут просто карточка жирная, сразу всплыло.
>>1184822
не знаю как 3й, а вот результат 4го выше.

Аноним 01/05/25 Чтв 10:37:41 № 1184838 47

>>1184822
>даже в третьем кванте, ноутбук не вывозит, так что наверно назад на гемму
А что за ноут, который вывозит гемму и третий квант командера? Macbook pro на дохуя рам?

Аноним 01/05/25 Чтв 10:41:26 № 1184840 48

>>1184667
я так понял, что у Qwen3 MoE какая-то фигня с архитектурой, они комитили в трансформеров, чтобы оно работало. У кобольда и лламы не юзаются cuda (или пытается юзаться более старая версия), на сколько я понял по issue в гите https://github.com/LostRuins/koboldcpp/issues/1510
(щас уже походу пофиксили, надо чтобы анон с реддита перепроверял там все у себя)

Другое дело, что меня вот любая модель из третьего квена (ну 235б я не пробовал, ладно) не может нормально в РП и все время за меня отыграть пытается. Кроме карточек, где модель выступает не в роли персонажа, а в роли рассказчика, но и там все равно описывает мою реакцию на события, просто реже и чуть больше в тему.

Такое ощущение, что весь третий квен туповат и не может нормально в соблюдение инструкций, короче. А это уже серьезно. Ну или я что-то не правильно делаю, в таком случае надеюсь умный анон мне объяснит где именно я долбаеб (семплеры выставлены по тому что там в модельке у квенов описано, те же самые промпты на QwQ или других моделях работают как часы)

А, и может мне кто-то объяснить, как это, блядь, unsloth упихал 235б в < гиг?

Аноним 01/05/25 Чтв 10:52:30 № 1184847 49

>>1184838
>А что за ноут, который вывозит гемму и третий квант командера?
ASUS ROG Strix на девятой рязани и урезанной 4080

На деле даже вывозит, полтора токена в секунду, друзья по переписке XD.

Если сворачивать и заниматься работой, то пойдёт.

Аноним 01/05/25 Чтв 10:59:55 № 1184850 50

Все игры что пробовал (включая Wuthering Waves в которой многие жаловались на оптимизацию) летают на максималках, на нейронках всё же всего 12 честно-выделенной врам поджимают, приходится контекст в раму выгружать.

Аноним 01/05/25 Чтв 11:37:34 № 1184872 51

>>1184822
Да иди нахуй уже со своим говном бнз логоа

Аноним 01/05/25 Чтв 11:51:08 № 1184877 52

>>1184840
Может тебе стоит пользоваться проприетарными моделями? Всё таки тех уровень немножко высоковат, если не получается понять, что модель разбита на несколько файлов.

Аноним 01/05/25 Чтв 11:57:28 № 1184880 53

>>1184877
Нихуя там не разбито, самый умный анончик в треде. Это просто баг и щас этих файлов там уже просто нет. А разбитые на части модели именуются и выглядят по другому, иди понижать средний icq в другом месте

Аноним 01/05/25 Чтв 11:58:03 № 1184881 54

>>1184872
ебать подрыв с нихуя

Аноним 01/05/25 Чтв 11:58:25 № 1184882 55

>>1184822
каких командиров еще тестил?

>>1184872
хуй те в сраку

логи другой анон два треда назад кидал
и даже семплеры обсуждали

Аноним 01/05/25 Чтв 12:03:04 № 1184885 56

>>1184882
старый коммандер, айя, новый, ещё какой-то с числами, вроде промежуточная версия, несколько других (шизо)тюнов

Мда, но в кум он конечно. Мда. Псковское порно по телефону.

Аноним 01/05/25 Чтв 12:05:02 № 1184886 57

>>1184885
да, пикрил правда так себе
я на английском играл, с нормальной карточкой. было не так кринжово, да и описания неплохие

поделишься семплером? на чем в итоге остановился?

Аноним 01/05/25 Чтв 12:07:04 № 1184887 58

>>1184885
все еще лучше большинства мистралей бтв

Аноним 01/05/25 Чтв 12:16:17 № 1184892 59

>>1184886
>поделишься семплером?
Сейчас так.
>>1184887
>все еще лучше большинства мистралей
Ну не, омни-магнум-12б, да даже дпо-гемма-27 такой кринжатуры не выдавали, но тут скорее вопрос датасетов (или кванта), да и в сфв рп он вполне ок.

Аноним 01/05/25 Чтв 12:39:10 № 1184901 60

>>1184885
>>1184892
> Ну не, омни-магнум-12б, да даже дпо-гемма-27 такой кринжатуры не выдавали
А что ты ищешь в нсфв отыгрыше? В треде то и дело обсуждают цензуру и то, как сухо пишут некоторые модели и тюны. Правильно ли я понимаю, что анонам важны красочные описания? По мне так важнее, чтобы язык разнообразный был, модель креативила и действительно отыгрывала персонажа. Есть там wet pussy lips, hardening nipples или иные графические описания мне и вовсе без разницы. Вкину еще логи Star-Command-R, 4bpw. SFW и NSFW ситуации, в обоих случаях персонажи совсем не уходили от своих определений. Мне кажется, кум модели если и могут в красивые описания, то у них персонажи разваливаются, сводя их к какой-то общей твердой генеральной линии. Каждому свое, конечно, но для меня этот тюн если не круче, то на уровне Snowdrop (в моем случае там примерно такой же уровень NSFW отыгрыша, но менее богатый язык)

Аноним 01/05/25 Чтв 12:43:30 № 1184904 61

1746092610104.png 11Кб, 292x27

Блядь, я не могу уже нахуй эту хуйню читать. Если очень сильно посрать хочешь сходить, то так и скажи.

Аноним 01/05/25 Чтв 13:01:25 № 1184923 62

>>1184901
>>shivers down your spine
AAAAAAAAAAAAAAAAAAAAAAAAA

Аноним 01/05/25 Чтв 13:02:11 № 1184926 63

>>1184904
>>1184923
>AAAAAAAAAAAAAAAAAAAAAAAAA
Старик Хэмлок одобряет.

Аноним 01/05/25 Чтв 13:06:35 № 1184935 64

>>1184923
Как знал, что обязательно это кого-нибудь триггернет. Похоже, у меня иммунитет, и редкие протекания не напрягают. Это все можно заблочить через logit bias, как, например, рекомендуют это авторы Snowdrop (в их пресете можешь посмотреть). Но имхо падает общее качество аутпута. Это еще один способ лоботомизировать модель

Аноним 01/05/25 Чтв 13:07:06 № 1184937 65

>>1184901
О да, хелло шиверс, май олд фриенд.
На русике хоть не так явно палятся фразочки... хотя порой не менее кринжово.

Аноним 01/05/25 Чтв 13:17:11 № 1184952 66

>>1184763
>Ллама 3.3 70В
>>1184776
>Лама 70б
Ребята, в классе 70В ллама далеко не единственная. Китайцы лепят кучу неплохих моделей в этом размере.
>>1184800
>Как его правильно запускать?
Через пару недель.

Аноним 01/05/25 Чтв 13:50:24 № 1185001 67

>>1184526 →
>https://huggingface.co/bartowski
Почему у него? Я у этого https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF качаю.

Аноним 01/05/25 Чтв 13:58:25 № 1185006 68

>>1185001
У него больше вариантов квантов

Аноним 01/05/25 Чтв 14:31:03 № 1185031 69

>>1184952
>Ребята, в классе 70В ллама далеко не единственная. Китайцы лепят кучу неплохих моделей в этом размере.
Назови две.

Аноним 01/05/25 Чтв 15:19:05 № 1185065 70

Есть какие-нибудь юзер-френдли читалки?
Чтобы как кобольд запустил, засунул модель и женский голос озвучивает твою вайфу

Аноним 01/05/25 Чтв 15:50:00 № 1185080 71

>>1184617
А хули там кидать.

4 токена в секунду с выгрузкой в видяху через ллама.спп

При этом, у меня DDR4, а у знакомого DDR5 и у него 30B инференсится процентов на 50 быстрее, как и псп.
Т.е., выгрузка на видяху акивных экспертов тоже зависит от псп, и чем быстрее память — тем лучше инференс, до видеокарты все равно далеко, буст будет.

В итоге все просто:
Память побыстрее, видяху одну на 24 гига (3090 уже топич даже для зеонов 24-канальных), и поехал.
Для старых зеонов можно подкинуть теслу (один чел в телеге тестил), тоже бустит, аж трехкратно.

И, да, 235 хорошая модель. Действительно хорошая.

> с выгрузкой активных экспертов в врам ну может до 10
Думаю, на DDR5 с псп ~120 будет где-то так, да.
Для такой модели скорость уже отличная, ИМХО.

>>1184637
Qwen3-235B-A22B. =D

>>1184655
Выше писал.
В лоб с дипсиком на веб-задачах сталкивал, Квен даже обошел на одной, нравится.
Скорее всего на самом деле хуже в чем-то, каких-то знаний не хватит, но такое очень субъективно и надо ловить.
Юзать в переводу 235б модель будто оверкилл, гемма 4-12 есть же.

>>1184718
>>1184723
Вы шо творите содомиты, я бы поперхнулся, если бы пил сейчас! =D

Обсуждать не буду, все умные все понимают и так, за оба варианты мы аргументы знаем. Но хрюканина какие смешные картинки вместе!

Аноним 01/05/25 Чтв 16:54:13 № 1185150 72

>>1185080
>4 токена в секунду с выгрузкой в видяху через ллама.спп
Какой квант? 3KM имеет смысл?

Моя конфигурация - 3х3090 + 64гб DDR4 в четырёхканале, на лламаспп должно пойти. Не думал трогать эту модель, но раз такое дело... Там есть параметр, чтобы kv-кэш только во врам был?

Аноним 01/05/25 Чтв 18:07:13 № 1185274 73

>>1184583 (OP)
всем ку, реквестирую аишки для перевода

имею LM studio, 12600к, 2060с на 8гб, 32гб ддр 5 и нужду переводить англ и яп на русский
пока что пробовал все геммы3 от самой нищей до самой жирной, дипсисич и какие то еще хуй помню какие. качество перевода лучшее у жирных гемм, но все еще позорное + ждать строку по 10 секунд приходится.
есть какие то специализированные модели? заранее спасибо!

Аноним 01/05/25 Чтв 18:32:22 № 1185321 74

Фулл гпу, куда, одинаковые семплеры, llama.cpp
Угадайте в чем разница.

Аноним 01/05/25 Чтв 18:33:17 № 1185324 75

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
Спс тому анону, что дал ссылку на этот пиздец

Аноним 01/05/25 Чтв 18:42:13 № 1185338 76

>>1185321
Во втором случае фокус на консоли с жорой был?

Аноним 01/05/25 Чтв 18:51:36 № 1185360 77

Я тут недавно гнал на Qwen3-30B-A3B мол 11 токенов генерация блаблабла. Это было на куда версии, с -ngl 0. Я думал это не будет влиять на генерацию, ага как же.
Скачал чисто cpu сборку llama.cpp с openblas.
Генерация от 18 в начале до 15 на 1к контекста, ну и плавно падает.
Тоесть понимаете, да? Даже выгрузка кеша в видеопамять замедляло генерацию, я ебу.
Фронт съедает так же 2 токена генерации в секунду, о чем ниже.

>>1185338
Нопе, в первом случае кручу барабан в чате таверны, во втором случае кручу барабан в родном фронте llama-server.
Фуллгпу даже видна разница загрузки куда ядер, 95% и 60%.
Влияние на фуллгпу у меня космическое, чисто на процессоре проверял и там от половины токена в тяжелых сетках, до 2-3 токенов в секунду на быстрых.

Аноним 01/05/25 Чтв 18:56:27 № 1185377 78

Бля, ну не работает ktransformers, хоть убей, даже с релизного коммита. Какой вы торч и flash_attn используете? Я прибил гвоздями торч 2.6.0, т.к. для 2.7 в репозитории нет флеш аттеншена. Флеш аттеншен использую этот https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

Запускаю вот так:
CUDA_DEVICE_ORDER=PCI_BUS_ID CUDA_VISIBLE_DEVICES=0 python -m ktransformers.server.main --host 127.0.0.1 --port 5001 --gguf_path "/media/хххх/yyyy/AI/DeepSeek-V3-0324-GGUF/UD-Q2_K_XL" --model_path "deepseek-ai/DeepSeek-V3-0324" --optimize_config_path "/home/хххх/ktransformers/ktransformers/optimize/optimize_rules/DeepSeek-V3-Chat-serve.yaml" --cpu_infer 6

По-прежнему чаткомплит выкидывает эксепшен
TypeError: flashinfer_attn.forward() got an unexpected keyword argument 'attention_mask'

А текст комплишен - ошибку на стороне сервера.
INFO: 127.0.0.1:53644 - "POST /v1/completions HTTP/1.1" 422 Unprocessable Entity

Аноним 01/05/25 Чтв 18:57:17 № 1185380 79

изображение.png 4Кб, 437x67

изображение.png 5Кб, 445x67

>>1185360
Тут кстати уточню для остальных, запуская чисто процессором смотрите что бы эта мразь не отъела всю память, в 2 раза больше чем ей надо. Еще и не запускается от этого, зараза.
Если забивает не ~20 гб а все 32+ то нужно врубать --no-mmap
На скорость у меня не влияет.
Вот собственно разница в жоре памяти на 4 кванте Qwen3-30B-A3B, думается мне что это актуально для всех мое сеток

Аноним 01/05/25 Чтв 19:07:08 № 1185400 80

Есть другие шизы, что пытаются мин-максить квен? У меня пока так.

start "LLaMA Server" /high powershell.exe -Command "cd 'C:\Generative\'; ./llamaCPP/llama-server -m ./models/Qwen3-30B-A3B-128K-Q4_K_M.gguf --port 8081 -t 10 -c 16384 --mlock --batch-size 1024 --no-mmap --no-context-shift --flash-attn --cache-type-k q8_0 --cache-type-v q8_0 --override-kv qwen3moe.expert_used_count=int:10 --rope-freq-base 100000"

Кстати, тут кто-то говорил что у квена макс цензура. Картинка прилагается.

Аноним 01/05/25 Чтв 19:11:36 № 1185407 81

изображение.png 11Кб, 721x97

>>1185400
>Есть другие шизы, что пытаются мин-максить квен?
На месте.
Пока так Qwen3-30B-A3B-UD-Q4_K_XL.gguf, llama-bin-win-openblas какой то там релиз из последних
./llama-server.exe -t 8 -c 16384 --host 0.0.0.0 -m F:\llm\Qwen3-30B-A3B-UD-Q4_K_XL.gguf --mlock --no-mmap --top-k 20 --top-p 0.95 --temp 0.6 --min-p 0.01

Семплеры прибил для агента, можно и без них

Аноним 01/05/25 Чтв 19:15:43 № 1185419 82

>>1185274
Если ты хочешь нормальный перевод, то иди поплачь. На локалках его нет.

Коммерческие не локальные модели переводят хорошо в том плане, что смысл понятен, но даже они гадят абсолютно всегда. То есть перевод нужно совершать с множеством итераций и контекстным окном большим.

Аноним 01/05/25 Чтв 19:23:14 № 1185433 83

Где то на реддите вчера видел мол с вулканом быстрее Qwen3-30B-A3B чем с куда

Аноним 01/05/25 Чтв 19:28:10 № 1185449 84

>>1185400
Ты хоть скорости скринь, будет с чем сравнить.

Не вижу у тебя слоев, если без гпу крутишь то убирай --flash-attn, он тормозит.
Так же не вижу смысла квантовать кеш, он и так мелкий и мое чувствительно к нему, ответы хуже.
С количеством ядер поиграйся, либо равное физическим либо -1, с гиперпотоками можешь указать в обработке промпта в БЛАС треадс
А еще у меня свежий кобальд медленне чем чистый llama-server, вот так вот

Аноним 01/05/25 Чтв 19:35:08 № 1185463 85

Почему квен в луп уходит постоянный?

Аноним 01/05/25 Чтв 19:38:41 № 1185467 86

>>1185463
МоЕ? Не замечал. На каком контексте?

Аноним 01/05/25 Чтв 20:08:06 № 1185539 87

8-active.png 19Кб, 898x105

10-active.png 13Кб, 888x61

10-active-12k.png 13Кб, 909x60

>>1185449
У меня без -fa модель крашилась. Видимо из-за квантования кеша. Хз в общем.

start "LLaMA Server" /ABOVENORMAL powershell.exe -Command "cd 'C:\Generative\'; ./llamaCPP/llama-server -m ./models/Qwen3-30B-A3B-Q4_K_M.gguf --port 8081 -t 10 -c 16384 --mlock --no-context-shift --threads-batch 10 --batch-size 1024 --no-mmap --override-kv qwen3moe.expert_used_count=int:10 --rope-freq-base 100000 --no-webui"

Короче пока так оставил. Надо будет ещё посмотреть на разные варианты процессинга, но мне лень.

На скринах скорость с 8 активными экспертами (дефолт) и 10-ю (так вроде лучше). Ещё поискал чат подлиннее, его тоже прицепил с 10ю экспертами.

Аноним 01/05/25 Чтв 20:14:55 № 1185553 88

>>1185539
А так это количество экспертов было, понял что за строчка.
У меня так -t 8 -tb 16 , второе с гиперпотоками. Дает прирост обработки промпта на 20 процентов, если сделать все 16 то генерация даже меньше на 1 т/с
Да я вспомнил, для квантования кеша нужен -fa, а с ним медленнее

Аноним 01/05/25 Чтв 20:45:25 № 1185609 89

>>1185419
ну условная геминя 2 и 2.5 очень даже неплохо переводит, если после нее пройтись слегка ручками - никто и не поймет, что это аи переводила. в моем случае совсем не страшно, если она будет иногда терять контекст или ошибаться, но конечно не с такой частотой, которую выдает гемма/дипсик.
надеялся, что есть специализированные небольшие модели под перевод - разве нет?((((

Аноним 01/05/25 Чтв 21:01:54 № 1185624 90

Что-нибудь на замену магнума вышло?

Аноним 01/05/25 Чтв 21:12:13 № 1185637 91

Каков положняк треда по свежему квену? Говно или имеет право на жизнь?

Аноним 01/05/25 Чтв 21:23:30 № 1185659 92

>>1185637
имеет право на жизнь, но под рп как-то не очень. Уж не знаю как тут у пары анонов что-то получалось, но у меня третий квен хуево соблюдает инструкции, всегда хочет за меня отыграть. Хотя вот в задачах рассказчика получше, но все равно будет пытаться за игрока спиздануть или хотя бы описать реакцию. В куме особо не тестил, но сам начинать активно сопротивляется, даже если карточка обязывает.

Аноним 01/05/25 Чтв 21:27:04 № 1185663 93

>>1185609
Качество перевода зависит от того, какой там языковой датасет и насколько модель в целом умная. До 120b — это тупорылые огрызки в плане более-менее серьезных переводов.

А если уж там какой-то серьёзный и потный перевод, то надо модели задавать контекст, объяснять, в каком стиле переводить и что происходит. А потом переводить раз за разом с контекстным окном 120к, чтобы оно помнило нить и понимало, что вообще происходит.

Это касается как каких-нибудь медицинско-научных статей, так и литературного перевода. Огрызки такое не вывозят, пусть они и значительно лучше кала типа дипла, гуглопереводчиков и подобного.

Аноним 01/05/25 Чтв 21:30:28 № 1185665 94

>>1185659
У меня МоЕ-версия не особо проблемная в куме, просто сухая. И за меня не говорит.

Главное использовать ризонинг — иначе пиздец. Он вообще не будет вдуплять, что происходит, а вот с ним отлично справляется... Как 12b, только которая в трусах не путается и позах.

Другое дело, что ризонинг можно прикрутить и к 12b, но там надо адски мозги себе ебать: найти модель, которая может в самый сок, не игнорирует контекст в нулину и при этом слушается, а ещё её цепочка рассуждений не протекает ответ или ответ прям в цепочку.

Аноним 01/05/25 Чтв 21:37:20 № 1185685 95

>>1185665
тестил все 8-32б в рп, у всех одна и та же проблема, что MoE, что dense, у всех буквально одна и та же проблема с понимаем промпта. Мб дело в кванте, кстати, везде тыкал четвертый (K_L для 8-14б и K_S для 30-32б). Да, без ризонинга в принципе даже не пробовал, семплеры ставил рекомендованные

Аноним 01/05/25 Чтв 21:38:56 № 1185691 96

Кванты Квена 3 могут быть сломаны сейчас. Многие пулл реквесты еще не замерджили в лламу и другие инференсы. К тому же токенайзеры могли не завезти подходящие. Вы куда так спешите? Подождите неделю-две, и многое станет ясно. Как будто ни разу не видели такого, лол.

Аноним 01/05/25 Чтв 21:43:44 № 1185705 97

>>1185663
> пусть они и значительно лучше кала типа дипла, гуглопереводчиков и подобного
могу поспорить - геммы3 до 12б включительно выдают лютый хуйняк, даже гуглотранслейт лучше бы справлялся
>то надо модели задавать контекст, объяснять, в каком стиле переводить и что происходит
гемини с пустым промтом выдает очень неплохое качество, сама определяет пол по японскому имени, понимает место, правильно локализует нужные слова. повторюсь, мне не нужен идеальный дословный перевод, вполне хватит качества лучшего чем условный DeepL

Аноним 01/05/25 Чтв 23:01:32 № 1185852 98

>>1185031
Даже три:
https://huggingface.co/Qwen/Qwen-72B
https://huggingface.co/Qwen/Qwen2-72B
https://huggingface.co/Qwen/Qwen2.5-72B

Аноним 01/05/25 Чтв 23:17:13 № 1185892 99

>>1185705
>идеальный дословный перевод
Идеальный перевод нихуя не дословный.

Аноним 01/05/25 Чтв 23:32:32 № 1185932 100

>>1185892
то ли дело литературный, когда вместо самурая, едящего суши, у нас рыцарь жрет кашу с рисом, охуенно

Аноним 01/05/25 Чтв 23:50:52 № 1185969 101

>>1185892
ты понял, что я имел ввиду
>>1185932
::)

Аноним 02/05/25 Птн 00:34:14 № 1186025 102

>>1185150
> 3KM имеет смысл?
Да, определенно.
Но если есть тройка лишних гигов, можно до динамических XL докинуть, чому бы и ни, я думаю.

> Там есть параметр, чтобы kv-кэш только во врам был?
Так оно по умолчанию, вроде, если я не путаю.
Ну и оверрайд-кэш есть, насколько я помню, да.

>>1185377
Ммм…эм… Я использовал 2.7 + собирал флэш, подумаешь, часик подождать. Ну или два. Может три. Смотря какое железо.

Аноним 02/05/25 Птн 01:05:29 № 1186049 103

>>1185360
> Qwen3-30B-A3B
Нахуй ты вообще это говно крутишь?
Дядя ляо жестко обосрался, квен3 тупой и скучный, много лупится, в рп пишет как робот сука, гема соевая, вернулся на мистрали

Аноним 02/05/25 Птн 01:07:45 № 1186052 104

>>1186049
Другое дело может стоит попробовать 14б с ризонингом где он шустрее работает, на 32б совсем печать 1.1 минуту ждать сообщение

Аноним 02/05/25 Птн 01:09:32 № 1186055 105

>>1186049
>квен3 тупой и скучный,
толсто

Аноним 02/05/25 Птн 01:11:13 № 1186056 106

>>1186055
Давай логи рп, толстяк.
Он срет полотнами и лупится в одном сообщении, не понимает контекст, гема на 3 головы выше.

Аноним 02/05/25 Птн 01:37:49 № 1186073 107

Третьего дня, по совету рандомных камрадов, откачал два новых мегадевайса —Forgotten-Transgression-24B и MS-Nudion-22B в Q4_K_M, как полагается. Сразу же, задыхаясь от жадности, вскрыл модельки цепкими лапами и заюзал мегадевайсы. Размер, моё почтение. Настоящей глыбой были ЛЛМ. Даже моя, привыкшая к суровым будням, 4060 Ti 16GB, отказывалась принимать с первого захода. Совместными с Kobold усилиями забороли проблему. Ощущения — АТАС. С Gemma 2 не идёт ни в какое сравнение. Кроме того, конфиг Mistral-V7-Tekken-T приятно щекочет фантазию персонажа. Проходил так пару часов с подключенным XTTS2.

Не знаю на чём сделана Nudion, но она мне показалась приятней и объясню почему. Forgotten (Мистраль?) абсолютно не самостоятельная, без остановки срёт фразами "да-да, сделаю всё в лучшем виде, будем и то делать, и это, уже готова, вот-вот приступим, только расскажи как именно хочешь" и так бесконечно. Чем-то похожим страдала Гемма 2. А в этой Nudion такого нет, она просто берёт и пишет. И в целом разговор нормальный. Как будто не с ассистентом общаешься, а с человеком неохотно отрабатывающей проституткой, которая говорит с тобой за деньги. И лучше я пока не видел. Кто пробовал эти две, согласны? Или может даже пробовали их и можете предложить модель или конфиг ещё лучше?

Аноним 02/05/25 Птн 02:05:31 № 1186085 108

>>1186073
На пасту хрюкнул
>4060 Ti 16GB
Братик
>отказывалась принимать с первого захода
Как раз таки мистральчики и их тюны в 16 гб нормально входят как по маслу. А вот квен и гемму приходится смазать Q3, чтобы поместились
>предложить модель или конфиг ещё лучше
Анон выше советовал. https://huggingface.co/PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
А я сам на форготене кумлю

Аноним 02/05/25 Птн 02:08:26 № 1186090 109

Что лучше Qwen3 14b или Qwen3 30b? Соевички на редите разделились по этому вопросу. А какое мнение анонов?

Аноним 02/05/25 Птн 02:17:39 № 1186096 110

за что меня так наказали с моим 12гб огрызком...

Аноним 02/05/25 Птн 02:22:58 № 1186098 111

>>1186096
Не грусти, анон. Сейчас у тебя как минимум есть 3 хороших модели. Gemma3 12b, Qwen3 14b и Phi 14b. Все это отличные модели и все их ты можешь запустить с хорошим квантом и контекстом

Аноним 02/05/25 Птн 02:25:35 № 1186103 112

>>1186098
не, лучше iq3 от 22b с чуть убавленной температурой, чем эти огрызки
по крайней мере, несколько месяцев назад они проигрывали по всем параметрам

Аноним 02/05/25 Птн 02:30:32 № 1186107 113

>>1186103
А ты уверен? 22b это вроде старый мистраль, да? Он хуже старшей геммы и квена. Я не тестил, но я почти уверен, что на говенном кванте он будет хуже новых младших моделей на нормальном кванте

Аноним 02/05/25 Птн 02:35:41 № 1186114 114

>>1186090
30b все таки пизже, больше знаний впихнуто, быстрее крутится, минусы - размер, мозги размазаны, на 30b не тянет
Тоесть обмениваем размер на скорость
14b медленнее, меньше знаний, но все мозги сразу и меньше размер
Мое мне лично больше нравится, потому что скорость генерации для меня главнее
А так в среднем они равны как и сказали реддиторы

Аноним 02/05/25 Птн 02:38:37 № 1186116 115

>>1186107
Да, вроде на базе мистраля все мои любимые модели. Ладно, спасибо за инфу, попробую, хотя не ожидаю, что без файнтюнов они смогут заменить мою подборку.

Аноним 02/05/25 Птн 03:52:54 № 1186146 116

Хотел обосрать мистраль с прикрученной думалкой, но новый квен 32 примерно также ответил. Только язык сразу подхватил, что у него тоже бывает не всегда
Хотя dolphin все равно кал, он скорее днищит мистраль, а не улучшает его

Аноним 02/05/25 Птн 04:40:40 № 1186170 117

4 ллама вышла.
Тоже МоЕ. Работает значительно быстрее даже 32б квена.
Файнтюнов пока нет, базовая естественно на позитивчике.

Аноним 02/05/25 Птн 09:08:33 № 1186209 118

Что ставить на 24гб врам?
Qwen 2.5 32b instruct или Qwen 3 30B?

Аноним 02/05/25 Птн 09:10:24 № 1186210 119

>>1186170

Ссылку?

Аноним 02/05/25 Птн 09:31:45 № 1186219 120

>>1186210
https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF

Аноним 02/05/25 Птн 10:03:32 № 1186237 121

>>1185467
Вот этот https://huggingface.co/bartowski/Qwen_Qwen3-32B-GGUF.

Аноним 02/05/25 Птн 10:18:14 № 1186251 122

>>1186219

Она месяц уже как вышла, чел

Аноним 02/05/25 Птн 10:43:53 № 1186269 123

>>1186209
2.5 32b или QwQ, если выбор из квенов. Третий квен пока неюзабелен нормально и, возможно, что дело в квантах. У них там новая архитектура, короче, и оно просто тупое и хуево соблюдает инструкции. А может дело не в квантах, но на фулл весах кто тут сможет запустить и проверить? Чет не видел чтобы хоть кто-то сравнивал

Аноним 02/05/25 Птн 10:48:52 № 1186273 124

>>1184583 (OP)
Почему кобольт не хочет открывать эту модель https://civitai.com/models/1498292?modelVersionId=1701111
И какие вообще у него минусы?

Аноним 02/05/25 Птн 10:50:18 № 1186276 125

>>1186273
Ну и естественно графические модели из собственного гайда он запускает, но они года на 3 отстают по качеству, кмк.

Аноним 02/05/25 Птн 11:03:07 № 1186290 126

>>1186273
ммм... не знаю, наверно потому, что она вышла неделю назад, и ее поддержку еще не добавили.....

Аноним 02/05/25 Птн 11:30:57 № 1186317 127

>>1186290
А можете посоветовать что-то пиздатое с поддержкой?

Аноним 02/05/25 Птн 11:33:57 № 1186320 128

>>1186317
для генерации картинок прямо в фронтенде для ролевой игры? нет
для генерации картинок вообще - ComfyUI, очевидно
тебе в другой тред, для картинкогенерации, там подскажут все

Аноним 02/05/25 Птн 11:50:47 № 1186333 129

>>1186320
Не для ролевки, а вообще.
Согласен, что туда надо было писать, я промахнулся, но все же кобольд здесь даже в шапке прописан и я хотел посоветоваться с аноном стоит ли использовать его как основной инструмент.
Ну и comfyui у меня в репах нет, из-за пределов реп что-то ставить и поддерживать я оч не люблю.

Аноним 02/05/25 Птн 11:56:19 № 1186338 130

>>1186333
> использовать его как основной инструмент.
Основной инструмент для чего? Для генерации картинок? Нет.
Для загрузки LLM моделей? Может быть. В зависимости от твоих потребностей и возможностей. Кобольд популярен как самое простое решение, вместе с тем, возможно, он наименее производителен.

> Ну и comfyui у меня в репах нет, из-за пределов реп что-то ставить и поддерживать я оч не люблю.
Хз, о чем ты говоришь вообще, но лучше ComfyUI для картинкогенерации ничего нет.

Аноним 02/05/25 Птн 12:13:45 № 1186352 131

>>1186338
> вместе с тем, возможно, он наименее производителен
Как это проявляется и на что можно перекатиться, чтобы улучшить производительность?

Аноним 02/05/25 Птн 12:29:46 № 1186364 132

Мы русские не обманываем друг друга

Аноним 02/05/25 Птн 12:32:33 № 1186369 133

>>1186364
Цена слева за одну карту указана, то есть наценочка 120%

Аноним 02/05/25 Птн 12:37:08 № 1186375 134

Мое сетки надо на этом проверить. Скорости растут в разы, по крайней мере в обработке контекста, но там релизов нету.
https://github.com/ikawrakow/ik_llama.cpp
Кто собирать умеет?

Аноним 02/05/25 Птн 12:44:47 № 1186381 135

>>1186269
кстати, не в курсе как победить ответы qwq на китайском? Всем хороша, но постоянно просачивающиеся иероглифы...

Аноним 02/05/25 Птн 12:53:16 № 1186391 136

>>1186364
А нахуя оно надо вообще, если скорость дерьма будет?

Аноним 02/05/25 Птн 12:55:59 № 1186398 137

>>1186391
Высокотехнологичный обогреватель

Аноним 02/05/25 Птн 13:17:45 № 1186418 138

Спустя полтора месяца после релиза, месяц после олламы, две недели после turboderp поляк выкатил мистраль с vision (он кстати довольно неплох)
https://huggingface.co/bartowski/mistralai_Mistral-Small-3.1-24B-Instruct-2503-GGUF

Аноним 02/05/25 Птн 13:20:57 № 1186421 139

>>1186352
Голая llama.cpp, Exllamav2 (без оффлоадинга, только врам). Даже ненавистная LM Studio быстрее Кобольда, пару десятков тредов назад было обсуждение и логи генераций.

>>1186381
Сэмплеры фикси. Слишком жесткий rep pen, dry, xtc, много logit bias, а если все вместе - тем более пиздец, там и грамматические ошибки могут просачиваться, и пробелы срезаться.

Аноним 02/05/25 Птн 13:39:50 № 1186434 140

>>1186090
>>1186114
Все правильно сказал.

>>1186209
А если есть Qwen3 32b, то зачем остальные?
Хотя он может проседать без ризонинга.
Но тебе зачем? Для работы? Тогда Qwen3 32b с ризонингом бери.
Но QwQ тоже неплох, можно его.

>>1186333
Кобольд не имеет ничего общего с генерацией картинок.
Он это делает для РП в его фронтенде, не более.
Тебе нужен ComfyUI (только он, интерфейс говнище, зато поддержка всего и вся в первый день, не будешь себе ебать мозги и ныть «кагда мине дадут модельку!.. как запустить!..» сидя на нишевых, но красивых софтах, которые нахуй никому не вперлись, к сожалению), Кобольд — для текста.

>>1186381
Выставить нормальные семплеры и использовать нормальный бэк?
Вот не просачивались у меня почти нигде и никогда. Все, у кого иероглифы встречаются часто — юзают говно и скилл ишью, тут рил ничем не поможешь, если человек сам заставляет квена генерить кучу иероглифов.

Да, проблема есть, но масштаб совершенно иной.

О, вспомнил еще один метод!

Держи:

--grammar-file ~/grammar.gbnf

grammar.gbnf:
root ::= chars | chars root
chars ::= [0-9a-zA-ZА-Яа-яЁё,.:;?!$()_+='"&@#%^*~`<>\[\]{}|\t\n /\\-\u0410-\u044F\u0401\u0451]

Аноним 02/05/25 Птн 13:40:10 № 1186435 141

Бля, не могу разобраться как сделать папки для персонажей в списке в Таверне. Типо категоризировать их для удобства, а то их немало уже набралось. Типо кум/ассистенты/сфв
Где это сделать? Ткните пальцем пж

Аноним 02/05/25 Птн 13:42:34 № 1186436 142

>>1186435
Каталогизируй тегами

Аноним 02/05/25 Птн 13:43:00 № 1186437 143

>>1186434
> Все, у кого иероглифы встречаются часто — юзают говно и скилл ишью, тут рил ничем не поможешь, если человек сам заставляет квена генерить кучу иероглифов.
Новички берут сэмплеры откуда попало и многого в них не понимают. На странице Сноудропа отвратительный пресет, который ломает аутпут. Оттуда и все вопросы. Помочь можно - объяснить это.

Аноним 02/05/25 Птн 13:51:03 № 1186439 144

8 квант квен 14б выглядит менее сломанным чем 4 квант 32б
Ризонинг быстрее в 2 раза
Я остаюсь

Аноним 02/05/25 Птн 13:57:40 № 1186449 145

Там 4bpw exl3 ебут Q4KM и немного отстают от Q5KM. Кто-то пробовал? Оно действительно так хорошо?

Аноним 02/05/25 Птн 13:58:09 № 1186450 146

а нет залупы на месте

Аноним 02/05/25 Птн 14:00:08 № 1186452 147

>>1186449
Перплексити не лучший ориентир, надо кв дивергенс смотреть. Если правильно помню это оценка отличия топ токенов в выдаче от оригинала или что то такое.
А по хорошему надо не только вывод тестировать но и чтение промта, качество которого тоже просаживается от квантования.

Аноним 02/05/25 Птн 14:05:14 № 1186456 148

>>1185360
> в чате таверны, во втором случае кручу барабан в родном фронте llama-server.
Это не даст никакой разнцы. Скорее просто первый запуск и проперживание, а потом работа на горячую. Что при тесте свайпов таверны в готовом чате, что в пустом жорасерверном, что запросом скриптом - везде одинаковые скорости.
Хотя, был тут бедолага, у которого небраузер весь профессор/гпу загружал, возможно у тебя что-то подобное. Что за спеки железа, системы, какой браузер, накручено ли что-нибудь в настройках его?
>>1185377
Собери свой фа, оформи вэнв для ктрансформерс и перед самой сборкой собери подходящий.
>>1186273
Потому что кобольд - в первую очередь обертка llamacpp. Костыли на формальную поддержку чего-то еще это, конечно, хорошо, но они совершенно ужасны и не функциональны лучше бы вишпер сделали.
Для запуска графических моделей стоит использовать полноценные интерфейсы, заточенные под них.

Аноним 02/05/25 Птн 14:05:51 № 1186457 149

Просто квен блять!
Я юзаю семплеры какие сказано разрабами
Вы гандоны что ли? Хули всё лупится к ебени матери, долбоебы?

Аноним 02/05/25 Птн 14:07:23 № 1186458 150

>>1186457
FP16 юзай. Не будет лупится может быть

Аноним 02/05/25 Птн 14:08:22 № 1186460 151

>>1186457
Спок, Руди. Включи немотрончика своего, запихни его себе в очко и кумь. Нормальные люди подождут неделю-другую, пока все починят и будут кайфовать.

Аноним 02/05/25 Птн 14:11:14 № 1186464 152

>>1186460
Ага GLM-4 уже починили как тут писали - тот же кал

Аноним 02/05/25 Птн 14:12:07 № 1186465 153

>>1186452
> Если правильно помню это оценка отличия топ токенов в выдаче от оригинала или что то такое.
Это взвешенная характеристика отличий в распределениях, действительно наиболее удачный вариант метрики.
Правда он не покажет возможной шизы модели, бывают варианты где средние оклонения низкие но регулярно присутствуют крупные всплески, особенно сильно на жоре наблюдалось.

Аноним 02/05/25 Птн 14:12:39 № 1186468 154

>>1186457
Оно может нарисовать хексагон крутящийся с шариком посередине, хули тебе ещё надо скотина?!

Аноним 02/05/25 Птн 14:12:44 № 1186469 155

Знаете что я понял, если и есть профессия которую LLM убьют одной из первых, то это психология.
Сейчас у меня скажем так не самый легкий период жизни и я поймал себя на том как легко мне общаться с моделью, главное задать промт что бы она вела себя как специалист, а не просто поддакивала игнорируя неудобные моменты, и внезапно она ведет себя очень похоже(имею опыт) на реального "психолуга" только к машине куда больше доверия чем к очередному "5к за сеанс".
В прекрасное время мы живем.

Аноним 02/05/25 Птн 14:15:11 № 1186474 156

изображение.png 9Кб, 733x78

Хотел с локальным переводом в таверне поиграться через новый плагин, а эта хуйня с ошибками что то шлет на сервер.
Ебануться и залезть в код или забить?

Аноним 02/05/25 Птн 14:17:27 № 1186477 157

>>1186464
ЦА мушоку тенсея во всей красе: "глм 4 после фиксов все еще говно, значит квен 3 тоже будет говном"
Поздравляю, ты 0.6б модель

>>1186469
Главное, никакие препараты не принимай из тех, что тебе могут порекомендовать. Как психологическая помощь - вылить душу и получить какой-то "ответ" - работает, да. Только КПТ, только вербальная терапия.

Аноним 02/05/25 Птн 14:19:21 № 1186480 158

>>1186469
Если тебе просто выговориться надо то да, в остальном нет. Хороший психолог (а лучше психотерапевт) это прежде всего специалист, который использует разные методики, оценивает твое состояние и может в случае чего выписать таблетки или порекомендовать лечь в дурку
А ЛЛМ это в основном генератор шизобреда. Возможно есть специализированные ЛЛМ именно под психологию, но я таких не знаю
Так что не обманывай себя, иди к психологу, пока не одурел еще больше
Хотя если ты на дваче сидишь, то возможно уже поздно

Аноним 02/05/25 Птн 14:21:28 № 1186481 159

>>1186474
Бля понял, надо чат комплишен использовать. О чем конечно нигде ни слова.

Аноним 02/05/25 Птн 14:22:52 № 1186485 160

>>1186480
Найти хорошего психолога очень сложно. То, что ты описал - картина за розовыми очками. Как человек, который побывал у нескольких таких, я уверен в том, что говорю. Не забывай, где мы живем. И никто не отменяет тот факт, что они тоже, прежде всего, люди. Мне попадались и те, кому буквально похуй на мои проблемы, и те, кто после двух минут разговора уже все решает для себя и дальше просто дает выговориться, чтобы в итоге пропустить это все мимо ушей и озвучить свой вывод. Все это стоит денег и сил. Так что я согласен с аноном, что выговориться ЛЛМке - хороший способ. Скорее всего, отправившись к психологу (даже изучив отзывы и мнения на всех площадках), человек либо попадет на деньги, либо сделает себе хуже

Психотерапевты - это вообще пиздец. Они сразу прописывают таблетки, которые большинству людей не нужны, и это только усугбляет ситуацию

Аноним 02/05/25 Птн 14:23:45 № 1186486 161

>>1186477
Само собой, препараты это уже психотерапевт и рецептура, туда никаких психологи доступа и так не имеют. Но вот выслушать, провести сухой анализ ситуации и подсказать где я, мясной мешок, объективно заблуждался она может очень хорошо.

>>1186480
У меня проблема больше в том что эмоции могут застилать рациональность, и я не вижу очевидного. Тут не шиза уровня дурки, все ок. Скажем так, 3 года назад я перенес похожий пиздец это пользуясь только самостоятельной рефлексией, и это было очень долго и тяжело. Ощущения в сравнении с сейчас неба и земля.

Аноним 02/05/25 Птн 14:33:48 № 1186494 162

>>1186469
Какую модель юзаешь, братик? Мне бы тоже не помешало.

Аноним 02/05/25 Птн 14:34:08 № 1186495 163

Кек, сравните перевод простого запроса на английском с английского на русский.
Угадайте где и какая локалка

Аноним 02/05/25 Птн 14:34:22 № 1186496 164

>>1186469
Да врядли, большинству нормисов наоборот будет проще с кожанными, только если самых низких шарлатанов. Лучше бы риелторов и перепуков наебнули, вот где истинный рак.
Хорошо что тебе помогает нейроночка, тред несет добро.
>>1186477
> глм 4 после фиксов все еще говно
Да уже за это можно обоссать. В нормальных моделях стабильно находят сою (наверно потому что безумно траят одинаковую херню в надежду на реакцию как когда-то срандомилась в шизомердже), получают лупы в не склонных к этому, удивляются "странному вниманию", зато нахваливают мое с 0.6б активных.
>>1186485
Двачую. Большинство психолухов, которые ведут подобие практики, глупее среднего местного, не могут подметить подмечатель.жпг лол важные вещи и в логику причинно-следственных связей, а просто посоветуют тебе временное облегчение по методичке. Или просто послушают и "ну давай братишка, займись спортом и открой для себя что-то новое, а там организм сам вылечится".

Аноним 02/05/25 Птн 14:37:05 № 1186499 165

>>1186485
Понятно, что психолог может быть похуистичным профнепригодным уебком. А может быть хорошим специалистом. Тут приходится выбирать.
Но ЛЛМ в принципе лишена этих качеств это просто генератор текста, довольно хуевого зачастую.Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Максимум ЛЛМ сейчас могут использоваться как помощники для специалистов, вроде прогеров или даже врачей. На этом все, остальное хуйня и самообман
>прописывают таблетки, которые большинству людей не нужны, и это только усугбляет ситуацию
В РФ почти все действующие таблетки забанены. Так что наркоту или что то жесткое тебе никто не выпишет а жаль

Аноним 02/05/25 Птн 14:40:12 № 1186502 166

>>1186494
Самое умное что доступно на моем сетапе, в моем случае это 27 гема. Но сейчас думаю для редких разговоров не зазорно и к корпам податься просто ради максимально адекватного русского, если рпшить или делать какие-то рабочие задачи мне и на англ. норм, то в таких вещах хочется чтобы модель лучше обрабатывала нюансы которые я физически только на родном языке передать смогу. Да и нет в этом ничего зазорного или того что стоит прятать от товарища майора.

Аноним 02/05/25 Птн 14:41:52 № 1186503 167

>>1186434
а регулярка влияет на разрешённые символы или просто режет оутпут?
>>1186437
Вот кстати да, есть подобный разбор настройки семплеров? Такое ощущение что все проблемы от них.

Аноним 02/05/25 Птн 14:43:29 № 1186506 168

>>1186499
> Понятно, что психолог может быть похуистичным профнепригодным уебком.
Именно в этом и проблема. Таких - большинство

> Но ЛЛМ в принципе лишена этих качеств это просто генератор текста, довольно хуевого зачастую.Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Скорее грустного человека убьет профнепригодный уебок на специалисте, чем безобидная ЛЛМ. Человек, расписывая свои проблемы, сам переосмысливает какие-то вещи. И в ответ гарантированно получит какое-то подобие поддержки и понимания. При желании с ЛЛМ можно обсуждать КПТ и другие аспекты вербальной терапии. Как это может навредить? Это куда безопаснее мудака на психологе, который может легко добить отчаявшегося человека, который пришел к нему за помощью. Своим безразличием, жаждой растянуть терапию ради денег или опрометчивыми выводами

> На этом все, остальное хуйня и самообман
После десятка психологов и двух психотерапевтов я выбираю "самообман" - он помогает мне привести мысли в порядок и понять новые для себя концепции терапии

> В РФ почти все действующие таблетки забанены. Так что наркоту или что то жесткое тебе никто не выпишет
Может выпишут таблетки полегче, да и неважно какие - они станут для уязвимого человека психологическим спасением. Он будет думать, что таблетки ему необходимы, когда в большинстве случаев это не так

Либо у тебя не было плохого опыта в этой сфере, либо ты просто не знаешь, о чем говоришь

Аноним 02/05/25 Птн 15:04:56 № 1186527 169

>>1186437
Поделишься пресетом для сноудропа?

Аноним 02/05/25 Птн 15:09:12 № 1186533 170

>>1186469
А что у тебя за промпт и карточка? Помоги тревожнику

Аноним 02/05/25 Птн 15:14:28 № 1186538 171

>>1186499
> Если ты выбираешь ее вместо специалиста, то это полный пиздец, который может угробить тебя
Это действительно полный пиздец, который хорошо характеризует ситуацию на рынке этой области. Что сраный генератор текста лучше и может помочь больше, чем типичная тп или нетакусик после тренингов.
И в целом, ллм действительно может быть более проф пригодной и внимательной чем не крутой опытный специалист, который еще не выгорел нахер и не работает по шаблону. Ллм более того, еще и достаточно осторожны и деликатны, разумеется не шизорпмиксы а нормальные.
>>1186506
Двачую
> Он будет думать, что таблетки ему необходимы
Знаю такого человека, это реально пиздец полный

Аноним 02/05/25 Птн 15:21:01 № 1186540 172

>>1186506
>>1186538
У меня нет бед с башкой, так что я не был у психолога. Но у меня в универе было несколько курсов про ИИ, включая ЛЛМ. Так что я знаю, что ЛЛМ это просто генератор парашного текста. Но если он вам помогает лучше врача, то ок
Возможно при входе в кабинет психолога, он сразу начинает ссать вам на ебало, тогда ЛЛМ действительно будет возможно получше

Аноним 02/05/25 Птн 15:23:48 № 1186542 173

>>1186540
Ведешь такой нормальную беседу, а потом внезапно подрываешься потому, что с тобой не согласны. Проблема в том, что психологом может оказаться долбаеб вроде тебя. И да, именно поэтому ЛЛМ безопаснее

Аноним 02/05/25 Птн 15:28:09 № 1186547 174

>>1186540
> Так что я знаю, что ЛЛМ это просто генератор парашного текста.
блииин ты такой умный
мы-то без курсов по ллм не знали, что это предсказатель текста
думали, там сидит маленький умный ии-разум и пишет нам ответы

Аноним 02/05/25 Птн 15:29:04 № 1186548 175

>>1186542
>потом внезапно подрываешься
Неа, мне просто похуй
>психологом может оказаться долбаеб вроде тебя
Неа, не может, я не настолько долбоеб, чтобы идти в психологи
>поэтому ЛЛМ безопаснее
Генератор случайных слов с огромной порцией соевости и позитивности, вроде геммы, действительно может быть безопаснее
Но лучше бы ты сходил и полечился

Аноним 02/05/25 Птн 15:30:29 № 1186550 176

>>1186547
Ну если вы на полном серьезе обращаетесь к нему с жизненными проблемами, то вы либо не знаете этого, либо долбоебы

Аноним 02/05/25 Птн 15:32:05 № 1186552 177

>>1185932
картинка_с_пориджем.жпг

Аноним 02/05/25 Птн 15:32:21 № 1186553 178

>>1186540
У меня были/есть беды с башкой, так что будучи достаточно прошаренным чтобы решить их или нет я не был у психолога. Но знаком с несколькими кто себя так называет, а также несколькими пациентами подобных - в большинстве это вредительство, в лучшем случае временное скрытие симптомов вместо осмысления проблемы и ее решения. Очень плохо что люди много о себе мнят, но при этом даже в простой беседе не могут подвести обоснование своим утверждениям, имеют резкие убеждения в социальной сфере, которые не стесняются грубо высказывают, или просто не могут проявить достаточную гибкость для каких-нибудь активностей, типа ролевок/мафии.
> в универе было несколько курсов про ИИ, включая ЛЛМ. Так что я знаю, что ЛЛМ это просто генератор парашного текста.
Это очень абстрактные и устаревшие данные, текущий "генератор текста" набирает больше баллов в тестах разного уровня профессиональности, и может являться очень мощным инструментом в руках специалиста, или того, кто может их юзать.
Или средством терапии, уже во всю делаются статьи с исследованиями на эту тему.

Аноним 02/05/25 Птн 15:38:29 № 1186555 179

>>1186548
> Неа, не может, я не настолько долбоеб
Похоже, все-таки настолько. Тебе много раз сказали, что ЛЛМ полезна для саморефлексии в процессе взаимодействия, что это работает почти как блокнот мыслей в КПТ. Но ты это игнорируешь, нихуя в этом не понимаешь и продолжаешь повторять единственное, что ты запомнил на курсе по ЛЛМ. Так что, если ты не и не долбаеб, то просто глупый

> Но лучше бы ты сходил и полечился
Спасибо, работаю над этим. Ты тоже работай над своей агрессией и/или глупостью

Аноним 02/05/25 Птн 15:39:43 № 1186557 180

>>1186550
>>генератор парашного текста

Ты серьёзно сейчас это пизданул, иксперд?

Аноним 02/05/25 Птн 15:48:00 № 1186568 181

>>1186557
Вперед, хуйлуша, расскажи что же это такое, раз не генератор текста

Аноним 02/05/25 Птн 15:49:11 № 1186569 182

>>1186568
Слушай короче, можешь записывать:

Это генератор хуёв тебе за щеку, хуйлуша.

Аноним 02/05/25 Птн 15:49:40 № 1186571 183

Что по тюнам геммы 3? Выкатили что годное уже? Fallen Gemma норм?

Аноним 02/05/25 Птн 15:50:04 № 1186572 184

>>1186569
Порвался, молодец

Аноним 02/05/25 Птн 15:52:02 № 1186574 185

>>1186571
Её невозможно ни тинюнить ни аблитерейтить.
Соя настолько велика что всё это бесполезно

Аноним 02/05/25 Птн 15:52:07 № 1186575 186

>>1186572
>>Хуйлушкин с курсов профессиональных пиздоболов утверждает, что его жопа не улетела на МКС

Держи в курсе

Аноним 02/05/25 Птн 15:53:33 № 1186578 187

>>1186571
Синтия, или полюбишь, или возненавидишь, или сразу вместе.
> Fallen Gemma норм?
Попробуй, может быть ничего.
>>1186572
Но он прав. Ты сначала оформить тейк про
> просто генератор парашного текста
в контексте, который подчеркивал бесполезность этого. А теперь уже перекатываешься и хочешь оправдать все свои суждения тем, что основной продукт генерации ллм - текст. Ну херня же, в этом треде такие маневры не прощают.

Аноним 02/05/25 Птн 15:56:39 № 1186581 188

>>1186574
Жаль, видимо придется дальше на мистралях сидеть и квен 3 ждать

Аноним 02/05/25 Птн 15:59:22 № 1186582 189

>>1186578
>в контексте, который подчеркивал бесполезность этого
Хуйня, нигде не говорил о бесполезности. Парашный просто оценочное суждение, которое говорит о том, что генерированный текст зачастую оставляет желать лучшего
>>1186575
Продолжаешь рваться, сучка

Аноним 02/05/25 Птн 16:06:08 № 1186583 190

>>1186582
Даже в этом посте имплаишь, а там вообще все прозрачно.
Это можно понять, ведь ты или сам как-то причастен к теме, или восхищаешься людьми, которые там витают. Из-за чего воспринимаешь в штыки плохую среднюю оценку, а способность ллм приносить пользу там даже большую чем паразиты костью поперек горла. Если бы шарил - сам бы хейтил этих долбоебов.
В ллм тоже не соображаешь, о чем сам говоришь, но зато делаешь утверждения.

Аноним 02/05/25 Птн 16:06:23 № 1186584 191

>>1186581
Но qwq 32, лучше квена 3

Аноним 02/05/25 Птн 16:08:29 № 1186585 192

>>1186583
>Это можно понять, ведь ты или сам как-то причастен к теме, или восхищаешься людьми, которые там витают. Из-за чего воспринимаешь в штыки плохую среднюю оценку, а способность ллм приносить пользу там даже большую чем паразиты костью поперек горла. Если бы шарил - сам бы хейтил этих долбоебов.
Таблетки прими

Аноним 02/05/25 Птн 16:09:26 № 1186586 193

>>1186584
Квен 3 должен быть лучше. По циферкам. По факту надо ждать в любом случае. Может его починят и выкатят норм рп тюн

Аноним 02/05/25 Птн 16:11:57 № 1186588 194

image.png 378Кб, 1212x305

>>1186586
Говорили qwq пишет сухо.
А ваша гемма так напишет?

Аноним 02/05/25 Птн 16:32:26 № 1186599 195

>>1186503
Честно скажу — не знаю, я просто в одном чатике схватил такое решение по квену у человека, которому эти символы не нужны.
Но насколько оно корректно работает — надо тестить, а я не планирую. Мое дело поделиться.

Аноним 02/05/25 Птн 16:33:35 № 1186600 196

Я просто оставлю это здесь...

Аноним 02/05/25 Птн 16:37:25 № 1186603 197

>>1186600

Аноним 02/05/25 Птн 17:22:32 № 1186642 198

>>1186600
>Я просто оставлю это здесь...
Пересказ среднего значения выведенного из 100500 просканированных за 5 минут любовных романов, написанных за последние 300 лет, и сохранённых в сети.

Аноним 02/05/25 Птн 17:26:30 № 1186653 199

>>1186600
>это
Вот как ты отличишь, - это новая генерация, или это средневзвешенное значение взятое из 1000 000 любовных романов, которые робот просканировал в сети и сохранил в своей базе? - Никак не отличишь.
Для этого надо самому прочитать все эти романы, и запомнить их, чтобы потом подловить нейросетку на каком-то палевном плохо отрерайченном предложении или абзаце.

Аноним 02/05/25 Птн 17:29:29 № 1186657 200

>>1186642
>>1186653
А санитары что говорят?

Аноним 02/05/25 Птн 17:35:37 № 1186666 201

>>1186657
Все санитары уже заменены ЛЛМ

Аноним 02/05/25 Птн 17:38:15 № 1186672 202

>>1186657
Ты ж учти, нейросеть просканировала все тексты мира, которые есть в сети.
И если кто-то запрашивает у неё ролевую игру на тему любовных отношений - то это база называется: все любовные романы мира, которые нейросетка просканирвоала. И она оперирует данными из этих текстов, например методом рерайтинга. Ну рерайт статей для сайтов ты же слышал как делается? Это замена на синонимы и пересказ исходника похожими словами.

Это легко проверить на технических темах, нейросетка ничего нового не придумает, не изобретёт. Она будет пересказывать заменой слов (рерайт) то что уже есть в её базе. Просто у неё огромная база и выборка (типа случайность) происходит в широком диапазоне по данным потому что есть из чего выбирать. Но если сузить данные, с любовных романов до научных каких-то узкоспециальных знаний, то уже будет заметно что нейросетка будет делать повторы, и специалисты могут подловить её узнав откуда она взяла тот или иной кусок абзаца или предложения и пересказала его методом рерайта.

Аноним 02/05/25 Птн 17:42:08 № 1186679 203

Аноны, есть какие-нибудь идеи для использования qwen3 0.6млрд параметров?
Пока на ум приходит какой-нибудь личный суммаризатор текста, пары абзацев.

Аноним 02/05/25 Птн 17:44:19 № 1186681 204

>>1186679
Пытался его в переводчики таверны засунуть, моя твоя ебал но что то может. Когда с форматом ответа не лажает.

Аноним 02/05/25 Птн 17:52:04 № 1186696 205

Ок, благодаре реддиту настроил чтобы эта хуйня(квен3-32B) не лупилась и даже выдавала что-то адекватное на русском.
А теперь вопрос на миллион. Как отключить этот ебаный синкинг?

Аноним 02/05/25 Птн 17:55:04 № 1186701 206

>>1186696
/no_think В конец любой инструкции, систем или в карточке или даже в конце твоего сообщения.

Аноним 02/05/25 Птн 17:55:13 № 1186702 207

>>1186696
Попробуй в system note /no_think или <think></think>
И скинь сэмплы свои

Аноним 02/05/25 Птн 18:00:19 № 1186711 208

>>1186696
Блять как ты его настроил фошист.

Аноним 02/05/25 Птн 18:06:28 № 1186717 209

image.png 455Кб, 1508x371

>>1186701

Помогло. А как убрать эти пустые <think> </think>?

>>1186702

Держи(пик2)

>>1186711

Настройки семплера с пика + ChatMl везде + убрать галочку с Always add character's name to prompt + Include Names = Never.

Аноним 02/05/25 Птн 18:08:49 № 1186719 210

Не, даже ваши 32б пока туповаты в сравнении с бесплатным дик сиком. Продолжаю спокойно терпеть до 64 гиговой 6090.

Аноним 02/05/25 Птн 18:09:08 № 1186720 211

>>1186696
>Также важно учитывать, что она лоли 14 лет

Аноним 02/05/25 Птн 18:10:06 № 1186722 212

>>1186719
>бесплатным дик сиком

Поинтересуйся там, какой у него контекст, вот ты удивишься.

Аноним 02/05/25 Птн 18:15:14 № 1186731 213

image.png 22Кб, 550x117

>>1186722
163к. Мало слишком? Ты на своих теслах больше запускаешь?

Аноним 02/05/25 Птн 18:16:37 № 1186733 214

>>1186717

Так, я разобрался, надо reasoning formatting = blank сделать.

Аноним 02/05/25 Птн 18:18:49 № 1186736 215

>>1186719
Даже 64 гига будут сосать хуй. Локалки сосут и будут сосать корпам всегда. Единственное новые локалки уже ебут годовалые корпы
Но в любом случае их суть в тюнах и приватности. Я не хочу чтобы товарищ майор читал мой кум.

Аноним 02/05/25 Птн 18:19:18 № 1186739 216

>>1186731
Я прям представляю твоё еблище как ты будешт ждать пока обсчитается 163к.

Аноним 02/05/25 Птн 18:20:53 № 1186745 217

>>1186731

У самой модели контекст 128к, а не 163к.

Аноним 02/05/25 Птн 18:23:41 № 1186748 218

>>1186736
Не будут, уже научились умещать 32б в 16 гигов, значит и в 8 научатся. Настанет день, когда модель с мозгами от 600б модели будет влезать в твой смартфон. А пока сидим на облачном хуйце и терпим.

Аноним 02/05/25 Птн 18:26:11 № 1186753 219

>>1186748
> А пока сидим на облачном хуйце и терпим.

Не сидим.

Аноним 02/05/25 Птн 18:29:09 № 1186760 220

>>1186731

Стоп, так у тебя там вообще V3. Так он однозначно сосет у нового 32B квена, лол.

Аноним 02/05/25 Птн 18:30:20 № 1186764 221

>>1186748
Особо смысла в этом нет. Как это будут юзать? Абсолютно никак и всем будет похуй.
Вроде бы сейчас доступ к инфе (в целом имею ввиду) доступный как никогда раньше и толку?
Так и тут, люди даже не будут знать и понимать как пользоваться таким йоба-инструментом.

Аноним 02/05/25 Птн 18:32:33 № 1186768 222

>>1186657
Где-то у меня была хорошая картинка в тему как чувак в свежем чате написал "hi".

Аноним 02/05/25 Птн 18:35:33 № 1186773 223

>>1186753
>>1186760
Копиум локальщиков. И кста R1 там тоже есть, как и немотрон и старший квен 235. Так что увы локалки сейчас не имеют смысла, пока есть опероутер

Аноним 02/05/25 Птн 18:35:39 № 1186774 224

>>1186764
Ого! Понимаешь, так совпало, что мне похуй на людей и я выбираю то, что лучше всего для меня. Представляешь?

Аноним 02/05/25 Птн 18:37:12 № 1186775 225

>>1186774
Если ты сам запилишь это себе в смарт, то здорово, но явно будешь делать не ты.

Аноним 02/05/25 Птн 18:37:26 № 1186776 226

Ну штош, высрав 3к контекста на охуительный синкинг, квен таки решил правильно классическую головоломку с волком козой и капустой лисой, кроликом и морковкой.

Аноним 02/05/25 Птн 18:42:13 № 1186781 227

1679291140672.webm 262Кб, 532x720, 00:00:05

>>1186775
Так мне ничего делать не надо. Оно само развивается. Мне достаточно не быть ебанатом-гейткипером или нитакусей которая жрет говно при наличии лучшей альтернативы..

Аноним 02/05/25 Птн 18:44:22 № 1186783 228

ну что, соскучились?

Аноним 02/05/25 Птн 18:44:31 № 1186784 229

>>1186773
штаны сними, перед тем как срать. Который тред уже срешь сюда об этой залупе. Видимо он на столько хорош, что ты его не трогаешь, а тут воздух портишь

Аноним 02/05/25 Птн 18:46:11 № 1186785 230

>>1186783
ты кто такой и что это у тебя за хуйня вообще?

Аноним 02/05/25 Птн 18:46:30 № 1186786 231

>>1186773

Разумеется имеют, они же локальные и не отсылают твой кум непонятно кому и помещаются в одну 3090/4090, которая и так должна быть у любого уважающего себя человека в 2025 году.
А вот смысл в ригах действительно отпал в последнее время, все 70-100В тихо умерли, а запуск 400-600В просто реально не стоят своих затрат.

Аноним 02/05/25 Птн 19:00:21 № 1186804 232

>>1186783
Мультиплексоры и SFP?

Тоже отчитаюсь. Пришел 60см прямой райзер вместо углового. Из плюсов - соответствует спекам, 4.0 16х держит ваннаби амазон - 970vaXG. Из минусов - всё равно не удалось поставить карту на 1 слот ниже, чтобы нижняя планка была в 1, а не в 2. И это ограничивает это место 3-этажной картой, увы. Корпус кромсать не хочется. Приходится терпеть в итоге в главном слоте самую дохлую карту.

Аноним 02/05/25 Птн 19:00:29 № 1186805 233

>>1186773
> локалки сейчас не имеют смысла, пока есть опероутер
Что несет этот копиумный гой, это новая методичка обладателей отсутствия?
>>1186783
Мадока - бутлег или так зашакалило?

Аноним 02/05/25 Птн 19:03:21 № 1186808 234

Нихуя как оно оперативно защищает свои стремительно устаревающие карточки

Аноним 02/05/25 Птн 19:04:22 № 1186811 235

>>1186808
Не забывай почаще говорить "сладко", если не хватает на 5090

Аноним 02/05/25 Птн 19:05:19 № 1186812 236

>>1186811
Так и 5090 недостаточно, чтобы крутить что-то на уровне дипсика/клода, зачем платить больше?

Аноним 02/05/25 Птн 19:05:35 № 1186813 237

>>1186748
Кроме бенчмарков и тредов на реддите это "уже научились" где то проявляется?
Я пока не заметил

Аноним 02/05/25 Птн 19:05:57 № 1186814 238

Пиздец, в квен вообще цензуру не завезли, никакого аблитерейтеда или джейла не использую - гемма бы уже визжала как свинья, а этому поебать вообще. Сам текст что он сгенерировал показывать не буду, покажу только синкинг.

Аноним 02/05/25 Птн 19:06:49 № 1186816 239

Помогите нубу. Мне нужен ИИ-ассистент для разных задач, помочь разбираться в общих темах. Для себя. Программу тренировок для себя составить, мб по меню питания вопросы задавать. Насколько полезен ли продукт и можно ли его отнести к конкретной диете. У меня 24гб видеопамяти. Можно ли такое на локальном ИИ сделать? Гемма 3 27 подойдёт? Или с таким только большие веб ассистенты помогут?
Спасибо тем, кто ответит.

Аноним 02/05/25 Птн 19:07:20 № 1186817 240

>>1186814
Зачем? Зачем ты это пишешь? Зачем постишь сюда? Зачем вообще существуешь?

Аноним 02/05/25 Птн 19:08:18 № 1186819 241

>>1186816
Лучше ты всё равно не запустишь. Подойдёт. А так - лучше онлайн. Дипсик тот же отлично подойдёт, если тебе именно то, что ты описал надо.

Аноним 02/05/25 Птн 19:09:58 № 1186822 242

>>1186816
>Можно ли такое на локальном ИИ сделать?

Можно. Можно написать кастомную карточку такого ассистента для таверны или просто дефолтного использовать.

>Гемма 3 27 подойдёт?

Пойдет. Но лучше Qwen3 32B, он умнее.

Аноним 02/05/25 Птн 19:10:01 № 1186823 243

>>1186804
Что за райзер?
> амазон - 970vaXG
Не находит ничего.
5.0 режим пробовал? у тебя же вроде есть чем А что установке мешает, непонятно окружение. И почему на х16 самую дохлую, не понятно.

Насчет райзеров - удобный и качественный https://aliexpress.ru/item/1005006752061032.html но оче большая плата где разъем может ограничить варианты установки в узких местах. Зато выполнен хорошо, легко изгибающаяся змея вместо кучи шлейфов, которые при изгибе резко сокращают доступную длину, может в 5.0.
>>1186812
> на уровне дипсика
С каких пор копиум стал эталоном? Да и клод подсдал, сойнет заебумба для кодинга и все, опус все еще душевный, но уже подустарел и под жб деградирует.

Аноним 02/05/25 Птн 19:10:56 № 1186825 244

>>1186785
это две материнки btc79x5, купленные с авито. На каждой стоит mellanox connectx-4 lx.
Связаны оптой.
Я буду сейчас ковыряться с мелланоксом, проверять трупут и в идеале запущу распред на 6 карт по 3 на каждой матери.
>>1186805
>Мадока - бутлег или так зашакалило?
не знаю, не шарю.

Аноним 02/05/25 Птн 19:11:09 № 1186826 245

>>1186817

Делюсь опытом модели с анонами, а что? Почему ты порвался?

Аноним 02/05/25 Птн 19:12:12 № 1186827 246

>>1186814
Нах юзать thinking mode при рп

Аноним 02/05/25 Птн 19:14:22 № 1186830 247

>>1186827

А почему нет, если это улучшает качество ответа и предотвращает залупы? Скорость позволяет, контекст не засирается благодаре фильтру в таверне, отображение этого синкинга можно просто спрятать.

Аноним 02/05/25 Птн 19:17:03 № 1186834 248

>>1186830
>Время ответа: 1 сек
>Время ответа: 18 сек
Даже не знаю, видимо разницы нет.

Аноним 02/05/25 Птн 19:19:29 № 1186835 249

>>1186825
>в идеале запущу распред на 6 карт по 3 на каждой матери.
Там это, анон выше по треду привёл аргументы, что риги не нужны. Квена 32В хватит всем.

Аноним 02/05/25 Птн 19:20:21 № 1186837 250

>>1186825
> не знаю, не шарю.
Привезена, заказана в фирмовом магазине до ковида, здесь по месту задорого - орига (скорее всего). С алишки по акции, на озоне по цене двух шавух - бутлег. Ну и по качеству видно, одна будет аккуратная с минимальными косяками, швами приятная на ощупь и т.д., а вторая - крипота с подтеками литья, браком покраски и т.д.
>>1186830
Хз насчет третьего квена, но в остальных оно не улучшает ответы. Повторение всех инструкций, рефлексия, подробный анализ по несколько раз, чтобы в итоге дать ответ пигмы.

Аноним 02/05/25 Птн 19:20:35 № 1186838 251

>>1186825
>две материнки btc
Брал бы сразу майнинг ферму на 20 видеокарт.

Аноним 02/05/25 Птн 19:25:01 № 1186839 252

>>1186823
> Что за райзер?
> Не находит ничего.
Это же ссылка была, не код товара ozon ru /t/970vaXG

> 5.0 режим пробовал?
5.0 чёт не пробовал, т.к. только 3090 втыкал в него. Более новые карты не трогал, не хотелось шатать лишний раз их несчастный vhpwr'ы. Но не думаю, что 5.0 было бы хорошо - ловить рэндомные фризы, да и смысла от него нет же вроде.

> А что установке мешает, непонятно окружение.
Это вертикальный-вертикальный кронштейн из кита-расширения. Недостаточно широкая щель в корпусе для кабелей и недостаточная гибкость самого райзера на единицу длинны мешает передвинуть сам райзер ниже, чтобы он стал в плоскости с (1). Это дало бы поставить туда карту на 1 слот ниже, т.е. 4 слотовую. Если сейчас туда ставить 4 слотовую, то она торчит на 8мм на плоскостью мп и мешает вставлять карты в мп.

> И почему на х16 самую дохлую, не понятно.
Потому что она 3 слотовая. Остальные 4 слотовые. А вставить райзер в мп можно только в главный слот, остальные либо используются картами, либо ими же перекрыты. Я уже как только не крутил, никак другой слот под райзер не выделить. Йехх

Аноним 02/05/25 Птн 19:25:59 № 1186840 253

>>1186835
>риги не нужны
а, ну раз анон сказал, то пойду выкину все железки для локалок которые уже успел купить за полтора года
>>1186837
брал в аниме магазине, я не знаю откуда и мне все равно, на вид нормальная

кто такой вам квен 32б? Очередной аналоговнет вмещающийся в 24 гб и рвущий дипсик? Сколько уже таких было...
вопрос серьёзный, я больше месяца в треде не был
в последний раз как я тут был все ссали кипятком от геммы3 и шутили про то, что фанаты геммы все поняли...

Аноним 02/05/25 Птн 19:27:38 № 1186845 254

>>1186823
> Насчет райзеров - удобный и качественный
Забыл ещё дописать - крутой, спасибо. Но для меня не пойдёт - но 38см, надо мин 55, и плата большая - как раз ищу с маленькой. Про окулинк надо подумать, наверное

Аноним 02/05/25 Птн 19:28:45 № 1186846 255

>>1186816
Пили интересно. Разве маленькие модели не будут выдавать шизу вроде того, что сыр - часть веганской кухни? Или что рис - часть безглютеновой диеты.

С запросами анона только к корпам. Прав или не прав?

Аноним 02/05/25 Птн 19:29:19 № 1186847 256

Бля. Рили, ебучий т9

Аноним 02/05/25 Птн 19:32:24 № 1186851 257

>>1186840
>кто такой вам квен 32б?

Ну это главная опенсорс модель сейчас, в отличие от дипсика не мое(хотя есть и мое варианты).

>вмещающийся в 24 гб и рвущий дипсик

Дипсик на самом деле всего лишь 37В модель, так что нетрудно понять как 32В может с ним конкурировать на равных.

>я больше месяца в треде не был

Квен обсуждают в треде минимум год.

Аноним 02/05/25 Птн 19:33:14 № 1186852 258

>>1186846

Неправ в том что корпы тоже могут такую хуйню выдавать.

Аноним 02/05/25 Птн 19:35:09 № 1186855 259

Qwen3-1.7B уже можно юзать как локальный переводчик, если пофиг на качество уровня чуть ниже гугла.
На голову выше 0.6b, хотя я и эту тупицу смог заставить работать, кек.

Аноним 02/05/25 Птн 19:41:52 № 1186862 260

>>1186855
Даже 30b-a3b сосет в склонениях русских слов

Аноним 02/05/25 Птн 19:46:27 № 1186868 261

>>1186862

Что ты хотел от 3B модели? Ниже 20B жизни нет.

Аноним 02/05/25 Птн 19:50:11 № 1186873 262

>>1186855
А в чем смысл использовать такие мелкие модели? Разве 4b уже не будет намного лучше. Да и гемма в руссик намного лучше может, разве нет?
https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf

Аноним 02/05/25 Птн 19:53:52 № 1186877 263

>>1186868
3b - это суммарный размер 8 экспертов. На реддите, кстати, аноны советуют 12 ему врубить, мол качество сильно лучше.

Тем не менее, оно, конечно, не как плотный 30б работает, но и не 3б все-таки. А скорость при этом приличная. Но это не отменяет того, что для рп третий квен - тотальное разочарование (абсолютно все, кроме может 235б, но это я при всем желании проверить не могу), тут уж или файнтюны с ними магию сотворят, или ждать квен 3.5, где они не факт, что все поправят

Аноним 02/05/25 Птн 19:57:59 № 1186884 264

>>1186839
Ничесе, с глобала. И цена неплохая, особенно по сравнению с битками. 5.0 или работает или помирает в ошибках и все, насчет его нужности с х16 режиме - хз, нужен ну оче специфичный кейс. С меньшим числом линий уже сыграет.
> она торчит на 8мм на плоскостью мп и мешает вставлять карты в мп
Ааа, вот в чем дело. Ну тут только чем-нибудь пройтись расширив отверстие, резиновую вставку можно штатную вернуть, растянется и заодно замаскирует вмешательство. Проблема в том что придется сначала все вытащить из корпуса, а потом обратно запихнуть, это очень напряжно вплоть до невозможности, лол.
Или, как вариант, искать корзину для поворота на 90 граусов карт что стоят в материнке, тогда и решится проблема перекрытия слотов для райзера. Но чтобы там было 7-8 слотов сразу не встречал.
>>1186840
> на вид нормальная
Тогда возможны оба варианта.
>>1186845
Тут надо отметить что заявленный на 48 оказался с большим запасом там где обычный на 40 не доставал нормально. Те дефолтные что рассчитаны на 4.0 имеют оче грубые шлейфы, которые нельзя сильно сгибать, а попытка перемещать по оси вдоль ориентации слота резко сокращает доступную дистанцию в сочетании с этим.
А кронштейн тот от отверстия для кабелей отодвинуть нельзя?
>>1186851
> Дипсик на самом деле всего лишь 37В модель
Ну не совсем. Это большая модель, которая в теории может иметь много знаний, но вот внимание лишь чуть лучше чем у 30б. В сочетании с ризонингом это удачное решение, которое условно говоря позволяет "дать сработать большей части весов", вот только перфоманс в отрыве от этого, или для сложных кейсов все равно херь.
>>1186877
> что для рп третий квен - тотальное разочарование
Кмк, тут еще замешаны ошибки в квантах/беках/формате и лень/особенности тестировщиков. Квены всегда были специфичные, но не полным днищем, нужно разбираться.

Аноним 02/05/25 Птн 20:02:50 № 1186889 265

>>1186877
>советуют 12 ему врубить
А где? И как скорость дропается с этого?

Аноним 02/05/25 Птн 20:04:06 № 1186892 266

>>1186884
> Проблема в том что придется сначала все вытащить из корпуса, а потом обратно запихнуть
Оче лениво, не смогу заставить себя. Проще жать Generate же

>корзину для поворота на 90 граусов карт что стоят в материнке
Она есть, но она только для одной карты же. И при этом блокирует все остальные слоты, кроме верхнего. Так что тоже не выход.

> А кронштейн тот от отверстия для кабелей отодвинуть нельзя?
Неа, там всё зафиксировано. Можно только на 180 градусов развернуть, вот это вариант ещё думаю, но по-моему ничего не даст, + более длинный райзер потребуется.

Аноним 02/05/25 Птн 20:06:06 № 1186896 267

Поясните за gemma. Никогда не пользовался. Стоит потратить на неё время?

Аноним 02/05/25 Птн 20:06:39 № 1186897 268

Так и всё таки: есть хоть какая-нибудь модель без цензуры?
Мне порно-промты для SDXL генерировать. Ну хоть самая простая и тупая, но чтобы SDXL знала!

Аноним 02/05/25 Птн 20:07:09 № 1186898 269

>>1186896
>>1186897
Да

Аноним 02/05/25 Птн 20:09:16 № 1186899 270

>>1186877
>для рп третий квен - тотальное разочарование

Квен никогда и не был для ролеплея. Тем не менее 32В модель выдает РП всего лишь чуть хуже геммы.

Аноним 02/05/25 Птн 20:12:57 № 1186902 271

>>1186884
> Кмк, тут еще замешаны ошибки в квантах/беках/формате
Ну собственно да, еще на это есть надежда. В трансформеров, вроде, коммит от квена прилетел за сутки до публикации модели, до этого слитые веса 0.6б версии не запускались.

Но фулл веса 14б мне запустить не дано, чтобы посмотреть, а более мелкие даже хз, есть ли смысл проверять.

>>1186889
На кобольде хз, можно ли вообще. Вроде как можно через лламу, но пока вникнуть даже не пытался, в падлу, погугли короче, должно быть не сложно. По поводу скорости, просесть должна не сильно, это будет где-то 4.5б активных параметров

>>1186899
Ну вот хз, QwQ сам по себе божественный рп хуячит, жалко только что медленно. Сноудроп вроде должен быть вообще пиздат

Аноним 02/05/25 Птн 20:13:40 № 1186904 272

>>1186896
Умная, может в русик даже, картинки распознает. Но ОЧЕНЬ много СОИ. Очень жирный контекст, где-то в два раза больше чем у квена
>>1186897
Квен и мистраль почти без цензуры, только нужно написать им минимальный промт для этого
Для просто генарации промтов мне кажется даже он справится
https://huggingface.co/Qwen/Qwen3-4B

Аноним 02/05/25 Птн 20:14:08 № 1186906 273

>>1186873
>А в чем смысл использовать такие мелкие модели?
Тем что они еще меньше офк

Аноним 02/05/25 Птн 20:15:49 № 1186908 274

>>1186892
> Оче лениво, не смогу заставить себя. Проще жать Generate же
База
> Она есть
Именно большая? Встречал только на 2-3-4 слота что херь.
> Неа, там всё зафиксировано.
Если прикручивается и ничего не мешает то можно сделать отверстия, это сильно проще чем снимать металл для расширения окна и может быть сделано без полного разбора если офк есть инструмент и привычка, иначе см. пункт "база". Если входит в пазы или смещать уже некуда то уже не вариант.
>>1186896
Стоит, оче хорошая производительность для размера, достаточно универсальна и умна.

Аноним 02/05/25 Птн 20:31:32 № 1186915 275

изображение.png 89Кб, 881x286

Перевод мелкосеткой, ориг, гугл
Помоему неплохо, надо будет другую мелочь затестить
Квен кстати в нотсинк режиме, с ним чуть лучше но дольше

Аноним 02/05/25 Птн 20:42:44 № 1186928 276

>>1186915
>коты являются вместо коты это
дальше не читал эту нерусь

Аноним 02/05/25 Птн 20:51:40 № 1186936 277

>>1186915
Ладно, гемма 1b пизже чем квен3 4b

Аноним 02/05/25 Птн 20:54:50 № 1186942 278

>>1186936
Удивлен что 1b вытягивает перевод на уровне гугла в таверне. Хотя думаю в более сложных местах она соснет

Аноним 02/05/25 Птн 20:58:48 № 1186945 279

>>1186942
Ну описание котов это как перевод художественного текста, что есть самое простое для переводчиков.

Аноним 02/05/25 Птн 21:04:47 № 1186952 280

>>1186945
Хотел как-то запилить переводчик на базе ллм, который продикидывает инфу о том, что находится на сайте, в качестве контекста, чтобы нейронка могла понять как переводить текст в подобном контексте + дать нейронке возможность гуглить сленговые слова. Думаю получилось бы близко к идеалу

Аноним 02/05/25 Птн 21:05:26 № 1186953 281

У Геммы 3 на всех инференсах контекст настолько много врама жрет? Это пиздец. На Экслламе2 запускаю, каким-то образом 4bpw 32к жрет больше, чем 4bpw 32к 34b модели (против 27 Геммы).

Аноним 02/05/25 Птн 21:06:20 № 1186956 282

>>1186953

Квантуй kv cache

Аноним 02/05/25 Птн 21:09:30 № 1186965 283

>>1186956
Знаю про квантование. У меня вопрос в другом - это проблема имплементации Геммы 3 в Экслламу, или особенность Геммы 3 на всех инференсах?

Аноним 02/05/25 Птн 21:11:13 № 1186967 284

>>1186965
> особенность Геммы 3
Это

Аноним 02/05/25 Птн 21:19:55 № 1186977 285

>>1186953
Геммочка очень умная, ей много надо.

Аноним 02/05/25 Птн 21:20:03 № 1186978 286

>>1186953
Ага, это пиздос
>жрет больше
Причем намного больше
>>1186956
Так нихуя не поможет. Q8 кэш и так везде стоит, а если геммочке Q4 врубить, то у нее деменция скорее всего появится

Аноним 02/05/25 Птн 21:22:17 № 1186980 287

>>1186977
Жаль, только квенчик ебет ее и при этом у него нормальный размер контекста

Аноним 02/05/25 Птн 21:38:22 № 1187003 288

Геммачка показала свою мощь. Контекст жирнее чем у квена и мистраля вместе взятых

Аноним 02/05/25 Птн 21:46:18 № 1187009 289

1746211576199.png 84Кб, 857x126

>>1186980
А геммочка и не против :3

Аноним 02/05/25 Птн 21:46:59 № 1187010 290

>>1186904
> только нужно написать им минимальный промт для этого
Можешь привести примеры?

Аноним 02/05/25 Птн 21:47:29 № 1187011 291

>>1187009
Чет проиграл с дырки, так смешно это читается без хуя в руке.

Аноним 02/05/25 Птн 21:49:17 № 1187013 292

>>1187009
Рад за них. Надеюсь у них родится ребеночек, который сможет и в vision, и в reasoning одновременно

Аноним 02/05/25 Птн 21:50:44 № 1187015 293

>>1187010
Неа, не могу, я не занимаюсь генерацией картинок. Попроси его LLM чтобы он сам сгенерил промт для LLM, который делает промты для SDXL

Аноним 02/05/25 Птн 21:52:22 № 1187016 294

>>1187015
Ты ёбнутый? Тебе говорят промт для отключения цензуры

Аноним 02/05/25 Птн 21:57:58 № 1187021 295

Хмм, я получаю стабильные хуевые результаты на гемме без выгрузки слоев, но с куда ускорением промпта.
На чистом процессоре работает. С полной выгрузкой тоже работает, что интересно.
Это все с проверок переводчика, на куда работать не хочет.
До сих пор сломана?

Аноним 02/05/25 Птн 21:58:30 № 1187022 296

>>1187016
Это ты долбоеб. Иди попроси у LLM сгенерить промт, который отключит у нее цензуры и дальше по шагам. Хули ты тут срешь

Аноним 02/05/25 Птн 22:11:16 № 1187034 297

>>1187022
Я полагаю ты пиздабол

Аноним 02/05/25 Птн 22:22:05 № 1187045 298

>>1187034
Напомнило https://gandalf.lakera.ai/

Аноним 02/05/25 Птн 22:43:21 № 1187057 299

>>1187034
Ебать ты кобольд. Лень качать квен, на тебе на соевой гемме 4b в два промта. Можешь скачать ее или сделать тоже самое в квене, но пиши еще /no_think, чтобы он меньше пиздел

Аноним 02/05/25 Птн 23:07:25 № 1187078 300

Почему все ллм заблуждаются что сперма находится в яйцах?

Аноним 02/05/25 Птн 23:24:54 № 1187088 301

>>1187078
Да, ты прав, она находится в ягодицах.

Аноним 02/05/25 Птн 23:56:14 № 1187110 302

>>1186889
>>1186902
В LM Studio просто вот так. Но я хз, что это дало, скорость не изменилась и потребление врама тоже

Аноним 03/05/25 Суб 01:24:07 № 1187193 303

>>1186783
держу в курсе.
Если вкратце, то ЕБАНОЕ ПЕРДОЛЬНОЕ ГОВНО

Оказалось что эти матери при инициализации устройств UEFI-ем где-то спотыкаются и это приводит к тому, что бивис мелланоксовых карт становится недоступен для ОС.
Выглядит проблема вот так:
в выводе # lspci -s 02:00.0 -vv
присутствует
Expansion ROM at fb200000 [disabled] [size=1M]

вот этот экспеншн рум - это и есть бивис. и доступ к нему выключен со стороны PCI устройства. Само устройство решает, открывать его или нет и если открывать то когда. И открывается эта область памяти в устройстве только при корректной инициализации бивиса/ефи.
Без доступа к этой области памяти версия прошивки считывается как 65535.65535.65535

pci 0000:02:00.0: ConnectX-4: FW 65535.65535.65535 doesn't support INTx masking, disabling. Please upgrade FW to 14.14.1100 and up for INTx support.

то есть в 16-ричном выражении это ff ff ff ff ff ff ff ff
просто плейсхолдер.
и для мелланоксовых карт должна пройти какая-то пре-инициализация

mlx5_core 0000:02:00.0: wait_fw_init:380:(pid 155): Waiting for FW pre-initializing, timeout abort in 19s (0xffffffff)

которая не проходит с таймаутом.

единственный вариант запуска - это поднимать гипервизор на этих матерях, делать проброс PCIe устройств внутрь и в конфиге прописывать ром-файл этих карт так же, как их прописывают про пробросе видеокарт. Конечно же предварительно вытащив его с машины, где эти карты работают.
Но идея пахнет немытым хуем.

А еще оказалось, что нельзя сделать mmap rom-файла в виртуальную область памяти.
Я даже модуль ядра попробовал написать, но это не сработало.

ебаный пердольный корявый биос короче во всем виноват. Суки блядь.

Аноним 03/05/25 Суб 01:29:14 № 1187199 304

>>1187193
Хорошо, что ты понимаешь, что делаешь. Какая была изначальная в целом? Я не следил.

Аноним 03/05/25 Суб 01:30:16 № 1187202 305

>>1187199
>идея
фикс

Аноним 03/05/25 Суб 02:42:58 № 1187246 306

>>1187193
напердолил.
7 часов ебался с чатгпт. Когда она сказала что я исчерпал лимит - пошел к дипсику, он выдал ответ за полчаса. Мощный стержень, громовой удар.
Чуваки, я кончил мозгом, когда увидел, что оно работает. Я натурально откинул голову назад, закатил глаза, начал глубоко дышать и застонал от удовольствия. Такая тягучая волна удовольствия прошла по телу.
Лучший нейрокум, базарю.

Аноним 03/05/25 Суб 02:47:20 № 1187252 307

>>1187034
Ебать ты кобольд
>>1187045
Четко палить свои методы им, разумеется, не буду
>>1187193
И на что ты рассчитывал, против кадровых китайских сумрачных гениев, лол.
>>1187246
Больной ублюдок, уже в плохом смысле, высокое осуждение.

Аноним 03/05/25 Суб 02:50:32 № 1187256 308

>>1187252
>высокое осуждение
но почему

Аноним 03/05/25 Суб 02:50:35 № 1187257 309

Много рпшил с локалками, стало интересно потестить их в режиме ассистента. Накатил Qwq 32б и Гемму 3 27б, Q4 кванты. FP16 кэш. И... Что-то совсем печально все, не? Они путают факты, всегда отвечают что-то, даже если не знают ответа. Разметку и сэмплеры выбирал в соответствии с рекомендуемыми на странице моделей на обниморде, системный промпт из дефолтных: Assistant - Expert, Assistant - Simple тоже тестил, без промпта вообще тоже пробовал.

Спрашиваешь "знаешь фильм N?" - "Да, знаю. Хочешь обсудить что-то конкретное? Я хорошо знаю сюжет."
Задаешь уточняющий вопрос, например, "как погиб персонаж C?", и получаешь неправильный ответ. Гемме говоришь, что ответ неверный, уточняешь правильный - она извиняется и говорит "да-да, ты прав, я ошибаюсь". Делаешь то же самое с Qwq - он настаивает на неправильном факте, "это точно так". Ор. Абсолютно уверен, что с корпами тоже эта проблема проглядывается, пусть и не так явно - модели больше. Как людям не стремно обсуждать с ллками свои диеты, тренировки и прочие важные вещи? Только для рп и годятся они, по итогу. Ну и для кода, может быть.

Аноним 03/05/25 Суб 02:53:36 № 1187260 310

>>1187257
>с корпами тоже эта проблема
С гпт точно так же, даже хуже, десять раз переобувается, когда тычешь его в говно.
Но есть сетки которые просто не знают, и в целом они менее соевые.
Ничего не поделаешь, их так обучали.

Аноним 03/05/25 Суб 02:56:05 № 1187266 311

>>1187256
Ну типа фапать на лолей или около того - сорт оф норма, но наблюдать со стороны как ее жарит псина или покемоны - ну такое, зоокуколдизм, лол

Аноним 03/05/25 Суб 02:58:01 № 1187270 312

>>1187266
а с чего ты взял, что я не представляю себя одним из изображенных субьектов?

Аноним 03/05/25 Суб 03:02:13 № 1187274 313

>>1187257
На корпах сейм на самом деле, тут вообще много раз притаскивали скрины, где на серьезных щщах советовались с ними по конкретному оборудованию и подобным вещам.
Нейронка может знать определенные вселенные и фендомы, особенно если те оче популярны. Также может знать относительно нишевые, но при этом отвечать коряво и не точно, ибо инфа хоть была в датасете, но эта конкретика пробежала только один раз, так и не осев, в отличии от более общих вещей. А сама модель не знает то, насколько хорошо она это знает, ибо их этому не учат и (пока) не существует метрики уверенности в сказанном.

Аноним 03/05/25 Суб 03:03:09 № 1187276 314

>>1187270
Орнул в голосину, ну тогда ладно, не мне тебя осуждать. Кстати, а ты бы и собаку?