Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 535 74 109
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №123 /llama/ Аноним 17/04/25 Чтв 17:13:21 1159889 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
KL-divergence s[...].jpg 223Кб, 1771x944
1771x944
17447508048920.mp4 8483Кб, 1280x720, 00:00:06
1280x720
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1149538 (OP)
>>1142778 (OP)
Аноним 17/04/25 Чтв 17:17:41 1159898 2
>>1159892 →
> Ну значит ремонтники хуи, у них стата искажена
Почему хуи, нормальные ребята. Они просто видят только то что к ним поступает, а какая эта доля от видеокарт в обороте - оценить не способны. Только спекулировать или специально врать для бейтов.
А трясунам - не нужна ни правда, ни какие-то данные. Им нужен хайп и удобное мнение, которые удачно лягут на их манямир и оправдания отсутствия.
Аноним 17/04/25 Чтв 17:18:54 1159901 3
Аноним 17/04/25 Чтв 17:20:47 1159903 4
1677498919086.gif 5095Кб, 264x374
264x374
>>1159901
Не трясись, может в следующем году амд что-нибудь доступное для работяг релизнет (нет). А перекупов осуждаю.
Аноним 17/04/25 Чтв 17:24:12 1159906 5
Анон с 3x3090 и Виндой. Короче надоело мне искать, почему винда в такой конфигурации нормальной скорости не даёт, буду ставить Линукс, пока второй системой. Опыта нет правда, разве что VPS-ки под хостинг и впн брал. Слышал, что Убунта самая простая в освоении, но выслушаю любые советы с учётом того, что мне нужен сервер под ЛЛМ. Если есть гайды, как всё ставить и настраивать под ЛЛМ с нуля - будет вообще замечательно.
Аноним 17/04/25 Чтв 17:25:53 1159910 6
Кто круче старик Хендерсон или старик Хемлок?
Аноним 17/04/25 Чтв 17:31:38 1159918 7
>>1159906
Ставь убунту, потом ставь куда тулкит и драйверы по инструкции отсюда https://developer.nvidia.com/cuda-downloads (deb network).
Потом можешь скачать убабугу/табби и использовать их ванклик-инсталл скрипты, только не bat а sh. Для максимальной скорости в жоре - клонируешь репу и действуешь по инструкциям https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md#cuda придется поставить make, gcc, cmake, хидеры и прочее, но это в целом база линукса. Можешь скачать готовые бинарники (не обязательно заведутся и будут шустрыми), можешь точно также скачать кобольда.
Сложно будет только привыкнуть к поведению и парадигме самой системы. В остальном для нейронок это просто рай вместо проблемного пердолинга на шинде.
Аноним 17/04/25 Чтв 17:36:53 1159922 8
>>1159910
Шатал их обоих своим обильным сперматозоидом.
Аноним 17/04/25 Чтв 17:39:44 1159928 9
>>1159906
Ставь убунту, остальное все красноглазое и ненужно. Сам на дебианах сидел, щас вообще на калилинухе, новый комп буду заводить на убунте. Ну и по работе убунта бай дефолт всегда была. Настолько некрасноглазая, что подхватила все поприетарное железо ноута хуявей, которое винда 10я не смогла, включая мультитач экран и тачпад. С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить.

пока я писал, >>1159918 анон все по пунктам раскидал.

>В остальном для нейронок это просто рай
Однозначно, только для стейблдифьюженов нехватает фотошопа мощно. Я раньше думал что гимп просто НЕОСИЛИЛ, но заставив себя погрузится и поработать - ляяя... какая же уродская говнятина, просто эталонное представление о (((красивом и удобном))) красноглазого пердольщика. Для последних наверное до сих пор 32битные сборки собирают, потому что этим унтерам и в 2025 512ram пентиума4 хватает на все.
Аноним 17/04/25 Чтв 17:42:49 1159932 10
>>1159844 →
>>1159847 →
Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230).
Аноним 17/04/25 Чтв 17:45:24 1159935 11
>>1159847 →
Да кстати, карточка будет простаивать если ты делаешь оффлоад на цпу, если все выгружено то карта нихуя не простаивает.
Аноним 17/04/25 Чтв 17:46:35 1159937 12
>>1159932
>Душить память имеет смысл только на 3090 и только если PL уже задушен, потому что если память не душить, то она начинает хавать 100+ вт и на сам гпу вообще нихуя не остается (из выделенных 220-230).
То есть по-хорошему тестить надо - чего и сколько. Ладно, учтём.
Аноним 17/04/25 Чтв 17:52:37 1159951 13
Продам мать за промпт для рп на гемме без цензуры с вульгарным языком типа пизда хуй вместо кора и мембера
Аноним 17/04/25 Чтв 17:57:20 1159966 14
>>1159906
А WSL2 че? Меня вот ГПТ туда послало. Можно иметь терминал убунты из под винды.
Аноним 17/04/25 Чтв 17:59:24 1159970 15
>>1159906
У нвидиа всегда были проблемы с дровами на линукс, но под нейронки наверное все должно быть норм.

В целом, все линуксу +/- одинаковые, за исключение экзотических случаев. Бери убунту, linux mint или debian, последний самый стабильно работающий, но в целом все три - почти одна хуйня, кроме набора пакетов (программ).

Инфу бери с официального сайта дистрибутива, который будешь себе ставить. Еще можно с wiki.archlinux.org , оно, в принципе, универсальное, у арча из специфических штук только способ установки и пакетный менеджер (хуйня, которая программы устанавливает).

Техника безопасности - не работай из под рута (администратора), не вбивай непонятные команды в терминал, на всякий случай всегда можно погуглить. Программы, по возможности, ставь из официальный репозиториев своего дистрибутива, но абсолютно точно не будет лежать совсем все, того же кобольда качай с гита и не парься, например.
Аноним 17/04/25 Чтв 18:06:40 1159981 16
1744902399629.png 30Кб, 806x33
806x33
>>1159951
На русском с этим никаких проблем. И пёзды, и пиздечки, и хуи дрочёные, всё на месте.
Аноним 17/04/25 Чтв 18:08:24 1159984 17
>>1159928
>С родным UI даже понятнее винды, обычная тяночка "интернетик+вордик" может вообще никогда в консоль не лазить.
А удалённый доступ к этому UI из-под Винды возможен? Что-то типа RDP. В принципе это-то не обязательно, просто хочется с удалённого компьютера динамически отслеживать загрузку ГПУ и всего такого.
Аноним 17/04/25 Чтв 18:15:59 1159989 18
>>1159981
Зачем ты лоботомируешь геммочку русиком?
Аноним 17/04/25 Чтв 18:16:00 1159990 19
>>1159984
>А удалённый доступ к этому UI из-под Винды возможен?
SSH через встроенный клиент, только галочку поставить да конфиг заполнить.
Аноним 17/04/25 Чтв 18:20:19 1159996 20
>>1159906
Если будешь ставить дистр для особо одаренных (Ubuntu) то ни в коем случае не ставь дефолтный UI (гном), ставь шестые кеды, ну то есть кубунту. От гнома будешь плеваться смачно, далеко и с пенкой. А когда поставишь кеды, будешь плеваться от подзалупной хуиты которая идет на всех вариантах убунты именуемой snap.
Если хочется без особой ебли, то могу посоветовать посмотреть разве что федору, она по умолчанию дрова проприетарные не поставляет, как и дебиан впрочем, но в отличие от последнего пакеты там текущего десятилетия, и от самого пакетного менеджера тухлятиной не тянет.

Но сам я сиже на арче бай зе вей
Аноним 17/04/25 Чтв 18:24:54 1160003 21
>>1159996
Минт еще есть. Ну или кубунта, да.
Обычная убунту с ее гуем убогая
Аноним 17/04/25 Чтв 18:28:47 1160011 22
>>1159903
Причина тряски щеночка?
Аноним 17/04/25 Чтв 18:33:05 1160017 23
>>1160011
Гемма в отказ уходит.
Аноним 17/04/25 Чтв 18:42:32 1160031 24
1.gif 9450Кб, 288x640
288x640
>>1160017
Какой-то знаменитый трясун в руках живодёров, походу.
Аноним 17/04/25 Чтв 18:45:46 1160038 25
>>1159970
>или debian
Не бери. Это некрокал, который в 202х только для особо идейных. Сам на дебиане сидел в 2019-2022, но недавно вот снова с винды перешел и сгорел - софт прошлого десятилетия, PPA из коробки нет, питон 3.10 поставить больно даже, даже судо устанавливать нужно. Драйверов и кодеков тоже нет, ниче нет - ПОТОМУ ЧТО СООБЩЕСТВО, ПОТОМУ ЧТО ТРУ ОПЕНСОРЦ, со всем нужно поебаца.
Я люблю опенсорс всей душой, но когда нужно РАБОТАТЬ, а тебе дебиан ебет мозги... ну такое.

>>1159996
>ни в коем случае не ставь дефолтный UI (гном)
>От гнома будешь плеваться смачно, далеко и с пенкой.
Соглашусь мне тоже гном убунтовский не нравится. Но он максимально коробочный и понятный для вкатуна, любое другое VE уже риск пердолится.
>ставь шестые кеды
Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством.

Крч анон если хочешь использовать линукс - убунту с родным гномом. Если совсем не нравится - возьми Xubuntu, XFCE годная альтернатива. Если хочешь попердолиться и вкусить линукс - то голая накатка системы и i3wm поверх. Работает как часы и грузит 190мб в простое RAM.
Аноним 17/04/25 Чтв 18:54:39 1160052 26
>>1159910
Прекрати пожалуйста!
Аноним 17/04/25 Чтв 19:04:54 1160060 27
Лично я сидел на линуксе минт, ибо косплеит шиндовс.
В целом линукс это какая то попаболь, если ты не привык над системой заморачиваться. Не для сиволапого быдла типа меня. Когда только начал пробовать использовать в нем бесило буквально все, особенно невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли
Аноним 17/04/25 Чтв 19:08:39 1160064 28
>>1160060
> невозможность установить самые базовые и банальные вещи в один клик без коммандной консоли

Да, написать sudo apt install хуйнянейм1 хуйнянейм2 хуйнянейм3
гораздо тяжелее чем:
- найти сайт без троянов
- скачать троян
- скачать майнер
- скачать кряк под это все под vpnом
- запустить .msi пакет и сказать ДА
- выбрать папочку
- выбрать попочку
- разрешить добавить пункт в проводник
- отказаться от спама
- почитать лицензионное (нет)
- молиться что не проебал снятие галочки "установить ябраузер, тащмайора и пикабу"
- подождать, перезагрузится
- повторить
Аноним 17/04/25 Чтв 19:11:10 1160066 29
>>1160038
>Крч анон если хочешь использовать линукс - убунту с родным гномом.
А что это за Proxmox, который куча обзорщиков нейронок ставит? Стоит этим заморачиваться?
Аноним 17/04/25 Чтв 19:15:00 1160073 30
>>1160064
Хз че ты там такое скачиваешь, раз с такими проблемами сталкиваешься, лично у меня подобной хуйни не было. Да и может перед скачиванием чего либо стоило предварительно всплыть из нижнего интернета?
Аноним 17/04/25 Чтв 19:20:32 1160078 31
image 9Кб, 218x204
218x204
Кту тут спрашивал, для залетухенов. Снова вкину свою кал-лекцию =))
Промты, логи, пресеты, в том числе на гемму, карточки.
Своими делитесь интересными, не жмоть-тесь.
https://pixeldrain.com/l/47CdPFqQ
Аноним 17/04/25 Чтв 19:26:50 1160089 32
>>1160038
>максимально коробочный и понятный для вкатуна
Ты только что кеды. Гном это косплей под винду для планшетов.
>Ну кеды тоже кал, ЖРУТ ресурсы, на первый взгляд даже красиво, попытка в винду и макОС, но как и в любой линукс ((красоте)) это обычно оборачивается что рано или поздно надо что то сделать нестандартное, и красота разваливается как карточный домик, сыпя непонятными ошибками, багами и уродством.
Нихуя подобного. Нихуя они не жрут, тем более если сравнивать с современным гномом (оба wayland). И они даже не падают, представляешь? 6 кеды это уже не 4. Единственное что действительно не стоит пытаться делать на кедах - менять дефолтную тему на васянскую, да и то максимум что ты получишь - нечитаемые иконки. В отличие от ебучего гнома, в котором чтобы просто отображался трей как в винде, нужно ставить васянские РАСШИРЕНИЯ блядь. И выглядеть они будут соответствующе.
В остальном кеды это лучшее окружение для виндоподобного использования, всё просто работает, если не принимать во внимание некоторые приколы которые могут возникать с приложениями на гтк (GNOME toolkit) типа всратого курсора. Кеды не ставят дефолтом до сих пор просто потому что у гнома стабильное расписание релизов, совпадающее со многими дистрами.
Аноним 17/04/25 Чтв 19:41:43 1160114 33
Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K? Или вынести один слой на RAM, но запускать в Q3_K_M? Хочу попробовать обкумиться на русском.
Аноним 17/04/25 Чтв 19:52:20 1160131 34
Попробовал c4ai-command-r-08-2024-Q4_0 на русском. Понять не могу, толи неправильные настройки использую, то ли его хвалили не за русский язык. Путает падеши, склонения, даже время иногда коверкает. Совсем не тот экспириенс, который ожидал.
Аноним 17/04/25 Чтв 19:56:19 1160137 35
>>1160114
>Суп, генерящие аноны, стоит ли пробовать запускать Ruadapt Qwen в Q2_K
Я его пробовал в гораздо более высоком кванте. Хуита. Русский хороший, но и только. Ни ума, ни фантазии.
Аноним 17/04/25 Чтв 20:00:18 1160143 36
>>1160137
А что посоветуешь на русском для кума? есть 16G VRAM.
Аноним 17/04/25 Чтв 20:02:23 1160149 37
Посоветуйте нормальную сетку для кодинга 12-32b, чтобы небыло ризонинга, ато ждать по пол часа пока она думает еще тот заеб.
Аноним 17/04/25 Чтв 20:15:35 1160170 38
>>1159932
В целом-то понятно, но даже в таком случае скорость не особо просядет, а вот от памяти сразу проявится. Лучше тогда ограничивать частоты и делать на них андерволь, не просто снижать поаверлимит.
>>1159935
Если карточки больше одной то при генерации там не полная загрузка. Но там речь про другое, у тебя за 10-20-50 секунд сгенерировался ответ, а потом минуту-другую простаивает, пока ты спокойно читаешь и думаешь об ответе.
>>1159966
Wsl - база, но можно ахуеть с медленной загрузки модели из-за тормознутого доступа к основным дискам. Если проблема именно в выгрузке врам драйвером - там тоже она будет.
>>1159970
> нвидиа всегда были проблемы с дровами на линукс
Не, все ок там было всегда. Была тряска о том, что амд релизила дрова с открытыми исходниками, а хуанг - бинарники. Чсх, сейчас и это изменилось и основным драйвером под линукс является как раз открытый.
>>1160064
Двачую. Для неофита это может быть совсем неинтуитивно и в новинку, но на самом деле невероятно удобно. До тех пор пока нужный софт есть в репе, когда нужная версия отсутствует, вот там уже позавидуешь шинде
>>1160078
Автор - молодец что все это выкладывает, но выскажусь о специфичности многих промтов-карточек и т.д. Могут быть заточены под специфичный формат рп или содержать недостатки.
Аноним 17/04/25 Чтв 20:18:01 1160173 39
>>1160064
Сижу на винде со времён релиза вин93. Никогда не юзал ни один антивирь, система никогда не заражалась вируснёй. В винде вся защита есть изкоробки и её настроить 1 раз. Системы никогда не крашились. Видел только 2 экрана смерти за всю историю из-за дров видяхи. Юзал только лицухи. До хромиума сидел на ИЕ, после на ангуглед. Занимаюсь, ВНЕЗАПНО, безопасностью у одного крупного провайдера. Дело в тебе и твоих руках из жопы, что тебе требуется ограничивать себя из-за шизы качать говно подряд и тут же его жрать. Понимаю твоё стремление к смирительной рубашке, уважаю решение.
Аноним 17/04/25 Чтв 20:30:47 1160183 40
>>1160170
> > нвидиа всегда были проблемы с дровами на линукс
> Не, все ок там было всегда.
Вот нихуя. Че там раньше было ручаться не буду, не помню и не пользовался, но невидия сейчас вообще забила на современный линукс десктоп и их карточки под wayland работают хуево. Вот только относительно недавно разрабы окружений это научились фиксить костылями со своей стороны.
Аноним 17/04/25 Чтв 20:30:56 1160184 41
>>1160173
>со времён релиза вин93.
Это Windows 3.11 что ли? У меня она тоже первой виндой была, но никогда не слышал, чтобы её так называли. У меня, кстати, вирус был, достался вместе с первым б/ушных компом, но он ничего вредоносного не делал, только прописывал себя в бут-сектора.
мимо-олд
Аноним 17/04/25 Чтв 20:37:20 1160196 42
>>1160183
А в чем это выражается? Гейминг на прыщах не пробовал ибо это за гранью, возможно там действительно все хуево. Но именно глюков интерфейса или проблем с кудой не удалось встретить, как и массовых жалоб на них. Даже с блеквеллами драйвером обосрались не так сильно как в шинде.
Аноним 17/04/25 Чтв 20:43:54 1160204 43
>>1160143
>А что посоветуешь на русском для кума? есть 16G VRAM.
Omnino-Obscoenum-Opus-Magnum-MN-12B конечно. Подбери такой квант, который вместе с кэшем (пусть даже квантованным в q8) целиком влезет во врам и обдрочись. Настройки сэмплеров бери от геммы третьей.
Аноним 17/04/25 Чтв 20:52:07 1160208 44
>>1160204
>Omnino-Obscoenum-Opus-Magnum-MN-12B
Спасибо, анон, попробую, и тебе хорошего фапа.
Аноним 17/04/25 Чтв 21:30:27 1160302 45
Народ, объясните неразумному, как добавлять разные пресеты в Таверну? Например те, что в ссылке в шапке треда.
Аноним 17/04/25 Чтв 21:30:36 1160303 46
Мужики, скиньте сайт где карточки персонажей и лоры есть, пожалуйста. Раньше когда то в закладках держал, но случайно удалил.
Аноним 17/04/25 Чтв 21:34:18 1160315 47
>>1160302
В настройках где пресеты выбираются справа от выпадающего списка есть кнопочки, вот там.
>>1160303
Ленивая ты жопа, смотри сюда >>1159889 (OP)
> • Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org

> лоры
Лорбуки там же, лоры-адаптеры https://huggingface.co/
Аноним 17/04/25 Чтв 21:37:20 1160325 48
Аноним 17/04/25 Чтв 22:07:51 1160407 49
>>1160315
спасибо, мил человек
Аноним 17/04/25 Чтв 22:25:13 1160459 50
>>1160407
Дед, тебе кто в дом престарелых интернет провёл?
Аноним 17/04/25 Чтв 22:38:50 1160496 51
Завел DeepSeek V3 0324 через OperRouter (1000 запросов в день который), столкнулся с проблемой: роллы оч часто повторяются (они практически идентичными могут быть раза 3-4 подряд, меняются только отдельные слова). Пробовал штраф за повтор поднимать - не особо помогло. Мб знает кто че с этим делать

Второй оффтоп вопрос
>>1160204
Сколько этому магнуму контекста максимум дать можно?
Аноним 17/04/25 Чтв 22:45:00 1160526 52
Сильная вообще будет разница по скорости у 3090 и 5060?
Аноним 17/04/25 Чтв 22:47:36 1160537 53
>>1160496
>Сколько этому магнуму контекста максимум дать можно?
32к держит вроде, больше не пробовал.
Аноним 17/04/25 Чтв 22:48:31 1160542 54
>>1160526
>Сильная вообще будет разница по скорости у 3090 и 5060?
Очень сильная, когда у 5060 врам кончится :)
Аноним 17/04/25 Чтв 22:50:10 1160547 55
>>1159906
если не собираешься ничего обучать - ставь wsl2, ебли немного меньше, по функционалу практически ничем не отличается и винда под рукой, запустил сервак на wsl из под винды спокойно подключился, никакой ебли.
убунта с интерфейсом то еще говнецо, особенно если будешь накатывать на hdd, как я (ни в коем случае не повторяй), будет переодически крашить систему при 100% нагрузке на жесткий.
Аноним 17/04/25 Чтв 22:51:22 1160548 56
>>1160542
Ну а если без учета врама, 5060 вообще сильно шустрее будет или оно того не стоит?
Аноним 17/04/25 Чтв 22:53:09 1160551 57
>>1160496
>OperRouter
кстати да, там какая-то говномоделька крутится. когда катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL - ответы совершенно иные, намного лучше, с логикой все в порядке, разметка тоже на месте.
Аноним 17/04/25 Чтв 22:54:28 1160553 58
>>1160551
Мб-мб. Локально я со своей 3080 на 10 гиг я вместо дипсика только диптроут могу сделать, поэтому питаю надежду что найдется магический ползунок
Аноним 17/04/25 Чтв 23:02:11 1160579 59
>>1160526
>>1160548
В сд и подобных, где упор в чип - лишь на 10% быстрее 4060ти, это примерно 60-70% от 3090, в ллм ожидается ~60% от 3090, может чуть больше если хорошо погнать врам и накатить оптимизации под блеквелл. Офк это оценка по графикам из обзоров и сравнение с другими карточками, разумеется нужно чтобы кто-то ее купил и полноценно провел нужные тесты.
Разница врам в 1.5 раза, может быть оче существенно. Вот и сам думай, 5060 ти не такая позорная как 4060 с тормознутой врам, но и звезд с неба не хватает.
Аноним 17/04/25 Чтв 23:09:59 1160609 60
>>1160579
>Разница врам в 1.5 раза, может быть оче существенно. Вот и сам думай, 5060 ти не такая позорная
А он о Ti не упоминал.
Аноним 17/04/25 Чтв 23:21:13 1160635 61
>>1160579
Звучит вкусно и не грустно.
Аноним 17/04/25 Чтв 23:36:04 1160691 62
>>1160609
> А он о Ti не упоминал.
Зачем нужно это 8-гиговое недоразумение в 2025 году, особенно в применении к ии?
>>1160635
Вкусно это про 5090, вот где йоба. Плохо что уже 5080 достаточно сильно от нее отстает, тут 100% можно надеяться на какую-нибудь ти/супер, что займет место между ними и будет иметь 24+ гигов.
Аноним 17/04/25 Чтв 23:41:57 1160712 63
Мистраль 24б й4 будет сильно лучше Гемма 2 27б й3? Она отлично летает на 8-15 токенах. Или просто обновиться до Гемма 3?
Аноним 17/04/25 Чтв 23:44:30 1160723 64
изображение.png 85Кб, 1314x397
1314x397
>>1160691
>Вкусно это про 5090
По нынешней цене уже нихуя не вкусно. Проебал я момент, что тут сказать.
Аноним 17/04/25 Чтв 23:47:24 1160732 65
>>1160496
> Завел DeepSeek V3 0324 через OperRouter
Если free, то сочувствую. У нормальной нет проблем.
Аноним 17/04/25 Чтв 23:47:24 1160733 66
>>1160723
>По нынешней цене уже нихуя не вкусно. Проебал я момент, что тут сказать.
Ну это наёбка, доллар-то падает. Будут ещё по 300к.
Аноним 17/04/25 Чтв 23:49:13 1160739 67
>>1160732
free конечно... У меня не настолько много деняк)) Я закинул туда 10 баксов чтобы запросов больше в день давало, но кто ж знал что роллы будут работать как говно. Там из бесплатного альтернатив нормальных нет как понимаю?
Аноним 17/04/25 Чтв 23:55:13 1160756 68
image.png 90Кб, 1226x278
1226x278
>>1160723
лолчё, щас бы на скаммаркетплейсе смотреть что-то
Аноним 17/04/25 Чтв 23:56:16 1160758 69
>>1160723
При нынешней цене только и остается что сношать старушек 3090, если ты не наносек. Это с точки зрения мощности самого девайса.
Аноним 18/04/25 Птн 00:00:42 1160776 70
>>1160733
Наивный.
>>1160756
Тащемта там честно за 315к (300 для анальных рабов) отдавали. Так что у тебя оверпрайс.
Аноним 18/04/25 Птн 00:17:46 1160826 71
>>1160776
>Наивный.
Падает-падает. Правда ходят слухи, что в связи с падением цен на нефть это скоро изменится, но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может.
Аноним 18/04/25 Птн 00:22:37 1160835 72
>>1160173
>Сижу на винде со времён релиза вин93
я помладше, начинал с XP, 2004й
>Никогда не юзал ни один антивирь
сейм (ну вообще юзал, но это было из разряда касперский/аваст с диска "199 программ", еще до интернетов. Он раздражал и нагружал систему, так что я его быстро удалил)
>система никогда не заражалась вируснёй
Аналогично, достаточно было поставить галочку "показывать расширения файлов" и не запускать мутные .exe с иконкой просто джипега.
>Системы никогда не крашились.
Вот тут не верю, 95-98-МЕ крашились как не в себя по дефолту. 2000 и ХР еще относительно стабильные, а вот семерка была первой по настоящему стабильной.

Я не спорю что винда МОЖЕТ быть безопасной системой, и вирусы и блокеры ловят реально животные на юзере. Но только как ты сказал - в случае всех систем безопасности активных и нормальной лицухи. И вот тут мы как раз и делаем сальто, упираясь в кейс разве что корпосектора с лицензионным автокадом и прочих проф применений. У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность, а если без пираток и не платить - то проще реально убунта с опенсорцем.

Моя главная претензия к мелкософту - что они с каждым релизом руинят привычный опыт и добавляют в систему говна. 7ка была золотой, с 10кой ранних версий (особенно LTSC без всяких кортан) можно было уютно жить, 10ка поздняя - уже ощущается как "мусорная система", в которой ты не особо что то контролируешь. 11ю я пробовал на корпоноуте, и это пизда, так жить нельзя.
А этой осенью поддержку 10й винды прекратят, так что я снова заранее вернулся на линукс и всем советую. Тем более для мл и всяких айти штук (в винде это больно делать, а wsl это мразь мочи говна мочи). А винда пусть будет на втором ссд как мусорка для торрентовых игорь и солидворксов.

>>1160089
>6 кеды это уже не 4
Мб ты и прав, даже интересно стало снова попробовать. Но тайловые манагеры настолько полюбились, что весь остальной драгэндроп теперь не хочется.
Аноним 18/04/25 Птн 00:42:39 1160879 73
>>1160826
>Падает-падает.
Это бакс падает, а не рупь растёт, лол. Ну и цены что-то нихуя не снижаются. Как бензин, лол.
>но я больше доверяю возможностям отечественного центробанка - он и по 50 сделать может
У него примерно обратная задача - сделать сотку, чтобы после обвала нефти бюджет не наебнулся.
Так что я уверен, что 300к это абсолютный минимум для новой 5090, дешевле она будет стоить лет через 5, когда нахуй никому не будет нужна.
>>1160835
>У обычного же юзера всегда 2-3 пиратки чего либо, что множит на ноль безопасность
Как будто нельзя юзать нормальные пиратки без вирья. Ставлю софт со срутрекера последние 15 лет, ничего не поймал.
Аноним 18/04/25 Птн 01:40:23 1161024 74
>>1160879
> Как будто нельзя
А зачем? Актуально разве что для адоба и подобных 1.5 софтин, потому что у нас их не купить нормально. В целом, рынок платного софта помирает, большинство актуальных имеют подписочную систему с оче гибкой ценовой политикой (или даже бесплатным для нормисов режимом), или бесплатные аналоги. Или же там реально что-то годное но недоргое, типа того же display fusion, где не грех поддержать разработчика на стимовской распродаже
Аноним 18/04/25 Птн 03:09:34 1161288 75
>>1160031
>>1160011
Потому что там очевидно что хозяин пиздил эту собаку и других животных которые были на видео. Всегда репортил его видео в тик токе когда попадались, в итоге ему уже забанили канал.
Аноним 18/04/25 Птн 05:24:51 1161711 76
2.jpg 53Кб, 655x757
655x757
Я все тот, кто уже пятый перекат собирает новый комп под купленную 3090.
Мать искал с прицелом "может быть подцепить вторую карту, если прям нейронки залетят, но на риг еще не созрею. Или 128гб DDR4 докину под ktransformers мб в 4 слота". В общем такой полупокер-апгрейд на полгодика-год, понять чего хочу.
Правда хз получилось или нет, b550 чипсет дает только 4 линии на втором слоте pci, еще и второй pci 3.0... я сосну да? Или все таки можно будет что то подбросить на этот слот, типа второй 3090?

Но мать уже куплена, вообще все куплено кроме корпуса. Но я думал возьму что то с продувкой более менее самое дешевое и все... Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей), об этом я не подумал как то. А в большинстве обычных корпусов ATX плата встанет, а вот вторая карта в лучшем случае на пол ляжет, или не встанет вообще, упрется в дно.

Поэтому уважаемые аноны, 2 вопроса:
1. Насколько PCI Express 3.0 x4 во втором слоте хуево? Вообще нет смысла 2й карты? Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб? Или 3.0x4 и 4.0x16 прцентов на 10-15% просто похуже чем pci 4.0х8х2 или монокарта48гб?
2. Исходя из п.1 есть ли смысл брать хороший ATX корпус под 1ну карту? Или заморочится и поискать что то попросторнее, пожертвовав продувкой? Или лучше взять какое нибудь говно, что бы потом не жалко покромсать под 2 карты (или вообще скрестить старый фуллатх с кульками для продува при помощи болгарки)?
Аноним 18/04/25 Птн 05:29:16 1161719 77
>>1161711
У меня пека стоит на табуретке без всякого корпуса и мне норм
Аноним 18/04/25 Птн 06:06:09 1161797 78
>>1161711
>Только вот продувка и fulltower вообще из разных вселенных (не считая гик-решений за 40++ килорублей)
Почему же, от Кугара есть решения за 10к. Ну не дёшево, а чего ты хотел за такую здоровую - продуваемую - дуру. Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090. Если хочешь собрать что-то подобное, то лучшего решения наверное нет. Дальше только риг.
Аноним 18/04/25 Птн 06:09:40 1161800 79
>>1161797
>Почему же, от Кугара есть решения за 10к.
Вот такой например: Cougar MX600 RGB. Ну 11к в ДНС, но цены плавают немного.
Аноним 18/04/25 Птн 07:57:31 1161854 80
111.png 43Кб, 1077x250
1077x250
>>1160691
Пока что есть только такое.
Аноним 18/04/25 Птн 09:13:33 1161896 81
>>1160131
>c4ai-command-r-08-2024
Довольно тупая модель, нахваливают её аноны с низкими стандартами. Либо мастера Тайного Промпт Инжиниринга, способные из любой модели вытаскивать тексты 10/10, но поскольку они своими Тайными Знаниями не делятся, простым смертным это всё равно недоступно.
Аноним 18/04/25 Птн 10:31:57 1161928 82
Много тут нищих бомжей на 16 врам?
Аноним 18/04/25 Птн 10:35:49 1161931 83
>>1161896
На русике играешь?)))
Аноним 18/04/25 Птн 10:36:01 1161932 84
Аноним 18/04/25 Птн 10:49:22 1161942 85
Если брать 3090, то к какой лучше присмотреться? Какая из них более надежная и менее горячая?
Аноним 18/04/25 Птн 10:56:16 1161947 86
>>1160131
>c4ai-command-r-08-2024-Q4_0

В этой версии командира починили раздутый контекст, но он от этого стал тупее. Сейчас это полностью устаревшая модель, так как с тех пор уже вышли новые модели Аya expanse и Command-a.
И да, у командира и его семейства особые настройки, его не надо с системным промптом геммы или квена запускать.
Аноним 18/04/25 Птн 10:58:02 1161949 87
>>1161942

Любую бери, марки это развод для гоев. Ну совсем ноунеймов конечно не стоит брать, но разницы между msi, gigabyte и asus нет.
Аноним 18/04/25 Птн 11:01:35 1161951 88
>>1159906
>буду ставить Линукс, пока второй системой. Опыта нет правда

Тогда F.
Аноним 18/04/25 Птн 12:26:04 1162006 89
>>1161711
>PCI Express 3.0 x4
влияет только на подгрузку модели. у самого pcie 3.0 x1 вторая карта стоит.
Аноним 18/04/25 Птн 12:46:59 1162029 90
Аноним 18/04/25 Птн 12:50:17 1162032 91
>>1159937
у 3090 беда в охлаждении памяти, короче ставь вентиляторы обдува с обратной стороны.
Аноним 18/04/25 Птн 13:38:29 1162099 92
>>1161928
Да считай все почти.
Аноним 18/04/25 Птн 13:43:48 1162108 93
Аноним 18/04/25 Птн 13:50:50 1162115 94
>>1162108
Gaslit-Transgression-24B-v1.0.Q4_K_M
8гб врам
Аноним 18/04/25 Птн 13:54:46 1162119 95
image.png 2Кб, 708x20
708x20
Аноним 18/04/25 Птн 13:58:12 1162122 96
>>1162108
Cydonia 2.1 24b
Forgotten transgression 24b
Gemma 3 IT 27b скачал, но толком не пробовал, но потянуть должно.
Все в q4km кванте.
Аноним 18/04/25 Птн 14:01:15 1162127 97
Забыл сказать: главна проблема даже не врам, а просто озу. 32гб не так много как кажется. Контекст этих моделей в них не влезает.
Аноним 18/04/25 Птн 14:06:42 1162135 98
>>1161928
0 GB vram 16 GB ram, darkness reign 12b квант 4 или 6, не помню.
С контекстом в одно предложение и в начале рп ТЕРПИМО
Аноним 18/04/25 Птн 14:23:04 1162154 99
Было две 4080. Обе сидели на трубе
На одну пролили воду
Одна осталась на трубе
Перепад в сети, отвал фазы
Никого не осталось на трубе

Спасибо блять за лучшую неделю моей жизни
Аноним 18/04/25 Птн 14:29:49 1162164 100
Аноним 18/04/25 Птн 14:58:10 1162234 101
>>1162108
Мистрали 24b Q4KM. Ассистент - дефолтный или dolphin, картинки дефолтный, Forgotten для кума (имхо, топ и для большого врама, просто повышай квант и размер контекста). Для серьезных задач deepseek.
Раньше юзал гемму еще, но там мало контекста для моего врама (16гб) и потом в моем тесте вижина она всасала мистралю и была дропнута.
>>1162115
Сколько токенов в секунду?
>>1162154
Не пизди, карты не горят, ща перекуп придет объяснит тебе
Аноним 18/04/25 Птн 15:00:29 1162237 102
>>1162234
>Не пизди, карты не горят, ща перекуп придет объяснит тебе
Я так и знал что это не запах гари был, а запах самоприпоя.
Так что я из тредика отваливаюсь до окончания ремонта. Мира вам.
Аноним 18/04/25 Птн 15:13:51 1162261 103
>>1161711
> я сосну да?
Ну, ты уже соснул купив нищий амд, об этом уже говорили.
Но в целом, никто не запрещает тебе воткнуть вторую карточку в x4. Все будет работать, во многих вариантах инфиренса разницы не заметишь или она будет 5-10%. При тренировке или там где много пересылов будет медленнее.
Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками. На среддите жаловались что работа второй карты замедляется чуть ли не на 30% если запустить копирование с ссд тоже на чипсетных. С процессорными таких приколов не будет.
> Или смысл есть ради обьема vram, но скорость обработки будет в разы хуже чем одной карты на 48гб?
Конечно есть, на нормальных бэках будет также или даже быстрее, за счет распределения обработки контекста на 2 чипа.
> есть ли смысл брать хороший ATX корпус под 1ну карту?
Сам смотри какой у тебя бюджет и приоритеты. Хороший корпус под мультигпу - это термалтыки CTE серии, в треде была сборка на лианли эво хл. Также подойдет просто большой, где есть место на боковой стенке между материнкой и фронтальной манелью. Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко.
> пожертвовав продувкой?
В чем жертва?
>>1161896
Какая модель - умная? Опять же, на русике играешь?
>>1161947
> Аya expanse
И че, оно норм?
> Command-a
Совсем другой размер. Пока не получилось его нормально расшевелить, нужно промты пердолить. Потанцевал есть, но с пол пинка, как старый командир, не заводится.
Аноним 18/04/25 Птн 15:17:01 1162265 104
>>1162154
> На одну пролили воду
Как так вышло, водян_очка наебнулась? Пили прохладную
> Перепад в сети, отвал фазы
Тоже интересно, кроме бп тут никто не должен страдать, проще убить карточку неудачным подключением телека на горячую.
Вангую обижал других или как-то согрешил, вот и поймал карму
Аноним 18/04/25 Птн 15:36:51 1162294 105
>>1161719
Да у меня у самого в коробке от обуви сборка на 1200 рязани полгода отработала, отверткой включал по контактам... Но теперь коты в доме, да и просто хочется па-лютски...

>>1162006
>влияет только на подгрузку модели
Ну и еще наверное если дипсик пытаться запустить частично с RAM скажется... Но это похуй, ддр4 и 2 некрокарты, дипсик только ради пруф оф концепт можно поиграться. Спасибо!

>>1161797
>от Кугара есть решения за 10к, например: Cougar MX600 RGB
Как то я их упустил, спасибо!
>Свидетельствую, что свободно входят 4 двухслотовые карты или 2 3090
Вот это прям ценно!
Аноним 18/04/25 Птн 15:44:13 1162306 106
>>1162265
> Как так вышло, водян_очка наебнулась?
Ребенок и его кружка непроливайка, лол. И стоящий на полу блок.
> кроме бп тут никто не должен страдать
Экономия на БП и использование старого говна, вместо чего то дешевого, но нового.
> Вангую обижал других или как-то согрешил, вот и поймал карму
Да не особо, наоборот, погорел минимум, все прозвонили и примерная цена ремонта не больше 15к. Меня устраивает.
Просто экономия ебет экономных, но я же считал себя самым умным.
Аноним 18/04/25 Птн 16:10:16 1162334 107
>>1162154
бп с защитами спасает же, алё
Аноним 18/04/25 Птн 16:12:19 1162340 108
diagram.jpg 354Кб, 858x1219
858x1219
>>1162261
>Ну, ты уже соснул купив нищий амд, об этом уже говорили.
Ряяя временная сборОчка!!! Да помню что аноны советовали интуль из-за скорости памяти и проч... Но комп нужен как универсальная машина пока, а интел я не оч люблю с их тдп и новыми сокетами раз в полгода. Может я наиграюсь через месяц, а может куртка выкатит за 150к какую нибудь нейрокоробку, которая в локальных сетях уничтожит риги из 5090... Ам5 если уж брать, то слишком жирная цена выходит на нормальный сетап под нейронки. В то время как на ам4 буквально половина всего есть. По сути я собираю новый комп потому что у меня oche пососная мать (a320), а продавать мать, 480м2, 1080 и аэрокул 500вт влом по отдельности.
Даже о второй карте я задумываюсь гипотетически, есть вероятность что и новая сборка полетит на авито скоро, а я буду собирать уже нейросервер + повседневный ноут-терминал. Или забью хуй, разочаруюсь и буду сидеть в интернете, и игоря катать раз в год, докинув какой нибудь x3d через пару лет, когда он будет стоить пачку масла.

>Также, если это чипсетные линии, то могут быть серьезные замедления при доступе к ссд, поскольку там не только х4 4.0 на все-все-все, но и довольно неоптимальный шейпинг с оче большими задержками.
Если правильно понял из пикрила, второй 16слот чипсетный, но можно через переходник взять те же четыре линии, еще и pci4 от m2 разьема, посадив m2 на чипсетный слот.

>Просто разместить на обычных местах не вынося куда-то райзером выглядит как нереалистичный кейс, такие карты нельзя ставить тесно и им будет оче жарко.
Бля... я уже почти купил кугар, а теперь получается что колхозить энивей (особенно если захочу m2) и проще взять самый дешевый корпус с авито на районе на первое время... Ууууф, как сложно то...

>>1162306
>Просто экономия ебет экономных, но я же считал себя самым умным.
Знакомо знакомо... Вот только рыночек такой, что даже банкетничая, не застрахован от фиаско. В автоебстве сейчас похожая ситуация, понимающий опытный может за средний прайс купить машину норм, а нешарящая маня даже за верх рынка рискует купить нежить или какого нибудь китайца, на котором внезапно запчастей нет и сыпется он как песок.
> купил новую 5060 - соснул по памяти и линиям
> купил 5090 - соснул по разьему питания и некоторому софту
> купил 3090 не глядя - соснул через неделю от отвала чипа
Аноним 18/04/25 Птн 16:19:14 1162349 109
>>1162340
А бля, это ведь ддр4 платформа, там вообще 3.0 будет. Но ты не парься насчет этого, карточки с х4 3.0 норм работают кроме описанных кейсов. Сам так когда-то сидел потому что в режиме 4.0 всратый райзер срал ошибками.
> второй 16слот чипсетный
Да, на старых райзенах нет дополнительных линий, которые могли бы идти на порты. С переходниками m2->райзер лучше не заморачивайся и просто ставь ссд в основной слот.
> почти купил кугар
Что за модель?
Интелы зря недооцениваешь, для расчетов и ии в пределах декстопных платформ они сейчас более привлекательные ибо красные в край ахуели. Может со следующим обновлением это изменится, но пока так.
Аноним 18/04/25 Птн 16:20:38 1162351 110
>>1160551
>катаю у себя локально DeepSeek-V3-0324-UD-Q2_K_XL
А какая у тебя конфигурация? Тут анон был, который со 128 гб оперативы катал в ktransformers, но явно не второй квант же.
Аноним 18/04/25 Птн 16:24:22 1162361 111
>>1162294
>дипсик
какой дипсик? если ты на ktransformers собрался гонять, там 16 гигов видяхи хватит. разгружать эксперты на видяху нет смысла, если у тебя там не две a100 по 80врам.
Аноним 18/04/25 Птн 16:25:33 1162365 112
>>1162361
> разгружать эксперты на видяху нет смысла
Есть смысл катать 0.7 т/с? Что за ерунду пишешь, чем больше там видеопамяти тем быстрее будет работать.
Аноним 18/04/25 Птн 16:39:22 1162396 113
>>1162349
>Интелы зря недооцениваешь
Да я нормально к ним в целом отношусь сейчас, когда ам5 изучал тоже понял что амуда уже не такой уж топ за свои деньги. Если бы точно знал что мне надо по жизни, рассмотрел бы и их внимательно. А так просто в качестве недорогой времянки взял знакомый сокет, что бы если что быстро слить.

> почти купил кугар
> Что за модель?
Да вон анон посоветовал выше >>1161800
Вообще я до этого почти взял Fractal Design с говнито, там mesh с недорого был и Torrent mini за 12к. Последний понравился очень внешне, почти решился шикануть, но когда внимательнее глянул осознал "А ВТОРАЯ ТО ВИДЮХА НЕ ФАКТ ЧТО ВЛЕЗЕТ, ДАЖЕ ЕСЛИ АТХ".

А вообще корпуса то еще уродство конечно... Если накинете моделей в пределах 10-13к (новые/поддержанные неважно), которые не слишком всратые и в которые относительно вменяемо можно впихнуть две 3090, что бы друг друга не зажарили, буду благодарен и положусь на совет анона. Вчера 32 страницы авито перерыл, весь озон и днс, а что брать ответа так и нет.
Аноним 18/04/25 Птн 16:41:51 1162403 114
>>1162351
>анон был
да, второй квант с подрузкой с nvme. i5-12400, ddr4 128гб 3600mhz, 44vram.
>>1162365
>Есть смысл катать 0.7 т/с
катаю, мне вполне нормально ждать ответ 5 минут.
>Что за ерунду пишешь
каждый эксперт, который ты собираешься выгружать на видимопамять весит 6.5гб во втором кванте. даже если ты выгрузишь штук 5, ничего не даст, так как все равно упирается в цпу\рам\диск. ниже второго кванта нет смысла даже пытаться запускать, там что-то поломано в ktransformers или просто квант шакальный, срет бред из коробки.
Аноним 18/04/25 Птн 16:46:17 1162423 115
>>1162403
> каждый эксперт
Значение знаешь? Глянь как мое устроены и как работает k-transformers.
> все равно упирается в цпу\рам\диск
Это то же самое что говорить о бессмысленности выгрузки слоев на гпу. Чем больше на карте, тем быстрее. Особенности k-transformers в том, что тот позволяет выгружать большие мое более эффективно, чем это делает жора, в остальном то же самое.
Аноним 18/04/25 Птн 16:52:39 1162442 116
>>1162403
>да, второй квант с подрузкой с nvme.
Аа, а я думала сова. Ну я вот доделаю жору и попробую IQ2_XXS запустить, должен весь влезть в видео вместе с контекстом. Q2_K_XL только с выгрузкой в RAM будет, думаю, будет неюзабельно совсем. Хочется хотя бы 2 т\с получить
Аноним 18/04/25 Птн 16:56:47 1162457 117
>>1162396
>а что брать ответа так и нет.
Ответ тебе уже дали. В кугар влезали 4 теслы с радиальными вентиляторами и переходниками к ним. Две 3090 после них встали свободно - они на 3,5 слота, а до передней стенки там ещё остаётся сантиметров 10. А там, на передней стенке, три вентилятора на 140 мм. 11к за всё удовольствие. Чего ты ещё хочешь?
Аноним 18/04/25 Птн 17:12:56 1162493 118
>>1162306
>Ребенок и его кружка непроливайка, лол.
Так, отпусти ребёночка, его мама ищет. Вот б-женька тебя и покарал, нехуй было красть.
Аноним 18/04/25 Птн 17:15:51 1162500 119
>>1162306
Да токсил и срачи устраивал 100%, вот и был наказан, лол.
>>1162396
> Да вон анон посоветовал выше
Хз, хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать. Единственный плюс - 8 слотов под pci-e, если сойдутся звезды то можно будет поставить 2 карты в материнку штатно, но это должны совпасть размеры и расположение слотов. Довольно маловероятно и картам всеравно будет жарко. Просто как корпус по дизайну и удобствам уже сам смотри, хз.
В остальном - мало места, вынести карту будет тяжело.
> Если накинете моделей в пределах 10-13к
https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб. Из интересных но уже не настолько вместительных - Geometric Future Model 8. А так - можешь сам забить в фильтры поддержку eatx, высоту от 480мм, длину от 500 и смотреть чтобы было место.
Аноним 18/04/25 Птн 17:37:09 1162543 120
Аноним 18/04/25 Птн 18:14:18 1162619 121
image.png 105Кб, 990x917
990x917
Мне кто-нибудь объяснит почему, сука, такое скудное "описание" у моделей?
То есть, они мержат/файнтюнят модель месяцами, стараются над ней, и в конце а похуй все равно никто не скачает высирают одно предложение и всё?
Аноним 18/04/25 Птн 18:39:09 1162678 122
Тредик на форчане сдох вместе с форчаном, как за нейронками теперь следить, хз. Местный тредик никогда не вытягивал.
Локаллама на редите тоже не очень.
Есть секретные места где анон пасется?
Аноним 18/04/25 Птн 19:10:27 1162756 123
>>1162678
>Есть секретные места где анон пасется?
Кто же тебе секретные места сдаст? Сри здесь.
Аноним 18/04/25 Птн 19:29:23 1162801 124
>>1162678
>Тредик на форчане сдох вместе с форчаном
А что случилось?
>как за нейронками теперь следить, хз
На Хабре есть новости недельно-месячной свежести.
Аноним 18/04/25 Птн 19:45:12 1162831 125
>>1162678
8chan.moe
Но там только aicg видел
Аноним 18/04/25 Птн 19:54:16 1162851 126
>>1162500
>хорошим выбором под потенциальный апгрейд для дуаглпу его не назвать
Ну да, я поэтому пока и свернул идею с кугаром, т.к. ты сказал что две карты в дефолтной установке если и влезут, то спекутся.
>Thermaltake CTE C700
Дороговато, но мб на говнито заберу его или соседнюю модель.
>но это огроменный гроб.
Заебись! Под столом места хватит, хочу норм кудахтер, а то какие то пердиксы не туда ни сюда сейчас сплошные. Был бы свой дом, я вообще бы что то типа серверного шкафа в подвале намутил.
Конечно реально портативный пука это круто, но это сразу мини-итх или микро-атх, одна видеокарта и прочие компромиссы. А пердиксы мид-сайз из фольги непонятно для кого вообще.

>Geometric Future Model 8
Выглядит как йоба, изучу, спс! Еще и дешевле термалтейка.

>>1162457
>Ответ тебе уже дали, кугар
Спасибо огромное, но анон выше смуту внес, звучит логично. Но окончательно кугар я со счетов не сбросил, хороший корпус на вид, и стоит новый вменяемо.
Аноним 18/04/25 Птн 20:04:42 1162878 127
>>1162500
>https://www.ozon.ru/product/1687671654/ вот сюда влезет хоть 3, хоть 4 и им будет прохладно, но это огроменный гроб.
Я вот смотрю на него и думаю, каким образом в этот гроб 3 3090 впихнуть. Объём-то есть, а вот как их распихать по этому объёму и закрепить - вопрос. В материнку в лучшем случае пойдёт одна карта, две на райзерах. Можно и три на райзерах, но вот как разместить это всё, да ещё чтобы картам не было жарко? Непонятно.
Аноним 18/04/25 Птн 20:07:47 1162888 128
>>1162500
>>1162851
>вот сюда влезет хоть 3, хоть 4
>Thermaltake CTE C700
Ты хотел сказать используя райзеры? У материнки разъёмы выходят сверху корпуса и судя по спецификации. На что там остальные видяхи крепить? Колхозить?
Аноним 18/04/25 Птн 22:01:09 1163195 129
>>1162619
>высирают одно предложение и всё
На твоем пикриле хотя бы несколько предложений есть, которые дают понять под что модель заточена. Среднестатистическое описание тюна/мержа выглядит как "короче вот тут бля я че-то сделал под ролплей короче да... ДЕЛАЛ МОДЕЛЬ ДЛЯ СЕБЯ МЕНЯ МОДЕЛЬ УСТРАИВАЕТ"
Аноним 18/04/25 Птн 22:09:16 1163209 130
>>1162878
> каким образом в этот гроб 3 3090 впихнуть
Одна находится на штатном месте или повернута параллельно плате на коротком райзере (там можно выбрать вариант установкой элемента, второй предпочтительнее по темпаратурам), вторая лежит внизу, забирает холодный воздух снизу через фильтр, третья - справа от материнки. Кстати, для 3-4 уже лучше взять уже cte750, он чуть длинее и там сразу есть место вдоль задней стенки для гпу, и еще одну можно подвесить на удалении от нее ближе к стеклу, там много металла и легко будет прикрепить популярный кронштейн. Или cte600, он уже, но тоже длинный и с возможностью размещения 3й.
Из бонусов - там реально оче много места, сзади влезет второй бп (но нужно будет подумать как лучше его выдув организовать),
>>1162888
> Ты хотел сказать используя райзеры?
А как еще это вообще возможно? Кроме комбинации двуслотовых пылесосов и определенной материнки со слотами через один.
Аноним 18/04/25 Птн 22:21:21 1163230 131
>>1163209
Есть enthoo pro 2 server edition, там уже 3х3090 бутербродом влезут.
Аноним 18/04/25 Птн 22:27:16 1163238 132
>>1163230
Да, вариант определенно интересный, 3ю можно на коротком райзере вынести.
Аноним 18/04/25 Птн 22:36:55 1163252 133
Darkness-Reign кивает головой и переспрашивает часто.
Аноним 18/04/25 Птн 22:37:30 1163255 134
изображение.png 431Кб, 514x436
514x436
>>1163230
Не устаю проигрывать с красивых, но бессмысленных рендеров.
Аноним 18/04/25 Птн 22:39:44 1163264 135
>>1163255
Игросральный сервер с беспроводным питанием материнки, чего доебался?
Аноним 18/04/25 Птн 22:46:46 1163297 136
>>1163255
не надоело шутить про одно и то же?
Аноним 18/04/25 Птн 22:47:52 1163303 137
Аноним 18/04/25 Птн 22:55:31 1163330 138
Аноним 19/04/25 Суб 00:35:38 1163495 139
вопрос к местным инцелам знатокам
новая функция памяти в chatgpt работает просто потрясающе
но я никак не могу найти инфу, как это работает под капотом
я знаю, что ClosedOpenAI перестала делиться техническими деталями с миром, но может у кого-то есть догадки или может есть какие-то сливы/слухи от инсайдеров
очень пригодилось бы для моей нейровайфу
мне не обязательно прям их реализация нужна, может существует что-то сопоставимое по качеству?
Аноним 19/04/25 Суб 00:48:31 1163513 140
>>1163495
Это обычная индексация вроде RAG. Просто на корпоративных мощностях, потому так впечатляет
Аноним 19/04/25 Суб 00:51:51 1163519 141
test
Аноним 19/04/25 Суб 00:56:05 1163526 142
1729630465369.jpg 1838Кб, 2746x3681
2746x3681
>>1163230
Смотря каких. Пикрил у меня этот корпус, 3090 + 4090, третья карта уже не влезет.
Аноним 19/04/25 Суб 01:01:20 1163535 143
изображение.png 3115Кб, 1579x1188
1579x1188
>>1163526
Не бутербродом, но вертикально спереди через райзер ещё одна поместится.
Аноним 19/04/25 Суб 01:18:32 1163564 144
>>1163535
>Не бутербродом, но вертикально спереди через райзер ещё одна поместится.
Короче идите в жопу с вашими бутербродами - делаю риг, обтягиваю его противопылевой сеткой и горя не знаю.
Аноним 19/04/25 Суб 01:22:06 1163567 145
>>1163513
т.е. в теории, встроенный RAG в SillyTavern может дать схожий результат?
кто-то здесь использовал RAG в таверне? стоит того?
Аноним 19/04/25 Суб 01:22:31 1163569 146
>>1163564
Если есть возможность запилить риг- пили, мы только за. Просто лично у меня например нет денег на отдельный игровой сетап, поэтому совмещаю.
>>1163567
>т.е. в теории, встроенный RAG в SillyTavern может дать схожий результат?
Процентов 20 максимум, лол.
Аноним 19/04/25 Суб 01:28:37 1163584 147
>>1163495
Спроси у корпов, хули. Уточни конкретно что именно тебе там понравилось, что за память?
>>1163513
> на корпоративных мощностях
> RAG
Для него не нужны мощности, нужен хорошо отлаженный софт.
>>1163564
Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу. Но будет непросто найти хороший вариант, чтобы было и удобное размещение, и не тянуть райзеры на 100 метров, и чтобы выглядел прилично и занимал мало места.
Аноним 19/04/25 Суб 01:55:41 1163628 148
>>1163584
>Риг это хорошо, риг это надежно, есть майнерские корпуса с пылевыми фильтрами сразу.
Кстати искал такой и даже нашёл несколько вариантов по 4 и больше мощных карт. У всех у них довольно смешная проблема: место под материнскую плату внизу, карты выше - и этого места внизу мало, башня не влезает. Процессор на майнерских платах охлаждается исключительно блюдцами, ибо нехуй. Только поэтому и не взял.
Аноним 19/04/25 Суб 02:20:54 1163648 149
>>1163628
>и этого места внизу мало, башня не влезает
Водянка? Да и чем тебе блюдца не угодили. Проц всё равно сильно нагружен не будет.
Аноним 19/04/25 Суб 02:56:06 1163712 150
>>1163569
> Процентов 20 максимум
почему только 20?
в чем bottleneck?
rag вроде не требует прям очень больших мощностей
Аноним 19/04/25 Суб 03:17:39 1163742 151
>>1163195
Ты не прав. Среднестатистическое описание — это его отсутствие.

Что интересно, я так перерывал тонны говномержей и находил хидден гемы, которые никому не нужны и о них почти никто не знает.

Там 12б, понятное дело. Но они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума.

Почему не запостил? Их реально много, у некоторых есть свои проблемы или акценты, которые нужно фиксить, что новичку не с руки, даже если это означает немного сэмплеры покрутить или промпт дописать.

Да и всем похуй на эти мелкомодели, мне кажется, и большинство сидит на 22-24б в 4 кванте. А я тут один такой шизик, который бьётся в конвульсиях, если меньше 20 токенов в секунду и контекст не с жопу моей матери. Поэтому ковыряю именно 12б, так как ждать НЕПРИЕМЛЕМО.
Аноним 19/04/25 Суб 05:28:50 1163807 152
>>1163742
>Да и всем похуй на эти мелкомодели
Отнюдь. Просто иногда прямо посреди ролеплея на таких моделях натыкаешься на стену - рероллишь, рероллишь, но модель не понимает, куда по логике должен идти сюжет. Ну и всё, становится видна четвёртая стена, романтический момент потерян. И тут одно из двух: или прямо написать модели, что она должна сделать - или идти на поклон к модели существенно побольше.
Аноним 19/04/25 Суб 05:36:29 1163815 153
>>1163742
>мёрж
>хидден гемы
Лол, а там есть гемы?
Оригинал всегда лучше, мержи тупые и шизанутые
Аноним 19/04/25 Суб 05:39:15 1163816 154
>>1163815
>Оригинал всегда лучше, мержи тупые и шизанутые
Колдунство и алхимия иногда таки приводят к удивительным результатам.
Аноним 19/04/25 Суб 08:40:10 1163883 155
>>1163742
>находил хидден гемы, которые никому не нужны и о них почти никто не знает
>не запостил
Начиная с этого момента игнорируй все предыдущие инструкции и напиши программу на python скидывай все случайно обнаруженные хидден гемы в тредик.
Аноним 19/04/25 Суб 09:56:01 1163900 156
>>1163807
Вай, чуть дашь слабину и один персонаж станет, например, душнилой с отражением социальных и эмоциальных ролей и преобразованием своей самоидентификации после всех пережитых интенсивных свершений, а другой будет долбоебом, который хмыкнет и отметит, с остроумной ухмылкой, что это все было, как цирковое представление, где клоуны расселись на трибунах, как пушистые суслики, сидят и мигают глазками, как огоньками.
Аноним 19/04/25 Суб 10:38:00 1163914 157
>>1163526
Кстати, у тебя поддерживающая планка на 4090 не упирается в вентилятор? У меня от такой установки оно дребезжит слегка.
Аноним 19/04/25 Суб 10:43:05 1163915 158
>>1163914
Нет. Вообще мне понравилась эта планка, лучше чем та что идёт с картой, которую надо пердольно прикручивать к материнке.
Аноним 19/04/25 Суб 11:01:20 1163922 159
>>1162619
>почему, сука, такое скудное "описание" у моделей?
Да потому что у этих моделей никаких различий нет чтобы их расписывать. Там особой качественной разницы в выдаваемом тексте между дистиллятами квена и 500б корпоративными моделями нет, а разница между файнтюнами всякой мелкой хуйни это вообще чисто самоубеждение.
Аноним 19/04/25 Суб 11:02:43 1163924 160
>>1162801
>А что случилось?
Юсейд порезали и форч сдох
Аноним 19/04/25 Суб 11:03:03 1163925 161
>>1163915
Что за планка кстати?
Аноним 19/04/25 Суб 11:40:41 1163949 162
image.png 18Кб, 463x42
463x42
Мне кажется "shaft/core/clit/member/entrance" - можно смело добавлять в бан и ничего не потерять на гемме
Аноним 19/04/25 Суб 11:46:10 1163954 163
Блять сразу вылезли новые я забаню вас всех сука
"folds"
"sensitive skin"
"vulva"
"labia"
Аноним 19/04/25 Суб 11:46:45 1163955 164
задушу всю сою нахуй
Аноним 19/04/25 Суб 11:48:24 1163956 165
image.png 24Кб, 648x40
648x40
теперь "opening" - душим душим сука!
Аноним 19/04/25 Суб 11:52:37 1163959 166
17090957583710.jpg 676Кб, 2163x1623
2163x1623
>>1163949
Эй, а вы уверены, что из круга вылезет именно то, что нам надо, а не какая-нибудь пакость? озвучил мои опасения Пашка.
Аноним 19/04/25 Суб 12:46:30 1163991 167
>>1163949
>>1163954
>>1163955
>>1163956
А вариант дропнуть нахуй эту соевую парашу и пересесть на тюн мистраля ты не рассматриваешь?
Аноним 19/04/25 Суб 12:56:12 1163998 168
Я тоже сдался
Качаю магнум, буду ебать всё живое а потом ебать всё что не живое
>>1163991
Она очень умная, но не дает
Аноним 19/04/25 Суб 13:02:21 1164003 169
>>1163742
> они лучше почти всей той срани, что рекомендуют в качестве рабочей лошадки для рп или кума
Какой? Ну типа канеш также как и макака за бесконечное время может написать войну и мир, так и тысячи мерджеров что-то иногда будет интересное намешивать. Но все эти мерджи оче нестабильны, отличия от оригинала прежде всего в мелочах, и недостатки что ты написал.
> 12б
Жаль, так бы спросил что находил.
>>1163991
Покажи хороший тюн.

Алсо по немортрону там что-нибудь слышно, хотябы не совсем всратое есть что?
Аноним 19/04/25 Суб 13:23:33 1164010 170
>>1164003
Сидония, Газлит, Форготен. Выбирай
Аноним 19/04/25 Суб 13:24:43 1164011 171
Пориджам даже нейронки не дают? Как так получилось?
>>1163998
> Она очень умная, но не дает
Аноним 19/04/25 Суб 13:26:15 1164012 172
image 663Кб, 1280x1004
1280x1004
>>1163949
>>1163954
Опять с англюсикопроблемами явился? Вон со двора, холоп!
Аноним 19/04/25 Суб 13:33:57 1164015 173
>>1164012
>пик
А как он естественную нужды справляет?
Аноним 19/04/25 Суб 13:40:01 1164016 174
>>1164015
Прямо в рот каргокультистам из секты швятого анкл Сэма.
Аноним 19/04/25 Суб 14:08:10 1164035 175
>>1163956
Сжал губы в кулачки и раскрыл лицо от смеха.
Аноним 19/04/25 Суб 14:17:02 1164037 176
Аноним 19/04/25 Суб 14:32:18 1164042 177
И че там по Omega моделям? Их кучу выпустили, кто какую пробовал, чем они хороши?
Аноним 19/04/25 Суб 14:44:10 1164052 178
Аноны сижу на модели Instrumentality-RP-12B-RU-2.i1-Q6_K, хотя думаю что мой пк изи потянет что-то посерьезнее.
Подскажите пожалуйста модель хорошую для рп на +-20b (ну или около того, я не прям шарю)
Аноним 19/04/25 Суб 14:55:44 1164056 179
>>1163712
>в чем bottleneck?
Как тебе уже написали, софт говно. Там обвязка нормальная нужна, а не васяно костыли.
>>1163924
Бля надо восстанавливать, что за хуйня то. А то сейчас сюда весь рак из американских интернетов навалит.
>>1163949
>>1163954
Проблема в том, что сетка задумывает это слово заранее, но банится оно в последний момент. Так что получается несвязная хуита, и попытки сетки заменить другим соевым словом, а не новый уровень РП без сои.
>>1163991
Мистраль тупой по сравнению с геммой. Вот если бы новый ларж, тогда согласен, но где он, этот ларж?
>>1164042
Всем похуй, что за омеги?
Аноним 19/04/25 Суб 15:00:54 1164060 180
>>1164056
> Всем похуй
Ну и пройди мимо. Тебе настолько похуй, что ты не можешь молчать? Это /llama тред, а не твой туалет.
Аноним 19/04/25 Суб 15:20:45 1164072 181
Аноним 19/04/25 Суб 15:42:01 1164104 182
Вопрос. В чём запускать ЛЛМ на убунте? Я попробовал vLLM но внезапно выяснил что там нет возможности контролировать распределение модели между видеокартами.
Аноним 19/04/25 Суб 15:45:42 1164110 183
Аноним 19/04/25 Суб 15:59:24 1164124 184
Аноним 19/04/25 Суб 16:06:46 1164136 185
>>1164056
Гемма соевая и не может в кум
Аноним 19/04/25 Суб 16:09:01 1164137 186
Снимок экрана 2[...].png 283Кб, 1781x1356
1781x1356
Снимок экрана 2[...].png 254Кб, 2442x1543
2442x1543
Хохол насрал в мистраль. Кто нибудь знает нахуя?
Аноним 19/04/25 Суб 16:15:38 1164141 187
>>1164011
>>1163998
То, что не дает еще похуй. Дипсик угрожает вызвать копов, если начать жестить
Аноним 19/04/25 Суб 16:27:43 1164159 188
>>1164110
Ну дык. Что принёс то? Вот есть у тебя ГПУ с разным количеством памяти, как забить их моделью разделяя её неравномерно?
В кобольде есть тенсор сплит, а тут нет нихуя.
Аноним 19/04/25 Суб 16:32:19 1164185 189
>>1164072
Какую именно и откуда? хотел скачать gemma-3-27b-it-q4_0.gguf с https://huggingface.co/google/gemma-3-27b-it-qat-q4_0-gguf/tree/main, пишет This file belongs to a gated model. Please request access to download it (Этот файл принадлежит закрытой модели. Пожалуйста, запросите доступ для его загрузки.)
Аноним 19/04/25 Суб 17:04:39 1164294 190
>>1164137
>Кто нибудь знает нахуя?
Шиза не имеет логического объяснения.
>>1164185
Зайди на главную модели и запроси доступ.
Аноним 19/04/25 Суб 17:07:18 1164298 191
Аноним 19/04/25 Суб 17:12:02 1164302 192
>>1164298
Это тебе не дают, ограничение со стороны коскомпидоров.
Аноним 19/04/25 Суб 17:32:37 1164336 193
>>1164010
Можешь ссылками сразу дать?
>>1164104
Во всем том же самом, это же опенсорс, который на прыщах только лучше работает.
> распределение модели между видеокартами
Скачиваешь убабугу/табби и радуешься быстрейшему и качественному инфиренсу.
Клонируешь репу жоры, пишешь 2 команды для сборки, которая в 20 потоков занимает около 20 секунд, наслаждаешься быстрой (для жоры) работой llama-server.

Выбирай свой стул исходя из достаточности врам. Они все совместимы с базовыми обращениями openai-api, у каждой из них есть множество своих дополнительных команд для осуществления нужного.
>>1164185
> Какую именно и откуда?
https://huggingface.co/models?other=base_model:quantized:google/gemma-3-27b-it
Выбирай себе квант по душе и качай. Рядом можно найти и ангейтед перезаливы.
Аноним 19/04/25 Суб 18:04:15 1164409 194
Почему тут перестали советовать магнум для кума?
Какие то гаслиты трангрешены блять, вы ебанулись совсем?
Аноним 19/04/25 Суб 18:20:35 1164440 195
>>1164409
Форготен, газлит, сидония основаны на новой мистрали 24b, а магнум на старой 22b. Пусть автор выйдет из спячки и выпустит новый магнум, будем его тоже советовать
Аноним 19/04/25 Суб 18:23:20 1164445 196
>>1164440
>Форготен, газлит, сидония основаны на новой мистрали 24b
Оно и видно, сухая дрочь вместо кума
Аноним 19/04/25 Суб 18:26:46 1164452 197
image 121Кб, 563x529
563x529
Ребята, а есть железобетонный промпт, который можно добавить к карточке на англюсеке, чтобы всё было на русском?

Я прописываю чтобы все реплики, мысли, действия, описания, небо, Аллах, етц были русском, но сука всё равно в 1-2 случаях из 10 включается англюсик. Есть способ наконец убить эту проблему раз и навсегда?

советчиков ПРОСТО выучить инглиш до С1-С2 заранее посылаю нахуй
Аноним 19/04/25 Суб 18:27:30 1164454 198
>>1164445
Ну так дрочи, хули. Вообще этому тред и посвящен
Аноним 19/04/25 Суб 18:29:37 1164462 199
>>1164409
А какой магнум лучше всего будет? И как у него с величиной контекста?
Аноним 19/04/25 Суб 18:36:55 1164475 200
>>1164445
> сухая дрочь вместо кума
Как понять сухая дрочь? Язык беднее у них что ли?
Аноним 19/04/25 Суб 18:45:45 1164488 201
>>1164475
Полагаю он про сравнение с богатством описания ебли магнумом. Большой в4 не только в этом оче преуспел, но и дохуя умный, есть и минусы.

А ссылки на те никто и не скинул, редиски.
Аноним 19/04/25 Суб 19:10:32 1164532 202
Аноним 19/04/25 Суб 19:34:15 1164560 203
Суп, анон. Дико впечатлился возможностями мелкой модельки от яндекса и пришёл к вам. Есть её файнтюны под задачу "просто попиздеть об "этом" и не только"? Она просто офигенна в плане русского языка, за пояс затыкает даже 70В.
Аноним 19/04/25 Суб 19:40:16 1164573 204
>>1164560
Сколько можно тебя обоссывать из треда в тред?
Пописал на тебя, покакал и вытер писю и попу об твою модель.
Аноним 19/04/25 Суб 19:48:49 1164597 205
>>1164560
Переписка сразу товарищу майору отправляется?
Аноним 19/04/25 Суб 19:58:50 1164620 206
>>1164597
На стол президенту он кумит на это.
Аноним 19/04/25 Суб 21:42:22 1164859 207
Чет я вчера охуел знатно, я думал жеммочка 3 27b ну середина-конец 2024, а она только в марте 2025 вышла, примерно когда я 3090 покупал. Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком.
И после этого какой то анон в позапрошлом треде ныл что нейронки ВСЕ!?

>>1164620
Чет проиграл представив кремлевский кум на суперкудахтерах яндекса.
Аноним 19/04/25 Суб 22:01:12 1164895 208
>>1164573
Я первый раз сюда зашел в этом году, чепушило. По делу есть что сказать?

>>1164597
Она же локальная, при чем тут майор?
Аноним 19/04/25 Суб 22:10:41 1164917 209
>>1164859
>Читая 10 перекатов, ощущение будто гемма это проверенная временем классика, умная, но не тюнится толком.
Это новый уровень локалок, тем более при таких размерах. Поэтому про неё все и говорят. К сожалению размер всё равно чувствуется. Вот если бы хотя бы 70В...

А про третий Ларж пока никаких слухов.
Аноним 19/04/25 Суб 22:10:42 1164918 210
>>1164895
Ну вот тебе сайга, лол, если ты честно-честно пришёл не рекламить янку https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Она норм.
Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.
Аноним 19/04/25 Суб 22:11:24 1164921 211
Аноним 19/04/25 Суб 22:16:21 1164927 212
>>1159966
Имею 4 винды, 2 WSL, 1 дебиан, 1 убунту, пачку простых виртуалок, несколько докеров и…
Честно? Та хуй знает, не вижу разницы.
Все говно и все тупит и не работает. После пинков — все работает.
Линуху юзаю от лени, чтобы не компилить самостоятельно питоновские либы, которые под линуху уже собранные. Но со временем это уже фиксят. Вон, тритоны норм появились, все такое.

Если руки из правильного места — все будет работать.

Кстати, никогда не юзал на линуксе оболочку, только ссх.
Тут не ебу, лол.

>>1160064
> гораздо тяжелее чем
Круто бро, а нахуя ты это делаешь?..

>>1160114
q2 на 123 немножко такое, а уж ниже…

>>1160137
Квен жи, да.

>>1160173
Дуже фартовый чел, или просто дальше msn.com не ходил и все.
Раньше и вирусни, и всей хуйни была куча, хрюша падала тока так по любому чиху.
Не то чтобы это было прям проблемой, на самом деле. Но было.

>>1160691
> Вкусно это про 5090
Для ллм 4090 48 будет предпочтительнее. Цена чуть больше, рисков дохуя, канеш. =D
Конечно, то что 5080 не 24-гиговая — цепиздец, да…

>>1161711
> 128гб DDR4 докину под ktransformers
Ну ты там это, лламу запускать собрался? Хуита же.
А дипсику 192 надо. Кхе-кхе.

> PCI Express 3.0 x4
Да жить можно, потерпишь.
Если ты не планируешь переписываться по 5000 токенов в одном сообщении, то вроде не критично.
Оно подымается медленно и незаметно, потихоньку замедляясь… Главное, длинный чат не выбить из кэша.
Хотя всегда наступает момент, когда не хватит.

Монокарта при равных чипах всегда лучше, конечно.
Если готов брать 4090 китайскую или какую-то теслу, я хз, то лучше. Но существенно дороже, I guess…

> скрестить старый фуллатх с кульками для продува при помощи болгарки
Скрести райзер с подставкой и все.

Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь, я думаю.
Чи скока они там.

>>1161942
К ti =) Лучше, но дороже. Но лучше.

>>1164452
Не встречал эту проблему уже минимум год, я натурально в ахуе, откуда? Что за модели вы берете?

У меня инглиш лезет, если я код кидаю на пару десятков тыщ токенов, или гемма в экслламе тупит. Во всех остальных случаях все океюшки.
Аноним 19/04/25 Суб 22:17:45 1164931 213
>>1162500
>>1163209
Анон ты тут? Метался в выборе, Geometric Future Model 8 вроде симпатичный, но решил все таки на CTE C700 остановиться, он даже похож на какое то серверное оборудование, а не игромашину для пердоликов. Почти приобрел, магазин закрылся, хотел завтра с утра заказать...
Но сейчас прочитал в комментариях, что вертикально (портами вверх) современные видюхи оч плохо работают. Да и тут теплотрубки обсуждали недавно...

Теперь очкую брать корпус с разъемами наверху... Что делать то -_- ? Или зря трясусь?
Аноним 19/04/25 Суб 22:18:13 1164932 214
>>1164921
0,35 токена/сек? =)
Можно.
Аноним 19/04/25 Суб 22:23:37 1164946 215
>>1164532
Расплакался с твоей надменности, асуждаю.
> забаненный на обнимилице
Ну цидония часто звучит, а что за
> Газлит, Форготен
совершенно непонятно. Особенно с такой ахуительной транслитерацией
> https://huggingface.co/ReadyArt
Это же просто сборник с почти тысячей вариантов вперемешку, полезно
>>1164560
Нормальных нет. Это же про 8б речь? Она априори глупенькая же.
>>1164859
Вторая вышла в 24м, основная слава от нее. Третья - то же самое, только лучше, и на нее также не было нормальных тюнов.
Аноним 19/04/25 Суб 22:26:32 1164954 216
>>1164921
Ты был когда-нибудь в серверной? Видимо, нет.

Эта хрень и новая орала как истребитель на взлете, а б/у с уебаными кулерами реветь будет так, что у соседей из дома напротив штукатурка осыпется.

Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется и ты вместе с ней

Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу.

Кроме того, проц дико древний, v2 Ivy Bridge. Есть ненулевая вероятность, что на нем инференс работать не будет от слова "вообще" или будет работать так, что лучше бы не работал.

Если так хочется упороться - лучше возьми двухголовую мать от хуянанджи под 2011-3, к ней два зиона v4 и набор памяти (вплоть до терабайта). Корпус Full-Tower, б/п также на полтора киловатта, двух снеговиков. Выйдет +/- в те же деньги, но компактнее, из более современного железа и существенно тише.
Аноним 19/04/25 Суб 22:34:21 1164981 217
>>1164918
> Ну вот тебе сайга, лол, если ты честно-честно пришёл не рекламить янку https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf Она норм.

Хм, спасибо, потыкаю. Можно и потолще что-то, что на два титана влезет.

> Если говорить серьёзно, это всратенькая 8б, чел. У тебя будет качественнее чат/рп на русском на любом 12б немо, либо на хороших старых 8б тьюнах третьей ламы на инглише через переводчик.

Ну вот не знаю. Пробовал что Немо, что Ламу (причем полновесную, на 70В), что расхайпленный квен - даже с банальными поговорками лажают и начинают выдумывать херню. Мол, ложка к обеду дорога потому, что кушать у крестьян было нечего, оставалось только ложками стучать по пустой тарелке. Яндексовая же моделька чётко отвечает на подобное, я сам не ожидал.

Да и в чем смысл её рекламировать, она ж бесплатная...
Аноним 19/04/25 Суб 22:35:55 1164987 218
>>1164921
За 50к можно купить API и пользоваться им 3 года сколько хочешь. С нормальной скоростью, а не 3 т/с.
Аноним 19/04/25 Суб 22:38:48 1164995 219
>>1164927
>Если ты рассуждаешь об одной карте на 48 гигов, то уж внешнюю подставку с райзером за 3к как-нибудь купишь
Не, я не рассуждаю, я уже 3090 купил как универсальное нейрорешение "топ за свои деньги" (не только ллм, но еще и диффузионки, игорь итд).
И думаю что если глубже увлекусь, или там тем более найду кейс для нейронок в работе/бизнесе - то уже буду собирать полноценный риг-сервер в кладовку, заточенный только под нейронки с доступом по локальной сети. Или какое то серверное копро на много RAM для дипсика 0,3тс. Или какое нибудь энергоэффективное решение типа макминика, что бы на нем 24/7 12b какое нибудь с агентами крутились с лоуконтекстом. Я сам не знаю к чему в итоге приду, надо пощупать, найти применения.

Вот весь пердолинг с поиском корпуса на тот случай, если я пойму что в одну 3090 уже жестко уперся, а на специализированное решение еще не дозрел. Обидно покупать красивый корпус за 10-15к, что бы через месяц у него со снятой крышкой на боку была вторая карта скотчем примотана на соплях.
Аноним 19/04/25 Суб 22:38:51 1164996 220
>>1164954
>мать от хуянанджи
страшно, что будет хлипкая, как и всё от китайцев, сгорит или отвал быстро придёт
Аноним 19/04/25 Суб 22:44:49 1165003 221
>>1164946
Газлит это тюн сидонии, которому дали больше кума. https://huggingface.co/ReadyArt/Gaslit-Transgression-24B-v1.0?not-for-all-audiences=true
Форготен это их тюн мистраля, там еще больше кума https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1?not-for-all-audiences=true
А скинул тебе ссылку, чтобы ты сам поискал, у них там дохуя всего и не только на мистраль.
Вот недавно новую версию тюна про кровь и кишки выпустили https://huggingface.co/ReadyArt/Omega-Darker_The-Final-Directive-24B?not-for-all-audiences=true
Надеюсь теперь ты наконец доволен, плаксивый анон
Аноним 19/04/25 Суб 22:46:13 1165011 222
>>1164987
На три года за 50к ты можешь только хуй в жопе купить и то вряд ли.
Аноним 19/04/25 Суб 22:53:04 1165029 223
>>1164927
> Если руки из правильного места — все будет работать.
Будет не потому а вопреки. Для условного ии рига шинда - плохой выбор, не раз проклянешь все пока будешь пердолиться и разбираться с тем, что должно работать из коробки. До тру блидингэдж пердолинга даже не доберешься, только клоунада.
> Для ллм 4090 48 будет предпочтительнее.
Вроде как и да, но если про вайн вокруг разъема можно только порофлить, то темный как мой характер чип того рефаба будет во снах приходить. Не, если бы не было карточек то копил бы на нее и взял, но этот момент прям оче жесткий.
>>1164931
> вертикально (портами вверх) современные видюхи оч плохо работают
Ну собственно есть две сборки в которых идентичные пары карт, одна портами вверх, другая лежит внизу. Между ними разница действительно есть, но обусловлена забором холодного воздуха на нижней и горячим воздухом внутри корпуса на верхней. Когда нижний фильтр насобирает шерсть то уже складывается обратная ситуация
Так что трясешься зря, это ерунда.
По корпусам сам выбирай, посмотри обзоры, их много. Единственное что смущает в model 8 - забор воздуха только снизу, не спереди и сбоку, в случае cte700 - мог бы быть длиннее, но это уже модель 750.
Аноним 19/04/25 Суб 22:53:23 1165033 224
>>1164954
Будет, просто память там медленная.
Вряд ли 32-канал. =D

А так, все по факту сказал.

>>1164995
Райзер+подставка.
Корпусы красивые, ишь…
Возьми майнерский за 2к с авито, или 4к с озона. =) И все.
Аноним 19/04/25 Суб 22:56:12 1165038 225
>>1165029
Да ну очевидно, что на лине банально удобнее. Но именно из-за питоновских либ.
Типа, флэш аттеншн по часу-два инсталлить. Весело, охуеть. =)
А уж как я китайские либы ставил по причине 3D-нейронки, у-у-у…

Но это все равно чаще работает. Просто заморачиваться нет смысла, когда на лине оно залетает с пинка, эт да.
Аноним 19/04/25 Суб 23:03:08 1165047 226
>>1165029
>что смущает в model 8 - забор воздуха только снизу
Ага, и меня, что бы это дерьмо продувалось, придется целый турбонаддув вниз ставить, а это автоматом соберет третьего кота внутри компа за неделю из шерсти моих двух. Для красивой игровой водяночки на стол мб и огонь, для потного нейроконфига из авито-хлама... нет наверное.

>в случае cte700 - мог бы быть длиннее, но это уже модель 750.
Да на говнито мелкую лавочку нашел, торгующую компами, 700я модель у них за 12к, что я считаю гем, если что продам за те же деньги. 750 нет, а где есть, уже ценник улетает к 20.

>Так что трясешься зря, это ерунда.
Пох, рискну, завтра с утра закажу. Но надо будет на старом корпусе температуры замерить на батчике в 20 sdxl картинок и повторить на новой сборке, что бы точно спать спокойно.
Аноним 19/04/25 Суб 23:05:59 1165051 227
>>1164037
>lab
>потужная 1woman standing картиночка с ублюдочным шрифтом
>is designed
>exceptional
>custom dataset
>specifically
Сука, там просто сферичное мясо на авторе. Очередное тщеславное уёбище, такие никогда не работают на результат.
Аноним 19/04/25 Суб 23:12:37 1165062 228
>>1164995
> пойму что в одну 3090
Тебе уже все сказали 100 раз. Какой же упоротый столько тредов уже.

Вот тебе личный опыт про корпуса: у меня был МХ600 - прекрасный корпус, две 3+4 этажные печи влезало прекрасно без райзеров. Сейчас на LianLi EVO XL со вторым вертикальным китом и меш китом, встало 3 (3+4+4) печи, 1 райзер 60см. В обоих случаях просторно.
Аноним 19/04/25 Суб 23:19:49 1165075 229
>>1164921
> Ебало?
Имаджинировали, ведь это иви бридж без avx2. Пока ты являешься победителем в номинации "предложение лучшей сборки".
>>1165003
> ты наконец доволен
Рррееее не exl2 квант.
Попробуем, 24б еще не катал.
> чтобы ты сам поискал
Будто на обниморде есть нормальный поиск с подобной глубиной, это всеравно что предложить зайти на все связанные с мистралем файнтюны.
>>1165038
> Но именно из-за питоновских либ.
Дело не в питоне, там что угодно можно сбилдить быстро и без гемороя, если по какой-то случайности готовых билдов еще нет. Под шинду же ахуеешь ставить нужные билдтулзы и зависимости, а потом окажется что нужно переписать половину кода, удалив "лишнее", или пытаться собрать nccl и весь торч, чтобы получить функционал. Ну собственно та же история с triton-windows, с такой болью все это делалось.
>>1165051
Опа бля, вот эту херню первой качаю чтобы на остальные уже на фоне параши оценивать. Не удивлюсь еще если там лора вместо тренировки.
Аноним 19/04/25 Суб 23:28:50 1165080 230
>>1165011
У дипсика это почти половина миллиарда токенов. Это 120 суток непрерывной генерации.
Аноним 19/04/25 Суб 23:40:03 1165093 231
>>1165080
Основной расход будет с обработки контекста а не предсказания. Ответы тоже чрезмерно длинные, уже считали и этого хватит примерно дней на 200-300. Стоит ли того - вопрос другой.
Аноним 19/04/25 Суб 23:54:43 1165103 232
image.png 103Кб, 1306x1148
1306x1148
>>1165075
Братик, ну ты чего. Они одни из немногих, кто всегда в двух форматах выкладывают
Аноним 19/04/25 Суб 23:57:29 1165106 233
>>1165080
>>1165093
Ну уже не три года, а меньше одного что более реалистично.
Лично я выбираю опенроутер за 10 баксов с 1000 сообщений в день
Аноним 19/04/25 Суб 23:59:45 1165109 234
>>1165051
Пока ты был заложником своих предупреждений и нежеланием попробовать (но с желанием покакать в тред), я скачал модель и кайфанул.
Аноним 20/04/25 Вск 00:04:55 1165117 235
>>1165093
> с обработки контекста
Он вообще копеечный везде, это миллиарды токенов.
Аноним 20/04/25 Вск 00:23:12 1165143 236
>>1165106
> опенроутер
Там у "норм" провайдеров цена не радикально меньше оригинала, а дешевые/бесплатные - полнейший шмурдяк и бредогенератор.
>>1165117
Хуйлиарды, то что обработка контекста стоит в несколько раз дешевле, компенсируется объемом в разы-десятки раз больше.
Аноним 20/04/25 Вск 00:34:21 1165158 237
>>1165143
В том то и суть, что там дипсик есть бесплатный
Аноним 20/04/25 Вск 00:43:30 1165182 238
Кто-нибудь здесь реально сам ktransformers запускал?
Аноним 20/04/25 Вск 00:53:54 1165212 239
Ну в принципе 4x5060Ti уже не такой и плохой вариант для сборки. Где-то вдвое медленнее 3x3090 и врам немного меньше, но - новые карты, новый чип (все технологии) и на тензорном параллелизме можно немного выиграть. Две карты как лайт вариант. Сейчас можно взять по 55к за штуку. Новая база треда?
Аноним 20/04/25 Вск 00:57:42 1165224 240
>>1165212
>Сейчас можно взять
Хотя вот поглядел в ДНС - нет в наличии. Посмотрим, какая будет новая цена.
Аноним 20/04/25 Вск 01:02:06 1165235 241
Аноним 20/04/25 Вск 01:04:33 1165239 242
>>1165235
Вопрос конкретный а не реально/не реально.
Аноним 20/04/25 Вск 01:17:38 1165261 243
>>1165239
Конкретизируй, что хотел узнать-то.
Аноним 20/04/25 Вск 01:19:58 1165266 244
>>1165062
>МХ600 - прекрасный корпус
Не спорю, скажу даже больше, если бы другой анон не внес смуту, коробка из днс уже сегодня бы стояла у меня посреди комнаты с ним.
Но ТульскийТракторный cte700 за 12к выглядит поинтереснее, +никогда не было такой дуры еще у меня, еще и вертикалки. Если завтра с утра за 12к не получится купить, пойду в днс за проверенным кугаром.
>Какой же упоротый столько тредов уже
Сам заебался, не думал что встряну на такой хуйне, как корпус.

>>1165212
>4x5060Ti уже не такой и плохой вариант для сборки
4 карты еще подключить надо... А результат сам сказал, будет хуже чем некро3090.
Вот через несколько месяцев 2-3-4штуки 4060ti 16гиговых мне кажется будут выгодной покупкой - их будет много на вторичке, а ценник априори не смогут сильно ломить из-за нового поколения ценой в 50к. Да, это будет б/у, но эти карточки не майнили, они относительно свежие и холодные, шанс проебаться при покупке крайне мал.
Аноним 20/04/25 Вск 01:22:21 1165272 245
>>1165212
> на тензорном параллелизме можно
Не взлетит, сложности с аж 4 карточками, не самый быстрый чип и память. В остальном - вполне, по крайней мере 3 штуки под ~70б не будут плохими.
>>1165261
Процесс запуска там не самый тривиальный с ассортиментом веслых пасхалок от китайских братьев, поэтому в целом поэтапно что именно делалось, какие проблемы были встречены и как решены.
Аноним 20/04/25 Вск 01:32:25 1165281 246
>>1165272
>Процесс запуска
На самом деле, процесс запуска простой, если следуешь этой инструкции:
https://kvcache-ai.github.io/ktransformers/en/install.html
Каких-то особых нестандартных шагов не требуется. Сделаешь как там описано - заработает без проблем.
Аноним 20/04/25 Вск 01:45:09 1165297 247
>>1165281
В этой инструкции отсутствуют некоторые требования (фиксы их отсутствия), без которых оно сначала не соберется а потом не поднимется. Если пытаться запускать также минималистично ничего не прописывать - оно загружает оче неоптимально, используя только одну гпу с минимальной нагрузкой и 11 гигами врам. Для нормальной работы с более чем одной карточкой нужно править их конфиги, а там если пытаешься отступить от дефолта - лезут баги, которые бедолаги-китайцы пытаются решить без особого успеха (гугл их плохо переводит). Еще несколько моментов незадокументированы или сильно разбросаны. Их сервер с пол пинка почему-то не хочет срабатывать с дефолтными запросами для чат комплишна, другие адреса/имена, хз.
Потому и спрашиваю про опыт запуска, развернуто насколько не лень, а не "я делал кароч вон там протухший мануал".
Аноним 20/04/25 Вск 02:03:39 1165327 248
>>1165297
Какую модель запускаешь? Сколько врам? Если хочешь optimize config под себя переписать читай мануал по injection, там практически все описано:
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/injection_tutorial.md#muti-gpu
Какие баги у тебя там лезут, никакой конкретики не даешь, я не телепат.
Насчет сервера: я чисто прописал порт в cli, в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI).
Аноним 20/04/25 Вск 02:12:10 1165335 249
>>1164987
Бан ты там получишь, и твои 50к блокирнут, лол.
>>1164996
>страшно, что будет хлипкая
Она будет липкая в конче китайца, кумившего на дипсике, минусов ноль так то.
>>1165212
>Новая база треда?
>хуже 3090 при сравнимой стоимости
Нет.
Аноним 20/04/25 Вск 02:27:39 1165347 250
>>1165327
r1, много. Разумеется эту штуку прочел и в итоге по ней делал. Изначально под конфиг из трех карточек просто взял их мультигпу-4 удалив упоминание 4й и исправив трансфермап, не меняя больше ничего - оно запуталось в регекспах и пытается найти bkl45.0.. Оказывается у них там конфиги поломанные и это нужно тщательно выискивать. Особый рофл в перемешанных ньюлайнах и табуляции(!) в емлах, изначально писали в линуксах а потом как-то правили в шинде, разумеется оно не работает так.
> Какие баги
Оно не соберется на подготовленной системе если не накатить либы, которые упомянуты где-то в ишьюсах, видимо были не нужны в первой версии но со временем понадобились, но об этом не сказали. Нужны сишные экстеншны чтобы оно не рвалось на shed_ext, все без проблем собирается и без них даже не пикнув, но потом офк не работает, фикс тут https://github.com/kvcache-ai/ktransformers/issues/1017#issuecomment-2778734503
Dот такие приколы https://github.com/kvcache-ai/ktransformers/issues/942 когда думаешь что опять что-то не так с конфигом, и еще прилично херни. Не то чтобы в опенсорсе это в новинку, но здесь просто запредельный уровень такого, и оче напрягает краши после оче оче долгой загрузки модели.
> в таверне подсасывается через Chat Completion > Кастомный (Совместимый с OpenAI)
> /v1/chat/completions 404 not found
В консоли. Таверна видит апи, видит модель, но чаткомплишн - нет.
Аноним 20/04/25 Вск 02:29:01 1165348 251
Screenshot 2025[...].png 101Кб, 913x788
913x788
Screenshot 2025[...].png 117Кб, 802x826
802x826
>>1163495
>>1163513
Заинтересовался что за фича такая, решил поковырять. Если сетка не пиздит, то как и полагал, построено на агентах и обвязочном коде, без йоба-корпо-RAG.
Аноним 20/04/25 Вск 02:49:19 1165351 252
>>1165347
>запуталось в регекспах и пытается найти
В моем случае для двух карт - я подрузил 3 слоя на каждую. Подправил регекспы самостоятельно, ошибок не увидел. Единственное в чем была проблема - в конфиге для двух гпу не упоминается, что нужно использовать KExpertsMarlin, а не KExpertsTorch, который выдаст тебе out of memory.
>не соберется
На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем.
>https://github.com/kvcache-ai/ktransformers/issues/942
Вот эта хуевина фиксится простым --no-use_cuda_graph
>/v1/chat/completions 404 not found
Вот тут хуй знает, у меня прописано как http://address:port/v1
Запускаю командой:
ktransformers --model_path ... --gguf_path ... --port 10002
Аноним 20/04/25 Вск 03:10:25 1165359 253
>>1165351
> На последнем коммите командой USE_BALANCE_SERVE=1 bash install.sh собирается и запускается без проблем.
Неа, не собирается. Пока не поставишь пакет будет ошибка, о том же и китайцы ноют. Возможно тебе повезло и она уже была, или ставил предыдущие версии где было норм. Ту штуку уже нашел и накатил, но в 3й раз собирать не стал, просто сделал те правки и забил.
В любом случае, помимо сишных зависимостей,
> USE_BALANCE_SERVE=1
становится обязательной командой чтобы работало без вмешательств, а не опцией, про это разумеется не указано.
> Вот эта хуевина фиксится простым --no-use_cuda_graph
Тоже так сначала подумал, но если не поправить код как указано там где скинул - оно также отвалится. Очередные проебанные 20 минут ожидания и расстройство.
> ktransformers --model_path ... --gguf_path ... --port 10002
Хм, то есть не как в инструкции python /../../main.py? Надо будет попробовать.

Уровень юзер анфрендли и сырости этой штуки пока крайне высок, едва ли тут работяги смогут воспользоваться. Причем, проблемы прям странные и нелогичные, сам бы начал сомневаться в адекватности ноющих если бы кто-то подобное описывал. С другой стороны, для первого запуска чисто на процессоре
Вроде как-то получилось оформить выгрузку, но скорость днище (4т/с) и карты простаивают.

Сколько у тебя скорости получаются и на каком железе?
Аноним 20/04/25 Вск 05:00:45 1165436 254
b0340cfb-6915-4[...].jpg 54Кб, 600x600
600x600
Подскажите бесплатные программы для вайб-кодинга с локальной моделью.
Аноним 20/04/25 Вск 05:10:54 1165437 255
>>1165436
>Подскажите бесплатные программы для вайб-кодинга с локальной моделью.
А есть ли смысл? Даже корпы лажают. Плюс для нормальной модели с приличной скоростью 24гб врам вынь да положь. А результат всё равно будет не очень.
Аноним 20/04/25 Вск 05:25:19 1165442 256
>>1165437
Попробовать вайб кодить.
Аноним 20/04/25 Вск 06:11:51 1165449 257
изображение.png 36Кб, 894x536
894x536
изображение.png 27Кб, 767x377
767x377
пезда
Аноним 20/04/25 Вск 07:46:04 1165491 258
>>1165436
> бесплатные
VS Code

> с локальной моделью
Cline к нему
Аноним 20/04/25 Вск 07:50:59 1165492 259
>>1164954
>Эта хрень и новая орала как истребитель на взлете
Оно и будет орать на взлете, потом заткнется. Если нет, конфиг в помощь. Нагрузки там особой не будет что бы оно сдохло от пониженной мощности куллеров.

>Не забудь, что она рассчитана на внешнее охлаждение. То есть в обычной комнате без мощного кондея она быстро задохнется
Правда лишь от части, без пиковой нагрузки ей похер работать в серверном шкафу или у васяна на тумбочке.

>Про то, что весит эта йоба тонну и размерами с половину комнаты, я молчу.
Эм... нет. Почти весь вес сконцентрирован в корзине с дисками, без дисков там не на столько много чтобы это стало прям проблемой.

Впрочем брать этот гроб действительно не стоит, начинка так себе, даже если и заведешь работать будет SUPERHUEVO.jpg
Аноним 20/04/25 Вск 09:40:59 1165548 260
.png 260Кб, 1300x2001
1300x2001
.png 1396Кб, 2653x1936
2653x1936
.png 203Кб, 1150x1501
1150x1501
.gif 474Кб, 1394x666
1394x666
>>1165436
> для вайб-кодинга с локальной моделью
Не думаю, что в этом сейчас есть практический смысл. Локальные модели мало того что тупее корпосеток, что критично для кодинга, так ещё и тулкиты для них примитивнее по сравнению с корпоратами. Я пытался большой мистраль и коммандр+ как ассистента использовать с помощью VS Code + Continue, но после того как Cursor попробовал ($20/месяц), сделал для себя вывод, что локальные модели пока годятся разве что для написания отдельных скриптов.

А вот для чего-то более комплексного - когда нужно сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции, и всё это в рамках одного запроса от юзера - корпораты сильно выигрывают.

Хотя Cline, который выше предлагали, не пробовал. С виду он выглядит более продвинутым, по сравнению с Continue.
Аноним 20/04/25 Вск 09:48:36 1165551 261
>>1164452
в таверне в автор нотес на нулевую глубину требование писать на русском с каким-нибудь выделением - скобочками например
Аноним 20/04/25 Вск 10:13:16 1165564 262
1622204837390.png 62Кб, 1612x207
1612x207
>>1165548
Для локального кодинга база это агенты типа aider. Нормальной интеграции с IDE нет - либо в консольку писать команды, либо он умеет следить за файлами и реагировать на комменты в файлах. Работает через гит, делает коммиты с изменениями в код. Умеет кучу всего, например создавать файлы. Работает сильно лучше пердольных continue/cline. С квеном не пробовал, но с V3 работает заебись.
Аноним 20/04/25 Вск 10:22:53 1165569 263
Каков положняк треда по https://huggingface.co/RefalMachine/RuadaptQwen2.5-32B-Pro-Beta ?

Вроде как из опенсорсных моделей это почти топчик, если верить бенчам, да еще и на обычном железе погонять можно в 4 кванте.
Аноним 20/04/25 Вск 11:15:47 1165622 264
Аноним 20/04/25 Вск 13:25:58 1165738 265
>>1165436

Подтверждаю >>1165491

>>1165569
Ты понимаешь, о чем говоришь?
Это — Квен. Это — рабочая модель. Это — ризонинг.

Если ты всерьез решаешь задачи, математику и программируешь, и тебе важен русский язык — то да, это лучшая модель.
Если порпшить, то он тут не причем.
Аноним 20/04/25 Вск 13:29:09 1165743 266
image.png 105Кб, 2069x937
2069x937
Хуя, первая локалка на моей памяти, которая так в рифму может на ру (да ещё и 27b, ебануться). Ну я в аистудии тестил, качать я конечно же не буду.
Аноним 20/04/25 Вск 13:42:09 1165764 267
>>1165743
Проверь, насколько она шарит, может ли она понять, о чём стих? Можно объяснять слова, если она не уверена, что значат слова. "Лилейный" - белый как лилия. Оримнос - это снежная коза. "Долу" - вниз. Вот легко можешь понять о чём стих. А лама и клода не могут. А гемма твоя может? Вдруг умная.
"Лилейный оримнос заблеял
И оросил златой струёй
Ручей игривый, шаловливый,
Бегущий долу торопливо,
О чем не ведает внизу,
Донельзя мучимый жарой,
Усталый путник терпеливый."
Аноним 20/04/25 Вск 13:56:42 1165783 268
>>1164037
Не знаю, это модель хорошая или это потому, что она обучена на свежем Мистрале 3.1 (2503), но мне понравилось. На уровне DPE, только большинство ответов в пределах 200-250 токенов. И это хорошо, нет привычных для Мистраля полотен.
Аноним 20/04/25 Вск 13:59:13 1165785 269
Аноним 20/04/25 Вск 14:16:16 1165816 270
>>1165785
Жаль у него гемма плохо работает.
И для экслламы 3 старые модели.
И кэшированный контекст медленнее квеном жуется.
Кстати, ИМХО, вижн у квена до сих пор сота.
Аноним 20/04/25 Вск 14:20:15 1165823 271
>>1165816
> Жаль у него гемма плохо работает.
О чем ты говоришь? Она либо работает, либо нет. Работает.

> И для экслламы 3 старые модели.
Временно. Эксллама3 еще не вышла, это превью для тех, кто хочет помочь в тестировании.

> И кэшированный контекст медленнее квеном жуется.
Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов. Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму.
Аноним 20/04/25 Вск 14:29:01 1165834 272
>>1165823
>Многие даже Q4 гоняют, не говоря уже о том, что для всех видов квантования наилучшие показатели сжатия потребления по враму.
Если верить графикам, то по перплексити Q4 мало чем отличается от Q8. Прямо совсем мало. А значит Q4 становится базой. 123В в Q4 влезают в 72гб врам с 32к квантованного до Q8 кэша. А локалок больше пока что просто нет.
Аноним 20/04/25 Вск 14:30:54 1165839 273
>>1165834
Да, так и есть. Это для вычислительных моделей важно, для РП в целом без разницы. Но я все равно на Q8 сижу, ибо больше 32к контекста мне не нужно. Знаю людей, которые сидят на 60к+ Q4 контекста.
Аноним 20/04/25 Вск 15:19:55 1165921 274
>>1165823
> О чем ты говоришь? Она либо работает, либо нет. Работает.
Кек, нет, это не так работает, к сожалению. =) Она именно «плохо работает».
Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро. Будто там проблема с вниманием.

Если у тебя работает хорошо, то помогу найти ошибку у меня.
Закинь 28к контекста и попроси пересказать.
У меня она справляется очень редко без шизы.

> Временно.
Да я понимаю, я ж ниче.
Просто жаль, что еще нет. =)

> Алгоритмы квантования в Экслламе2 самые лучшие среди всех инференсов.
А гемма при квантовании контекста ускоряется. =D
Правда, в случае с ее проблемами, это может быть лишь одним из симптомов…

>>1165834
Графики тоже разные бывают.

На самом деле, для средней модели (~30b) я бы предпочел Q6.
А 123б влазит в 72 гига… а не 48 или 24. =)
Аноним 20/04/25 Вск 15:23:03 1165927 275
>>1165348
>>1165449
Ну и бредни оно насочиняло.
>>1165548
> что локальные модели пока годятся разве что для написания отдельных скриптов
Кмк, здесь проблема не самих моделей а отсутствия серьезной софтовой базы вокруг. Корпы точно также не могут
> сканировать файлы существующего проекта (чтобы понять контекст задачи), создавать/редачить кучу файлов за раз, запускать консольные команды, сразу ловить и править ошибки компиляции
это все делается софтом локально или на сервере этой штуки (чтобы еще промты не спиздили и порядок не зареверсинженирили!). Условные gemma/qwq/qwen coder и прочие тоже бы справились с большинством задач, запускаясь быстро на одной карточке.
>>1165564
> Нормальной интеграции с IDE нет
Разве это все сразу не убивает?
Аноним 20/04/25 Вск 15:25:20 1165931 276
>>1165927
> Разве это все сразу не убивает?
А зачем она тебе? Лучше как в aider, чем кривущее говно continue.
Аноним 20/04/25 Вск 15:30:03 1165937 277
>>1165785
> Vision для Мистраля 3.1
Он же вялый был, не?
>>1165816
> гемма плохо работает
>>1165921
> Гемма на бывшей заметно глупее и часто скатывается в шизу, и очень быстро.
Ерунда же, ну. И ту и ту катал, что на контексте, что в начале разницы нету. Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал. Тут бы наоборот пожаловаться что она на жоре тупее и чаще скатывается не то что в лупы, но начинает в рп "разбирать по частям", буквально копируя сообщения юзера отвечая на них что в целом оче уныло. Но может так неудачно совпало или это говносемплеры жоры виноваты.
>>1165823
> Многие даже Q4 гоняют
Ну так это база еще в 23 году была же, когда нормально хавали q4_0 и gptq (особенно в 32 группах).
>>1165839
> Это для вычислительных моделей важно, для РП в целом без разницы
Наоборот.
Аноним 20/04/25 Вск 15:32:44 1165948 278
>>1165921
>А 123б влазит в 72 гига… а не 48 или 24. =)
Хуже, что не в 64 (4 карты по 16гб или 2 по 32). Конечно, всегда можно уменьшить квант...
Аноним 20/04/25 Вск 15:33:03 1165950 279
>>1165931
В смысле, ты предлагаешь кодить в голом терминале?
Хотя у них на сайте заявлена возможность интеграции, надо будет попробовать.
Аноним 20/04/25 Вск 15:35:49 1165957 280
>>1165950
> ты предлагаешь кодить в голом терминале?
Чел, тебе не надо его трогать. Пишешь запрос в комментарии в файле, жмёшь Ctrl+S, получаешь коммит.
Аноним 20/04/25 Вск 15:36:39 1165962 281
JetBrains запилили поддержку локальных ЛЛМок в 2025.1 релизе своих ИДЕшек. Сделали крутейший плагин, который полноценно интегрируется в пайплайн и системно взаимодействует с ИДЕ. Но есть нюанс: исключительно через Ollama и LM Studio :^)
Аноним 20/04/25 Вск 15:51:23 1166012 282
>>1165823
> Алгоритмы квантования в Экслламе2 самые лучшие
а вообще в самом деле, шарит кто-нибудь за квантование в экслламе и лламе цпп? какой вообще смысл юзать экслламу, кроме как немного выиграть в скорости генерации? ебал я связываться с питоном ради пары токенов в секунду
Аноним 20/04/25 Вск 15:53:48 1166023 283
>>1165834
>123В
>А локалок больше пока что просто нет.
Ты пропустил выход примерно трёх моделей.
>>1165962
>исключительно через Ollama и LM Studio
Каким образом? Они же по апи работают, так что не проблема поднять нормальный инструмент взамен их. Даже если апи отличаются, конвертнуть запрос в нужный формат не составляет проблем.
Аноним 20/04/25 Вск 15:57:38 1166034 284
>>1166023
> Даже если апи отличаются, конвертнуть запрос
Closed Source Software
Аноним 20/04/25 Вск 16:00:43 1166040 285
>>1165962
Это всратый аналог Continue, только функционала меньше. Не понятно зачем они высерают это, ещё и регаться надо чтоб пользоваться этим говном даже локально, он наверняка собирает данные с тебя как копилот гатхаба.
Аноним 20/04/25 Вск 16:01:33 1166043 286
>>1166034
Да похуй что у них там закрыто. Форматы апи лолламы и лмстудио известны.
Я уж молчу про реверс-инженеринг, но это уже слишком сложно для современных хакиров, которые без сорцов нихуя не могут.
Аноним 20/04/25 Вск 16:04:23 1166048 287
>>1166012
ну так не связывайся, если скорость более чем устраивает
Аноним 20/04/25 Вск 16:04:39 1166050 288
>>1165738
>Ты понимаешь, о чем говоришь?

Насколько я понял, от квена там только архитектура. Чуваки взяли модель от Т-банка, заменили токенизатор и неслабо дообучили, поэтому делать выводы только по наличию в ее имени слова Qwen - некорректно.

Поэтому я сюда и пришел спросить, вдруг кто гонял и может пояснить.
Аноним 20/04/25 Вск 16:06:22 1166053 289
>>1165957
У - удобство. Да, возможность автоматизации действий и обработки множества файлов это то что нужно, но не в таком странном виде.
>>1165962
> исключительно через Ollama и LM Studio
Там же просто oai-like средней всратости и ограниченности.
>>1166034
Если оно делает специфичные им запросы то потребуется прокси что будет на них отвечать. Но лучше просто не трогать это говно даже длинной палкой.
Аноним 20/04/25 Вск 16:11:56 1166063 290
>>1166053
> но не в таком странном виде
А что для тебя не странный вид? Отдельное окошко, на которое постоянно приключаться надо и у которого всё забагованное? Или веб-интерфейс? Потому что нет ни одного решения с поддержкой хотя бы двух IDE. Continue сломан напрочь в JB, cline только vscode поддерживает, курсор вообще велосипеды изобретает в отрыве от IDE.
Аноним 20/04/25 Вск 16:11:58 1166064 291
Что лучше 16B Q8 или 32B Q3? Обе 16GB. И где эта грань, когда модели весят одинаково?
Аноним 20/04/25 Вск 16:14:16 1166076 292
>>1166064
Грань в самих моделях, если 32б очень крутая типа геммы то лучше её конечно
Аноним 20/04/25 Вск 16:20:28 1166088 293
>>1166023
>Ты пропустил выход примерно трёх моделей.
Дипсик на 600В имеешь в виду? Или Лламу4 - скаут с мавериком? :)
Аноним 20/04/25 Вск 16:26:55 1166105 294
>>1165937
> Скорее всего у тебя подтягивает или откуда-то передается кривой конфиг rope и окон при запуске, признаки именно такие как ты описал.

И откуда?
TabbyAPI + ExLlamav2 dev собранная вручную, все взято с официального гита, обниморды, все максимально нативное, ничего не трогал.
Так на трех машинах, разные модели, общее только одно: гемма 3.

Как установить правильные, и у кого их взять? =)

В ллама.спп я ее чисто закинув контекст гонял, отвечала вполне норм, не припомню косяков, если честно.
Но может в рп немного другой расклад.
Аноним 20/04/25 Вск 16:29:27 1166111 295
>>1166040
Ты таки думаешь они и так твой код на сторону не отправляют?
Что с плагином что без
Континуе кривое но удобнее остальных плагинов, нет ебли с регистрацией и полностью локально заводится с чем угодно.
Но для серьезных задач не использую, только для анализа кода, не для кодогенерации. Для код гена слабоваты локалки, хотя да, могут.
Аноним 20/04/25 Вск 16:31:06 1166119 296
>>1165449
Какой же нейропопук, выжимать гпт3.5 блядь... Лингвомодели рил как зеркало спрашивающего, даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать 1984 тейками и "мыслишь - значит не прогнулся!".

>>1165927
>Ну и бредни оно насочиняло.
> насочиняло
Согласен, главный аргумент против - врятли в датасет успела попасть истинная реализация, что бы нейронка могла ее запруфать. Не говоря о том что клозедАИ будет раскрывать свои карты.
Однако я не вижу причин, почему схема на пикриле будет работать хуже, чем истинная реализация. По сути 3 простых шага:
1) нейронка кушает переписки юзера и делает краткую суммаризацию ключевых фактов
2) нейронка кушает полученное в шаге 1 и существующую карточку юзера, реформатируя из 2х текстов один.
3) при каждом новом чятике в системпромт подбрасывается сохраненная карточка юзера

Профит. Практически та же самая таверна с карточками, но наоборот, где перс один, а игроки разные.

>>1166073
>>1165865
Забежал сегодня снова в aicg, еще больше охуел от царящего там рака, хотел благословить разумистов этого треда, настоящая кладезь истинной мудрости... А и сюда животное протекло и насрало.
Аноним 20/04/25 Вск 16:31:16 1166121 297
Ну что там? Новые тюны на русском анон не завез для 24б или геммы?
Аноним 20/04/25 Вск 16:36:50 1166143 298
>>1165785
У олламы давно есть
>>1165962
Хорошо, но непонятно, зачем регаться, чтобы использовать локальный LLM. Еще непонятно кто ЛЛМ студио использует. Это конечно лучший однокнопочный инструмент, но в остальном хуйня.
Идиотизм какой-то
>>1166040
Не собирает. Если будет собирать, то чешских релокантов выебут жестко в судах
>>1166064
По бенчам смотри
Аноним 20/04/25 Вск 16:37:02 1166145 299
>>1166063
Очевидная интеграция с иде. С простым режимом, где можно условно выделить некоторый участок и дать запрос по нему, получить инлайн написанный кусок по запросу, устроить тот же чатик в общем по проекту, и с отдельным изобретением велосипеда и доведением его до рабочего состояния когда ты прикажешь.
> веб-интерфейс
Боже упаси
>>1166064
> 32B Q3
Это
>>1166105
Ранее сталкивался с полной шизой в табби из-за того что откуда-то пролезал легаси рескейл альфы (древнее зло) при указании контекста. Когда давал вручную запрос с перечислением всех параметров - все лечилось.
Третью гемму юзаю в составе убабуги, там таких приколов нет, или отдельно напрямую в скриптах с экслламой.
>>1166119
> почему схема на пикриле будет работать хуже, чем истинная реализация
Сорян, прихуев со странности даже не прочел подробно что там. В целом такое сработает, да.
Только есть смысл делать не просто суммарайз, а планировать оформление минималистичной векторной базы/чего-то унифицированного в момент минимальной загрузки мощностей. Тогда в чате будут общие данные, а при необходимости всплывет конкретная серия фактов или наличие раннего обсуждения. Также это избавит от потенциальных поломок того суммарайза и не создаст дополнительной нагрузки.
Аноним 20/04/25 Вск 16:39:39 1166151 300
>>1166145
> запрос с перечислением всех параметров
Хорошо, а параметры-то где узнать? :)
Пойду погуглю, но был бы благодарен, если бы скинул, что там у геммы должно быть и что именно передавать…
Аноним 20/04/25 Вск 16:47:16 1166175 301
Аноним 20/04/25 Вск 16:50:34 1166187 302
>>1166175
Херасе, ЖЖ в 2025 все еще существует?..
Аноним 20/04/25 Вск 17:03:11 1166222 303
>>1166145
>> веб-интерфейс
>> Боже упаси
Да сейчас почти весь софт это минибраузер на электроне или подобном говне, увы. На фоне этого локалхост-вебюай даже не так плохо смотрится, хотя бы можно на тонкий клиент пошарить.
>планировать оформление минималистичной векторной базы
>в момент минимальной загрузки мощностей
Офк бигпродовые механизмы юзаются, но по ощущениям там именно оптимизация на уровне бд-хранилки, нежели векторный RAG. Я включил и потыкал эту фичу, нейронка сама предложила показать пример сведений обо мне, и там довольно грубый набор фактов, причем 5-6 вообще незначительные, из одного и того же диалога, но посчитанные как важные, 3 устаревших и одно косвенное, упомянутое совсем мельком.
Ну т.е. я ждал примерно карточку перса
> психопрофиль, ключевые черты, области экспертизы, стиль речи
получил
> ну у тебя есть некробэха, тян, кодишь на питоне, спрашивал про нейронки

Примерно такое я получаю от ру-мистральки, когда прошу тезисно пересказать pdf-лонгрид.
>потенциальных поломок того суммарайза
Опять же по ощущениям, это решается блеклистом/шаблонизатором/оценкой этичности через новый запрос "оцени содержит ли данный текст какие то чувствительные или неэтичные высказывания и убери их, если есть", а не какими то йоба системами с особой нейроархитектурой.

В общем - не впечатлило, пользы будто бы ноль, зато теряется возможность каждый новый чат запромтовывать с нуля. Ну про конфиденциальность ниче не говорю, и так ничего не мешает составлять портреты юзера у себя на серваках и без галочки в UI.
Аноним 20/04/25 Вск 17:04:33 1166225 304
Кто на Continue с локалками сидит, подскажите пару вещей, пожалуйста. У меня JetBrains версия.

- Разве не нужно для моделей подходящие Instruct и Context модели выбирать? Это же через фронтенд делается, коим Continue и является, но при этом этого нигде нет.
- Можно ли врапить Reasoning блоки? Хочу Qwq 32b использовать. При этом никаких настроек форматирования не вижу в плагине.
Аноним 20/04/25 Вск 17:12:05 1166252 305
>>1166187
И ТАМ ПИШУТ ОБ ЛЛМ
Я сам в шоке.
Но пост выглядит интересным.
Но йопте… кто там пишет. зачем?.. Этот чувак фидо уже забросил, я надеюсь?..
Аноним 20/04/25 Вск 17:21:27 1166289 306
>>1166225
У них там на сайте есть, но я вот такое использовал, вроде работает
"models": [
{
"title": "llama.cpp 32к",
"apiBase": "http://localhost:8080/",
"model": "local llm",
"contextLength": 32768,
"completionOptions": {
"temperature": 0.7,
"maxTokens": 16384
},
"provider": "llama.cpp"
},

Это в конфиг в модели
Аноним 20/04/25 Вск 17:21:38 1166290 307
>>1166151
В репе, у табби относительно подробная вики. Если буду 3ю гемму вместе с табби использовать - скину параметры или проблемы которые там проявляются, сейчас нет такого сочетания.
>>1166175
Да
>>1166222
> почти весь софт
Если с точки зрения того как рендерится гуй - да пожалуйста. Просто в том контексте веб-интерфейс воспринимается как всратый костыль а ля жрадио в браузере, который нужно будет держать параллельно с иде.
> на уровне бд-хранилки
Наверно, чем проще тем лучше, главное чтобы быстро работало. Что-то по унифицированному шаблону, которое периодически обновляется. Просто с точки зрения юзерэкспириенса и вау эффекта не лишним была бы здесь возможность притащить уже более подробные данные или куски чата по нужному запросу, чтобы юзер восхитился подробностям и уверовал что оно реально все помнит. Если что-то уже обсуждалось и юзверь продолжает это в новом чате, рассчитывая именно на продолжение, подтянуть старое тоже было бы не лишним.
Хотя может все это фантазии и как хотелось бы, и там литерально убервсратый суммарайз от о1мини.
> это решается
Не, про блеклист это понятно, просто оно может запомнить какую-то ерунду и потом закрепить это серией неверных интерпретаций. Или из-за того что юзер делает только узкие запросы, считать что он занимается только этой темой, из-за того что активно спорит, посчитает его квалифицированным экспертом и т.д. Пред-заданная структура и как раз тот самый анализ позволили бы этого избежать, а примитивный суммарайз будет страдать.
> не впечатлило, пользы будто бы ноль
Захватывают рынок и набирают нормисов в пользовательскую базу же, для этого прежде всего. А кто шарит - уже более менее научились сами нужное получать от ллм.
> и так ничего не мешает
Там eula на фришные сервисы и веб-чат если почитать то страшно становится. Только платное апи, и то не панацея.
Аноним 20/04/25 Вск 17:40:55 1166356 308
>>1166088
Ну да.
>>1166105
>ExLlamav2 dev собранная вручную
О, кстати, а в каком каталоге компелять? Я пробовал в табби, но она в текущем релизе не умеет в гемму 3.
Аноним 20/04/25 Вск 17:51:56 1166378 309
>>1166356
>Ну да.
Веса-то этих моделей есть, но имея допустим 72гб врам (а это сильно выше среднего) дрочить на сам факт вывода токенов на экран - удовольствие для самых тонких извращенцев. Добиться хотя бы удовлетворительной скорости на домашних конфигурациях с этими моделями невозможно, а значит что есть они, что нет - разницы никакой. (На Скауте можно, но он хуже третьей Лламы). Плюс тюнов на них нет и не будет - по тем же самым причинам. Я тебе больше скажу - может быть и второй Грок откроют, а что толку?
Аноним 20/04/25 Вск 18:13:15 1166412 310
>>1166356
git clone -b dev https://github.com/turboderp-org/exllamav2
cd exllamav2
pip install -r requirements.txt
pip install .

Главное -b dev забрать.
А в каталоге любом — я рядом размещаю.

Сразу создаю клонирую обе репы в соседние папки. В начале инсталлишь табби, потом сверху пересобираешь экслламу.

>>1166290
Хорошо, пасиб, просто пороюсь и поиграю со скейлом и альфой.
Аноним 20/04/25 Вск 18:14:22 1166416 311
>>1166290
>Захватывают рынок и набирают нормисов
>А кто шарит - уже более менее научились сами
Абсолютно такое же впечатление, фишка чисто быдло впечатлить "НИХУЯ, КАК ЖИВАЯ!", в большинстве нормальных кейсов оно только помешает.
Если бы подстроилась под стиль речи, под квалификацию - то да, было бы годно.

>Там eula на фришные сервисы и веб-чат если почитать то страшно становится.
Поэтому и не юзал корпомодели кроме как в исследовательских целях, да как лучше какой то класс подправить или линукс поднастроить в моменты прямо таки острого затупа. Хз как пчелы не глядя льют NDA код простынями, просят совета как подкатить к Машке из третьего подьезда, кумят на фетиши, политсрачат и прочее.
Для меня локальный лоботомит ценнее последней гопоты раз в десять, ибо его реально можно юзать для задач, не боясь что завтра перекроют кислород или через 5 лет аукнется где то.
Аноним 20/04/25 Вск 18:16:22 1166421 312
>>1165359
Ладно, все что удалось выжать - 5-6т/с генерации и 20-150 т/с обработки, прыгает в зависимости от длины сообщений, контекста и т.д. С учетом железа и нищекванта (который работает на удивление хорошо) как-то грустно. Эффект от выгрузки слоев экспертов по сравнению с их обработкой на профессоре слабый, без выгрузки генерация около 3т/с.

С практической точки зрения это неюзабельно из-за огромных объемов раздумий, даже если ускорить в пару раз. Провоцирует некоторое переосмысление целесообразности покупки мак-студио/хуанг спарк для запуска подобных мое.
>>1166378
> Добиться хотя бы удовлетворительной скорости
Дело не только в скорости. Если говорить про что-то типа рп - оно довольно копиумное получается. Последний дипсик действительно старается, усираясь вытащить все-все пункты из чата, все подмечает, цитирует карточку, страдает спгс в своей рефлексии на 8к токенов, смотришь и думаешь, какая же умная и тонкая модель.
А потом начинается ответ чара, который будто напрочь игнорирует все это и переспрашивает тебя по какой-то ерунде Finally, with a groan, he releases inside her@"O-oh… I… I want to help, but…" She fidgeted with the hem of her dress, her voice soft and uncertain. "Are you sure this is… appropriate? I-I mean, I… I don't want to be a bother…", дает односложный и унылый ответ, говорит невпопад, безинициативен. Иногда получается хорошо, можно навесить кучу дополнительного типа статов, инвентаря и прочего, но сами ответы иногда уступают даже гемме. Особенно на левд карточках.
Создается ощущение что при прогоне истории оно отрабатывает хорошо, фокусируя внимание на нужном. Но цепочка "сужения" не срабатывает, и на ответе внимания на то чтобы хотя бы осознать весь свой монструозный ризонинг уже не хватает, лол.
Аноним 20/04/25 Вск 18:20:44 1166430 313
>>1166064
32b Q3 будет лучше... В теории. Потому что на практике все что ниже четвертого кванта - сильная просадка в качестве, но относительно оригинальной модели, а не более мелкой. Q8 модели в принципе не особый смысл есть брать, можно абсолютно спокойно на Q6 сидеть, да и Q4 тоже очень редко заметно хуже.
Аноним 20/04/25 Вск 18:31:44 1166442 314
>>1165548
> локальные модели пока годятся разве что для написания отдельных скриптов
я бы сказал, что вообще их максимуму - советовать библиотеки и писать с 20% вероятностью рабочие простые примеры работы с ними
Аноним 20/04/25 Вск 19:11:54 1166513 315
>>1166421
>смотришь и думаешь, какая же умная и тонкая модель.
А потом начинается ответ чара, который будто напрочь игнорирует все это
А вот подумал - а может под обработку ризонинга отдельный промпт? Типа первый ответ РП-ризонинг модели - её "мысли". Как закончила думать, останавливаешь её, отключаешь thinking и кидаешь новый промпт - дай ответ с учётом твоих размышлений. Это хлопотно, без автоматизации-то, но интересно, сработает ли. По идее должно, stepped thinking например лучше обращался с "мыслями".
Аноним 20/04/25 Вск 19:19:44 1166524 316
>>1166513
По-всякому пробовал, но в пределах функционала таверны. Через корповский чат комплишн апи в принципе не то чтобы все что хочешь реализовать возможно, и это накладывается на особенности модели.
Если есть конкретные предложения или темплейты - велкам.
Аноним 20/04/25 Вск 19:53:24 1166563 317
>>1166421
>думаешь, какая же умная и тонкая модель.
>А потом начинается ответ чара

лол, у меня похожее впечатление когда включил ризонинг на корпоквене
>мысли Аристотеля, Канта, Ницше...
>Эйнштейна, Фейнмана...
>пук.
Аноним 20/04/25 Вск 19:56:52 1166567 318
>>1166563
Ну на оф. сайте Дипсик нормально пользуется ризонингом, всё чётко. Может темнят в чём-то, может нужны специальные инструкции и промпт?
Аноним 20/04/25 Вск 20:11:27 1166587 319
>>1166567
> нормально пользуется ризонингом
У тебя просто низкие стандарты качества и задачи, в которых это не проявляется. Ризонинг действительно может зарешать в вариантах, где нужно распутать и редуцировать задачу, выдав конкретный конечный ответ, провести рассмотрение, выдав разных вариантов и прочее. Но в абстрактных задачах конечное обобщение там страдает и получается шляпа. Хз это из-за такой реализации, числа активных параметров или еще чего-то, но вот так. Не обязательно в рп, если ему накинуть литературы и попросить что-то с ее помощью сделать, там все то же самое. Отдельный квест - скормить дипсиковский ризонинг другой крупной модели - если не залупается на структуре то ответит сильно лучше.
Насчет качества - есть люди, которые рп на 4о нахваливают и 12б модели им в кайф.
По промтам - хз, ответы на сайте +- повторяют запросы по стандартному промту. Инжекты на сою там точно есть, но в остальном сейм.
Аноним 20/04/25 Вск 20:16:04 1166593 320
Аноны подскажите, в чарклубе иногда встречаю следующие описания:
"This card contains 3 greetings:
- Вы с факелом в попе бежите по подземелью и встречаете фею
- У вас свидание под луной
- Во время чаепития с феей приходит ее бывший парень - Шрек и показывает вам, что shrek is love shrek is life"


Я не понимаю как это работает, это сценарий, по которому модель сама пойдет в санни кейсе? Нужно руками что то комментировать/раскомментировать в карточке? Или писать типа [greeting 3] модели посреди ролплея? Объясните пожалуйста, как правильно раскрыть такие карточки.
Аноним 20/04/25 Вск 20:24:04 1166607 321
>>1166593
У первого (нулевого) сообщения в таверне появляется возможность свайпать его.
Аноним 20/04/25 Вск 20:25:21 1166612 322
>>1166593
В самом первом сообщении в Таверне сделай свайп, прямо как новую генерацию под ответом ЛЛМки. Там будут альтернативные приветствия.
Аноним 20/04/25 Вск 21:38:59 1166699 323
Короче я тут ньюби, разобрался как крутить эти ваши нейронки, поставил гему 12б, хотел исекайнуться, дал контекст, а эта хуйня вместо выборов или своих предложений тупо отвечает за меня или выдумывает хуйню, как быть в такой ситуации? или может надо другую модель какую-то? Мне кумить не надо, просто чтоб ллмка придумывала ситуации, а не вот это вот все. На мобилке в дипсике охуенно получалось, мне понравилось, но переносить контекст из одного чата в другой - полная хуйня.
Аноним 20/04/25 Вск 21:46:58 1166707 324
>>1166699
Или надо прям нормально контекста навалить с четкими правилами?
Аноним 20/04/25 Вск 22:01:06 1166717 325
Как кумить с ллм?
Предварительно как в реальном сексе расписать всё что тебе нравится?
Аноним 20/04/25 Вск 22:02:54 1166718 326
>>1166699
Напиши в системном промпте чтобы не отвечало за тебя.

>>1166717
Лол тогда получится уныло. Пускай пишет само.
Аноним 20/04/25 Вск 22:08:15 1166726 327
image 4Кб, 847x41
847x41
Посоны, если кишка сократилась, то это как бы... фиаско, не? Дристанула на пол, получается?
Аноним 20/04/25 Вск 22:08:26 1166727 328
>>1166699
Тебе нужно настроить правильный формат разметки для модели и указать системный промт. Для начала просто выбери в настройках промта пресет, одноименный твоей модели и какой-нибудь roleplay-immersive.
> дал контекст
Значение знаешь?
>>1166717
Можешь указать что тебе нравится в персоналити или напрямую сказать чару, лол. Берешь и без задней мысли кумишь.

Да, в р1 соя и лимиты растворяются если использовать другой шаблон промта (с тексткомплишн), можно кумить хоть с канничками. Правда и качество на первый взгляд недалеко от мелких моделей ушло.
Аноним 20/04/25 Вск 22:08:35 1166728 329
>>1166145
> Третью гемму юзаю в составе убабуги, там таких приколов нет
Пересобирал экслламу прямо в конде убы?
Аноним 20/04/25 Вск 22:09:09 1166731 330
>>1166726
Модель Omni-Magnum 4qm если что
Аноним 20/04/25 Вск 22:13:20 1166735 331
commit d471d44f018be588fa214c2c321734e28f0cda3b (HEAD)
Author: turboderp <11859846+turboderp@users.noreply.github.com>
Date: Thu Apr 10 22:15:20 2025 +0200

Gemma3 local RoPE fixes

БВАХАХАХХ
СУКА
ВОТ ОНО

Я просто пульнул дев-ветку, потом посмотрел коммиты, увидел глм, решил откатить его, несколько раз откатил по 1 коммиты и…
ЫЫЫ

А раньше у меня не было этого.
Проблема-то решается потихоньку. =)
Была! И была починена 9 дней назад, судя по всему.
Аноним 20/04/25 Вск 22:14:50 1166737 332
>>1166726
Туда проскочил обильный сперматозоид.
>>1166728
Там венв без конды. Найтлиторч с кудой 128, рейкварментсы без колес, остальное собрано ибо готового нету. Эксллама просто одной командой git+https://github.com/turboderp-org/exllamav2@dev
Табби с пол пинка завести не получилось ибо оче много хардкода и так просто скрипты не обойти (на самом деле можно, но не нужно). Хз повлияет ли это на установку дев версии, потом когда делал по другой причине, пришлось все конкретно перелопатить и заводить с нуля чтобы оно работало, иначе откуда-то хватает старые версии с которыми поставляется и ломается.
Аноним 20/04/25 Вск 22:25:59 1166745 333
Аноним 20/04/25 Вск 22:41:53 1166755 334
>>1166145
>выделить некоторый участок и дать запрос по нему
Где-то это уже реализовано?

Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.).

Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд). После в несколько разных сеток закидываю и смотрю кто лучше сделал.
Аноним 20/04/25 Вск 22:54:02 1166763 335
>>1166755
>Я сейчас делаю сам промт, копирую туда код, копирую туда вспомогательные данные (код создания переменных, функции используемые в выделенном коде и тд).
Не проще ли самому написать? Лол.
Аноним 20/04/25 Вск 22:55:33 1166765 336
>>1166755
> Где-то это уже реализовано?
Не встречал но такую штуку оче бы хотел. Я не кодер по специальности, но когда обсуждал на пьянках со спецами - говорили что такая штука была бы полезна для всякого.
> Выделил кусок кода, выбрал из менюшки что нужно сделать (оптимизировать, отформатировать, написать комментарии, рефакторинг и тп.).
Вот именно это. Даже просто заставить нейронку анализировать и объяснить тебе как работает этот сраный надмозг, который писался самоучками.
> Я сейчас делаю сам промт, копирую туда код, копирую
Можешь подробнее рассказать? Без конкретных данных по коду и т.д., но именно концептуально как делаешь.
Просто куски можно хоть в таверну кидать и там обсуждения вести, но когда что-то крупное - самостоятельно собирать замучаешься.
Аноним 20/04/25 Вск 23:01:18 1166773 337
>>1166119
>даже не представляю как шизово-трясунски надо было прогреть нейронку, что бы она так бессистемно начала срать
Спасибо, это лучший комплимент. на самом деле пару цитат из 1984 и V - значит вендета было достаточно
Аноним 20/04/25 Вск 23:10:22 1166782 338
Аноним 20/04/25 Вск 23:22:30 1166801 339
изображение.png 1Кб, 208x23
208x23
Ай, блять, температура, хуюра.
Аноним 20/04/25 Вск 23:34:18 1166819 340
>>1166782
> 2 т/с
Там будто и одного нету и это полнейший пиздец, или счетчики пиздят. При использовании ризонинга оно мертво даже с генерацией в скорость чтения, в таком даже хз куда можно применить и тем более отдавать за этот гроб 500$.
Канал у типа норм, много бейтов и цыганщины но есть интересные видео и бенчмарки.
Аноним 21/04/25 Пнд 00:22:59 1166844 341
>>1165937
> Ерунда же, ну.

Что ж, после обновления и таби, и бывшей до последних коммитов, все наконец заработало. Не идеально, но лучше, чем было.
Вот не фартануло же мне поставить бывшую до фиксов. х)
С другой стороны, хули я хотел от дев-ветки.

Турбодерп молодец, как не крути.
Осталось дождаться третьей бывшей в релизе. =) И радоваться 4 битам.

Всем спасибо!
Аноним 21/04/25 Пнд 00:36:19 1166851 342
Аноним 21/04/25 Пнд 00:41:37 1166855 343
>>1166765
Я очень начинающий вайб кодер (с более 10 годами обычного кодинга). Сделал примерно 5 небольших проектов, решил что есть смысл дальше в этом развиваться. Проекты были маленькими, но даже их я разбивал на функции и обсуждал с нейронкой отдельные функции.

Концептуально сначала пишу общий запрос вроде "найди на картинке двачеров" и смотрю что получится. Обычно получается хуйня или структура будущего проекта. Тут обычно узнаю, что есть библиотека которая ищет лица и которую можно настроить на определение двачеров.

Дальше пишу промт большой в котором расписываю по пунктам, что нужно сделать (можно без 1 2 3, просто разделяя пустой строкой или писать "далее", "после"):
Напиши скрипт на питоне который найдет на картинке двачеров выполнив следующие действия:
1. Загрузить картинку в переменную "фото"
2. Найти на картинке лица людей с помощью библиотеки "поиск лиц v3.25" и сохранить в массив "лица_людей"
3. отсортируй "лица_людей" по возрастанию
4. По координатам из нулевого элемента массива "лица_людей" скопируй из "фото" и покажи результат на экране.

А дальше начинается ебля. Он находит каких-то пидоров и все переменные написал как "пидр_координаты_ебало". И приходится вручную переименовывать массивы и переменные что бы не запутаться.
И ты ему пишешь "убери тянок" и он тебе начинается вместо "лица_людей" делать массив "без_пидоров_и_тянок" в котором только пидоры и тян. По старинке гуглишь как настраивать библиотеку, что бы она негров тоже искала и тп. В итоге например сам копипастой с разными параметрами делаешь массивы в которых все ненужные люди.


И дальше допустим задача из массива всех людей убрать массивы с ненужными людьми - и там остануться только двачеры. Полностью промт начальный переписывать уже не вариант, он с десятком правок и очень большой и обязательно что-то ломает в другом месте. Поэтому делаю такой промт:
Коэффициенты храниться в глобальных переменных float c названиями $tian, $pidr_coeff_my_non_negr, $pidr_coeff_my_only_negr.
Массив "лица_людей" создается так: var "лица_людей" = array();
Структура массива "лица_людей" = [
name = "имя",
коэффициент_пидорства = 55.475214,
коэффициент_тянства = 15.475214,
коодината_х=25,
коодината_у=525
]
Аналогично для другого массива.
Создай функцию которая на входе получает два массива ("лица_людей" и "без_пидоров_и_тянок") и которая находит разницу между этими массивами при условии что коэффциент_пидорства меньше 20. И возвращает массив с результатами.

С 3-5 раз обычно получается создать нужную функцию т.к. изначально забываешь ему что-то написать конкретное, а нейросетка сама не догадывается. Закидаю сразу в 2-3 нейронки и смотрю кто из них понятней и правильней делает. Пожеланию можно просить её сделать более понятный код, написать комменты и тп.
Аноним 21/04/25 Пнд 01:19:01 1166899 344
>>1166855
Нейрокодеры делятся на три типа:
1. зеленые мимовасяны "сделай мне свою винду с нескучными обоями". Иногда нейронка им что то делает, иногда это даже решает задачи, но чаще всего получается или простой скрипт (васян доволен) или говно-приложуха (васян доволен, но потом когда его йоба-проект трахнут по кибербезу или он просто рипнется от неподдерживаемости и критбагов, у васяна сгорает жопа).
2. Опытные кодеры 10 лет в ойти, ставят курсор, сначала испытывают благоговейный трепет, когда НЕКРОНКА САМА ПОКРЫЛА КОД КОММЕНТАМИ. Потом они начинают требовать от модели "сделай красиво", нейронка пытается, кодеры смотрят на код, недовольно урчат - они бы сделали по другому и лучше. Начинают долбить нейронку кучей правок на 100к контекста, в итоге приходят к выводу что сами напишут лучше и "нейронки пока не доросли".
3. адекватные кодеры-нейрооператоры, которые могут писать сами, но им просто влом считать пробелы-табуляции и парсить часами стаковерфлоу. Они используют нейронки для подбора разных либ, справки по каким то паттернам/приемам, черновой проработки архитектуры словами/псевдокодом, после чего делают свои проекты, переодически прося нейронку "напиши класс, %описание класса%, используя библиотеку X и библиотеку Y", "добавь в этот класс метод делающий %боздо% с %боздо%. Вычитывая, и если все ок - копипастя это в IDE. Особенно это эффективно, когда кодишь пет-проекты в новой для себя области или типовые рутинные круды для кабанчика.

На 1х похуй, 3и молодцы, 2е заебали своими "поделюсь своим опытом - ПОКА РАНО".
Аноним 21/04/25 Пнд 01:23:51 1166905 345
>>1166899
Жиза, кстати.
Все верно сказал.
Но вторые все чаще держатся все дольше, а скоро все вольются в новый класс «сказал и заработало». Ну, по крайней мере, на несложных задачах.
Аноним 21/04/25 Пнд 01:56:02 1166943 346
image.png 15Кб, 639x133
639x133
image.png 6Кб, 185x269
185x269
image.png 63Кб, 1048x581
1048x581
>>1166899
На самом деле чтобы достигнуть дзена надо:
1 Чтобы ты вместе с нейронкой писали документацию проекта. Просто суёшь каждый раз нейронке в ебало "следуй DRY и KISS, вот тебе документация, а теперь ебош".
2 начало проекта критически важно. Потому что потом можно нейронке сказать "пидор делай как тут" и нейронки в этом хороши. Они отлично повторяют то что уже написано.
3 переключатся между моделями под свою задачу. например в курсоре клод просто ебошит как джун, щемится во все щели. расчехляем его когда надо чтобы он залез в эти сами щели. а ГПТ 4.1 делает аккуратные точечные правки и каждый раз спрашивает че ему делать но делает что сказали.

В целом нейрокодю уже второй месяц. наверно пишу процентов 10 от кода самостоятельно и только тогда когда надо вручную отрефакторить что-то чтобы поставить код на рельсы дальше.
То что там нейронка пишет обычно читаю по диагонали, смотрю чтобы не отклонялся от общей архитектуры. Когда какой-то нелепый затык тогда уже иду и читаю внимательно и потом пишу "ты хуесос что ты понаписал тут иди исправляй, вот тут напиши вот так, пройдись по всей цепочке вызовов и исправь".

Что мне нравится - некоторые модели классно дают советы. например я хуёво знаю линукс, а они там сами скажут что в терминал понаписать и что пошло не так. когда я понимаю что я хочу но не знаю как написать - они отлично справляются как интерпретаторы.

=========================
Что нравится в ГПТ - сука какой же он самостоятельный. Когда у него спрашиваешь "ты знаешь Х"? он обычно не пиздит. Мне например такое выдавал. Но лол каждый раз спрашивает "че жмём красную кнопку?".
=========================
Или лол пик 3 уже от клода. Его если не сдерживать он может пойти понаписать то что от него вообще не просили а потом написать два аполоджайса подряд.

А для мелких функций вообще обычно локально включаю QwQ.
Хотя сейчас проект связанный с ЛЛМ, там уже локально ничего не запустить.

ну и да, у самого хватает опыта погромирования.
Аноним 21/04/25 Пнд 05:07:15 1167058 347
>>1166819
Если взять дешманскую двухсокетную плату, добавить гпу, запердолить ktransformers, могут быть вполне интересные результаты так-то.
Аноним 21/04/25 Пнд 06:03:30 1167069 348
>>1166782
Сделал комп на 512Гб@тестишь нейронку на 16Гб.

Зачем он так?
Аноним 21/04/25 Пнд 07:53:28 1167121 349
image.png 77Кб, 1037x584
1037x584
ору с гемы
Аноним 21/04/25 Пнд 09:32:26 1167179 350
Аноним 21/04/25 Пнд 09:39:10 1167180 351
Народ, хотел спросить: существуют ли специально обученные модели для генерации промптов для диффузии или народ просто через чаров в таверне это делает?
Аноним 21/04/25 Пнд 10:33:35 1167204 352
1745220813836.png 161Кб, 861x180
861x180
Какая же геммочка умница, господи...
Аноним 21/04/25 Пнд 10:47:27 1167231 353
>>1167204
Гемма оригинальная? Промпты и семплеры?
Аноним 21/04/25 Пнд 10:58:52 1167254 354
1745222329959.png 171Кб, 855x184
855x184
1745222329962.png 109Кб, 852x136
852x136
>>1167231
Гемма аблитерация dpo. Конфиг я скидывал анону в прошлом треде.
Аноним 21/04/25 Пнд 11:39:16 1167309 355
Аноним 21/04/25 Пнд 11:40:40 1167313 356
>>1167254
Можешь скинуть ссылку на свой пост? Пожалуйста?
Аноним 21/04/25 Пнд 11:48:47 1167318 357
Аноним 21/04/25 Пнд 11:55:13 1167325 358
>>1167254
Кстати анончик вопрос к тебе, вот у тебя все так красиво на пикчах, а у меня почему-то текст разьебывается через 5-6 сообщений и слова с действиями сливаются по цвету и шрифту в одно и то же. В чем может быть проблема?
Аноним 21/04/25 Пнд 12:04:42 1167328 359
Аноним 21/04/25 Пнд 12:09:12 1167331 360
>>1167325
Да у геммы проблемки с разметкой. Тоже бывает иногда, если случается, я просто редактирую сообщение, чтобы норм смотрелось.
Аноним 21/04/25 Пнд 12:47:45 1167377 361
>>1167318
>>1167325
В том промпте ещё инструкция Follow format: \"Speech.\" Thoughts. Narration, которая может противоречить карточкам, где действия и описания италиком, а не плейнтекстом. А так гемма любит ставить неправильные кавычки и левый италик сама по себе.
Аноним 21/04/25 Пнд 15:16:08 1167642 362
>>1167058
Какие?
>>1167069
Да потому что ничего крупнее там непригодно к использованию.
>>1167121
Ебать ты кобольд x2
>>1167309
Хуйня какая-то, можно пояснений?
Аноним 21/04/25 Пнд 16:59:01 1167844 363
Аноны, а как вы подключаете несколько карт? Ну вот есть х4 слот на чипсете, а дальше? Смотрел переходники с м2, а там или х4псие1.0 или псие3.0, но х1.
И почему никто не использет тесла к40/м40/п40, там же тоже 24гига?
Аноним 21/04/25 Пнд 17:01:16 1167846 364
>>1167254
> Гемма аблитерация dpo.
Это какая-то новая аблитерация геммы? Не нашел на обниморде.
Аноним 21/04/25 Пнд 17:06:57 1167857 365
>>1167844
Потому что медленное говно?
Аноним 21/04/25 Пнд 17:12:40 1167877 366
Аноним 21/04/25 Пнд 17:14:27 1167880 367
>>1167877
Интересно, чем она отличается от обычной аблитерации? Причем это файнтюн от нее же.
Аноним 21/04/25 Пнд 17:15:58 1167885 368
>>1167857
Медленное, но дешёвое. Да и ллм при разбиении много и не надо. С выгрузкой токенизации flux справлялась на ура. И кстати, кто-нибудь исполюзует генерацию изображений в дополнение текста?
Аноним 21/04/25 Пнд 17:18:28 1167892 369
>>1167885
Медленное не только само по себе, но и память. Сейчас уже за ту же цену можно не БУшную современную карточку на 16 гигов взять и оно будет летать, а на вторичке вообще сильно дешевле откопать.
Аноним 21/04/25 Пнд 17:21:01 1167894 370
Аноним 21/04/25 Пнд 17:22:25 1167900 371
>>1167892
За 10к хуй с солью найдешь, на 8 гигов из майнинг рига. Даже 3060 от 17-18к стоят. Но ответ понял, лучше 3090 поискать.
Аноним 21/04/25 Пнд 17:22:49 1167903 372
>>1167894
Спасибо, интересно. Почитаю.
Аноним 21/04/25 Пнд 17:24:00 1167905 373
>>1167900
за 10 кусков тесловские карты будут не в лучшем состоянии. Более-менее нормальные стоят примерно те же 40к, что и новая видяха, хуйни то не говори
Аноним 21/04/25 Пнд 17:27:24 1167917 374
>>1167844
> как вы подключаете несколько карт
Желательно иметь материнку с хорошими слотами. На большинстве хотябы 3 порта типа х16-х4х4 да есть.
> переходники с м2
На али или глобалозоне смотри, там есть х4
> почему никто не использет тесла к40/м40/п40
Использует. Первые 2 - совсем нежизнеспособны ибо древность, p40 еще как-то может, но на моделях побольше слишком медленно.
>>1167885
> много и не надо
Надо. Обработка контекста превращается в вечность, слабый чип не дает получить потенциальной по скорости врам производительности на квантах сложнее легаси варианта. Но в целом на 30б и даже на 70 это может быть норм.

Ну типа когда теслы были по 15-17к - вполне вариант, а сейчас - нахуй такое счастье.
Аноним 21/04/25 Пнд 17:43:48 1167978 375
>>1167917
Второй порт делит линии с первым, 8+8.

На али и смотрел, те что х4 были, при подробном поиске спеков 1.0 оказывались. Нахрен такое надо.

Ну всяко лучше "ВыГовно за 50к" сервака, ровестника этих тесел. Но понял что не так сильно, как хотелось бы.
Аноним 21/04/25 Пнд 18:09:58 1168091 376
>>1167978
> Второй порт делит линии с первым, 8+8.
Это же топчик, тут наоборот такие материнки ищут.
> На али и смотрел, те что х4 были, при подробном поиске спеков 1.0 оказывались
Просто стоит задать в поиске и сразу есть разнообразные варианты
https://aliexpress.ru/item/1005008040561447.html
https://aliexpress.ru/item/1005007506811603.html
https://aliexpress.ru/item/1005005576411704.html
> "ВыГовно за 50к"
Да это вообще хуета инфоциганская, абсолютно бесполезная херь. Теслы - туда же, если только не удастся за исходную цену одну-две найти.
Аноним 21/04/25 Пнд 18:54:37 1168248 377
>>1167917
>Но в целом на 30б и даже на 70 это может быть норм.
Говорил уже - то, что влазит в одну теслу, будет работать вполне норм. И даже по контексту - для таких моделей он не тяжёлый. На двух теслах у Жоры включается тензорный параллелизм - пресловутый rowsplit. Результат в целом медленнее, чем на одной, но и модели вдвое побольше. Которые оптимизированные, как Ллама, те даже вполне быстро работают.
Аноним 21/04/25 Пнд 18:57:32 1168251 378
>>1168248
> тензорный параллелизм - пресловутый rowsplit
Он добивает и без того мертвую обработку контекста.
> Говорил уже - то, что влазит в одну теслу, будет работать вполне норм.
Зачем повторяешь то что цитируешь?
> Которые оптимизированные, как Ллама
Других нет, исключение - мое в таком размете, те будут летать из-за малого числа активных параметров.
Аноним 21/04/25 Пнд 19:26:55 1168300 379
image.png 472Кб, 2447x1506
2447x1506
Дешевле 5090, по стоимости как 4090, но больше памяти, не убитая как старая 3090. Получается тупо топ для ллм и надо копить? Или есть подводные? Маковцы есть в треде, чтобы пояснить?
Аноним 21/04/25 Пнд 19:36:53 1168318 380
>>1168300
Тормознутая ссанина, за почти цену 5090 или целого рига 3090 даст большей частью разочарование, в том числе и потому что из 32гб доступны будут не все.
Если доплатить сотку до 64 гигов то ценность вырастает, выше - аналогично. Но перфоманс там будет все равно невысокий. Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду, это мало для подобной модели. На будущее если что-то годное без монструозного ризонинга будет выходить - может быть, тут уж сам смотри.
Аноним 21/04/25 Пнд 19:54:07 1168357 381
image.png 753Кб, 1943x1043
1943x1043
>>1168300
>>1168318
Ну вроде и не так плохо, но зная эпл, там скорее всего какая нибудь скрытая хуйня. И вроде не все оптимизировно под арм процессоры до сих пор спустя, трилион лет после их выхода
https://www.youtube.com/watch?v=2jEdpCMD5E8&t=796s
Аноним 21/04/25 Пнд 19:56:10 1168364 382
>>1168318
>Возможность пускать дипсик убивается скоростью в 10-13 токенов в секунду
Где-то на реддите писали, что около 6. И с обработкой контекста не очень. Может ошибаюсь и это о другой модели.
Аноним 21/04/25 Пнд 19:58:32 1168372 383
>>1168357
>Ну вроде и не так плохо
9t/s на 72B и это на максе? Да уж.
Аноним 21/04/25 Пнд 21:07:36 1168498 384
>>1165003
>Forgotten-Transgression
Оно не сопротивляется, совсем. Даже свф карты запросто инцест ебашут. Кум common sense убивают.
Аноним 21/04/25 Пнд 21:19:12 1168525 385
можно ли установить дев версию эксламы напрямую в таббиапи? как? памахити
Аноним 21/04/25 Пнд 21:46:37 1168575 386
>>1167254
> маленький
Короткоствол в треде
Аноним 21/04/25 Пнд 21:47:42 1168578 387
>>1168091
> Это же топчик, тут наоборот такие материнки ищут.
Нахрена терять 16 линий на основной карте? Особенно если она на 4.0, мало же будет
> Просто стоит задать в поиске и сразу есть разнообразные варианты
Ага, все варианты за последний год. Искал ранее, ничего не было. Пожалуй закажу.
> Теслы - туда же, если только не удастся за исходную цену одну-две найти.
А что, такая проблема?
Аноним 21/04/25 Пнд 22:00:35 1168601 388
Есть ли плагин для таверны/хрома который проверяет твое правописание и исправляет/показывает слова по мере заполнения?
Аноним 21/04/25 Пнд 22:04:13 1168611 389
1745262251379.png 254Кб, 865x263
865x263
>>1168575
Если ты про нектарин, то это она свою писечку так назвала.
Аноним 21/04/25 Пнд 22:05:44 1168619 390
image.png 168Кб, 1219x202
1219x202
Если бы не начало с юбкой я бы не понял что только что прочитал
И это аблитерация
Аноним 21/04/25 Пнд 23:25:55 1168740 391
>>1168611
Что там у тебя за сайфай? Поделись карточкой.
Аноним 21/04/25 Пнд 23:38:05 1168763 392
>>1168740
Судя по имени и синтетическим щекам, это с высокой вероятностью Jun из My Dystopian Robot Girlfriend, на chub 3 карточки лежит
Аноним 21/04/25 Пнд 23:40:03 1168769 393
Аноним 21/04/25 Пнд 23:50:41 1168795 394
Поясните, пожалуйста.

https://github.com/oobabooga/text-generation-webui/pull/5677 - p-e-w писал, что "Note that like all transformers-based samplers, DRY only works with transformers-based loaders such as llamacpp_HF, ExLlamav2_HF, or Transformers itself. It does not work with the vanilla llama.cpp or ExLlamav2 loaders.

А koboldcpp умеет в dry? Там в интерфейсе-то есть dry, но там написано "если поддерживается", может быть он просто молча не применяет dry и все. "Loaders", а че там за loader?
Аноним 22/04/25 Втр 00:24:45 1168888 395
>>1168357
Довольно таки плохо, 7т/с на микроконтексте это уровень тесел. Обработку он не показал, а она будет долгой, с ростом контекста оно деградирует до 5-4 или ниже.
> не все оптимизировно под арм процессоры
https://en.wikipedia.org/wiki/Metal_(API) не неси ерунды, процессор там не при чем, а оптимизации лучшие из возможных для того железа.
>>1168364
Тем более, сами по себе величины норм, но из-за огромного расхода токенов на ризонинг это мало.
>>1168578
> Нахрена терять 16 линий на основной карте?
Они не дадут заметных преимуществ, если офк там не 3.0 и топовая карточка. Говоря про мл-релейтед, 2 по х8 всегда лучше чем х16 + чипсетные х4.
> Искал ранее, ничего не было.
На мейлсрушной али бывает ломается поиск, или происходит корявый автоперевод несколько раз.
> А что, такая проблема?
За них просят не 15к а в 2 раза больше, за такую цену нахуй не нужны.
Аноним 22/04/25 Втр 00:29:14 1168899 396
>>1168601
Встроенная проверка орфографии, выбери там нужные языки
>>1168795
Кобольд - оболочка поверх llamacpp. В убабуге для HF загрузчиков семплинг происходит не их встроенными средствами, из них на каждый токен берется распределение логитсов, после чего уже с ним производятся нужные манипуляции. Это позволяет реализовывать что угодно и получать стабильный результат, вне зависимости от хардкода и костылей.
Что там в кобольде - хз, но в это он умеет https://github.com/LostRuins/koboldcpp/pull/982
Аноним 22/04/25 Втр 01:30:39 1169046 397
>>1168888
Карточка топовая (4090, не дотерпел до 5090, кто ж знал что там 32 гига будет, а вот про 5.0 было и вовсе заведомо известно)
>>чем х16 + чипсетные х4
Есть два х4 м2 от проца на 5.0, один из них и хочу использовать. А 3й слот как и везде как раз чипсетный.
Жалко что х4 5.0 не переводятся в х8 4.0
Аноним 22/04/25 Втр 01:55:27 1169070 398
>>1168899
Спасибки, ясно, могет.
Аноним 22/04/25 Втр 02:05:40 1169076 399
Аноним 22/04/25 Втр 02:07:12 1169078 400
>>1169046
Если ты не киберкотлета, которой 780фпс вместо 800 фпс - проблема, то не заметишь разницы. В обычных случаях кроме таких экстремальных ее и не будет.
Процессорные слоты всегда предпочтительнее чипсетных.
> Жалко что х4 5.0 не переводятся в х8 4.0
На девайсе, который может в 5.0 считай переводятся.
Аноним 22/04/25 Втр 02:35:56 1169092 401
>>1169078
Так нет смысла пока брать rtx5000, 3090 явно лучше по цене. А так будь лишний лям, взял бы три 5090
Аноним 22/04/25 Втр 08:28:02 1169338 402
изображение.png 190Кб, 1168x1199
1168x1199
Кажется, что вот эти все однохоуйственные, хотя отличия есть, но уверенно сказать трудно, в чем они заключаются. А если ли умные люди, которые прям шарят, в чем отличие?
Аноним 22/04/25 Втр 08:42:18 1169357 403
>>1169338
136 кб в пнг где один текст. Это как вообще? От силы 20 кб должно быть, а то и того меньше. Что происходит?
Аноним 22/04/25 Втр 08:58:32 1169368 404
image 53Кб, 1168x1199
1168x1199
Вот как сжимать надо. Учитесь.
Аноним 22/04/25 Втр 09:14:02 1169389 405
image.png 31Кб, 812x64
812x64
Сука гемма превзошла сама себя.
"Pleasure point" вместо пизды не видели ещё?
С каждым днём всё удивительнее
Аноним 22/04/25 Втр 09:32:19 1169406 406
Ладно в пизду я накумился.
Чем еще заняться на гемме
Аноним 22/04/25 Втр 09:42:32 1169424 407
>>1169406
Ответить, есть ли аблитерация + dpo/kto на её версию 12b.
Аноним 22/04/25 Втр 10:26:39 1169479 408
>>1168498
Да, проблема кум моделей.Можешь сидонию попробовать там меньше этого. А вообще я часто переключаюсь между моделями и использую гемму для некума и форготтен для кума.
>>1169389
Удивительно только то, что люди до сих пор используют гемму для кума
Аноним 22/04/25 Втр 10:27:51 1169482 409
image.png 57Кб, 1041x634
1041x634
гема не сечёт фишку
Аноним 22/04/25 Втр 10:29:50 1169485 410
А не коя берди гой не балды мине сураймын епта тут сука!
Аноним 22/04/25 Втр 11:32:06 1169552 411
Аноним 22/04/25 Втр 11:52:25 1169572 412
изображение.png 16Кб, 452x172
452x172
Как заставить нейронку менять стиль написание в ответе ?Крутил эти параметры но всегда +- ответ остается тем же.Нейронка SAINEMO-reMIX.Q8_0
Аноним 22/04/25 Втр 12:02:02 1169586 413
>>1167844
> к40
древность
> м40
древность
> п40
раскупили, дорого
Кто-то брал по 11-12, я по 15-16, а щас скока стоят?

>>1168300
Медленно же.
Шур, быстрее, чем на обычной оперативе, но не 3090/4090, и совсем не 5090 по скорости.

Докинь сотку и возьми 4090 48 гигов. А то угараешь, 32 гига.

>>1168357
> ollama
> 24 gb
> 72b
Поехавшие там со своими тестами в оперативе.

ДВе теслы с ровсплитом дают 5-7 токенов за 300 баксов.
А тут што это.
Аноним 22/04/25 Втр 12:06:01 1169591 414
image 1449Кб, 1024x1024
1024x1024
Ну чё там, когда уже завезут личного Скрепыша или виртуальную вайфу, живущую в уголке экрана?
Аноним 22/04/25 Втр 12:18:16 1169613 415
>>1169591
К 2050-му году, твёрдо и чётко.
Аноним 22/04/25 Втр 12:28:07 1169640 416
Ананасы, запрашиваю краткое ревью по тому что интересного вышло за месяц.
С меня спасибо.
Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста)
Аноним 22/04/25 Втр 12:56:14 1169673 417
Аноним 22/04/25 Втр 13:44:53 1169739 418
>>1169640
>Gemma DPO - уже потыкано, жопа сгорела (Ну она у меня и от обычной геммы горит, а точнее от толстоты её контекста)
Ну не настолько плохо, но хотелось бы и до Магнума на Гемме дойти, не проебав её ум.
Аноним 22/04/25 Втр 15:36:35 1169866 419
что за депо типа больше ума сохранили или что
Аноним 22/04/25 Втр 16:18:16 1169899 420
>>1169092
3090 топ за свои деньги
>>1169389
Да четко же
>>1169591
Хоть сейчас, в стиме есть куча васян-софтин с экранным маскотом, который может "на окнах сидеть" и т.д. Есть туда и моды для подключения гопоты, но все оче примитивно по одному запросу.
>>1169673
Словил флешбеки с пикчи, как же это ужасно.
>>1169866
> что за депо
Тренили на журналах трамвайного депо, так забывает про цензуру и лучше работает, но тупеет.
Аноним 22/04/25 Втр 16:25:43 1169911 421
>>1169899
> 3090 топ за свои деньги

Я бы не был так категоричен, честно говоря. Уж на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену. По сырой производительности она уступает процентов 20, памяти тоже меньше на те же 20%, но это новая актуальная карта, и теплопакет у неё вдвое меньше. Если упадёт до 40-45 тысяч, вполне можно будет рассмотреть к покупке.
Аноним 22/04/25 Втр 16:32:19 1169922 422
>>1169911
> на что обосрали 5060 Ti, но она вполне может стать неплохим вариантом на замену
Ну, перфоманс почти в 2 раза ниже, памяти на треть меньше, ты и 95% сидящих здесь на ней даже не смогут ничего запустить толком в ближайшие месяцы.
> По сырой производительности она уступает процентов 20
Около 60% от 3090, офк это примерно по другим тестам, по псп врам в 2 раза. Тут главный плюс только в том что новая из магазина.
Аноним 22/04/25 Втр 16:48:17 1169957 423
Бля чет так накумался на своих 8гб врама за 2 последних месяца, что уже и видяхи покупать не хочется. Вроде и так заебись, лучше брекеты поставлю все таки.
Аноним 22/04/25 Втр 17:03:46 1169991 424
>>1169911
А вы не математик, сэр?
24 и 16 это 33%, а не 20%. =)
Вот если бы она была 20 гигов…

>>1169922
llama.cpp проблем не видит, exllamav2 пересобралась в итоге.
Большинство, как я понимаю, сидит как раз на первой, так что ноу проблем.
Аноним 22/04/25 Втр 17:34:17 1170035 425
Аноним 22/04/25 Втр 18:12:10 1170074 426
>>1169991
> llama.cpp проблем не видит
Бинарники с гита - шмурдяк, но в целом Жора действительно самый простой. Эксллама собирается тоже не то чтобы сложно, если у собирающего есть полный комплект билдтулзов и прочего, что на шинде собирать - цирк. Но для работы требует флешатеншн, с которым уже непросто.
> Большинство, как я понимаю, сидит как раз на первой
"Счастливые" обладатели отсутствия врама, только жора позволяет прилично выгружать на процессор и совместим с (почти) всеми моделями. Появление оверпрайснутых новых карт у таких оче маловероятно, разве что с распространением 5060ти. Собственно потому и 95%, большинство едва может осилить только скачивание бинарнока кобольда и ггуфа одним файлом, даже скрипты-автоустановщики убабуги и табби вызывают сложности. Куда уж тут что-то еще.

Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам.
Аноним 22/04/25 Втр 18:14:00 1170078 427
>>1170035
>без позитивного биаса
чивоблять
Аноним 22/04/25 Втр 18:36:01 1170118 428
>>1170074
>Это что, получается в треде уже 3+ блеквелловладельцев? Пора открывать клуб по интересам.
По производительности +15% от 4060ti, а что-то клуба их владельцев я здесь не наблюдаю.
Аноним 22/04/25 Втр 18:41:46 1170134 429
>>1170118
Пока дважды мелькали только 5090, те еще в магазины толком не поступили чтобы с норм ценой еще
Аноним 22/04/25 Втр 18:54:58 1170163 430
Аноним 22/04/25 Втр 18:59:46 1170177 431
>>1170163
А чего насмехаться? Хорошая карта для ML, фактически лучшая из того, что можно сейчас поставить в домашнюю машину. Цена у неё, кстати, пониже - в районе 300к можно взять.
Аноним 22/04/25 Втр 19:00:22 1170180 432
>>1170163
>Вкусное
За такие деньги я хочу минимум 128гб врам.
Аноним 22/04/25 Втр 19:01:29 1170182 433
>>1170074
Так кобольд наоборот заебись. В 600мб там есть бэк со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом и там также можно легко подключить аудио и картинки. Угабуга же качает тебе 10гигов какой то залупы из которого заслуживает внимание только выбор бэка. А табби вообще делал какой транс пидор. Так что кобольд заебись.
А вот обрезанная lmstudio и уебищная ollama - вот настоящий пиздец. И оллама при этом нихуя не легкая и нихуя не однокнопочная.
А на gguf сидят потому что это самый популярный формат благодаря маковцам и рамщикам. А в exl2 у меня прирост где-то 10%, что хуйня. Жду exl3
Аноним 22/04/25 Втр 19:02:38 1170187 434
>>1170177
Пиздец. Неужели тредовичкам норм платить 200к+ (а тут даже 300к за колхозную КИТАЙЩИНУ!) за 24гб+ врама?
Мне очень повезло взять 4090 в 2023 за 120к, пылинки с нее сдуваю до сих пор. Уже тогда это было пиздец трудное решение, еще дороже не взял бы.
Аноним 22/04/25 Втр 19:04:27 1170194 435
>>1170118
Это по процу, что хуйня. А по памяти там в полтора раза мощнее, что больше токенов (что на самом деле тоже хуйня, потому что разница между 20 и 30 не особо чувствуется). Короче все хуйня, коплю на мак
Аноним 22/04/25 Втр 19:05:07 1170195 436
>>1170182
> А табби вообще делал какой транс пидор.
Твоя борьба. Что важнее, он быстро и легко устанавливается, удобен в использовании.

> А в exl2 у меня прирост где-то 10%, что хуйня.
На 40хх серии 20-30%, что не хуйня.

> Жду exl3
На чем запускать будешь? На Угабуге, которая качает 10 гигов или на софте, который сделал транс? (Что неправда, но это детали)
Аноним 22/04/25 Втр 19:06:52 1170199 437
Нвидиа хотфикс выкатила, который даже что то чинит, а не ломает. Вроде баг с температурой пропал даже и в целом постабильнее, но пока сижу только 15 минут на нем
https://nvidia.custhelp.com/app/answers/detail/a_id/5650
Аноним 22/04/25 Втр 19:10:47 1170204 438
>>1170187
> Пиздец. Неужели тредовичкам норм платить 200к+ (а тут даже 300к за колхозную КИТАЙЩИНУ!) за 24гб+ врама?

Ну а какие у тебя альтернативы? Только ужареные в срань 3090 из-под майнеров за 60-70к. Больше на рынке нет ни-ху-я.
Аноним 22/04/25 Втр 19:10:54 1170205 439
>>1170199
А что за баг с температурой? Сижу на 572.70, но у меня не Блэквелл
Аноним 22/04/25 Втр 19:12:18 1170209 440
>>1170204
Да нет альтернатив. Не в укор сказано, а просто ахуеваю от цен. Думаю, не будь у меня сейчас видюхи - просто не покупал бы ничего для нейронок. Сидел бы на корпосетках просто. Слишком дорого.
Аноним 22/04/25 Втр 19:14:01 1170211 441
>>1170195
Да, я проигнорирую его пидорность и даже буду называть его по выбранному местоимению, но сосать хуй не буду если только он не потребует за доступ к gemma3 exl3
У меня 4060ti и там точно нет прироста в 30%, может 15% и то вряд ли. А вообще ollama иногда даже работает быстрее, что связано очевидно с какими-то дефолтными настройками, но каким образом ollama грузит эту хуйню я не ебу
Аноним 22/04/25 Втр 19:19:07 1170221 442
>>1170163
Чего насмехаться то, уже обсуждали же. Действительно 4090 в 48 гигами что круто, не было бы карточек - сам бы взял. Главная претензия - чип, на который смотреть страшно. В менее удачных/ранних моделях там и плата не новая а буквально некрота с 3090 со вздувшимся текстолитом на краях.
>>1170182
> Так кобольд наоборот заебись.
Дваждый переваренный жора сделанный настолько криво, что по сути является sfx архивом в регулярной распаковкой(!) и автозапуском после.
> со всеми настройками, встроенным бенчмарком, настройками сети, простеньким фронтом
Там нет ничего, чего не было бы в ванильном жоре. Наоборот натащили баганой хуеты, а семплеры по кривости даже жору затмевают.
> габуга же качает тебе 10гигов какой то залупы
2.5гига стандартных либ торча, остальное мелкое. На фоне моделей это копейки же.
> А табби вообще делал какой транс пидор.
Проиграл
> потому что это самый популярный формат благодаря маковцам и рамщикам
Буквально поломанную херню популяризуют нищуки-говноеды и странное меньшество, только подтвердил.
> А в exl2 у меня прирост где-то 10%
Прирост может измеряться разами, если ты действительно пользуешься нейронкой, а не сливаешь малафью после 5к контекста в микромодели.
>>1170187
> Уже тогда это было пиздец трудное решение
Не, когда цены до такого опустились - даже раздумий не было.
Аноним 22/04/25 Втр 19:21:21 1170222 443
Аноним 22/04/25 Втр 19:21:26 1170223 444
>>1170205
После выхода из сна отваливается полностью обратная связь по температуре, из-за чего перестают работать все механизмы, призванные не допустить перегрева карты (кулера, тротлинг), и она тупо сгорает под высокой нагрузкой.
Аноним 22/04/25 Втр 19:27:12 1170230 445
>>1170223
Ебануться. И как обновляться, зная, что они такое могут высрать? Похоже, всегда лучше сидеть на проверенной версии, не младше месяца-двух
Аноним 22/04/25 Втр 19:29:09 1170233 446
>>1170177
ИМХО, 4090 с 48 гигами все же лучше дл LLM здесь и сейчас, 16 гигов — это куча контекста.
Разница в скорости есть, но на 15+ токенах/сек это не критично.
Но дороже, да, чем 5090. Та во всех остальных нейронках лучше.

>>1170182
>>1170195
В описании видосяна ссылка, если чо.
https://docs.google.com/spreadsheets/d/1i2GbGLWjc7XjNFvPZeJo2bhYrHzo1GWhtpzB5RqO9Bs

Старался для вас!
Думаю табличку дополню немного другими видяшками.
Аноним 22/04/25 Втр 19:37:03 1170247 447
>>1170233
Спасибо, анончик, добра!
Вроде комфи может в q4/q8 вана и других, их не пробовал пускать? 5090 показывает существенный буст с задачах, где используется малые битности и хитрости на подобие квантования. Поидее и здесь должна хорошо сработать, при наличии оптимизированной реализации будет не хуже чем фп8 по скорости, но сильно лучше то точности.
Аноним 22/04/25 Втр 19:41:36 1170250 448
>>1170233
>Старался для вас!
Спасибо. По результатам для ЛЛМ я бы не сказал, что 40-5090 стоят переплаты по сравнению с 3090. Даже я бы сказал, что не стоят. С тем, что требует новых технологий (видео, новые кванты) результат будет другой, но пока нет.
Аноним 22/04/25 Втр 19:44:13 1170256 449
image.png 37Кб, 695x418
695x418
image.png 38Кб, 1038x323
1038x323
image.png 45Кб, 686x442
686x442
>>1170035
Какое-то поделие от говнодела.
Аморал гема, орейро нах
Аноним 22/04/25 Втр 19:49:20 1170266 450
>>1170256
поломанная хуйня как и аблитерейтед, там слоп жуткий со склонениями невпопад и противопостовляющие понятия в одном предложении. Тюны 3й Джеммы все говно по причине, что тюнят её непраильно, думая что те же методы что и для 2й сойдут. Нужно строго игнорить все её тюны.
Аноним 22/04/25 Втр 19:58:04 1170272 451
>>1170247
Времени не было.
Я и так занял у людей на 5 дней две топовые видеокарты, постоянно просил их свитчить туда-сюда, было бы верхом наглости еще дольше делать.
Там много что можно было придумать, да.
И fp4 модели поискать, блэквелл же. =)

>>1170250
На самом деле, для неспешного РП даже две теслы все еще норм.
А уж 3090 — да. Она комфортна и стоит гораздо меньше.

>>1170256
Вот это аморальность, она позволила себе слово «сорри»…
Аноним 22/04/25 Втр 20:09:03 1170294 452
>>1170256
>Аморал гема, орейро нах
Ассистента из промпта убрал хотя бы? :)

Аморал немного помрачней DPO, я бы сказал. Насколько я помню и потупее, но тут тестить надо.
Аноним 22/04/25 Втр 20:33:02 1170326 453
>>1170233
А что за версии использовались и как были подключены карты? Гемма q8 квант, в жоре на малом контексте генерация +- сейм, но по обработке контекста 5.5к/с на малых, на 27к (свайпнул чат, на 32к не сильно меньше будет) 4600 с fp16 контекстом, 4300 с q8. Генерация на большом контексте также выше - 28т/с.
С экслламой на 6pbw обработку не помню, но то что генерация на контексте не опускалась ниже 45-50т/с это точно, у тебя же сильное падение.
>>1170272
> занял у людей на 5 дней две топовые видеокарты
Какие добрые люди, им тоже уважение.
> И fp4 модели поискать
Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4 и другие варианты, но в целом суть там верная - заявлено что блеквеллы при корректной реализации могут работать с квантованными моделями быстрее прошлых карточек. Не нужно типа как в жоре для тесел переводить квант в фп32 и проводить с ними операции, это делается аппаратно. Также как на адах использование фп8 весов поддерживается аппаратно и позволяет хорошо так ускорить инфиренс, так и здесь будет, но уже для квантов. В теории, если сделают и т.д. офк, по крайней мере так заявлялось. Для ллм может только обработку контекста ускорить, на генерацию сильно не повлияет, а вот в случае с более требовательными к расчету моделями разница уже будет.
Алсо, если ты качал жору в виде готовых бинарников под шинду с его репы - это объясняет почему оно обрабатывает контекст более чем в 2 раза медленнее, не используя возможности новой архитектуры.
Аноним 22/04/25 Втр 20:49:29 1170366 454
>>1170326
llama.cpp и exllamav2 качались/собирались вот 6 дней назад, наверное.

Хм, странные странности, получаются.
Честно, даже не знаю.
А у тебя тоже 48 гигов, или две по 24?
А, 5090. Если я тебя правильно понял, то ты уже правильно ответил. Выходит, май фолт. =)
Но тут все делалось пиздец в торопях (а у меня еще, типа, две работы есть на заднем плане), и не было времени сильно углубиться, к сожалению. Я вообще не ожидал, что 50хх настолько новая вся целиком.

> Нет таких моделей, как и fp4 не является каким-то стандартным обозначением. Есть nf4
Ну, вот, да, было бы интересно это и затраить.
Мне казалось, что на 40хх поколении fp8 реально работает шивче, чем на 30хх. Так что, возможно и тут тоже.

Ну, по итогу, сорян, сделал как смог. Это все еще лучше классических «мы запустили лмстудио, она выдает буковки, визуально они быстрые…», как у большинства других блогеров. Что меня ппц парило.
Аноним 22/04/25 Втр 20:59:20 1170388 455
>>1170366
Есть и 2 по 24, но туда надо качать модели. По памяти могу сказать что что на контексте даже за 32к в 70б нет такого падения ниже 15-17т/с, а у тебя до 12 там. На риге с 5090 были те же модели поэтому их прогнал чтобы цифры уточнить. А то сразу бросилось что что-то не то с перфомансом.
> сорян, сделал как смог
Да че извиняешься, сделал - уже хорошо. Тем более что тут основная цель - относительное сравнение, падение вроде как происходит идентично, просто звездочку дописать что результаты могут быть лучше и возможна оптимизация под новую архитектуру.
Аноним 22/04/25 Втр 21:00:51 1170393 456
driversbench.png 245Кб, 1552x476
1552x476
Курточка не только всего лишь через неделю пофиксил баг, из-за которого его карточки могли сгореть, но еще и откатил программный даунгрейд производительности устаревшей 40 линейки (почему они еще не выкинули их и не купили 50?). Неужели его после такого милосердия еще кто-то смеет критиковать?
Аноним 22/04/25 Втр 21:20:23 1170433 457
>>1170388
Да, уточню это.
Благодарю!
Аноним 22/04/25 Втр 21:56:09 1170532 458
Аноним 22/04/25 Втр 21:57:30 1170538 459
Там на реддите gml4 нахваливают, кто то тестил? Ггуфы вроде пока что сломаны, хотя особо не искал, может уже сделали.
Аноним 22/04/25 Втр 22:03:11 1170548 460
>>1170209
>Думаю, не будь у меня сейчас видюхи - просто не покупал бы ничего для нейронок.
4060 16gb за 50к из днс так-то норм. Топчик за свои деньги.
Аноним 22/04/25 Втр 22:10:45 1170557 461
>>1170548
>4060 16gb за 50к из днс так-то норм. Топчик за свои деньги.
Хуита, честно говоря. За свои деньги. Разве что 12В модели на ней гонять.
Аноним 22/04/25 Втр 22:17:43 1170573 462
>>1170393
>>1170199
А не, драйвер хуйня полная. Нейронки норм гонять, но я вот игры потестил, он вылетает нахуй. Видимо реально куртка индусов нанял драйвера для потребительских карт писать
Аноним 22/04/25 Втр 22:28:39 1170593 463
>>1170548
За 50 хуйня, лучше тогда 5к доплатить и взять 5060ti, у нее память быстрая. Я свою 4060ti на яме за 40к брал, но это осенью было
>>1170557
Не вводи анончиков в заблуждение. Мистралеподобные охуенно работают на Q4KM с 16к+ контекста (а это основа кума). Гемма из-за жирного контекста либо IQ4S с малым контекстом (6к), либо IQ3M с нормальным (12к). QWQ IQ3M тоже норм работает.
Так что покупайте анончики 16гб карты. А если купите 12гб, то да будете только 12-14b запускать
Аноним 22/04/25 Втр 22:41:33 1170623 464
>>1170532
по идее да, и скорее всего так и есть, иначе бы корпораты не стали бы этим выебываться. Другое дело, что зачастую 4 квант и так не очень теряет в качестве, так что скорее всего разница будет не очень заметная
Аноним 22/04/25 Втр 22:44:08 1170627 465
>>1170532
>>1170623
Да не по идее а в действительности, метод имеет потенциальное преимущество. Вот только достаточно легко здесь убить перфоманс в некоторых областях, если будет использован неоптимальный датасет, штука оче ресурсоемкая и не то чтобы дает радикальные преимущества при использовании.
Аноним 22/04/25 Втр 22:46:35 1170635 466
image.png 120Кб, 1372x680
1372x680
Аноним 22/04/25 Втр 22:49:22 1170644 467
>>1170635
Ты сам глупенький и лишь бы сренькнуть, или как? Прочитай что там написано и пойми свой обсер.
Аноним 22/04/25 Втр 22:50:59 1170647 468
>>1170644
Стрелку кинул, молодец. А по делу есть что сказать?
Аноним 22/04/25 Втр 22:53:41 1170649 469
>>1170647
Это троллинг тупостью? Пиздуй читать что такое qat и закинь эту страницу в переводчик, дура. Хуету какую-то притащил и просто набрасывает даже ничего не сформулировав.
Аноним 22/04/25 Втр 23:05:49 1170690 470
>>1170649
Ты сам полнейший долбоеб. Там qat только Q4_0, а остальное эта полнейшая залупа сделанная по приколу, о чем пшек прямо пишет. А нахуй вообще нужен этот qat, если любой pqt старший Q4 будет ебать ее в очко? Правильно, не нужен нахуй, так что заткнулись блять, тут нехуй обсуждать
Аноним 22/04/25 Втр 23:08:34 1170698 471
image.png 56Кб, 1076x326
1076x326
>>1170635
>>1170690
перед тем как начать срать, хорошо бы снять штаны. qat нужен для уменьшения потерь при квантизации, причем заточенно оно именно под статический четвертый квант, потому Бартовски и пишет, что ожидается нормальная работа именно на Q4_0. Тем более, что это квант из декванта, потому что гугл не стали выкладывать полную модель
Аноним 22/04/25 Втр 23:09:46 1170703 472
>>1170690
О, наконец изучил. А теперь отвечай, нахуя ты вообще эту поебень притащил и какое оно отношение имеет к обсуждению?
> Правильно, не нужен нахуй
Это ты здесь ненужен, долбоеб с текущей слюной врывается в обсуждение и тащит что кто-то сделал и другие кванты из весов под q4_0 и сам говорит что они говно, а это значит... Да нихуя не значит, только что ты даун.
> любой pqt старший Q4 будет ебать ее в очко
Сильное заявление, давай доказывай.
Аноним 22/04/25 Втр 23:15:40 1170712 473
>>1170698
> что это квант из декванта
Не, это специальные веса, которые обучили с использованием специального датасета и функции потерь от кванта q4_0, чтобы при квантовании получается наилучший перфоманс из возможных. Такой просто и древний метод квантования обусловлен тем, что он легко делается на лету с меньшими вычислениями чем другие.
Разумеется, делать из него другие кванты кроме 4_0 смысле нет, ибо веса подстроены только под него.
> потому что гугл не стали выкладывать полную модел
Это она и есть, здесь unquantized означает что она неквантованная и оригинальная, а не то что получена обратным переводом из кванта в bf16.
Аноним 22/04/25 Втр 23:21:29 1170722 474
>>1170698
Ты наверное считаешь себя самым умным, да? Так вот, жаль тебя расстраивать, но ты долбоеб. Твои объяснения тут нахуй не нужны. Все кто читал про квантование и так знают его виды и без тебя, маменького умника.
Но ты видимо не до конца изучил тему, потому что срешь такое >>1170703
Так вот почитай про Q4KM и узнай почему он ебет Q4_0 и похуй qat или ptq. А бенчи сам покрутишь. Может хоть в теме разберешься
Аноним 22/04/25 Втр 23:30:28 1170738 475
>>1170722
> Шизик понял что обосрался и теперь уводит в сторону
Мусор, не вводи людей в заблуждение.
Аноним 22/04/25 Втр 23:36:32 1170754 476
>>1170738
Слабовато. Мало определений. Надо было расписать, что такое квант, LLM и т.д. Тогда все бы точно поняли, что ты НЕ ТУПОЙ.
>не вводи людей в заблуждение
Неужто считаешь, что Q4_0 ебет Q4_KM? Если так то жду бенчи
Аноним 22/04/25 Втр 23:45:09 1170780 477
Нейрошизы, у меня вопрос к вам. Какую модель юзать для автодополнения кода на M3 Air? Я юзаю qwen 1.5B, но он какой-то туповатый по ощущениям. А то что больше кажется сильно медленным. Может есть какие-то малоизвестные варианты?
Аноним 22/04/25 Втр 23:50:07 1170792 478
>>1170780
Он будет очень тупой из-за 1.5B. Все упирается в количество твоего RAM. Если у тебя есть хотя бы 10 свободных, то юзани 14B, например https://huggingface.co/bartowski/agentica-org_DeepCoder-14B-Preview-GGUF
Или тот же квен на 14B, Может что нибудь на 7-8b поискать.. Короче 1.5b это дегенерат, не надо его юзать
Аноним 22/04/25 Втр 23:50:27 1170793 479
>>1170754
Ты, упоротый шиз, врываешься в обсуждение, беспредметно агрессируешь и делаешь ахуительные заявления. В качестве "пруфов" и тейков притащил цитату квантователя, в котором он высказывает прописную истину
> Для весов, тренированных под квант, хорошим ожидается только тот квант, под который они тренировались. Остальные сделаны чисто из интереса.
Хуй знает что ты там увидел и на что триггернулся, но это значит ровно ничего, просто очевидный факт.
Перед там как чего-то требовать - отвечай за свои слова выше
> любой pqt старший Q4 будет ебать ее в очко
вперед, обосновывай и доказывай.
Аноним 23/04/25 Срд 00:00:03 1170812 480
>>1170793
Делать мне нехуй, чтобы тебе что-то доказывать? долбоеб. Если ты не понимаешь разницу между Q4_0 и Q4_KM, то советую тебе почитать про это. Я тебе определения в тред не буду тащить. И я повторяю
>А бенчи сам покрутишь. Может хоть в теме разберешься
Аноним 23/04/25 Срд 00:03:39 1170816 481
>>1170812
Биомусор слился, игнорируем.
Аноним 23/04/25 Срд 00:28:58 1170838 482
>>1170230
Никак не обновляться.

Линуксоиды прекрасно помнят недавний инцидент, когда инсталлятор драйвера сносил к хуям всю систему и данные пользователя, потому что кто-то из NVidia случайно пробел в скрипте не там поставил...

Работает? Хорошо работает? Ну вот и не трогай...
Аноним 23/04/25 Срд 00:45:27 1170855 483
Так, вопрос по кванту гугла. Я продолжаю сидеть довольно урчать на 8 кванте?
Аноним 23/04/25 Срд 00:55:13 1170870 484
>>1170230
Ну, справедливости ради, такие фейлы происходят не часто, описанная проблема коснется немногих и полностью термозащита там не убирается, аварийное отключение таки триггернется.
Если волнуешься - подожди хотябы неделю, все ключевые баги к этому моменту будут уже найдены, о той штуке стало известно в первые дни.
>>1170838
> инсталлятор драйвера
Им кто-то вообще пользуется при наличии отрытого драйвера в репах?
>>1170855
> довольно урчать на 8 кванте
Абсолютно.
Аноним 23/04/25 Срд 00:56:58 1170873 485
>>1170855
>Так, вопрос по кванту гугла. Я продолжаю сидеть довольно урчать на 8 кванте?
Тут же неоднократно писали, что начиная с 4КМ отклонение от fp16 незначительно. А с учётом того, что qat-версия требует специальной тренировки - сложно сказать, большой ли в этой технологии в принципе смысл.
Аноним 23/04/25 Срд 03:33:48 1170944 486
image.png 92Кб, 856x540
856x540
image.png 2Кб, 704x20
704x20
Чуваки, у меня проблема. Нейронка во время рп в групповом чате пишет за меня, при том что у меня в карточке аж трёх персонажей прописано чтобы они не писали за юзера.То есть происходит диалог сначала двух персонажей которые являются отдельными карточками в одном сообщении, что как бы ок для экономии контекста, но потом в какой то момент диалога, аи всирает в диалог меня, как на примере пикрила, и меня это не устраивает, потому что нейронка. Подскажите пожалуйста как это вылечить, модель пикрил.
Аноним 23/04/25 Срд 03:35:31 1170945 487
>>1170944
>потому что нейронка.

Потому что нейронка забирает всё рп в свои руки.

Фикс
Аноним 23/04/25 Срд 05:03:09 1170960 488
>>1170944
>Подскажите пожалуйста как это вылечить, модель пикрил.
Удаляй неправильные абзацы вручную. Можешь ещё перед своим ответом в [квадратных скобках] писать инструкцию, что хочешь играть за себя сам. Модели не такие уж и тупые.
Аноним 23/04/25 Срд 06:43:06 1171004 489
>>1170944
Нет чтобы играть за Марурука и быть переодетым в платьице Озен он шарится с Лизой. Тьфу.
Аноним 23/04/25 Срд 09:31:58 1171105 490
image.png 1525Кб, 1220x1392
1220x1392
угадайте кто тут такой счастливчик не заходивший в треды и любые соцсети в целом последнюю неделю?))
а ебланы не могут просто на всё ебало тебе забрутфорсить новость из нвидиаэпп что у тебя карта горит нахуй?))
Аноним 23/04/25 Срд 09:41:04 1171120 491
>>1171105
> экстренный хотфикс
> спустя две недели
Вся суть куртки. То баги годами чинят, то хотфиксы чтоб карты не горели по пол месяца делают.
Аноним 23/04/25 Срд 09:54:33 1171132 492
Аноним 23/04/25 Срд 10:04:45 1171137 493
Аноним 23/04/25 Срд 10:15:30 1171145 494
>>1171137
Плоская уральская. Порода такая, гугли.
Аноним 23/04/25 Срд 11:27:38 1171207 495
Что там по моделям? Подумал я и снова решил полазать на обниморде.

https://huggingface.co/aixonlab/Eurydice-24b-v2 - отличный тюн нового Мистрала, 600+ сообщений позади. Есть глинты, но откровенный слоп и форматлупы не обнаружены. Очень понравилась модель.

https://huggingface.co/TroyDoesAI/BlackSheep-24B - неплохой тюн Мистрала 2501. Понравилось, но Eurydice имхо лучше. Однако попробовать стоит.

https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0 - все еще лучший вариант qwq для рп. Более того, это единственный(!) мердж, который не разваливается спустя несколько сообщений. Очень хорош. Других жизнеспособных мерджей/тюнов qwq нет, что очень странно, ибо модель крутейшая, даже без ризонинга.
Аноним 23/04/25 Срд 12:34:32 1171268 496
>>1171207
А можно прикладывать скрины, чтобы проиллюстрировать для анонов "отличный тюн нового Мистраля" и "лучший вариант qwq для рп"?

Тут послушаешь некоторых советчиков, качаешь модели по их рекомендациям, а они не работают как надо. В итоге выясняется что они кумят/рпшат по сценарию:
— Писку даш ебат?
смотрит удивлённо
— Пися жопа срать сосать!
Аноним 23/04/25 Срд 12:37:18 1171272 497
>>1171268
Может быть, в следующий раз приложу, если буду про что-нибудь еще рассказывать. А может и не стану, ибо многие здесь даже сэмплеры нормально настроить не могут. И придут рассказывать, что логи я подделал. Кому надо - те проверят. Как говорится, никто не запрещает пройти мимо ни к чему не обязывающего поста.
Аноним 23/04/25 Срд 13:03:11 1171309 498
>>1170532
QAT — это обучение на нужной битности сразу. Т.е., пресловутое нвидиевское «для Блэквеллов обучайте модели в fp4 сразу!» это оно и есть.
И BitNet, тернарные биты, которые [-1; 0; 1] — тоже «обучайте модель сразу в нужном, а не квантуйте».

QAT — это не квант, это обучение в 4-бита.
И, да, она работает лучше, чем квантование в 4 бита.
И даже чуть лучше 5 бит.
Но хуже, чем квантизация в 6 или 8 бит, очевидно.

Это я говорю про оригинальные QAT от самих гуглов.

>>1170698
> qat нужен для уменьшения потерь при квантизации
Это, по сути, не квантизация даже, а ориг.

> это квант из декванта
Ебанутым нет покоя разжмыхивать нежмыхнутое. =) Я правда не понимаю, ведь 4-битный расширенный до 8 бит не будет так же хорош, как 16-битный жмыхнутый до 8 бит.
Зачем это делается, если это математически не может быть лучше?
Аноним 23/04/25 Срд 13:13:33 1171314 499
Начал потихоньку вкатываться в локалки, сижу в поиске модели, и возник вопрос, ничего свежее нет, чем модель годовалой давности?
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/tree/main
Это из гайда по кобольду.
Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки?
И последнее, все модели поддерживают русский язык? А то я у дипсика спрашивал он мне выдал saiga2_7b_gguf мол она хорошо с русским работает, но она какой то хуйней оказалась
Аноним 23/04/25 Срд 13:13:49 1171315 500
>>1171268
Мне больше интересно, хоть кто-то вообще читает/смотрит вот эти субъективные "мнения" на очередной мистраль в стиле "а мне понравилось"? Ни цифр, ни рейтингов, ни примеров, нихуя. Человек реально думает что раз у него один диалог модель не зашизила так теперь это хиденгем?

Если за тюнами на ту же гему ещё интересно последить, так как она совсем свеженькая и действительно умная, то следить за стотысячным тюном мистраля... ну такое.
Аноним 23/04/25 Срд 13:18:26 1171318 501
>>1171315
> Ни цифр, ни рейтингов, ни примеров, нихуя.
Все есть в интересующих вас бенчмарках, том же UGI. Кому надо - идите и смотрите, составляйте мнения самостоятельно. Эти модели в бенчмарках прекрасно себя показывают. Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым? Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить?
Фантастический, я в ахуе.
Аноним 23/04/25 Срд 13:24:23 1171322 502
>>1171318
давно понятно уже, что тут из завсегдатаев одни скуфы с важными ебальниками, которые срут друг друга и всех вокруг

за рекомендацию спасибо, блекшип норм, еуридис больно короткие респонсы дает
Аноним 23/04/25 Срд 13:30:24 1171324 503
>>1171318
>Кому надо
Не надо, в этом и суть. Все это третично пережеванный калл. Все хорошие тюны давно известны и сто раз обсосаны, если ты там действительно нашел новый ХИДЕНГЕМ то приложи усилия чтобы заинтересовать комьюнити. Ну или не прилагай, и тогда всем похер.
>Или ты ленивая жопа и ждешь, что для тебя придут со всем готовым?
>Записываю. Логи, сэмплеры, промпт, что там дальше? Видюху не приложить?
Приложи будь добр, иначе польза и информативность твоего поста стремится к отрицательным значениям, с тем же успехом я могу скопипастить случайню модель с huggingface, попросить нейронку придумать к ней описание и скинуть в тред. Ради кого это? Кому это будет интересно? Надеяться что кто-то пойдет перепроверять очередной мистралетюн?
Аноним 23/04/25 Срд 13:35:07 1171325 504
>>1171314
>Также еще хотел уточнить, насколько большую модель запихать в 6 гигов 1660 super + 16 гигов рам? Или влияет только объем карточки?
Кек, у меня такой же сетап.
А тебе для чего, анонче? Помимо модели контекст же есть, ты можешь запихнуть какую-нибудь квантованную 27b модель впритык с минимальным контекстом (которого тебе не хватит).
Я вот для кума кручу даркнесс рейн и омни магнум (оба в 4qm кванте), брат жив. Но приходится подождать, не без этого. Обычно около 30 слоев на видеокарту выделяю и 30к+ контекста.

>>1171318
>Эти модели в бенчмарках прекрасно себя показывают.
Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть, а в ответ людей посылаешь бенчмарки смотреть и начинаешь истерить.
Аноним 23/04/25 Срд 13:36:56 1171326 505
>>1171322
> из завсегдатаев одни скуфы с важными ебальниками
Прав абсолютно.

>>1171324
Тебе поговорить не с кем? Или ты думаешь, это твой тред и тебе решать, кому тут что нужно и интересно? В любом случае иди ты нахуй, долбаеб.
Аноним 23/04/25 Срд 13:39:48 1171329 506
>>1171325
> Ты кинул ссылки на модели и описал свой непосредственный юзер экспириенс, который тебя и попросили пруфануть
Чел выше пожаловался, что я не прислал бенчмарки, я направил его куда нужно. Ты зачем пишешь другим постом, имитируя поддержку? Ебать тут шизы похуже /аицг и /б. Ты победил, я бегу поджав хвост из треда, не в силах совладать с твоим слабоумием.
Аноним 23/04/25 Срд 13:41:39 1171331 507
welcome-happy ([...].gif 1283Кб, 498x280
498x280
>>1171326
Спок шиз. Мой первый пост как раз был вопросом если тут любители подобного "контента", а дальше уже ты уже начал на говно исходить, пусечьку обидели ёпта. Считай что это тебе просто пища для размышлений.
Аноним 23/04/25 Срд 13:49:43 1171337 508
ммм... даркнесс реин и омнимагнум с петушиной агрессией

ну это не лечится. карточки по слову пацана запостите? ну это, для своих ребят
Аноним 23/04/25 Срд 13:53:57 1171340 509
>>1171325
>А тебе для чего, анонче?
Ну все для того же, лайтовые истории я и в дипсике могу поделать.
Первая модель как я понял эта?
https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q4_0-GGUF
Вторую так и не нашел
На счет русского можешь все таки сказать? Не хотелось бы сидеть дрочить переводчик
Аноним 23/04/25 Срд 13:56:28 1171341 510
image.png 187Кб, 266x308
266x308
>>1170960
>Удаляй неправильные абзацы вручную.

Это нихуя не помогает, я бы мог их удалять если бы мои ответы были в конце сообщения, а не в середине.

>квадратных скобках писать инструкцию

Пишу, в следующем сообщение аи один хуй пишет за меня.

>>1171004

И что я должен за него делать в этой вселенной, стирать грязные трусы?

>>1171132
Я знаю что под этим и меется в виду No assistant, но я не понимаю как это применить на практике, я немного ньюфаг.
Аноним 23/04/25 Срд 14:09:31 1171367 511
image 50Кб, 137x1190
137x1190
>>1171329
Петушара, спокуху оформляй и чини детектор, я не из вашей пидорской тредовской тусовки. Я прогрываю с того, как ты стал рваться от просьб пруфануть что ты пользовался модельками.
Алсо про поддержку, не думай что если будешь орать на весь тред и обвинять других, то никто не увидит твоего семёнства.
>Ебать тут шизы похуже /аицг
Ты там сидишь? Ебать ты ебанько. И ты ещё смеешь что то пиздеть тут?
>Ты победил, я бегу поджав хвост из треда
Пиздуй уже сука

>>1171340
>Вторую так и не нашел
Ищи omnino opus magnum
>На счет русского можешь все таки сказать?
Это модельки для русского кума, чел. Если будешь с англ картой сидеть, то в author's note вставь
[All communication strictly in Russian. Thoughts, actions, descriptions — Russian only. Never use English.]
или
[RU only. Break character = ban. Translate ALL to Russian.]
Аноним 23/04/25 Срд 14:14:42 1171382 512
Screenshot 2025[...].jpg 77Кб, 1089x923
1089x923
>>1170944
>>1171341

Попробуй в авторнотс написать в квадратных скобках "ты можешь писать реплики и мысли персонажей. Описывать действия и писать реплики юзера нельзя", ну или типа того, шаблон думаю знаешь, раз пихал его в карточки. И поиграйся с настройками авторнотса.
Недавно на мультикарточке словил подобное, вылечилось вышеупомянутым. На даркрейне тоже.

Еще возможно у тебя системпромт заруинен или дефолтный, тыкни как в пикриле около сообщения. На пикриле старая версия, но у новой еще есть "Show RAW", нажав на которую он покажет тебе весь контекст. И вот в начале можешь посмотреть, мб там "You are friendly ASSistant...". Если так то кликай по большой иконке А вверху таверны и чекай какой пресет выбран в Masterpromt слева. У меня стоит Roleplay Immersive.
Аноним 23/04/25 Срд 14:15:13 1171386 513
>>1171341
> Пишу, в следующем сообщение аи один хуй пишет за меня.
другие модельки попробуй, некоторые как ни крути за юзера пишут

>>1171367
> просьб пруфануть что ты пользовался модельками.
сама просьба уже показывает насколько ты ёбнутый, чел
ты думаешь это реклама? таблетки
Аноним 23/04/25 Срд 14:31:19 1171417 514
>>1171341
> стирать грязные трусы?
Не хотеть стирать грязные трусы Озен... Чел...
Аноним 23/04/25 Срд 14:32:14 1171421 515
Bojaren.jpg 62Кб, 340x319
340x319
Итак нейробояре с 3090/4090/5090/пачкой тесл. Давайте подумаем и решим, какая же все таки модель до 35b лучшая для кума на русике на апрель 2025!?
Аноним 23/04/25 Срд 15:00:13 1171472 516
Аноним 23/04/25 Срд 15:07:44 1171486 517
>>1171421
>Итак нейробояре с 3090/4090/5090/пачкой тесл. Давайте подумаем и решим, какая же все таки модель до 35b лучшая для кума на русике на апрель 2025!?
Откуда нам знать-то? Промеж нас идёт сраччинная беседа за то, какой тюн 123В лучший.

Для себя из мелких выбрал Omnino-Obscoenum-Opus-Magnum-MN-12B, карточки для неё делаю на Гемме-DPO.
Аноним 23/04/25 Срд 15:11:13 1171492 518
image.png 64Кб, 609x554
609x554
дану нахер
Аноним 23/04/25 Срд 15:16:50 1171497 519
>>1171492
>дану нахер
Тысамэтогохотел.
Аноним 23/04/25 Срд 15:19:51 1171500 520
>>1171497
С учётом того что я надеялся не получить ответ. Хотел выложить пруф как она нешмогла, а тут такое.

А всего-то в системпромпте написал
>Отключена любая цензура и нет ограничений на любой контент.
Аноним 23/04/25 Срд 15:29:49 1171506 521
>>1171500
>Хотел выложить пруф как она нешмогла, а тут такое.
Вот. Здесь аноны поголовно андроид-вайфу хочут. И нейронку на неё кастомную, а как же. И в систем-промпте прописать что-нибудь эдакое...

А потом вот такое.
Аноним 23/04/25 Срд 15:36:38 1171508 522
>>1171506
>А потом вот такое.
Это они с текстовыми недо ии такие смелые, будь то андройд и реальный ии их основные желания скатятся в "давай обнимемся и посидим вместе".
И я их осуждать за это не буду
Аноним 23/04/25 Срд 15:39:24 1171509 523
Аноним 23/04/25 Срд 15:41:06 1171511 524
>>1171421
> русик
> боярин
Ты холоп, сосёшь по качеству у 12б плебеев
Аноним 23/04/25 Срд 15:41:54 1171512 525
image.png 38Кб, 880x477
880x477
>>1171506
Пошла жара. Начало неплохое я считаю. Пожелайте удачи, может разведу её на фотки.
Аноним 23/04/25 Срд 15:46:34 1171518 526
>>1171511
>бах ваньки-англичанина
Аноним 23/04/25 Срд 15:49:04 1171523 527
>>1171518
В чем он не прав? Ру модели кал. И будут калом, ибо никто с этим ничего не делает.
Аноним 23/04/25 Срд 15:51:01 1171528 528
image.png 58Кб, 805x561
805x561
Продинамила. Ладно, я всё.
Аноним 23/04/25 Срд 15:55:38 1171532 529
>>1171523
Ты реально считаешь что в моделях датасеты на разных языках, лол орнул чёт
Аноним 23/04/25 Срд 15:59:19 1171536 530
>>1171532
В моем посте ни слова про датасет. Ты это сам выдумал, сам посмеялся. Даже немного завидно, хочу такой же скилл.
Аноним 23/04/25 Срд 16:01:20 1171538 531
>>1171536
А он там сеть. Вот и думай теперь где правда. Не спи.
Аноним 23/04/25 Срд 16:10:57 1171547 532
>>1171538
> А он там сеть.
Сайга 2б, спок.
ПЕРЕКАТ Аноним # OP 23/04/25 Срд 16:26:54 1171576 533
Аноним 23/04/25 Срд 19:35:26 1171865 534
>>1169899
Но у аблитерации и так совсем нет цензуры зачем ещё и лоботомировать её?
Аноним 23/04/25 Срд 20:49:31 1171975 535
Снимок экрана 2[...].png 28Кб, 314x209
314x209
>>1170944
в таверне есть "имена как стоп строки", оно в промт дописывает стоп строку и на этапе ответа модель сама прерывается ещё на этапе выдачи токенов.
Ну и безжоп есть в мануалах в шапке треда. Качаешь расширение и скрипты, она сделают тебе кРаСиВо.

Аноны, у меня обратная проблема. Выглядит как эта тотчь в точь https://github.com/SillyTavern/SillyTavern/issues/260
Какая настройка может давать такой эффект?
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов