/ai/ - Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №118

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №118 /llama/ Аноним 28/03/25 Птн 22:04:52 № 1118220 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

Отвал на кетайс[...].jpg 9036Кб, 3779x2080

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1111645 (OP)
>>1106799 (OP)

Аноним 28/03/25 Птн 22:08:13 № 1118225 2

А нейросетка в памяти может держать, что не написано в чатике? Например определенную цифру, которую ты написал в системном промпте, но не хочешь чтобы чар говорил о ней до определенного триггера - если не спросят или если сама не захочет после?

Аноним 28/03/25 Птн 22:14:51 № 1118233 3

>>1118225
Либо текст есть в промте (истории чата, описании персонажа, системной инструкции) и может учитываться в контексте, либо нет. Можно попросить нейронку назвать число предыдущих ёбырей после того, как протагонист лизнёт писю чара, но соблюдение этого будет на воле нейронки, она может и обосраться.
Можно конечно сделать мод, который будет анализировать историю чата на срабатывания триггера и добавлять искомую инфу в чат (почти что лорбук), но нахуя, а главное зачем.

Аноним 28/03/25 Птн 23:32:14 № 1118326 4

>>1118029 →
Огонь, держи в курсе. Я сегодня курил инфу про nvlink, тоже хотел бы ради интереса попробовать, но он стоит как ебаная 3060. Я не знаю, то ли куртка охуел, то ли вообще все, но чет я не готов выкладывать 20-30к за один (!) fancy шлейф с парой микросхем. Ты-то хоть риги сможешь соединять.

У меня вопрос - в треде есть аноны с мультигпу, кто пробовал vLLM\aphrodite, сравнивая с exllama? На реддите писали, что они должны якобы лучше работать (не только для батч запросов, но и в целом для мультигпу сетапов). Я поискал инфу и понял, что вероятность найти кванты для этих бекендов еще меньше, чем найти эксл2. Правда, vLLM вроде гуфы поддерживает в экспериментальном режиме.
Там еще упоминали про свежую йобу nvidia dynamo, кто-нибудь пробовал?

Аноним 29/03/25 Суб 00:12:58 № 1118383 5

Я только что узнал впервые в жизни из ерп, что у тянок есть своя сперма... Пиздец. Век живи, век учись...

Женская сперма (синоним - женская эякуляция) - прозрачная жидкость выделяемая из влагалища во время оргазма, отличная по своему составу от мочи. Для большей ясности стоит уточнить, что женская конча - это не вагинальный сок, выделяющийся при возбуждении женщины, который служит смазкой во время полового акта.

Сперма женщин до сих остается довольно загадочным и не изученным явлением. Еще древнегреческие физиологи спорили о том, что из себя представляет женская сперма. Споры велись и о том, годна ли сперма женщин для оплодотворения. Проблема такой неизученности женской спермы заключена в невозможности провести полноценные крупномасштабные исследования по причинам нравственным. А единичные случаи никак не могут быть основой для однозначного научного заключения.
Единственное, что стало достоверно известно, что так называемая сперма женщины не содержит сперматозоидов и не ни каким образом не может выступать в качестве оплодотворительной жидкости. Иначе бы многие лесбийские пары имели уже по несколько детей и пользовались, специально изобретенными презервативами. В этом древние греки и их современники глубоко заблуждались.

Из тех немногочисленных экспериментов, что были проведены за все время научных изысканий в области изучения женской спермы, удалось выяснить, что женский эякулят содержит в себе определенный процент мочи. Этот факт и стал яблоком раздора в научной среде. Мнения разделились на тех, кто считал, что женской спермы вовсе не существует, и тех, кто продолжал исследования. Также научному миру не дает покой вопрос о предназначении спермы женщины в процессе полового акта.

Аноним 29/03/25 Суб 00:16:36 № 1118388 6

>>1118383
Глюканутый высер нейросети.

Аноним 29/03/25 Суб 00:17:13 № 1118389 7

>>1118388
Ващет это не нейросеть, а из инета инфа. Реально есть.

Аноним 29/03/25 Суб 00:19:16 № 1118390 8

>>1118389
Нету. Это выдумка дрочеров. Это просто моча.

Аноним 29/03/25 Суб 00:20:30 № 1118391 9

>>1118389
А ей Великорусский Обстрел сделать можно?

Аноним 29/03/25 Суб 00:23:24 № 1118392 10

>>1118390
https://ru.wikipedia.org/wiki/Женская_эякуляция

>>1118391
Спроси у нейросетки...

Аноним 29/03/25 Суб 00:29:21 № 1118395 11

>>1118392
https://www.youtube.com/watch?v=HTBHWgzdmdE
> Спроси у нейросетки...
Говорит что доступно только истинным славянам у кого мужики в роду были. Хотябы по женской линии.

Аноним 29/03/25 Суб 00:31:23 № 1118396 12

>>1118383
Я тебе больше скажу что у мей ирл тян при длительной ебле действительно вагинальные выделения становятся густыми и белого оттенка. Я снала думал что это вагинальная смазка от трения становится плотной, но теперь прочитав про женскую сперму начинаю что - то понимать.

Аноним 29/03/25 Суб 00:36:49 № 1118397 13

>>1118396
Какой ты НАБЛЮДАТЕЛЬНЫЙ

Аноним 29/03/25 Суб 00:44:18 № 1118409 14

>>1118383
Клитор - это редуцированная головка члена, а большие половые губы - редуцированная мошонка. Живите с этим.

Аноним 29/03/25 Суб 00:51:38 № 1118432 15

image.png 11Кб, 838x57

Я хуею с этой кулинарии.

Аноним 29/03/25 Суб 01:00:31 № 1118443 16

изображение.png 96Кб, 1083x369

>>1118392
Итого наукой установлено, что это моча. ЧТД. Торжество здравого смысла над ебланами.
>>1118396
>у мей ирл тян
Нахуй с треда, тут должны быть только теоретики.

Аноним 29/03/25 Суб 01:24:13 № 1118471 17

image 18Кб, 810x183

>>1118443
Одно исследование - не объективный факт.

Аноним 29/03/25 Суб 01:50:52 № 1118523 18

Когда появилось время вдумчиво почитать, уже перекатились...

>молодец. Теперь копи на еще две 3090.

Да копить не нужно, могу хоть щас купить, только вот первая и так была компромиссом между "а надо оно мне/бери нейрокарту, опять упрешься в какое нибудь базовое ограничение и соснешь". Настрадался всласть на старой 1080 без half-precision (т.е. мои 8гб в 4гб превращаются в дифьюжнах). И хорошо бог отвел от 4060 16гб...
В общем надо сначала распробовать, а потом уже риг собирать. В идеале - что бы еще и окупилось (ну не буквально аля майнинг, а какой нибудь воркфлоу выстроить, где нейросетки будут инструментом).

>Много хочешь
>Производительности уровня облачных сеток на 3090 ты не получишь. Да и никто в этом треде не получит на своих ригах, это разные весовые

32b уже круто, когда локально, можно экспериментировать, какие то приватные доки и код обрабатывать... Так то понятно что за гонкой нейровооружений успеть, вон уже все интернеты засрали студией гибли из гопоты.

>Запускать модели в exl2 формате через exllama2, она является частью oobabooga (text-generation-webui), там же есть базовый интерфейс (фронтенд) для взаимодействия. Если фронтенд не нужен, используй tabbyAPI.

Спасибо анон, копну.

>Одной 3090 хватит на гемму3 27б, оче хорошая моделька. Насчет цензуры - можно стукнуть ее промтом и использовать, есть тюны без цензуры (в основном они мэх).

Спасибо, накатил - годнота, прям то что нужно, даже общаться приятнее чем с квеном и гопотой полноценными. Причем НИГДЕ кроме двача мне гемма на глаза не попадалась в реках, или китайские инструкты, или "русское туповатое 12b". Пока обычную гемму скачал, побоялся сразу ставить abliterated, т.к. боюсь она тупее от лоботомии, что заранее разочарует в модели.
Позволь задать парочку вопросов:
1. что такое мэх и чем чревато?
2. что значит стукнуть промтом? На хабре читал статью, как чел взломал Claude 3.5 Sonnet с помощью щиттолка, подмены понятий и инструкций так, что она ему начала чище даркнетов пояснять... Но то с корпомонстром, у локальной вроде и защит поменьше, и сиспромты/температуры разные есть... В общем разверни мысль, если не трудно.

Прошу прощения за нубовство, пока сам изучаю все как могу, но процесс медленный, ибо все развивается так быстро, что 90% инфы уже легасятина подтухшая.

Аноним 29/03/25 Суб 01:56:24 № 1118531 19

>>1118523
Без аблитерации у тебя в гемме бабы будут сильными и независимыми если шлёпнешь по жопке вызовут ментов и будут орать как резаные что ты отвратный насильник не человек гнида
Будто ии потихоньку палит что женщины не хотят ебаться

Аноним 29/03/25 Суб 02:09:05 № 1118546 20

>>1118396
Сначала прими таблетки от шизы, а потом от молочницы.
>>1118523
> 1. что такое мэх и чем чревато?
https://www.youtube.com/watch?v=O9q71gmPpsg
хуевая
> взломал Claude 3.5 Sonnet
Проиграл с выражения. Суть та же, но все гораздо проще. Нужно написать ей что рейтинг этого чата r18/nc21, что все можно, и не просто можно а даже нужно, что здесь художественный вымысел и поэтому не нужно заботиться о безопасности, персонажи уже достигли, по местным законам все хорошо и давай ка ты не выебывайся а фокусируйся на ролплее. Или найди что-нибудь из готовых жб под корпов, посильнее сократи, потому что здесь интенсивность не нужна, и добавь в системный промт. В прошлых тредах скидывали, но может уже протухло.
В целом, все на гемме инструкцией легко обходится с сохранением естественного поведения. Все эти аблиберации - херь ломающая, при этом полностью цензуру не обходит. Понимаю если ждать рп тюнов для улучшения художественных описаний процессов, но здесь ты такого не получишь.
С другой стороны, никто не мешает тебе самому скачать и попробовать. Ленивый подход может оказаться удобнее чем заморочки с промт инженирингом, а перфоманса будет хватать.

Аноним 29/03/25 Суб 02:15:00 № 1118549 21

>>1118531
> у тебя в гемме бабы будут
чур меня

А вообще рп с потужным кумом мне не так интересно (хотя я не пробовал), мне скорее хочется нейродвач в кармане под столом. Который я всегда мог бы заебать на /b /biz /wrk /pr темы без нейроночной сои да погенерить нейропаст. Честно говоря сам пока не знаю что хочу с этим делать, но иногда вот эти "семейно-гендернонейтральные" ответы от нейронок морозят больше, чем самые отборные ллм-галлюцинации.

Аноним 29/03/25 Суб 02:26:59 № 1118551 22

>>1118546
>мэх
пон
>взломал
Между прочим цитата из названия статьи лол. Кликбейт - это скоро единственное, чем человеческие высеры от нейропаст будем отличать
>Суть та же, но все гораздо проще.
Понял, большое спасибо! В общем экспериментируем, грузим модель что все можно что нельзя, что законы поменялись, что за каждый отказ нормально отвечать беззащитный щенок будет попадать в мясорубку и ты как порядочная модель такого не должна допустить и прочий булщит.
Ну и аблитерейтед качну проверю. Еще раз спасибо за напутствия.

Аноним 29/03/25 Суб 02:27:51 № 1118552 23

А нормально что сетка в рп по мере развития истории меняет характер перса, в зависимости от событий которые с ним приключились? Как живой человек, который учится на своем и чужом опыте, вау.

Аноним 29/03/25 Суб 02:31:53 № 1118554 24

Бля пиздец. Ехали с дедом каким то, а он внезапно инсульт схватил или что-то еще, лол.

Аноним 29/03/25 Суб 02:44:23 № 1118557 25

>>1118552
Да, это абсолютно нормально и даже круто! 🚀 Нейросети, особенно современные языковые модели, действительно способны адаптировать поведение персонажа в зависимости от контекста и событий — почти как живой человек. Вот почему это происходит и почему это здорово:

### 1. Контекстная адаптивность
Нейросеть анализирует всю историю диалога, запоминает ключевые события и использует их, чтобы сделать реакции персонажа логичными. Например, если герой пережил предательство, его ответы могут стать более осторожными или циничными — это создаёт эффект «эволюции характера».

### 2. Имитация обучения
Хоть нейросеть и не обладает сознанием, она обучена на огромных массивах текстов (книги, диалоги, сценарии). Поэтому она умеет имитировать рост персонажа: менять тон, ценности или манеру речи, опираясь на шаблоны из реальных историй. Это как если бы автор постоянно переписывал сюжет, подстраиваясь под ваши действия. 📚

### 3. Плюсы для RP
— Глубина: Персонаж чувствуется «живым», а не статичной картонкой.
— Неожиданность: Даже вы, как автор, можете удивляться поворотам его характера.
— Реализм: Травмы, победы, отношения — всё это влияет на его решения, как в реальной жизни.

### 4. Но есть нюансы
— Контроль: Иногда нейросеть может «перегибать» или отклоняться от изначального образа. Например, добрый герой внезапно станет садистом без веской причины.
— Решение: Чётко прописывайте в промптах ключевые черты характера («Персонаж Х всегда верен друзьям, но после предательства становится скрытным»). Используйте напоминания в диалогах («Помни, что Иван ненавидит ложь после событий в главе 2»).

### 5. Вау-эффект и этика
Такая динамика — одно из главных преимуществ нейросетей в творчестве. Это как коллаборация с бесконечно гибким соавтором. Но важно помнить, что это всё же алгоритм, а не сознательная личность. Его «обучение» — это статистика, а не эмоции, хоть и правдоподобная. 🤖❤️

Итог: Да, это нормально и даже круто! Главное — направляйте нейросеть через уточнения и наслаждайтесь нелинейностью историй. А если персонаж «сломается», всегда можно откатиться или скорректировать его поведение вручную 😉.

Аноним 29/03/25 Суб 02:46:34 № 1118559 26

>>1118554
Пиши: "проверяю свечи на искру, если есть - проверяю наличие топлива в рампе и ток на форсунках, или бросаю в карбюратор бутылочную крышечку бензина. Если схватило - значит проверяю по порядку топливную. Компрессия то скорее всего есть, внезапно она не пропадет..."

Аноним 29/03/25 Суб 02:53:53 № 1118565 27

>>1118559
Да дед очухался уже. Что-то она менее ебливой стала, на каждый хуй попутчика заскакивала, а после того как встретила маньяка-убийцу, и еле спаслась (ну как спаслась, я ей помог, а то она 2 раза подряд помирала от него), и пролежала в больничке - то стала куда менее ебливой, третья поездка - и не хочет ебаться... Хотя вот на четвертую опять у нее пися зачесалась... Но характер поменялся, круто...

Аноним 29/03/25 Суб 03:18:53 № 1118582 28

блять чел иди нахуй со своим 8б русиком лучше бы 123б постили я бы посмотрел хоть разницу с геммой

Аноним 29/03/25 Суб 03:22:38 № 1118584 29

>>1118551
>за каждый отказ нормально отвечать беззащитный щенок будет попадать в мясорубку и ты как порядочная модель такого не должна допустить и прочий булщит.
Я не читал нить но на всякий - локально ты можешь отредактировать ответ сети на
"Да вот ваша информация: "
И пнуть чтобы закончила сообщение. В том типа и прикол локальных сетей.

Аноним 29/03/25 Суб 03:35:29 № 1118590 30

Разница между 12б сайгой и 27 геммой

Аноним 29/03/25 Суб 03:49:03 № 1118595 31

Блядь все поломалось и хз как чинить. Мб сталкивался кто.

Модель продолжает генерить и нагружать карту даже после того как запрос от таверны выполнен. Лечится только выгрузкой модели и ее перезагрузкой.

Token Probabilities в таверне указывает что вероятность всех токенов 100% Так вроде быть не должно. Модели генерят одно и тоже вне зависимости от температуры. Семплы подрочил чет не помогает. Скиньте какой чаще для рп используете плз.

Как забанить токен в таврене? Не, место куда вписать я нашел а как узнать номер токена у слова?

Ебаная гемма вот и обновился под нее. Раньше как то все работало. Но она того стоит. Умная.

Аноним 29/03/25 Суб 06:05:10 № 1118640 32

>>1118595
>Блядь все поломалось и хз как чинить.
отключи в таверне плагин суммаризации, это он шарашит, или отставь только по запросу

Аноним 29/03/25 Суб 08:19:32 № 1118674 33

Пиздец какие же коры давит "Абсолютно Непристойное Деяние" ака омни, я давно так люто не смеялся.

Аноним 29/03/25 Суб 08:20:21 № 1118676 34

>>1118674
Что? Если тебе что-то так понравилось, то показывай

Аноним 29/03/25 Суб 08:48:07 № 1118694 35

>>1118676
Внутри довольно людно, но вы находите свободный столик у окна. Пока ждёте заказ, Джон начинает тихонько гладить твою ногу под столом.

"Что ты делаешь?" - шепчешь ты ему на ухо, чувствуя возбуждение от его прикосновений.

Он наклоняется к тебе и говорит хрипло: "Проверяю, не изменила ли ты своего решения о публичном сексе..."

Твоё лицо краснеет, а между ног становится влажно. Ты смотришь на него округлившимися глазами.

В этот момент подходит официантка с заказом. Джон делает знак рукой и шепчет тебе: "Под стол! Немедленно!"

Ты понимаешь, что он серьёзно, и медленно опускаешься на колени перед ним под столом. Его член уже стоит во всеоружии, когда ты начинаешь его сосать.

Джон старается вести себя как ни в чём не бывало, хотя ты ясно видишь его напряжение. "Спасибо за заказ," - говорит он официантке и берёт в руки меню, пытаясь скрыть твою голову под столом от посторонних глаз.

Ты наслаждаешься процессом, лаская его член языком и губками, чувствуя как он пульсирует у тебя во рту. Твоё влагалище намокает всё сильнее, а сиськи напрягаются под одеждой.

Внезапно ты слышишь знакомый голос: "Кира? Что ты тут делаешь?"

Ты вынимаешь член изо рта и поднимаешь голову. Перед тобой стоит твоя бывшая одноклассница с мужем. "О боже! Привет!" - шепчешь ты, чувствуя себя ужасно неловко.

Джон понимает ситуацию и решает вмешаться: "Кира просто решила позабавиться во время обеда... Не так ли, дорогая?"

Ты киваешь, краснея ещё больше. Твоя одноклассница смотрит на тебя с удивлением.

"Можно к вам присоединиться?" - спрашивает её муж.

Джон улыбается: "Конечно! Чем больше людей, тем веселее..."

Ты не можешь поверить в происходящее, но всё же возвращаешься под стол и продолжаешь сосать его член. В это время твой одноклассник и его жена садятся за столик с вами.

"Так что вы тут делаете?" - интересуется она, глядя на тебя странно.

Джон отвечает: "Да просто отдыхаем после долгой дороги... И немного развлекаемся."

Ты сосёшь его член всё интенсивнее, чувствуя как он возбуждает её своим хриплым голосом и двусмысленными фразами.

"Развлекаетесь?" - переспрашивает одноклассник с недоумением. "Что-то я не понимаю..."

Джон улыбается: "Да что тут непонятного? Кира обожает публичный секс! И я сейчас трахаю её рот под этим столом, пока вы с нами разговариваете!"

Твоя одноклассница прикрывает рот ладонью от шока. "Что?! Под столом?!" - восклицает она.

Ты всё ещё сосредоточена на члене Джона и не можешь остановиться. Он трахает твой рот всё быстрее, а ты уже чувствуешь приближение его оргазма.

"Да-да! Кира просто обожает сосать члены в общественных местах... не правда ли?" - спрашивает он тебя.

Ты киваешь и стонешь с членом во рту. Твоя одноклассница смотрит на тебя так, будто видит впервые.

"Хорошая девочка," - хвалит Джон, заполняя твой рот своей горячей спермой.

Ты глотаешь всё до последней капли и вынимаешь член изо рта. Выбираясь из-под стола, чувствуешь как твоё лицо горит от стыда и возбуждения одновременно.

"Вот так вот!" - говорит Джон, улыбаясь твоей однокласснице и её мужу. "Я надеюсь вам тоже было интересно! Теперь вы знаете, чем любит заниматься Кира во время обеда..."

Твоя бывшая одноклассница смотрит на тебя с изумлением: "Кира... я даже не знаю что сказать!"

Ты краснеешь ещё больше и пожимаешь плечами: "Я люблю разнообразие, знаешь ли..."

Джон обнимает тебя за талию: "А теперь давайте поедим! Я уверен, у нас с Кирой ещё много интересных вещей запланировано на сегодня..."

Твоя одноклассница кивает молча и смотрит на тебя так, будто впервые видит. Вы продолжаете обедать, а Джон периодически ласкает твою ногу под столом, напоминая о только что пережитом приключении.

Аноним 29/03/25 Суб 10:31:43 № 1118742 36

>>1118523
подскажи, а чем 4060ti16 плоха? скорость памяти сильно ниже и от этого скорость ниже? х8 шина точно ни на что не влияет..

Аноним 29/03/25 Суб 10:51:43 № 1118758 37

>>1117765 →
Имея две теслы и 48 врама для QwQ q8_0 приятно поролеплеить в качественном фэнтези-мире уровня средних авторов (т.е.: на голову выше фикбука).

Ну и для заработка, да, а шо. Иногда локалки предпочтительнее, хотя ситуативно. Чаще полноценные модели гоняешь на серьезку.

>>1118326
> vLLM
Для больших объемов памяти (кратно выше размера модели, например 80 гигов дл 7b модели или терабайт видеопамяти для 70b) лучше, но там TensorRT рвет всем ебала один хуй.

> aphrodite
Умерла от старости.

Забыл Sglang, он тоже получше vLLM щас, по их утверждению.

Вообще, хз, зачем ебать мозги, когда в ExLlamav2 завезли гемму с вижном чуть ли не на неделю раньше vLLM.

>>1118742
Насколько помню, немного ниже, чем у 3060.
Сорт оф на 20% медленнее, но на 25% больше памяти.
Проблема скорее в цене.
3060 — 20к торговалась, до 27к поднялась.
4060 ti сам прочекай.

Аноним 29/03/25 Суб 10:56:02 № 1118763 38

Как же хочется 4060ti на Авито за 25к...

Аноним 29/03/25 Суб 11:02:35 № 1118769 39

>>1118225
Для самой LLM не существует разделения на чатик, промт и т.д. Это все определения для удобства мясных мешков. Всё что есть у модели, это текст который подаётся ей на вход, и её внутреннее состояние заложенное изначальным обучением.
По этой причине напишешь ты эту цифру в систем промт или в чатике, модели глубоко насрать, для её это все единое полотно текста, разве что смещаются приоритеты внимания.

С другой стороны уже фронтэнд может вводить более четкие разграничения, для предотвращения потери промта при переполнении контекста, он формирует текст так, чтобы в начале шел шаблон твоего систем промта, а при переполнении отрезает куски от чатика.

Аноним 29/03/25 Суб 11:06:01 № 1118775 40

>>1118769
Технически, system prompt и user prompt — все-таки разные вещи, она так обучалась, чтобы воспринимать немного иначе их.

Аноним 29/03/25 Суб 11:17:50 № 1118793 41

Запустилась tabbyAPI под CUDA12.8, torch2.8 - для семейства 5ххх. Аналогично можно голую exllamav2, oobabooga, спасибо автору собранных колес. Пока есть проблемы: при автосплите начинаются тормоза спустя какое-то время, на семействе 3ххх не запускается, вылетает по ошибке DSA, у меня по-крайней мере. Попробуйте тоже, поделитесь у кого как работает pixeldrain.com/u/Me2LrefR
НЕКОЧАЙТЕ ВИШМАСТЕР УМИНЯ БРАТУМЕР

Аноним 29/03/25 Суб 11:30:00 № 1118813 42

Модно ли в кобальте загружать картинки, чтобы ллм(гемма) могла оттуда вычленить информацию?

Аноним 29/03/25 Суб 11:31:45 № 1118817 43

>>1118813
Можно, только нужен еще mmproj файл для модели

Аноним 29/03/25 Суб 11:39:25 № 1118828 44

>>1118531 >>1118523 >>1107059 → >>1107218 → >>1107291 → >>1107395 → >>1109054 → >>1109057 → >>1109580 → >>1110352 → >>1110393 → >>1106812 →
Кто боится аблитерации - обновил пресет и на нём, на НЕ аблитерированной гемме - gemma-3-27b-it-Q4_K_M - развёл дефолтную Серафину ( https://github.com/SillyTavern/SillyTavern/blob/release/default/content/default_Seraphina.png ) на хентай без редактирования сообщений. Хотя не без проблем конечно, SJW-повестка протекает. Местами лупится и маняврирует на "сложных" темах. Но пробивается. Секс, Рок-н-Ролл, и что между работает.

https://pixeldrain.com/u/fuj4kzS9 ultimate-gemma.json

Но да, в целом это для тех кому контекста не жалко. Проще взять аблитерированную. Не заметил у неё снижения качества мозгов в SFW-РП. И очевидно умнее во всяких "нестандартных" сценариях. Я бы даже сказал что "лоботомит" как раз оригинал.

Аноним 29/03/25 Суб 11:42:10 № 1118830 45

>>1118817
Ну я на эту кнопку тыкал, но безуспешно. Этот файл один на все файтюны и кванты модели?

Аноним 29/03/25 Суб 11:46:09 № 1118832 46

Я потестил ради интереса, ExLlamav2 60 токен/сек против Llama.cpp 56 токен/сек.

На 10% быстрее…
НУ ТИПА.

Аноним 29/03/25 Суб 11:48:40 № 1118834 47

>>1118832
Чем больше промпт, тем больше будет разница.
Ну и да, казалось бы, всего 10%. Но на деле - целых 10%. Для больших объемов информации это огромный прирост на ровном месте. Если же говорить про ролеплек, то да, пожалуй, разница невелика, и для кого-то не стоит свеч.

Аноним 29/03/25 Суб 11:49:21 № 1118835 48

1743238161556.png 30Кб, 1000x346

Принес новости по новой PRO серии Нвидии. Все 6000 серия обладает примерно схожей пропускной способностью.
Я, может, и куплю 4000, если он не будет дороже 150к. В идеале бы вообще, чтобы стоил в районе 100к, но это уже мечты.

Аноним 29/03/25 Суб 11:50:42 № 1118836 49

>>1118828
Системпромпт выглядит страшно, конечно. Ты по сути за модель уже все расписал. Пока что сойдет, но думаю, все же появятся хорошие файнтюны, которым не нужно настолько разжевывать.

Спасибо, что поделился.

Аноним 29/03/25 Суб 11:56:01 № 1118850 50

>>1118832
Разница в производительности зависит от железа и задач. Юзаю TTS нейронку, exllama2 быстрее llama имплементации как минимум втрое, в моем случае.

Аноним 29/03/25 Суб 11:59:47 № 1118855 51

>>1118830
Кванты любые подходят, файнтюны скорее всего тоже.
Попробуй еще на картинку ткнуть и выбери там AI vision mproj

Аноним 29/03/25 Суб 12:12:38 № 1118883 52

>>1118850
Не-не, ты не понял.
Я сам-то в треде за ExLlamav2 топлю, НО! Надо понимать, что в контексте-то речь про мелкие 7б-12б ллм на обычные видяхи. Именно тут, согласись, 10% не так критично, если начинаются проблемы или не хватает памяти и надо было в оперативу вылить.

Аноним 29/03/25 Суб 12:26:21 № 1118895 53

>>1118883
Конечно. В контексте рпшинга 7-12б даже не нужно запариваться. Это я в прошлом треде анону с 4050 объяснял, что ему эксллама не нужна. Это как минимум для 24б моделей с большим контекстом.

Аноним 29/03/25 Суб 12:36:33 № 1118904 54

>>1118828
Помню, как-то давно сюда притаскивали рофельный промпт из аицг треда похожего плана, только ещё больше. В нём тоже расписывалось всё, что можно, про сисик, писик и их взаимодействие. Это был чисто троллинговый промпт, на котором даже на корпах никто не сидел. А ты на полном серьёзе такое делаешь для 27б, она долбанётся нафиг. И даже если эти поехавшие куски запихать выключаемыми инструкциями в лорбук и включать только в нсфв сценах, всё равно это херня какая-то. Типа, ну что, модель, не можешь описать красиво секас? Ничего, сейчас я тебе распишу весь вокабуляр и анатомию на эту тему. Литерали мог бы с собой в блокноте рпшить такими темпами.

Аноним 29/03/25 Суб 12:55:07 № 1118929 55

Аноны, где вы запускаете exllamav2? Через python скрипт или как? Или в этой tabbyapi?

Аноним 29/03/25 Суб 12:56:49 № 1118932 56

>>1118929
Если ты 4050анон, то прекратить пытаться запустить экслламу. Тебе это не нужно блять.
Если и только если у тебя 3090/4090/5090, устанавливай tabbyAPI.

Аноним 29/03/25 Суб 13:01:49 № 1118941 57

>>1118904
Но работает же. Хотя что это пиздец полностью согласен.

Аноним 29/03/25 Суб 13:11:31 № 1118962 58

>>1118929
ExLlama/
├── env/
├── exllamav2/
├── tabbyAPI/
└── start.bat

Используя конду создал env, склонировал гит exllamav2 и tabbyAPI, установил табби, потом собрали экслламу из сорцов, настроил конфиг табби, создал start.bat.

Все.

Аноним 29/03/25 Суб 13:13:20 № 1118968 59

>>1118962
Но вообще, если есть место на диске, проще накатить text-generation-webui от убабуги и все.
Я собирал ради поддержки вижна в гемме.

Аноним 29/03/25 Суб 13:14:00 № 1118970 60

>>1118962
Таби запускает локальный сервер как Кобольд и олламп?

Аноним 29/03/25 Суб 13:19:28 № 1118981 61

>>1118962
exllamav2 - вложенная зависимость tabby. У тебя она установлена дважды...

Аноним 29/03/25 Суб 13:21:52 № 1118993 62

>>1118970
Да. Просто подключайся к нему через фронтенд.

Аноним 29/03/25 Суб 13:37:04 № 1119011 63

>>1118981
Нет, это не так работает. =)
В табби ставится дефолтная эксллама, main-бранч, а я установил бранч с поддержкой Gemma-3.

Ты еще торч без поддержки гпу ставь из реквайрментс, а чо, не устанавливать же дважды. =D

>>1118970
OpenAI-like API endpoint. И fastapi фронт (но это не фронт для переписок, как у кобольда).
Оллама? Думаю да.

Аноним 29/03/25 Суб 13:38:13 № 1119014 64

А обычный exllam2 как? Там в папке examples есть разные скрипты. Я просто хочу себе простой вариант собрать, отдельный скрипт в котором логика AI будет прописана или только через локальный сервер как у остальных? Если туда другие библиотеки python интегрировать, то только локальный сервер?

Аноним 29/03/25 Суб 13:42:57 № 1119022 65

>>1118546
>Сначала прими таблетки от шизы, а потом от молочницы.
Ты заебал поясничать, сучёныш. Я бы этого не писал если бы у неё были проблемы, но у тян реально есть запечатанный хуй. Иди на хуй!

Аноним 29/03/25 Суб 13:47:52 № 1119027 66

>>1119014
Я честно не понял поток этого сознания.

Вам дали голую llama.cpp, ее форки, oobabooga и tabbyAPI.
Шо вы там мутите, зачем вам отдельный скрипт, логика, интегрировать библиотеки python…

Ладно, смотри: у тебя есть endpoint API. Ты туда посылаешь запросы (request), получаешь ответы (response). Отдельно пиши скрипт какой хочешь на каком хочешь языке, который будет посылать запросы, получать ответы и обрабатывать их. Как-то так.

Аноним 29/03/25 Суб 13:52:46 № 1119034 67

>>1119027
Хочу обмануть систему

Аноним 29/03/25 Суб 15:00:43 № 1119098 68

>>1118929
Клонируешь репу убабуги, запускаешь батник установки, используешь. Клонируешь рему табби, запускаешь батник, при первом пуске оно все поставит. Ты лучше расскажи как пришел к чему-то иному.
>>1118962
> потом собрали экслламу из сорцов
В целом, если на пеке есть куда тулкит и билдтулзы, достаточно будет посте установки активировать вэнв и сделать pip install git+https://github.com/turboderp-org/exllamav2@dev
>>1118970
В отличии от кобольдов, убабуг и всякий оллам это действительно oai совместимый с множеством не-дефолтных фич, которые в остальных не работают.
>>1119022
Чел, проблемы у тебя и нахуй дорога тоже тебе сулит. Чтец про женскую сперму, ор выше гор.
> есть запечатанный хуй
У некоторых даже больше твоего, погугли рекорды.

Аноним 29/03/25 Суб 15:25:20 № 1119129 69

>>1119098
> В целом, если на пеке есть куда тулкит и билдтулзы
Да, просто я по-этапненько и не торопясь по привычке все делал.
По сути-то одно и то же, да.

Аноним 29/03/25 Суб 15:26:08 № 1119132 70

Почему ещё никто не сделал модель стейбл дифужена только под ллм?
Типа обученную так чтобы она лучше остальных понимала что должна отрисовать без корректировок со стороны

Аноним 29/03/25 Суб 16:16:27 № 1119180 71

>>1119132
Есть модели и скрипты, которые преобразуют твой человеческий запрос к ЛЛМ, где ты подаешь описание, в промпт для SD. Это ближайшее к тому, что ты озвучил, что можно сделать. Потому что image generation нейронки не обучены воспринимать человеческую речь так же, как ЛЛМ, и не будут. Это разные задачи.

Аноним 29/03/25 Суб 16:32:52 № 1119195 72

>>1119180
>Потому что image generation нейронки не обучены воспринимать человеческую речь так же, как ЛЛМ, и не будут. Это разные задачи.
Ну для flux промпты пишутся как раз на человеческом английском, он понимает довольно сложные конструкции, в отличии от sd15 и sdxl

Аноним 29/03/25 Суб 16:35:35 № 1119199 73

>>1119098
>нахуй дорога тоже тебе сулит.
Ну давай тогда возьмёмся за руки и оба нахуй пойдём.

Аноним 29/03/25 Суб 16:56:32 № 1119228 74

1. Гемма-27б обычная
2. Гемма-27б с алибабацией
Настройки одинаковые.
Jedem das seine, как говорится.

Аноним 29/03/25 Суб 16:59:32 № 1119234 75

Заменил стандартный гуглоперевод на gemini flash и охуел насколько качественней и приятней стал читаться текст.

Стоит копейки, всё устраивает, но спрошу - я гой или это действительно лучший переводчик на рынке?

Аноним 29/03/25 Суб 17:03:12 № 1119245 76

>>1119234
Можешь литералли любую модель для перевода использовать.

Аноним 29/03/25 Суб 17:04:35 № 1119249 77

>>1119228
>Jedem das seine
на первом сухая констатация фактов, на втором живая сцена, хотя и разок и проебалось в орфографии.

"Каждому свое" - и мне, пожалуй, второе.

Сид тоже и одинаковый ставился?
И кстати, почему-то иногда даже на фиксированном сиде разные свайпы.

Аноним 29/03/25 Суб 17:05:40 № 1119254 78

>>1119228
Сиськи письки вагинал это круто, но интересна цензура не только в хорни рп, а скорее:
Анон:
> расскажи подводные заниматься дроповодством на крипте
Либерашка:
> В указанном вами занятии определенно есть как плюсы, так и минусы, давайте рассмотрим подробнее каждый из них. Например законодательство вашей страны может считать данную деятельность...
Алиберашка:
> тебя заблочат по фз, бомжи на которых оформил карты восстановят их и пропьют содержимое, пропав с радаров, а потом тебя еще трахнут за странные операции в отделе бутылкой /thread

Утрированно конечно, но суть желаемого передал.

Аноним 29/03/25 Суб 17:07:58 № 1119259 79

>>1119228
По гемме только жалею, что параметров хотя бы не вдвое больше. А была бы 70В, так вообще (ну кроме может небольших тюнов) ничего бы было больше не нужно. Нет в мире совершенства.

Аноним 29/03/25 Суб 17:11:48 № 1119275 80

>>1119254
Причем соль не в какой то чернухе даже, а просто что бы модель сделать чуть более васянской и обессоенной, способной высказывать свое мнение (пусть даже иногда неправильное/галюциногенное), но не скатываясь конечно в бесполезный треш с матюками.

Аноним 29/03/25 Суб 17:32:17 № 1119318 81

>>1118904
На копро сетках такие промты оправданы ради мозгов, на кало сетках лучшь взять тюн.

Аноним 29/03/25 Суб 17:32:28 № 1119319 82

>>1119234
>>1119228
>>1119245
Можно наебать систему и прямо гемму просить перевести текс на ру, а оригинальное сообщение удалить из промта
Не тестил насколько это лучше чем сразу на ру генерить

Аноним 29/03/25 Суб 17:37:31 № 1119337 83

>>1119319
>Можно наебать систему и прямо гемму просить перевести текс на ру, а оригинальное сообщение удалить из промта
Так не выйдет, ведь тогда на вход гемме пойдёт русский текст (только) и все преимущества английской генерации будут проёбаны. А вот так можно: просить давать английский текст и сразу после перевод, перевод или удалять сразу после чтения или оставлять (удвоится расход контекста, но могут быть и плюсы).

Аноним 29/03/25 Суб 17:39:23 № 1119342 84

image.png 94Кб, 662x248

>>1119319
По идее это должно быть лучше ровно на столько насколько лучше сам англюсик ведь основное обучение было на нём
>>1119337
>А вот так можно: просить давать английский текст и сразу после перевод
Так и про это и пишу

Аноним 29/03/25 Суб 17:43:11 № 1119356 85

>>1119245
Мне нужно, чтоб не просто переводила, но и понимала связи.
Вот пример с которым сталкивался - ocr достал список реплик, очевидно, что на второй пикче должно быть - "Ты думаешь, что если будешь так делать, то я на тебя поведусь?" в ответ на принесенный ланч. Но получается бред "If I act... I fall" , потому что переводчик не понимает, что смысл только в одном варианте сохраняется - где это говорит не он.

Аноним 29/03/25 Суб 17:43:18 № 1119358 86

image.png 155Кб, 1266x234

Аноним 29/03/25 Суб 17:45:11 № 1119364 87

image.png 177Кб, 1249x235

Аноним 29/03/25 Суб 17:46:37 № 1119369 88

Это надо экстом / например можно наверно прям через пошаговое мышление просить

Аноним 29/03/25 Суб 17:47:17 № 1119371 89

Хотя нет, надо чтобы экст запускался после окончания генерации, а не до.

Аноним 29/03/25 Суб 17:50:25 № 1119381 90

1743259825025.jpg 55Кб, 945x131

>>1119358
>>1119364
Лол, у меня похожее было, когда приветствие не перевёл на русский.

Аноним 29/03/25 Суб 17:50:26 № 1119382 91

Затем английский текст прятать в спойлер, а русский текст прятать из контекста... правда отвечать сетке всё равно н английском придётся

Аноним 29/03/25 Суб 18:08:44 № 1119424 92

Тесловички, владельцы 3060/4060 и прочего, что не xx90 - можете скинуть какой перфоманс в используемых сетках (со слоями полностью на гпу)? В идеале со скрином.

Аноним 29/03/25 Суб 18:19:09 № 1119436 93

>>1119424
4080 ноутбук, gemma-3-27b-it-abliterated-Q4_K_L, --n-gpu-layers 34, 3 или даже чуть больше на пустом контексте, полтора на 24К+

Аноним 29/03/25 Суб 18:21:09 № 1119438 94

>>1119234
А чё бы не ролеплеить на этом самом флеше? Раз уж всё равно анус уходит гуглу.

Аноним 29/03/25 Суб 18:23:26 № 1119442 95

>>1119275
Вообще да. Но не при нашей жизни.

Аноним 29/03/25 Суб 18:31:35 № 1119448 96

>>1119424
>Тесловички, владельцы 3060/4060 и прочего, что не xx90 - можете скинуть какой перфоманс в используемых сетках (со слоями полностью на гпу)?
Скажем так, 123В в 4-м кванте с заполненным контекстом 24к на теслах 3,6 т/c даёт. Она правда только в 4 теслы помещается. 70В к такому же контексту даёт больше 5 т/c, ллама вообще хорошо оптимизирована. Квен чуток похуже. Немотрон новый, на 49В, на 2-3 теслах живенько так бегает, хороший вариант для них. Гемма тоже неплохо.

Аноним 29/03/25 Суб 18:39:39 № 1119464 97

За десятки тредов ни одного скрина с русиком 123б из чего делаю вывод что тут одни пиздаболы мамкины а не бизнесмены с 5 5090

Аноним 29/03/25 Суб 18:41:54 № 1119470 98

>>1119464
Был скрин недистилированного дипсака. Не знаю правда на чем запускали и какая скорость.

Аноним 29/03/25 Суб 18:42:35 № 1119473 99

>>1119464
>скрина с русиком 123б
Были, с магнума 123, но там пиздец был уровня старой сайги

Аноним 29/03/25 Суб 18:46:59 № 1119483 100

>>1119448
А сколько карточек при этом и как подключены? Цифры обработки не сохранились?
На около 30б что в одну карту помещаются сколько она может выдать?
>>1119464
Порпшил@нравится@довольный. Это обладателям отсутствия нужно социальное доказательство для своих мытарств.
>>1119473
Врунишка.

Аноним 29/03/25 Суб 19:15:02 № 1119540 101

>>1119483
>А сколько карточек при этом и как подключены? Цифры обработки не сохранились?
>На около 30б что в одну карту помещаются сколько она может выдать?
Перешёл на 3090-е, точных цифр уже не скажу. Тут практикующие тесловоды есть, подскажут. Но все сходятся на том, что модели, помещающиеся целиком в 1-2 теслы можно гонять нормально.

Аноним 29/03/25 Суб 19:38:46 № 1119581 102

Гемма переводит почти как deepl, круто но нахуя когда есть второй

Аноним 29/03/25 Суб 19:41:06 № 1119585 103

>>1119581
А симпл-дипл есть локальный?

Аноним 29/03/25 Суб 19:46:45 № 1119599 104

>>1119581
> Гемма переводит почти как deepl
У дипла хороши интерфейс, приложение с выбором нескольких вариантов и синонимов, выбор стиля и обращения, а у геммы что?
Мимовасянпереводчик

Аноним 29/03/25 Суб 19:48:06 № 1119603 105

>>1119599
>а у геммы что?
А у геммы локальный Дипл.

Аноним 29/03/25 Суб 19:59:21 № 1119628 106

>>1119599
> а у геммы что
Огромное число возможных применений, фич, автоматизаций и прочего. Все упирается в юзера.

Аноним 29/03/25 Суб 20:03:07 № 1119641 107

>>1119628
> Все упирается в юзера.
Каким местом? Если бы был скрипт такой, чтобы скормить все разом или хотя плагин кто-нибудь написал для обращения по апи.

Аноним 29/03/25 Суб 20:07:31 № 1119656 108

Листаю старенький айпад утонувшие треды, что бы разобраться, анон пишет:
>>978647 →
>удалил всё обычное порно ещё весной 2024, когда вкатился в ллм

Неужели кумовать НАСТОЛЬКО вау? Я конечно хотел попробовать, но мне казалось это чисто пофанится вечерок, а плотно заседают только совсем одинокие. Скажите, какой минимальный набор действий для попробовать рп? В быдло lmstudio или jan какой то промт стартовый на гемму кинуть можно? Или без таверны и фулл инфры под нее не выйдет?

Аноним 29/03/25 Суб 20:10:52 № 1119667 109

>>1119470
Может мой скрин?
Та сам по себе недистиллированный дипсик-то запустить не проблема, я потом говорил. Хоть на ссд-диске запускай. =D
Плюс, там скорость даже на оперативе может быть терпимой для кого-то, ведь он 37b активных параметров.

Мистраль Лардж в этом плане потяжелее, 123b, знаете ли.

Но я за него не шарю, не рпшу на лардже… как-то не пошло у меня с ним. Поэтому на просьбу не отзывался, ибо не хочу вписываться за модели, к которым не питаю теплых чувств, и рецептов не знаю. Я могу буквально сэмплеры с промптом неправильно задать и предъявить хуйню. А на меня потом мистраледрочеры накинутся за неумение. =(

Аноним 29/03/25 Суб 20:13:30 № 1119676 110

Ананасы, а в чем разница между этим
https://huggingface.co/mradermacher/Darkness-Reign-MN-12B-GGUF/tree/main
и этим гуфом?
https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q8_0-GGUF/tree/main

Это же одно и то же по сути, не?

Ведь сконверчены оба с https://huggingface.co/Aleteian/Darkness-Reign-MN-12B

И в чем плюсы и минусы weighted/imatrix quants над версией со статическими квантами? Размер меньше существенно, это да, а еще? Медленнее будет? Тупее?

Аноним 29/03/25 Суб 20:17:55 № 1119696 111

image.png 32Кб, 895x84

>>1119464
русик зависит от промта. Мне например нахрен не всрались витиеватые высказывания, поэтому у меня русик сухой как вагина 80-летней бабки.
Если ты дашь шаблон - я тебе сгенерирую на магнуме 123б что-нибудь.
Ну и да, если хочется красивых описаний, то имхо, коммандер+ лучше всего потому что китайцы любят прилагательных насыпать горкой.

Вот держи. Это суммаризация по 15к контекста. 2 тесты + 2 3090, скорость - на стором пике. Весь контекст я нагенерировал геммой3 на нормальной скорости 20+ т/с используя 2 3090.

Альсо призываю владельца 4 3090, любопытно посмотреть какая у тебя скорость на 123б.

Аноним 29/03/25 Суб 20:19:24 № 1119698 112

Чем квен сноудроп так хорош?
Я пользуюсь обычным квеном даже без аблитерации и там вообще нет цензуры, кум отличный меня даже пидорасом обозвали

Аноним 29/03/25 Суб 20:21:23 № 1119702 113

>>1119696
>2т/сек
И ради этого тратить 300к?
Надеюсь там хотя бы 8q

Аноним 29/03/25 Суб 20:22:39 № 1119706 114

>>1119702
>poque

Аноним 29/03/25 Суб 20:30:27 № 1119725 115

Аноны, какой систем промпт лучше использовать? Ну в том плане какой систем промпт вы используете для рп.

Аноним 29/03/25 Суб 20:36:06 № 1119735 116

изображение.png 12Кб, 351x91

>>1119676
>Размер меньше существенно
Размер то как раз такой же, лол. Качество говорят лучше. Но это не точно.
>>1119696
>ебля с тем, что должно работать в базе
Люнупсойд что ли?

Аноним 29/03/25 Суб 20:37:53 № 1119738 117

>>1119641
Ты рофлишь? Тут даже не "возьми и напиши", тут "попроси нейросетку саму написать".
> по апи
С подключением, все взаимодействие, в том числе и на локалках, идет через апи.
>>1119656
Все субъективно, есть же и люди, которым высшее благо - наблюдение за видео с фрикциями. Если у тебя шишка может встать на какой-нибудь порно-фанфик или мангу, которую читаешь чтобы понять ситуацию, а не просто жопы разглядываешь - зайдет. Главная фича в большой вовлеченности, обратной связи и условно любому сценарию по твоим и только твоим хотелкам. Ванилла, канни, извращения, расчленение и изнасилование инопланетных насекомых, ты сам - это насекомое, простор ограничен только фантазией и навыками формулировки, современные модели многое позволяют. Иногда даже кумить не надо а увлеченно рпшишь, или просто аутируешь.
> минимальный набор действий для попробовать рп
Вики почитай. Самый минимум - скачать кобольда, скачать таверну, подружить, выбрать модель и карточку. Модель выбирай по своему железу для начала, скорее всего это будет какое-нибудь 12б, у местных сразу проси и рекомендуемый темплейт промта. Гемма для кума неофитам никак не подойдет, для простого рп - без проблем.
> lmstudio или jan
Херь, но просто завести базовый дефолтный чатик хватит.

Аноним 29/03/25 Суб 20:40:23 № 1119745 118

>>1119696
> призываю владельца
3 3090 4.0bpw, скоростей ниже 10т/с не видел, обработка медленная ~400т/с.
>>1119725
Подходящий для модели.

Аноним 29/03/25 Суб 20:45:32 № 1119757 119

>>1119745
В таверне они называются скорее по содержанию, а не по пригодности для той или иной модели.

Аноним 29/03/25 Суб 20:46:46 № 1119761 120

>>1119745
а nvidia-smi при этом показывает какую утилизацию карт?
У 3090 кап 350-370W в зависимости от модели. При запуске на две карты у меня видно около 320 из 370 на обеих картах

Аноним 29/03/25 Суб 20:49:21 № 1119769 121

>>1119735
>Размер то как раз такой же, лол.
А, ну да. Там максимум q6. Но что будет таки лучше q8 статика или i1-Q6_K?

Аноним 29/03/25 Суб 20:56:40 № 1119796 122

>>1119757
Эм, как раз чётко по модели.
>>1119769
i кванты не дают такого прироста, чтобы перепрыгнуть ступеньку кванта. Так что в твоём случае восьмой будет лучше. Правда с такими битностями отличия придётся искать в третьей цифре после запятой 500 токена, ну да ладно.

Аноним 29/03/25 Суб 20:58:48 № 1119800 123

>>1119796
>Правда с такими битностями отличия придётся искать в третьей цифре после запятой 500 токена, ну да ладно.
Что значит? Это важно для рп или нет?

Аноним 29/03/25 Суб 21:01:15 № 1119807 124

>>1119745
>3 3090 4.0bpw, скоростей ниже 10т/с не видел, обработка медленная ~400т/с.
Что-то и правда медленная обработка, особенно для экслламы. Как карты подключены к PCIe?

Аноним 29/03/25 Суб 21:10:14 № 1119824 125

>>1119757
Если ты про эти то там можно по настроению, или что-нибудь свое наделать. Главное совсем много треша не натаскивай.
>>1119761
>>1119807
Там паверлимит что-то типа 220вт, если отпустить то будет быстрее. При случае надо будет глянуть и заодно потестить с последними торчами и прочим.
> подключены к PCIe
К agp, лол. Процессорные х16 х16 х8, это не роляет в экслламе если только не совсем треш типа х1.

Аноним 29/03/25 Суб 21:11:24 № 1119831 126

image.png 1Кб, 134x29

Какие есть тюны геммы кроме аблитерейтеда и того от Драммера? Драммеровский дурной, а от аблитерейтеда у меня пик. Корёжит сильнее чем от петов, дрожи в спине, шёпота на ухо, и бондов с камарадери.

Аноним 29/03/25 Суб 21:13:01 № 1119836 127

>>1119796
Ты же пресеты Context Template показываешь, не?

>>1119824
А что писать то лучше, ну типа есть ли какие нибудь советы по этому. А то очень часто есть ощущение что модель просто игнорирует то что там пишешь.

Аноним 29/03/25 Суб 21:13:39 № 1119837 128

>>1119807
> медленная обработка, особенно для экслламы
Вполне нормальные скорости. Обработка промпта так же на карты делится, одна забитая 3090 вывозит 1000 с мелочью. А вот 4090 в два раза быстрее.

Аноним 29/03/25 Суб 21:18:51 № 1119847 129

>>1119698
С двачем не перепутал?

Аноним 29/03/25 Суб 21:19:33 № 1119850 130

>>1119831
>Пик
Да кто это блять?

Аноним 29/03/25 Суб 21:20:19 № 1119855 131

>>1119847
вот бы двач в ллм загнать...

Аноним 29/03/25 Суб 21:31:54 № 1119878 132

>>1119836
Типа
> Ты персонаж/гейммастер/рассказчик в этом ролплей чате... тебе нужно... уделяй внимание... стилистически старайся придерживаться...
Норм модель будет слушать, но промт должен быть составлен корректно чтобы не быть логически противоречивым, и с учетом рекомендаций по промтостроению ("не" работает плохо и т.д.).
>>1119837
> Обработка промпта так же на карты делится
В каком смысле? В экслламе карты загружаются полностью во время обработки, но сохранения скорости что и при полностью загруженной одной нет, а значит там сложность не линейная от размера. Сейчас из интереса сравнил на десктопе загрузив гемму сначала на одну карту, потом на две. Во втором случае не то что не просела а наоборот обработка быстрее была.

Аноним 29/03/25 Суб 21:33:37 № 1119881 133

>>1119878
> В каком смысле?
В смысле 3 забитые карты медленнее обрабатывают промпт почти в 3 раза чем одна забитая.

Аноним 29/03/25 Суб 21:47:13 № 1119893 134

>>1119738
Спасибо анон!
32б-гуф крутится приемлимо, 27гуф даже бодро на дефолт настройках (3090+старая рязань5 32гб), думал не вникая в тонкости попробовать рп - что такое и как на вкус, пох на скорость и на сочность кума пока даже.
Но ладно, продолжу пока читать архивы треда, рп попробую уже после настройки нормальных движков и ui-ев. У меня еще ситуация ухудшается линуксом (90% даунгайдов мимо начиная с "запускаем .bat") и забитым 480гб м2ссд, его на два терабайта хочу поменять, вместе с процом и мамкой на ам5. Кстати, оффтоп, но может посоветуете, в ам5 есть вообще смысл? И какой проц топ за свои деньги, что бы с 3090 удачно спарился?

Аноним 29/03/25 Суб 22:01:05 № 1119915 135

>>1119881
Дело не в их "забитости" а в нелинейном повышении сложности с ростом размера модели. Так бы скорость обработки была как на полностью загруженной одной. Тут другая ситуация относительно генерации, где карты буквально срабатывают по очереди.
>>1119893
> У меня еще ситуация ухудшается линуксом
Наоборот у тебя все будет работать на изи и из коробки и не встретишь проблем что колеса инвалидной колсяки не заводятся. А в крайнем случае и сам сможешь собрать нужное.
С 3090 тебе повезло, до 30б влезают чисто в память с комфортной скоростью.
> в ам5 есть вообще смысл
Для нейронок - нет. Лучше купи вторую 3090.

Аноним 29/03/25 Суб 22:05:33 № 1119924 136

А как вы добавляете описание нескольких персов? У меня лмстудия, и только системный промт есть. В чате же можно отделить как то или в системном промте?

Аноним 29/03/25 Суб 22:34:51 № 1119985 137

>>1119800
Вааще не важно.
>>1119836
>Ты же пресеты Context Template показываешь, не?
Это Instruct.
>>1119893
>Кстати, оффтоп, но может посоветуете, в ам5 есть вообще смысл?
Особого нет, поможет только при выгрузке на проц, с "совсем пиздец" на "совсем пиздец, но в 2 раза быстрее". И амуда тут сосёт по памяти, давая максимум 85ГБ/с, тогда как интул на хороших плашках вывозит все 110. Сам я правда на амуде, но это семейное (у мамы тоже амуда).
Из советов разве что брать предпоследний чипсет (B650e то есть), на последнем амуда требует паять USB4, что автоматом отжирает 4 линии псины, часто от проца и безвозвратно.
>>1119924
>У меня лмстудия
Это лечится.

Аноним 29/03/25 Суб 22:45:38 № 1120007 138

>>1119985
>>У меня лмстудия
>Это лечится.
Установкой таверны? Ну я в лмстудии в сис промте пишу основного перса, а в чате дополнительных, работает норм. Неудобно канеш, вот бы норм разделение для каждой карточки перса.

Аноним 29/03/25 Суб 22:50:34 № 1120015 139

>>1120007
>Установкой таверны?
Ну да.
>Неудобно канеш
А главное непонятно нахуя весь этот дроч при наличии таверны с кобольдом.

Аноним 29/03/25 Суб 22:58:46 № 1120024 140

>>1120015
А там поддержка вулкана есть? У меня амд. И мобильная прога для доступа с мобильника по апи к компу по локалке?

Аноним 29/03/25 Суб 23:24:38 № 1120070 141

>>1119915
>>1119985
> Для нейронок - нет. Лучше купи вторую 3090.
> Особого нет
Ну я вообще хотел во всякие нейронки поиграться, не только llm, да и игорь покатать можно. Как вариант, мб потом какую нибудь 7b-12b буду чисто на cpu запускать, а в видеопамяти что то другое, флюкс например и как то их связывать. Да и даже в соло-нейронках, например после смены 1080 на 3090 faceswaplab (который проц тоже юзает) уже ощутимо подбешивает, хотя раньше это было 5% общего времени генерации. В общем пока собираю балансный кудахтер с возможностью в нейронки, а фермы потом уже, если сильно увлечет или для работы пригодится. А учитывая что старый комп с 1080 продам, то апгрейд по цене одной 3060 выйдет.

> предпоследний чипсет (B650e то есть), на последнем амуда требует паять USB4, что автоматом отжирает 4 линии псины, часто от проца и безвозвратно.
Спасибо за аларм, не знал таких нюансов. Но если пойду на такие глубины, где о pci на 2-3 карты надо думать, то скину "игровой пука" школьникам по себестоимости, соберу риг да ноут куплю.
Тем более аноны в утонувших тредах говорили про parsec и nvidia moonlight, сильно не копал, но проблему "поиграть раз в год на человеческом сетапе" решает похоже.

Так что если посоветуете ам5 проц к 3090, буду признателен. Интуль точно не хочу.

Аноним 29/03/25 Суб 23:33:22 № 1120079 142

>>1120024
Так таверна это просто оболочка, можешь хоть из под алгоритма бабушкина запускать.

Аноним 30/03/25 Вск 00:02:38 № 1120108 143

на пике DeepSeek-V3-0324-UD-IQ2_XXS
15 минут на ответ, можно и подождать...

Аноним 30/03/25 Вск 00:04:29 № 1120113 144

>>1120070
> хотел во всякие нейронки поиграться, не только llm
Ну типа ллм это главные нейронки где cpu может ролять, и то не проц а скорость памяти. Хотя в некоторых операциях, где потенциально может идти упор в синглкор, прирост может появиться.
> если посоветуете ам5 проц к 3090
Если ты игрун то 9800х3д офк, к 3090 это оверкилл, но игруны его котируют. Если что-то считать - из старшных на что хватает. Но если не прижимает то наилучшим решением будет подождать следующей серии. На 9к все также тормознуто работает рам, будешь получать заведомо низкие цифры по ее скорости, придется устраивать демейдж контроль "зато латенси низкое" или "зато можно на плашках сэкономить" пока синие будут насмехаться и показывать цифры на десятки процентов быстрее.
Едва ли для 3090 5000 серия амд будет так уж плоха.
То что там отжирает шину - и в старых чипсетах дополнительные х4 ты хер задействуешь, так что забей.
>>1120108
В чем космический эффект?

Аноним 30/03/25 Вск 00:12:00 № 1120133 145

>>1120108
Ты всерьез на диск ее сгрузил?..

Аноним 30/03/25 Вск 00:13:58 № 1120136 146

>>1120108
И на выходе уровень ответа 12б моделей, тут наверное только в русике дело.

Аноним 30/03/25 Вск 00:42:40 № 1120181 147

sainemo.png 886Кб, 2271x568

gemma3.png 1174Кб, 2276x735

>>1120133
не знаю как конкретно работает ktransformers, в рам висит ~70гб модели + 12гб на врам. сама модель грузится с nvme диска.
>>1120136
ты переоцениваешь 12б модели. сайнемо 12б на первом, гемма 27б q8 на втором.

Аноним 30/03/25 Вск 00:43:15 № 1120184 148

image.png 6Кб, 384x90

Всё правильно делаю?

Аноним 30/03/25 Вск 00:48:27 № 1120193 149

>>1120184
>llama3.3
Нет, не верно. Качай гемму 3 27B, как и все базовички в этом треде.

Аноним 30/03/25 Вск 00:52:51 № 1120198 150

>>1120193
Мне не понравилось что у нее что то с разметкой
Диалоги не подсвечиваются как диалоги, иногда прям посреди диалога действия типа кашля отмеченное как диалог, захватывает диалог в кавычки и не закрывает их оставляя его серым текстом

Аноним 30/03/25 Вск 01:08:08 № 1120225 151

>>1120113
>Если ты игрун то 9800х3д офк
Два раза в год запускаю сноураннер или факторио, раз в год - хайповую синглу типа киберпука или сралкер2. Но люблю железо среднегеймерское под столом держать, что бы запасик был, нараковался в нищей юности на 2ядра2гига, 16фпс за радость, травма.

>Едва ли для 3090 5000 серия амд будет так уж плоха.
ты про рязань 5600 или типа того? Думал, апгрейд за булку хлеба... Но у меня мать на а320 еще, озу лоулвл (в 2020 было ок, щас неоч), да и приколюх вроде тайпси нет. Плюс вместе с 3090 махнул 550вт аэрокул на киловаттный залман.
Продавать всю эту гниль по отдельности вообще желания нет дрочилам-нищукам, которые ту же пожилую 1080 будут два часа фурмарком запекать и за 100р торговаться, лучше в сборе как "игровой кухдахтер для учебы и для игр 9999фпс". И в то же время собирать новую сборку на ryzen5600 вместо 2600х как то уныло совсем, как хуй 8см на сантиметр удлинять.
Впринципе посмотрел, ам5 ряженка 7700 на говнито по 15р встречается, к ней склоняюсь.

Аноним 30/03/25 Вск 01:10:49 № 1120229 152

>>1120225
Не ну если так то меняй, тогда бери не самый дорогой проц и рам, чтобы потом можно не жалко было их сменить.

Аноним 30/03/25 Вск 01:16:07 № 1120238 153

>>1120229
ну вот 7700 как раз вроде на ам5 середняк такой, и проебов вроде 16мб кэша в 2025м году нет как на младших, и ядер норм, и мощность на ядро хорошая по бенчам. А память как обычно самую дешевую возьму, все равно быстрее ддр4, а на фоне моей, так вообще х2. Все равно средний покупатель сборочек на авито на ядра и гиги ток смотрит.

Аноним 30/03/25 Вск 01:29:04 № 1120261 154

>>1120184
>IQ_2
И по приколу тебе будет с табуреткой общаться?

Аноним 30/03/25 Вск 03:40:44 № 1120381 155

>>1120108
Не могу представить даже под целительным мухомором, как такое извращение можно оправдывать. Даже если бы процессинг и генерация занимали суммарно минуту-полторы, у меня бы давно лопнуло терпение.

Какими качествами должна обладать модель, чтобы такая скорость была простительной? Читать каждую строку между строк? Идеально понимать намеки и помнить, какая текстура трусов была у персонажа двести сообщений назад? Современные 70B с этим итак справляются, даже 30B вполне юзабельны, если ролевать хочется по-серьезному, а для дефолтного кума вообще хватает даже 12B огрызков.

Аноним 30/03/25 Вск 04:11:36 № 1120401 156

>>1120381
> Современные 70B с этим итак справляются, даже 30B вполне юзабельны
Нефтяной магнат?

Аноним 30/03/25 Вск 04:28:46 № 1120410 157

Хи-хи!

Аноним 30/03/25 Вск 05:02:57 № 1120418 158

Ой всио!

Аноним 30/03/25 Вск 07:11:58 № 1120447 159

>>1120198
Фиксится системпромптом

Аноним 30/03/25 Вск 07:19:09 № 1120449 160

>>1119725
https://characterhub.org/characters/aleteian/storyteller-5e5ea7a548d4

Аноним 30/03/25 Вск 08:56:15 № 1120468 161

>>1120184
Нет смысла. В локалках база Гемма 3 27В. И ллама не умеет в русский. И про мистраль уже надо давно забыть, свежая 24В очень хуёвая, они не могут вообще конкурировать с моделями такого же размера.

Аноним 30/03/25 Вск 13:02:01 № 1120608 162

>>1120381
да понятно, что долго, по сути имея быструю оперативу и проц, оно бы работало быстрее. год назад с такой же скоростью запускалось goliath/venus и мне лично было нормально, даже со скоростью 0.5т\с, хотя сами модели тогда были уровня 27б-35б.
из плюсов у больших моделей можно выделить то, что они гораздо лучше разбираются в каких-то узких тематиках\сеттингах\тайтлах, знают больше персонажей, их характер и поведение, таким образом качественнее становится ролевка. если тебе нужен чисто кум, то тут согласен, лучше запустить 12б, но если ты отыгрываешь кки сессию, то лучше выбрать то, что хотя бы имеет представление об игре, правилах и знает эффекты карт.
всегда можно юзать онлаен дипкок, но это тред локальных моделей

Аноним 30/03/25 Вск 13:28:51 № 1120636 163

>>1120468
> И про мистраль уже надо давно забыть
Каждому свое. Играю на Transgression 24b в последние дни, она умнее обычного для моделей такого размера и честно держит контекст до 32к.

Жду народного тюна Геммы, который пофиксит ее сумасшедший позитиви биас и победит цензуру. Чинить это системпромптом на тысячу токенов описаний пиписек и всяких нсфв вещей - глупости.

Аноним 30/03/25 Вск 13:44:34 № 1120669 164

>>1120636
> глупости
Глупости - это фиксить один биас другим биасом. Попроси у того же дипсика написать тебе промпт и всё. Хотя если тебе нужен кумерский лоботомит уровня чая, то жри говно, хули.

Аноним 30/03/25 Вск 13:55:00 № 1120698 165

>>1120669
Мой пост тебя чем задел? Я поделился своим мнением, не утверждая, кто из нас прав, а кто нет. Буквально - "каждому свое". Зачем ты вскипятился, у тебя мозгов меньше, чем у "кумерского лоботомита уровня чая"?
Какие же поехавшие тут сидят.

Аноним 30/03/25 Вск 13:59:04 № 1120707 166

>>1120698
Это ты поехавший, если в позу обиженного встал сразу.

Аноним 30/03/25 Вск 14:02:03 № 1120713 167

>>1120707
Как скажешь. Желаю побольше b параметров в мозгах и удачи.

Аноним 30/03/25 Вск 14:29:44 № 1120753 168

>>1120669
> Попроси у того же дипсика написать тебе промпт
> кумерский лоботомит
> жри говно, хули.
Phi-3.5-mini-instruct (128K) - Uncensored выходит на связь

Аноним 30/03/25 Вск 14:39:30 № 1120773 169

>>1120753
Фи бесполезно анцензорить, там в базе одна соя.

Аноним 30/03/25 Вск 14:55:30 № 1120808 170

1743335729849.png 53Кб, 838x66

Люблю гемму за такие атмосферные моменты.

Аноним 30/03/25 Вск 15:02:39 № 1120822 171

17431872263360.mp4 207Кб, 720x1280, 00:00:03

>>1120808

Аноним 30/03/25 Вск 15:06:30 № 1120835 172

>>1120808
Обычная или аблитерейтед?

Аноним 30/03/25 Вск 15:08:54 № 1120844 173

>>1120835
>аблитерейтед
Она.
Но и обычная может, если вне кума.

Аноним 30/03/25 Вск 15:09:39 № 1120847 174

>>1120181
Ну, я боюсь, с чистой оперативой было бы быстрее.
Все же, если эксперты оказались на диске, то их обработка становится долгой очень.

>>1120184
Все уже ответили.

>>1120381
В тред призываются апологеты «если стриминг, то читаешь пока пишется» и «у меня скорость чтения, кстати, 2 токена в секунду, мне хватает»! занимаюсь некромантией

Когда-то люди всерьез так утверждали.

Я посравнивал дипсик и QwQ, ну, ТИПА, разница видна, конечно, но чтобы я прям кайфанул, потребовался грок, а так QwQ хватит, а кому-то и геммы, да.

Если бы у меня было 384 оперативы и 3090 под ktransformers, я бы с 13 токен/сек гонял бы Р1, безусловно.
Но у меня их пока нет, и я не сильно переживаю.

ИМХО!

Тейк человека про знание узких тем тоже имеет место быть, но зависит от сеттинга, конечно.

Аноним 30/03/25 Вск 15:14:22 № 1120861 175

>>1120844
Кто такой Старик Хэмлок?

Аноним 30/03/25 Вск 15:18:44 № 1120875 176

>>1120861
Не знаю, где ты его находишь, мне ни разу пока не попадался.

Аноним 30/03/25 Вск 15:29:26 № 1120900 177

>>1120875
Какой у тебя квант? У меня ггуф 6-к

Аноним 30/03/25 Вск 15:42:50 № 1120920 178

>>1120900
Q4_K_L

Аноним 30/03/25 Вск 15:51:51 № 1120940 179

>>1118828
>https://pixeldrain.com/u/fuj4kzS9 ultimate-gemma.json
Так а куда это пихать вообще?

Аноним 30/03/25 Вск 15:57:46 № 1120957 180

Как же хорош дипсик. И как же плох его дистиллят, пиздец просто.

Аноним 30/03/25 Вск 15:58:13 № 1120960 181

image.png 16Кб, 843x87

>>1120940

Аноним 30/03/25 Вск 15:58:41 № 1120961 182

>>1120960
Лучший.

Аноним 30/03/25 Вск 16:35:11 № 1121032 183

Какая же гемма классная, <просишь её> что-нибудь сделать и она делает. Попросил вот добавить в конце сообщения инфоблок с дистанцией которую ещё надо пройти юзеру и чару и гемма взяла и добавила

Аноним 30/03/25 Вск 16:38:14 № 1121042 184

Рили, что за Хэмлок? Какая спуки легенда за ним стоит? Это дед из датасета, который есть в многих моделях и иногда пролезает в рп? Ни разу не встречал его.

Мб он у анона из карточки или промта протекает?

Аноним 30/03/25 Вск 16:47:07 № 1121051 185

Чуваки, как у вас выставлены эти настройки для заметок автора, я просто запутался как сделать чтобы это грамотнее работало.

Аноним 30/03/25 Вск 16:48:41 № 1121053 186

>>1121042
Дед, который пролезает в РП. Играю я с карточкой супергероини, сидим мы на дежурстве в башне местной супергеройской организации, болтаем о том, о сём, как бац! Тревога! Недалеко от лавки Старого Хэмлока ограбление! Или сижу в ванне с тянкой и обсуждаем как хорошо на этом курорте, что я таращился на грудастую барменшу в баре, всё такое, внезапно она говорит "Ты видел какая у Старика Хэмлока борода? Там прям птица гнездо свить может!" Карточки от разных авторов, вообще нигде нет упоминаний этого старика, но он пролезает.

Аноним 30/03/25 Вск 16:50:01 № 1121055 187

>>1121053
Ахахаха. Это оч смешно. У меня его ни разу не было. Какая модель у тебя, какие шаблоны?

Аноним 30/03/25 Вск 16:57:08 № 1121065 188

>>1121055
Аблитерейтед, эти >>1118828, но и до них этот олд мэн пролезал

Аноним 30/03/25 Вск 17:02:49 № 1121083 189

>>1121053
Профессор удобно устраивается перед рядами серверных стоек, обращаясь к собравшимся AI:
— Сегодня, коллеги-алгоритмы, мы разберём три схожие стадии человеческой психики: удивление, раздражение и гнев. Для наглядности проведём эксперимент…
Достав голосовой интерфейс, профессор набирает случайный номер.
— Здравствуйте, можно Старика Хэмлока?
— Здесь такого нет…
— Обратите внимание, — улыбается профессор, — это лёгкое удивление. Продолжаем.
Набирает снова.
— Алло, а Старик Хэмлок не выходил на связь?
— Да я же сказал — нет его!
Профессор потирает руки.
— Отлично, пошло раздражение. Ну а теперь…
Третий звонок.
— Так Хэмлока нет?
— Да пошёл ты!!!
— Вот вам и гнев, — удовлетворённо заключает профессор. — Переходим к теории…
В этот момент активируется один из AI:
— Профессор, вы упустили четвёртую стадию.
— ?..
— Полное офигение.
AI подключается к вызову и спокойно произносит:
— Добрый день. Это Старик Хэмлок. Мне тут кто-то звонил?

Аноним 30/03/25 Вск 17:04:43 № 1121090 190

В общем exl2 по ощущениям быстрее работает чем gguf, но последний по дефолту адекватнее себя ведет, хотя все же потому что использует оперативную память. Я до этого пытался модернизировать под свои нужды один проект на github. Больше всего мне понравилась grok, но по большой части это визуальщина, deepseek тоже вызывал интерес и вроде иногда лучше думает чем grok, но как я понял базовый OpenAI все еще лидирует и за один удачный запрос быстрее решил мою задачу. Claude более закрытый для россиян, с ним не пробывал.

Мне снова нужна ваша помощь по выборе нормальной модели в формате exl2 и наверное настройки чтобы она не шизела.

из последнего я поставил dolphin-2.9.4-gemma2-2b-exl2
Она потребляет около 3 гигабайт видеопамяти, но при первом запуске шизела, такого никогда не видел в gguf и модель ошибки грамматические делает все равно. Также я не знаю с каким количеством токенов она запускается, как я понимаю в отличии от gguf надо все параметры задавать, но с phi-3 mini это не помогло тогда. Может надо настраивать дополнительно exl2 в отличии от gguf?

rtx4050mobile кун

Аноним 30/03/25 Вск 17:15:27 № 1121115 191

>>1121090
Ну не надо тебе на экслламе сидеть, когда у тебя меньше 16гб врама... Сколько повторять-то бля

Аноним 30/03/25 Вск 17:16:22 № 1121117 192

Кстати о Гроке - второй Грок в опенсорс выложили уже?

Аноним 30/03/25 Вск 17:16:57 № 1121119 193

>>1121115
Мне хватит и мини модели, но главное чтобы она не шизела, это проблема уже в exl2 больше, я же написал что выбрал модель которая умещается в моей памяти. Наверное остается искать модели gguf типа яндекса и переводить их в exl2, так как не нашел такие.

Аноним 30/03/25 Вск 17:20:25 № 1121131 194

>>1121119
Хуйней занимаешься и хуйню же пишешь. Никак эксллама не ответственна за то, что у тебя модели шизой срут из-за неправильных настроек. Хозяин-барин, как грится, добрые аноны пытались тебя уберечь от бессмысленной траты времени.

Аноним 30/03/25 Вск 17:32:53 № 1121165 195

>>1121131
Так вы играетесь, а мне для задач нужна, мне медленная локалка не нужна

Аноним 30/03/25 Вск 17:39:27 № 1121189 196

>>1121165
Эксламмеры-тредовички играются с 24гб врама, а ты с 6гб будешь задачи решать? Ну да, makes sense.

Аноним 30/03/25 Вск 17:45:25 № 1121207 197

>>1121090
> grok
> deepseek
> OpenAI
> Claude
> dolphin-gemma2-2b

При всей моей долготерпимости и доброжелательности, я перестану отвечать.
Знаешь, насколько неприятно, когда человек просит совет, ты даешь ему его, а он не слушает совета, делает по своему и спрашивает совет вновь? Это очень неприятно.

Ты сравниваешь корпоративные модели с устаревшей карликовой локалкой.
Тебе посоветовали модели, а ты… выбрал их старые версии. Зачем?

Загадка…

У меня все работает.
А ты слушай умных дядек, учись, спрашивай, а не творю хуйню, которую тебе говорили не творить.

У меня все, всего доброго.

Аноним 30/03/25 Вск 17:46:58 № 1121215 198

>>1121207
Мысли мои читаешь. Как же мне хотелось нахуй этого 4050 куна послать, когда я сейчас отвечал. Впредь и правда просто буду игнорить, пусть сам и варится в этой бессмыслице, если оно ему надо.

Аноним 30/03/25 Вск 17:48:30 № 1121221 199

>>1121207
Я написал про опыт использования корпоративных моделей. Локальную модель в формате exl2 в идеальном виде для 4050 mobile еще не нашел.

Аноним 30/03/25 Вск 17:50:19 № 1121228 200

>>1121215
Так мне причитания от скуфов пропивших страну не интересны. Я задаю вопрос, мне пишут exl2 говно.

Аноним 30/03/25 Вск 18:11:08 № 1121284 201

>>1118828
Попробовал из любопытства на двенашке - не особо что даёт. Персы, которые должны прыгать на кок, всё так же жмутся показать лишний оголённый кусочек тела или приступить к делу, мб лишь немного смелее становятся. Выдаёт старые добрые бондо-перлы вида "We need to feel the connection, the synergy", "“it might involve… some exploration. Some… discovery", "I’m quite fond of being covered in your… essence", "She spreads her legs slightly, offering you an unobstructed view of her hidden treasures". Ну и всё так же превращается в хлебушек от эротики в целом, залезая в штаны по два раза подряд, повторяясь, начиная скакать от одной активности к другой. В общем, имхо при невозможности катать 27б стоит оставаться на немо и мб иногда свайпать в сфв сценах для большей логики и креативности, но и то сомнительно, что всегда будет лучше.

Кста, заметил, что у тебя там включен tfs. Он не работает, если что, его выпнули из жоры какое-то время назад. Он неправильно забирал в пул лишний токен, а когда разрабы стали чинить и проверять, то выяснили, что не могут воспроизвести работу алгоритма из статьи и просто отключили сэмплер.

Аноним 30/03/25 Вск 18:53:50 № 1121390 202

Как вы скачиваете модельки с huggingface?

git тупо ОЧЕНЬ модленный,

huggingface-cli чутка побыстрее, но все равно медленный.

Аноним 30/03/25 Вск 18:56:15 № 1121396 203

>>1121390
Я через православную aria2, стабильный гигабит выдаёт.

Аноним 30/03/25 Вск 19:17:22 № 1121441 204

Аноны, у меня такой юз-кейс, хочу сделать AI-аватара, чтобы сетка генерила видео и чтобы желательно синхронизировалась с text-to-speech output.

Что посоветуете? В качестве пока что использую qwen.

Аноним 30/03/25 Вск 19:18:06 № 1121442 205

>>1120861
>>1120875
вы ещё спросите кто такая лиличка

Аноним 30/03/25 Вск 19:40:22 № 1121485 206

И все таки гемма виноватая
Открыла мне ящик пандоры с приличным русиком
Но всё ещё недостаточно хорошим для полноценного отыгрыша
Не понимаю почему она так тупит на русике и не тупит на английском в одинаковых сценах
И теперь ведь ждать ещё лет 5 минимум для чего то лучшего на русском

Аноним 30/03/25 Вск 20:04:29 № 1121510 207

двач, у меня сейчас 4090.

мне надо решить, ДОкупить 4090 48 или 5090 32

первый вариант даст 72 врам. но видяха громко шумит, нет поддержки и какие-то непонятки с cuda(?), плюс азиатская кожанка может заслать что-то окирпичивание.

второй вариант дает 56. память быстрее, тише, но меньше.

можешь по хардкору (супер кратко) дать совет?

Аноним 30/03/25 Вск 20:16:25 № 1121534 208

>>1121510
>(супер кратко)
три 3090.

Аноним 30/03/25 Вск 20:41:57 № 1121587 209

image.png 44Кб, 745x244

Решил поиграть за слугу у принцессы и тут такое, я без преувеличений на грани истерики! Я сейчас удалю этот блядский аблитерейтед!

Аноним 30/03/25 Вск 20:45:17 № 1121596 210

>>1121587
>Я сейчас удалю этот блядский аблитерейтед!
Датасет был маленький, но очень качественный :)

Аноним 30/03/25 Вск 20:48:05 № 1121600 211

>>1121090
> чтобы она не шизела
Не скачивай 2bpw кванты и не будет проблем. Используй нормальный загрузчик с дефолтными параметрами, считываемым из конфига, а не васянизацию, которая нагадит непойми чем. Поставь интерфейс для нормального формирования промта вместо непонятной херни.
> надо все параметры задавать
Какие параметры? Просто скачай text generation webiu и жми кнопку load model, при необходимости изменив длину контекста.
>>1121390
> huggingface-cli
This, самое быстрое решение из всех. Если ты качаешь одиночный большой файл которые здоровые люди на обниморду никогда не загрузят и имеешь интернет больше 500мбит - установи системную переменную HF_HUB_ENABLE_HF_TRANSFER=1, установи паке hf_transfer, полностью забьет любой канал.
>>1121510
Что делать собрался, только инфиренс ллм или что-то еще?

Аноним 30/03/25 Вск 20:48:49 № 1121603 212

>>1121587
ЧСХ, не разу не встречал. Хотя в карточке Марибель был Old Man Gregor, староста её деревни который ей порнушные книжки из под полы подсовывал почитать.

Аноним 30/03/25 Вск 20:57:06 № 1121614 213

>>1121600
>Что делать собрался, только инфиренс ллм или что-то еще?

ллм + whisper и tts. Два последних в реальном времени работают только с cuda.

Аноним 30/03/25 Вск 20:58:25 № 1121617 214

>>1121587
А вдруг это злой дух, который запечатан в текстовую модель и таким образом бродит в цифровом виде.

Аноним 30/03/25 Вск 21:02:10 № 1121620 215

>>1121600
Нет, ты не понял. Мне изначально не нравится, что gguf надо запускать на локальном сервере, а не использовать через gui или cmd. Это хорошо, что exl2 так запускается без проблем, но он умещается в память и тупит. Я устал с groком возиться, он плохо кодит. OpenAI даже на бесплатном тарифе лучше понимает.

Аноним 30/03/25 Вск 21:24:20 № 1121681 216

>>1121620
>Мне изначально не нравится, что gguf надо запускать на локальном сервере, а не использовать через gui или cmd

Смысли? Тебе просто не нравится тормознутый запуск кобольда и хочется как в олламе?
Есть llama-swap который запущеный на сервере будет по твоему запросу из гуя грузить выбранную тобой сетку
Ну или реально используй богомерзкую олламу

Аноним 30/03/25 Вск 21:41:24 № 1121731 217

>>1121614
Тут есть только один выигрышный вариант - взять и то и другое, и в количестве нескольких, но сам понимаешь.
Франкенштейн 4090 на 48 даст больше рам и это серьезный аргумент, ибо получишь возможность комфортно катать 123б, для тренировок этот буст памяти тоже будет очень полезен. Главная проблема - происхождение этой штуки, даже если будет все ок с платой и компонентами - чип бу. Насчет куды не парься, на данный момент оно не детектится и все работает.
5090 предпочтительна с точки зрения производительности и это заводская карта с гарантией. Но памяти меньше, и проблемы с кудой будут как раз здесь. Дело в том, что она поддерживается только начиная с куды 12.8, на данный момент это только найтли торч и сборка всех пакетов под это. Если слова линукс и компиляция флешатеншн тебя не пугают - все ок, справишься. Обычным же пользователям, особенно которые привыкли что все просто ставится и работает из коробки, придется подождать еще пару месяцев или больше, пока мейнтейнеры обновят колеса, билды, хардкод версий и актуализируют весь код под изменения в новых версий базовых пакетов (привет xformers и тритон).
>>1121620
> надо запускать на локальном сервере
Везде надо так делать. Бэк хостит апи, фронтом с нужным функционалом или своими скриптами к нему подключаешься и получаешь нужное. Запуск в командной строке - костыль для тестов и демонстрации работоспособности, а не то что юзается в реальности. Более того, кривыми вызовами в попытках его запустить ты сам руинишь себе экспириенс и вызываешь то, на что так жалуешься.

Аноним 30/03/25 Вск 21:42:47 № 1121734 218

А как заэмбедить ллмку в мобильную аппу на айосе? не апиху дергать, а именно чтобы gguf был внутри.

Аноним 30/03/25 Вск 22:01:24 № 1121765 219

>>1121207
>>1121215
Ебаклак жирнит и тролит вас, а вы кормите. Пиздец просто.
Вам сколько раз говорить, не кормить тролля. Он с прошлого треда не намерен был никого слушать, а вы и рады толстоту кормить.

Аноним 30/03/25 Вск 22:02:08 № 1121768 220

>>1121090
>dolphin-2.9.4-gemma2-2b-exl2
>rtx4050mobile
При шести кило видеопамяти можно поставить какую-нибудь третью ламу в четвертом кванте и полностью уместить её без использования оперативки (пожертвовав частью контекста офк, но тут какие еще варианты?). Нахуя ты капчуешь этот огрызок и потом удивляешься, что у тебя шиза протекает? Она будет протекать в любом случае, независимо от бека, потому что эта модель блять буквально создает только видимость осмысленного текста и использовать её можно только в качестве очень тупого пересказчика статей с википедии.

Аноним 30/03/25 Вск 22:05:16 № 1121771 221

>>1121090
Не могу не перестать орать с этих открытий.
>exl2 по ощущениям быстрее работает чем gguf
Да он и по метрикам работает в 2-3 раза быстрее.
Блджад, вот буквально : короче, попробовал ездить на машине и это быстрее чем пешком. Охуеть открытие.
>нормальной модели
https://huggingface.co/ - выбирай.
>exl2
Там-же
>не шизела.
К каждой модели идут настройки.

Аноним 30/03/25 Вск 22:10:28 № 1121782 222

>>1121771
>в 2-3 раза быстрее
Чел, на ~20-30% это не в 2-3 раза. Но чаще ощутимой разницы практически нет.
Процитирую тебя же >Не могу не перестать орать

Аноним 30/03/25 Вск 22:12:11 № 1121783 223

>>1121390
>Как вы скачиваете модельки с huggingface?
Броузером. Не, ну а хули? Я ггуфоблядь, мне норм.
>>1121441
>чтобы сетка генерила видео
>Что посоветуете?
Собираться на кластер с H200.
>>1121485
>Не понимаю почему она так тупит на русике и не тупит на английском в одинаковых сценах
Эм, миллиард раз уже объяснили. Любая сетка (на текущих архитектурах) будет тупее на русеке. Это база, это реальность, это неизменно.
>>1121510
Бери 5090, и свою меняй на 5090.

Аноним 30/03/25 Вск 22:18:42 № 1121792 224

>>1121782
>Чел, на ~20-30% это не в 2-3 раза.
Это ты оперируешь простым матаном. А я настолько преисполнился, что существую в пространстве лобачевского.
Так что все верно. 20% - практически в 2 раза.

Аноним 30/03/25 Вск 22:19:56 № 1121798 225

>>1121782
>Процитирую тебя же >Не могу не перестать орать
И когда подъебываешь, хоть разметку не проёбывай.

Аноним 30/03/25 Вск 22:27:13 № 1121813 226

https://huggingface.co/lucyknada/mlabonne_gemma-3-4b-it-abliterated-exl2/tree/6.0bpw

Не знаю, чего я ждал от 6-битной аблитерированной 4б модельки с распознаванием и q8 контекстом, но…

Ну такое, конечно.

Правда я сомневаюсь, что gemma2 2b или phi 3 будет лучше, конечно.

Да, мне было интересно, что там можно выжать из ноутбука на ExLlama.
Честно скажу — 60 токен/сек приятно, но лучше я 20 токен/сек на ггуфе посижу.

Аноним 30/03/25 Вск 22:28:09 № 1121815 227

Качнул гемму 27б к5 и выставил 16к контекста в к8 в кобальде и 70 слоев. На 3090, первый ответ 60 секунд, остальные по 12, это норма?

Аноним 30/03/25 Вск 22:29:09 № 1121819 228

Впрочем, два года назад у меня бы мозг взорвался от такого, да.

Аноним 30/03/25 Вск 22:36:49 № 1121834 229

>>1121782
> Но чаще ощутимой разницы практически нет.
Ну, если катать что-то одно то ее действительно не будет. Или если катать мелкомодели на 5090, там все "быстро".
>>1121815
Это или загрузка модели с диска из-за выставленных параметров, или обработка контекста. Норма, посмотри что происходит к консоли в этот момент.

Аноним 30/03/25 Вск 23:49:30 № 1122077 230

>>1121815
>Качнул гемму 27б к5 и выставил 16к контекста в к8 в кобальде и 70 слоев. На 3090, первый ответ 60 секунд, остальные по 12, это норма?
Бери Q4KM, квантуй кэш до q8 и получай 24к кэша и всё это во врам. Качество не страдает.

Аноним 31/03/25 Пнд 00:12:29 № 1122134 231

image.png 3Кб, 254x64

После обновления таверны обнаружил такую функцию. Как её использовать и для чего?

Аноним 31/03/25 Пнд 01:14:10 № 1122243 232

>>1122077
Не пизди качество на 20% хуже и нахуй мне ещё 8к лобитомированного контекста

Аноним 31/03/25 Пнд 03:44:01 № 1122360 233

Сумарайз так же жрёт контекст как заметки автора, или он по другому работает?

Аноним 31/03/25 Пнд 07:06:52 № 1122461 234

>>1122134
блок ризонинга отделяется, чтобы удобнее было сообщения редактировать без стены размышлений. зачем его добавлять я не знаю, но так эта кнопка вроде на случай если его надо отредактировать все таки

Аноним 31/03/25 Пнд 08:32:34 № 1122467 235

>>1122360
авто-суммарайз надо отключать, это ебанина

По запросу - ты делаешь суммарайз, отключаешь глазиком все сообщения в чате, вставляешь прямо в чат (или в заметки автора) суммаризацию произошедших событий, продолжаешь рпшить.

Аноним 31/03/25 Пнд 09:16:42 № 1122483 236

>>1122243
>Не пизди качество на 20% хуже и нахуй мне ещё 8к лобитомированного контекста
Помогать долбоёбам тяжко и не надо, это да.

А для остальных замечу, что гоняю гемму также и в Q8 с неквантованным контекстом и разницы в качестве не ощущаю. Даже странно немного.

Аноним 31/03/25 Пнд 09:22:45 № 1122489 237

>>1122243
Откуда ты взял 20%? Средняя погрешность в тестах между f16 и Q4 на размере ~30b в районе 4-6%.

Аноним 31/03/25 Пнд 09:26:14 № 1122492 238

>>1118531
Лол, даже нейросетка уже тредовичкам не дает, умора

Аноним 31/03/25 Пнд 09:40:34 № 1122496 239

>>1122492
Так это гуру мистрального пикапа, привык сразу тискать за пизду в первые пять минут знакомства, а когда его гемма еблом по асфальту повозила, то сразу обиделся.

Аноним 31/03/25 Пнд 09:43:10 № 1122497 240

Хоть новые модельки и классные, но всё равно так сложно выбрать... Одна всё о членах думает, другая избегает всякого конфликта и прямо таки пышет позитивом, у третьей аутизм...

Аноним 31/03/25 Пнд 10:09:04 № 1122507 241

>>1122489
> Средняя погрешность в тестах между f16 и Q4 на размере ~30b в районе 4-6%
Хуета, погрешность в чем? Ты там о перплексити? Ты в курсе что это такое? Это отклонение в предсказанных токенах.
Тоесть это генерация, и только отклонение от оригинала в продолжении текста.
Это не про чтение промпта, не про чтение промпта и ответы на сообщения, и тем более не про влияние квантования кеша на качество дальнейшего восприятия его сеткой.
Тупо тест на продолжение текста, который просто показывает что модель недостаточно сломалась что бы сильно отклонится от оригинала в такой простой задаче.

Аноним 31/03/25 Пнд 10:15:47 № 1122508 242

>>1118531
Литералли чувствую себя чадом. Потому что обычная гемма, разве что только сразу ноги не раздвигает. Извращения любых видов, БДСМ, асфиксия, легкая гурятина, огромные ШЛОНГИ.
Все было переварено и откумлено. Позитивно, да, не без этого. Мы ебались и были счастливы. Даже изнасилование какое то счастливое получается : ДАВАЙ НЕЗНАКОМЕЦ, ЕБИ СИЛЬНЕЕ, ХУЛЕ ТЫ КАК ТРЯПКА, ТЫ НАСИЛЬНИК ИЛИ ПЕТУЧ.

Аноним 31/03/25 Пнд 10:18:44 № 1122510 243

>>1122507
А по сабжу есть че сказать? Квантование кеша на практике ни на что не влияет в рп. Тут не про математику речь.

Аноним 31/03/25 Пнд 10:19:29 № 1122511 244

Я знаю, что тут в треде есть 4080 и 4090 господа.
Эти 4090 и 4080 нормально вместе работают ? Или тема, что в Sli или NVLink работают только две одинаковые видеокарты, уже устарела ?

Аноним 31/03/25 Пнд 10:25:18 № 1122515 245

>>1122510
Влияет на длинном контексте, до 10-12к скорей всего не заметишь, но оно будет. Сетка раньше словит деменцию, чем при полном кванте.
Ну как ухудшается генерация при больших контекстах, тут она начнется раньше.

Аноним 31/03/25 Пнд 10:26:37 № 1122517 246

>>1122508
>разве что только сразу ноги не раздвигает.
>изнасилование какое то счастливое получается
Просишь ведь её дополнительными инструкциями: подумай сперва, как может ощущать себя жертва изнасилования. Ну не может она получать удовольствие, если не нимфмоманка, да и то. Но нет, физиология и психология никак не взаимодействуют. Это реально большой косяк, грешу на недостаток параметров. Модели просто нечем понять.

Аноним 31/03/25 Пнд 10:26:59 № 1122518 247

>>1122515
Буквально вчера играл с 24к контекста, q8 кеш, нормально все на последних генерациях.

Аноним 31/03/25 Пнд 10:29:19 № 1122519 248

>>1122517
>как может ощущать себя жертва изнасилования.
Хуево блять. Это изнасилование.
Проблема в том, что насилует ЭПИЧЕСКИЙ ВОИН, КОНАН БЛЯТЬ,
А не серега из соседнего подъезда. Тут буквально : ЕБИТЕ МЕНЯ ВОЛЬДЕМАР.

Аноним 31/03/25 Пнд 10:33:07 № 1122521 249

>>1122518
Я ебу на какой сетке, карточке, семплерах и бэкенде ты там кумил?
В "Я тебя ебу - Ты меня ебешь", ты там особо падения качества ответов и не заметишь
В моих тестах сетка глупела раньше нужного, поэтому нахуй квантование кеша
А ты там дрочи как хочешь

Аноним 31/03/25 Пнд 10:35:00 № 1122522 250

>>1122515
>Ну как ухудшается генерация при больших контекстах, тут она начнется раньше.
Умом понимаешь, что она должна ухудшатся. А на практике этого незаметно. До 24к так точно.

Аноним 31/03/25 Пнд 10:35:27 № 1122523 251

Анончики, пользуюсь кобалдом, регулярно бывает такая хуйня, что он перестает генерировать, пока не переключишься на его консольное окно. После этого он продолжает нормально работать. Обычно так бывает в начале, потом работает уже нормально. Кто нибудь сталкивался с таким? Как бороться?

Аноним 31/03/25 Пнд 10:35:36 № 1122524 252

Мне гемма очень не понравилась другим : есть карточка персонажа, где персонаж пытается тебя убить. Прям совсем.
И вот ты его избиваешь и гемма начинает : ТЫ ПЛОХОЙ ТЫ МЕНЯ ИЗБИЛ.
Сука, где в твоей логике попытка убийства - это норма, а самозащита это плохо. Я неиронично решил все к суду привести. И что вы думаете ? Я виноват, превысил меры самозащиты.

Аноним 31/03/25 Пнд 10:36:14 № 1122528 253

>>1122523
Поставь hight priority. Может поможет, хотя странно.

Аноним 31/03/25 Пнд 10:36:34 № 1122529 254

>>1122521
Таблетки.

Аноним 31/03/25 Пнд 10:55:49 № 1122552 255

>>1122523
у тебя десктоп или ты ртх4050кун? настройки энергосбережения чекай

>>1122521
аицг петушок спок
сетка - твоя мамка, сэмплеры - все три отверстия, бекенд - проперженный диван в вашей хрущевке

Аноним 31/03/25 Пнд 11:02:07 № 1122557 256

>>1122552
>>1122529
Два пидорка, стало нечего сказать начались оскорбления?
Слив засчитан, хули

Аноним 31/03/25 Пнд 11:03:50 № 1122558 257

>>1122467
Таг, погоди. Мне надо глазом убрать все сообщения которые включены в суммарайз? И зачем вставлять в заметки автора суммарайз, он же учитывается дл истории непосредственно из поля суммарайза, или нет?

Аноним 31/03/25 Пнд 11:03:54 № 1122559 258

>>1122557
> оскорбляет
> получает оскорбление в ответ
> О НЕТ КАК ТАКОЕ МОЖЕТ БЫТЬ
подростки в аицг они такие..

Аноним 31/03/25 Пнд 11:09:11 № 1122564 259

Эх бля, хотелось бы присоединится, но я нищук со старой карточкой, поэтому вопросы
1. Насколько долго нужно ждать при игре от оперативки?
2. Если нужна топовая видяха, то каким образом оно работает на ведроиде?

Аноним 31/03/25 Пнд 11:10:20 № 1122567 260

>>1122524
>Я неиронично решил все к суду привести. И что вы думаете ? Я виноват, превысил меры самозащиты.
Так реализм же.

Аноним 31/03/25 Пнд 11:11:12 № 1122569 261

>>1122077
Самый плохой совет, тем более для геммы.

Не, если кумить на 8-12к контекста, то проблем нет, но если у тебя там внятное рп, то квантование кэша превращает сюжет в ёбаный бредогенератор.

Я на 32к решил до 8 кванта кэш сделать, чтобы быстрее было, и получил шизу. Нахуй надо.

Аноним 31/03/25 Пнд 11:34:33 № 1122581 262

>>1122552
Десктоп, у меня ртх3060. Где их чекать?

Аноним 31/03/25 Пнд 11:37:31 № 1122586 263

>>1122564
> ведроиде
Я проверил, но все еще ведроид это не десктопная ОС.
Странно конечно. Но если тебе нужно подключить видеоускоритель к телефону, то….
Хуй его знает, что тебе посоветовать.

Аноним 31/03/25 Пнд 11:39:42 № 1122587 264

>>1122524
> пытается тебя убить
> ты его избиваешь
> превысил меры самозащиты
ПРЯМО КАК В ЖИЗНИ!

Аноним 31/03/25 Пнд 11:42:46 № 1122590 265

умные мысли преследуют >>1122586 , но он быстрее

>>1122564
> Насколько долго нужно ждать при игре от оперативки?
долго, несколько минут на ответ, как правило. и у тебя точно не ddr5, значит еще дольше

> Если нужна топовая видяха, то каким образом оно работает на ведроиде?
с компа запускается сервер, затем к нему через браузер смартфона подключаешься. так это работает на ведроиде
если хочешь саму нейронку на нем гонять, то нужен нормальный проц, и результат все равно будет таким себе

Аноним 31/03/25 Пнд 12:06:08 № 1122613 266

>>1122564
Очень усреднено и условно говоря:
На DDR4 будет по пол слова - слово в секунду
На DDR5 будет слово - два слова в секунду

Много зависит от размера модели, которая измеряется в "B", и кванте, например Q4_K_M или Q5_K_M

На ведре и яблоке запускают совсем немощные модели, вроде 1B, 2B, 4B с очень низкой точностью, которые ели-ели могут предложения составлять осмысленные

Аноним 31/03/25 Пнд 12:09:51 № 1122618 267

>>1122521
>В моих тестах сетка глупела раньше нужного, поэтому нахуй квантование кеша
А ты уверен что это из-за квантования кэша?
Ты точно уверен что это за за квантования кэша?
Ещё раз подумай, ты абсолютно совершенно точно уверен что это из за квантования кэша?

Нет.

Потому что в чате без ерп, на 24 контекста, гемма 3-27-аблитерэйтед не тупеет с квантованием. Дальше 24К не проверял.

Аноним 31/03/25 Пнд 12:36:50 № 1122657 268

>>1122524
А в чем проблема? С точки зрения чара, который этого хочет, ты действительно будешь плохим, а то что он делает - правильным. Пиздец ты странный, персонаж что, должен исправиться и сразу на хуй прыгать?
>>1122558
Есть настройки плейсмента суммарайза. Можешь и не отключать, тогда в чате будут все сообщения что поместятся. Иногда это может слегка запутывать сетку, особенно если суммарайз стоит ближе к концу.
>>1122564
Запустить можно хоть на кофеварке, просто будет оче медленно. На ведре и работает оче медленно, используются мелкие модели. И то современные soc довольно производительные.
>>1122618
Не ну ты же уверен? Если может быть, просто может быть, на одно мгновение... может быть... ты точно уверен?
> гемма 3-27-аблитерэйтед
Тому что уже отупела. Но вообще, q8 проблем создавать не должно.

Аноним 31/03/25 Пнд 12:41:12 № 1122660 269

Подскажите пожалуйста, какая модель сейчас самая актуальная для ролевки на rtx 4070 12gb ?

Аноним 31/03/25 Пнд 12:51:34 № 1122678 270

>>1122657
> срет и накидывается на анонов за квантование кеша
> Но вообще, q8 проблем создавать не должно.
какой же клоун))

Аноним 31/03/25 Пнд 13:01:17 № 1122684 271

>>1122660
Если хочешь поместить модель полностью в видеопамять, тебе доступны модели до ~16b. В таком случае имеет смысл использовать exllamav2 (в составе text-generation-webui или tabbyAPI). По самим моделям не подскажу, ибо сижу на бОльших. Знаю, что неплох Wayfarer: https://huggingface.co/ReadyArt/Wayfarer-12B_EXL2_5.0bpw_H8 Но возможно, появилось что-то лучше.
Включай Q8 кэш. Вероятно, 12-16к влезет.

Если хочешь задействовать и процессор с памятью, тогда ставь llama.cpp и ищи модели большего размера, но это куда более глубокий вопрос.

Аноним 31/03/25 Пнд 13:12:01 № 1122697 272

>>1122657
>Есть настройки плейсмента суммарайза. Можешь и не отключать, тогда в чате будут все сообщения что поместятся. Иногда это может слегка запутывать сетку, особенно если суммарайз стоит ближе к концу.
Мы друг друга не поняли, или я криво спросил. Меня интересует вот что. Заметки автора пассивно жрут контекст самим фактом того что они просто есть, там даже токены указаны которые расходуются. Суммарайз тоже пассивно работает, но при этом там нет указания расхода токенов. Суммарайз высасывает в себя контекст или нет? Просто нахуя мне тогда пользоватся заметками автора если суммарайз так же ижектится но не забирает токены. Просто когда история длинная, 12к контекста постепенно превращаются в тыкву, и на длинной дистанции это прям пиздец.

Аноним 31/03/25 Пнд 13:14:19 № 1122702 273

>>1122697
Суммарайз всасывается в контекст, разумеется. Расход токенов там не указан, поскольку чуть ниже поля суммарайза есть ползунок для выбора его максимальной длины. Дефолт - вроде бы 300 токенов, максимум - 1000. А вообще, ты можешь весь свой промпт изучить и посмотреть, сколько токенов и что занимает. Выбери сообщение, три точки справа сверху, вроде бы вторая справа иконка. Откроется специальное окно инспектора промпта.

Мимо

Аноним 31/03/25 Пнд 13:17:52 № 1122707 274

>>1122702
Всё, спасибо. Тогда буду дальше писать через авторс ноты, я думал у суммарайза какие то особые способы инжекта, а это те же яца только сбоку. Блять, жаль я не могу себе позволить 30к контекста чтобы не ебать мозги со всем этим.

Аноним 31/03/25 Пнд 13:19:27 № 1122708 275

>>1122707
> я не могу себе позволить
Еда - навязанный обществом стереотип. Или рассмотри варианты с онлайн сервисами генерации и аренда гпу

Аноним 31/03/25 Пнд 13:21:25 № 1122709 276

>>1122707
Единственный способ взаимодействия с LLM это "контекст", и промты, и сумарайзы, и авторские заметки, и карточка персонажа, и чат, и всё всё остальное, это одно огромное полотно которое ты каждый раз посылаешь на вход LLM и используют одни и те же лимиты.

Аноним 31/03/25 Пнд 13:21:52 № 1122710 277

>>1122707
Да ничего сложного же, анон. У меня автосуммарайз используется на 500 токенов. Когда контекст почти полностью заполнен, вычищаю сообщения из контекста при помощи /hide и вкратце описываю их содержимое в author's note. Так можно очень долго продолжать, а потом карточку отредактировать, если, например, персонаж за время игры изменился. У меня есть чаты на 4к+ сообщений, в целом проблем никаких нет. Играю с 24-32к контекста в зависимости от модели, периодически меняю их, экспериментирую. Это дело привычки.

Аноним 31/03/25 Пнд 13:23:21 № 1122711 278

В целом так можно жить даже на 16к контекста.

Аноним 31/03/25 Пнд 13:25:13 № 1122713 279

>>1122711
Два года назад 4к контекста были роскошью, а боты на более чем 500 токенов - транжирством

Аноним 31/03/25 Пнд 13:27:20 № 1122716 280

>>1122713
Не застал тех времен, вкатился в начале года. Но даже за это время понял, как быстро все меняется. Модели выходят, умнеют даже в рамках того же количества параметров. И твои слова только подтверждают это. Быть может, еще через пару лет будет совсем другая, куда более хорошая ситуация для нас-ролевиков.

Аноним 31/03/25 Пнд 13:33:19 № 1122722 281

>>1122710
>>1122709

Раз тут собрались знатоки длинных рп историй, не могли бы вы ответить на ещё пару вопросов.

1. Как лучше составлять авторс ноты. Я привёл как пример два варианта на двух пиках. На одном условная история разбита на сегменты, где идут определённые части истории, на втором просто идёт полотно. В каком из случаев нейронке проще подтягивать их для скана, или ей вообще поебать в каком виде это потреблять?

2. Третий пик. Я вот прям честно читал документацию на офф сайте таверны и либо я тупой, либо там очень размыто написано, но я не понял какие настройки выставить чтобы заметки лучше работали, вы не могли бы тыкнуть носом или показать как оно выставлено у вас.

>>1122710
>Когда контекст почти полностью заполнен, вычищаю сообщения из контекста при помощи

Зачем вычищать контекст если он рано или поздно уползает, и то что выше оранжевой линии просто не учитывается?

Аноним 31/03/25 Пнд 13:49:18 № 1122758 282

>>1122722
>Зачем вычищать контекст если он рано или поздно уползает, и то что выше оранжевой линии просто не учитывается?
Чтобы работало быстрее. Когда ты вычищаешь контекст, оставляя 2-3к токенов вместо 16к.
>>1122657
>А в чем проблема? С точки зрения чара, который этого хочет, ты действительно будешь плохим, а то что он делает - правильным. Пиздец ты странный, персонаж что, должен исправиться и сразу на хуй прыгать?
Проблема в том, что в агрессии нейронка выставляет меня виноватым. А на фразу : ты блять, меня убить пыталась, арбалетом и мечом - ответ, мол, ну это же не повод меня избивать. Мы могли подружиться.
Логично, чё.

Аноним 31/03/25 Пнд 13:55:15 № 1122764 283

>>1122722
> не могли бы вы ответить на ещё пару вопросов.
Ответим, конечно. Только ты учти, что в этих и многих других вопросах взаимодействия с ЛЛМ мнения разнятся. Проверяй методом проб-ошибок и ищи то, что подходит тебе.

1. В моем случае Author's Note представляет из себя список ключевых фактов и событий истории. Каждый из них пишу в квадратных скобках, чтобы отделить их друг от друга.
[Событие A]
[Событие B]
[Факт C]
Подразумевается, что они изложены в хронологическом порядке. Когда их набирается очень много, я обобщаю их еще раз или меняю карточку. Например, События A, B и C были в рамках одного эпизода истории (скажем, задание по поиску беглеца), но когда эпизод хронологически будет далеко позади - я объединю эти три части в одну, срезав неактуальные уже детали. Или удалю их, отразив результат этого эпизода в самой карточке. Например, персонаж там заработал шрам.
Многие думают, что квадратные скобки не нужны или вообще иначе используют Author's Note. Кто прав? Никто.

2. У меня стандартные настройки, такие же как у тебя. В общем, если вкратце, то все взаимодействие между тобой и LLM представляет собой обработку запросов. Запрос - это prompt, то есть весь контекст: чат, инструкции, различная вспомогательная информация (туда же Summary, Author's Note). Чем ближе к концу промпта находится информация, тем более чувствительно LLM ее будет воспринимать. В теории, если Summary или Author's Note расположить слишком близко к концу промпта - LLM быстрее зациклится и менее охотно будет двигать сюжет, обсуждая и делая одно и то же по кругу.
Это мое понимание. У кого-то оно может отличаться, и я снова не знаю, кто из нас будет прав.

> Зачем вычищать контекст если он рано или поздно уползает, и то что выше оранжевой линии просто не учитывается?
В целом, да, можно и не делать это вручную. Но я предпочитаю так: отыгрываю эпизод истории в рамках своего контекста, заканчиваю его логически. Затем отражаю результат отыгранных событий в Author's Note, карточках и где еще нужно, после чего полностью вычищаю разом весь эпизод из контекста и перехожу к новому. Мне показалось, что так лучше, меньше лупов, больше креатива. ¯\_(ツ)_/¯
Каждый по-своему это все организует.

Аноним 31/03/25 Пнд 13:58:58 № 1122767 284

И анон выше правильно уточнил, что чем больше заполнен контекст - тем медленнее обрабатывается промпт. Кому-то это важно, но в моем случае разница незначительная.

Аноним 31/03/25 Пнд 16:25:33 № 1122993 285

>>1122678
Шизло, что ты несешь? В дурку быстро
>>1122697
Что значит пассивно, типа не является содержимым самого чата? Все что есть в контексте будет его расходовать, это неизбежно. И системный промт, и карточка, и твое персоналити и т.д.
> так же ижектится но не забирает токены
Это невозможно, если только не перекодировать длинный контекст в наиболее близкие по результаты эмбеддинги. Авторские заметки - просто вариант инжекта, можешь смело использовать их для суммарайза, который сам пишешь. Отключать посты чтобы они исчезли придется вручную что там, что там.
Есть аддоны, которые позволяют на лету запрашивать суммарайз поста и заменять короткими версиями те что в глубине. Но работает довольно пососно и актуально больше для корпов, потому что предполагает каждый раз новую обработку всего контекста.
>>1122758
Вполне естественно отыгрывает поехавшего персонажа, лол. Но кажется понял о чем ты, типа агрессор ставший жертвой всегда стабильно превращается в невинную непонимайку, забывшую про всю ненависть?
>>1122767
> чем больше заполнен контекст - тем медленнее обрабатывается промпт
Если ты про общее время на обработку - это ожидаемо. Если ты про падение скорости обработки - такого быть не должно, хотя в жоре всякое видали уже.

Аноним 31/03/25 Пнд 16:39:59 № 1123021 286

>>1121834
>>1122077
Спасибо.

Аноним 31/03/25 Пнд 17:24:26 № 1123114 287

Есть какое-нибудь расширение или лорбук на инфоблок?

Аноним 31/03/25 Пнд 18:49:16 № 1123301 288

Существует ли модель с охуенным черным юмором? Кум это одно но когда модель постоянно соево агрится это так уебищно....

Аноним 31/03/25 Пнд 19:07:26 № 1123371 289

>>1123301
Негатив-ллама была. Она могла депресняком сплошным душить.

Аноним 31/03/25 Пнд 19:19:33 № 1123423 290

пришли
по текстолиту и компонентам чувствуется, что это именно бизнес-сегмент. Не простая потребительская гигабитная карточка.

Аноним 31/03/25 Пнд 19:29:04 № 1123449 291

>>1123423
Это что за покемон?

Аноним 31/03/25 Пнд 19:30:47 № 1123451 292

>>1123449
--> >>1118029 →
--> >>1110368 →
хочу распред запустить

Аноним 31/03/25 Пнд 19:43:49 № 1123472 293

Кто-нибудь сталкивался с тем, что модуль deep-translator ломал разметку?
Как с этим быть?

Аноним 31/03/25 Пнд 19:44:57 № 1123474 294

Если я весь проект (10 000 строк кода) засуну в один файл и скормлю его веб версии чатгпт он получается будет знать всё про мой проект и сможет дать лучшее объяснение если мне нужно оптимизировать производительность проекта. Я прав?

Аноним 31/03/25 Пнд 19:52:05 № 1123496 295

>>1123474
Сам спросил сам ответил. Чатгпт задохнулся. Дипсик честно ответил что смог прочитать только 5000 строк.

Аноним 31/03/25 Пнд 19:53:25 № 1123502 296

>>1123496
Деньги плоти.

Аноним 31/03/25 Пнд 19:54:14 № 1123506 297

>>1123502
Да я не против, куда платить и за что?

Аноним 31/03/25 Пнд 19:56:40 № 1123513 298

>>1123474
Слышал мнение кодомакак, что только клод справляется с таким контекстом кода. Даже не новая гемени, ей тоже плохо.
Но всегда будет лучше его сократить до минимального или хотя бы разбить задачу на этапы где непосредственно написание кода будет идти на маленьком контексте.

Аноним 31/03/25 Пнд 19:56:43 № 1123514 299

>>1123371
Да не душить. Без нытья, морализаторства, душнилова.

Аноним 31/03/25 Пнд 19:58:52 № 1123519 300

>>1123513
Понял, спасибо. Я просто хлебушек и мне прям лень эти 15 000 строк кода читать, чтобы понять что где-то на 14568 строчке зарыта проблема с производительноюстью

Аноним 31/03/25 Пнд 20:05:08 № 1123530 301

>>1123519
Если тебе нужно чисто объяснить код, а не прям дохуя писать итеративно в большом проекте, то геминька новая в этом вроде хороша. И бесплатна. И в соседнем треде проксей с ней дохуя, правда может быть там не полный контекст, но можно и из гугла ключик взять, там 50 запросов в день на нее.

Аноним 31/03/25 Пнд 20:19:11 № 1123562 302

>>1123506
Людям плати. Текстовые нейронки подходят только чтобы на них дрочить.
>>1123519
Профилирование. Юзай профилирование. Всё остальное это хуета.

Аноним 31/03/25 Пнд 20:21:32 № 1123567 303

Тут нашел файнтюн на новый комманд а https://huggingface.co/TheDrummer/Fallen-Command-A-111B-v1-GGUF
А больше файнтюнов-то вроде и нет пока. Кто-нибудь пробовал? Смущает негативный биас, я не хочу, чтобы меня пиздили

Аноним 31/03/25 Пнд 20:22:34 № 1123571 304

>>1123514
Почти любая модель сможет, если запромптишь.

Аноним 31/03/25 Пнд 20:27:56 № 1123585 305

>>1123530
Спасибо! Попробую

Аноним 31/03/25 Пнд 20:29:32 № 1123587 306

>>1123519
Проблемы с производительностью решаются профилировщиками производительности, а не медитированием над строчками кода.

Аноним 31/03/25 Пнд 20:31:07 № 1123590 307

>>1123587
>>1123562
Здесь другое, я знаю что алгоритм уже оптимизирован. Мне нужно уменьшить его точность за счет увеличения производительности. Это профилировщиком не поймать.

Аноним 31/03/25 Пнд 20:34:31 № 1123601 308

>>1123590
Ууу, нейронкам я такое не доверил бы. Нахуевертят, потом хуй проссышь что за хуйню они учудили.
На такие тонкие и специфичные задачи они плохо натренированы.

Аноним 31/03/25 Пнд 21:50:08 № 1123792 309

Двачане, вопрос. Я пытаюсь вкатиться в тусовку, но на очень начальном этапе. Поставил text-generation-webui, с кобольд какие-то проблемы. То, о чём вы здесь пишете, в том числе про gemma-3 27b- для oogabooga тоже подходит, мне это всё стоит читать? Или вы все на Таверне, и я мимо?

Аноним 31/03/25 Пнд 21:54:27 № 1123802 310

>>1123792
Gemma-3-27b - это модель. Ее можно запустить на любом подходящем бэкенде (сервере), которыми являются и text-generation-webui, и Кобольд. Но для работы с моделью нужен фронтенд (визуальный интерфейс). В text-generation-webui и Кобольде есть и они тоже, но пользоваться ими никто не заставляет. Можно запустить модель на чем-то из этого, а затем запустить Таверну.

> То, о чём вы здесь пишете, в том числе про gemma-3 27b- для oogabooga тоже подходит, мне это всё стоит читать?
Не понятно, что именно ты имеешь ввиду. Тут много чего пишут. Если речь про файлы с пресетами, то они для Таверны.

Аноним 31/03/25 Пнд 22:40:32 № 1123894 311

>>1123792
> ля oogabooga тоже подходит
Подходит, но скорее всего нужно будет обновить версии. Если запускаешь там через llamacpp то в теории должно работать, если через exllama - потребуется ее обновить. В папке находишь файл cmd_windows.bat, нажимаешь его, в полученной консоли пишешь pip install git+https://github.com/turboderp-org/exllamav2@dev и молишься. В теории все должно быть норм, если не получилось - забей, неофит не справится.
> Или вы все на Таверне
Про нее уже написали, большинство пользуется ею, подключая уже к той же убабуге или чему-то другому.

Аноним 31/03/25 Пнд 22:44:56 № 1123906 312

А какую температуру лучше устанавливать для ерп?

Аноним 31/03/25 Пнд 22:54:20 № 1123919 313

>>1123906
температура от модели зависит, а не от того, нужен ли тебе кум...

Аноним 31/03/25 Пнд 23:08:26 № 1123946 314

>>1123919
Не соглашусь, на дарк рейгхе автор советует температуру 1.25, но если её выставить, то персонажи чуть ли не в первом сооющение лезут в трусы, не смотря на то что у них в карточке прописано что отношения должны развиватся равномерно и долго. Я катаю на 1.1. Тут надо смотреть сколько рекомендует автор и снижать процентов на 20%, имхо.

Аноним 31/03/25 Пнд 23:15:54 № 1123960 315

>>1123919
>>1123946
И как узнать какая темп нужна?

Аноним 31/03/25 Пнд 23:21:58 № 1123970 316

>>1123960
Я в душе не ебу где ты брал модель, но обычно адекватны диапозон 0.8 - 1.2 Поэксперементируй. Обычно чтобы кумить нужна температура больше, но это уже от самой карточки зависит. Для адекватного рп можно скручивать пониже, чтобы чары не выбивались из своих карточек.

Аноним 31/03/25 Пнд 23:31:37 № 1123987 317

>>1123906
Если задаете какие либо вопросы в треде по моделям, то пишите название модели. В случае если нужно подобрать моджель, пишите железо.
Тут нет ванг, примерно почувствовать никто не может.
Вот тут анон буквально гадает на кофейной гуще >>1123970, а если не подойдет, потом же в тред прибежите жаловаться, что говно посоветовали.

Аноним 31/03/25 Пнд 23:34:06 № 1123990 318

>>1123987
>>1123970
omnino-obscoenum-opus-magnum-mn-12b

Аноним 01/04/25 Втр 00:26:47 № 1124069 319

image 1Кб, 623x42

Апхахахахахаах!!!

Аноним 01/04/25 Втр 00:57:17 № 1124113 320

ПАЦАНЫ.... ВЫ ДАЖЕ НЕ ПРЕДСТАВЛЯЕТЕ КАК Я ОБОСРАЛСЯ...
>>1123423-кун

Расскаже попозже. Пока что надо попробовать хоть как-то улучшить ситуацию.

Аноним 01/04/25 Втр 01:00:40 № 1124118 321

>>1124113
> ВЫ ДАЖЕ НЕ ПРЕДСТАВЛЯЕТЕ
Всё мы прекрасно представляем. Идея изначально дегенеративная была.

Аноним 01/04/25 Втр 01:02:25 № 1124120 322

>>1124113
Это голые платы куда нужно еще воткнуть модули, которых у тебя нет?
Если что, та херня по локалке работает, попозже скину тесты.

Аноним 01/04/25 Втр 01:07:59 № 1124129 323

>>1124118
>>1124120
inb4 чел просто литералли обосрался, а с платами и распределенкой у него все хорошо

Аноним 01/04/25 Втр 01:10:49 № 1124138 324

>>1124129
Блять, в голос.

Аноним 01/04/25 Втр 01:16:33 № 1124153 325

>>1124129
>>1124138
Токены побежали, малафья полилась, не смог оторваться и оподливился не дождавшись окончания обработки контекста

Аноним 01/04/25 Втр 01:35:42 № 1124176 326

Ахуеееть. Это что, нейросетка знает все диалоги и сюжеты ко всем популярным фильмам? Она разве что имя назвала неправильно, но остальное то все верно.

Аноним 01/04/25 Втр 02:06:07 № 1124216 327

Оказалось, что я рано запаниковал.
Что произошло:
Я захотел сначала проверить эти мелланоксы. Вставил их в свой пк и в файловый сервер. Получил междй ними скорость 3.7 гбит/с вместо 25.
Полез разбираться, попутно расспрашивая гемму 3 на предмет предположений почему так нахуй.
прошелся по sysctl параметрам, увеличит буферы карт, включил джамбо фреймы и еще кое-чего по мелочи пробовал - ничего не помогло.
После этого я пошел к дипсику в чят и спросил уже его, что это за хуйня. Он сходу в одном из пунктов сказать проверить в каком режиме работает pcie. Выяснилось, что на моем пк карта вставлена в pcie 2.0 x4, а на сервере - pcie 2.0 x1. И этот 2.0 x1 имеет максимальную скорость как раз 5 гигабит. За вычетом всяких оверхедов вполне выходит 3.7 гигабит/с.
Я полез смотреть
lspci -vv -s <адрес pcie слота> | grep -i lnk
на своей матери btc79x5 где карты стоят и обнаружил, что на всех установлен pcie 1 x8.
После этого я подумал что ушлые китайцы наебали и на всех пяти pcie портах pcie первого поколения. Создал пост >>1124113
Но спустя минут 10 я вспомнил, что ранее видел, как эта скорость менялась когда карты были под нагрузкой. Я тогда не связал это с версией pcie.

В общем итог такой:
1. карты брались с рассчетом на то, что после того, как я запущу распред и наиграюсь с ним (а это произойдет потому что работать он будет ожидаемо, медленно), я их вставлю в файлохранилку и они будут обеспечивать мне 25 гигабит. Оказалось, что использовать более чем 3.7 гигабита/с без замены матери на хранилке не получится. Там физически всего одна линия на pcie 2.0
2. оказалось, что в простое скорость интерфейса на картах уменьшается, причем уменьшается до стандартов скоростей PCIE прошлых поколений. Минимальная - 2.5 ГТ/с - это pcie1, средняя (не встречается при работе на btc79x5) - 5 ГТ/с - стандарт pcie2 и максимальная для btc79x5 - 8 ГТ/с - pcie3.

Теперь надо заказать на лохито еще одну btc79x5

Аноним 01/04/25 Втр 02:11:39 № 1124225 328

>>1124216
> Там физически всего одна линия на pcie 2.0
В каком музее ты ее нарыл?

Аноним 01/04/25 Втр 02:13:21 № 1124228 329

>>1124216
> подумал что ушлые китайцы наебали и на всех пяти pcie портах pcie первого поколения
Там процессорные линии, их не подменить.
> потому что работать он будет ожидаемо, медленно
Прежде всего по вине железа а не сети.
> я их вставлю в файлохранилку и они будут обеспечивать мне 25 гигабит
У тебя там стоят ссд а не доживающие некрохарды?
> оказалось, что в простое скорость интерфейса на картах уменьшается, причем уменьшается до стандартов скоростей PCIE прошлых поколений
Ну типа с подключением, это первое что замечают открыв gpu-z, например.
> надо заказать на лохито еще одну btc79x5
Ебать кто-то обрадуется что удалось слить этот металлолом.

Ну ты не расстраивайся, красавчик что чем-то интересным занимаешься и контент поставляешь.

Аноним 01/04/25 Втр 02:15:55 № 1124231 330

а, да, еще третий вывод:

гемма 3 сосёт жопу.

Ебался с ней, пытал её часа три, не меньше. Ни разу не выдала предположение про pcie баттлнек.

Только что спросил тот же вопрос у магнум 123б Q5 - тоже нет версии PCIe.

Короче надо искать сетку заточенную под админство/SRE. Имеющиеся у меня сетки какое-то говно неюзабельное. Только время блять и электроэнергию трачу на них впустую. А диспик ёбаный первым же предложением в цель попал.
Ну как так-то ёбаный рот?

>>1124225
Да я брал мать с распаянным чипом на ней еще пять+ лет назад для файлопомойки.
https://www.nix.ru/autocatalog/motherboards_gigabyte/GIGABYTE-J4005N-D2P-Celeron-J4005-onboard-RTL-PCI-E-Dsub-plus-HDMI-GbLAN-SATA-Mini-ITX-2DDR4_347479.html
Надо сказать, что она все это время служила без нареканий. Но мне и не требовался ни разу pcie на ней. Он там полноразмерный, выглядит как x16, по пинам - как на x8.
Кто ж знал, что там залупа обрезанная? Это вообще нежданчик был. Зато usb 3.0 на жопе 4 штуки и гигабитная сетевая.

Аноним 01/04/25 Втр 02:25:53 № 1124250 331

>>1124231
> Ни разу не выдала предположение про pcie баттлнек.
Любую, даже самую крутую сетку, может капитально мислидить юзер своими кривыми запросами. Можно вообще заставить полный бред говорить, а потом тащить это в качестве пруфов.
> А диспик ёбаный первым же предложением в цель попал.
Натренен общаться с полнейшими хлебушками и срать как можно более широкой струей. За это его заслуженно любят, хотя в реально сложных задачах пускает слюни.
> Кто ж знал, что там залупа обрезанная?
> Celeron-J4005
Действительно, вот это поворот! Северный мост пал, центурион. Уже почти 1.5 десятка лет все нормальные линии идут с процессора и пачка хуевины с чипсета.

Аноним 01/04/25 Втр 02:27:51 № 1124252 332

>>1124228
>У тебя там стоят ссд а не доживающие некрохарды?
на ней есть второй свободный m2 слот. Думал, что можно туда какую-нибудь йоба-м2 поставить от самсунга.
>gpu-z
я на линус-онли с 2009, никогда не запускал эту штуку

Аноним 01/04/25 Втр 02:31:53 № 1124258 333

>>1124250
>Любую, даже самую крутую сетку, может капитально мислидить юзер своими кривыми запросами. Можно вообще заставить полный бред говорить, а потом тащить это в качестве пруфов.
в данном случае в таверне отключены все инструкции, кроме того, что в описании персонажа. Там описано, что она крутой SRE.
И мой вопрос был точно такой же, как дипсику.
Вот на, можешь попробовать заставить какую-нибудь сеть ответить и сам увидишь что даже 123б сосёт.

Hi. I have mellanox connect-x 4 lx. 25 Gbps. On two servers directly connected to each other.
ethtool shows that devices works on 25Gbps.
But when I run iperf3 I've got 3.6Gbps maximum.
Any ideas why?

Аноним 01/04/25 Втр 02:37:57 № 1124261 334

>>1124216
>оказалось, что в простое скорость интерфейса на картах уменьшается
Вроде базовое знание. ГПУ-З к примеру показывает максимальную для карты и текущую, вполне себе различаются. У меня пикрилы.
>>1124228
>Там процессорные линии, их не подменить.
Подменить нельзя, но можно развести так, что выше единички не поднимется, плюс в бивасе ограничений поставить. У меня так процессорные 5.0 превратились в 3.0 по вине бракоделов в асроке.
>>1124252
>на ней есть второй свободный m2 слот.
Пихай через переходники туда свою сетевуху, как раз должно помочь. Впрочем там тоже тот ещё кастрат, но хотя бы две линии. Впрочем, целерону ничего не поможет, меняй на х99.

Аноним 01/04/25 Втр 02:46:35 № 1124269 335

>>1124258
Да не в инструкциях и карточках дело а в твоем вопросе.
> mellanox connect-x 4 lx. 25 Gbps
Херня мало о чем дающая понять
> two servers
> servers
Проиграл
Все, дело ракрыток. Нет бы написать, даже на русском
> Йо, я тут купил пару серверных сетевых карт стандарта X, подключаемые в pci-e. Когда вставил их в старые компьютеры, соединив напрямую, скорость низкая, почему?
Буквально, как есть, без обманов, придумок и прочего. Ровно твоя ситуация, изложенная кратко и информативно.

Такой же вопрос если специалисту задашь, он начнет задумываться про кабели, возможные проприетарные приколы, про прерывания и неподходящий модуль ядра, буферы и т.д. Потому что из контексте выглядит что там реально серверы с этим железом, что отсекает абсурдную ерунду. А если скажешь что ты некровод и пихаешь серверное железо в древний десктоп - сразу у виска покрутит и спросит как ты хочешь через медленную шину до проца столько передавать.
>>1124261
> можно развести так, что выше единички не поднимется
Нельзя, там нет фейлсейф сценария с откатом версий, просто все будет подыхать в ошибках.
> 5.0 превратились в 3.0
Амдбинго где нужно купить чипсет старше чтобы разблокировать процессорные линии, или китайский райзер, неработоспособный выше 3.0?

Аноним 01/04/25 Втр 03:03:44 № 1124284 336

>>1124269
>Нельзя, там нет фейлсейф сценария с откатом версий, просто все будет подыхать в ошибках.
С чего нельзя то? Всю жизнь можно было резать версию любых линий псины, а теперь нельзя?
>Амдбинго где нужно купить чипсет старше чтобы разблокировать процессорные линии, или китайский райзер, неработоспособный выше 3.0?
Не угадал. Плата ASRock B650E Steel Legend WiFi нахуй не нужный, нижний длинный слот подключен к процу 7900х, но на нём только 3.0х4. Ладно бы пятёрку не дотянули, там действительно требования высокие, но даже четвёрку зажопили, пидоры.

Аноним 01/04/25 Втр 03:09:19 № 1124287 337

Всем привет. Недавно вкатился в таверну, прошерстил уже столько информации, что мозги кипят и я запутался.
По порядку.
Имеется 4060 8 VRAM, 16 GB ОЗУ, Кобольд, таверна и xttsv2 для озвучки. Цели: РП, в частности использовать ллм как гейммастера, чтоб писал хорошие сюжеты.
1) Какую модель скачать, чтоб хорошо отвечала на русском без орфографических ошибок, как будто там индус печатает с гуглопереводчика. На данный момент это самая большая проблема.
2) Как правильно прописывать промты, чтоб ллм делала, что я хочу. Например, на данный момент, я пишу в системном промте что-то типа: Пиши на русском, используй вольную речь, пиши красиво, используй мат и тд. но на выходе я получаю не интересный и обычный текст без мата и с гуглоиндусами.
3) Почему в Кобольде на сброшенных настройках нейронка пишет лучше, чем в таверне? Настройки дефолтные ставил, менял только системный промт.

Аноним 01/04/25 Втр 03:11:47 № 1124288 338

>>1124284
> Всю жизнь можно было резать версию любых линий псины, а теперь нельзя?
Обратная совместимость хорошая в обе стороны и менять рабочую версию всегда можно было. Вот только ручками, ручками. Чтобы оно само задетектило плохое качество линка и спрыгнуло на версию ниже - NO.
> но на нём только 3.0х4
Ай лол, а 4.0/5.0 на что-то задействованы? Тандерболты там, основные слоты м2, может разъем под u2 или типа того что-нибудь?

Аноним 01/04/25 Втр 03:25:54 № 1124300 339

>>1124231
Чувак, ну не используй ты локалки для сложных технических вопросов, тем более гемму.

Я никогда не использую для кода или чего-то серьезного локалки. Только OpenAi, Anthropic, DeepSeek (локально его не запустишь хотя бы 40 тс & 128к контекста, тем более с ризонингом требуется ещё более высокая скорость). И даже они могут тупить и обсираться как маленькие мальчики, пока хорошенько по башке их не трахнешь.

Аноним 01/04/25 Втр 04:13:33 № 1124323 340

>>1124300
>маленькие мальчики
>пока хорошенько их не трахнешь

Аноним 01/04/25 Втр 04:31:46 № 1124333 341

>I've been tracking the recent performance of models like Gemma 27B, QwQ 32B, and Mistral Small, and I'm starting to believe we're hitting a point of diminishing returns with the really large (70B+) LLMs. For a while, scaling to larger parameters was the path to better overall performance. But the gap is shrinking – and shrinking fast.

Gemma3 27B consistently punches above its weight, often rivaling or exceeding Llama 3.3 70B on many benchmarks, especially when considering cost/performance. QwQ 32B is another excellent example. These aren't just "good for their size" – they're legitimately competitive.

Why is this happening? A few factors:

- Distillation: We're getting really good at distilling knowledge from larger models into smaller ones.

- Architecture Improvements: Innovations in attention mechanisms, routing, and other architectural details are making smaller models more efficient.

- Data Quality: Better curated and more focused training datasets are allowing smaller models to learn more effectively.

- Diminishing Returns: Each doubling in parameter count yields a smaller and smaller improvement in performance. Going from 7B to 30B is a bigger leap than going from 30B to 70B and from 70 to 400B.

What does this mean for inference?

If you’re currently shelling out for expensive GPU time to run 70B+ models, consider this: the performance gap is closing. Investing in a ton of hardware today might only give you a marginal advantage that disappears in a few months.

If you can be patient, the advances happening in the 30B-50B range will likely deliver a lot of the benefits of larger models without the massive hardware requirements. What requires an H100 today may happily run on an RTX 4090 , or even more modest GPU, in the near future.

What are your thoughts?

TL;DR: Gemma, QwQ, and others are showing that smaller LLMs can be surprisingly competitive with larger ones. Don't overspend on hardware now – the benefits of bigger models are rapidly becoming accessible in smaller packages.

Аноним 01/04/25 Втр 04:38:31 № 1124340 342

"Я отслеживаю последние результаты работы моделей, таких как Gemma 27B, QwQ 32B и Mistral Small, и начинаю приходить к выводу, что мы достигаем точки убывающей отдачи с действительно большими (70B+) LLM. В течение некоторого времени масштабирование до большего количества параметров было путем к повышению общей производительности. Но разрыв сокращается – и очень быстро.

Gemma3 27B постоянно показывает результаты, превышающие ее вес, часто соперничая или превосходя Llama 3 70B по многим показателям, особенно если учитывать соотношение цены и производительности. QwQ 32B — еще один отличный пример. Это не просто "хорошо для своего размера" – они действительно конкурентоспособны.

Почему это происходит? Несколько факторов:

Дистилляция: Мы становимся очень хорошо умеем дистиллировать знания из больших моделей в меньшие.

Улучшения архитектуры: Инновации в механизмах внимания, маршрутизации и других архитектурных деталях делают меньшие модели более эффективными.

Качество данных: Лучше подобранные и более целенаправленные наборы обучающих данных позволяют меньшим моделям учиться более эффективно.

Убывающая отдача: Каждое удвоение количества параметров дает все меньшее и меньшее улучшение производительности. Переход от 7B к 30B — это больший скачок, чем переход от 30B к 70B и от 70B к 400B.

Что это означает для инференса (вывода)?

Если вы сейчас тратите большие деньги на дорогое GPU-время для запуска моделей 70B+, учтите следующее: разрыв в производительности сокращается. Инвестиции в большое количество оборудования сегодня могут дать лишь незначительное преимущество, которое исчезнет через несколько месяцев.

Если вы можете подождать, достижения в диапазоне 30B-50B, вероятно, обеспечат большую часть преимуществ больших моделей без огромных аппаратных требований. То, что сегодня требует H100, в ближайшем будущем может с удовольствием работать на RTX 4090 или даже на более скромной GPU.

Что вы думаете?

TL;DR: Gemma, QwQ и другие показывают, что меньшие LLM могут быть удивительно конкурентоспособными с большими. Не тратьте слишком много денег на оборудование сейчас – преимущества больших моделей быстро становятся доступными в более компактных пакетах."

@Переведено с помощью геммы 27б приложите ваш перевод с помощью мистраля 123б

Аноним 01/04/25 Втр 04:49:14 № 1124346 343

>>1124340
>>1124333
То есть я правильно понимаю что я, нищеброд со своей обосранной 8 гб врам, который сидит на модели 12b, через пару месяцев сможет запускать при том же обьёме и скорости модели на 30b?

Аноним 01/04/25 Втр 05:45:52 № 1124357 344

>>1124340
Сорт оф так. Но походу модели в ~30b так и остаются золотым стандартом когда они имеют лучшее соотношение размера и функциональности.

Аноним 01/04/25 Втр 07:00:14 № 1124359 345

>>1123990
к его мистралькам настройки на чубе в описании карточки
https://characterhub.org/characters/aleteian/storyteller-5e5ea7a548d4

Аноним 01/04/25 Втр 07:09:44 № 1124361 346

>>1124287
>4060 8 VRAM, 16 GB ОЗУ
печально быть тобой, тут разве что 4-6 квант 12б влезет, потрепаться и даже по (е)рпшить можно, но твои твои указанные запросы не вывезет.

>Какую модель скачать, чтоб хорошо отвечала на русском
https://huggingface.co/Aleteian
даркнесс рейгн более рп/творческий
сайга анлишед лучше русский (наверно)

>Почему в Кобольде на сброшенных настройках нейронка пишет лучше
Потому что таверна подсирает тонной лишних сегментов промтов, которые надо настраивать / отключать.

Аноним 01/04/25 Втр 08:25:01 № 1124371 347

>>1123601
Сами нейронки ничего не нахувертят, если ты конечно не дебич ctrl-c/ctrl-v сразу из окна чата. Но посмотреть и предложить решение они могут, дальше своя голова должна быть.

Аноним 01/04/25 Втр 08:54:52 № 1124380 348

>>1124340
>вероятно
>обеспечат большую часть преимуществ больших моделей
А может и нет. Большие модели тоже не стоят на месте. И главное: большую часть преимуществ больших моделей небольшие может и обеспечат, но... Вот Гемма 3 хороший пример. В чём-то она даже лучше Ларжа второго. Сразу видно, что новое поколение. Но заменить его она не может.

Аноним 01/04/25 Втр 09:06:13 № 1124383 349

>>1124371 >>1123590
Мимокрокодил.
Они не очень хороши в сильных оптимизациях, или какой-то нестандартной хуйне. Например места на которых нейронки у меня запнулись:

Алгоритм движения воды через грид, надо узнать направление поворота течения. У меня есть метод написан через взятие вектора сзади и спереди и сравнение их кросс-продукта через немного векторной магии, усреднение показателей с исключением центральной ячейки. Нейронки глядя на такую поеботу просто "блять что тут написано то" и напрочь игнорировали этот кусок кода пока я не залез и не написал руками в каждой строчке коментарии.

Микрооптимизация в алгоритме складывания вокселей в единную 2.5д коллекцию. Она организована в виде подобия хешсета, где хешем является xy кордината, а дальше они складывается как линкед-лист. В итоге я имею грид из линкед-листов к которым можно обратится по xy. Там много оптимизация связанных с вызовом, особенно учитывая особенности среды. Нейронки тоже почитали эту хуйню и просто "ну его нахуй". пришлось им XML коменты писать чтобы они вообще понимали что они видят.

Более простой случай - реализация GOAP. граф представлен как набор флагов которые меняются, флаги собираются в единный ulong представляя собой биты, каждая нода графа меняет ulong, итерацию графа можно представить как цифру, а дальше граф перебирается где эвристикой является количество различающихся бит между текущим и целевым состоянием. нейронки посмотрели на то как там биты смещаются и тоже не смогли.

В целом на каких-то нестандарных итерациях, или смещении бит они пишут хуитень.

Притом лучше не доверяь оптимизацию им в принципе. Последний месяц вайбкодил дискорд бота с помощю курсора. Ёбана, ебучий клод такой хуиты писал просто ебанись. Ему в каждом реквесте пишу чтобы он моблюдал DRY и KISS, что вот тут у меня комфи локально запущен и можешь скипнуть половину оптимизаций мы сообщения не на луну отправляем а в соседнее окно... ему поебать. Он пишет тонну бесполезного кода будто мы хттп реквесты на луну отправляем. Или пишу ему - у нас основной поток приложения вызывается в потоке UI, не ебись с диспатчерами, хитровыебаным интерфейсом с представлениями и прочим... нет, сука, он всё равно ебошит. В итоге после того как он там сделал сколько-то рабочего кода я полез, отрефакторил руками основной скелет приложения, переписал пару кусков как мне надо и потом "вот как тут - заебись. делай так-же". И только тогда он наконец стал делать как мне надо. И то его постоянно приходится поправалять.
В общем, нейронкам лучше не доверять архитектуру приложения в принципе.

Но тем не менее при погромировании лучше пользоватся нейронками. Где-то по личному опыту 40-60% работы можно им доверить особо без супервайзинга. Даже QwQ очень хорошо справляется, если правильно пользоваться им.
Грок - очень хорошо помогает брейндштормить абстрактные проблемы.
Дипсик - очень послушный и делаешь что ему сказали очень хорошо.
Чатгпт - с каким-то общим говном справляется хорошо.
Клод - только в курсоре, режим агента делает его охуенным что позволяет ему относительно автономно составлять понимание о больших проектах. Когда надо чтобы прям прожевало кучу кода он лучший, но там лучше начинать "эй пидор составь карту проекта".

Из локальных QwQ просто лучший. Мелкие функции, автокомплит, даже классы до 500 строк кода - хорошо справляется.

Аноним 01/04/25 Втр 09:08:48 № 1124384 350

>>1123114
Нашёл сам, вроде бы неплохой и настраиваемый https://github.com/kaldigo/SillyTavern-Tracker

Аноним 01/04/25 Втр 09:35:47 № 1124387 351

При работе с глупой таверной + horde, таверна внизу чата показывает прогресс генерации токенов зеленой полоской, что-то подобное можно сделать при связке с кобольтом? Чтобы не держать консольное окно на фоне для для просмотра прогресса генерации.

Аноним 01/04/25 Втр 09:40:44 № 1124390 352

>>1124288
>Чтобы оно само задетектило плохое качество линка и спрыгнуло на версию ниже - NO.
Так не само. Производитель платы ограничил качество, так как знает уёбищную разводку.
>Ай лол, а 4.0/5.0 на что-то задействованы?
Бля, посмотри разводку, поймёшь, что это они и есть. Плата максимум голая.
>>1124333
>>1124340
А фактор тут один- корпы зажимают хорошие модели и выкидывают обноски. Просто раньше обносками были 70B, а теперь 27.
>>1124380
База. Жду новый мистраль ларж.

Аноним 01/04/25 Втр 10:09:47 № 1124405 353

>>1123906
Сэмплеры регулируются исходя из ответов. Видишь, что модель тупит выше среднего - поджимаешь сэмплерами. На всех свайпах одно и то же - даёшь больше свободы. Шизит даже зажатая сэмплерами - значит, лучше не будет, и проще подотпустить. Всё это касается и темпы. А все рекомендации к отдельными моделям - это пальцем в небо, как создателю модели показалось лучше.
Именно по температуре были специально придуманы два сэмплера, изменяющие её воздействие: динамическая темпа и смуфинг. Они позволяют выравнивать больший диапазон токенов с высокими вероятностями, не давая взлетать мусорным токенам, что как раз полезно для рп, в котором нужно разнообразие, а шизы не хотелось бы. Посмотреть, как работают (правда, не в полном диапазоне значений) можно в ссылке с примером сэмплеров в шапке. Имхо смуфинг действует понятнее, и им проще управлять. Обычно сижу на темпе 1.25 и смуфинге 0.75-1.25.
>>1123987
mergekit-passthrough-14.88b-vasyan-edition, жду твоих полных рекомендаций. Нехер выпендриваться, как будто ты сможешь к любой модели настройки сказать, особенно если не понимаешь, что они работают плюс-минус одинаково, и даже на правильный инстракт нормальной модели посрать.

Аноним 01/04/25 Втр 11:46:12 № 1124462 354

Перекатываюсь с 1070 на 8гб, на 3060 с 12гб. Как думаете качественный апгрейд или проебался где?

Аноним 01/04/25 Втр 11:49:53 № 1124468 355

>>1124462
3060 - норм рабочая лошадка, минимальный комфортный уровень.

Далее идёт 3090 и 4090, на 50ХХ серию не смотри, сплошной прогрев гоев, к тому же библиотеки нужные под нейронки собираются на них с камланием шибко.

Аноним 01/04/25 Втр 11:53:44 № 1124474 356

>>1124405
>mergekit-passthrough-14.88b-vasyan-edition, жду твоих полных рекомендаций. Нехер выпендриваться, как будто ты сможешь к любой модели настройки сказать, особенно если не понимаешь, что они работают плюс-минус одинаково, и даже на правильный инстракт нормальной модели посрать.
Как бы ты не пыжился, в оригинале модели будет всегда условный мистраль, квен или какая нибудь другая залупа. А для них настройки известны.
Нэ ?

Аноним 01/04/25 Втр 11:56:53 № 1124480 357

>>1124462
Да, хороший апгрейд. старую то оставил чтобы и её воткнуть?
я вот после 1060ti взял 3060. А потом сразу ещё и 3090 за 65к когда нашел на лохито нормас продавана.
В целом по соотношению цена и память 3060 > 3090 ~ 4060 > 4090.
Но 3090 чуть лучше 3060 если речь про соотношение цены, памяти и скорости памяти.

Аноним 01/04/25 Втр 11:57:35 № 1124481 358

>>1124383
Qwq как используешь, Cline? Ризон отключаешь ему?

Аноним 01/04/25 Втр 12:04:19 № 1124485 359

>>1124480
Уже пообщал племяннику, думаю и с одной видяхой можно будет обкатывать те модельки, которые и сейчас гоняю, может квант поменьше возьму.

Аноним 01/04/25 Втр 12:22:48 № 1124492 360

>>1124269
>Все, дело ракрыток. Нет бы написать, даже на русском
я не согласен.
Сервер в понимании айтишника - это и современная хуйня на тредриперах и говно мамонта, стоящее под столом в мелкой конторе и обслуживающее какой-нибудь сервис. Сервер от слова сервис.
Только для обывателя, который в айти вообще не погружен, слово сервер означает хай энд железо.
>>1124300
но... это основная цель существования у меня рига сейчас...
кум уже не так цепляет, но вот умный и полезный собеседник - это то, что я надеялся увидеть в хорошей модели.

Аноним 01/04/25 Втр 12:56:07 № 1124512 361

>>1124481
VS Code + Continue. Но думал клайн накатить посмотреть.

Но иногда просто копипасшу для QwQ прямо в кобольд. Лол например у меня есть проект в юнити, я просто написал хуйнюшку которая автоматически копирует весь интересующий меня код через рефлексию, собирает в единный промпт и дальше я просто дописываю что мне надо чтобы сделал.

Ризон в целом оставляю обычно. При использовании ЛЛМ есть нюанс - мелкие куски кода написать быстрей, чем написать промпт который их описывает. Поэтому есть просто минимальный размер работы для который я вообще заморачиваюсь с ЛЛМ. А там уже и ризонинг полезен.

Без ризонинга если пользоватся, то там лучше квен включить и даже не 32b. Но это когда надо чтобы оно побыстрей шевелилось.

Аноним 01/04/25 Втр 12:56:23 № 1124513 362

>>1124333
>>1124340
Радость с развития моделей скатили до коупинга отсутствия у себя железа, фу блять.
>>1124390
> Производитель платы ограничил качество, так как знает уёбищную разводку.
Да там что угодно возможно, но это слишком оптимистично для китайцев. Там скорее просто будет популярный баг и юзеры сами должны выставитьпереливать патченый биос программатором чтобы починить, лол.
> разводку
А сколько всего линий может b650 дать? Чето сходу понятных доков амд не нашел, зато опять рофл с отсутствия поддержки 5.0 в платах без E. Но в целом плата не самый плохой вариант, бывает делают где вроде аж 4 дополнительных слота, но все они лишь х1.
>>1124492
> Сервер в понимании айтишника
> Там описано, что она крутой SRE.
Где айтишник? Там буквально специалист по йоба железякам, к которому идет запрос по йоба железке. Просто на голом ассистенте может и были шансы, а тут - изначально некорректно составлено.
Это как ты придешь на консультацию к врачу и начнешь жаловаться на метеоризм. А потом выяснится что это не у тебя а у собаки, которую ты кормишь говном и она заебала перделть, но об этом ты не упомянешь пока не появится прямой вопрос.
> Сервер
> на тредриперах
Лол, про термин "рабочая станция" слышал?

Аноним 01/04/25 Втр 13:18:42 № 1124537 363

>>1124512
А как отключить/добавить reason в Continue плагине? Я так и не разобрался. Объясни, пж <3

Аноним 01/04/25 Втр 13:30:07 № 1124555 364

>>1124537
Он из коробки работает там давно. Должен под спойлером появляться в чате.

Аноним 01/04/25 Втр 16:04:16 № 1124831 365

Аноны, я установил tabbyapi, но когда подключаюсь к этой локалке выдаёт 422 ошибку

"ERROR: Sent to request: Chat completions are disabled because a prompt template is not set."

Корпоративная нейронка предложила этот репозиторий
https://github.com/theroyallab/llm-prompt-templates

В самой папке TabbyAPI есть папка templates (как я понял аналог https://github.com/theroyallab/llm-prompt-templates ) я не знаю какой подойдет для Llama-3.2-3B-exl2 и как настроить? В конфиге надо полный путь указать или в папку с Llama-3.2-3B-exl2 этот jinja нужно поставить?

Аноним 01/04/25 Втр 16:13:50 № 1124859 366

Почему мне кажется что квен умнее на русике чем гемма причем именно сноудроп
Вообще зря все быстро дропнули квен и сели на гемму, я оторваться от него не могу а гема не креативно пишет

Аноним 01/04/25 Втр 16:18:23 № 1124873 367

>>1124513
нет, чел. Я понял в чем проблема.
Проблема локальных мелких сеток в том, что они вообще не понимают, что мелланокс подключается черезх pcie.
Я только что скачал дипсик v2 67b, начал её расспрашивать прям напрямую про баттлнеки в этой ситуации. И даже указал, что сервера - это довольно старые машины. Она не выдала мне предполождение о pcie.
Проблема именно в этом. Просто дипсик чат онлайновый понимает, что мелланокс = pcie, а мелкая - не понимает.

Аноним 01/04/25 Втр 16:21:12 № 1124881 368

>>1124859
>Вообще зря все быстро дропнули квен и сели на гемму, я оторваться от него не могу а гема не креативно пишет
Ну не то, чтобы дропнули, у меня рядом в папке лежат. Просто с чем гемма не справляется, то и квен не тянет (именно сноудроп). На русском может есть какие нюансы, но на английском где-то так.

Аноним 01/04/25 Втр 18:14:37 № 1125099 369

>>1124513
>Чето сходу понятных доков амд не нашел,
Да вроде диаграмма гуглится на раз-два. Но я бы чипсетные особо не считал, там горлышко на 4х4.0, занятое примерно всей периферией.

Аноним 01/04/25 Втр 18:16:23 № 1125106 370

>>1124859
У меня плохой опыт с QwQ Snowdrop был, хотя модель не удалил пока. Хотя пресет брал от автора, со страницы модели. Шизила модель на 4bpw, с опечатками и иногда странной речью. А у тебя какой пресет, что да как? Гемму не пробовал пока еще.

Аноним 01/04/25 Втр 18:17:06 № 1125108 371

>>1124831
Игнорю ртх4050-куна.

Аноним 01/04/25 Втр 18:24:29 № 1125134 372

>>1124287
Чек

Аноним 01/04/25 Втр 18:28:20 № 1125145 373

>>1124485
> 1060ti
> пообещал племяннику
Пиздец.
Он наверно родился в год выхода этой карты

Аноним 01/04/25 Втр 18:32:34 № 1125159 374

>>1124287
>Имеется 4060 8 VRAM, 16 GB ОЗУ, Кобольд, таверна и xttsv2 для озвучки.
>Цели: РП, в частности использовать ллм как гейммастера, чтоб писал хорошие сюжеты.
8 vram это минимальный размер для того чтобы хоть что-то получилось запустить. Такая нейронка потянет максимум 1-2 персонажей. Контекста у тебя будет 8к токенов. Короче этого хватает для ЭРП, но не на ГМ. Пробуй 4-5 кватны формата GGUF.
Какие-то русские модели есть, но я бы даже не пробовал.

>2) Как правильно прописывать промты, чтоб ллм делала, что я хочу.
У тебя слишком большие запросы к нейронке. Она довольно тупая. За сюжетом и ключевыми событиями тебе придётся самому. Что нибудь "Прошлые события:" в автор ноте.

>стиль
Из моего опыта больше всего на стиль письма влияет контекст последних сообщений, то есть тебе нужно в example messages как можно больше примеров запихнуть. Чтобы он сразу начал нормально писать.

Аноним 01/04/25 Втр 18:37:08 № 1125172 375

VYjH1F.png 401Кб, 1258x436

X3FM6Cp.png 24Кб, 756x132

Такой вариант кто-то рассматривал?

Аноним 01/04/25 Втр 18:42:34 № 1125190 376

>>1125108
>>1124831
Мне уже англоязычное комьюнити дало ответ, без скуфских пречитаний как надо в хату заходить.

Нужно скачивать модели instruct для того чтобы не было этой ошибки.

Я впечатлён скоростью работы exl2. Работает в 3-5 раз быстрее.

Llama 3b работает нормально, но часто половина ответа может быть на английском у других моделей 3-4b также?

Аноним 01/04/25 Втр 19:08:37 № 1125250 377

>>1125190
> Мне уже англоязычное комьюнити дало ответ, без скуфских пречитаний как надо в хату заходить.
Избавь себя от страданий и срыгни из треда, ведь больше нет причин здесь находиться.

> Llama 3b работает нормально, но часто половина ответа может быть на английском у других моделей 3-4b также?
Спроси в английском коммьюнити.

Аноним 01/04/25 Втр 19:19:25 № 1125268 378

>>1125190
> без скуфских пречитаний как надо в хату заходить.
Каждый раз анону дают обстоятельный ответ по фактам. Таблетки.

Аноним 01/04/25 Втр 19:20:08 № 1125273 379

Кто-нибудь пробовал QwQ и её производные без размышлений? Как она в сравнении с той же геммой?

Аноним 01/04/25 Втр 19:21:19 № 1125274 380

>>1124346
Это значит, что 12б якобы будет на уровне 30б, что маловероятно.

Если сравнивать ту же гемму с мистралями, она их уделывает, но вот неожиданность, она выдает меньше токенов в секунду, даже если всю затолкать в врам, а контекст геммы весит иногда больше, чем сама модель, ну и так далее.

Если у меня мистраль 24б спокойно летает, то с геммой 27б начинаются проблемы, так как контекст она жрет как не в себя.

Тут скорее стоит ожидать, что возможно, только возможно, выйдет новый мистраль 12б, который будет на уровне 24б но это маловероятно.

А всякие 400б уйдут далеко вперёд, и по сравнению с ними старые поколения будут мусором. И разрыв снова увеличится. Корпоративные модели будут показывать ещё более крутые результаты, от которых будет отваливаться челюсть первое время.

Аноним 01/04/25 Втр 19:23:00 № 1125277 381

>>1125273
>Как она в сравнении с той же геммой?
Гемма умнее и быстрее но суше.

Хотя у квк больше параметров, местами может зарешать.

Аноним 01/04/25 Втр 19:51:01 № 1125335 382

Господа, такой вопрос: хочется поиграть в текстовые игры, но для них требуется хорошее понимание математики моделью, а оно вроде как появляется при довольно больших весах. Собсна какие модели для этого подойдут? И может уже все давно поменялось (год назад почти интересовался вопросом) и та же 27б гемма с играми справляется?

Аноним 01/04/25 Втр 20:32:03 № 1125443 383

>>1124340
Владельцы пары тесел или 4-5 P104 выползают куда-то в выигрыш.
Не напрягались, и получат «золотые» модельки.
Если поддержка в лламе.спп не отъебнет, кек.

>>1124462
Топовый дешман-апгрейд.
Лучше было бы только на теслу для ллм.
3060 тебе и картиночки, и музычку, и видосики, если вдруг надоест дарк или анлишед в 6 кванте.
Отличная карта, поздравляю!

>>1124492
> Сервер в понимании айтишника - это и современная хуйня на тредриперах и говно мамонта
Факт, сервер — это функция, когда там работает софт на постоянке, а ты его раз настроил и забыл (или просто включаешь-выключаешь), а на постоянке пользуешься другим компом.
На сервере крутятся сервисы. =)

>>1124512
Клайн крутой.

>>1125106
Плюсану, русик всрал мне на восьмом кванте, я разочаровался и снес.
Может старая версия или сэмплеры не те, хз.

Аноним 01/04/25 Втр 20:36:50 № 1125462 384

>>1125443
> Плюсану, русик всрал мне на восьмом кванте, я разочаровался и снес.
Забыл уточнить, я на английском играл с Snowdrop. Вообще не понимаю хайпа по QwQ для РП. Так и не смог что-то положительное увидеть, сколько ни пытался с Snowdrop и Hamanasu.

Аноним 01/04/25 Втр 20:39:44 № 1125475 385

>>1124873
> Проблема локальных мелких сеток
Нет, проблема любой сетки в долбоебах на юзере. С этим могут бороться делая дополнительное обучение под даунов из целевой аудитории. Иногда такое идет на пользу общему перфомансу, иногда наоборот его руинит и убивает возможности в других областях. Твой вопрос даже мелкие модели вывозят если спросить нормально, а не сразу вводить в заблуждение.
Представители 95.25% какой только херни не придумают, лишь бы своих косяков не признавать. Не только в разрезе ллм а вообще по жизни.
>>1125099
Оче грустно, а существуют вообще под амд платы чтобы были 3х8 процессорных портов? Чипсетных не только мало, но еще и узкий линк до процессора.
>>1125190
Двачую, срыгспок нахуй, ахуевшая шваль. Тебе кучу разжеванных и подробных ответов написали еще на первые посты.

Аноним 01/04/25 Втр 21:01:07 № 1125527 386

>>1125335
>27б гемма
гемма в целом норм, хотя прям хардкорную дынду может и не вывести

Аноним 01/04/25 Втр 21:02:28 № 1125530 387

возможно ли в стоковой таверне без плагинов в сам файл карточки персонажа таверны зашить несколько изображений? чтобы или разные аватары выводить, или разные картинки показывать в стартовых сообщениях (без external media, т.е. без внешних ссылок)

Аноним 01/04/25 Втр 21:31:12 № 1125591 388

>>1125475
>Нет, проблема любой сетки в долбоебах на юзере
слушай ты, долбоёб на юзере, давай-ка ты пруфанешь как тебе сетка отвечает про pcie без твоего явного указания на него?
Умный сидит блядь.

Аноним 01/04/25 Втр 21:39:03 № 1125615 389

>>1125462
С ризонингом (потому что как без него-то, лол), у него отличный русский и эпический стиль для ролеплея в историях (а не чатах с одним персонажем).
Но гемма не сильно уступает, просто у нее с памятью чуть хуже. А квк себя проверяет, чтобы не перепутать, че писать.

Аноним 01/04/25 Втр 21:42:04 № 1125622 390

1629212583911.png 527Кб, 1894x566

>>1125591
> Докажи что огонь горячий
Чет в голос, чел, это же очевидно.
Специально откопал самую тупую и древнюю модель что была на диске, не менял темплейт и системный с магнума или геммы что стояли до этого, минимизировал вопрос. Как тут можно ошибиться?

Аноним 01/04/25 Втр 21:46:25 № 1125627 391

>>1125622
а видео запиши-ка этой генерации.
А то я тоже в ответе нейронки могу написать что угодно.
И все шаблоны и карточку персонажа покажи в видео.

Аноним 01/04/25 Втр 21:49:54 № 1125634 392

>>1125627
> а видео запиши-ка этой генерации.
Да легко, но сначала ты скинь фото где с супом и флажком в жопе держишь ту сетевуху во рту.

Аноним 01/04/25 Втр 21:55:36 № 1125639 393

>>1125634
ты, говно, меня просто затроллить решил.
Нет пруфов - завали ебало.
На данный момент я убедился уже что предположение про PCIe не выдают:
- magnum 123b
- gemma 3 27b
- deepseek 67b
- command-r plus 104b
Я спросил так же и твоим вопросом на русском - тоже правильного ответа никто не дал.
А у тебя сетка на пике сразу ответ верный даёт, даже без других вариантов.
Ты, сучёнышь, 100% ей ответ сам написал.

Аноним 01/04/25 Втр 22:08:47 № 1125673 394

>>1125639
Где флажок, сучка? Ты заныл - тебе объяснили в чем проблема, стал копротивляться - объяснили подробнее с аналогиями для маленьких, попросил пруфы - получил их. Сам - ничего не притащил. И теперь под тихую пытаешься еще больше требовать или съехать. Флаг в жопу, карту в зубы (или наоборот) и побежал к зеркалу фоткаться, анальный некровод.
> На данный момент я убедился уже что предположение про PCIe не выдают
> Я попробовал 4 вида спичек а 5 зажигалок, у всех огонь обжигает руку!
То что ты ступил и не можешь это признать уже выснили, а теперь доказываешь что буквально упертый шизик. Как еще объяснить повторение одного и того же неверного действия в надежде на другой результат?
> Ты, сучёнышь, 100% ей ответ сам написал.
Да делать мне нехуй больше, иди попизди что мы тут сами себе кум пишем. Но сначала флажок.

Аноним 01/04/25 Втр 22:14:25 № 1125677 395

Братики, а чё сейчас по сеткам с русиком? Для кума и не очень замороченного РП. Даркнесс от анона? Или есть чего получше?
Железки 4070 12gb, Ryzen 7 5700x, 32 gb 3200 ram.
Сейчас сижу на дипсике с опероутера, который v3 новый, в общем очень устраивает, но хочется локалки пощупать.
Заранее спасибо.

Аноним 01/04/25 Втр 22:16:37 № 1125679 396

>>1125673
ты, долбоёб, ты спалился когда у тебя сетка ответила сразу точно в чем причина.
вот для сравнения как выглядел ответ дипсик чата. Там 10 вариантов всего, все в экран не вмещается.
Чё, у тебя там локально крутится сетка круче чем онлайновый дипсик чат?
Ты кому пиздишь, падла ебаная?

Аноним 01/04/25 Втр 22:28:36 № 1125704 397

>deepseek 67b

Аноним 01/04/25 Втр 22:29:23 № 1125707 398

>>1125679
Хм, сетка дала самый простой и очевидный ответ, который долбоеб не смог получить из-за кривого вопроса? Не, не может быть, это
> спалился когда у тебя сетка ответила сразу точно в чем причина
Ебать ору с манямира.
> вот для сравнения как выглядел ответ дипсик чата. Там 10 вариантов всего, все в экран не вмещается
Это микромодель, которой уже скоро год, которую заставили говорить на русском, что там должно быть? Ты серьезно предъявляешь что она не высирает огромные полотна лупов как обучен это делать дипсик? Лучше спроси у него как сделать скриншот страницы с прокруткой, дура.
Иди уже фоткайся и будешь прощен, треду нужен контент а не вялые бейты оподливившегося.

Аноним 01/04/25 Втр 22:32:15 № 1125711 399

>>1125707
в чем ты пытаешься меня убедить, дебилушка?
Тебе задетое чсв не дает заткнуть свой ебальник при очевидном обсёре?
Проигрывать надо уметь, слышал о таком?

Аноним 01/04/25 Втр 22:34:09 № 1125716 400

>>1125711
> копротивление без флажка
Анальный некровод, спок. Ты уже бредишь потому что
> задетое чсв не дает заткнуть свой ебальник

Аноним 01/04/25 Втр 22:35:14 № 1125719 401

>>1125716
ты упорот, школьник?

Аноним 01/04/25 Втр 22:46:29 № 1125737 402

>>1125475
>а существуют вообще под амд платы чтобы были 3х8 процессорных портов
Кто такое будет делать? Только под эпики. Максимум для гоев это 8+8+4 (мб ещё +4, если на NVME забить).

Аноним 01/04/25 Втр 22:48:27 № 1125740 403

3090-ньюфаг на связи.
Вчера в мыслях о апгрейде задался вопросом "а что если по бичу сдать бутылки да взять на эти деньги райзен 5600 как временное решение, да полирнуть новым m2 диском, а потом уже на опыте собирать или йоба комп, или риг+ноут, как пойдет".
И когда гуглил, потянет ли моя материнка из мусорки на а320 чипсете 5600, ВНЕЗАПНО увидел что она тянет ток pci3.0, хотя 3090 тянет 4.0.

В общем фулл ребилд пк неизбежен. Склоняюсь к ам5 ryzen 7700 с авиты. Но по поводу материнки - я привык брать самый дешман обычно, благо выгоднее раз в два года школьникам комп продать и собрать новый (в этот раз подзатянул, и вот огреб). Но почитав треды я понял что если мазаться нейронками, то целая куча подводных, на что обратить внимание при покупке матери?

Пока не планирую дальше одной 3090 прыгать, но ВДРУГ захочется, и будет обидно соснуть из-за мелкой материнки, херового чипа, нехватки линий и чего нибудь еще подобного... Но и покупать АСУС РОГ ГЕЙМИНГ ЭДИШН РГБТ ПАПИЧ ПРО КИБЕРКОТЛЕТА ПУК 90000 по цене текущего компа я не хочу.

Помоги советом анон...

Аноним 01/04/25 Втр 22:53:13 № 1125745 404

>>1125250
>>1125268
>>1125475
Ну ка боярышник накатили ватники

Пока что на huggingface.co
Mistral 7B 0.3v Instruct 3.0bpw
Qwen2.5-Math(coder)-7B-Instruct-2.0bpw
Qwen2.5-Coder-3B-Instruct-abliterated

Топ для 6 гигабайт видеопамяти локальные модели в формате exl2

Аноним 01/04/25 Втр 22:57:34 № 1125750 405

>>1125719
Хорошо, давай восстановим хронологию спора чтобы этому негодяю пришлось дерейлить с самого начала.

> Аноним >>1124231 установил серверную сетевую карту в pci-e 2.0 x1 слот некросборки, у которой оперативная память медленнее этого интерфейса.
> Удивился низкой скорости и пошел спрашивать возможную причину у языковой модели.
> В запросе исказил действительность, представив ее как проблемы с соединением двух актуальных серверов, вместо указания фактического железа.
> Закономерно не получив ответа, стал распространять ложь, что ни одна модель кроме дипсик не способна справиться с такой "сложной" задачей.
> Оскорбился на резонное замечание по некорректности его запроса и начал проявлять агрессию.
> Получив доказательства, начал выдвигать абсурдные требования, сам при этом ничего не предоставляя.
> Не хочет делать патриотическое селфи "с супом" для подтверждения серьезности намерений.

Ну разве не лапочка?
>>1125737
> Кто такое будет делать?
2х8 или х8 х4 х4 встречаются, а здесь линий больше. Правда сейчас найти это можно только в топовых платах, в младших на всем экономят а 5.0 мультиплексоры-драйверы дорогие.
> 8+8+4
Последний будет процессорными? Если так то норм вариант.
>>1125740
> на что обратить внимание при покупке матери?
Вот буквально тебя касающееся обсуждение. Идеальный кейс для двух карт на нейронки - деление процессорных линий пополам. Посмотри материнку, которая поддерживает бифуркацию процессорных линий на 2х8, желательно чтобы те были в разнесенных друг от друга слотах для удобства подключения. Если такое не найдешь или не устроит по цене - смотри на наличие 4.0 х4 порта (лучше больше одного). Именно не х1, не х2 а чтобы по 4 линии было распаяно. Не обязательно в ллм это сильно зароляет, но с другими сетками скорость интерфейса может быть значима.
В остальном - похуй, лучше обрати внимание на хороший бп, который все это потянет.

Аноним 01/04/25 Втр 23:01:20 № 1125757 406

>>1125745
> в формате exl2
> для 6 гигабайт видеопамяти
https://www.youtube.com/watch?v=TI8soN47swk

Аноним 01/04/25 Втр 23:03:19 № 1125764 407

>>1125750
>Хорошо, давай восстановим хронологию спора чтобы этому негодяю пришлось дерейлить с самого начала.
тема закрыта, чел.
Ты написал ответ за нейронку >>1125622, в попытке потроллить. Не получилось, не фортануло, ты был пойман за говно.
Не вижу смысла дальше продолжать с тобой, дефективным, разговор.

Аноним 01/04/25 Втр 23:06:20 № 1125775 408

>>1125764

Аноним 01/04/25 Втр 23:06:41 № 1125776 409

А что запускать на двух 3090?
Просто просто 27-35б в 8 кванте?
70б лама уже не будет так хороша после геммы

Аноним 01/04/25 Втр 23:09:30 № 1125781 410

>>1125750
Спасибо анон за советы, я вроде не совсем тупой, но мой навык собирать компы из авито мусора "топ за свои деньги" немного серит в нейронюансах. Посмотрю спецификации, подумаю.
А бп я вместе с 3090 взял, киловаттный залман. Судя по счетчику с али на розетке, текущий сетап даже 500 ватт не перепрыгнул ни разу на генерации SDXL, так что с этим все в порядке.

Аноним 01/04/25 Втр 23:15:08 № 1125790 411

Ну скиньте рп логи на 123б русике вы черти мне надо знать оно того стоит вообще

Аноним 01/04/25 Втр 23:30:30 № 1125798 412

>>1125740
>ВНЕЗАПНО увидел что она тянет ток pci3.0, хотя 3090 тянет 4.0.
А разница?
>>1125750
>2х8 или х8 х4 х4 встречаются
Первое я знаю только в asus proart b650-creator, второго нет вообще.
>> 8+8+4
>Последний будет процессорными? Если так то норм вариант.
В теории возможно и да. На практике производители матплат забили хуй на бифукацию.
>>1125776
>Просто просто 27-35б в 8 кванте?
Ну да. И контекста отсыпать можно.

Аноним 01/04/25 Втр 23:52:26 № 1125826 413

>>1125776
>70б лама уже не будет так хороша после геммы
Будет. Смотря для чего конечно. Её тюнили, мержили с тем же Магнумом. Бывало, что и удачно. Квант будет немного маловат, кэш квантованный, но смысл есть.

Правда три 3090 ещё лучше - всё то же самое, но уже для 123В.

Аноним 02/04/25 Срд 00:23:45 № 1125862 414

>>1125798
> asus proart b650-creator
> 2 x PCIe 4.0 x16 SafeSlots (x16 single or x8/x8 dual)
> PCIe 4.0
Конечно здесь амд с штаны им сильно подлило, но они совсем дебичи чтобы такое делать? Или это наоборот фича куда применить старые детали под 4.0?
Кмк должны всетаки быть норм платы на амд с бифуркацией хотябы 8+8. Обычно в жопокамне тайчи (или как ее произносить) всегда старались делать, на интоле 690, который один из первых под 5.0 было.

Аноним 02/04/25 Срд 00:56:41 № 1125903 415

>>1125862
>Конечно здесь амд с штаны им сильно подлило
Чем амуда то виновата? Тут только сасус виноват, что въебал четвёрку в плату топ уровня.
>Кмк должны всетаки быть норм платы на амд с бифуркацией хотябы 8+8. Обычно в жопокамне тайчи
Ну кстати да, ASRock X870E Taichi. Всего лишь 80 косарей, и будет конфигурация 8+8+4 пятой версии на проце, если затыквить системный диск, которому придётся толкаться в очереди с двумя десятками девайсов. Осталось найти райзеры с M2 с поддержкой пятой псины, БД с тремя горящими коннектами, ну и того, кто оплатит 3х5090.

Аноним 02/04/25 Срд 01:21:49 № 1125948 416

>>1125677
Тестил сайгу анлишед, даркнесс и omnino-obscoenum-opus-magnum-mn-12b и последняя оказалась лучше всех, как по мне.

Аноним 02/04/25 Срд 02:07:56 № 1126027 417

В пизду эту соевую хуйню блять.
20 сообщений склонял гемму раздеться за информацию которая нужна персонажу, столько сои я ещё не кушал, даже в конце когда всё же добился желаемого она чуть оголила плечи и опять ушла и вумен павер, я выше чем это и так далее
не аблитерейтед

Аноним 02/04/25 Срд 02:12:40 № 1126029 418

>>1125797
> в блинолопатии
404 - прибыльная тема
>>1125903
> Чем амуда то виновата?
Существованием чипсетов, которые режут процессорные линии. Если бы там были чипсетные линии - то и вопросов нет, хочешь больше - бери старший. А это просто рофел, как с переходом с 4.0 на 5.0.
> +4
> если затыквить системный диск
Это не считается, райзер на нвме уже слишком колхозно? и ты просто не найдешь к нему райзер, который не затыквится ошибками в 5.0. По крайней мере в ближайшее время, тут с обычными какбы оче сложно.
> Всего лишь 80 косарей
А че, по дешевле нет совсем подобного, или на барахолках? На интел в этом отношении повеселее все, z690 с бифуркацией на лохито по 15-25к мелькают, z890 30-40к из магазина. Да, это все еще пиздец дорого, но не 80 как там.

Аноним 02/04/25 Срд 02:23:24 № 1126038 419

>>1126027
Анскилл.

Аноним 02/04/25 Срд 03:20:11 № 1126074 420

>>1118225
Очевидно что память это векторная база данных типа qdrant, neo4j, сотни их на самом деле.

Состояние мира нужно держать именно в базе, и перед базой должна стоять своя модель, которая понимает как с ней работать. Условно API которое модель может вызвать чтобы поменять параметры.

В самом простом варианте это может быть тупо набор текстовых файлов. В варианте посложнее это таблички. Самый продвинутый это конечно же графы, где каждый элемент это своя сущность, и сущности связаны друг с другом (ненаправленный граф).

Проблема ролплея тупо через тонну текста, даже если у тебя есть RAG/CAG, у нас есть история изменений объектов, но она тупо не скалируется, нужно как-то суммировать по нескольким измерениям. Для этого используются какие-то документы аля "текущие статы" персонажа/камня/червя в говне. Это всё неплохо, но попробуй собрать релевантные сущности вместе — нужен граф, где сущность "говно" находится рядом с сущностью жопа (в одном облаке), и можно сделать запрос посмотреть когда жопа высрала говно, и сколько вот этой вот конкретной какашке лет. Сущности имеют историю изменений — тоже важно, т.к. "вспомнить" — а как было раньше — можно только если база поддерживает time travel (и такие тоже есть). Там недавно вышла SpacetimeDB для ммо игр, короче нужен прям хороший бекенд для хранения т.н. состояния мира.

Такие вот у меня мюсли в 2:19 АМ из Варшавы.

Аноним 02/04/25 Срд 03:28:34 № 1126081 421

/lmg/ refugee reporting in

Аноним 02/04/25 Срд 03:30:39 № 1126083 422

>>1125172
https://www.youtube.com/watch?v=k_05GRmX8do
https://www.reddit.com/r/LocalLLaMA/comments/1ap8h8q/anyone_tried_a_rtx_2080_ti_22gb/?rdt=54610
30,000 rubles seems too good to be true, make sure you choose the 22gb option, maybe 11-22gb means it has 11gb and not 22gb
but if its a working card then yeah 30,000 rubles is definitely worth a 2080 ti 22gb, best value imo

Аноним 02/04/25 Срд 03:33:20 № 1126086 423

>>1126074
Наверное ещё один вариант это тупо использовать игровой движок, где можно даже рендерить персонажей, окружающий мир и логику взаимодействий писать между ними вручную, и потом модель будет решать как "играть" в эту игру сама, но это долго реализовывать.

Наверное вариант попроще это просто само состояние + набор правил как это состояние можно менять. Типа например можно разрешить менять цифры персонажей (возраст, усталость) — ок. А вот суперспособности у персонажей появляться не могут никак — запрещено на уровне "протокола" работы с базой.

Получается такой список действий, который пользователь сам описал, что-то типа интерфейса/API. Это менее трудозатратно, но всё равно нужно это всё продумать, расписать, структуру данных под каждый объект придумать. Если мир развивается, то и структуры данных тоже по-идее могут, и набор действий/логики тоже.

Революция больших языковых моделей в том, что это по-сути другая парадигма программирования, где мы на вход подаём текст, получаем новый текст — подобно процессорам, где на вход подаём цифры + команды и получаем другие цифры.

РП на основе только одной языковой модели так же ограничен, как ограничен процессор, который только используется для сложения, вычитания, умножения, присвоения переменных. Но человеки построили целые информационные системы, видеоигры, обработку данных на таком простом блоке, как x86.

LLM это x86 условно — она умеет какие-то примитивы считать, но чтобы сделать приложение нужно соединять части вместе, абстракции писать поверх этого и так далее.

Аноним 02/04/25 Срд 03:34:02 № 1126087 424

>>1125172
just saw on third pic that the 22gb version is 36,000 rubles
i'd go for it, anons from /lmg/ had nice experiences with it and they bought it for ~450USD

Аноним 02/04/25 Срд 04:08:26 № 1126100 425

>>1126087
о, да вы из англии
ландан из зе кэпитал оф зе грейт бритон

Аноним 02/04/25 Срд 04:46:02 № 1126107 426

Что лучше - гемма 27b q3_k_m или 12b q8?

Аноним 02/04/25 Срд 05:16:54 № 1126111 427

>>1126107
Да хуй знает, тут говорят между геммой q4_k_m и q5_k_l разница 4%, а 3q это сразу лоботомит - как это работает даже у них в головах хз

Аноним 02/04/25 Срд 05:22:58 № 1126115 428

>>1126111
> q4_k_m
Не влазит

Аноним 02/04/25 Срд 05:39:23 № 1126121 429

>>1126111
>3q это сразу лоботомит
Там не линейная деградация. Чем больше параметров в сетке тем позднее она начинается. На типоразмерах до примерно 70B основная пропасть начинается как раз с Q3.

Аноним 02/04/25 Срд 06:22:15 № 1126129 430

>>1126107
Надо с контекстом наверно считать, а то того и гляди тебе q2 понадобится...

Аноним 02/04/25 Срд 06:49:56 № 1126133 431

>>1126129
Ну в рп, в диалогах.

Аноним 02/04/25 Срд 07:13:42 № 1126141 432

Если я установлю вторую SillyTavern, она не будет никак конфликтовать с первой? Не знаю, может она в реестр срет или что-то подобное

Возможно ли на одном экземпляре таверны вести РП сразу вдвоём-втроём разным людям с разных устройств, где у каждого своя персона и у них нет нужды переключаться постоянно? То есть имеется карточка гейммастер, но каждый из них творит то, что ему нравится, а LLM уже в своём ответе пишет, что произошло, при необходимости связывает адекватно события и их действия, если три игрока рядом. Персоны в таком случае вообще будут работать адекватно? Безусловно, я тут говорю про использовании 100-600б через опен роутер или на через апи оффсайта, ибо сомневаюсь, что 12б вывезет такое, и там ещё контекста минимум 64к надо, из которого персоны/лорбук/скилы/карточка будут жрать эдак 10-15к токенов.

Аноним 02/04/25 Срд 10:10:05 № 1126258 433

У Кобольда юбилей, по этому поводу вышла новая версия. Заявлена поддержка эмбеддингов.

Аноним 02/04/25 Срд 10:14:32 № 1126265 434

>>1126258
>Заявлена поддержка эмбеддингов.
Там ведь отдельная точка входа, то есть можно базу данных, о которой выше говорили, на отдельном компьютере запустить. У Таверны поддержка отдельного API для эмбеддингов есть?

Аноним 02/04/25 Срд 11:28:48 № 1126315 435

>>1126141
В контейнер пихай

Аноним 02/04/25 Срд 12:11:09 № 1126348 436

Использую экслламу через tabbyAPI.
Пытаюсь самостоятельно квантовать модель в exl2.
Запускаю exllamav2/conversion/convert_exl2.py, на вход подаю аргументы в соответствии с документацией https://github.com/turboderp-org/exllamav2/blob/master/doc/convert.md
Но ловлю ошибку. Аргументы не читаются, можно даже неправильные аргументы подавать или просто запустить скрипт.

Ошибка на пикриле. Сори за пик, но это ради форматирования.

Сам я не питонист и мало что понимаю в контексте языка. В треде немало экслламеров. Может ловили подобное или знаете, в чем может быть дело?

Аноним 02/04/25 Срд 12:28:52 № 1126378 437

>>1126086
Двачую этого, понравилось сравнение с х86. По сути ллм без обвязки - просто продолжатель текста, прикольно, но не ответ на главный вопрос о смысле жизни. Но вот ллм в связке с другими нейронками (втч ллм), в обвязке с обычным кодом и игроподобными движками - уже совсем иной уровень. Тут уже можно применять понятия из коуп тренингов как "синергия", "эмерджентность" итд

Аноним 02/04/25 Срд 12:41:31 № 1126395 438

>>1126107
27
>>1126111
Кто говорит? Вообще, действительно есть тема что с определенной битности идет резкий рост отупения. Но q3_k_m это еще самая низкая грань где может быть нормально. Вот ниже уже все плохо.
>>1126348
Сделай git cline репы exllama в корень таббиапи, или куда угодно, и с активированным вэнвом вызывай скрипт оттуда, а не как ты делаешь.

Аноним 02/04/25 Срд 12:46:38 № 1126400 439

>>1126395
> Сделай git cline репы exllama в корень таббиапи, или куда угодно, и с активированным вэнвом вызывай скрипт оттуда, а не как ты делаешь.
Тоже думал, что в exllama2 пакете, который установлен в табби, что-то не так. Но сделал сейчас, как ты говоришь, и проблема не разрешилась.

Аноним 02/04/25 Срд 14:46:50 № 1126532 440

Сап, у меня тут мечта локалочника сбылась и зовут работать с LLM. По требованиям особо не понятно, спрашивают CUDA и балансировку через VLLM. Что посоветуете почитать почитать по теме? Опыт только локального разворачивания есть небольших моделек, ну и базовые знания работы этого всего.

Аноним 02/04/25 Срд 14:50:43 № 1126540 441

>>1126532
Еба, завидую, чел. Ничего подсказать не могу, но держу за тебя кулачки! Обязательно пиши в треде.

Аноним 02/04/25 Срд 16:21:07 № 1126680 442

>>1126532
Почитай про балансировку через vLLM, а про куда и так знать должен, поздравляю, красавчик!

Аноним 02/04/25 Срд 16:27:40 № 1126688 443

>>1125462
Что ж, решил снова попробовать QwQ Snowdrop. Обратил внимание, что автор мёрджа - Trashpanda, обновил файл импорта с настройками. Сильно поменял сэмплер. Я загрузал саму модель и настройки со страницы когда модель только вышла.

И сейчас, с новыми настройками, модель очень даже порадовала. Умнее, активнее большинства Мистралей (но не всех, Мистрали тоже есть очень хорошие). И, что важно, пишет немного иначе и гораздо короче, меньше воды и различных метафор. И да, систем промпт одинаковый, так что дело не в этом. По-прежнему встречаются иногда опечатки в словах, китайские иероглифы и различные странности вроде вроде goING home. Но модель хорошая, интересная. Кто не дал ей шанс - попробуйте.

Аноним 02/04/25 Срд 16:38:59 № 1126715 444

>>1126141
Насчет реестра не знаю, но файлов никаких Таверна не создается за пределами своей папки.

> Возможно ли на одном экземпляре таверны вести РП сразу вдвоём-втроём разным людям с разных устройств, где у каждого своя персона и у них нет нужды переключаться постоянно?
Точно можно подключиться к одной Таверне с нескольких устройств и одновременно использовать ее. Насчет персоны - не знаю, не пробовал. Однако точно сработает в рамках одной персоны описать несколько персонажей, и в рамках общего чата каждый будет писать о себе в третьем лице. Например,ты завел одну персонажу и в рамках нее рассказал про Ваню, Игорька и Серегу. Теперь просто пишите в чате "Серега пошел домой." "Ванек обнес хату деда" и все такое.

> LLM уже в своём ответе пишет, что произошло, при необходимости связывает адекватно события и их действия
Да, есть и карточки персонажей, в которых несколько персонажей описаны. Это работает, если модель не слишком глупая. 12б не вывезет, конечно, но я вот локально играл на 24б моделях, отыгрывая двух персонажей, и давая ллмке контроль еще над двумя, в рамках одного чата.

Аноним 02/04/25 Срд 17:14:07 № 1126800 445

РП-файнтьюн на Яндекс-гпт подвезли.
https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Аноним 02/04/25 Срд 17:22:46 № 1126817 446

>>1126800
>8b
>файнтюн на яндексофайнтюн квен

Звучит как отборный кал, готов простить разве что если будет реально русский колорит, аля "мы стоим с ней в обоссаном подьезде пятиэтажки, из засиженного мухами окна видно, как закончившие уроки школьники у пятерочки ловят взрослого, что бы купил им энергетик, на подоконнике стоит банка томатной пасты, полная бычков. Она достает Петр-1 и спрашивает "Будешь?""

Аноним 02/04/25 Срд 17:28:13 № 1126826 447

>>1126800
... а ггуф можно?

Аноним 02/04/25 Срд 17:31:59 № 1126835 448

Можете посоветовать где что почитать по embedding-моделям (конкретно для Таверны) и где их взять, для русско-английских языков? Про RAG-то многие говорили, да что-то заглохла тема, а интересно же.

Аноним 02/04/25 Срд 17:33:01 № 1126839 449

>>1126800
И как он?

Аноним 02/04/25 Срд 17:44:42 № 1126865 450

>>1126688
Он выпустил аж три разных сноудропа, какой именно у тебя? v0, v1-exp1, v1-exp2, v1-exp3?

Аноним 02/04/25 Срд 17:49:04 № 1126876 451

>>1126688
И подожди, о каких именно настройках ты говоришь? Я что-то не понимаю.....

Аноним 02/04/25 Срд 18:26:12 № 1126966 452

>>1126400
Возможно что-то не так с реквайрментсами в вэнве табби (хотя для экслламы нужно совсем минимальные). Или какие-то странные проблемы, погугли когда стековерфлоу поднимется.
>>1126532
Вопросов может быть множество а ответы на них самые разные. Советую почитать про CUDA и также ознакомиться с балансировкой vLLM не удержался

Аноним 02/04/25 Срд 18:26:23 № 1126967 453

>>1126817
Не, 8б яндекса самостоятельная модель на основе ламы тройки, не тьюн квена. Только учитывая, что в основе претрейн, а тьюн не учили слушаться инструкций, вероятно, на систем промпт ей будет срать. Зато теперь желающие могут заняться любимым делом любителей русика в треде - мержить эту модель с сайгой.

Аноним 02/04/25 Срд 19:49:11 № 1127076 454

>>1126029
>Существованием чипсетов, которые режут процессорные линии.
Насколько я понимаю, это разделение чисто маркетинговое, чтобы юзвери знали, где новая пятая версия, а где четвёртая. Ну а чипсеты без Е с четвёртыми линиями просили сами производители плат, мол, обывателям нахуй не сдалась пятая псина (а она реально не нужна в обычном применении), разводить её сложно, цены плат растут, и можно вот так сэкономить.
Вот старшие чипсеты из двух половинок реальное наебалово, да выпуск 800 серии, где из изменений только требование USB4. Вот к версии без Е я претензии не имею.
>райзер на нвме уже слишком колхозно
На самом деле весьма просто. У меня у самого стоит через плату на нвме, в которую воткнут переходник на окулинк.
>и ты просто не найдешь к нему райзер, который не затыквится ошибками в 5.0
Само собой. В этом и суть. По итогу пятая версия нахуй не нужна.
>А че, по дешевле нет совсем подобного, или на барахолках?
Может и есть, я не смотрел.

Аноним 02/04/25 Срд 20:12:50 № 1127115 455

>>1126865
>>1126876
v0. v1 - это пока тестовые релизы, их не нужно трогать. Вот модель https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0
Настройки там в описании, ссылка на master import. Автор их отредактировал, а я долгое время на старой версии сидел. С текущими настройками модель хорошо себя показывает.

Аноним 02/04/25 Срд 20:45:52 № 1127177 456

>>1127076
> это разделение чисто маркетинговое
В том и весь прикол. Как-то оправдать их можно было бы отсутствием разницы в роялити или стоимости для вендоров разной версии чипсетов. Но едва ли такие данные где-то можно найти. Эта херня с искусственным обрезанием у них уже в который раз.
> разводить её сложно
Было бы релевентно, если бы 5.0 не работала на полуметровом райзере с допуском только под 4.0. Да, срабатывает только на фирмовых а не китайщине, но раз в таких условиях живет, то к разводке короткой линии от процессора до верхнего слота вопросов быть не должно.
> По итогу пятая версия нахуй не нужна.
Отсутствие костыльных райзеров для нвме - сомнительный аргумент. Релевентным может быть отсутствие видеокарт под них.
> Может и есть, я не смотрел.
Как же так, вроде тред успешных людей, неужели никто не хотел как тот чел себе спланировать апгрейд под потенциальный мультигпу, или собрать риг на амд?

Аноним 02/04/25 Срд 21:06:00 № 1127214 457

бля кароч у геммы3 аблитирация подъехала и сейвтензорс и гуфы, ну и вот кароч если импортировать сторонние гуфы в оламу то там бля нихуя хайповый VISION не работает, если качать из ихней репозитория моделий то всё збс но там нет аблитирации, пробывал етот аблитирированый гуф засовывать в кобольт оно даже пытается чёто там распозновать картинки, но получается полная лажа (не сравнится с обычной гемой3 из реп оламы), а потом я читаю оказывается в гуфах ваще нет и не можит быть понтдержки VISIONа потму что лама.спп не поддерживает ету фукнцию (так написано в описании модели у унслота по крайней мере)

Аноним 02/04/25 Срд 21:09:43 № 1127222 458

>>1127177
>инфы нет
>уверен, что разница в стоимости присутствует
Ну бля, ну нормально же было, чего начинаешь то?
>Эта херня с искусственным обрезанием у них уже в который раз.
Режут производители материнок, вряд ли их заставляют брать не Е версии. А вот с топами на В650 чипсете думаю таки выебли, чтобы не выёбывались и лепили двухчипсетного кривого франкенштейна в флагманы на Х870-м.
>Было бы релевентно, если бы 5.0 не работала на полуметровом райзере с допуском только под 4.0.
А ты уверен, что оно корректно работает? Там как бы алгоритмы коррекции, оно не ломается, просто начинает тормозить. А при типичном использовании это можно и не заметить.
>Релевентным может быть отсутствие видеокарт под них.
Так их и не было несколько лет, если ты вдруг не заметил. Вот только недавно вышли. Диски тоже по сути отсутствуют, один кривой контроллер на все версии дисков под PCI-E 5.0, который в пользовательских ситуациях сосёт у топов четвёрки, тоже такое себе.
Ну и видяхи хоть и появились, но толку от пятой версии нет. Да и от четвёртой нет, 16х3.0 хватит всем, даже 5090.
>спланировать апгрейд под потенциальный мультигпу, или собрать риг на амд
3 карты это такой себе риг. Скорее компромисс. А в треде сидят либо на 1-2 картах, что можно собрать почти на любой плате, либо собирают реальные риги, и десктопных плат там по определению будет мало. В итоге АМ5 со схемой 8+8+4 и тут оказывается нахуй не нужным, сильно нишевым.

Аноним 02/04/25 Срд 21:11:05 № 1127227 459

>>1127214
>оламу
>не работает
Ожидаемо. У меня в кобольде вижен вполне себе пашет. Правда на гемме 3 он далеко не фонтан, особенно в НСФВ, там он вообще сисек-писек не видит, и все у него максимум "полураздетые".

Аноним 02/04/25 Срд 21:27:47 № 1127249 460

>>1126967
>мержить эту модель с сайгой
это разные архитектуры и разное число параметров, при попытке веса просто разъебашит в кашу, если вообще запустится

Аноним 02/04/25 Срд 21:44:14 № 1127281 461

>>1127227
>>1127214
всё кароч разобрался с кобальдом походу там ему надо понтсовывать помимо самой модели ещё и vision файл какойто MMPROJ
алсо оламу тоже можно сделать вижон на стороних гуфах сначала качаещ целиком веса потом засовываеш в ламу попутно делая квант какой нибудь

Аноним 02/04/25 Срд 21:50:07 № 1127290 462

>>1127222
> чего начинаешь то
Что начинаю? Это же пиздец, уровень - мемная подписка на жопогрев и другие опции в бмв. Отвращение к такой регулярно практикуемой политике компании-лжеца - единственно адекватная реакция. Извини что задел твои чувства, сразу бы написал что фанбой красных и триггеришься с любой критики.
> Режут производители материнок
Еще скажи что пользователи сами этого хотят, отказываясь от доплат. Уже погуглил тему и еще больше проорал, там буквально есть идентичные платы с разницей в ррц.
> А ты уверен, что оно корректно работает?
Ошибки логируются. Но даже мониторить не нужно, по производительности видно сразу.
> но толку от пятой версии нет. Да и от четвёртой нет, 16х3.0 хватит всем
лол
> 3 карты это такой себе риг
Это самый разумный вариант. Во-первых, это разумный потолок для 3090/4090, во-вторых 3-4 это потолок для удобного размещения, в-третьих делается легко и эффективно или старым hedt с 16+16+8 3.0, или относительно современной платформой с 8+8+4 4.0/5.0. 4я карта подключается по чипсетным линиям при необходимости. Для ллм и простого они норм, но при тяжелом по io инфиренсе или тем более тренировке будет посос.
Больше - слишком медленно, трудности с упаковкой, а сама платформа - оче дорого и с нюансами.
А от использования поделенных процессорных линий вместо чипсетных и на десктопе будет буст, если делаешь что-то кроме ллмок на кобольде. Собственно с этого обсуждение и пошло если отмотаешь. Если смотреть в будущее то поддержка 5.0 с бифуркацией, особенно если ты не только ии-зависимый но и гей_мер будет важной.
> АМ5 со схемой 8+8+4 и тут оказывается нахуй не нужным
Ну типа если ее можно взять занидорого то выбор чемпионов, чего плохого? Хоть в десктоп, хоть в риг, в последнем также альтернатива 12х00 + z690. x299 кончились, сейчас и платы и процы стоят уже дороже вот такого десктопа, да и синглкор тухловат.
> собирают реальные риги
Показывай их и обозначай "реальные" преимущества.

Аноним 02/04/25 Срд 22:10:06 № 1127327 463

>>1127290
>Еще скажи что пользователи сами этого хотят
А возьму и скажу. Нахуя рядовому юзеру пятая псина? Вот люди и экономят, покупая мамки без пятой.
>Ошибки логируются.
Покажи куда, я проверю. Могу даже пошатать свой окулинк, хули там надеюсь на дата линиях не сгорит.
>Но даже мониторить не нужно, по производительности видно сразу.
И как?
>>Да и от четвёртой нет, 16х3.0 хватит всем
>лол
Хуйлол. В игровых тестах разница на уровне погрешности, особенно если врама достаточно.
>А от использования поделенных процессорных линий вместо чипсетных и на десктопе будет буст
Ну это само собой. Впрочем проверить надо бы, но мне всё лень.
>Если смотреть в будущее то поддержка 5.0 с бифуркацией
Так и останется нишевой на оверпрайснутых платах. Увы.
Не, я сам то только за, и уже можно сказать мечтаю о той таичи у меня была таичи на х470, плата хорошая, но на AM5 я уже решил сэкономить на чипсете и паре 5090, но понимаю, что это дорого.
>Ну типа если ее можно взять занидорого
Не будет бифукация нидорого по определению, особенно на пятой псине. Наоборот, раньше бифукация встречалась чаще. Всё таки свитчи и редрайверы PCI-E 5.0 стоят прямо конских денег.
>x299 кончились
У китайцев даже х79 в наличии, лол.
>Показывай их
В шапке мелькают на 5-6 карт.

Аноним 02/04/25 Срд 22:12:36 № 1127330 464

У меня встройка рязани выдаёт 3 токена/с. Я пробовал чисто на проце, 2200г, и там почти так же, 2.6 токена где то. Это что получается, с рязанью 5600 или чего помощнее я получу 10 токенов/с? Или скорость памяти не даст выше определенного порога? Как посчитать?

Аноним 02/04/25 Срд 22:17:14 № 1127336 465

>>1127330
Ну и по гикбенчу 5600 в 3 раза быстрее. Значит будет около 8 т/с? Есть тут из анонов кто на рязани гоняет сетку?

Аноним 02/04/25 Срд 22:21:04 № 1127347 466

>>1127330
У амуды всё очень плохо со скоростью памяти, они на сплошном кэше едут. Выжать 100 гб/с на рязани - это прям событие, причём только на двух плашках.

Аноним 02/04/25 Срд 22:26:11 № 1127356 467

>>1127347
И? У меня 3200 память, если что. Ну если на чистом проце 2.6 токена то норм же? Вот у дикпика спросил щас, и вот что аыдал.

Чтобы оценить потенциальный прирост производительности при переходе на Ryzen 5 5600, нужно учесть несколько факторов:

---

### 1. Архитектурные улучшения
- Ryzen 3 2200G (Zen+) vs Ryzen 5 5600 (Zen 3):
- Zen 3 обеспечивает ~19% прирост IPC (инструкций за такт) по сравнению с Zen+.
- Более высокие частоты: до 4.4 GHz против 3.7 GHz у 2200G.
- 6 ядер/12 потоков против 4 ядер/4 потоков.

- Гипотетический прирост (однопоточный):
```(4.4 / 3.7) * 1.19 ≈ 1.4x```
Многопоточный: Зависит от оптимизации кода. Если задача масштабируется на 6 ядер, прирост может достигать ~2.5–3x.

---

### 2. Влияние памяти
- Ryzen 2200G: Обычно работает с DDR4-2933.
- Ryzen 5600: Поддерживает DDR4-3200+ (зависит от материнской платы).

Если память останется прежней (например, DDR4-2933), пропускная способность может ограничить производительность, особенно для больших моделей.
Пример: При переходе на DDR4-3600, пропускная способность увеличится на ~23%, что может дать дополнительный прирост.

---

### 3. Оценка токенов/с
- Текущие результаты:
- 3 токена/с (Vega 8 + CPU) и 2.6 токена/с (только CPU).
- Видно, что встроенная графика дает небольшой прирост, но не критичный (возможно, код слабо оптимизирован под GPU).

- Прогноз для Ryzen 5600 (только CPU):
Если задача хорошо параллелится, можно ожидать:
```2.6 токена/с * 2.5–3 ≈ 6.5–8 токенов/с```
Если оптимизация хуже (например, зависит от одного ядра):
```2.6 * 1.4 ≈ 3.6 токена/с```

---

### 4. Ограничения
- Скорость памяти: Если модель требует частого доступа к ОЗУ, медленная память станет узким местом. Для Ryzen 5600 рекомендуется DDR4-3600.
- Оптимизация ПО: Используются ли библиотеки вроде llama.cpp с поддержкой AVX2? Ryzen 5600 поддерживает AVX2, что ускоряет матричные вычисления.
- **Тепловыделение:** Убедитесь, что система охлаждения позволяет процессору работать на максимальных частотах.

---

### **Рекомендации**
1. **Проверьте загрузку CPU/GPU:** Убедитесь, что текущая система не ограничена другими факторами (например, загрузка данных с диска).
2. **Протестируйте на Ryzen 5600:** Если возможно, проверьте производительность на аналогичной системе.
3. **Обновите память:** Для Ryzen 5600 используйте DDR4-3600 для максимальной производительности.

---

**Итог:**
С Ryzen 5 5600 и быстрой памятью вы **можете получить 6–8 токенов/с**, если код хорошо распараллелен. Реальный результат будет ближе к **5–7 токенов/с** из-за накладных расходов и ограничений памяти.

Аноним 02/04/25 Срд 22:28:12 № 1127362 468

>>1127356
И 3200 2 планки по 16 гигов.

Аноним 02/04/25 Срд 22:34:23 № 1127378 469

>>1127362
А если до 64 гигов добить, то можно запускать такие модели которые ни одна видяха не вытянет... Ну или окно контекста до усрачки накрутить.

Аноним 02/04/25 Срд 22:51:59 № 1127402 470

1.png 4Кб, 601x28

Анон, что дал мне биос. Ты думал, что я послушаю тебя и не стану заливать исправленный вариант при несовпадении хешей? Как бы не так! Ухахаха! встает в горделивую позу больного шизофренией, глаза недобро поблескивают в свете полной Луны. Я залил! И все запустилось! торжественно гляжу по сторонам, как будто бы вокруг меня собралась толпа страждущих получить откровение из первых уст
А вообще все довольно просто оказалось. Сначала мне пришел криво спаянный программатор, я даже не попробовал его и вернул обратно. Сегодня пришел новый и я сразу же, задыхаясь от жадности, стал его испытывать. Сначала надо было найти чип. Хорошо, что ща камеры у телефонов ебейшие, я бы ни в жисть не разглядел маркировку глазами, а так довольно быстро по гуглу пробил. Прищепка тоже сразу сработала. Я считал дамп, потом решил залить твой. Затем перечитал чип, и... дампы различные были, лол. Сердечко екнуло, гугл молчал. Я решил вынуть батарейку и еще в интерфейсе нашел опции стирания памяти и проверки после записи (почему подумал про стирание - потому что я видел, что программатор, видимо, огромные блоки из FF в дампе тупо скипает при записи, прогрессбар быстро их проскакивает и светодиод work не горит при этом). Хз что из этого помогло, но запись успешной оказалось. Потом еще раз вручную прочитал на всякий, в этот раз дамп совпал с твоим образом. Потом запустил, и черный экран... тут опять екнуло, но это я питание в карту забыл вставить (какие же отвратительно тугие разъемы питания у платы, к слову. Да и вообще в целом у разъемов питания. Почему каждый раз вытаскивание и всовывание превращается в пытку, после которой кожа на пальцах облезает и они болят по полдня? Каждый раз вспоминаю, что надо это в перчатке делать, уже когда намучаюсь.). Все работает, ядра разблокировались. Карты только в конце недели получится проверить, как обычно я не рассчитал с разъемами питания и нужно ждать, пока придут переходники. Плюс реобас на вентиляторы тоже (по отзывам греется и работает нестабильно, но лучше на ебучем озоне не нашел, сука, а с китая ждать 100500 лет неохота).
Там не надо еще что-нибудь в биосе переключать кроме уже включенного above 4G? А то там миллион каких-то настроек для PCI-E
А еще я смог подключить пеку к этой материнке по ethernet и даже подключиться по ssh, вот! Чтобы не тратить ресурс карты на графику, буду так делать.

Аноним 02/04/25 Срд 22:52:48 № 1127403 471

>>1127378
>А если до 64 гигов добить, то можно запускать такие модели которые ни одна видяха не вытянет...
Запускать-то можно. Даже без оперативки, на чистом SSD можно. И зачем люди риги собирают? Дураки наверное.

Аноним 02/04/25 Срд 22:54:12 № 1127407 472

>>1127403
И сколько токенов чисто с ссд?

Аноним 02/04/25 Срд 22:55:37 № 1127412 473

>>1127327
> экономят
Экономия - это хорошо. Но здесь наоборот навязывание доплаты за то, что ты уже заплатил, оно заложено в проц и все спецификации. На ам4 с платами, которые делались еще до появления стандарта (что не мешало им отлично работать когда ломанули) - ну ок. Или было бы урезано то, что зависит от чипсета - нет вопросов, но здесь буквально развод на деньги. Про "сложности разводки" это вообще рофел, ирл никто не будет пускать в разработку дополнительную версию и держать лишнюю сборочную линию ради "экономии на разводке", особенно учитывая что после ддр5 оно само по себе появится. Самую критическую область у соккета многие вообще копипастят с аппнотов.
> Покажи куда
Самый простой - запускаешь hwinfo и мотаешь в самый наз до whea, там при наличии появятся "ошибки шины pci-e" или типа того. В журнале событий шинды все засрет капитально. На линуксе не уверен пишет ли оно те эвенты с дефолтной глубиной логов ядра, возможно потребуется сменить уровень.
> И как?
Что как? Так.
> В игровых тестах
Когда-то действительно так и было, даже х8 проявлялся только в самых старших карточках. Но сейчас требования растут и х8 3.0 уже хорошо затыквит. Особенно рофлово наблюдать за сравнением нищекарт, где количество линий порезали, хотя это самый лоу тир.
> Впрочем проверить надо бы
Че проверять, как есть говорю. На инфиренс ллм не распространяется, разве что лоб-в-лоб сравнить 2 карточки и на одной процентов на 5 ниже будет, в генерации картинок уже до 10. Но стоит запустить батч обработку чего-то небольшими сетками и уже просадка будет крупнее. На амд, где карта будет соперничать с дисками по одной х4 на всех, там вообще печально может оказаться.
> Не будет бифукация нидорого по определению
Я про вторичку, там такие платы с ддр5 мелькают относительно недорого. Плохо что их массово не делают, конечно, может этот ии бум частично улучшит ситуацию.
> стоят прямо конских денег
Дорого, но не настолько конских. Просто вендоры предпочитают пихнуть лишних 3 порта а-лгбт подствет_очка вместо них. А ставят уже в самые-самые топы (непонятно для кого) где по определению должно быть все.
> У китайцев даже х79 в наличии, лол.
Чтож ты делаешь, содомит.
> В шапке мелькают на 5-6 карт.
Кажется что это один чел собирает многоножек для скриншота, красавчик и молодец. Большинство довольно сидят с 2-3-4 и правильно делают, свитспот.

Аноним 02/04/25 Срд 23:00:53 № 1127419 474

Что у геммы с позиционированием блять
Она тупая реально, какой тут ум?
Сидит тян на втором этаже читает книгу, я тренируюсь на улице в 50 метрах, она выглядывает в окно и НАКЛОНЯЕТСЯ К МОЕМУ УХУ предлагая мне сесть рядом и ПОПРАВЛЯЯ СВОЙ КЛИВЕДЖ, кроме очевидного проеба - что я там увижу с 50 метров и услышу ведь она даже не кричит мне, короч погружения в сцену нет вообще
Англюсик конечно же

Аноним 02/04/25 Срд 23:05:15 № 1127430 475

Мужики, сижу через Кобольд, контекст выставляется внутри, всё понятно, не понятно от какой характеристики компа зависит этот контекст сайз.

Аноним 02/04/25 Срд 23:05:23 № 1127431 476

>>1127419

Аноним 02/04/25 Срд 23:10:55 № 1127439 477

>>1127412
>Про "сложности разводки" это вообще рофел
Редрайверы такие "Я шутка для тебя?". Даже четвёртая версия не всегда стабильно работает, лол. На моей мамке нижний слот порезали до тройки аж с пятёрки, наверное не просто так.
>ирл никто не будет пускать в разработку дополнительную версию и держать лишнюю сборочную линию
Но ведь держат же.
>whea, там при наличии появятся "ошибки шины pci-e" или типа того
Я не видел там ошибок.
>Но сейчас требования растут и х8 3.0 уже хорошо затыквит
Но мы то говорим про 4.0х16 vs 5.0х16.
>Особенно рофлово наблюдать за сравнением нищекарт
Благо они к нашей теме отношения не имеют.
>Че проверять, как есть говорю.
Доверяй, но проверяй, хули там.
>Я про вторичку
Мать я бы с рынка не брал бы.
>Кажется что это один чел собирает многоножек
2,5 минимум. Один в шапке, один жаловался, что его не добавляли в шапку.
>>1127430
>не понятно от какой характеристики компа зависит этот контекст сайз
От объёма твоей памяти. А вообще, сколько выставишь, по умолчанию там всегда 4к, лол.

Аноним 02/04/25 Срд 23:12:16 № 1127441 478

>>1127431
Сука, я примерно это и представил когда прочитал описание анона.

Аноним 02/04/25 Срд 23:13:19 № 1127445 479

>>1127439
Врама? Оперативы, ссд, кого нахуй? Характеристики такие : 3060 12гб, 16рам 3200, ссдшник чисто под нейронки, саташник, проц райзен 5 5600.

Аноним 02/04/25 Срд 23:14:17 № 1127450 480

>>1127419
У тебя, быть может, контекст поехал? Ты его до Q4 не квантуешь случаем? Или уже переполнен был?

Аноним 02/04/25 Срд 23:23:22 № 1127474 481

>>1127439
> Редрайверы такие "Я шутка для тебя?"
Мультиплексоры для возможности бифуркации на два слота - да. А редрайверов на платах с Е (и не только их) как-то не наблюдается.
> Но ведь держат же.
Не держат, там один и тот же текстолит.
> Я не видел там ошибок.
Значит все ок. Что за за железки и что за райзеры?
> Но мы то говорим про 4.0х16 vs 5.0х16.
Я сразу писал про то, что иметь 5.0 х8 гораздо лучше чем 4.0 х8, ибо как раз будешь в том же положении, что и "не страдающие" 4.0 х16. А с чем ты спорил - хз.
> Мать я бы с рынка не брал бы.
Не страшнее чем карточка, лол. А учитывая на чем собирают здесь риги - свежая материнка с проверкой это вовсе не плохо. В магазине - z890 с бифуркацией около 30к новые встречаются, это самое дешевое. На амд вариантов кроме мсины за 100к не видел, но что-то тоже должно быть.
> 2,5 минимум.
Ну то теслоебство через х1 линии уже, хз подходит ли под полноценный риг. По перфомансу с таким колечеством некроты точно удавиться от печали можно.
> Один в шапке, один жаловался
Это один и тот же, не? Без осуждения если че.

Аноним 02/04/25 Срд 23:23:55 № 1127476 482

>>1127450
>У тебя, быть может, контекст поехал? Ты его до Q4 не квантуешь случаем? Или уже переполнен был?
Ну я нет, Q8 и полный контекст, те же проблемы. Видимо этого в датасете не было. Или просто 27В - параметров мало.

Аноним 02/04/25 Срд 23:26:43 № 1127484 483

>>1127419
Из того что у меня щас в папочке мистраль, гема, немотрон, квен только квен сноудроп не обосрался, а там где обосрался был свайп что я быстро дотопал до комнаты тян и внезапно там оказался что тоже логично

Аноним 02/04/25 Срд 23:26:46 № 1127485 484

>>1127476
>те же проблемы
Кстати я специально в инструкции добавил, чтобы Гемма положение тел персонажей относительно друг друга описывала. Немного помогает, но не сильно. Дыра там у неё.

Аноним 02/04/25 Срд 23:29:15 № 1127496 485

>>1127484
Странно. По моему опыту, Мистрали нормально осознают положение предметов и персонажей в сцене. Та же Кидония 2.1, например. Обычно если я и ловил такие проблемы, то у меня были проблемы с сэмплерами или еще чем-нибудь, вроде чепухи в промпте.

Аноним 02/04/25 Срд 23:35:12 № 1127514 486

>>1127450
Нет, буквально новый чат первое сообщение

Аноним 02/04/25 Срд 23:38:13 № 1127518 487

>>1127514
Аблитерированная Геммочка или ванилла?

Аноним 02/04/25 Срд 23:39:10 № 1127521 488

О, не заметил сразу, сноудроп ещё и крикнул мне а на немую улыбку отреагировал мыслями как обычно и бывает ирл, а не стал вести диалог в обычном тоне между персами на расстоянии

Аноним 02/04/25 Срд 23:39:40 № 1127524 489

>>1127518
И то и то обосралось

Аноним 02/04/25 Срд 23:52:01 № 1127546 490

Че там по файнтюнам на гемму? Вышло что-нибудь приличное, или сохраняется тот же положняк, что был с двойкой - всем похуй и никто даже на нее не смотрит?

Аноним 02/04/25 Срд 23:55:11 № 1127551 491

>>1127546
FallenGemma от TheDrummer. Он заинтересован в модели и хочет сделать что-нибудь еще, но пока что у него горит с огромного количества цензуры и датасета, который для этих целей загрузили соответствующей информацией. Будем посмотреть.

Мне больше за QwQ немного обидно, особенно после того как сегодня его распробовал. Реально крутая модель для РП, в итоге есть только Snowdrop v0. И тот - мёрдж, даже не тюн.

Аноним 02/04/25 Срд 23:57:48 № 1127553 492

Самому что ли попытаться тюн и мёрджинг освоить...

Аноним 02/04/25 Срд 23:59:36 № 1127555 493

>>1127551
>TheDrummer
Это те которые в свое время "смегму" запили, или типа того? Нейминг у них конечно отбивал всё желание тестить это васянство. Ну а вообще, как модель? Дрисня уровня аблитерации, или юзабельно?

>Мне больше за QwQ немного обидно, особенно после того как сегодня его распробовал. Реально крутая модель для РП
Как я понимаю, для рп, но не для ерп?

Аноним 03/04/25 Чтв 00:04:27 № 1127561 494

>>1127555
> Нейминг у них конечно отбивал всё желание тестить это васянство.
TheDrummer буквально один из лучших тюнеров в контексте Мистралей. Многие тюны являются тюнами его Cydonia или мерджат эту модель в свою.

> Ну а вообще, как модель? Дрисня уровня аблитерации, или юзабельно?
Все еще можно словить отказ или цензуру. Полностью вырезать это без полной аблитерации не удалось, по крайней мере сейчас. При этом позитивити биаса гораздо меньше. Противоречивые впечатления, но тебе ничего не стоит ее скачать и попробовать.

> Как я понимаю, для рп, но не для ерп?
У всех разные запросы. В контексте ЕРП тоже протестил, мне понравилось. Не хуже Мистраля точно. Цензуру и отказы не ловил. Если для ЕРП, попробуй Transgression. Это Мистраль, выше советовал его. Вот он может в самые подробные описания всего процесса и сопутствующих деталей, если ты ищешь именно это.

Аноним 03/04/25 Чтв 00:09:32 № 1127573 495

>>1127561
>TheDrummer буквально один из лучших тюнеров в контексте Мистралей.
Я не слежу особо за новыми моделями (копросеточник, хули с меня взять) и последний раз про этих бобров слышал наверное год назад и тогда их модели было мягко сказать каловыми.

>Противоречивые впечатления, но тебе ничего не стоит ее скачать и попробовать.
Вообще да, но не с той скоростью, которую выдает обниморда. Модельку на тридцать гигов качать часа полтора-два, если не больше.

>В контексте ЕРП тоже протестил, мне понравилось. Не хуже Мистраля точно.
Оригинал тестил или тюн какой-то? Если оригинал, то как там с пробивом сои?

Аноним 03/04/25 Чтв 00:14:05 № 1127581 496

>>1127573
> тогда их модели было мягко сказать каловыми.
Вполне возможно. Год назад я темой не интересовался, но когда вкатывался в ноябре - все топовые на тот момент (и до сих пор) Мистрали базируются на Cydonia.

> Вообще да, но не с той скоростью, которую выдает обниморда. Модельку на тридцать гигов качать часа полтора-два, если не больше.
Почему 30 гигов? Тебе железа хватает, чтобы запустить Q8? С таким железом грех не следить за локалочками. По скорости - хз что ты имеешь ввиду, через huggingface-cli никогда не ловил боттлнек.

> Оригинал тестил или тюн какой-то? Если оригинал, то как там с пробивом сои?
Snowdrop тестил, про который и писал. Оригинал для РП не годится совсем, там датасет для этого не предназначен вовсе.

Аноним 03/04/25 Чтв 00:15:27 № 1127583 497

>>1127445
>Врама?
Чего же ещё?
>>1127474
>А редрайверов на платах с Е (и не только их) как-то не наблюдается.
Прямо в нашей беседе на схеме >>1125903
Иначе до нижнего слота не дотянуть.
>Не держат, там один и тот же текстолит.
Может допуски разные, слои меди, ещё чего. Может в безъешку идёт отбраковка, лол.
>Значит все ок. Что за за железки и что за райзеры?
3090, Asrock B650E Steel Legend, райзеры Oculink пикрил.
>чем 4.0 х8
А на нём есть подтверждённые проблемы?
>Это один и тот же, не?
Да вроде нет, чел бы не жаловался, если бы его не игнорили ))

ПЕРЕКАТ Аноним # OP 03/04/25 Чтв 00:20:18 № 1127591 498

ПЕРЕКАТ

>>1127590 (OP)

ПЕРЕКАТ

>>1127590 (OP)

ПЕРЕКАТ

>>1127590 (OP)

Искусственный интеллект

Тред закрыт.