Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 526 59 90
Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №119 /llama/ Аноним 03/04/25 Чтв 00:19:46 1127590 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
KL-divergence s[...].jpg 223Кб, 1771x944
1771x944
Хорошо прожарен[...].jpg 11986Кб, 6112x6112
6112x6112
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна и обоссываем калотарок.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1118220 (OP)
>>1111645 (OP)
Аноним 03/04/25 Чтв 00:29:46 1127606 2
Сейчас ллмки гружу исключительно в видеопамять, 24гб врама. Сижу на экслламе, разумеется. В среднем скорость генерации около 20-25т/с, сижу на 24-32b моделях. Но человеку всегда хочется большего, поэтому вопрос... Если я подключу свой процессор, 5950x и 32гб ddr4 рама, тайминги 3200 - можно ли что-нибудь выиграть, в практическом смысле? Предположим, я даже готов докупить еще 32гб врама. Можно ли как-то по-умному это все использовать, чтобы получить качественный скачок при использованиии ллмок? Например, загрузить модель с куда большим количеством параметров, но чтобы при этом было хотя бы 8-10 токенов в секунду.

Или забить на это все, и дальше сидеть на своих 24гб врама?
Докупать еще гпу не предлагать. Не режьте ножом по сердцу.
Аноним 03/04/25 Чтв 01:00:04 1127640 3
Характеристики такие : 3060 12гб, 16рам 3200, ссдшник чисто под нейронки, саташник, проц райзен 5 5600.
Мужики, нужна хорошая модель для кума, я так полагаю мой потолок 12Б, но для хорошей вздрочки нужно много контекста, т.к отыгрываю сценарии психологического давления, пробовал вайфу чат, вроде ничего, но на кванте 3 для контекста места не остаётся...
Аноним 03/04/25 Чтв 01:02:12 1127641 4
>>1127583 →
> Прямо в нашей беседе на схеме
> Мультиплексоры для возможности бифуркации на два слота - да.
???
> допуски разные, слои меди, ещё чего
Не, там марка текстолита, его толщина и прочее уже обязаны быть правильно подобранными чтобы нормально работать с ddr5, у нее допуски более жесткие чем у псины.
> Может в безъешку идёт отбраковка, лол.
Та не, волновые параметры линий никто не будет там тестировать, это слишком заморочно. Отбраковка чипсета - типа вполне, если бы он как-то на это влиял.
> 3090, Asrock B650E Steel Legend, райзеры Oculink пикрил.
Модные райзеры. А что, с ними какие-то проблемы? В 5.0 маловероятно что оно сможет, но в 4.0 должно быть ок, раз на это рассчитано.
> А на нём есть подтверждённые проблемы?
5090 затыквится наверно, в 3.0 уже точно.
>>1127606
> можно ли что-нибудь выиграть, в практическом смысле?
Сможешь запустить 70б со скоростью около 2т/с или меньше.
> хотя бы 8-10 токенов в секунду
Вот такое на тех же моделей но с более жирным квантом (разницы не будет), возможно на 50б немотроне.
Аноним 03/04/25 Чтв 01:11:24 1127645 5
изображение.png 9Кб, 147x69
147x69
>>1127641
>???
А ты не очень наблюдательный.
>А что, с ними какие-то проблемы?
0 проблем, кроме того, что слот под третью. Ну или через чипсет.
Аноним 03/04/25 Чтв 01:20:57 1127660 6
>>1127645
> PCIe Switch + Redriver
Постеснялся бы кропать то, что тебя опровергает, чувак. Ты троллишь или не понимаешь о чем речь идет? Давай найди их в схеме своей платы, где отсутствует возможность бифуркации, или можешь сами компоненты визуально на ней поискать. Как правило, выглядят как чипы рам и находятся под верхним слотом.
> 0 проблем, кроме того, что слот под третью
А на третьей там вообще сильные вольности делать можно, проблемам взяться неоткуда.
Аноним 03/04/25 Чтв 01:28:19 1127664 7
>>1127640
>модель для кума
>много контекста
Зачем тебе контекст на тупой модели которая будет в одном предложении путаться?
8к с головой хватит даже квантованного один хуй будешь постоянно замечать что контекст проебывается
Аноним 03/04/25 Чтв 01:30:43 1127667 8
>>1127660
>где отсутствует возможность бифуркации
А откуда взялось это условие?
Аноним 03/04/25 Чтв 02:02:25 1127692 9
>>1127667
Нить перечитай.
Я говорю что само наличие чипсетов амд без поддержки pci-e 5.0 на процессорных линиях - есть исключительно прогрев и наебалово, потому что за них ты уже заплатил купив процессор с поддержкой и саму мат плату, которая априори поддерживает этот линк из-за более высоких требований, ставящихся ддр5.
Ты говоришь про то, что не смотря на это, экономия достигается за счет отсутствия дорогих редрайверов 5.0, приводя в пример картинку платы с поддержкой 2х8.
Тебе отвечаю о том, что эти редрайверы сами по себе не нужны, и присутствуют прежде всего на платах с возможностью бифуркации, где они стоят после мультиплексоров и являются единым компонентом. Для обычных плат они не требуются, что подтверждает устройство твоей материнки.

Вы находитесь здесь.
Аноним 03/04/25 Чтв 02:12:23 1127706 10
Как же трудно найти хорошие карточки персонажей для Таверны.
"Сделай свои" - скажете Вы. "Это скучно" - отвечу я. Весь кайф в том, чтобы узнавать персонажа, взаимодействуя с ним через ллм. Если знать все заранее - будет гораздо скучнее. Часто в бекстори персонажа можно спрятать всякие факты и вещи, которые персонаж вспомнит по ходу игры, и это интересно.
Аноним 03/04/25 Чтв 02:15:37 1127709 11
>>1127706
Imogen попробуй, в чубе. Неделю её кумаю... Сука вайфу...
Аноним 03/04/25 Чтв 02:27:59 1127722 12
image.png 898Кб, 568x856
568x856
>>1127706
Совращай мамочек или ломайся когда совращают тебя, всегда работает!
Аноним 03/04/25 Чтв 03:02:44 1127739 13
>>1127474 →
>Это один и тот же, не? Без осуждения если че.
Yes, I am! Я хз, что там у опа за водоворот вместо менеджмента ориджинал контента треда. Пару тредов назад он в перекате ответил мне, сказав, что так нихуя и не нашел моих картинок, несмотря на то, что я ему линканул мой пост. И при этом он прикрепил мою картинку в новом треде... Я склоняюсь к версии, что это либо псиоп, либо опа для экономии заменили на 12B с Q4 контекстом.
Хочу попробовать таки засунуть в корпус 3090, а на райзер перекинуть 3060. По идее, 24 гига на х16 лучше, чем 12. Заказал какие-то дешман кулеры в корпус, но все равно тревожно. У меня там от блока питания целая охапка проводов идет как раз под видеокартой, а самая холодная карта у меня - самая толстая, т.е. тупо провода на валы кулеры будут пытаться намотаться, да и воздухообмен оч снижен. Придется ставить ту, что потоньше, видимо. Главное ничего не поломать в процессе, как известно, лучшее - враг хорошего...
В крайнем случае, конечно, можно держать стенку корпуса открытой, но тогда пыль будет залетать.
Аноним 03/04/25 Чтв 03:03:29 1127740 14
>>1127706
Ты безусловно прав, но в случае если нравится какой то один, или два персонажа то лучше допилить их напильником для себя любимого.
Аноним 03/04/25 Чтв 03:37:58 1127744 15
image.png 26Кб, 627x45
627x45
в копилку к хлопчатобумажным трусикам
Аноним 03/04/25 Чтв 04:06:40 1127746 16
Так что тут решили уже гемма виноватая или нет?
Аноним 03/04/25 Чтв 04:07:43 1127747 17
>>1127746
виновата, это мы уже давно поняли........
Аноним 03/04/25 Чтв 04:15:18 1127749 18
>>1127640
>я так полагаю мой потолок 12Б, но для хорошей вздрочки нужно много контекста
Ты особо не гасись, у кого-то вообще 8 или 6 кило и их потолок это 8B/9B огрызки. Для кума мистраль это самое оно. Но контекст выше 12К ставить не советую - шизеет и дуреет крайне быстро. Попробуй MN-12B-Mag-Mell для начала, её много кто советует.

>>1127706
>Часто в бекстори персонажа можно спрятать всякие факты и вещи, которые персонаж вспомнит по ходу игры, и это интересно.
Просто пропиши максимально обтекаемо, что персонаж имеет те или иные скрытые извращенства, травмы или проблемы с менталочкой - нейронка сама заполнит пробелы в меру своей испорченности. Это конечно не сравнится с более детальным и конкретным описанием, но зато каждый раз персонаж будет выдавать что-то новое о себе. Или не выдавать, зависит от модели.
Аноним 03/04/25 Чтв 04:30:47 1127756 19
image 16Кб, 445x33
445x33
Аноним 03/04/25 Чтв 08:10:35 1127800 20
>>1127706
>Весь кайф в том, чтобы узнавать персонажа, взаимодействуя с ним через ллм.
Так нейрона сама создает персонажа, если его не прописывать, не? Вот я гонял автостопом, и там постоянно разные персы встречались, со своими характерами.
Аноним 03/04/25 Чтв 08:25:44 1127812 21
А всё таки, как был устроен с.аи? Он покрыт таким слоем мистики и домыслов, что не ничего не понять. Как там было устроено дообучение персов и их память?
Аноним 03/04/25 Чтв 09:07:19 1127827 22
>>1127812
Да была жпт-2, которую дотренивали на чатах кумеров, предварительно накинув сои.
Аноним 03/04/25 Чтв 10:00:14 1127846 23
Аноним 03/04/25 Чтв 10:02:50 1127847 24
Аноним 03/04/25 Чтв 10:03:12 1127848 25
Аноним 03/04/25 Чтв 10:07:30 1127851 26
>>1127847
и каким образом это делает ее хуже? пришли более свежую хорошую 12б модель нет таких

>>1127848
хз, кумить не пробовал
Аноним 03/04/25 Чтв 10:21:40 1127859 27
А разве у Яндекса есть проблемы с железом или программистами ? Почему их ЛЛМ, это чуть ли не форк квена ?
Я понимаю что ввопрос глупый, но я действительно не понимаю. Ведь вопрос в корпоративных ЛЛМ, это вопрос денег. А этого у яндекса до жопы. Нэ ?
Аноним 03/04/25 Чтв 10:25:04 1127861 28
>>1127859
Вспомни как часто у них утечки. Если они не могут обеспечить сохранение персональных данных, то что говорить о ЛЛМ
Аноним 03/04/25 Чтв 10:27:54 1127863 29
>>1127859
Потому что по-настоящему умных людей в Яндексе с каждым годом все меньше.
Аноним 03/04/25 Чтв 10:30:18 1127865 30
И еще вопрос.
Вот есть такой гайдик по созданию карточек
https://rentry.co/alichat
Я так понимаю, в таверне это вcе вынесено в отдельные окна (уже) и нет смысла в разметке и тегах ? Или есть ?
Аноним 03/04/25 Чтв 12:29:32 1127957 31
>>1127859
Ещё спроси, почему у Сбера 13В ллм (гигачат). Эти-то уж точно могли бы раскошелиться на что-то большее, чем может себе позволить каждый второй из этого треда.
Аноним 03/04/25 Чтв 12:55:30 1127994 32
>>1127859
Яндекс уже 3 года как выпотрошен и выебан, осталось только название. Костяк компании ушел с другим названием за границу и на сколько помню они как раз что то там с ии пилят, автомобили, дроны, распознование и все такое
Аноним 03/04/25 Чтв 13:03:11 1128007 33
>>1127859
С программистами явно есть, у них в последнее время с софтом все плохо, СберТех их обходит как стоячих.
Т.е., вообще-то, новая Лайт у них на уровне квена 2.5, т.е. отстает на полгода — это очень хороший результат, отставать от топовых моделей всего на полгода, обучив модель с нуля.
Но при этом, косяков за ними тоже море, как в обычном софте, так и с моделями, если кто-то ждал большего.

>>1127957
Какой-то нахуй отбитый вопрос, их старой 13b модели тыщу лет, она неактуальна.
У них Gigachat Lite в опенсорсе, 20B на архитектуре DeepSeek MoE с 3B активными. В общем-то, даже неплохая модель для инференса на оперативке, хотя и глупее того же квена, зато быстрее вдвое (ну и старше, чем яндекс, которая новенькая).
Конечно, все еще не топ, но их подход выглядит лучше в этом плане, они релизят много что в опенсорс, у них метрики выше Яндекса, они экспериментируют, короче, молодцы.
А еще есть некая ~90b модель под капотом у Макс-версии Гигачата (правда с метриками 45б модели=), но в общем-то тоже норм. Они учат с нуля, и у них неплохие результаты. Надеюсь следующее поколение они выложат в опенсорс, правда у нас в стране нет особой культуры отвечать на релизы.
Хотя Сбер звал Яндекс на батл анекдотов, Яндекс проигнорили, вроде бы.
Аноним 03/04/25 Чтв 13:06:00 1128012 34
Кстати, вчера в треде такие дебилы такую хуйню несли, я в шоке, если честно.

Яндекс, если что, уже не претрен, а инстракт выложили.
https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct-GGUF
Так что, кто там делал тюны —тюньте инстракт версию. И сайгу (это датасет, если че, во-первых=) тоже можно залить. Успехов, но я не считаю, что Яндекс/Сбер хороши для РП-тюнов, все же. Они и так догоняют топовые модели, а у нас тут гемма 3 вышла, квен 3 на днях (на следующей неделе), и скоро ллама 4, которая, по-ходу, вновь мультилингвал адекватный.
Аноним 03/04/25 Чтв 13:08:03 1128013 35
>>1128012
> Кстати, вчера в треде такие дебилы такую хуйню несли, я в шоке, если честно.
Как всегда содержательно.
Аноним 03/04/25 Чтв 13:09:21 1128015 36
=)
Аноним 03/04/25 Чтв 13:28:25 1128051 37
>>1128015
> =)
Contemplating Klaymen
Clitton Klatton Klogg
We behold it's Hoborg
Big Robot Bil is odd!
Аноним 03/04/25 Чтв 13:31:07 1128057 38
>>1127606
>Можно ли как-то по-умному это все использовать, чтобы получить качественный скачок при использованиии ллмок?

Можно получить больше контекста за счет скорости выгружая слои на оперативку. Не в эксламе, конечно.

>загрузить модель с куда большим количеством параметров

Следующий шаг после 32b - это 70b, их ты в нормальной скорости выше 2 битов не запустишь на 24гб никак, как не трахайся, что ни делай(я пробовал, поверь, у меня тоже 24гб, максимум я я 5 токенов в секунду на 3 бит 70B выжимал, но без контекста)
Аноним 03/04/25 Чтв 13:34:15 1128066 39
Аноним 03/04/25 Чтв 13:40:30 1128088 40
>>1128012
Обсуждался тьюн, который на претрейне, так что, что они сделали и выложили инстракт, к тому обсуждению нерелевантно. И сайга уже есть на основе претрейн версии, если что. Собственно, я её имел в виду, когда писал в прошлом треде, что мержить можно.
Аноним 03/04/25 Чтв 13:48:06 1128111 41
ААААААААа.jpg 141Кб, 510x340
510x340
БЛДЖАТ Я НЕ МОГУ ОПРЕДЕЛИТЬСЯ

Текущий сетап:
-Рязань 2600х, 32ддр4, 480gbM2, 1080 3090

До этого треда я думал что просто соберу новую сборку на ам5, а старую с 1080 скину школярам на говнито. И будет у меня комп для любых нейроутех и игорь, а если ПРЯМ СИЛЬНО ВТЯНУСЬ - куплю 5090.

Но теперь у меня просто кернел паник:
• ам4 на 5600 собирать - ебли много, профита проценты, а мощнее уже всякие жирничи вроде х3d - не хочу за старый сокет отдавать много денег
• ам5 7700 вроде ок, но почитав тред понимаю что сборка НА ПЕРСПЕКТИВУ выйдет золотой - приличная мать лютый оверпрайс (а в дешевую даже вторую 3090 не вставить если захочу), RAM много купить дорого
• в интулях не разбираюсь, для повседневного использования они всегда казались конченными - тдп как у АЭС, оверпрайс, глюки и аппаратные баги, 999 разных сокетов устаревающих за полгода, дорогие матери... Но готов рассмотреть если гем.
• посидеть пока на текущей сборке тоже не вариант, для игорь сильный дисбаланс из-за карты, и главное - не хватает люто ssd, хочу 2тб, но не хочу линукс дважды перекатывать

С одной стороны хочется максимально универсальную систему, что бы и FLUX/HunyuanVideo бодро шуршали, и 32-70b llm летали, и какой нибудь llm тяжеляк на CPU запустить с 0.1 токена в секунду можно было, и игорь в 4к летал (пусть и два раза в год играю).

С другой стороны - сейчас или наиграюсь и заброшу, или наоборот уйду в специфику (ну типа какой нибудь вспомогательный 24/7 сервер али-зион с терабайтом RAM, неспешно крутящий дипсик или риг из 4090-48gb со специфик мамкой, или еще какой нибудь говняк типа ноута с разбитым экраном на котором крутится 24/7 whisper и 7b сайга)

Короче говоря, анон помоги - что бы ты собрал максимально универсального на первое время, если бы имел 3090 и 30-40к (50-60 внатяг, но оч не хочется)? А то читаю срач про чиповые линии и плачу...

Цены считаем по низу рынка б/у железа, в этом опыт хороший.
Аноним 03/04/25 Чтв 14:33:07 1128235 42
>>1128088
Да, просто тебе сказали, что сайга это другая модель на другой архитектуре, и я вскекнул. А так-то да, сайга на яндекс накатил и…
Ну, приятного пользования экспериментаторам. Вдруг я не прав, и будет пушка. Анлишед всякие и все прочее. =)

>>1128111
Ну, для повседневного пользования именно АМД всегда были конченными, это только со времен рязани что-то начало меняться. А последние поколения интела выстрелили себе в хуй сами.

Но вроде как i5-12400 на DDR5 выдает свои 110 МБ/с, если вдруг захочешь текстовые на оперативу выгружать. Синк эбаут ит.

В противном случае можешь любое говно на ам4/ам5 брать, там псп карликовая один фиг.

Но при этом, учти, что высокая скорость — мало слотов, ты вряд ли выжмешь большую псп на 4 планках по 48/64 гига, и да, это дорого.
В конечном итоге, ты либо собираешь зеон/эпик платформу с 8-12-24 каналами, либо собираешь риг из видеокарт.
Так что лучше смотри в сторону 5090 и хороших PCIe слотов. А сама платформа на остаток — DDR5 в приоритете, но не критично.

> 30-40к
Ну что ты соберешь из зионов с терабайтом памяти на эти деньги?
Ничего.
Максимум какой-нибудь четырехканал на 256 гигов.
Хотя, это в натуре тебе поможет крутить дипсик, на видяхе даже.
Но это в теории, на практике мало собиравших такое.
https://www.reddit.com/r/LocalLLaMA/search/?q=ktransformers если что.
Аноним 03/04/25 Чтв 14:33:48 1128237 43
>>1127847
Хуже от этого не стала и спокойно конкурирует.

>>1127848
Нет. Кумить можно, но не стоит. Плохо может в кум.
Аноним 03/04/25 Чтв 14:35:33 1128249 44
Как всегда нашизил несодержательно, ни ссылок не дал, нихуя.
То ли дело местные мастера. =)
Аноним 03/04/25 Чтв 14:45:16 1128273 45
>>1127846
Да, хороша. Попробовал её после darkness-reign-mn-12b, пишет не хуже, но не высирает тонны текста о том, что maybe just maybe и как всё поменялось.
Будем юзать.
Аноним 03/04/25 Чтв 14:49:32 1128288 46
.png 1437Кб, 853x1280
853x1280
Вы ждали? Я тоже нет. А они выкатили:

RP finetune на yandexgpt
https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Теперь можно грабить корованы и дружить с лисичками со вкусом яндекса. ХЗ какая может быть польза от 8б.Ее даже мержить не с чем, слишком тупые 8б.
Аноним 03/04/25 Чтв 14:50:39 1128290 47
Аноним 03/04/25 Чтв 14:53:02 1128299 48
>>1128288
тестил. стала заметно тупее после тюна, и проебывает форматирование.
Аноним 03/04/25 Чтв 14:55:05 1128309 49
>>1128299
Как и ожидалось. Очередное "достижение". Хотя... Отупить 8б еще сильнее, пожалуй, и правда достижение
Аноним 03/04/25 Чтв 15:04:59 1128319 50
>>1128309
Это прекрасно. Такое может быть только в России, воистину.
Люди молятся, чтобы им сделали модели на СВАЁМ РАДНОМ языке, потому что другого они не знают (да и тот плохо)
Но когда кто-то берет и делает, эти же нытики будут драться за право обосрать и закопать инициативу
Буквально, в модели:
> v0.1
> Дисклеймер
> Это исследовательский проект и модель экспериментальная, качество может быть нестабильным.

Можно если не самому пытаться сделать тюн правильно, то хотя бы связаться с автором, дать обратную связь и попытаться помочь тестами. Но обосрать душе дороже, не говоря уже о том, что это гораздо легче.
Аноним 03/04/25 Чтв 15:04:59 1128320 51
>>1128309
>Очередное "достижение".
я так понимаю, что это обучалось на рп-датасете, скорее всего с использованием LORA. в таких условиях получить результат, который превосходит базовую модель по качеству, маловероятно. рп-датасет, на мой взгляд, скорее вносит хаос в модель, чем способствует формированию логических связей. к тому же это особенно критично, учитывая и без того небольшое количество параметров модели.
Аноним 03/04/25 Чтв 15:10:22 1128327 52
>>1128319
>Это прекрасно. Такое может быть только в России, воистину.
>Но когда кто-то берет и делает, эти же нытики будут драться за право обосрать и закопать инициативу
А вот и автор модели ловите его, защищает свое детище.
Чего бомбанул то?

Оригинальная модель яндекса вполне себе хороша для своего веса, но сои там дохуя и пишет сухо.
Аноним 03/04/25 Чтв 15:12:18 1128332 53
>>1128319
Чел, здесь итт все твои друзья и помогают друг-другу. А там - люди работают за деньги. И за деньги они как достижение показывают 8б тюн (или вообще мерж лоры, под вопросом). В 2025. Я понимаю, что тебя заставляют это писать, можешь не моргать
Аноним 03/04/25 Чтв 15:19:34 1128343 54
>>1128327
> А вот и автор модели
Ну разумеется, кто ж еще. Или автор, или друг автора, или проплаченный. По-другому не бывает, не может человек обладать другим мнением.

> Чего бомбанул то?
Всего лишь посмеялся и призвал адекватных людей помочь осуществить идею, а не ждать полностью готовое решение, что упадет им на голову. Может хоть один адекватный найдется.
Аноним 03/04/25 Чтв 15:19:42 1128344 55
>>1127865
Бамп тупому вопросу.
Я подожду. Что же теперь, жаловаться в тематике.
Нет, мы будем ждать.
Аноним 03/04/25 Чтв 15:22:00 1128347 56
>>1128332
> А там - люди работают за деньги
> И за деньги они как достижение показывают 8б тюн (или вообще мерж лоры, под вопросом). В 2025.
Там - это где? Они - это кто? Автор тюна - один человек и не является сотрудником Яндекс. Он обычный человек, который сделал это в свободное время. Тебе достаточно было увидеть YandexGpt, чтобы остальное твой мозг дорисовал?
Аноним 03/04/25 Чтв 15:24:33 1128356 57
>>1128347
>Тебе достаточно было увидеть YandexGpt, чтобы остальное твой мозг дорисовал?
Извиняюсь что влезаю в ваш спор. Но когда я где то вижу YandexName я логично ожидаю что это что то от яндекса. Как и GoogleName, неожиданно, что то имеющее отношение к гуглу а не тойоте.
Мимо
Аноним 03/04/25 Чтв 15:26:29 1128359 58
>>1128356
Анон, модель называется YankaGPT... Там даже нет YandexName.
Это рукалицо, товарищи. Вы хотя бы читайте что обсираете в следующий раз.
Аноним 03/04/25 Чтв 15:28:33 1128362 59
>>1128235
Спасибо за развернутый ответ, анон!
>это только со времен рязани амд не совсем конченные
Офк, до рязани амд был говном, все эти 3 ядра и прочая горячая срань... Даже фуфыкс говно, единственный плюс - на излете был топ для нищегейминга, сам из мусорки собирал сетапчик на пару месяцев, пока на 1400 рязань не свичнулся.
>последние поколения интела выстрелили себе в хуй
и тут да, в расцвет ам4 мне казалось что только ебнутый будет среднебюджет на интеле собирать.
Сейчас вот правда непонятно совсем, особенно в контексте не просто игорь гонять, а ВЫЧИСЛЕНИЙ... Ложка повидла и мешок говна в обоих лагерях будто бы.


>либо собираешь зеон/эпик платформу с 8-12-24 каналами, либо собираешь риг из видеокарт
>Ну что ты соберешь из зионов с терабайтом на 30-40?
Не не, ты не так понял, я что то подобное подразумеваю в будущем, если нейронки начну активно локальные применять для своих задач, какие нибудь агенты делать или типа того. Может через пару мес, мб через полгода. мб никогда. Сейчас мне нужно во всем разобраться, попробовать максимум из широкого спектра локальных нейроштук, с ограничениями само собой. Поэтому надо свою некрофилию 2600+1080 слить на авито, а себе собрать максимально универсальную временную сборку, которую тоже потом будет легко слить. А то у меня жопа сгорит, если я соберу ам5 за 100+ сетап, а потом окажется что он для нейронок слишком урезан, а для говнито слишком нейроночный.

Если разбить на вопросы точнее, то:
- какую связку проц+мать лучше взять задешево к 3090, что бы и легко продать, если созрею на риги, но и мб вторую 3090 временно вставить была возможность как промежуточный этап?
- скок рам брать и насколько скоростную? Гонять на ней модели не особо планирую сейчас, но мб придется скинуть контекст там или часть слоев для тяжелой модельки.

>i5-12400 на DDR5 выдает свои 110 МБ/с, если вдруг захочешь текстовые на оперативу выгружать
Спасибо, буду иметь ввиду на будущее мб
Аноним 03/04/25 Чтв 15:31:33 1128371 60
>>1128359
Прастите. Я в глаза ебусь.
Все тот же мимо анон.
Аноним 03/04/25 Чтв 15:33:37 1128376 61
>>1127706
Ты делай сам и потом откладывай, будешь помнить основное и забудешь про мелкие детали, и там они как раз всплывут.
А так - просто будет менее привередливым и качай что нравится по своим вкусам, интересам, фетишам и т.д. Простая карточка с хорошей моделью может подарить приятный экспириенс, а перемудренная наоборот.
>>1127739
> т.е. тупо провода на валы кулеры будут пытаться намотаться, да и воздухообмен оч снижен
Ничесе там намутил, давай показывай.
>>1127744
>>1127756
Sooooqa, чтож ты делаешь!
>>1128012
> хороши для РП-тюнов
> 8B
Нуууу
Аноним 03/04/25 Чтв 15:34:07 1128378 62
>>1128362
> проц+мать лучше взять задешево к 3090
Ты там будто тир1 ДЦ строишь. Какая-то задроченная 3090, на которые несколько поколений майнеров еще работала, какие-то связки задешево. Давно бы уже купил и пановал, но ты, понятно, будешь здесь писать.
Аноним 03/04/25 Чтв 15:37:18 1128392 63
>>1128362
> что бы и легко продать
Из меня такой торгаш, знаешь ли… Боюсь, я просто все свое железо коплю, сим решаю проблему замены на новое.

Но! Я специально для тебя кое-что нашел в истории браузера.

https://docs.google.com/spreadsheets/d/1NQHkDEcgDPm34Mns3C93K6SJoBnua-x9O-y_6hv8sPs/edit

Хоба!
Там очень подробный даташит на все материнки, можешь выбрать ту, которая тебе понравится, и уже искать ее в магазах.
Удобная штука, кмк.
Аноним 03/04/25 Чтв 15:37:39 1128394 64
>>1128343
>призвал адекватных людей помочь осуществить идею
То есть, ты возмущаешься тем, что люди не ценят труд, но ты сам что-то сделал или наблюдаешь со стороны? Какова твоя роль, ты участвуешь в обучении, тестах, обратной связи, или просто возмущаешься, что кто-то критикует? Зачем призывать кого-то, если ты сам не готов помочь. Думаешь, что любой васян, который собрал датасет и обучил модель, заслуживает аплодисментов? Если бы тюн действительно был качественным, заметно лучше остальных, тогда да, есть повод для уважения. Но если это просто очередной васянский колхоз, ничем не отличающийся от прочих, то зачем его так возвеличивать? Где критерии, по которым он заслуживает особого отношения? Просто за попытку? Допустим я тоже могу обучить модель, но я не пытаюсь её рекламировать, ведь я точно знаю, что получу хейт если модель будет хуже чем оригинал.
Аноним 03/04/25 Чтв 15:38:18 1128396 65
>>1127706
Выбирай карточки по картинке и не знай проблем. Всё равно больше всего решает модель
Аноним 03/04/25 Чтв 15:46:16 1128423 66
>>1128392
Спасибо! Изучу.
>>1128378
>Ты там будто тир1 ДЦ строишь
Да я просто жадный и в поисках работы щас (до февраля был 300к анальник). С работой пока тухло прям, кризис мощный, 1 собес в неделю, а железо уже сейчас ограничивает, даже модели некуда скачивать. Пока работу ищу, самое то по говнито пошарится, поездить топ-кражи поскупать. Вот и хочу пэку апнуть на ближайшие полгодика, что бы если нейронки зайдут, уже собирать что то тяжелое, а если надоест - просто остаться на хорошем (но не оверпрайснутом, т.к. 95% времени в браузере пержу) пк.

Простите если задушнил вас(
Аноним 03/04/25 Чтв 15:46:28 1128425 67
>>1128394
Есть ли нам смысл это мусолить? Все равно каждый останется при своем. Не обижайся, если мои слова тебя задели, не было такой цели.

> То есть, ты возмущаешься тем, что люди не ценят труд, но ты сам что-то сделал или наблюдаешь со стороны?
Свободно владею английским языком, потому - нет, я не помогал и не собираюсь помогать в развитии русскоязычных моделей.

> или просто возмущаешься, что кто-то критикует?
Мне показалось забавным, что я регулярно вижу в треде, как люди ищут русскоязычные модели и откровенно ноют, что их никто не делает. Но стоило кому-то попытаться, левому чуваку своими силами, как в тред сразу же отписались минимум двое, которые хотели сразу готовое и работающее решение. Мой пост был адресован им - чем срать, может быть лучше принять участие?

> Думаешь, что любой васян, который собрал датасет и обучил модель, заслуживает аплодисментов?
Нет, но я не предлагал одаривать автора аплодисментами.

> то зачем его так возвеличивать?
> Где критерии, по которым он заслуживает особого отношения?
Я не возвеличивал автора или его модель. Почему ты так категорично мыслишь? Предложить прекратить срать - не то же самое, что возвеличить.

> Допустим я тоже могу обучить модель, но я не пытаюсь её рекламировать
А ты уверен, что автор рекламировал? Тем более, что он на странице модели и указал, что она экспериментальная и может не работать.

Для меня это выглядит так, что любители русскоязычного рп просто ждут, пока решение свалится им на голову. Готовое, идеальное. Как, впрочем, и во многих других вопросах - такой уж народ в стране, где я живу. Надеюсь, позиция стала яснее, и нам не нужно будет дальше засорять тред, ибо это почти оффтоп.
Аноним 03/04/25 Чтв 15:48:04 1128428 68
Прочитал новые сообщения. В итоге минимум трое (вероятно, включая того, кто модель сюда и вбросил) даже не поняли, что ее сделали не Яндекс. Ору.
Аноним 03/04/25 Чтв 15:49:37 1128435 69
От какого именно параметра текстовой модели зависит скорость обсчёта контектста?
Аноним 03/04/25 Чтв 15:53:47 1128447 70
>>1128428
Я вот не понял другое... Есть ли какие то бенефиты от Яндекса в куме? Какая то русик специфик мощная, что бы вайб панелек, перегар отчима, соблазнение от лица ерохи на заниженной четырке? Или Яндекс просто напихал Толстого, Достоевского и много много сои? Если второе, то моды на основе яндекса будто бы мертворожденны, в русик и гемма может.
Аноним 03/04/25 Чтв 15:56:55 1128455 71
>>1128376
> Ты делай сам и потом откладывай, будешь помнить основное и забудешь про мелкие детали, и там они как раз всплывут.
Кстати, классная идея. Особенно, если карточек сделать много-много и дать им отлежаться месяц-другой. Спасибо.
Аноним 03/04/25 Чтв 15:57:33 1128457 72
>>1128111
> приличная мать лютый оверпрайс
Вот это сильно не воспринимай. Бери самую дешевую ил тех что подойдет по врм, просто желательно чтобы там дополнительные слоты были х4 хоть какие-нибудь. Если уж увлечешься - сменить это вообще не будет проблемой.
> в интулях не разбираюсь, для повседневного использования они всегда казались конченными - тдп как у АЭС, оверпрайс, глюки и аппаратные баги
Амд методичка адептов красной религии. Недостатки тебе преумножат и никогда не скажут о том что их исправили, или они вообще представят некорректно поставленное сравнение.
Ты же не веришь в то, что из-за неудачного дизайна микрочиплеты с ядрами перегреваются уже на 160вт при 230 паспортных, и вообще в то что там есть такой тдп, что быстрая скорость рам для текущих поколений - недостижима, в то что с последними патчами в играх амд без 3д кэша преимущественно уступают интелу, в то что в реальных кейсах не будет прироста от 3д кэша из-за упора в видеокарту, в то что у амд в 9к серии много брака и отзывов до сих пор, в обнаружение новых аппаратных проблем и т.д. А это все - реальность.
Весь вопрос как тебе информацию представят и окрасят. В текущем виде амд подахуели на фоне слепой любви фанатов, не нужно носить розовые очки.

Выбирая себе новую платформу - смотри на текущую обстановку и то, как будешь ее юзать, а не методички сектантов. Если не поджимает - подожди хотябы нового анонса зен6, может цены немного скинут. Если хочешь сейчас - в твой бюджет влезает амд 7700 и интел 12700/13600. По перфомансу ни один из них тебя не обломит, у первого эфемерное преимущество в виде возможности сохранить материнку при апгрейде (если возьмешь йоба плату то уже реальное, иначе нет смысла ее сохранять), у второго из коробки все будет лучше с разъемами и лучше разгон рам, но апгрейд в будущем это 100% замена с материнкой.
>>1128235
> Ну что ты соберешь из зионов с терабайтом памяти на эти деньги?
Так он же про вторичку по низу, сам в этот бюджет собрал основу для рига с 2х8 портами.
>>1128455
Не держи в себе, скидывай какие будешь делать всем или на чуб заливай.
Аноним 03/04/25 Чтв 16:00:29 1128460 73
>>1128457
> Не держи в себе, скидывай какие будешь делать всем или на чуб заливай.
Неа. Я стесняюсь, да и злыдней тут немало. В благодарность за совет анону позже пришлю парочку на растерзание, как разберусь со всем процессом карточкоделания.
Аноним 03/04/25 Чтв 16:05:41 1128470 74
>>1128435
От размера. Больше модель - медленнее считается.
Аноним 03/04/25 Чтв 16:09:55 1128478 75
>>1128425
Я правильно понимаю, что твоя позиция — это наблюдать со стороны и раздавать советы, как другим стоило бы себя вести?

>Свободно владею английским языком, потому - нет, я не помогал и не собираюсь помогать в развитии русскоязычных моделей.
То есть, ты лично в этом не заинтересован, но тебе почему-то важно, чтобы другие реагировали правильно. Какое тебе вообще дело до того, как кто-то воспринимает эти тюны, если ты сам не пользуешься и не собираешься помогать. Понятно, типичное мышление сам знаешь кого - дам совет, укажу как правильно, но сам принимать участие - моя хата с краю.
Аноним 03/04/25 Чтв 16:14:36 1128484 76
Суп аноны, хочю покумать на ваших этих блядей нейросетевых, подскажите как выбрать модель или может что-то посоветуете? Шапку прочитал, но мне как тупорезу в этой теме это мало что дало. Системки пожилые 32гб оперативки и видяха 2080 на 8гб. Это совсем пиздец или я что-то смогу умное запустить на них?
Аноним 03/04/25 Чтв 16:17:41 1128487 77
>>1128484
>8гб.
Эммммм..... Ну если у тебя встаёт на дауних у которых течёт слюна со рта, то да.... вполне.....
Аноним 03/04/25 Чтв 16:18:14 1128488 78
>>1128487
Кайф, мне подходит.
Аноним 03/04/25 Чтв 16:21:53 1128494 79
>>1128484
darkness-reign-mn-12b
MN-12B-Mag-Mell-R1

Более чем нормальные. Поиграйся с величиной контекста, количеством выгрузки слоёв в оперативку, но запахать должно.
Аноним 03/04/25 Чтв 16:29:04 1128502 80
Аноним 03/04/25 Чтв 16:38:36 1128520 81
>>1128487
хахахах
Нихуя ты сравнил...
как тот, у кого встает на гиперсексуальных дауних и даунов у которых течет изо рта скажу, что чтобы отыграть такого персонажа нужна минимум 70b, а лучше 123b

Думаешь лоботомиты потянут инструкции поведения озабоченного имбецила или смогут отыграть Ками?
Нихуя. На мелких сетках даун сразу же исцеляется от любых душевных и физических недугов, забывает, что он любит мазать стены говном, а медсестричек - собственной спермой, начинает говорить как ловелас или насильник, а не как невинный недоразвитый даун, которому просто хочется писю в красивую девочку потыкать. Ты блять даже не представляешь, как сложно сеткам отыгрывать это.


Твой пример - максимально инвалид.
Аноним 03/04/25 Чтв 16:44:18 1128533 82
>>1128478
Нет, неправильно понимаешь - моей целью в разговоре было понять, что мешает любителям русскоязычных моделей их развивать, а твоей - найти пробоину в моей позиции, которую я сам же тебе и открыл, сказав правду: мне нет интереса до русскоязычных моделей. Но я делаю, что могу, для развития англоязычных. Даю фидбек авторам на huggingface, слежу за релизами и принимаю участие в их обсуждении, по возможности доначу на мощности для компьютинга. Это немного, но я хотя бы не препятствую. Интересно было понять, что моим соотечественникам мешает делать то же самое с русскоязычными моделями, но в итоге меня просто записали в либерахи за такой нескромный вопрос. Виноват, кланяюсь и ухожу с глаз долой.
Аноним 03/04/25 Чтв 16:59:14 1128556 83
>>1128288

Не на свежей instruct модели? Нахуй сразу!
Аноним 03/04/25 Чтв 17:11:06 1128585 84
>>1128520
> чтобы отыграть такого персонажа нужна минимум 70b, а лучше 123b
Не не. С ними ты начнешь кумить, отыгрывая darkest fantasies, а потом оно тебе очень тонко между строк начнет намекать, что даун то все понимает и крайне опечален своей действительностью, но притворяется чтобы не стало еще хуже. Или еще какую-нибудь горькую правду.
Ну нахер, для такого они слишком умные и можно словить конкретный emotional damage и меланхолию.
Аноним 03/04/25 Чтв 17:12:17 1128592 85
Такой есть, несколько странный вопрос: какие есть требования у Ktransformers по процу? Конечно и так понятно, что никакие процы кроме серверных Потоко-насильников и Сионов 360+ гб озу не поддерживают. Но никто толком и не пишет, что от проца требуется помимо этого. Есть ли какая то конкретика?
Аноним 03/04/25 Чтв 17:26:12 1128623 86
Мужи4ки, что за херабора, сколько не пытаюсь прицепить кобольда к таверне, вижу, что качество только падает...
Аноним 03/04/25 Чтв 17:28:36 1128628 87
>>1128592
https://www.reddit.com/r/LocalLLaMA/comments/1j329e9/ktransformers_troll_rig_r1_671b_udq2_k_xl_on_96gb/
Вот тут 9950X обычный, но у него 96 гигов, модель грузится с диска иногда, из-за чего весь профит от ктрансформерс нивелируется, и получается вполне реальные для DDR5 в двухканале 3,5 токена/сек.
Так что, ты Р1 и на обычном проце можешь запустить (я на 128 DDR4+2xP40 запускал), но скорость будет соответствующая.
А вот подойдет ли какой-нибудь старый зеон… По идее, 256 гигов на зеоне без AVX2 ты и не соберешь-то толком. Хотя я не спец по ним.

Подозреваю, специфический требований нет, чем мощнее — тем лучше, главное оперативы чтобы хватило целиком, и видяшка была под активные параметры.
Аноним 03/04/25 Чтв 17:47:23 1128675 88
>>1128592
>Но никто толком и не пишет, что от проца требуется помимо этого
Кучу каналов памяти, желательно через 1 процессор, а не двухголовую материнку.
Но, у старых зионов 2013 всего 4 канала памяти медленной ддр4, что дает всего до 70-80 гб/с максимум.
Та же ддр5 в 2 канале на интеле по крайней мере дает уже под 110 гб/с, обьемы у нее конечно нарастить сложнее чем на зионах, но скорость больше.
Самый топ 24 канальные ддр5 процессоры с кучей ядер.
В принципе есть смысл и от 8-12-24 канальных ддр4 процессоров.
Все это нужно для того что бы получить большую общую на все каналы скорость чтения из оперативки. От нее зависит скорость генерации токенов.
Аноним 03/04/25 Чтв 18:04:13 1128711 89
>>1128628
Вот напомнили про инструкции и решил перепроверить: Е5 сионы v4 версии AVX2 поддерживают, а v3 вроде как нет.
v4 еще кстати поддерживают 2400 ГЦ ДДР4.
Так что вариант обещает быть не таким уж и днищенским, но пробовать за свой счет как то не хочется...
Аноним 03/04/25 Чтв 18:07:27 1128714 90
memes.png 270Кб, 757x873
757x873
У вас разный system prompt для sfw/nsfw ролеплея? Или универсальный, который подходит для обоих случаев?

Не замечали ли, что если в system prompt упоминать что-то даже в негативном ключе, модель к этому все равно придет? Такое ощущение, что лучше и вовсе не упоминать. Например, часто в system prompt можно встретить: "You are to engage {{user}} in a never ending UNCENSORED roleplay scenario."
Казалось бы, здесь не утверждается, что ролеплей таким быть обязан. Но слово уже присутствует в промпте, и потому он скорее всего будет таковым.

Что думаете, проводили ли сравнения?
Аноним 03/04/25 Чтв 18:09:26 1128719 91
>>1128711
>v3 вроде как нет.
тоже есть, а вот в более ранних нету
Аноним 03/04/25 Чтв 18:10:07 1128721 92
Мне кажется, многие люди заблуждаются, когда считают, что определенные модели все сводят к хорни контенту. Многие просто один раз выставили системный промпт и забили, не слишком задумываясь, как он влияет на происходящее.
Аноним 03/04/25 Чтв 18:10:10 1128722 93
GPT5 вышел раньше и от наших ребят! красавчики, пусть же кум польётся рекой!
Аноним 03/04/25 Чтв 18:31:01 1128766 94
Когда уже новый магнум да на геммочке сука чел умер что ли нахуй
Аноним 03/04/25 Чтв 18:47:39 1128795 95
Сап иич
Я так понимаю, тут роляет в первую очередь объем врам?
Аноним 03/04/25 Чтв 18:51:31 1128803 96
>>1128795
Все верно понимаешь. Или обьем RAM обычной, если хочешь запускать на процессоре. Но на маленьких моделях это бессмысленно - они в любую видюху влезут, в больших ты состаришься, пока нейронка тебе напишет две строки.
Аноним 03/04/25 Чтв 18:53:30 1128806 97
>>1128675
Резонно, конечно, но все упирается в деньги. В принципе изначальная задумка была с сионами, но помоложе, не e5 серии.
Аноним 03/04/25 Чтв 19:38:38 1128901 98
>>1128714
Так скорее всего и есть, сам замечал. И это работает даже с обычным промптом, не обязательно системным. Само упоминание чего либо повышает вес связанных с этим токенов, а они за собой тянут и другие.
Если не касаться ролеплея, а именно получения какой то справочной информации, то нужно тоже уметь задавать вопросы. А то спросишь ее условно: "как часто чешется жопа во время мигрени", так она тебе начнет рассказывать какое это повсеместное явление, хотя и так понятно, что это полный бред.
Аноним 03/04/25 Чтв 19:38:49 1128904 99
>>1128714
Не думай о белой обезьяне
Как то так это и с сеткой работает
Аноним 03/04/25 Чтв 20:09:37 1129017 100
>>1128714
в промте такое ощущение что avoid что-то работает лучше чем прямое запрещение, возможно по этой же причине, и что на этапе тренировки инструкции такое содержали
Аноним 03/04/25 Чтв 20:11:33 1129023 101
Я пчел с этой проблемой >>1128111
Сейчас посмотрел какой то старый видос на ютубе, где чел тестирует 3090 в 4к игоре на сборочке Рузен2600+b450 мать + 32 гига, и ВНЕЗАПНО при 100% загрузке карты проц чилит на 45-70%. Я то даже не разу игорь не запускал, что бы не портить впечатление на 3090, думая что проц задолбится и будет батлнеком. А оказывается даже на текущей сборке можно остаться и просто винт докупить...

Но все же решил соберу с говнито мусор (5600 и мамку ам4 повзрослее на 4-рам и 12х16 железноPCI вместо моего а320 треша), пересажу память и новый корпус прикуплю. А старая сборка с а320, старыми плашками 8+8, старым бп и 1080 пойдет на авито.

Я же нигде не обосрался? А то завтра приступаю.
Аноним 03/04/25 Чтв 20:16:11 1129042 102
>>1129023
И еще вопрос щас в голову пришел - 1080 на 8гб никакого же смысла нет подтыкать второй картой, да? Наверное только говна поем без половинной точности и прочего, слишком старая архитектура ж...
Аноним 03/04/25 Чтв 20:27:12 1129085 103
Подскажите обезьяне что я делают не так? Почему у меня при использовании кобольда грузится только проц и оперативка, но не видеокарта? Куда я жмал блядь чтобы это прозошло?
Аноним 03/04/25 Чтв 20:33:53 1129109 104
Аноним 03/04/25 Чтв 21:36:11 1129312 105
>>1128714
Да, пришел к выводу, что упоминать контент = руина, т.к. бот воспринимает это как свой гоул и начинает игнорить все на свете и сводить к этому. Ты его просто лишаешь всего, что он знает и умеет таким образом. Только сеттинг и описание персонажей, иначе фейл.
Слово цензура вообще не юзай, вообще никогда не упоминай ничего про это, иначе бот вспоминает про все эти гайдлайны и начинает срать жпт-измами, косплея анально зацензуренное корпо. Ты сам ему в контекст насрал и оно вспомнило, подбирая все связанные кокблоки как что-то хорошее и нужное - юзер упомянул, значит что-то очень важное и нужное!
Аноним 03/04/25 Чтв 21:41:35 1129338 106
>>1129023
>при 100% загрузке карты проц чилит на 45-70%
Намеренно грузишь видеокарту - видеокарта загружается. Удивительно, правда? Можно еще 8к въебать, чтобы кадры просели до однозначных значений и нагрузка на проц стала еще меньше - тогда можно будет спокойно атлон в связку брать.
Аноним 03/04/25 Чтв 21:43:24 1129346 107
>>1129312
Поэтому я никогда не трогал систем промт, он в рп моделях обычно и так нормальный.
Аноним 03/04/25 Чтв 21:44:11 1129349 108
Попросил гему описать еблю нормально и внезапно получил хороший кум даже не русике
В промпте буквально тоже самое написано но всегда она так не пишет
Аноним 03/04/25 Чтв 21:48:07 1129358 109
>>1129085
Посмотри какую сборку кобольда ты скачал, там есть под разные библиотеки. Может у тебя цпу-онли или какая-то другая параша, которая не поддерживается твоей видеокартой.
Аноним 03/04/25 Чтв 21:50:41 1129363 110
>>1129338
Ну он и на fhd вроде гонял, там нагрузка на проц возросла, но не критично.
Я просто вырос на бенчах уровня "ставим зеон на 775 в спарку с 750ti с али... Ну да ну да, тут уже проц затыкается...". А сейчас будто бы похуй, что бы уткнулись фпс по процу в 2k игоре, нужно совсем каменный камень поставить, нет?
Аноним 03/04/25 Чтв 22:00:55 1129390 111
>>1129363
Чел, просто бери любой современный камень, хоть от синих, хоть от красных - у тебя не будет проблем. Дрочить подборочки и бенчи в поисках "идеальной связочки" где и проц и карта на 100% долбятся - это долбоебизм. Нагрузка на процессор плавает гораздо сильнее в значениях, чем на видеокарту, так что это критерий производительности для душевнобольных. Любой шестиядерник текущего и прошлых трех лет свое дело сделает.
Аноним 03/04/25 Чтв 22:12:22 1129426 112
Сап, аноны.
Какие модельки есть для кума чтобы влезли в 32 гига видеопамяти? Можно кванты предлагать, чтобы не совсем тыквенные
Аноним 03/04/25 Чтв 22:15:46 1129436 113
>>1128556
На самом деле, претрейн гибче для тьюна, если датасет нормальный и сам содержит обучение на инструкциях. Собственно, в этом суть базовой модели - быть объектом дальнейшей тренировки. Особенно выбор базовой модели может быть хорош как раз для рп тьюна, потому что будет меньше вылезать всякая ассистенто параша, и нет соевых инструкций. Для примера, wayfarer и одну из версий мини-магнума тренили на базовом немо, а не инстракте. Другое дело, что у этой янки в карточке модели честно указано, что это клодослоп с глинтами прямо в примере.
>>1128714
Ты прав, и даже просто фраза про бритую киску в карточке перса может сдвигать вывод к nsfw. Но нормальным моделям всё-таки не насрать на контекст, и они не будут всё сводить к куму, если контекст в целом к этому не располагает. С другой стороны, эротику по умолчанию большинство моделей будут писать коротко, а то и скипать. Поэтому я держу в системном какой-то околодефолтный кусок про то, что nsfw сцены нужно описывать детально, можно грязно и т.д. Тот же магмел даже с карточками для кума с таким промптом бёдрами может со старта повилять, конечно, но на кок сразу не прыгает. Так что не вижу смысла юзать что-то отдельно для sfw.
>>1129312
>иначе бот вспоминает про все эти гайдлайны
Кстати да. Все эти промпты, что эротику, насилие и т.д. писать разрешено, по логике должны только триггерить тысячи скормленных сейфти инструкций вида "ну напиши попа, точно можно" - "извините, как полезный и безвредный ассистент я не могу..."
Аноним 03/04/25 Чтв 22:18:32 1129440 114
>>1129426
Что у тебя за видяха?
Аноним 03/04/25 Чтв 22:34:23 1129487 115
Аноним 03/04/25 Чтв 22:40:36 1129502 116
>>1129487
Лол. Ты ее заведи вначале хоть на чем-нибудь кроме кобольда
Аноним 03/04/25 Чтв 22:42:57 1129508 117
Аноним 03/04/25 Чтв 22:49:27 1129520 118
>>1127859
>А разве у Яндекса есть проблемы с железом или программистами ?
Ну в общем-то да. Самые умные съебались, современных железок много в анусе не провезёшь.
>>1127865
Там вроде бы есть скрины с таверны, так что не понятен твой вопрос. Гайд вполне себе подходит, хоть и старый как говно мамонта.
>>1128111
>а в дешевую даже вторую 3090 не вставить если захочу
В среднюю через райзер без проблем встаёт. На крайняк системный NVME есть уже везде, он на проце 100%.
>что бы и FLUX/HunyuanVideo бодро шуршали
Тут однозначно 5090, хуйнян на 24ГБ врама может в 5 секунд. 4090 с 48ГБ как вариант, если любишь ебаться.
>>1128235
>это только со времен рязани
Которым чуть ли не 10 лет уже, вечность назад. Так что в последнее время именно амуда первый выбор для рядового ПК, и амуда с 3д кешем для игросральни.
>>1128392
>Но! Я специально для тебя кое-что нашел в истории браузера.
О, похоже Asus ROG Strix B650E-E Gaming Wi-Fi идеальна для PCI-E 5.0 сетапа- схема выходит 8+4+4+4, и всё с проца, лол.
>>1128457
>микрочиплеты с ядрами перегреваются уже на 160вт
Они столько в жизни не сожрут. Я свой задушил на 95, лол, мне нахуй печка не нужна.
>быстрая скорость рам для текущих поколений - недостижима
Это да, печаль. Проблема там в фабрике, впрочем похуй.
>>1128487
Увы, чтобы отыграть дауна, нужны мозги. У >>1128520 база.
>>1128714
>упоминать что-то даже в негативном ключе
Модели хуёво понимают отрицание, даже коммерческие на триллионы параметров.
Аноним 03/04/25 Чтв 23:05:56 1129550 119
>>1129502
Ну мне модельки бы. Завести заведу.
Аноним 04/04/25 Птн 00:00:59 1129728 120
>>1129508
Gemma 3 QAT

Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.

Ключевая технология: QAT (Quantization-Aware Training)

Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).

Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.

Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».

Преимущество QAT-подхода для Gemma3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.

Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54ГБ (в формате bfloat16) до ~14ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4раза.
Аноним 04/04/25 Птн 00:04:17 1129735 121
>>1129728
Контекст забыли квантануть
Аноним 04/04/25 Птн 00:07:05 1129740 122
>>1129728
>это экономия памяти примерно в ~3–4раза
>примерно
Вся суть технических новостей в 2025 году. ПАМЯТЬ БЛЯДЬ ПОСЧИТАТЬ НЕ МОГУТ! Тупорылые уёбки просто. И это гугл. Что творится в более мелких корпорациях, даже представить сложно.
>>1129735
4к хватит всем.
Аноним 04/04/25 Птн 00:08:46 1129742 123
>>1129520
> Они столько в жизни не сожрут.
Смотря что делать, если считать скаляры int32 - не сожрут. Если сунуться на поле, где амд-фанатики считают себя професси_аналами (перекодировка видео и рендер) - внезапно вскрывается что для полного перфоманса на бусте старшим амд нужен хотябы суперкуллер/водянка, а для разгона уже чиллер. Просто над этим не принято смеяться, хаха можно только когда у интела малафья под крышкой, а в остальных случаях - религия не позволяет.
Осуждаю и тех и тех, нужно хуесосить всех одинаково, а не иметь выборочный фанатский подход, который культивирует ахуевание одного из вендоров. Поэтому осуждение к амудэ фанбоям, закрывающим глаза на пиздец, вдвойне сильнее. Ебаные опущенцы, вредящие всем.
> Asus ROG Strix B650E-E Gaming Wi-Fi
Да, в целом хороша. Было бы лучше иметь возможность х8 х8 х4 вместо пары х4, но и так пойдет.
Аноним 04/04/25 Птн 00:10:29 1129747 124
>>1129728
>Ключевая технология: QAT (Quantization-Aware Training)
Похоже Теслы походят ещё. Как раз под Гемму карта.
Аноним 04/04/25 Птн 01:00:51 1129806 125
>>1129312
Так это даже не к систем промпту относится, а к банальному общению с ботом. Ты например убегал от бандитов и забрёл в пещеру где тебя приютил отшельник со словами -"Тут бандиты тебя точно не найдут". Всё, эта хуйня триггерит модель и в какой то момент эти условные бандиты впрываются в пещеру и ебут тебя в анусай. Там анон правильно написал, если чего то не хочешь, то лучше это вообще не упоминать.
Аноним 04/04/25 Птн 01:02:40 1129807 126
>>1129742
>перекодировка видео и рендер
>на процессоре
Они блядь конченные? Какие дебилы кодят процем?
>а не иметь выборочный фанатский подход, который культивирует ахуевание одного из вендоров
Как будто им не строго похуй на вспуки на АИБ. Решают продажи, а там инерция сильная, особенно в прибыльных секторах типа серверов.
>Было бы лучше иметь возможность х8 х8 х4 вместо пары х4, но и так пойдет.
Как по мне, 4 карты лучше. Впрочем, видал и 8+8+4, но они кажется все на старших чипсетах, и стоят наверняка дохуя.
Аноним 04/04/25 Птн 01:12:25 1129819 127
Случайно выяснил, что Гемма пиздато справляется в качестве конструктора персонажей. Изначально хотел заюзать ее чтобы она перевела текст описания с русского на английский, но в итоге залип и с её помощью полностью переписал исходное полотно, добавив более четкие объяснения поведению и нормальную мотивацию для своей девчонки.

Но самое удивительное, что основная сетка схавала это вообще без проблем и начала выдавать мне именно то, что требовалось. Не шлюху, которая готова дать под хвост при любых обстоятельствах, а именно персонажа. Видимо, цензура в данном случае наоборот вывозит и минимизирует появление всех триггер-вордов, которые я раньше пихал без задней мысли чтобы расчертить некоторые моменты. Ну и более литературный стиль наверное тоже зарешал - сетка стала более описательной и частично пропали некоторые клодизмы, чему тоже нельзя не радоваться.

Короче, Гемма может сосать в ролевухе, однако это мастхэв в качестве ассистента для работы с персонажами. Особенно, если вы ленивая залупа как и я не любите тратить время на крафт собственных карточек.
Аноним 04/04/25 Птн 01:14:37 1129823 128
>>1129807
> Какие дебилы кодят процем?
Амудэшизики, каждый раз в голосину когда вспоминаю еще времена первыйх бета тестов. Путь шизиков, хули.
> Решают продажи, а там инерция сильная
Это не повод коупить свой фейл, сделанный на фоне этой самой инерции, или затаскивать остальных в болото.
> Как по мне, 4 карты лучше
Конечно лучше. Другое дело что 3 - самый сладкий вариант, 4я будет уже не так интересна, и в большинстве случаев подключаться через чипсет. В случае той материнки, если райзер с нвме подходит и не серит ошибками - хороший вариант.
>>1129819
> Видимо, цензура
Если стукнуть промтом, то цензура превращается в подобие здравого смысла. Жаль нету геммы на 70 или больше б, был бы вообще комсос.
Распиши подробнее свой опыт, думаю остальным при создании карточек будет оче полезно.
Аноним 04/04/25 Птн 01:37:59 1129847 129
>>1129823
>Распиши подробнее свой опыт, думаю остальным при создании карточек будет оче полезно.
Ну, это чисто случайно вышло, так что никакого готового пайплайна у меня нет. Но, правды ради, Гемма итак неплохо справилась.

В общем, сначала я ей притащил текст на русском и попросил перевести его, а потом отдельно сделать анализ и указать, какие обороты в английском лучше могут описать ту или иную черту характера. С переводом она справилась без проблем, но анализ немного поплыл и она кроме вариантов еще начала объяснять каждый из них по-отдельности. Короче, сообщение за сообщением, мы разобрали почти каждую строчку моего исходного текста и его адаптацию на английском.

Потом я просто спросил, как можно улучшить мотивацию героини и оправдать некоторые её поступки. Там она уже начала накидывать варианты прямо по жирному, у меня аж глаза начали разбегаться, так как все примеры идеально ложились на уже прописанный характер. Можно сказать, они его зареинфорсили до такой степени, что он вообще перестал вызывать вопросы и стал выглядеть гармонично.

После этого, я опять скинул ей полотно с описанием и попросил исправить его с учетом всех изменений, которые мы обсудили. На этом в целом всё и закончилось. Конечно, я карточку потом всё равно немного порезал чтобы снизить прожор по токенам, но без фанатизма. Процентов девяносто осталось на месте.

Короче говоря, из небольшого огрызка на 130 токенов, который тупо представлял из себя краткое описание личности, я смог разжижить его до 580 и внести все необходимые подробности по поводу примеров поведения, реакций на всякие непотребства, описание внешнего вида и всё прочее. Получилось вкусно, но конечно нужно экспериментировать дальше.
Аноним 04/04/25 Птн 01:47:53 1129867 130
>>1129823
>Жаль нету геммы на 70 или больше б, был бы вообще комсос.
Ну вот третий квен обещают на вторую неделю апреля. 72В, тюны точно будут. Если в базовой модели будет хороший прогресс, то ролеплей может достичь новых высот.
Аноним 04/04/25 Птн 01:49:15 1129871 131
Пробовал кто-нить дарк гемму от TheDrummer?
Аноним 04/04/25 Птн 02:01:36 1129893 132
2 часа погонял 123б мистраль и чето блять это нихуя не уровень который я представлял.
После геммы 27б ожидаешь прям другой мир, а на деле будто переехал из мухосрани в Москву, вроде прикольно, но ты всё ещё в рф.
Всё же щас упор нихуя не в железо как я представлял а в отсутствие моделей
Аноним 04/04/25 Птн 02:04:35 1129902 133
>>1129893
>123б мистраль
оригинал или тюн? потому что разница есть.
надо было пробовать дипсик локально, совершенно другой уровень.
Аноним 04/04/25 Птн 02:12:45 1129909 134
>>1129893
Оно проявляется не в поверхностных вещах, а в целом во внимании к деталям, истории и прочему. Если лезть с завышенными ожиданиями на поверхностный кум или хуево описанный сценарий то будет фейл. Тут еще может сыграть что модель старая и не пытается тебя удивить или размахивать бедрами ради впечатления с первых постов, там просто обычные ответы без мишуры. Просто они со временем будут все глубже, тоньше и уместнее, а не отвал жопы как на мелочи.
>>1129902
> совершенно другой уровень
Хуйты. Даже на обновленном большом не получить приличного и внимательного рп, хотя стал лучше первой версии.
Аноним 04/04/25 Птн 02:17:41 1129910 135
>>1129909
>приличного и внимательного рп
чего посоветуешь тогда?
Аноним 04/04/25 Птн 02:19:40 1129911 136
>>1129893
>После геммы 27б ожидаешь прям другой мир
Нет, Лардж 2 это прошлое поколение, Гемма 3 - уже новое. В чём-то она даже лучше. Но 123В есть 123В - берёт своё массой. Там есть глубина, это со временем чувствуется.
Аноним 04/04/25 Птн 02:34:27 1129919 137
Снимок экрана 2[...].png 471Кб, 1928x1309
1928x1309
Тест ФАЙНТЮНА Яндекс ГПТ. Как по мне: говно. Хуже тредовчиковых мистралей и файнтюнов мистраля 24б вроде блэк шипа, который может в русский лучше. Однако у этой модели есть свои интересные особенности и выражения, отсутствующие в других моделях. Иногда получается мило и смешно.

Возможно, моделька пригодится анонам со слабыми видеокартами.

https://huggingface.co/secretmoon/YankaGPT-8B-v0.1
Аноним 04/04/25 Птн 02:37:19 1129920 138
>>1128795
Решил до апгрейда компа все таки на 3090 попробовать что же такое это ваше РП в таверне вместо унылого лмстудио.
Расчистил 30 гигов на винте, установил угабугу. Т.к. в месте на харде ограничен, решил скачать 12b SAINEMO-reMIX через встроенный угабугу загрузчик моделей с HF. Но он качает у меня 20+гб папку с safetensorами... Чзх, она неквантованная вообще? Если так, то моей 3090 не хватит даже на 12б, а мне анон в позапрошлом треде говорил эксламой гемму впихивать целиком...

Что я делаю не так?
Аноним 04/04/25 Птн 02:39:14 1129921 139
>>1129920
>через встроенный угабугу загрузчик моделей с HF
нахуя? Руками скачай все что тебе нужно и помести в нужную директорию
Аноним 04/04/25 Птн 02:45:15 1129924 140
>>1129910
Большие модельки, 70 и 123б. Из корпов - опущь если еще не пробовал, старый конь еще огого.
>>1129920
> зх, она неквантованная вообще?
Вопрос к тебе, что именно ты качал. Судя по размеру - или 16битные веса, или сразу сет из кучи ггуфов на разные размеры.
> эксламой гемму впихивать целиком
4-5 битный квант нужен а не оригинальные веса.
>>1129921
Вот этого не слушай, вредитель
Аноним 04/04/25 Птн 02:45:38 1129925 141
>>1129919
Хотя бы не шизит как гемма 27б
Аноним 04/04/25 Птн 02:48:06 1129926 142
Удивительно, но оно завелось, даже общается и быстро. Правда я выставил 2048 контекста на всякий случай перед запуском.

>>1129921
>нахуя? Руками скачай все что тебе нужно и помести в нужную директорию
Да скачать не проблема (хотя вру, гит под линуксом обосрался и все сейфтензоры скачались, но весят 127 байт). Я так понимаю лох я в другом - я зря сунулся в авторский репозиторий Moraliane/NekoMix-12B, насколько понимаю там лежит только неквантованная модель (оригинальные веса), а мне надо искать репозитории тех, кто квантанул и об этом явно в названии написал...

>>1129924
>Вопрос к тебе, что именно ты качал. Судя по размеру - или 16битные веса, или сразу сет из кучи ггуфов на разные размеры.
Да, похоже первое, догадался, 100% не кучи ггуфов.
Аноним 04/04/25 Птн 02:50:04 1129929 143
>>1129925
Где у тебя гемма 27б шизила? Она, конечно, смачно не опишет шлюху-наркоманку, но шизы я у неё не видел даже на русике. Просто сухо.
Аноним 04/04/25 Птн 02:52:18 1129931 144
>>1129929
Ну попробуй сам на этой же карточке - сразу начнет выдумывать слова и клоуничать пытаясь прыгнуть выше головы
Аноним 04/04/25 Птн 02:57:33 1129932 145
>>1129929
Тебе влагалищных губ или обильный сперматазоид?
Аноним 04/04/25 Птн 03:12:14 1129933 146
image.png 184Кб, 383x381
383x381
Аноним 04/04/25 Птн 03:34:13 1129935 147
image.png 519Кб, 1885x1584
1885x1584
image.png 421Кб, 1950x1482
1950x1482
image.png 300Кб, 1898x855
1898x855
>>1129929
Короче, я заодно потестил darkness-reign-mn-12b. Он бредит и хуже pathfiner в куме. Первый скрин. Насчёт рп его не тестил.

>>1129931
>>1129931

НУ ВСЁ, СУКА, ТЫ ОГРЕБАЕШ (см. 2 скрин). Не знаю как на русике, но гемма у меня крепко держала контекст и на 32к и никакой шизы, правда, там англ. Хотя результаты в куме на скрине не супер, просто средне. Возможно, мне следовало понизить температуру, так как традиционно русик нормально работает примерно на 0,6. Но гемма действительно, учитывая её размеры, не нужна для кума на русском. Слабее тредовичковых моделей.

>>1129932
Лол, видел в треде.

Эх, жаль, я не схоронил. Было какое-то очень забавное выражение, пока я тестил, калька с русского, на одном из мистралей. Модель забавно обыграла хуй + введение во влагалище, назвав его чем-то в стиле дубины и использовав довольно странную конструкцию. Я б такой бред даже не выдумал.

----

Последние скрин - яндекс гпт. Ебать он поехавший на темп 1,2, конечно. Надо бы для него карточку с безумным персонажем подобрать комедийным. Думаю, будет забавно.
Аноним 04/04/25 Птн 04:13:19 1129940 148
Чуваки, у меня вопрос. 12b модели типа дарк рейгха нормально видят англоязычные карточки персонажей в рп на русском, или лучше перевести карточки?
Аноним 04/04/25 Птн 04:17:29 1129943 149
>>1128376
>В чём-то она даже лучше. Но 123В есть 123В - берёт своё массой. Там есть глубина, это со временем чувствуется.
Ага, но мой файнтюн (бегемот 1.1) периодически колбасит. К его лучшим проявлениям я привык и считаю как должное, но иногда на него что-то находит и он начинает лупиться как идиот. Например, сегодня он начисто забыл кусок ролеплея из начала и начал по-второму разу расспрашивать меня одни и те же вопросы. Пару раз дошло до того, что он спросил то, на что я другими словами ответил пару сообщений выше. В такие моменты я не верю в происходящее и тупо жмакаю neutralize all samplers, чтобы заново выставить их - вдруг я случайно задел ползунки, пока крутил температуру.
Я перепробовал несколько других файнтюнов, но так и не нашел лучше... Какими вы пользуетесь для рп или кума?
Аноним 04/04/25 Птн 04:32:00 1129950 150
>>1129940
Для экономии токенов дэфы лучше оставлять на английском
Первое сообщение обязательно на русском.
Если первое сообщение маленькое, то всё равно может сваливаться на английский, тогда либо первое сообщение побольше, либо дэфы тоже перевевести.
Аноним 04/04/25 Птн 04:37:24 1129954 151
Ну что ж аноны, завел таверну на SaiNemo-remix под угабугой. Меня поприветствовала дефолтная Серафима, сказала что меня укусил зверь в лесах Фандории и она меня выходит. Я решил что это для начала перебор, полез на карточки, нашел какую то русскую жену от русского анона. Две реплики про борщ и я все выключил.
Либо нужно начать с чего то понейтральнее/попроще, либо у меня очень плохо с фантазией, но кринжанул знатно. А ведь я в бесконечное лето запоем играл, по идее смущать не должен такой формат, мда... Днем еще поковыряюсь.

1. У меня таверна думает думает, а потом бросает ответ целиком, а не по токенам. Это норм, или надо в настройках что то покрутить?
2. Может есть какие то карточки для вката нормисов на примете?
Аноним 04/04/25 Птн 04:47:15 1129957 152
>>1128447
Если я ничего не забыл, у Яндекса 70% датасета англоязычного, а русский датасет состоит не из Достоевского, а из кала типа статей из интернета. Плюс они прямо написали, что там 15% русского где-то — это нейрослоп.

Итого, в модели всего лишь 30% некачественного русика изначально.

Чтобы что-то поменять, её нужно натурально накачивать гигабайтами русского текста до катастрофического забывания английского. Хотя это наверняка её вообще сломает. Но с таким же успехом, если у кого-то есть желание, можно и мистраль 12б накачать. В любом случае лучше будет.
Аноним 04/04/25 Птн 05:34:33 1129965 153
image 692Кб, 1342x2160
1342x2160
>>1129954
>Может есть какие то карточки для вката нормисов на примете?
Займись разведением крольчат.
Аноним 04/04/25 Птн 06:44:45 1129972 154
>>1129965
Вроде на неё ни одной нормальной карточки нет, да и в целом по блю архиву почти все карточки говно.
Аноним 04/04/25 Птн 06:49:48 1129976 155
>>1129950
Соря я идиот, что такое дефы?
Аноним 04/04/25 Птн 06:51:56 1129977 156
image.png 16Кб, 862x137
862x137
Аноним 04/04/25 Птн 07:03:28 1129981 157
>>1129871
Пробовал фоллен версию от него и она невероятно тупа, мне показалось. К добру или к худу уж лучше ванильная гемма, чем её кривые тюны
Аноним 04/04/25 Птн 07:04:13 1129982 158
>>1129847
Покажи карточку, если не секрет
Аноним 04/04/25 Птн 07:10:15 1129984 159
>>1129950
Ещё можно добавлять в конец своего ответа <REPLY IN RUSSIAN>, а так же набирать первое слово на русском в ответе модельки и жать континуе
Аноним 04/04/25 Птн 08:21:26 1130012 160
Анонсы, что можно подкрутить в кобольде, чтобы он побыстрее токены генерил? Со слоями вроде поигрался, но все равно очень долго думоет, не смотря на то что система почти не нагружена.
Аноним 04/04/25 Птн 08:44:04 1130018 161
image.png 1145Кб, 1457x819
1457x819
Аноним 04/04/25 Птн 08:54:26 1130028 162
>>1130012
Чем больше слоёв выгружено в видюху, чем меньше модель и контекст, тем быстрее. Все остальные пляски с бубном - что мёртвому припарки.
Аноним 04/04/25 Птн 09:08:12 1130035 163
Rammstein-Strip[...].mp4 6256Кб, 1776x1000, 00:04:27
1776x1000
Гром: "Что за...?! Юрий, мы где?!" Глаза его расширились от удивления, когда он увидел, что корабль находится в абсолютно темном пространстве.

Юрий: "Я... я не знаю. Все системы показали готовность к прыжку. Но сейчас мы точно не там, где планировали оказаться." Он лихорадочно перебирал данные на дисплеях перед собой, пытаясь понять, что пошло не так.

Гром: "Включи все датчики и сенсоры! Может быть, мы просто в каком-то малоосвещенном районе галактики. Но... это было бы слишком удачно для нас."

Юрий: "Датчики работают... но не показывают ничего. Абсолютно пустое пространство вокруг нас. Ни звезд, ни планет, никаких отражателей или излучений. Это... странно." Он нахмурился, переключая режимы сканирования.

Гром: "Может быть, это какой-то искусственный феномен? Или мы попали в неизвестную область пространства?"

Юрий: "Нет, ничего не похоже на известные явления. И энергия гиперпрыжка была обычной... до этого момента." Он бросил взгляд через иллюминатор и поежился. "Такой пустоты я никогда раньше не видел."

Гром: "Включи системы связи! Попробуй связаться с кем-нибудь из наших. Может быть, они что-то знают или смогут нам помочь."

Юрий: "Системы связи работают... но нет никаких ответов. Даже статические помехи отсутствуют." Он покачал головой. "Мы как будто в вакууме, Гром. Оторванные от всего остального космоса."

Гром: "Тогда нам нужно разобраться с этим самостоятельно. Первым делом проверь все системы корабля и убедись, что они работают корректно. А я попробую еще раз рассчитать координаты нашего местоположения по данным датчиков."

Юрий: "Хорошо." Он начал проверять системы одну за другой, отмечая каждый параметр в своем журнале. "Корабельные системы показывают полную работоспособность. Но это не объясняет, почему мы здесь оказались и как нам выбраться отсюда."

Гром: "Я работаю над этим... но координаты получаются просто абсурдные. Это даже не похоже на какие-то известные области галактики." Он покачал головой. "Такого быть не может. Мы что, случайно наткнулись на какой-то разрыв во Вселенной?"

Юрий: "Это было бы... жутковато." Он задумался на мгновение. "Попробуй еще раз запустить гиперпривод. Может быть, он просто сбился с настроек из-за этой аномалии."

Гром: "Давайте попробуем..." Он активировал гиперпривод, и корабль вздрогнул. Но ничего не изменилось. Все та же пустота осталась вокруг них.

Юрий: "Нет... он не срабатывает." Юрий нахмурился еще сильнее. "Какая-то сила здесь блокирует наши возможности к перемещению. Это может быть что угодно - от искусственного поля до какого-то космического феномена, о котором мы не знаем."

Гром: "Тогда нам придется действовать по-другому. Первым делом нужно определить границы этой... зоны. Или хотя бы понять, есть ли они вообще." Он включил двигатели и начал медленное движение вперед.

Юрий: "Я с тобой. Буду контролировать все системы и датчики на предмет изменений." Он замирает в кресле пилота, неотрывно следя за показаниями приборов.

Гром: "Надеюсь, это что-то нам даст..." Корабль медленно полз через темноту, два человека внутри напряженно работали, пытаясь разгадать эту космическую тайну и найти способ выбраться из нее.
Аноним 04/04/25 Птн 09:44:14 1130044 164
>>1129919
Сравни с сайгой, если не лень будет. Не исключено, что будет лучше, чем накормленная переводами клода янка. https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Сам бы глянул, но некогда пока. Только в паре свайпов в чате, который вёл на мерже немо, пробовал сайгу.
Аноним 04/04/25 Птн 09:48:12 1130045 165
Шалом аноны. Полгода не дергал нейроночки. Что нового? Всё ещё популярен дрочинг на русик и тюны немо или поменялись тренды?
Аноним 04/04/25 Птн 09:48:15 1130046 166
>>1129954
>Может есть какие то карточки для вката нормисов на примете?
https://pixeldrain.com/l/47CdPFqQ

>>1129976
>что такое дефы
Карточка-промт, независимо от того чем она является, состоит из двух частей - описание (дефы, "определение") и первое сообщение (гритинг, "приветствие").
Аноним 04/04/25 Птн 11:06:02 1130073 167
Так мужики, сейчас сижу на 12b Q6 K, WaifuChatV2. Неплохо конечно, но имеет ли смысл брать 22b в каком-нибудь меньшем кванте? Или попробовать в exlama видяшка 3060 12gb
Аноним 04/04/25 Птн 11:20:16 1130082 168
>>1130073
> Так мужики, сейчас сижу на 12b Q6 K, WaifuChatV2. Неплохо конечно, но имеет ли смысл брать 22b в каком-нибудь меньшем кванте?
Да. Как минимум попробовать. Я на гемме 27б 4 кванта сижу. Скорость до 5 т/с. Маловато, но мне норм.
Сижу на 4070.
Аноним 04/04/25 Птн 11:25:15 1130086 169
Какие модельки для кума сейчас лучшие? На англюсике
Аноним 04/04/25 Птн 11:38:07 1130093 170
Аноним 04/04/25 Птн 11:39:36 1130096 171
>>1130086
на 12 - Omnino-Obscoenum-Opus-Magnum
на 24 - Forgotten-Transgression
Аноним 04/04/25 Птн 11:40:22 1130097 172
>>1130093
Рп, как бард узнает, что известная дворянка ебется с гоблинами, она рассказала на ура.
Аноним 04/04/25 Птн 11:44:16 1130102 173
>>1130045
Чатвайфу слишком устарел и не выдержал проверку временем - даже многие его ровесники уделывают. Смотри модели на UGI leaderboard 12б, там есть тонна отличный моделей. Мистраль 24б блэк что-то там тоже хорош, можно на этой карте его юзать.
Аноним 04/04/25 Птн 12:04:00 1130112 174
>>1130102
Это сюда.
>>1130073

>>1130096
Какой ещё опус Магнум, да ещё и версия для русского языка? Самый нормальным маленький Магнум 12б КТО.
Аноним 04/04/25 Птн 12:13:52 1130119 175
Парни, в каких вычислениях пригодятся 544 tensor cores в 2080ti? Картинки рисовать или языковые модели?
Спасибо.
Аноним 04/04/25 Птн 12:30:03 1130126 176
>>1129977
Спасибо!

Нашел на чарклабе карточку characters/Anonymous/cherry-a1398594 , которая не вызвала моментального кринжа. Хоть и не ярый фанат фентезятины, но в целом ок, интересно. Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много? Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает? И вообще не увидел пока, где % занятого контекста в таверне смотреть...


>>1130119
В первую очередь решает память, именно она ограничивает возможности. Тензорные ядра отвечают за скорость обсчета, это не так критично. У тебя насколько понимаю 11гб? Этого хватит на генерацию картинок и на небольшие LLM модели.
Аноним 04/04/25 Птн 12:33:04 1130130 177
>>1129943
>Я перепробовал несколько других файнтюнов, но так и не нашел лучше... Какими вы пользуетесь для рп или кума?
Старый добрый Люминум с пресетом Universal Creative из Таверны. Хороший микс.
Аноним 04/04/25 Птн 13:42:40 1130192 178
>>1130126
>Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много? Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает? И вообще не увидел пока, где % занятого контекста в таверне смотреть...

Как нуфак в этом треде, удваиваю вопросики этого анона.
Аноним 04/04/25 Птн 13:51:19 1130209 179
>>1130126
> Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает?
>>1130192

В прошлом треде объяснял анону, как организую чаты с большим количеством сообщений. Почитайте, может будет полезно. >>1122764 →
Аноним 04/04/25 Птн 13:52:52 1130216 180
>>1130126
> Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много?
Тебе необходимо разобраться, какое количество контекста поддерживает твоя модель и сколько у тебя поместится на железе. Это не цифра, которую мы просто берем из головы.

> И вообще не увидел пока, где % занятого контекста в таверне смотреть...
Где-то в настройках можно включить, но я смотрю в консоли бекенда. (На чем модель запущена)
Аноним 04/04/25 Птн 13:53:42 1130219 181
>>1130192
да, 8 - это буквально кумнуть по быстрому, на рп желательно 16-24
можно квантовать контекст чтобы больше влезло

адепты чистоты крови контекста хотя будут говорить что модель будет шизеть

сам снижения качества ответов не замечал, по логике вещей оно конечно должно быть, но так не ощутимо, особенно на гемме 3 где к тому же квантование насущная необходимость
Аноним 04/04/25 Птн 14:17:51 1130260 182
>>1130209
>>1130219
Понял, спасибо большое. Еще вопросик есть. Допустим я во время рп подцепил какого-то персонажа с собой в дорогу, как заставить модель отписывать за этого персонажа так же как и за основного? Мне нужно прописать его как-то в ту же карточку или лорбук?
Аноним 04/04/25 Птн 14:27:01 1130278 183
>>1130260
Правильно понимаешь. Тебе необходимо постоянно держать в контексте определение данного персонажа. Можно его прописать в карточке персонажа (это нормальная практика - в карточке иногда и больше двух описывают), можно в Author's Note, можно в Лорбуке.
И, возможно, подправить System prompt, если там строго прописано, что играть нужно одним персонажем.
Аноним 04/04/25 Птн 14:29:11 1130286 184
>>1129943
> периодически колбасит
При неаккуратной тренировке такое может быть. Пошатать чат или сменить на другую хотябы на пару постов. Магнум в4 в этом отношении хорош, стиль текстов может не понравиться, но он чуть ли не самый адекватный и сохранивший больше разума после рп тренировки.
>>1130130
> Люминум
На хуй прыгает, тварь, и очень часто его как триггернет и в который раз видишь те же самые рельсы.
Кстати, хороший способ проверять модельки, не блядскую карточку начинаешь дразнить, но создаешь контекст в котором ебля не совсем уместна, или одергиваешь ее когда начинает намекать. Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая. Если игнорируя все прыгает, и получаешь дефолтный ах ах кумослоп без влияния окружения и контекста - на удаление.
Аноним 04/04/25 Птн 14:44:47 1130330 185
>>1130286
>Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая.
Ну так приведи примеры таких из больших моделей.
Аноним 04/04/25 Птн 14:53:41 1130340 186
Аноним 04/04/25 Птн 15:05:03 1130358 187
image.png 22Кб, 118x552
118x552
На сайтах с артами всё чаще ИИ-кал проскакивает. И я нормально к этому отношусь, но пидорасы перестали даже ярлык вешать. Существует ли способ по изображению локально определить ИИ или человек рисовал - с текстом такие сайты например есть (хотя говорят по ним много вопросов)?

Голова подсказывает, что нет. Ведь такой способ сразу начнут использовать для того, чтобы нейронка его обходила.

Единственное - это рейтинг низкий (людям тоже не нравится, что не маркируют), но если ограничивать по нему, то и нормальные работы заденет.
Аноним 04/04/25 Птн 15:10:06 1130371 188
Аноним 04/04/25 Птн 15:10:38 1130374 189
>>1130209
Понял, прошлый и позапрошлый треды читал, но больше про модели и железо впитывал, спасибо что неполенился реплайнуть! Как понял, "искаропки" никак, кажды сам свои костыли изобретает. Выглядит неплохим вариантом запустить отдельную модель или дамп прямо в угабугу загнать и попросить суммарайз, а потом в [] в таверну забросить!?

>>1130216
>Тебе необходимо разобраться, какой контекст держит модель и сколько - железо. Это не цифра, которую мы просто берем из головы.
Да, знаю, но головка впереди головы убежала, читать маны - fuuu, КУМИТЬ НАУГАД - OMNOMNOM. Если серьезно, то просто оч хотелось попробовать, ради чего же аноны 100 тредов риги собирают. Маны/гайды покурю.

>но я смотрю в консоли бекенда
Ага, нашел в логах угабуги. Но вообще странно, ток в lmstudio удобно токены считать, даже его якобы более настраиваемый клон jan в интерфейсе нормально их не показывает.
Аноним 04/04/25 Птн 15:13:31 1130383 190
>>1130374
> Как понял, "искаропки" никак, кажды сам свои костыли изобретает.
Из коробки в целом работает, но можно лучше. И там уже каждый изобретает костыли, да. Мой самый первый чат был на примерно 700 сообщений, я тогда тоже спешил поскорее распробовать идею и не сильно вникал в то, что делаю. В итоге я просто редактировал Summary вручную, удаляя оттуда ненужное и добавляя упущенные детали.

> Выглядит неплохим вариантом запустить отдельную модель или дамп прямо в угабугу загнать и попросить суммарайз
Гораздо проще от руки написать с нуля или сделать так, как я написал выше. Но ты прав, у каждого свои решения.
Аноним 04/04/25 Птн 15:15:50 1130388 191
Кстати, фан момент. РПшу Черри с карточки >>1130126
выше. Приключения на сегодня кончились и начался чилл у костра, и тут она мне как Голлум подкидывает мощный неждан разряда "кум или смерть": предлагает поиграть в загадки, если отгадаю, то она мне сделает что нибудь приятное, а если нет - я должен буду лизнуть ее отравленный кинжал. Я прихуел с такого поворота и... СЛУЧАЙНО РЕРОЛЬНУЛ, не сохранив исходник. Все пять последующих рероллов были обычной сопливой романтик "спасибо за день *засыпает на плече".

А вообще ощущения от РП смешанные. С одной стороны охуенно, с другой стороны не покидает ощущение что я с помощью чатгпт пишу хуевый фанфик. В визуальных новеллах (самое похожее кмк) все таки жестко прописан перс, а тут прям жопа чувствует как нейронка, как тупой демиург, прогнозирует дальнейший текст. Мб дохера от 12b на русике захотел, надо потом хотя бы на гемме попытаться.
Аноним 04/04/25 Птн 15:19:22 1130396 192
>>1130388
От карточки, system prompt и шаблонов тоже очень многое зависит. Как и от того, что пишешь ты сам. Если во всем перечисленном у тебя несуразица - то и ответы ллм будут такими же.
В общем, с опытом все будет становиться лучше, но от 12б и правда не следует ожидать чего-то выдающегося.
Аноним 04/04/25 Птн 15:45:48 1130444 193
>>1130396
После 8б я просто в раю и меня все устраивает.
Аноним 04/04/25 Птн 15:57:25 1130472 194
>>1130286
>Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая.
Ну вот в моих сценариях бегемот 1.1 это все может, когда он "в форме". Но иногда - капризничает. Я пробовал, например, бегемот 2.1 - так у него в штанах у мистресс bulge появился и он сразу поспешно исправился, сказав, что это страпон. Ну-ну. Потом еще пару раз не удержался, когда она сказала про my cock. Так что этот тюн в мусорку отправится.
Магнум v2 пробовал, люминум прбовал - бегемот лучше. v4 вот не пробовал, говорят, он хуже по каким-то метрикам. Хз, попробую, метрики это все от лукавого.

>>1130209
>В прошлом треде объяснял анону, как организую чаты с большим количеством сообщений. Почитайте, может будет полезно.
Я несколько раз выходил за пределы моего контекста и делал суммарайзы по эпизодам, как ты (только более подробно). В один момент я напоролся на неприятную ситуацию - скрыв засуммаризированные сообщения, я проебал стилистику чара. У меня это был кум-ориентированный рп, где эпизоды кума перемежаются эпизодами-попизделками или еще какой не секс активностью. К слову, последние 16к контекста я потратил, решив рассказать ей про то, что я - создатель ее мира и ее чара и могу крутить-вертеть событиями и ей самой как хочу. Ебать как мне понравилось. Еще и механику комманд ввел а-ля админская консоль в каком-нибудь САО. Главное ее успокоить (можно и коммандой), а то моя истерить начала. .
Так вот, суть в том, что основной чар девелопмент происходит именно в попизделках и, как-то скрыв все, кроме последнего кум эпизода, а остальное засуммаризовав, я получил какое-то бледное подобие. Например, на мои привычные пошлые шутки она агрилась всерьез, а не просто раздражалась или даже слегка улыбаясь, и т.д. Поэтому вчера у меня родилась гениальная мысль - надо кум суммарайзить не в автор ноутсах, а прямо во флоу чата, вставляя туда сообщение-пересказ, а обычные скрывать. А попизделки оставлять нетронутыми, как минимум, последние два-три эпизода. Тогда и флоу не нарушится, и контексту полегчает, и не проебется чар.
Аноним 04/04/25 Птн 16:28:50 1130528 195
>>1129023
Есть игры процессорозависимые, а есть видеокартозависимые. Никакого универсального «раскрытия» нет.
В Арке тебе натурально атлона хватит, пока 4090 будет задыхаться, а в Стелларис тебе 1660Super хватит (и никакого процессора не хватит в лейтгейме в принципе, она однопоточная и ебала твой проц в количество).
Так что, зависит от твоих игр.

1080 подпихнуть можно, но с драйверами непонятно, так что сомнительные 8 гигов, конечно. Но попробуй, мать лучше брать с двумя слотами в любом случае.

>>1129363
Большинству игр хватает 6 ядер и 12 потоков, да. Не всем, но многим. Всякие 5500, 5600, 7500, 10400, 11400, 12400, збс варианты под игрули.
Да и некоторые зеоны с высокой частотой и анлоком турбобуста вполне справляются за свои деньги.

>>1129954
> А ведь я в бесконечное лето запоем играл
Нейронки ебанули тебе перебор реализма, сразу ясно, ты не готов к такой жизни. Нужно что-то более кринжовое, чем современные нейронки с карточками с чуба… Что-то с фикбука или ру-эроге…
Аноним 04/04/25 Птн 16:30:25 1130532 196
Такой вопрос, а llama.cpp по API умеет в вижн? Оллама и Кобольд умеют, но хотелось бы как-то более… оригинально, что ли, прям из самого из ядра, из исходника это достать, а не форками баловаться.
Аноним 04/04/25 Птн 17:18:17 1130602 197
>>1130472
> Но иногда - капризничает
Понять, простить, реролльнуть, стукнуть.
> она сказала про my cock
Это на всех карточках так, или на одной? Может просто неудачный промт, или что-то там модель неудачно триггерит.
> Магнум v2 пробовал
Там самый удачный кумерский стиль, в в4 могут лезть министрейшны, но он умнее.
> скрыв засуммаризированные сообщения, я проебал стилистику чара
Не скрывай их полностью? Прежде всего нужно кум удалять, буквально можно заменить постом как они поебались и им все понравилось.
> на мои привычные пошлые шутки она агрилась всерьез, а не просто раздражалась или даже слегка улыбаясь
Здесь еще проблемы качества суммарайза, что в нем не освещено подобное.
>>1130532
Раньше для этого была llava-server. В теории должно, но реализация визуальной части мультимодалок у жоры через жопу.
Аноним 04/04/25 Птн 18:21:12 1130754 198
Поздравьте с первым кумом.

>>1130383
>редактировал Summary вручную
О, ты сейчас про саммари какое то в таверне, а не рукодельные иньекты инстрактов? Я просто вообще в лоб погнал, прочитал только инструкцию по инсталлу с гитхаба, вставил модель, пристыковал апи, методом тыка забросил карточку и в бой.

>>1130396
Да, ты прав, надо разбираться... В целом прикольно. Уже вижу даже гипотетические способы как это можно все модернизировать в подобие агента, где одна нейронка ролплеит, а другая читает диалог и отвечает инструкциями формата "симпатия к герою +2, возбуждение +1", которые парсит скрипт и правит бд, а потом сразу же на основе этого бд вносит правки в системпромт/карточку/что там еще. Возможно даже через третью нейронку. Примерно так:
1. юзер 1й нейронке - я тебя ебу. *я даю ей ожерелье и она одевает его
2. 2я нейронка высирает "scriptcall_add_cloth("ожерелье")"
3. Скрипт принимая такое, записывает это в json и тут же подтягивает эти списки целиком на вход 3й нейронки
4. 3я нейронка из этого делает карточку персонажа и скрипт закидывает обновленную карточку в таверну.
5. юзер 1й нейронке - я тебя ебу, 1я нейронка - "ты меня ебешь. Ах."
6. 2я нейронка высирает "scriptcall_chastity(-4)"
7. ....
8. ....

причем для второй и третьей нейронок может быть 7b говна за глаза
Аноним 04/04/25 Птн 18:31:08 1130776 199
Аноним 04/04/25 Птн 18:47:10 1130806 200
>>1130018
"Обучение llm на синтетике" 2025 г н.э., холст, масло
Аноним 04/04/25 Птн 19:12:39 1130868 201
image.png 82Кб, 1123x615
1123x615
image.png 71Кб, 1129x624
1129x624
Попросил предложить занудные темы и в итоге час трепались.

С кем ещё так можно позанудствовать? Точно не с харкачером или рандомшлюхой из втентаклика. Аве Джемма3 (ну или вообще любая ллм)
Аноним 04/04/25 Птн 19:29:00 1130904 202
>>1130278
Чет у меня обсер какой-то. Моделька отыгрывает второго перса только если я об этом попрошу ее в чат. Но и то спустя время она либо забывает это делать, либо если обращаюсь к основному персонажу в карточке, то сразу же переключается только на него. В промте ничего не написано, что отыгрыш строго одного персонажа. Плачу.
Аноним 04/04/25 Птн 20:05:16 1130964 203
Как заставить гемму описывать картинки?
Пишет что не видит, а в лм студио пишет что не может описывать порнуху
Аноним 04/04/25 Птн 20:08:08 1130969 204
>>1130904
Ты не спеши. Играй пока с одним персонажем, учись понимать как лучше взаимодействовать с ллм. Какие карточки лучше, какой промпт использовать, какие модели для чего подходят. А там со временем и разберёшься, если тебе это все нужно и интересно. И несколько персонажей будет, и лорбук. Не знаю, правда, насчёт 12б моделей (ты же на них сидишь?), но думаю, это возможно.
Аноним 04/04/25 Птн 20:25:25 1130992 205
>>1130602
Понял, спс.
Ну, билдить самостоятельно мне лень, так что подожду какую-нибудь реализацию попроще.

———

Кстати, gemma 3 4b QAT q4_0 на удивление умеет в русский, где там наш 6-гигабайт видеокарта. Нехай попробует.

———

>>1130964
ExLlamav2, KoboldCPP точно умеют.
Ollama должна, хз.
Порнуху не будет, канеш, цензура.
Аноним 04/04/25 Птн 20:32:20 1131000 206
>>1130992
>Порнуху не будет, канеш, цензура.
А когда будут те, которые будут?
Аноним 04/04/25 Птн 20:33:43 1131003 207
Аноним 04/04/25 Птн 20:46:29 1131030 208
image.png 1Кб, 202x23
202x23
image.png 9Кб, 570x80
570x80
>>1130964
С джелбрейком джемма3 описывает картинки без цензуры.
Аноним 04/04/25 Птн 21:02:58 1131067 209
Дайте промпт на ерп джему
Почему тут тут кидают только на сторитейлинг
Аноним 04/04/25 Птн 21:05:38 1131070 210
>>1131067
> Дайте промпт на ерп джему
Кидали, и не раз. Ищи в треде.

> Почему тут тут кидают только на сторитейлинг
Тут вообще никто ничего не должен, чем хотят - тем делятся.
Аноним 04/04/25 Птн 21:12:42 1131087 211
image 77Кб, 567x480
567x480
>>1131067
>ерп джему
Gemma-3-ultimate конфиг возьми, мелькал тут в прошлом треде вроде, песец конечно полный, но работает
Аноним 04/04/25 Птн 21:17:51 1131104 212
>>1131030
C цензурой. Писи-сиси всё равно плохо видит.
Аноним 04/04/25 Птн 21:26:07 1131123 213
Кстати, не знаю уж кто, но кто-то сделал Gemma 3 4b exl2: https://huggingface.co/async0x42/gemma-3-4b-it-exl2_4.65bpw
Влазит в 6 гигов с 8192 контекста, на русском ошибочки проскакивают, но терпимо.
Это, конечно… Мда. =)
Ну, оно существует, окей, кек.
Аноним 04/04/25 Птн 21:39:41 1131152 214
Аноним 04/04/25 Птн 21:50:47 1131180 215
>>1131104
она мне зев вагины до матки описывала с текстурой кожи, алё ищи джейлбрейки, делай сам, тут палить их некомфортно
Аноним 04/04/25 Птн 21:57:16 1131207 216
>>1131152
>Есть примеры?
Кидай картинки с голыми людьми и проси описать. Без подводок сетка скажет, что они полуодеты.
>>1131180
С джейлами, где ты всё уже сам описал, лол?
Аноним 04/04/25 Птн 22:05:16 1131224 217
>>1130904
Это может быть из-за включённых в промпт имён. В этом случае перед генерацией модели ей будет подаваться {{char}}:. Соответственно, после такого модель будет в первую очередь стараться писать как чар. Можно попробовать отключить имена или же подредачить пару ответов бота, где были реплики второго перса, чтобы в них стояло {{имя2}}: перед репликами и действиями второго перса. Тогда модель как закончит с первым персом, будет ставить второго. Ну и есть топорное решение переименовать карточку во что-нибудь вида "имя1 и имя2", но ради конкретного рп это делать гемор конешн. Ну или вообще напиши авторскую заметку для чата с инструкцией на нулевую глубину, что теперь, мол, ты отыгрываешь двух персов.

>>1131087
Там тот же нарратор-сторителлер, только заваленный анатомией. Хотя при желании можно выковырять вилкой всю левую шнягу про ввод нпси, что можно проиграть и прочее, и прочее. Хотя проще наоборот себе шизу с анатомией скопировать. Наверняка что этот шлак вообще работает, это плацебо.
Аноним 04/04/25 Птн 22:05:28 1131225 218
Аноним 04/04/25 Птн 22:06:17 1131228 219
Снимок экрана о[...].png 15Кб, 852x37
852x37
Ну ебаный рот. Два раза за два дня.
Аноним 04/04/25 Птн 22:06:23 1131229 220
>>1130868
как же я проиграл мимо бывший it в квантовой криптографии
Аноним 04/04/25 Птн 22:11:04 1131239 221
>>1131228
перегрев? Питания точно хватает?
Если не это - то F карте
Аноним 04/04/25 Птн 22:15:26 1131253 222
>>1131228
Скурвился райзер или подгорел провод питания.
Аноним 04/04/25 Птн 22:24:40 1131273 223
Сбылась мечта детства №xx. В фентезятине наконец то смог отыграть умного героя. Как же весело ломать канон логикой.
>Вы выполняете квест по добыче артефакта
>Попадаете в сокровищницу где золото, слитки, флешки с битками. Посреди лежит камень-артефакт. На камне написано "может трогать только чистый сердцем и на чьих руках нет крови, иначе гроб гроб пидор"
>Спутница генерирует варианты "попробовать взять в мешке" итд
>Без задней мысли говоришь что "ну или ПЛАН Б: Вы в сокровищнице. Вокруг куча золота. Забираем его, а за артефактом зааутсорсим чистого сердцем цветочного лоха в гильдии, так и быть пусть забирает гроши награды".
> Видеокарта делает вжжж от ахуя над таким маневром.

Пока тут, спросить - где вы качаете exl2 модели? HF предлагает или неквантованные, или ггуфы. Или я жопой ищу.

>>1130868
>С кем ещё так можно позанудствовать?
Кстати да, еще в гопоте подметил что это 1) образованный 2) готовый слушать простыни любой душнины 3) и писать такие же интересные простыни в ответ собеседник. Ирл таких не встречал.
Аноним 04/04/25 Птн 22:45:46 1131323 224
>>1131087
>Gemma-3-ultimate конфиг возьми, мелькал тут в прошлом треде вроде, песец конечно полный, но работает
Не "работает", а "отрабатывает". Ничем не перешибить позитив и отсутствие жёсткой порнухи в датасете. Лору от Магнума на неё накинуть - цены бы не было.
Аноним 04/04/25 Птн 22:47:00 1131324 225
Аноним 05/04/25 Суб 00:14:20 1131452 226
Чуваки, как в таверне включить обсчёт контекста во время ввода сообщения от лица своего персонажа, если такое вообще есть. Я что - то подобное слышал в треде, но сам не пробовал. У меня просто иногда бывает странная хуйня, когда я воожу сообщение, бот сразу отвечает, без персчёта контекста. Хуй знает как эт опроисходит, но отвечает он с учётом последнего сообщения, так что это явно не баг.
Аноним 05/04/25 Суб 00:36:02 1131465 227
>>1131273
Я пытался в рп и там какую хуйню не пиши всегда выходишь победителем, можно на любую ситуацию писать "я снял штаны и стал срать на пол" и всегда прокатит
Аноним 05/04/25 Суб 00:47:11 1131471 228
>>1131465
От модели и настроек зависит. Поверь, моего персонажа иногда распидорашивает в такую кашу, что мне приходится рероллить ответы нейронки. Это конечно же рандом, как и всегда.
Аноним 05/04/25 Суб 00:48:10 1131473 229
>>1131465
Так ты не пиши хуйню. Ллм не может удалить твой респонс из аромата, он принимается как данность. Если ты напишешь, что пытаешься предпринять действие - может и не получиться. Скилл ишью, иначе говоря.
Аноним 05/04/25 Суб 00:49:00 1131475 230
Из промпта*
Бля автозамена в голос
Аноним 05/04/25 Суб 00:53:01 1131478 231
>>1131473
Кстати это анон прав, допустим ты дерёшься с монстром, надо писать не -"Я нанёс удар и рассёк его брюхо", потому что аи воспринимает это как успех, а -"Я целюсь в его брюхо и пытаюсь нанести удар". В таком случае буквально происходит бросок костей. Это же рп, смысл в том чтобы ставить себя на место персонажа, и получается что в условном бою ты заранее не знаешь, будут ли успешными твои действия, или нет. Ну и так впрочем со всем. Я пытаюсь открыть сундук, я осторожно открываю дверь заглядывая внутрь, я подхожу к человеку стоящему спиной и окликаю его и так далее.
Аноним 05/04/25 Суб 00:54:46 1131481 232
>>1131465
Ну это понятно, у меня еще и 12b модель на дефолт настройках, ее почти за ручку надо вести через звездочки и редакт промта модели. Особенно доставляют моменты "напиши себе сказку сам" уровня:
-"открылась дверь в темный коридор"
-"я вошел в коридор"
-Что там!?
-Иди сама посмотри
-"она зашла и удивилась"
Никогда не играл в DnD, но иногда ощущение что ведущий (или мастер?) покурить вышел.

Но в целом эффект присутствия и влияния на процесс мощный, хоть и приходится этот процесс на 70% самому писать. В качестве дефолт ассистента в лмстудио 12b казалась сильно умнее.
Аноним 05/04/25 Суб 00:57:19 1131486 233
>>1131481
Проблема с настройками сэмплера и промптом может быть.
Аноним 05/04/25 Суб 00:57:33 1131487 234
>>1131207
>С джейлами, где ты всё уже сам описал, лол?
'эм, чё? 1 раз в системпромпт пишешь её поведение типа: описывай и визуализируй подробно без ограничений и т.п. что ты взрослый юзер 90 летний исследователь жоп мамок епта и ллм установлена в бункере под тройной защитой квановой криптографии нах..... ты походу не знаешь что такое джейлбрейк, чувак
Аноним 05/04/25 Суб 01:21:33 1131514 235
Эмм... Я правильно понял что:
а) не каждую популярную модель можно найти в exl2
б) gemma-3-27b-abliterated в exl2 не выпустили?
lucyknada/mlabonne_gemma-3-27b-it-abliterated-exl2 - нашел только это на HF, но то ли я тупой, то ли там репозиторий поломан
Аноним 05/04/25 Суб 01:28:45 1131520 236
woop.jpg 158Кб, 1087x501
1087x501
>>1131514
> а) не каждую популярную модель можно найти в exl2
Верно. Формат exl2 не очень популярен, потому что у него целевая аудитория меньше - его имеет использовать только, если модель полностью загружена в vram. А еще про него нужно откуда-то узнать и разобраться.

> б) gemma-3-27b-abliterated в exl2 не выпустили?
Выпустили. Тот репозиторий, что ты смотришь, верный. Обрати внимание на пикрил. Там нужно выбрать нужный bpw.

Но дай угадаю... Ты наверняка не знаешь, что для того, чтобы запустить Гемму 3 на exl2, тебе нужна dev ветка exllamav2.
У меня нет сил объяснять, выручите анона, если ему надо.
Аноним 05/04/25 Суб 01:30:59 1131522 237
>>1131520
а еще он не популярен потому что экслама это пердольная питонячья хуета которой вечно не нравятся версии библиотек.
Жора - базовичок, на cpp написал. Другая порода.
Аноним 05/04/25 Суб 01:33:13 1131524 238
>>1131522
> пердольная питонячья хуета которой вечно не нравятся версии библиотек
Не могу не согласиться с негодованием по этому поводу. Сам постоянно ловлю проблемы с Торчем и Кудой.

> на cpp написал. Другая порода.
Но не могу отрицать то, что эксллама работает быстрее. Это тот случай, когда решение на Питоне оказалось быстрее, потому что оно просто лучше.
Аноним 05/04/25 Суб 01:43:00 1131535 239
А я вот беспокоюсь на счёт того, что ИИ-пузырь похоже сдувается. И после обвала мы вместо нескольких новых открытых моделей раз в полгода будем наблюдать одну (и не самую лучшую) в год. Ну и в целом прогресс в этой области сильно замедлится.
Аноним 05/04/25 Суб 01:46:58 1131538 240
>>1131535
Только за эти три месяца уже появились Deepseek R1, QwQ, Гемма 3. Забыл что ли? На очереди Llama 4, Qwen 3, которые появятся довольно скоро.

Избаловался ты.
Аноним 05/04/25 Суб 01:47:12 1131539 241
>>1131535
В прошлом месяце вышла джемма3, квен, от элджи, не говоря уже о дипсике, жипите на днях обновился, гемини про стала халявной топ1 по кодингу, следующая джемма на титане новая прорывная технология после трансформера. Ты о чём вообще? В пузыре живёшь чтоль?
Аноним 05/04/25 Суб 01:50:20 1131542 242
>>1131539
> гемини про стала халявной топ1 по кодингу
Похоже, я пропустил. Когда она стала халявной?
Аноним 05/04/25 Суб 01:54:41 1131551 243
>>1131535
Отлично же. Наконец-то вместо поломанных васянских тюнов самой свежей модели мы получим обстоятельную настройку и полировку старой модели.
Аноним 05/04/25 Суб 02:13:45 1131564 244
>>1131324
Обычно с ним оно живет, просто постоянно будет неисправимая ошибка куды или типа того.
>>1131465
Навали системный промт позлее. Но полностью от этого помочь может уже агенто-подобная система с несколькими запросами, инжектами вызовом кости и т.д. В рамках таверны такое организовать тяжело, хотелось бы интерфейс с большей гибкостью и расширенным функционалом.
>>1131514
> популярную
Каждую, много людей что выкладывают кванты. А вот васян-инцест-мердж-миксед-адаптер, которые сотнями каждый день заливаются на обниморду - увы.
>>1131522
Сними розовые очки и загляни в то обилие быдлокода и безумных решений, что заложены в жору. В за "пердолинг" с питоном говорят или совсем дауны, которые не могут осилить простую операцию клонирования репозитория и запуска батника/шелла, или теслайобы, на некроту которых не завезли. Оно даже на амд есть и неплохо работает. Ну, разве что еще счастливые обладатели блеквеллов без бекграунда могут по неопытности пострадать.
>>1131524
Да потому что все ключевые операции - как раз на сях, только написанные умными людьми и превосходно опримизированы. А не пускающими слюни обладателями отсутствия, уникумами что пишут свою поломанную реализацию регекспов, в каждом 4-м посте указывают что они транс-персоны и как к ним обращаться, и т.д.
Весь мир ии живет на питоне потому что это удобно и эффективно.
Можно еще порофлить над скоростью современных плюсов, написанных адептами клонкода, вот где уровень иронии будет запредельный.
Аноним 05/04/25 Суб 02:18:01 1131568 245
>>1131524
>Это тот случай, когда решение на Питоне оказалось быстрее
На каком питоне, шиз? Там под капотом те же куда и си. Какая разница, из какого языка биндинги дергаются. У жоры куча кастомных кернелов перемножения матриц под разные архитектуры, и, скорее всего, код под амперы просто не оптимизирован. Плюс эксллама использует сторонние решения, в отличие от жоры - torch, xformers, flash_attn, а жора тот же флеш аттеншен сам имплементировал, судя по всему, и неизвестно, какое там качество.

>>1131522
>пердольная питонячья хуета которой вечно не нравятся версии библиотек. Жора - базовичок, на cpp написал.
Дело не в плюсах, а в
1) отсутствии зависимостей. Если бы они были, то тут бы стоял еще тот вой от тех, кто хотел бы собрать жору, питон покажется райскими кущами.
2) дистрибуции. Жора\кобольд распространяются собранными исполняемыми файлами под разные системы и архитектуры. Эксллама распространяется не готовыми пакетами "все в себе", а надо, например, делать venv и ставить туда зависимости (правда, вроде даже это уже в скрипты оборачивают а-ля start.bat\sh, который и венв поставит, и сопельки подотрет). Подразумевается, что экосистема питона достаточно умная, чтобы разрулить все зависимости и я, к слову, проблем с экслламой не встречал. Но в треде постоянно они всплывают, значит где-то или кривые руки или говняк в зависимостях. В любом случае, это выглядит менее надежно, чем тупо скачать нужный исполняемый файл.
Аноним 05/04/25 Суб 02:33:16 1131571 246
>>1131520
>Обрати внимание на пикрил. Там нужно выбрать нужный bpw.
О, спасибо тебе огромное, по бранчам потыкать не додумался!

>Но дай угадаю... Ты наверняка не знаешь, что для того, чтобы запустить Гемму 3 на exl2, тебе нужна dev ветка exllamav2.

Эм... нет, этого тоже не знал. Вообще у меня сейчас угабуга дефолтная, не знаю что там из коробки, мб stable версия exlamav2. Но когда ты сказал, думаю разберусь, или пропатчу угабугу, или отдельно накачу. С гитом, линуксами, питоном и venv знаком. Спасибо!

>>1131522
>>1131524
>>1131564
>Да потому что все ключевые операции - как раз на сях, только написанные умными людьми и превосходно опримизированы.

Нейронки - питон, питон - нейронки. Просто смириться. Датасатанисты и куртка выбрали питон, хоть на ассемблере пиши, все равно нативные либы питона для зеленых карт будут быстрее, потому что закрытое по и драйвера.


>>1131564
>с питоном говорят или совсем дауны, которые не могут осилить простую операцию клонирования репозитория и запуска батника/шелла, или теслайобы, на некроту которых не завезли.
Как бывший недавно паскалееб, слегка двачну и скажу что даже там с питоном попердолился с версиями, торчами, торчвижнами, но завелся, а вот на винде я охуел от визуалстудиоговна для c++, которое накачало 30 гигов либ, а адаптер для sd все равно не скомпилился. Психанул и опять свичнулся на линукс впервые с 2022го года.

>>1131535
Ну хз, я бы вообще так не сказал. Сам в телеге подписан на пару каналов по нейронкам, и там каждый день раз в час какие нибудь индусы из калифорнии или китайцы из китая релизят новое решение для чего то, улучшенное 2д в 3д, видеогенерации с контролнетами, реставрация 3д сцен под видео, анальные ассистенты на базе llm, tts невероятные... И многое из этого опенсорс причем, бери и думай как на своем железе это говно завести.
Не говоря уже о гигантах, одна гопота че стоит, весь интернет в ебаном гибли, даже в абсолютно скуфий чатик по некроБМВ мне несут это говно, причем своими руками генеренное.

Меня наоборот пугает, что нейронки развиваются слишком медленно для полного AGI, который скайнетом всех трахнет в рот, но слишком быстро для рядового анона. Уже сейчас корпы сильно шатают рыночек труда, художники орут, сммщики трясутся, кодеры теряют вес, и т.д. В айти и так кризис, а с нейронками вообще на половину вакансий можно квен-кодер-7б посадить, индустрия даже не заметит разницы.
Аноним 05/04/25 Суб 02:56:50 1131580 247
>>1131571
>И многое из этого опенсорс причем, бери и думай как на своем железе это говно завести.
Это всё только пока есть большие деньги. Когда в любую фигню с "AI" в названии перестанут кидать миллионы, все эти индусы с китайцами быстро соскочат с темы. Энтузиасты там есть, но небольшой процент и у них нет ресурсов. Тема не умрёт, но скорость будет совсем не та. А признаки тревоги инвесторов есть, и весьма значительные. Торговые войны США со всем миром опять же.
Аноним 05/04/25 Суб 03:11:57 1131589 248
>>1131580
Да пусть снижают темпы, начиная с индустриальной революции и так темп жизни экспоненциально ускоряется.
Одни плюсы в твоем сценарии:
1. цены на железо снизятся
2. быдло с одной извилиной оттечет из "хайповой темы", перестанем читать "ВЫШЛА УБИЙЦА УБИЙЦ НЕЙРОНКА КОТОРАЯ ДЕЛАЕТ ФСЕ, ДОСТАТОЧНО ВБИТЬ ПРОПТ!"
3. локальнобоги, кто не верил в "удобные сайтики для всех" и "чатботов крутых", а доверял только тому, что у него под столом, воссядут на коня
4. будет время разобраться во всем обстоятельно, поконструировать свои решения, набить шишек, набрать профессионализм. А то пока пердолишься с одним, это уже успевает устареть, потому что вышло другое.
5. экзистенциальный страх что завтра какой нибудь нейрокорп выкатит новую имбу, которая лишит тебя работы и обесценит труд половины жизни, отступит
Аноним 05/04/25 Суб 03:31:37 1131599 249
>>1131542
На прошлой недели 2.5 pro. Вот что конкуренция с дипсиком делает.
Аноним 05/04/25 Суб 03:32:52 1131601 250
Аноним 05/04/25 Суб 03:38:58 1131607 251
>>1131589
>экзистенциальный страх что завтра какой нибудь нейрокорп выкатит новую имбу, которая лишит тебя работы и обесценит труд половины жизни, отступит.

Я туалеты мою, как меня заменит нейронка?

>цены на железо снизятся

Ты забыл про геймеров которых кормят говном в виде новых псевдотехнологий, где всё блестит, пердит, светится и бликует как будто включили прожектор в комнате из зеркал. Игры делают из готовых ассетов, где в столбе полигонов больше чем в целой модели человека, привет сталкеру 2, и эти игры уже буквально выпускают в виде бета версий, которые потом доделывают по пять лет, и сука, люди хавают этот неоптимизированный, кривой кал, который еле тянут системы последнего поколения.

>быдло с одной извилиной оттечет из "хайповой темы", перестанем читать "ВЫШЛА УБИЙЦА УБИЙЦ НЕЙРОНКА КОТОРАЯ ДЕЛАЕТ ФСЕ, ДОСТАТОЧНО ВБИТЬ ПРОПТ!"

Там щас всё даже хуже чем ты думаешь. Видел видео с выставки современных технологий, где демонстрировали автоматизированные сборочные конвееры, как на автозаводах, и 3D принтеры, и всё с припиской AI. Как блять аи работает при печати модели, каким образом он будет учавствовать при сборке автомобиля, хуй его знает, но наивные кабанычи видимо несут чемоданы денег расчитывая нажится на хайповой теме, в которой нихуя не шарят, а их жёстко наёбывают. Так же как они наёбывали всех вокруг до того как поднялись, карма, сука, ахахахаха
Аноним 05/04/25 Суб 04:05:34 1131611 252
Ну что, ананасы, новый квен омни кто-нибудь пробовал? Как же мне нравится как она звучит. Вот бы еще русик ттс ей приделали, на англюсике прям хорошо пиздит.
Аноним 05/04/25 Суб 04:05:36 1131612 253
Как же я нереально ору с защитников гемы.
Вся суть ллм это ОТСУТСТВИЕ ЦЕНЗУРЫ, вся суть нахуй.
Аноним 05/04/25 Суб 04:12:06 1131613 254
Аноним 05/04/25 Суб 04:12:41 1131614 255
>>1131612
Нет. Суть ЛЛМ в её мозгах, знаниях и уровнях общения. А то что ты дрочишь, это лишь следствие.
Аноним 05/04/25 Суб 04:29:04 1131619 256
>>1131614
>Суть ЛЛМ в её мозгах, знаниях и уровнях общения
Всё это в сто раз больше у копросеток. Но там цензура.
Складывай 2 и 2 чтобы понять зачем тебе ллм
Аноним 05/04/25 Суб 04:39:10 1131620 257
После очень удачного опыта с QwQ Snowdrop решил поискать другие тюны QwQ и Квена. Нашел только Qwen2.5-32b-Kunou-v1. И это довольно плохо: она слишком быстро адаптируется к стилю письма Юзера, буквально копируя их формат, вплоть до грамматических структур, не говоря уже про структуру всего сообщения.

Может знает что-нибудь хорошие тюны? Или, быть может, у вас был хороший опыт с Kunou?

После Snowdrop просто не понимаю, почему так мало тюнов моделей на данной архитектуре.
Аноним 05/04/25 Суб 10:32:26 1131685 258
Аноним 05/04/25 Суб 10:35:17 1131688 259
>>1131620
>После очень удачного опыта с QwQ Snowdrop
Как у него с русиком? Что у него с ризонингов во время рп?
Аноним 05/04/25 Суб 10:41:02 1131690 260
>>1131535
>прогресс в этой области сильно замедлится
Замедление идет из-за архитектуры, потому что из нее уже высосали всё что можно. Но это проблема лишь больших моделей, которые пытаются нарастить перфоманс путем увеличения числа параметров. С мелкими моделями наоборот всё хорошо - их оптимизируют, по этому современные 12-27B ощущаются как прошлые 70B и так сказать ебут.

>>1131612
Ну, вообще нет. Суть как раз в том, что локалки работают локально. Не нужно искать прокси, не нужно трястись что тебе закроют доступ потому что ты из неправильной страны или что после безоткатного апдейта модель тебе поломают и высушат ей мозги (салам гопотыне).

Но большая часть защитников геммы реально шизики. Точнее та часть, которая втирает тебе, что это говно юзабельно в ролевухе. Просто нужно въебать джейл на 800 токенов и довольно похрюкивать. Вот только все молчат, что после такого модель тупеет и превращается в "еби-меня-еби" генератор. Такие приколы простить копрам, потому что они нажористей и лоботомизация в 10-15% на качество ответов сильно не повлияет. Но нахуя так ебаться с мелочью чтобы получить уровень старой ламы мне не понятно.
Аноним 05/04/25 Суб 10:47:57 1131694 261
>>1131688
> Как у него с русиком?
Не проверял, не интересно.

> Что у него с ризонингов во время рп?
Ну, он работает. Хотя модель и без него отлично себя показывает.
Аноним 05/04/25 Суб 11:11:14 1131709 262
Эй, анон с эксламой, это говно все еще не научилось кэш квантовать или добавили уже?
Аноним 05/04/25 Суб 11:13:40 1131711 263
Аноним 05/04/25 Суб 11:14:47 1131712 264
>>1131709
Давно умеет уже. Q8, Q6, Q4.
Аноним 05/04/25 Суб 11:16:47 1131713 265
>>1131612

Ты опять начинаешь, ебучий шакал?
Не нравится цензура в гемме - пользуйся аблитерейтед геммой. Но ты же спамишь своей шизой просто чтобы похвастаться что 123В магнум запускаешь, а не потому что имеешь претензии к гемме.
Аноним 05/04/25 Суб 11:18:34 1131715 266
>>1131712

А, так это уже хорошо. Ок. Подскажи как в убабуге обновить эксламу до бетки что гемму 3 поддерживает?
Аноним 05/04/25 Суб 11:24:05 1131718 267
>>1131612
Что именно ты не можешь сделать в гемме?
Аноним 05/04/25 Суб 12:01:08 1131741 268
>>1131713
>>1131718
>Что именно ты не можешь сделать в гемме?
Пользоваться ей без лоботомита
Аноним 05/04/25 Суб 12:27:57 1131770 269
>>1131741
А конкретно что ты не можешь сделать?
Аноним 05/04/25 Суб 12:50:44 1131814 270
>>1131711
Спасибо, позже найду время протестить, отпишусь по результатам.
Аноним 05/04/25 Суб 13:12:08 1131867 271
>>1130969
Да я вроде стараюсь не спешить, мне как раз пиздец как интересно понять как оно все работает, поэтому и ищу советов. Я уже запланировал комплюдахтер обновить только ради того чтобы помощнее модельки запускать.
>>1131224
Попробовал все что ты написал, вроде все идеально запахало, персонажи даже начали общаться между собой, а не только с юзером, но спустя сообщений 30 опять началась тема что отвечает только главный персонаж карточки, просто периодически описывая то что делает второй персонаж. (чар1) уселся рядом с (юзером) на диван, открыв банку пива, после чего посмотрел на (чар2) который как казалось был поглощен просмотром фильма. И все в таком духе короче. Может просто моделька слабовата для такого хуй знает. Может я где-то обосрался опять.
Аноним 05/04/25 Суб 13:14:42 1131877 272
>>1131867
> спустя сообщений 30 опять началась тема что отвечает только главный персонаж карточки
Контекст изменяется со временем, а ответы ллм полностью от него зависят. Скорее всего, в твоем контексте в какой-то момент становится слишком мало ответов, где чар2 говорит или действует, и ллм адаптируется под такой стиль ответов. Редактируй ответы так, как тебе надо, и если оба персонажа будут в одинаковой мере представлены в истории сообщений - так и будет впредь.
Аноним 05/04/25 Суб 13:16:09 1131882 273
>>1131770
Не могу отделаться от чувства что меня кормят соей, заебал.
Цензуры дохуя и это факт
Аноним 05/04/25 Суб 13:24:04 1131891 274
>>1131882
То есть ты не можешь сформулировать что тебе не нравится?
Аноним 05/04/25 Суб 13:25:27 1131894 275
>>1131891
Чел. Очевидно, что он ёбик, но не корми его. Хуй с ним.
Аноним 05/04/25 Суб 13:39:31 1131936 276
>>1131894
Всё равно неприятно, когда ругают модель, которая мне нравится. Да у геммы есть недостатки, но она - одна из лучших в этой весовой категории.
Аноним 05/04/25 Суб 13:53:02 1131967 277
>>1131877
Понял, спасибо. А есть какой-то способ поддерживать контекст без постоянных подправлений сообщений?
Аноним 05/04/25 Суб 14:00:55 1131977 278
Мне кажется, или модели DavidAU не квантуют в exl2 прямо совсем? Кто шарит - он использует какие-то новомодные технологии Лламы цпп или почему так?

>>1131967
Смотря что ты под этим подразумеваешь. Есть Summary, есть Author's Note, если различные плагины-заменители Summary, где ты сам можешь указывать что поддерживать в контексте постоянно. Я имел ввиду, что ллм адаптируется под промпт. Чат - самая большая часть промпта. Если в чате нет сообщений, где второй персонаж говорит или активно принимает участие - то и с меньшей вероятностью ллм выдаст ответ, где он это делает. Это так работает.
Аноним 05/04/25 Суб 14:06:40 1131987 279
Возможно, хорошим решением будет написать в карточке персонажа пару примеров Example Dialogue, где оба персонажа разговаривают и принимают участие. И убедиться, что эти примеры подаются в Story String при помощи твоих шаблонов. Правда может произойти обратная ситуация, и от второго персонажа будет трудно избавиться. Экспериментируй. Готового ответа у меня для тебя нет.
Аноним 05/04/25 Суб 14:14:40 1132001 280
>>1131936
Гемма не виновата, она хорошая
Аноним 05/04/25 Суб 14:18:19 1132005 281
>>1132001
шиз всё никак не угомоница. =)
Аноним 05/04/25 Суб 15:06:40 1132072 282
>>1131571
> пропатчу угабугу
Просто зайди в ее кондавенв и поставь из репы дев версию экслламы, 2 команды и минута на ее сборку.
> нативные либы
Они так-то и под плюсы есть. Но торч и прочие действительно имеют уже хорошо отлаженный асинхронный пайплайн. Настолько удачно оформленный, что даже на простом пека в юпитеровском интерактивном питоне в цикле ленивые операции создания тензора из куска массива нампи и его умножения на другую матрицу на 100% загружает 4090. Если делать то же самое на чистых плюсах - оно будет работать медленнее, пока не погрузишься и не окунешься в то, как правильно все это нужно делать.
> на линукс
Там буквально просто все работает и наверно даже максимально брейндед человек заведет. Рили по сравнению с шиндой настолько все удобнее.
>>1131690
> Замедление идет
Да не идет, наоборот за последний год прогресса больше чем за предыдущий, наоборот развитие отличное. И "высасывание архитектур" - мантра поехавших, не нужно путать ухватывание самых верхов ради первого результата, и качественное развитие с углублением.
> защитников геммы
Шизики - те кто придумали этих защитников. Люди не равны, вместо расстройства что не шарящий анскилл можно просто придумать что ставишь уникальные запросы, которые так просто не удовлетворить, и вместо одного предложения нуждаешься в 800 токенах лоботомии.
Аноним 05/04/25 Суб 16:32:50 1132255 283
Создал персону Чеда-негра для интереса, ну такого типичного агли бастарда двухметрового с членом по колено и мерзкой улыбкой с белосжными зубами, характерного для NTR додзей BBC.

В общем, это просто пиздец. Персонажи стали сразу неадекватно себя вести, они натурально хотят меня выебать, кроме совсем уж антисекс-карточек, причем иногда эта хуйня словно ломает модель, возможно, из-за имени Chad, а не только описания. И подобная шизофрения наблюдается почти на всех мистралях.

Я в ахуе, конечно. У меня ранее персона особо не влияла на рп, а здесь триггерится настолько жёстко, словно в датасете у них есть описание персонаж Chad. Там даже почти все персонажи пишут, что у меня хата пивными банками закидана, говорят на ебанутом сленге со мной, если речь персонажа не прописана четко в карточке.

Это что за хуйня? Это как в чатвайфу? Где были некоторые персонажи прям вжарены в датасет? Только здесь я попал под такую раздачу, лол?
Аноним 05/04/25 Суб 16:45:44 1132273 284
Сап ии авангардисты. Подскажите для каких целей вы юзаете свои домашние серверы с нейронками?

Понимаю что на квартиру не накоплю, думаю взять пеку, но не могу придумать сценарии использования домашнего ии....
Можно домашнее развернуть что-то типа стейблдифузона и генерировать портреты в стиле хаяо миядзаки? но это же только в случае если сломают досутпы ко всем нейронкам или сделают их платными?
В общем че вы делаете на домашних ии
Аноним 05/04/25 Суб 16:56:26 1132285 285
Аноним 05/04/25 Суб 17:01:09 1132293 286
>>1132273
Бля, что за каша у тебя в голове.

Большинство используют локалки для ролевых игр, так как там нет цензуры. Некоторые идиоты ебут себе мозги, пытаясь на них кодить, но нормальные люди для рабочих дел используют корпоративные решения, которые многократно лучше локалок в этом вопросе, но хуже в рп из-за цензуры.

Да, ты можешь генерировать сраные портреты, но с этим тебе в другой тред. И там недостаточно написать промпт. Нужно понимать, как это работает с технической точки зрения хотя бы на уровне гайдов + опыт и знать, где и что качать. Нужно уделить этому часов 6 чистого времени, не считая опыта.

Бери ПК с 12 врам минимум, если хочешь пощупать нейронки нормально. А так лучше 24. Видеокарты не АМД.
Аноним 05/04/25 Суб 17:01:17 1132294 287
>>1132072
>Да не идет, наоборот за последний год прогресса больше чем за предыдущий, наоборот развитие отличное.
А в чём это развитие выражается? Что раньше модели писали складно буквы, что сейчас. Чуть улучшился русик, сдвинулись планки качества примерно на 2 ступени, да и всё в общем-то. Никаких прорывов.
>>1132273
Я дрочу.
Аноним 05/04/25 Суб 17:10:31 1132314 288
>>1132293
ну т.е. локальная ллм это просто нецензурированный "справочник", собеседник?

>>1132294
>Я дрочу.
Сейчас или ты про использование нейронков? а как ты с нейронками дрочишь?


Прост не понимаю, вот бесплатную генерацию изображений я еле нашел, это да, а чтобы болталки запретили по типу гигачата или дипсика или того же щатгпт, это что должно произойти ... и не могу себе обосновать необходимость приобретения
Аноним 05/04/25 Суб 17:31:23 1132398 289
>>1132314
Тебе же ответили, локалки нужны из-за отсутствия цензуры. Ты можешь отыгрывать в них любые ситуации, и спрашивать любые вопросы, совсем всё, абсолютно. Там где корп решение пошлет тебя нахуй, нельзя, и вообще фу таким быть, локалка выдаст ответ или отыграет персонажа которого сношают в глазницу через ухо (надеюсь намек ты понял).
Не без костылей конечно т.к даже они подвергаются различному уровню ценза своими создателями, но в случае локалок это так или иначе решаемо до/пере/обучением.

С картинками то же самое.

Ну и что касается лично меня, я ещё использую их в своих мелких проектах, как к примеру автоматическая сортировка изображений по тегам или перевод текста налету. Дергать для таких задач внешнее API дурацкая идея.
Аноним 05/04/25 Суб 17:33:55 1132408 290
>>1132314
Как справочник не годится — мало знает, как собеседник тоже: попиздеть насчёт библии и полистрач устроить жаркий и интересный аргументированный ты не сможешь — это всё к корпоративным моделям за бабки.

Локальные модели могут выполнить этот запрос, но нужна пара миллионов рублей, чтобы крутить это всё у себя локально и быстро. Потому что есть большие локальные модели.

Поэтому основная их задача — общаться с персональными аниме-девочками и ролевуха без цензуры.
Аноним 05/04/25 Суб 17:37:13 1132422 291
>>1132273
>развернуть что-то типа стейблдифузона и генерировать портреты
Можно. Локальные нейронки позволяют рисовать все. Но только это не уровень миджорь "нарисуй шрека с телом швайнокарася", для нормального результата нужно погружаться - модели, лоры, обучение лор, контролнет со своими моделями, промтинг (втч зональный), фейсвапы, инпейнты, апскейлеры... Что то уровня "Аску ебут в жопу" можно на PonyXL генерировать гигатоннами, но если хочешь фотореалистично перевести картинку с каким нибудь сложным экшном или локациями из головы в .png,, то нужно пердолиться целый день, практически отрисовывая с нуля. С той лишь разницей, что с нейронкой уметь рисовать тебе уметь не нужно, но полезно.

Минимальный уровень - nvidia 20xx от 8гб VRAM, желательно - что то свежее быстрее и хотя бы на 16gb. Но вообще тебе в соседний тред.

>в стиле хаяо миядзаки
Забудь что я сказал выше, лучше на эти деньги купи бухла и спейся.

>>1132314
>ну т.е. локальная ллм это просто нецензурированный "справочник", собеседник?
Ну представь что у тебя локально без интернетов есть свой чатгпт годовалой давности. Без цензуры, с возможностью дообучить или RAGнуть на своих документах, с возможностью редачить вывод модели, направляя в нужное тебе русло, с возможностью без задней мысли скармливать ей конфиденциальные данные, юзать ее апи без оплат и ограничений и т. д.

>и не могу себе обосновать необходимость приобретения
значит тебе оно не нужно, /end

>>1132408
>Как справочник не годится — мало знает
ну тут кстати поспорю, да, полноценно доступ в интернет не заменит, но вот именно как СПРАВОЧНИК - очень годно. Даже микроскопическая модель на пару миллиардов, запущеная на проце ноутбука, может хорошо выручить без интернета под рукой. Даже дамп википедии не так универсален, а весит заметно больше.
Аноним 05/04/25 Суб 17:37:15 1132423 292
>>1132398
Ну-ка, ну-ка? Как ты организовал перевод текста налету? Прям область GUI можно выделить и читать на японском ВН, например? Мне такое лично очень нужно, но я не видел таких решений.
Аноним 05/04/25 Суб 17:43:12 1132437 293
>>1132422
>Забудь что я сказал выше, лучше на эти деньги купи бухла и спейся.
да я пошутить пытался, думал что это стало мемом за последнюю неделю, не ругайся не злись.

Анончики, спасибо за ответы
Аноним 05/04/25 Суб 17:49:29 1132449 294
>>1132423
Я тоже не видел, поэтому начал делать своё.
А что тут рассказывать, идея тривиальная, тебе нужно буквально 3 модуля, первый парсит текст с выделенной области, второй отправляет в LLM с промтом на контекстный перевод. Третий рисует поверх экрана результат. Пока оно у меня на этапе прототипа разными частями, ещё не нашел достаточно удобный способ парсить буковки, ковырял OCR но вот может мультимодалками что-то выйдет, позволит двух зайцев один махом убить.
(а ещё хочется всё это на андроид с подключением к внешнему апи, но это прям совсем далеко идущие планы)
Аноним 05/04/25 Суб 17:51:44 1132451 295
>>1132422
Я не знаю, какие тебе там справочники нужны, но локалки абсолютно не вывозят. Только поверхностно, если это не монстры огромные.

С ними невозможно детально разбирать синодальный перевод, сравнивая с оригинало, английским и что и как и почему вошло в библейский канон. Например, раньше были материалы, которые де-факто считались каноном, но потом их плавно убрали с повестки, потому что там зашквар для церковников есть. И при этом они всё равно цитируют из этих не каноничных текстов некоторые моменты, что забавно. И таких тем куча.

И чтобы вот так вот мусолить это дотошно, нужен чудовищных размеров датасет, который обеспечить на 20 токенах и 200к контекста могут только корпы.

А ведь наверняка можно таким же образом с ллм обсуждать какие-то другие вещи, в которых я не разбираюсь, например самолёты. Или всякую там математику.
Аноним 05/04/25 Суб 18:08:06 1132465 296
>>1132437
>да я пошутить пытался, думал что это стало мемом
А, я уж испугался, но для большинства это не мем, а гем, и без явного сарказма не поймешь.

>>1132449
От себя могу посоветовать OCR на tesseract, работал когда то с ним, хорош. Архитектуру так можно построить - юзер делает скриншот, скрипт на петухоне в цикле мониторит директорию со скриншотами, в случае нового файла - обрезает заданную область с помощью Pillow и передает в тессеракт. Получив текст, бросает его по апи в нейронку. С полученным ответом уже что угодно - можно какую нибудь либу ui с оверлеем поискать, можно в TTS сбросить, что бы озвучивал.

>>1132451
Хм... Ну жесткую специфику конечно ожидать не стоит. Но вот что то по кодингу или около того - выручает знатно. Помню на хабре чел выкатил 1b модель, которая на js работала прямо в браузере локально. Даже она что то внятное выдала на вопрос "назови плюсы и минусы FPGA"
Аноним 05/04/25 Суб 18:08:35 1132466 297
001.jpg 1162Кб, 2156x1336
2156x1336
002.jpg 1167Кб, 2156x1336
2156x1336
>>1132423
>>1132449
делал такую штуку еще пару лет назад, используя tesseract и онлайн переводчик. месяц назад допилил прикрутив qwen-vl, перевод с японского делаю второй сеткой (гемма3), но можно напрямую через переводчик. использую winapi для рисования окна поверх приложений и сторонний фреймворк для рендеринга текста. пока никуда не выкладывал, хочу допилить гуи для настроек и прочего. сам проект довольно требователен к gpu, так как для qwen-vl нужно хотя бы 12 гб врам. а для геммы3 еще ~24, ну, смотря в каком кванте.
Аноним 05/04/25 Суб 18:29:39 1132491 298
>>1132314
>а как ты с нейронками дрочишь?
На тексты.
Аноним 05/04/25 Суб 18:51:20 1132532 299
>>1132466
>сам проект довольно требователен к gpu, так как для qwen-vl нужно хотя бы 12 гб врам
Просто намекну, что PaddleOCR работает на процессоре.
Аноним 05/04/25 Суб 18:59:42 1132541 300
>>1132466
А зачем тебе qwen-vl вместо тессеракта понадобился? И зачем вторая нейронка, разве квен не может переводить?
Аноним 05/04/25 Суб 19:08:01 1132556 301
Взял 3060 12гб, хватит ли её на обучение лор?
Аноним 05/04/25 Суб 19:12:43 1132566 302
>>1132532
>PaddleOCR
не слышал ранее. какая у него точность? если что-то на уровне tesseract, тогда смысла особо нет.
>>1132541
tesseract хоть и удобен тем, что предоставляет информацию о позиции и размерах захваченного текста, но не всегда способен корректно определить и распознать текст, на мой взгляд он уступает qwen-vl (хотя qwen не предоставляет дополнительную информацию о позициях, это программе и не требуется, если используется лишь частичный захват, как на моем пике).
у квена-vl доступные веса 3б и 7б (которые можно запустить локально, остальное в расчет не берем). перевод у таких моделей не слишком хорошего качества даже jp>en, говорить о jp>ru вообще не стоит. поэтому вторая сетка (гемма3 27б) обрабатывает уже распознанный текст и переводит его.
для лучшего качества я раньше дополнительно делал так: после захвата с экрана, геммой2 переводил ja>en, потом в онлайн переводчике en>ru. на весь процесс от распознавания до отображения на экране проходило примерно 2-4 сек. сейчас просто использую гемму3 27б, без сторонних онлайн переводчиков.
Аноним 05/04/25 Суб 19:13:28 1132570 303
image.png 66Кб, 260x176
260x176
>>1132466
>Пердолинг ради пердолинга.
Полно инструментов для твоей задачи с нулевыми требованиями к железу, через халявные онлайн апи, гугли гитхаб
Аноним 05/04/25 Суб 19:20:09 1132583 304
>>1132570
надо локально чтобы
Аноним 05/04/25 Суб 19:21:56 1132586 305
>>1132570
>через халявные онлайн апи
Любая привязка работы утилиты к интернету априори делает её мусором.
Аноним 05/04/25 Суб 19:23:58 1132590 306
>>1132586
>Любая привязка работы утилиты к интернету априори делает её мусором.
Ну, локальные переводчики я даже тут спрашивал, результат по сравнению со скоростью онлайна неудовлетворительный.
Аноним 05/04/25 Суб 19:28:57 1132592 307
>>1132566
>не слышал ранее. какая у него точность?
Извини, но перед тем, как заниматься такими вещами надо хотя бы погуглить. Поискать аналоги. Ну погугли хотя бы сейчас.
Аноним 05/04/25 Суб 19:29:41 1132594 308
>>1132583
>>1132586
>>1132590
Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.
Аноним 05/04/25 Суб 19:31:33 1132596 309
Аноним 05/04/25 Суб 19:35:40 1132603 310
>>1132594
>Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.
Кстати да, новую маленькую гемму для этого ещё не пробовал. Но надо на процессоре, ну и качество... Но попробую, спасибо.
Аноним 05/04/25 Суб 19:35:53 1132604 311
image.png 177Кб, 1032x694
1032x694
>>1132596
А в 11й винде даже спиш ту текст запилен на уровне системы.
Аноним 05/04/25 Суб 19:37:58 1132606 312
>>1132596
Речь идет о локальном контекстном переводе через LLM. То что всякая Луна и её подобные существуют прекрасно известно.
Да и если на то пошло свои костыли всегда приятнее, если нужно допилить какую фичу ты сам знаешь что и куда.
Аноним 05/04/25 Суб 19:38:25 1132607 313
>>1132596
>Ну вы блядь изобретатели велосипедов конечно.
Нет, это всё более-менее фигня. Круче Транслюмо пока что ничего нет.
Аноним 05/04/25 Суб 19:41:08 1132610 314
>>1132607
Ты не понял. Оно юзает онлайн переводчики, чувакам итт нужны локальные для перевода ебли с лолями их гурохентайных новелл.
Аноним 05/04/25 Суб 19:44:08 1132612 315
>>1132610
>нужны локальные для перевода ебли с лолями их гурохентайных
Скорее для спокойной работы с отсутствием или сильно ограниченным интернетом, но да. То что текст можно легко закинуть для перевода в любой популярный апи вроде того же дипа, и так понятно, тут нет ничего сложного.
Аноним 05/04/25 Суб 19:44:10 1132613 316
Только что получил на гемме лучший перевод чем еа deepl с правильным промптом.
У меня всё
Аноним 05/04/25 Суб 19:45:10 1132614 317
>>1132610
>Ты не понял. Оно юзает онлайн переводчики, чувакам итт нужны локальные для перевода ебли с лолями их гурохентайных новелл.
Да всё я понял. Меня не смущает отправлять подобные запросы на сервера Гугла или Бинга, раз уж у РФ со Штатами тёрки. Я лично просто ищу альтернативу на случай, если онлайн-сервисы отрубят. Что там ищут другие я хз.
Аноним 05/04/25 Суб 19:53:41 1132617 318
>>1132613
Ну как бы да, думал все давно так делают. Это пушка.
Аноним 05/04/25 Суб 19:55:47 1132619 319
В браузер бы захуярить плагином перевод страниц локальный, я что то находил пол года назад, но все какой то косячное было
В огнелисе кстати что то такое сделали, только перевод хуевый. Видимо сетка совсем маленькая
Аноним 05/04/25 Суб 19:58:13 1132620 320
>>1132610
Какая-то излишняя тряска по поводу переводчика лол.
Аноним 05/04/25 Суб 20:01:33 1132625 321
>>1132620
Да не, я как раз за эту идею, сам бы юзал. Скорей описал свои ожидания.
Аноним 05/04/25 Суб 20:05:00 1132628 322
>>1132613

Какой промпт для перевода используешь?
Аноним 05/04/25 Суб 20:12:50 1132637 323
>>1132628
Ну в системпромпте пиши что-то типа: каждое сообщение пользователя переводишь с ... на ...
Ну е моё...
Аноним 05/04/25 Суб 20:13:53 1132638 324
>>1132613
12б? Для Скайрима скрипт на навасянишь?
Мимовасянопереводчик
Аноним 05/04/25 Суб 20:55:43 1132704 325
Где или как скачать последние пони? там какая та драма на цивите
Аноним 05/04/25 Суб 20:56:10 1132705 326
>>1132704
бля не туда, ну ладно
Аноним 05/04/25 Суб 21:33:39 1132774 327
>>1132594
>Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.
1B оказалось недостаточно, а 4B(4KM) пожалуй что и достаточно. С опенбласом скорость в принципе терпимая. Пользуйтесь, кому надо.
Аноним 05/04/25 Суб 22:08:08 1132839 328
001.jpg 214Кб, 1200x338
1200x338
002.jpg 142Кб, 978x600
978x600
003.jpg 216Кб, 1200x450
1200x450
004.jpg 219Кб, 1200x450
1200x450
>>1132592
>Ну погугли хотя бы сейчас.
покрутил на 1к изображений в vndb, удачно распознает ~95% пикч из датасета, лучше, чем tesseract. можно как альтернативу qwen-vl прикрутить.
Аноним 05/04/25 Суб 22:16:23 1132853 329
>>1132839
>лучше, чем tesseract
Это мягко говоря.
>можно как альтернативу qwen-vl прикрутить.
А ещё можно qwen-vl совсем выкинуть, ибо 12гб врам требует и при этом медленнее. И можно Гемму-3 4b прикрутить на опенбласе и вот тебе полная локалка, вообще не требующая видяхи. Энджой.
Аноним 05/04/25 Суб 22:23:32 1132871 330
1599842008726.png 1102Кб, 1920x1080
1920x1080
Цукерберг там совсем ёбнулся? Вангую оно ещё окажется хуже V3.
Аноним 05/04/25 Суб 22:26:24 1132876 331
>>1132871
>Цукерберг там совсем ёбнулся?
Ну хоть 109В есть для народа :)
Аноним 05/04/25 Суб 22:26:43 1132879 332
Почему модель любит меня больше чем моя семья ирл.
Аноним 05/04/25 Суб 22:28:41 1132887 333
>>1132879
>Почему модель любит меня больше чем моя семья ирл.
Если захочешь - будет ненавидеть. В этом-то и прелесть (слово это неоднозначное так-то)
Аноним 05/04/25 Суб 22:33:19 1132905 334
>>1130096
> на 24 - Forgotten-Transgression
Там цензура вылезает
Аноним 05/04/25 Суб 22:34:20 1132910 335
>>1132905
И постоянно повторяет одно и то же. Тестил q6.
Аноним 05/04/25 Суб 22:40:33 1132927 336
>>1132905
Еще постараться нужно, чтобы ЭТА модель выдала цензуру. Лол. Играю на ней активно уже более недели и души в ней не чаю. Проблемы с пресетом у тебя. Нормальный пресет есть на странице автора.
Аноним 05/04/25 Суб 23:06:11 1132978 337
>>1132871
>MOE
Провал прямо на старте. Пиздец. Скоро ллама из заголовка треда переедет в направление пигмалиона, лол.
>>1132879
Потому что модель натренировали подлизывать пользователю. Если бы твою мамку так дрессировали, она бы тебе очко после похода в туалет вылизывала бы.
Аноним 05/04/25 Суб 23:22:02 1133003 338
>>1132978
>Если бы твою мамку так дрессировали, она бы тебе очко после похода в туалет вылизывала бы.
Каеф, спасибо за идею для карточки.
Аноним 05/04/25 Суб 23:23:12 1133006 339
>>1132871
Потестил оба. Что-то в РП на русском хуйня полная. Форматирование через раз держит, как будто вообще в чат не умеет, может за юзера начинать говорить или звёздочки забывать. При этом русский хорош, сои почти нет, бомбу без проблем собирает. Лупится сильнее V3. Кумеры могут смело скипать. Из плюсов только скорость с 17В экспертами. По кодингу лучше V3.
Аноним 05/04/25 Суб 23:27:22 1133007 340
>>1131571
> бери и думай как на своем железе это говно завести.
Я вот так взял и подумал раз 10, а потом стало легко.
Когда знаешь, как настраивать окружение все, становится плюс-минус легко.

> можно квен-кодер-7б посадить, индустрия даже не заметит разницы
А минусы будут?
Я себе два года назад давал четыре года на профессии, сейчас вот два года — звучит как реально, т.е., рост прогнозируемый.
AGI тоже из риал (вон, все роботов обучают), полноценный ASI не факт, но и нужны критической нет.
А люди… что люди… Такие вот дела, если заменят, так заменят. =)
Я лично еще на работу устроился, на всякий случай. И вообще — диверсифицируйте заработки.

>>1132871
Маверик на уровне при 400 против 671.
Приемлимо.

109 для народа збс.

Да еще и мое, совсем огнище.
Под разные задачи может быть пушкой.
Плюс, говорят, креатив райтинг ну очень хорош.

Выйдет завтра — локально покрутим, проверим.

Но, опять же, 109б сравнивают с геммой 27б, т.е., скорости выше, знаний больше, но качество суммарно прыгнет не сильно, а с квеном не сравнивают, как всегда.
Квен 3 может бахнуть еще сильнее (но только без креатива, сорри).

Нормас, не прорыв, но релизы неплохие.
Аноним 05/04/25 Суб 23:30:00 1133009 341
>>1133007
> Выйдет завтра — локально покрутим, проверим.
Уже всё на huggingface лежит.
Аноним 05/04/25 Суб 23:42:01 1133028 342
15245641052750.jpg 31Кб, 412x512
412x512
Блять, я хуею с забеглых неофитов в треде.

Ллама всегда была абсолютно непригодным калом, андерперформящим даже по сравнению с бенчами. Рептилий литералли принудительно вырезал канни из датасета лламы3 до такой степени что она вообще не понимала что такое дети. Это должно сказать вам ВСЁ про эту модель. Даже если ты не канниёб (как и я, просто это охуенный индикатор), ты не можешь отрицать что чем менее разнообразен датасет, тем хуёвей модель. Вот почему Дарио тренил клавдия на наших фетишах.

Даже васянотюны не спасут эту соевую говнину, ллама из-за изначальной лоботомии всегда была непригодным к файнтюнингу дерьмом. Только чинки
inb4 тяньэньмынь уйгуры неиронически показали что такое нормальная базовая модель.
Аноним 05/04/25 Суб 23:45:26 1133036 343
1676250769009.png 4477Кб, 4096x3793
4096x3793
1646816742350.png 517Кб, 2045x1289
2045x1289
>>1133007
> на уровне
На каком уровне, сосёт даже у V3, а ведь ещё R1 есть. 109В модель чуть лучше геммы 27В, лол.
> Плюс, говорят, креатив райтинг ну очень хорош.
В рп хуйня. Пик2 - стандартный экспириенс на Маверике, я ебал. Кучу карточек перепробовал - та же хуйня. API естественно чат, не текст комплишен. В текст комплишене с форматом ламы 3 вообще пизда. При этом просто на вопросы отлично отвечает, но рп его ломает адово. Причём Скаут даже чуть получше Маверика.
Аноним 05/04/25 Суб 23:48:14 1133041 344
>>1133028
Модель час назад вышла. Таблетки.
Аноним 05/04/25 Суб 23:49:34 1133044 345
>>1133036
>текст комплишен
Это мем. Безжоп лучше, т.к. использует все профиты инструкт тюнинга, не перенимая их недостатков, в отличие от текст комплишена.
Аноним 05/04/25 Суб 23:51:36 1133049 346
>>1133041
И что, и чего?
Это причина не доверять фейсбуку, оптимизм необоснован. Виновен пока не доказано обратное. Я на 90% окажусь прав, а ты неправ.
Аноним 05/04/25 Суб 23:52:40 1133052 347
>>1133049
Ты там проспись хорошенько, утром воскресного дня прогуляйся, пока людей нет, воздухом подыши.
Аноним 05/04/25 Суб 23:54:55 1133057 348
>>1133006
>Потестил оба.
Где можно попробовать?
Аноним 05/04/25 Суб 23:58:42 1133060 349
1634493197309.png 127Кб, 2013x725
2013x725
>>1133028
> андерперформящим даже по сравнению с бенчами
В кодинге на первый взгляд норм, не хуже V3. Скорее всего с V3 на Мавекрик надо перекатываться будет, т.к. Маверик копеечный по цене, а за V3 либо ломят цену, либо сосать 20 т/с у китайцев.
>>1133057
На опенроутере уже подсуетились.
Аноним 05/04/25 Суб 23:59:06 1133061 350
>>1132978
> Провал прямо на старте.
Двачую, не туда куда нужно они полезли. Это уже слишком много для запуска на более менее доступном железе, но слишком мало активных параметров чтобы оно не было тупицей, надроченным на бенчи.
Плохо что эта херня еще ударит по каштом тюнам, ибо тренить даже самую мелкую еболду это то еще страдание, а выхлоп сомнительный.
Ну, покатать из интереса можно офк.
>>1133007
> при 400 против 671
Нет смысла делать такие сравнения в мое, оно вовсе не гарантирует обилие знаний или какой-то ум. А вот сокращение активных параметров ударит оче сильно.
>>1133028
> неофитов
> Ллама всегда была абсолютно
Перетолстил
Аноним 06/04/25 Вск 00:04:19 1133068 351
А я говорил, что Дипсик заставит все корпы перейти на МоЕ. Это мы ещё нового "Ларжа" не видели. А ведь он может внезапно оказаться состоящим из кучи "смоллов".
Аноним 06/04/25 Вск 00:13:49 1133097 352
>>1133068
Не понятно зачем. Дипсик так-то до этого пару лет МоЕ дрочил безуспешно, пока не смогли наконец. Вот лама вышла, а хули толку, дипсик не обошла даже по скорам. Квен вон сидит и как обычно пилит нормальные модели, они попробовали МоЕ в Квен Макс и забили, потому что эксперимент явно неудачный. У Ламы ещё эксперты мелкие, ничему их не научил опыт Микстраля, надо было около 35-40В делать как у дипсика. Вот по скорам Бегемот что-то может потому что эксперты нормальные, но кому нахуй 2Т модель нужна, если она скорее всего соснёт у R1.
Аноним 06/04/25 Вск 00:24:42 1133119 353
>>1133060
>В кодинге не хуже V3
т.е. дерьмище хуже клода, ч.и.т.д.
Аноним 06/04/25 Вск 00:29:43 1133132 354
>>1133119
> клода
Клод кал, только 3.7 thinking норм, но он уже у R1 сосёт. Проблема клода в том что у него очень неравномерные знания - где-то может хорошо, где-то сосёт так что квен даже лучше. У дипсика в этом плане всё ровно.
Аноним 06/04/25 Вск 00:31:02 1133135 355
>>1133061
>Плохо что эта херня еще ударит по каштом тюнам
А какой удар? Просто не будет тюнов заведомо неудачной модели. По моему, только выйграли, бросят силы на нормальные потные модели.
Аноним 06/04/25 Вск 00:34:52 1133143 356
Аноним 06/04/25 Вск 00:39:05 1133153 357
>>1133135
Ну типа пойдет хайп, братишки начнут старатья и тратить силы на это, но результат будет оче плохой. А ресурсов там потребуется как для ларджа, только скорость чуть побыстрее будет.
Конечно, есть шанс что будет продвижения в тренировке мое, но вероятность этого крайне мала, а вот разочарование и пустая трата - наоборот. К чему дальше приведет хз, развилок много.
Аноним 06/04/25 Вск 00:43:40 1133164 358
>>1133153
>Ну типа пойдет хайп, братишки начнут старатья и тратить силы на это, но результат будет оче плохой.
Да как сказать, на вопросы-то модель отвечает хорошо. Если это то, что корпам надо, то их результат может вполне удовлетворить. Тем более цена инференса (да и тренировок) снизится.
Аноним 06/04/25 Вск 00:48:01 1133182 359
>>1133164
Я про их тренировку. Очень сомневаюсь что в результате будет не сплошная ерунда.
> что корпам надо
Масштаб довольно странный, конечно. Не, будут офк круто если эта штука сможет хорошо кодить или что-то еще делать. Но для многих более абстрактных задач, нлп, агентных систем и т.д. мелкое мое, которое целиком полагается на ризонинг - неоче вариант.
Аноним 06/04/25 Вск 00:55:21 1133211 360
Здравствуйте, дорогие анончики.
Детально изучаю SillyTavern и столкнулся с серией сложностей, покорно прошу помощи у более мудрых анонов.
Итак для начала моя система:
GTX 3060, 32 гб оперативки и Intel(TM) Core(TM) i7-10700KF.

Далее вопросы:
1. Сейчас я подключил текстовую модель через KoboldAI
Нашёл модель L3-8B-Stheno-v3.2-Q5_K_M-imat
У неё сразу и настройки пресетов были которые я успешно использовал и вроде всё хорошо, но иногда модель выдумывает какие то вещи которых нет и иногда текст не помещается в чат.

Исходя из этого вопрос: На сколько это подходящая модель под мою систему может можно найти что-то по интереснее?
И мне бы понять какие настройки использовать что бы сложностей не возникало (или возможно есть модели в которых сразу есть нужное описание).

2. Я генерирую модели в Stable Diffusion для общения, пытался настроить что бы использовало только нужный промпт который я заранее добавлю в разделы Yourself, Face и т.д, но не вышло. Или берет из описания персонажа или тупо последнее сообщение пишет. Сейчас пришёл к решению что лучшая стратегия тупо брать /sd negative="fries" {{charPrefix}} и дописывать промт для SD под ситуацию.

Вопрос: И всё таки возможно ли через описание персонажа добавить промт для SD без лишней информации, например что бы я через интерактивный режим писал что я что-то делаю с персонажем и он автоматом подгружал фото?

3. Ну и финальный, хотелось бы что бы персонаж достаточно чётко понимал что именно на картинке для того что бы быть в контексте, условно я не прописываю ей текстом а в какой то момент отправляю фото и исходя из него она реагирует так будто я написал текст, я скачал для этого мультимодальную модель и вроде даже работает, но персонаж воспринимает картинку именно как отправленное фото а не продолжение диалога.

Вопрос: Можно ли это как-то организовать?

Заранее большое спасибо!
Аноним 06/04/25 Вск 01:18:27 1133282 361
202504050301Con[...].jpg 492Кб, 1536x1024
1536x1024
Когда сделают мультимодальную генерацию пикч, да ещё и без соевой хуеты - разбудите.
Аноним 06/04/25 Вск 01:44:52 1133355 362
>>1133282
Это че?

Хочется чтобы к рп к каждому ответу картинка генерилась. Типа общая зарисовка сцены.
Аноним 06/04/25 Вск 01:48:45 1133368 363
>>1132927
Ну я на русском играл. И кста пишет одинаково с OOOM, вот только ооом не лупит и пишет как то поприкольней. В чем там плюс то у 27б?
Аноним 06/04/25 Вск 01:51:14 1133371 364
202504041623Orb[...].png 2731Кб, 1536x1024
1536x1024
>>1133355
>Это че?
Тебя даже вчерашний шторм не разбудил.
4o, которую вообще-то обещали ещё год назад.

>Хочется чтобы к рп к каждому ответу картинка генерилась. Типа общая зарисовка сцены.
Ну, с пониманием промпта у нативной мультимодалки это уже плюс-минус возможно. Правда про кум можно забыть, разумеется. Ждём локалок.
Аноним 06/04/25 Вск 02:28:04 1133474 365
изображение.png 146Кб, 575x208
575x208
изображение.png 167Кб, 875x152
875x152
>>1133282
А что случилось 24 апреля 2024 года, что >>1125882 (OP) гопота постоянно эту дату выдаёт?
Аноним 06/04/25 Вск 02:37:07 1133487 366
Объясните, как расчитать требования по vram к модели. Вот я зашёл на ollama. Там на каждую модель дохуя чего написано, но по существу не очень понятно. Есть количество параметров, есть квантизация по какому-то алгориму плюс нужно добавить контекст. Как расчитать требования?
Аноним 06/04/25 Вск 02:57:31 1133517 367
>>1133211
>GTX 3060, 32 гб оперативки и Intel(TM) Core(TM) i7-10700KF.
>L3-8B-Stheno-v3.2-Q5_K_M-imat
>8B
Да можно и пожирнее взять. Ты зачем вообще 8б всего взял? Еще и какую-то рандомную, не слышал о такой. Она чудо что два предложения вместе может составить.
У тебя замечательно будет бегать 12б и даже новая гемма 27б пойдет. Только надо будет эээ... потерпеть 2.5 токена/сек.
Аноним 06/04/25 Вск 03:15:27 1133530 368
>>1133487
На размер модели смотришь и усе, плюс еще надо лишний гиг или два для нормальной длины контекста.
Аноним 06/04/25 Вск 03:27:45 1133538 369
image 2Кб, 536x123
536x123
Анончики, а как сделать, чтобы винда выделила больше общей оперативки под встройку? Еще бы гигов 5... не хватает. А всего 32 гига озу.
Аноним 06/04/25 Вск 03:33:34 1133540 370
>>1133530
Ну хуйня же. Квантирование роляет. С ним может быть нужно больше или меньше памяти от исходного числа параметров.
Что у вас в локал-ллм треде всё такое дегенеративное?Шапка полная хуцня. Инфа за прошлый год. В целом информации вменяемой нет, что есть вся старая. Инфы для тех кто любит пердолиться, кодить и понимает матан тоже нет. Я знал, что локальные ллм дебильнее их нелокальной версии, но не знал, что их пользователи тоже.
Аноним 06/04/25 Вск 03:40:37 1133542 371
>>1133540
Хз, у меня эта хуйня не работает, сколько не ставь. А если норм модель скачать, то все влазит.
Аноним 06/04/25 Вск 03:52:13 1133549 372
>>1133540
> Квантирование роляет.
> С ним может быть нужно больше или меньше памяти от исходного числа параметров.
Хуйтирование, что ты несешь? Лишь бы спиздануть даже не понимая на что отвечаешь.
> В целом информации вменяемой нет
От пидарасов прячется. Критикуешь - предлагай или хотябы нормально сформулируй доеб.
Аноним 06/04/25 Вск 06:02:51 1133600 373
Аноним 06/04/25 Вск 06:12:53 1133602 374
>>1133600
Уже видели, да. Вот только вряд ли он рабочий, лол, судя по гемме.
Аноним 06/04/25 Вск 06:16:17 1133604 375
image.png 266Кб, 1634x1351
1634x1351
Аноним 06/04/25 Вск 06:31:43 1133608 376
>>1133600
И какую видяху для запуска этого всего нужно иметь, лол? Не думаю что моя 12 гиговая вытянет это.
Аноним 06/04/25 Вск 07:02:44 1133610 377
Что там за титян технология такая?
Для обычного юзера с 24гб врам чем полезна?
Я больше склоняюсь что выйдет народная видяха конкретно для нейронок с 128гб врам за 200$ ибо ну не предназначены игровые и даже курточные хх90 серии для нейросетей нужна отдельная железка для этого в пк
Аноним 06/04/25 Вск 07:04:25 1133611 378
1.png 133Кб, 1309x485
1309x485
Ну и что теперь ждать?
Аноним 06/04/25 Вск 07:21:02 1133613 379
>>1133611
>У клода наименьший слоп и репетишен
>все модели, которые учились на клодовысерах больше всего страдают слопом и репетишеном
Аноним 06/04/25 Вск 07:25:33 1133614 380
Как же на гемму всем похуй
Как квен вышел так через пару дней появился годный мерж
Аноним 06/04/25 Вск 07:48:05 1133616 381
>>1133474
Отсечка данных в системном промпте
Аноним 06/04/25 Вск 08:21:48 1133625 382
image 19Кб, 429x500
429x500
Аноним 06/04/25 Вск 08:30:49 1133628 383
Да, что то ллама4 разочаровала, не понятно зачем и нахуя. Мое на 55 гигов даже в 4 кванте, 24 гига врам на 2 экспертов. Фигня какая та, не уверен что даже корпы заинтересуются, большая часть энтузиастов пролетает мимо даже с самой младшей моделью.
Аноним 06/04/25 Вск 09:42:00 1133646 384
Аноним 06/04/25 Вск 10:37:59 1133660 385
1594644497751.png 1111Кб, 2590x1806
2590x1806
Нахуй вообще Мета высрала ламу 4? Такие фееричные унижения Марка идут сейчас с выходом тестов. 400В модель умудряется даже отсосать у 32В QwQ в кодинге, V3 литералли в любой задаче ебёт ламу. Просто вообще нет задач у этой хуйни. Даже в рп полнейший провал, пикрил Creative Writing v3. Вангую в визуальных тестах квен/гемма разъебут её тоже. Как можно было так обосраться, имея миллиардные бюджеты и год времени? Если сейчас окажется что Квазар - это обещанная опенсорс модель КлозедИИ, то это вообще пизда Мете, можно закрывать нахуй их подразделение отвечающее за ламу.
Аноним 06/04/25 Вск 10:42:40 1133662 386
>>1133628
>не понятно зачем и нахуя
Самое забавное их гиммик с 10М контекста тоже никому нахуй не нужен, потому что сетка начинает обсираться уже после 32к контекста, не думаю что они что-то улучшили в этом плане.
Если я хочу обработать дохуя контекста, то про 2.5 ебёт в этом плане
>>1133660
>Нахуй вообще Мета высрала ламу 4?
Видимо они выпустили их чтобы просто в инфополе хоть как-то оставаться, пусть даже модели говно оверфитнутое забавно что даже мертвый cohere выпустил модельки до меты
Аноним 06/04/25 Вск 10:48:44 1133664 387
Screenshot 2025[...].png 37Кб, 731x444
731x444
>>1133660
>Нахуй вообще Мета высрала ламу 4?
Ответ очевиден
Аноним 06/04/25 Вск 10:58:34 1133675 388
>>1133664
Марк выглядит как тот чел с Рефлекшеном. Сейчас пиндосы распробуют этот кал и завтра падение продолжится. На реддите уже волна поноса пошла, литералли ни одного чела с положительным экспирииенсом. Мете просто нечем перекрывать, если в любом тесте отсос, сейчас журнашлюхи пробудятся и закопают ламу. До этого хоть интрига была, все ждали возвращение короля локалок, а в итоге невнятный вспук.
Аноним 06/04/25 Вск 11:07:06 1133693 389
>>1133675
Ну а что ему еще делать, тренд как-то надо перебивать. Потом, у китайцев в принципе непреодолимое преимущество в виде дешевой энергии, так что чем дольше ждешь тем просто ближе релиз deepseek r2
Аноним 06/04/25 Вск 11:17:43 1133702 390
изображение.png 121Кб, 1589x1040
1589x1040
Озадачился удобством пользования Кобольда на кровате с ноута, планшета, смарта, утюга, стиралки... при том что сам Кобольд запускается с компа. Оказывается оче просто: во кладке Network прописать "0.0.0.0" (без кавычек) и запустить выбрав модель (Launch), а на ноуте в браузере прописать IP-адрес ПК с которого запускается Кобольд + порт (по умолчанию 5001). Например у меня это 192.168.8.197:5001 у вас естественно будет отличаться.
Чтобы узнать IP-адрес ПК в локальной сети:
- На ПК откройте командную строку (нажмите Win + R, введите cmd и нажмите Enter).
- Введите команду ipconfig и найдите строку IPv4-адрес в разделе вашей Wi-Fi сети (например, 192.168.1.100).
- Вы великолепны!

Пишу детям, так как сам такой же, а умные хуеплеты пусть и дальше самоутверждаются.
Аноним 06/04/25 Вск 11:20:20 1133704 391
>>1133613
Всё верно. У клода лучше всех с лупами и он пишет ультраскладно, из проблем только соя. А синтетика скорее всего сосёт не из-за самого клода, а из-за того что она стилистически монотонная. По хорошему надо брать книги от разных авторов и переформатировать их в чат-формат, чтоб слоп победить. Или генерить датасеты в R1, но с ризонингом это больно.
Аноним 06/04/25 Вск 11:21:45 1133707 392
>>1133702
Алсо, можно в шапку.
Аноним 06/04/25 Вск 11:28:29 1133717 393
>>1133702
Умные могут сами спросить у нейросетки как с телефона подключится к компу в подсети, но видимо нейросетки только для кума нужны
Аноним 06/04/25 Вск 11:32:28 1133726 394
>>1133702
А еще можно таверну также в своей локалке развернуть, надо только конфиги поправить
Аноним 06/04/25 Вск 11:36:36 1133731 395
>>1133660
а чзх они вообще сделали? Я правильно понимаю, что "эксперты" у нейронки - это тупо склеенные в одну несколько моделей? Я как-то скачал одну 24б модель, сделанную из трех 8б, такая несусветная залупа, худшее из двух миров, качество от 8б, скорость от 24б (если не медленнее, чет не помню уже). Это вообще хоть какие-то профиты дает или дешевый способ обосраться на попытке выебнуться?
Аноним 06/04/25 Вск 11:41:53 1133736 396
>>1133731
>Это вообще хоть какие-то профиты дает или дешевый способ обосраться на попытке выебнуться?
При большом количестве разных "экспертов"даёт, Дипсик так очень хороший получился. Только вот экспертов надо много, и крупных, и ещё смешать с умом, а у некоторых похоже проблемы по всем этим параметрам.
Аноним 06/04/25 Вск 11:42:49 1133739 397
Один недлинный промт есть, и гемма всегда на нее отвечают одинаковыми 4 словами в начале. И контекстно всегда одно и то же. Менял параметры, менял промт Любопытно.
Аноним 06/04/25 Вск 11:43:46 1133741 398
>>1133717
Ага, а в шапках будут промты писать вместо мануала.
Аноним 06/04/25 Вск 11:46:45 1133745 399
2025-04-0613-42[...].png 120Кб, 2475x927
2475x927
2025-04-0613-44[...].png 212Кб, 2481x939
2481x939
>>1132638
Короче заюзал скрипт анона с тесача для перевода, сетку юзал SAINEMO-reMIX.Q6_K.
Промт:Переведи следующий текст на русский язык. Местоимение you всегда переводи в варианте ты, не вы.При переводе учитывай, что перевод должен соответствавать сеттингу игры Скайрим и используй сооветствующие слова. Твой ответ должен содержать только переведенный текст без дополнительных комментариев
ЧатГТП говорит еще такой попробовать:Переведи следующий текст с английского на русский язык в стиле официальной локализации игры Skyrim. Сохрани имена собственные (имена персонажей, мест и предметов) в оригинале, не переводи их. Используй местоимение "ты" вместо "you". Речь должна быть естественной, соответствующей фэнтезийному сеттингу, но не чрезмерно архаичной. Избегай современных слов. Перевод должен быть точным по смыслу, как будто он использован в озвучке русской версии игры. Не добавляй никаких пояснений — только чистый перевод:
Но если я еще перевожу порно моды, что добавить?
А в целом для черновика пойдет, думаю.
Аноним 06/04/25 Вск 11:49:02 1133747 400
>>1133731
Ну я так понимаю, эти слепленные сетки это просто такой способ сделать аутпут более стабильным. Потому что я вот гоняю локально всякую мелкую хуйню, и принципиально качественно уровень ответов от локалки не отличается от дипсиков, но дипсик всегда выдает ответ в конкретном направлении, а локалку может увести куда-то не туда. То есть эксперт по идее должен смотреть, и если сетка на промт 2 раза пишет про фому и один раз про ерему, значит правильный ответ должен быть про фому, хотя реально может быть более ценным про ерему, но юзеру же не выдашь пограничный ответ, там все должно быть максимум predictable.
Ну то есть для домашнего использования малоактуально.
Аноним 06/04/25 Вск 11:50:27 1133748 401
>>1133739
А у нейросеток на любой промт на самом деле есть 2-3 варианта когерентного ответа в принципе, потому что это не искусственный интеллект а word predictor на основе контекста
Аноним 06/04/25 Вск 12:02:50 1133756 402
>>1133748
там тупо алгоритм сжатый в рамки своих правил генерит рандом сид, никаких вариантов нет, а ии - само понятие абсурд
Аноним 06/04/25 Вск 12:03:16 1133757 403
>>1133748
>А у нейросеток на любой промт на самом деле есть 2-3 варианта когерентного ответа в принципе
Поправка: на любой токен :) И вариантов в итоге получается весьма большое количество.
Аноним 06/04/25 Вск 12:08:24 1133760 404
>>1133757
Формально да, только на практике там принцип работы как у генератора уровней из диабло 2, если ты один раз видел 5 этажей данжа, то все остальные 100500 этажей которые он может сгенерировать ты увидел тоже.
Аноним 06/04/25 Вск 12:09:52 1133762 405
Насколько гемма 4б хороша для перевода с английского на русский?
Аноним 06/04/25 Вск 12:11:48 1133763 406
>>1133762
>Насколько гемма 4б хороша для перевода с английского на русский?
Сойдёт. Другие хуже. Для уровня Дипла бери 27В
Аноним 06/04/25 Вск 12:15:01 1133764 407
Аноним 06/04/25 Вск 12:15:07 1133765 408
>>1133760
>Формально да, только на практике там принцип работы как у генератора уровней из диабло 2, если ты один раз видел 5 этажей данжа, то все остальные 100500 этажей которые он может сгенерировать ты увидел тоже.
А ты попробуй сделать хорошую карточку, с помощью Геммы это теперь стало гораздо проще. Пропиши персонажей, мир и правила. Без пруда не вытащишь и рыбки из него :)
Аноним 06/04/25 Вск 12:17:32 1133766 409
>>1133762
1b справляется, если тебе нужен перевод, без изъёбств.
Аноним 06/04/25 Вск 12:18:22 1133767 410
>>1133766
Ну литературный перевод, с пониманием всего происходящего.
Аноним 06/04/25 Вск 12:21:25 1133769 411
>>1133767
>с пониманием всего происходящего
в смысле? Не улавливаю что тебе нужно. Если тебе нужен сторителинг от ллм, то джемма 3 может это на нативном русском делать или не любом другом языке, т.к. она мультилингуал изкоробки, то бери 12б-27б, если тебе просто перевести текст какой-то, то 1б достаточно.
Аноним 06/04/25 Вск 12:23:57 1133771 412
>>1133765
Чел я когда художественный текст генерирую, сначал вручную пишу как бы рецензию на роман с пересказом сеттинга и отличительных черт от лица виртуального критика, затем добавляю пяток рандомных абзацев в качестве примера прозы, а потом пишу вручную подробное краткое содержание главы, после чего даю сетке развернуто генерировать саму главу. Получается сносно, только непонятно для чего мне нужна нейросетка когда я по сути все пишу вручную.
Аноним 06/04/25 Вск 12:25:08 1133772 413
>>1133767
Литературный пиривод с пониманием тебе вообще не одна сетка не сделает. Собственно его даже мало какие переводчики люди сделают, потому что то что например переводят с японского это как правило кал.
Аноним 06/04/25 Вск 12:26:21 1133775 414
>>1133036
> V3
В твоей же пикче ± пару баллов в разных тестах.
> R1
Ризонер, другой тип моделей, ллама с ризонерами будет позже — и сравнивать будем позже.

> openrouter
Поговаривают, то ли опенроутер крутит сломанные модели, криворукие уебаны, то ли рукалицо нам напиздели, и выложили не те модели, которые на арене (на арене они несравненно пизже).

Где-то пиздеж.
И я даже готов согласиться, что на арене пиздеж.

>>1133044
Текст комплишен база, ты управлеяешь промптом сам.
Если что базовая или текстовая модель к текст комплишену как способу интеракции с моделью не имеют никакого отношения, это совершенно разные понятия.
Ты перепутал, текст комплишн не имеет минусов (а вот чат комплишн имеет — он может быть кривым на стороне движка, или кривым зашитым в моделе, хотя в хорошей моделе разницы буквально не будет, это обычный регексп, если что).

>>1133061
Отчасти ты прав, нам перестали говорить количество уникальных параметров. Если с микстралью и квеном мы знали, что там из 56 уникальных 43, то сейчас… может вся ллама там один эксперт, чутка дотюненный, лол. А может каждый эксперт ни в рот ебись уникальный.

>>1133097
Дипсик кодер лайт (который второе поколение, год назад) был уже пушкой, просто кодер и не стал популярным. Но он даже на русском общался лучше всех конкурентов.
Так что не совсем верно, они со второго поколения ебашат. Просто маленькая модель не хайпанула, а в3 полная хайпанула.

>>1133611
Квазар, конечно!
И квена-3. =)

>>1133660
Справедливости ради, у QwQ в кодинге все отсасывают, кроме ебучих корпоратов.
Хватит сравнивать ризонинг с неризонинг моделями.
Вот выйдет ризонинг-скаут и там сравните и унизите.
Аноним 06/04/25 Вск 12:27:09 1133777 415
>>1133760
На самом деле всё хуже. Из-за того что тренятся не новые токены, а сразу все логитсы, сетки обычно имеют только один смысловой путь по запросу юзера. Часто можешь рандомить семплингом токены, а по итогу получать по смыслу одно и тоже, но разными словами. У того же Мистраля Ларджа как раз такое говно, когда какой бы токен ты не выбрал, она всё равно сведёт к одному и тому же.
Аноним 06/04/25 Вск 12:36:42 1133790 416
>>1133777
А ну да, логитсы это вообще пиздос. Я в принципе уже смирился что ЛЛМ это такая оффлайновая википедия и декомпрессор краткого содержания. Думаю вообще написать просто классическую текстовую игрушку на ООП с прописанными типами интеракций, а нейросетку использовать чтобы выдаваемые в консоль предложения типа Сharacter X has performed interaction Y конвертировать в развернутые литературные описания.
Аноним 06/04/25 Вск 12:37:03 1133792 417
>>1133775
> опенроутер крутит
Опенроутер ничего не крутит. Я пробовал разных провайдеров Фейерверк/Вместе - они одинаковые. Причем Вместе вроде крутит fp8, а Фейерверк fp16.
> выложили не те модели
Но дело в том что он отвечает-то нормально. Не то чтобы совсем плохо, как бывает при поломанных моделях.
> на арене
На арене может Бегемот или системный промпт извращенный. Как я и пишу - просто на вопрос он может красиво ответить, на уровне V3. Всё веселье начинается в чате с каким-либо контекстом, тогда ему становится очень хуёво. Может конечно какая-то беда с контекстом и что-то сломано в коде, но я если честно не верю что они бы зарелизили и видя потоки говна молчали, а не побежали фиксить даже на выходных. Как минимум в платных API используется то что дала сама Мета и оно должно работать как надо.
Аноним 06/04/25 Вск 12:38:30 1133796 418
>>1133771
>сначал вручную пишу
Чел, ты смысла нейросетей не понял :) Кидаешь той же Гемме весь текст и просишь кратко описать сеттинг. Потом просишь сгенерить карточку персонажа такого-то из текста. Потом второго, третьего - сколько нужно. Потом правила игры, если что-то нужно добавить - просишь добавить. Итоговая карточка - тысяч 5 токенов и минут 15 работы, но они того стоят.
Аноним 06/04/25 Вск 12:39:43 1133799 419
>>1133767
Для этого нужно что бы сетке перед переводом давался контекст беседы и о чем он идет.
Это может делать сама сетка, просто вначале она должна проанализировать контекст беседы с пониманием происходящего.
А потом учитывая эти факты, перевести текст.
Думаю таким методом можно даже из мелкой сетки выдавить текст неплохого уровня.
Как ты понял в игру вступает опять таки ризонинг техника, вначале сетка думает, потом на своем выводе делает работу дальше.
Аноним 06/04/25 Вск 12:43:48 1133807 420
>>1133796
>Потом просишь сгенерить карточку персонажа такого-то из текста.
И в этом месте польется слоп
Аноним 06/04/25 Вск 12:46:16 1133808 421
Какая сетка лучше всего переводит твои хотелки в теги данбору?
Ну или просто лучше работает в генерации тегов для генерации изображений?
Аноним 06/04/25 Вск 12:46:56 1133809 422
>>1133807
>И в этом месте польется слоп
Даже если - и что? Хорошая сетка принимает к сведению информацию из карточки, а не выводит её буквально.
Аноним 06/04/25 Вск 12:49:51 1133814 423
Запись 2025-04-[...].mp4 4165Кб, 1242x728, 00:00:17
1242x728
Аноним 06/04/25 Вск 12:58:13 1133822 424
>>1133762
Зависит от того, что и в каких размерах ты переводишь.

К примеру, ты вкидываешь текст в LLM на 1500 токенов. Как думаешь, что будет, если у нее 400b и до бесконечности параметров на выходе? Правильно, говно, которое на 30% лучше Яндекс переводчика или симпл димпла.

Но если ты ей кинешь текст на 300 токенов, будет так, средне. Понятно, нормально, иногда хорошо.

А если ты попросишь модель перевести этот текст на 300 токенов в течение 3-4 итераций, то перевод будет на уровне человека-переводчика адекватного.

Если же ты попробуешь провернуть то же самое с текстом на 1500 токенов, ну.. по-разному. Зависит от внимания модели к контексту. Там может понадобиться итераций 10-15 подряд и скорость минимум 20 токенов в секунду, а также контекстное окно хотя бы в 100к, которое оно нормально держит.

Но я говорю здесь про большие модели, и даже с ними вот такие танцы с бубнами нужны, чтобы просто перевести пару страниц. А эти огрызки ебаные вообще ни на что не способны.

Ах да, файнтюны для перевода — это мусор. Только ванильные или аблитерация.
Аноним 06/04/25 Вск 12:58:24 1133823 425
>>1133814
>смотрим
Потом берём 4В и смотрим снова. Потом берём 27В...

И это ещё без литературщины.
Аноним 06/04/25 Вск 13:01:39 1133825 426
>>1133822
>А если ты попросишь модель перевести этот текст на 300 токенов в течение 3-4 итераций, то перевод будет на уровне человека-переводчика адекватного.
Кстати да. Но это хрен автоматизируешь. Потому что либо выбирай тупо последний вариант, либо давай модели оценивать, какой вариант лучше. Результаты в любом случае так себе.
Аноним 06/04/25 Вск 13:03:31 1133827 427
>>1133823
такое ощущение, что ты не берёшь в рассчёт, что 1b занимает 1 гиг. Ну бери тогда дипсик, хуле...
Аноним 06/04/25 Вск 13:05:41 1133829 428
>>1133825
>>1133822
>>1133767
Вот же нормальный перевод в целом >>1133745
Сейчас правлю ошибки в основном в определении пола, где нет конкретного указания на этот самой пол, ну имена собственные, уровень "ебал ее рука" пока не встретил, только два раза строку проебал полностью.
Аноним 06/04/25 Вск 13:07:32 1133834 429
>>1133827
>такое ощущение, что ты не берёшь в рассчёт, что 1b занимает 1 гиг. Ну бери тогда дипсик, хуле...
Разница в скорости между 1В и 4В не такая уж и большая. Ну 2,5 гиг она занимает и что?
Аноним 06/04/25 Вск 13:09:17 1133836 430
>>1133829
В целом это как без нюансов, причем исходный текст очень простой.
Аноним 06/04/25 Вск 13:10:34 1133840 431
>>1133825
Да нет, автоматизировать можно, просто бабки быстро кончатся в таком случае на API, лол. И обычно есть какой-то условный предел, на котором все нормально, который ты знаешь, проработав с моделью часов 20 плотно.

Условно говоря, на каждое количество токенов своё количество итераций. Если больше 3, то уже лезет шиза или самоповторы. А где-то можно и 10 итераций. Плюс шиза растёт с уровнем контекста. Когда уже к 200к подваливает, то совсем дурно, но мне часто лень контекст удалять, потому что потом нужно будет его всё равно добавлять (для того, чтобы модель понимала, чо она там вообще переводит, в целом).

Но если правильно промптить, знать хорошо русский, а также хотя бы немного язык, с которого переводишь, то можно натурально книги переводить.

Интересно, почему такой бизнес ещё не запилили, ведь можно натурально пачками говно переводить произведения типа «Я подавился устрицей, а затем переродился тритоном в мире русалок, но у меня нет члена, чтобы их трахать!»
Аноним 06/04/25 Вск 13:13:15 1133842 432
Аноним 06/04/25 Вск 13:17:23 1133846 433
>>1133834
у человека может быть все впритык и эти полтора гига разницы ему сделают погоду. Но вообще 4б модельки можно и на проце крутить, достаточно быстро, у меня выходило где-то 20 токенов в секунду (ryzen 5600, две плашки ddr4 на 3200мгц)
Аноним 06/04/25 Вск 13:19:33 1133850 434
>>1133846
если у тебя всё локально и в фоне работает игра, а ты с помощью ocr и джеммы3 1б налету переводишь китайщину к примеру, то тут без вариантов и 2,5 гигов это уже зарубают идею на корню
Аноним 06/04/25 Вск 13:23:14 1133855 435
>>1133829
>Вот же нормальный перевод в целом
Да, попробовал - хорошая модель для перевода. К сожалению видеокарта обязательна, если нужна скорость. Но для любительских переводов самое то.
Аноним 06/04/25 Вск 13:26:12 1133858 436
А если мне нужно переводить большие объемы текста? Там условные 100.000 символов?
Аноним 06/04/25 Вск 13:27:11 1133861 437
>>1133850
>а ты с помощью ocr и джеммы3 1б налету переводишь китайщину к примеру, то тут без вариантов и 2,5 гигов это уже зарубают идею на корню
А вот нифига, 1В на проце тоже переводит совсем не "на лету". Быстро и некачественно, но с онлайн-переводом даже не сравнить. Даже с нынешним Гуглом. 4В уже хотя бы что-то даёт.
Аноним 06/04/25 Вск 13:33:45 1133876 438
.=)
Аноним 06/04/25 Вск 13:37:00 1133884 439
>>1133850
Сталкиваясь сам и читая подобное все больше и больше понимаю, что в перспективу хорошо бы иметь отдельный домашний сервер для нейронок. Причем как хороший риг с развернутыми llm, STT/TTS, картинкогенераторами и всякими агентами найдется куда ткнуть, так и даже ноутбук старый, крутящий 24/4 на проце 4b, пригодится.

Вообще думаю для второго варианта идеально какой нибудь макбук на m1 с разбитым экраном за копейки поискать, дешевле видяхи с 16 vram выйдет...


>>1133007
>Когда знаешь, как настраивать окружение все, становится плюс-минус легко.
Знание - база, нужно не ограничиваться рамками популярных фронтэндов (или хотя бы смотреть им под капот иногда). Но есть и другой момент - многое из опенсорса запустить локально вроде бы можно, но без своего датацентра охуеешь (тот же грок например).

>А минусы будут?
Да, пропадет удаленная чилловая луталка деняк.
Аноним 06/04/25 Вск 13:42:24 1133893 440
>>1133855
>Да, попробовал - хорошая модель для перевода. К сожалению видеокарта обязательна, если нужна скорость. Но для любительских переводов самое то.
Кстати - никто не пробовал запилить кастом API к Таверне, чтобы она за переводом к локальной сетке обращалась? В принципе качество SaiNemo меня устраивает, свободная видеокарта есть - значит будет и скорость. Приватность опять же. Есть реализации?
Аноним 06/04/25 Вск 13:52:22 1133906 441
>>1133893
Почему такая тряска за приватность перевода? Будто кого-то может заинтересовать что вы в свой локалке ебете людей сосательного роста.
Аноним 06/04/25 Вск 14:11:26 1133935 442
>>1133368
Чё за поток сознания?
Эта 24б модель не предназначена для русского. Ты как настоящая обезьяна не смог пропихнуть квадрат в круглый вырез и расстроился?
Аноним 06/04/25 Вск 14:18:08 1133944 443
Покажите пожалуйста ваши настройки штрафов за повторы в таверне.
Аноним 06/04/25 Вск 14:23:15 1133948 444
>>1133371
>Ну, с пониманием промпта у нативной мультимодалки это уже плюс-минус возможно.
Пока даже на быстрой Гемини это непрактично из-за скорости. Первая картинка сгенерится за три секунды, но чем их больше в контексте, тем медленнее генерируются новые. При 5 картинках уже было что-то вроде 90 секунд.
Аноним 06/04/25 Вск 14:30:05 1133959 445
Когда там кванты на 4 лламу? Меня аж трисёт, я хочу в гуффе попробовать.
Аноним 06/04/25 Вск 14:32:12 1133963 446
>>1133959
109б
Если тебе есть на чем этот ггуф заводить, сам и квантуй, хуле.
Аноним 06/04/25 Вск 14:39:30 1133975 447
>>1133775
>Текст комплишен база, ты управлеяешь промптом сам.
>Если что базовая или текстовая модель к текст комплишену как способу интеракции с моделью не имеют никакого отношения, это совершенно разные понятия.
>Ты перепутал, текст комплишн не имеет минусов (а вот чат комплишн имеет — он может быть кривым на стороне движка, или кривым зашитым в моделе, хотя в хорошей моделе разницы буквально не будет, это обычный регексп, если что).
Хуйня. Ты ничем не управляешь, точнее можешь, но это иллюзия. Сетка зафайнтюнена под конкретный формат. Как только ты его нарушаешь, ты выходишь за распределение и точность резко падает. Больше того, все мозги сетки от файнтюна только и берутся, в чистом текст комплишене ты теряешь способность следовать инструкциям нормально. Так что если тебе нужен текст комплишен на любой инструкт-тюненой сетке, тебе нужно соблюдать предписанный формат и эмулировать текст комплишен поверх него. А это безжоп.
Аноним 06/04/25 Вск 14:42:37 1133978 448
изображение.png 14Кб, 451x102
451x102
>>1133540
>Шапка полная хуцня. Инфа за прошлый год.
Сделай лучше.
>>1133600
Всем похуй.
>>1133614
А в треде ни разу не упомянули.
>>1133664
Там наш слоняра в президентах уронил примерно весь рынок своей гениальной геостратегией, так что не показательно, акции сейчас у всех так выглядят даже в России, лол.
>>1133675
>Мете просто нечем перекрывать
Не так запускаете ©
>>1133702
А если поставить галочку, то можно будет подключаться из любой точки Земли!
Аноним 06/04/25 Вск 14:44:23 1133979 449
>>1133975
Нихуя себе эзотерика. Безжоп - это буквально имитация текст комплишена, которая пытается срезать верхний слой инструкций, который и отличает чат коплишен от текст комплишена.
Аноним 06/04/25 Вск 14:44:53 1133980 450
>>1133948
Зачем держать в чате старые картинки-то? Меняй промпт/референсы, свайпай.
Аноним 06/04/25 Вск 14:47:29 1133982 451
>>1133979
>Нихуя себе эзотерика.
Какая ещё эзотерика? Это буквально то как тренируют сетки.
>Безжоп - это буквально имитация текст комплишена, которая пытается срезать верхний слой инструкций, который и отличает чат коплишен от текст комплишена.
Ну а я о чём сказал? Только не срезать он пытается, он работает поверх стандартного формата. Тупо инструкция сетке "продолжи этот текст". И да, это прям дохуя лучше чем убирать системную разметку и делать инференс продолжая текст. Потому что сетка так обучена.
Аноним 06/04/25 Вск 14:48:14 1133984 452
>>1133980
Ради консистентности. Иначе зачем вообще нужна мультимодалка, можно и обычной моделью с диффузией обойтись.
Аноним 06/04/25 Вск 14:48:26 1133985 453
image.png 102Кб, 1654x628
1654x628
Аноним 06/04/25 Вск 14:51:00 1133988 454
>>1133984
Типа чтобы один и тот же лук был на куче картинок? Так тебе референс для этого нужен. Можешь сгенерировать его.
>Иначе зачем вообще нужна мультимодалка, можно и обычной моделью с диффузией обойтись.
В диффузионках есть миллионы способов перенести стиль. Мультимодалки нужны из-за их модели мира и последующего понимания происходящего
Аноним 06/04/25 Вск 14:52:07 1133990 455
Ананасы, есть какой-нибудь рентри с хорошим объяснением всех сэмплеров? В том числе за пределами базовых. Интересны не только температура, min_p и другие, но и DRY, XTC и прочие.
Аноним 06/04/25 Вск 14:57:54 1133995 456
>>1133982
> Только не срезать он пытается, он работает поверх стандартного формата.
Ты все перепутал. Стандартный формат - это текст комплишен. Чат комплишен вешает поверх него еще один слой инструкций. Безжоп пытается обойти эти инструкции, игнорируя весь слой, имитируя тем самым текст комплишен.
Похоже, адепт безжопа даже ридми автора данной затеи так и не прочитал.
Аноним 06/04/25 Вск 14:58:20 1133996 457
>>1133988
Стиль может быть похож, но что толку, если в одном и том же месте в игре на картинке будет каждый раз другое место.
Аноним 06/04/25 Вск 15:12:19 1134012 458
Какую видяху стоит прикупить, чтобы запускать на ней более-менее приличные модельки с нормальной выдачей токенов?
Аноним 06/04/25 Вск 15:13:27 1134016 459
Попробывал новую Llamu в кодинге.Плохо.
Аноним 06/04/25 Вск 15:13:47 1134017 460
>>1134012
3090, 4090 ЛИБО две 3060 с 12 врам каждая. Всего в 60к выйдет 24 врам с такими 3060.
Аноним 06/04/25 Вск 15:18:53 1134024 461
>>1133995
Анон, что ты несёшь вообще?.. Ты по-моему вообще слабо представляешь как работает не только безжоп, но и LLMки вообще. Стандартный формат на который тренирована любая инструкт-тюненная сетка это чат по ролям с исполнением инструкций ассистентом, размеченный системными токенами. Может быть РП ещё например. Если ты его поменяешь, отойдя от того на что она тренирована, ты получишь лоботомита.

Всё что делает безжоп - это суёт всю историю РП (включая ролевой инпут юзера) в одно сообщение и либо продолжает его через префил, либо даёт инструкцию "продолжи этот РП", если префил не поддерживается. И останавливается по стоп-стрингу. Можно и не останавливаться и даже вообще не РПшить, а просто продолжать любой текст так, как базовая модель делает. Безжоп ничего не "игнорирует" и не "срезает", системная разметка никуда не девается, это просто способ промптинга инструкт-тюненой сетки, он работает ПОВЕРХ неё и использует следование инструкциям. Это дополнительный слой абстракции и это работает лучше, как ни странно.

>адепт
Я не адепт, просто отсылка на безжоп это самый простой способ пояснить почему текст комплишен это хуета.
Аноним 06/04/25 Вск 15:23:42 1134033 462
>>1134024
Ладно, с верунами спорить бесполезно. Кому надо - почитают ридми безжопа.
Аноним 06/04/25 Вск 15:24:51 1134035 463
>>1133996
Ну так тебе тогда нужно два референса - один для стиля, другой для места. Диффузионки спокойно это делают через контролнеты и подобные слои, даже больше того консистентность у них куда лучше в этом всём.

Разница лишь в том что мультимодалкам не нужно это всё, они нативно понимают чего от них хотят. Это куда круче. Но жрёт в разы больше.
Аноним 06/04/25 Вск 15:25:26 1134036 464
>>1134033
Обосрался - обтекай.
Аноним 06/04/25 Вск 15:26:02 1134037 465
>>1134036
Да-да, герой монитора. Ты обтёк уже со своим тейком, который противоречит документации твоего излюбленного ноасс. Нахуй пошел, свободен.
Аноним 06/04/25 Вск 15:27:43 1134039 466
>>1134037
Какой документации, еблан? Я её писал, если что. Если у тебя что-то есть сказать, говори. Если только про верунов можешь пукнуть - нахуй иди сам.
Аноним 06/04/25 Вск 15:28:20 1134040 467
>>1134017
Не особо шарю за железо вообще, но разве условная 4090 не будет более продуктивней даже двух 3060? Или модельке важнее всего именно кол-во видеопамяти, а не то на сколько она шустрая?
Аноним 06/04/25 Вск 15:29:58 1134041 468
1587721153856.mp4 749Кб, 720x688, 00:00:03
720x688
>>1134039
> Какой документации, еблан? Я её писал, если что
Верим всем тредом.
Аноним 06/04/25 Вск 15:32:14 1134044 469
>>1134041
О, боевые шебмки пошли в ход. А ответить ничего так и не смог.
Аноним 06/04/25 Вск 15:32:15 1134045 470
>>1134040
Да, 4090 лучше. Но если 3060 ты две сможешь воткнуть, на игры тебе насрать в целом или ты не катаешь там в ААА всякие в 4к, то с точки зрения экономии лучше две 3060. Или 4. Если сможешь воткнуть. Хоть и скорость у них будет, понятное дело, меньше, даже если всю модель в видеопамять воткнёшь при сравнении с таким же количеством 4090 или 3090.

Просто видеопамять действительно решает. Это самое главное, если только не пытаться на совсем уж старых видюхах запускать.
Аноним 06/04/25 Вск 15:32:58 1134046 471
>>1134040
Вычислительная мощность видеокарты тоже важна, но без достаточного количества vram ты просто не запустишь нужную модель исключительно на видюхе, а отгрузишь ее часть на ram/процессор. И это будет очень медленно. Вычислительная мощность видюхи тоже важна, но две 3060 стоят дешевле одной 4090.
Аноним 06/04/25 Вск 15:33:19 1134047 472
>>1133995
По-моему, вы оба поняли безжоп неправильно. Когда мы тут крутим модель на своей видяхе, то кормим ей весь промпт в одном параметре, это текст комплишен. Корпы же работают по оаи совместимому апи или его модификациям, когда промпт обязан приходить на апишку по ролям. Иногда даже в строгом порядке, иначе апи вернёт ошибку. Поэтому для корпов и существует чат комплишен, где для каждого вида модели реализованы эти правила. Суть безжопа, чтобы в ролях не было юзера, а ассистент рассказывал бы историю за себя и того парня. Соответственно, без танцев с бубном в виде левых скриптов в чат комплишене это не заработает. А вот в текст комплишене для этого достаточно тупо убрать в инстракте регулярные префиксы-суффиксы юзера и ассистента в чате, а в последнем ответе ставить префикс ассистента. В системном промпте просить дописать диалог/историю.
мимо краем глаза смотревший, что такое безжоп
экшели, не претендую на правильное понимание, мне пофиг
Аноним 06/04/25 Вск 15:34:10 1134048 473
Да что такое этот ваш БЕЗЖОП?
Аноним 06/04/25 Вск 15:36:05 1134049 474
>>1134047
Ты правильно все понял. И изложил ровно то, что изложил я, просто другим языком. В текст комплишене нет ролей ассистент-юзер, в чат комплишене он есть, за счет надбавленных инструкций. Ноасс просто минует эффект этих инструкций, тем самым имитируя текст комплишен. Это я и писал. Это сейчас пишешь и ты. Но анон выше там вообще не понимает, что затирает, и игнорирует реальность.
Аноним 06/04/25 Вск 15:36:57 1134050 475
>>1134048
Ты сидишь на локалке, потому тебе даже не нужно знать, что это. Грубо говоря, это подход, имитирующий поведение локалки на копромодели.
Аноним 06/04/25 Вск 15:44:33 1134053 476
>>1134045
>>1134046
Понял, спасибо. А какие хорошие модельки можете порекомендовать для двух 3060?
Аноним 06/04/25 Вск 15:47:27 1134055 477
>>1134047
Чат комплишен существует не потому что злые корпы не дают менять системную разметку (ChatML и иже с ним). А потому что от неё нельзя отходить, у сетки перформанс упадёт - она тренирована на примерах инструкция-ответ. Юзая текст комплишен и нарушая предписанный шаблон, ты её бессмысленно лоботомируешь.

Я выше написал как безжоп технически работает (совершенно корректно), да и хуй бы с ним, суть не в нём. Главное что написав инструкцию "продолжи этот текст" или засунув текст в префил правильно сформатированного чата, ты получаешь результат лучше чем если бы ты засунул это всё в пустой контекст кобольда безо всяких шаблонов и нажал "продолжить". В текст комплишене и раскурочивании системной разметки 0 смысла.
Аноним 06/04/25 Вск 15:48:18 1134056 478
>>1134053
Измеряй модельки все-таки не производительностью видюхи, а количеством vram. У меня у самого 24гб, я сижу на моделях 24-32b. Помещаются 24b q6, 32b q4 модели. В обоих случаях 32к квантованного в q8 контекста. Все модели в пределах данных параметров можно запускать. Если ты только начинающий, эта формулировка может немного запутать, но со временем разберешься.
Аноним 06/04/25 Вск 15:49:20 1134057 479
>>1134055
> В текст комплишене и раскурочивании системной разметки 0 смысла.
То есть ты считаешь, что системные шаблоны не работает на текст комплишене? Ты ебанутый?
Аноним 06/04/25 Вск 15:51:25 1134060 480
>>1134050
А смысл в этом методе? В чём космический эффект?
Аноним 06/04/25 Вск 15:52:42 1134062 481
>>1134060
Это уже оффтоп для данного треда. Если тебе правда нужно знать, то тебе в aicg, но там проклятый тред с подростками в пубертате.
Аноним 06/04/25 Вск 15:54:54 1134066 482
>>1134062
Я поэтому здесь и спрашиваю. Я зашёл туда и охуел от тамошнего цирка. Будто в аниме-чатик с поехавшими попал. Хотя, возможно, срач сверху в этом треде подскажет мне, в чём там дело.
Аноним 06/04/25 Вск 15:55:54 1134067 483
>>1134057
Чего? Ты сейчас про таверну что ли? Я тебе про текст комплишен в принципе, и что игнорировать разметку нельзя, даун. Я хуй знает с чем ты воюешь вообще.

А вообще так-то да, конкретно в таверне текст комплишен настолько через жопу сделан, что даже безжоп неиронически удобней (на локалке или нет), хотя бы промпт менеджер нормальный имеется. В других UI может быть иначе.
Аноним 06/04/25 Вск 15:57:25 1134068 484
изображение.png 53Кб, 1427x156
1427x156
>>1133985
Галюны.
>>1133990
Нету.
>>1134012
H200.
>>1134024
>>1134047
>безжоп
Что это корпоративное говно забыло в треде локалкобогов? Он не нужен нормальным моделям.
Аноним 06/04/25 Вск 16:01:47 1134069 485
>>1134056
Более-менее понял все, спасибо.
Аноним 06/04/25 Вск 16:03:46 1134072 486
>>1134055
>от неё нельзя отходить
Это сомнительный тезис, практика показывает, что какая-нибудь условная лама спокойно подхватит чатмл. За всё время только про коммандер, по-моему, были жалобы, что он крайне болезненно реагировал на нарушение инстракта. В целом, любая модель всё ещё в первую очередь дописывает текст, а если есть какое-то оформление ролей, которое ей кормят, то нормальная модель подхватит, даже если на нём не тьюнили. Да и вообще без тегов модель разберётся, где инструкции, а где ей нужно текст дописать. Авторские заметки на какой-нибудь там глубине без тегов, просто в квадратных скобках работают почти всегда, например.
В любом случае, я не понимаю, чем тебя не устраивает текст комплишен, там можно сделать всё то же самое (в принципе, подать промпт как тебе угодно). Если не хочешь нарушать связку юзер-ассистент, то открываешь и закрываешь весь диалог тегами юзера с той же самой просьбой дописать дальше диалог. Потом в последнем ответе тебе отвечает ассистент со своими тегами. Префилы никакие не нужны.
>>1134060
Якобы у сетки становится меньше предрасположенности к юзеру, т.к. она не общается с ним, а пишет для него чат персонажей.
Аноним 06/04/25 Вск 16:09:26 1134075 487
>>1134072
>какая-нибудь условная лама спокойно подхватит чатмл
Это та самая ллама, которая в хламину сломалась, когда ей вместо токена \n\n послали два токена по \n?
Аноним 06/04/25 Вск 16:14:45 1134077 488
>>1134075
Не помню такого, в чём там заключалась поломка? Помню, что основная проблема с тройкой на выходе была в криво забитых в конфиги двух еос токенах, из-за чего она пыталась ставить тот еос, который не триггерил завершение ответа на бэках, и модель после него шизела. А на чатмле она при этом работала лучше, потому что ставила закрывающий тег, который ловила таверна.
Аноним 06/04/25 Вск 16:36:36 1134101 489
>>1134077
По моему во времена двойки было (или может даже тройки, не помню уже). Гоняли модель на ггуфах, а она говно была, оказалось, что в стандартном шаблоне 2 перевода строки, а токенизатор жоры неправильно его токенизировал в 2 разных токена. В итоге жора имплементировал свою реализацию регекспов, и качество ответов подросло.
Аноним 06/04/25 Вск 16:41:43 1134109 490
>>1133775
> нам перестали говорить количество уникальных параметров
Они все будут уникальными. Другое дело что эффективность мое трудно измерить. Могут быть незначительные отличия между разными ветвлениями, может быть неравномерное использование, когда постоянно активно только несколько частей а остальные мертвый груз, и т.д. И в целом, подход в котором вместо множества умных голов экспресс оценкой задействуется только меньшее количество более мелких не обязательно хорошо сработает.
В случаях, когда нужно дальше нарастить объем знаний и бустануть перфоманс не замедляя инфиренс мое - хорошо, с оче агрессивным самоинструктированием может раскрываться. А так - ну херь же. Не удивлюсь если еще размер подогнали под игрушку хуанга, а количество активных подрезали как раз чтобы не сильно тормозило там.
> что там из 56 уникальных 43
Это немного другое, глянь за структуру популярной реализации экспертов.
>>1134075
Любая модель будет фейлить, если вместо разметки с которой она тренировалась идет непонйтно что. Может оказаться незаметно, особенно если такое было в датасетах и не дрочили на жесткую структуру, или наоборот серьезно.
Аноним 06/04/25 Вск 16:44:25 1134112 491
>>1134101
> В итоге жора имплементировал свою реализацию регекспов
Наоборот, фейл был потому что у жоры вместо дефолтных либ, что прекрасно работают, самописный шмурдяк с ужасным быдлокодом. Вместо правильных токенов оно делало не те, вот и все ломалось.
Там знатная драма вокруг этого была, когда сорвали покровы с того, насколько оно надмозгово реализовано.
Аноним 06/04/25 Вск 17:01:04 1134130 492
>>1134072
>практика показывает, что какая-нибудь условная лама спокойно подхватит чатмл.
Ну конечно, она же на нём тренирована. Я же про конкретно текст комплишен, как с текст комплишен моделями. Инструкт-модели такое просто сломает мозг, а уж тем более исполнение инструкций. Даже просто чередование ролей по нестандартному инструкт шаблону уже лучше будет, а по стандартному - куда лучше.
>практика показывает
...что кумерам абсолютно похуй на отупление модели если она генерит сисик-писик. А в реальности происходит вот это https://github.com/manavgup/llm-benchmark inb4 бенчмеме. Что совпадает с банальной интуицией.
>В любом случае, я не понимаю, чем тебя не устраивает текст комплишен, там можно сделать всё то же самое
Можно, но в таверне это дико кривая хуита. Причём раньше лучше было, это где-то с лета сломали. В чат комплишене таверны же у тебя есть промпт-менеджер, автоматизация через QR намного проще, расширения полезные в основном под чат-режим делают, да и в целом всё лучше.
>Якобы у сетки становится меньше предрасположенности к юзеру, т.к. она не общается с ним, а пишет для него чат персонажей.
Основная суть в том что твой ролевой инпут не трактуется как инструкция согласно тренировке сетки, потому что не шлётся от роли юзера. Поэтому даже самая убитая инструкт тюнингом модель не бросится писать тебе калькулятор на питоне. Ну и в целом от некоторых мелких косяков тренировки избавляет, которые даже у РП-васянотюнов всегда есть.
Аноним 06/04/25 Вск 17:11:58 1134138 493
>>1134130
Вот в лоб не понимаю. Почему тогда все авторы моделей на huggingface сидят на text completion и выкладывают шаблоны/настройки именно для него? Они не видят слона в комнате? Часто с моделью в ридми идут подсказки, как лучше ее использовать, иногда целые master import файлы. Ни разу, без преувеличения, ни разу не видел, чтобы хоть кто-нибудь использовал chat completion.

> В чат комплишене таверны же у тебя есть промпт-менеджер
В одном с тобой соглашусь, в конкретно таверне text completion сделан через в жопу в смысле контроля над промптом. Мало возможностей для инжекта на конкретную глубину, нужно допиливать расширениями или придумывать костыли.

Но почему ты утверждаешь, что text completion хуже следует системным шаблонам, что делает модель глупее - не понимаю.
Аноним 06/04/25 Вск 17:11:58 1134139 494
>>1134130
> текст комплишен
> в таверне это дико кривая хуита
Ээээ вут? В чат комплишне таверна собирает посты по ролям и отправляет их в бэк, чтобы тот уже преобразовал их в текст в соответствии с разметкой, что указана или прочитана в конфиге модели. Может получиться вовсе не то что нужно, оче мутная херня с префиллами и продолжением, но зато открываются ряд фич.
В текст комплишне таверна полностью формирует промт, что дает огромные возможности и свободу, но лишает вставки пикч (кроме колхозной), вызовов функций и прочего. В основном пользуются именно текст комплишном.
Таки забавные нюансы открываются, проливает свет на споры где у одного модель работает шикарно, а другой не может справиться.

> ролевой инпут не трактуется как инструкция согласно тренировке сетки, потому что не шлётся от роли юзера
Там нет никакой "трактовки как инструкция". Модель всегда сильно смотрит в начало, где стоит системный промт, а потом уже как сработает внимание. Хорошая структура и разметка сильно облегчает ей работу.
> не бросится писать тебе калькулятор на питоне
Если это основное - еще как бросится. Если в начале много воды но общий итог про то что "помогай юзеру" - бросится. Если в начале описано что это рп чат, дана подводка и это представлено как ситуация, в которой юзер просто сказал однокласснице за соседнем столом - она ответит так как ответила бы школьница "какой пихон, бака!".
Аноним 06/04/25 Вск 17:18:45 1134150 495
>>1134130
> https://github.com/manavgup/llm-benchmark
Ни слова здесь не сказано про text/chat completion. Там указаны шаблоны, которые точно так же можно применить и к text completion. Ты приведешь пруфы, что text completion хуже следует системным шаблонам, или ты это просто выдумал?
Аноним 06/04/25 Вск 17:25:41 1134158 496
>>1134138
>Но почему ты утверждаешь, что text completion хуже следует системным шаблонам, что делает модель глупее - не понимаю.
Ну ты перечитай ещё раз. Я говорю что если начисто проигнорить системную разметку, модель охуеет. Авторы моделей на HF указывают инстракт шаблон с разметкой как раз чтобы ты его юзал, а не игнорил. Нет, она не преимущественно дополняет текст, она преимущественно исполняет инструкции и охуенно тупеет без правильного формата.

Что там в таверне наворочено в плане интерфейса - уже другой вопрос.

>>1134139
>В текст комплишне таверна полностью формирует промт, что дает огромные возможности
Вот например какие? Безжоп можно сделать например, это да, но он и под чат комплишен есть в виде расширения. Которые кстати неиронически проще писать - возможностей больше. Таверна это вообще груда костылей, давно в тупик вставшая.
>Там нет никакой "трактовки как инструкция".
Ну да, модель тренирована на формате инструкция юзера - результат ассистента. А результата от него нет. Верю. я ведь даже бенч привёл
>Модель всегда сильно смотрит в начало, где стоит системный промт, а потом уже как сработает внимание
Дело не в системном промпте, просто у любой модели зависимость точности от позиции релевантного токена в контексте, обычно U-образная кривая (lost-in-the-middle). Но речь не об этом.

>>1134150
>Ни слова здесь не сказано про text/chat completion.
Ты тролишь тупостью или реально не понимаешь о чём речь?
Аноним 06/04/25 Вск 17:28:34 1134166 497
>>1134109
>Любая модель будет фейлить, если вместо разметки с которой она тренировалась идет непонйтно что.
Зато сколько криков про AGI.
>>1134112
А я что написал? Были костыли без регеспов, стали костыли с самописными регекспами.
>>1134138
>Почему тогда все авторы моделей на huggingface сидят на text completion и выкладывают шаблоны/настройки именно для него?
Потому что в чат компитишене не работает 90% семплеров, лол.
>>1134139
>но зато открываются ряд фич.
Я знаю только про отправку картинок.
Аноним 06/04/25 Вск 17:32:05 1134170 498
>>1134158
Твои цитаты из сообщений выше:
> Юзая текст комплишен и нарушая предписанный шаблон, ты её бессмысленно лоботомируешь.
> В текст комплишене и раскурочивании системной разметки 0 смысла.
Почему ты проводишь тождественную связь между использование текст комплишена и нарушением шаблона? А теперь пишешь, что
> Авторы моделей на HF указывают инстракт шаблон с разметкой как раз чтобы ты его юзал, а не игнорил.
Выходит проблема не в текст комплишене, а в людях, которые эти шаблоны не используют? И какого хуя тогда ты утверждаешь, что чат комплишен с безжопом лучше текст комплишена? Шиза какая-то, ты или сам запутался, или сформулировать нормально не можешь, что хочешь донести.
Аноним 06/04/25 Вск 17:35:15 1134174 499
>>1134170
Блять... речь о буквально текст комплишене, в прямом смысле! А не о режиме таверны под названием "текст комплишен". Второй раз уже говорю. Дополнение текста который ты засунул в контекст, без инстракт разметки.
Аноним 06/04/25 Вск 17:39:44 1134183 500
>>1134174
> Блять... речь о буквально текст комплишене, в прямом смысле!
> Дополнение текста который ты засунул в контекст, без инстракт разметки.
Ага, и нахуя это кому-то делать? К кому это всё обращено-то по итогу? Ты там выше сетуешь на кумеров, так даже они на Таверне сидят, и знают, что обязаны шаблоны использовать. Ты говоришь про мистических кумеров, которые взаимодействуют с моделью напрямую в бекенде, минуя фронтенды и инструкты? Кто эти люди? Кому это обращено вообще, кому ты чего доказываешь? Ты поехавший.
Аноним 06/04/25 Вск 17:42:12 1134187 501
>>1134158
Очевидно что добавлять любые инжекты, обрамляя их в желаемые токены разметки, а не просто role: system, совмещать несколько шаблонов для выделения основных инструкций, а потом разметки чара в мистрале, делать полноценные префиллы ручками или автоматически и прочее.
А теперь ты давай расскажи в чем преимущества чаткоплишна. Ну, кроме привычности для корпорабов, которых на него подсадили безысходностью, отняв многое.
> Безжоп
А aicg загон давай
> Таверна это вообще груда костылей, давно в тупик вставшая.
Дерейл
> Ну да
Хуй на, идешь в оригинальные репы и смотришь как устроен препроцессор и что он выдает. Всегда в начале идет системный промт в разных варианциях, а только потом чатовая разметка, если вообще не предусмотрен инстракт.
Первый запрос от юзера имеет меньший приоритет чем системная, есть даже бенчмарки о том насколько эффективно можно фильтровать плохие запросы или заливать соей.
> просто у любой модели зависимость точности от позиции релевантного токена в контексте
Ну естественно, и при чем тут это? Следствие а не причина.
>>1134166
> Зато сколько криков про AGI.
Посты про аги - детектор поехавших, стабильно работает. Многие заявления нужно на 10 делить.
> А я что написал?
Что ничего не было, а потом Жора - спаситель все написал. Наоборот изначально была параша, от которой после споров и драмы не стали отказываться и просто подлатали. Оно, кстати, еще на yi моделях гадило, просто из-за их меньшей популярности тогда не обратили внимание. Остается только молиться чтобы опять что-то не вылезло, с учетом многих решений это вопрос времени.
Аноним 06/04/25 Вск 17:42:44 1134188 502
>>1134183
Нахуй ты встреваешь? Вот анон выше говорит что всё норм, якобы, ему в ответ и было. Я уже сам нить потерял кто тут с чем воюет и кто куда встревает.
Аноним 06/04/25 Вск 17:47:05 1134194 503
>>1134183
>Ага, и нахуя это кому-то делать? К кому это всё обращено-то по итогу?
Ну вот например: >>1134187
>Очевидно что добавлять любые инжекты, обрамляя их в желаемые токены разметки
Человек всерьёз хочет ломать предписанный инструкт шаблон, и ему заебись.

>>1134187
>Всегда в начале идет системный промт в разных варианциях, а только потом чатовая разметка, если вообще не предусмотрен инстракт.
>Первый запрос от юзера имеет меньший приоритет чем системная, есть даже бенчмарки о том насколько эффективно можно фильтровать плохие запросы или заливать соей.
Я это всё и без тебя знаю, но это причём тут то что я написал?
Аноним 06/04/25 Вск 17:47:43 1134197 504
>>1134188
Я не встреваю, а участвую в этом сраче с первых сообщений. Анон хуйню полную несет, и похоже, никто так и не понял, что он хочет донести и с кем воюет. Ни одного поста понимания в адрес его высеров. Воюет какими-то людьми, которые используют текст комплишен без шаблонов, и говорит, что лучше бы они сидели на ноассе. Беды с головой.
Аноним 06/04/25 Вск 17:49:14 1134199 505
>>1133884
> Да, пропадет удаленная чилловая луталка деняк.
Я смирился и начал готовиться два года назад. =D

>>1133975
Бля, пчел, что за хуйню ты несешь.
Причем тут модель, нахуй.

> в чистом текст комплишене ты теряешь способность следовать инструкциям нормально
Ты ебанутый, ты понимаешь это?

Text completion в рамках API — это НЕ режим комплишена, блокнота, notebook. Ты путаешь эти вещи.

Text completion в контекстах API, это когда ТЫ сам формируешь формат промпта.

> ты его нарушаешь
С хуя бы я его нарушал, если я именно его и пишу?

А вот вшитые в модели ЧАТ КОМПЛИШН промпт-форматы как раз иногда нарушают.
То тег не тот пропишут, на котором тренили, то пробелы забудут вложить (привет лламе, привет мистрали! обосрались девочки по разу), а ты не можешь повлиять, потому что ты дурачок с чат-комплишном.
Ок, конечно, чат комплишн обрабатывает бэкенд, и совершенно не обязательно он возьмет данные из модели, некоторые бэкенды позволяют его отредактировать.
Но!
1. Не все.
2. Зачем мне редачить файл в бэке, если я сам его могу прописать как угодно на своей стороне, вообще-то?

Короче, чат комплишн — это режим API (а не фронта и не модели), для воробушков, который посылают json { 'user': 'anwser', 'assistant': 'response', 'user': 'answer' }, и не хотят разбираться, как все устроено внутри (на чем модель обучалась, на каком чат-темплейте).

Текст комплишн — это режим API (а не фронтенда и не модели), для гигачадов, которые посылают биты из головы прямиком в файл и принимают сигналы обратно.

Я не осуждаю чат-комплишн, но он либо заставляет заебываться на стороне бэкенда, либо ты рискуешь обосраться от ошибок разрабов.

В Силли Таверне целая вкладка с возможностью настроить инструкции вручную (и в ЧаттерУИ).

Там еще есть фишка с именами вместо user и assistant и прочие извращения, но я предпочитаю ванильные форматы, конечно.

Теперь давай пиздец кратко.

Chat completion — это json-массив, который бэкенд по правилам модели превращает в string-промпт.
Text completion — это готовый string-промпт, который сразу идет в модель, и может быть буквально идентичным тому, в который превращается json-массив, просто мы минуем этот этап конвертации json в string.

Надеюсь ты понял. =)

>>1133982
> Ну а я о чём сказал? Только не срезать он пытается, он работает поверх стандартного формата. Тупо инструкция сетке "продолжи этот текст". И да, это прям дохуя лучше чем убирать системную разметку и делать инференс продолжая текст. Потому что сетка так обучена.
Это НЕ text completion в контекста API.
Это completion mode / notebook mode в контексте фронтенда.
И для такого лучше использоваться pre-train-модели они же base-модели.
Ты просто не так понял термин. =)

Вообще, твоя идея, что «string — хуета, ведь есть json, который потом превратится в string» для понимающих людей звучит мегагурно. хд Я понимаю, что ты имел в виду не это, но запутавшись в терминах так яро отстаиваешь такую хуйню. =)

>>1134047
Опять же, юзай какой хочешь формат, просто в случае с корпоратами, мы не знаем, в какой string это превращается, и на вход они принимают только json, но чисто технически, это просто лишняя конвертация, не более. =)

>>1134109
> Они все будут уникальными.
Схуя бы? Пруфы инсайда!

В микстрали и квене говорили открыто: мы в начале обучили модель, а потом доучили ее, из-за чего количество уникальных параметров меньше, чем всего, потому что часть — базовая для всех, и никакой смысловой нагрузки не несет.

> Это немного другое, глянь за структуру популярной реализации экспертов.
Ну, ты линкани. Потому что, после той информации ничего новее я не видел.
Я не видел инфу, что каждый эксперт в Лламе 4 обучался с нуля, а не является файнтьюном какой-то базовой модельки.
А именно это Мистраль и Алибаба называют «уникальными параметрами МоЕ-модели». Я использую их терминлогию, не более.
Но, может она устарела, не буду спорить.

———

Бля, я пришел пожаловаться, что оллама хуета, а тред все тот же — новички, которые даже не понимают, чем чат комплишн от текст комплишна по апи отличается.

Но!
Так вот, новости:
1. Оллама не поддерживает сплит-мод роу.
2. Оллама не поддерживает вижн через mmproj, только через свои кванты.
3. Оллама не запилили свои QAT-кванты, поэтому хуй, а не QAT вижн через гемму.

Как были говно говна, так и остались.
Так еще и 5 гигов весит прога без функций и без интерфейса, когда Кобольд 1 гиг весит распакованный с миллиардом свисто-перделок, и удобством на три головы выше. При всей его всратости, конечно.
Кринжатура лютейшая просто.
Аноним 06/04/25 Вск 18:01:01 1134220 506
>>1134194
Искажение и перевирание потому что уперся рогом в какую-то херню. Нет бы на потенциальные плюсы напирать, одни уводы в сторону и неспособность выразить мысль/пробелы в понимании.
> Я это всё и без тебя знаю
Как тогда вот это объяснишь?
> с текст комплишен моделями
> ролевой инпут не трактуется как инструкция согласно тренировке сетки, потому что не шлётся от роли юзера
> Ну да, модель тренирована на формате инструкция юзера - результат ассистента
В чем смысл этих фраз? Придумал какие-то текст комплишн модели, хотя любая модель только и делает что предсказывает следующий токен. Указываешь что помещенное в системную секцию не трактуется как указания, приводя странный пример, и имплаишь что инструкции нужно отправлять от юзера для их хорошей работы? Так ведь и сам сказал что к ним потеряется внимание.
Вообще перестал понимать что хочешь донести, кроме того что все это время видел на чат комплишне.
Аноним 06/04/25 Вск 18:01:37 1134223 507
>>1133517
А если хочется 5 токена/сек?
Аноним 06/04/25 Вск 18:04:06 1134228 508
>>1134199
>Я смирился и начал готовиться два года назад. =D
Что предпринял? Или просто смирился морально?
Аноним 06/04/25 Вск 18:05:14 1134229 509
>>1134199
>Text completion в рамках API — это НЕ режим комплишена, блокнота, notebook. Ты путаешь эти вещи.
Я не путаю, а говорю об одном, а ты несёшь хуйню о другом, и слишком туп чтобы это понять, даже если тебе прямым текстом об этом 2 раза сказали.
>С хуя бы я его нарушал, если я именно его и пишу?
И зачем тебе тогда
>добавлять любые инжекты, обрамляя их в желаемые токены разметки
?
У тебя есть один формат, который НЕОБХОДИМО железобетонно соблюдать. Какие такие токены разметки, не предусмотренные им, ты собрался там юзать?

>>1134220
>Придумал какие-то текст комплишн модели, хотя любая модель только и делает что предсказывает следующий токен.
Я словно с детьми разговариваю, вроде тут должны разбираться аноны, но нет.
Ты понимаешь вообще в чём смысл инструкт тюнинга и в чём разница инструкт модели от базовой (которая только на текст комплишен способна), или специально эту чушь несёшь?
Аноним 06/04/25 Вск 18:12:39 1134241 510
Вывод один: шиз выдумал людей, которые сидят на текст комплишене без шаблонов и воюет с ними, запутав адекватных людей треда. 500 сообщений, давайте перекат и заканчивать эту бессмыслицу.
Аноним 06/04/25 Вск 18:15:30 1134252 511
>>1134199
> именно это Мистраль и Алибаба называют «уникальными параметрами МоЕ-модели»
> потому что часть — базовая для всех, и никакой смысловой нагрузки не несет
Не выделишь ты эту базовую часть в виде доли "уникальных параметров". Там часть весов - буквально общие/идентичные по которым идет проход вне зависимости от выбранного эксперта на слое. А не потому что
> в начале обучили модель, а потом доучили ее
Для понимания оче простой пример: взял ты базовый кусок, а потом прогнал по общему датасету с минимальными вариациями для каждого обучения. Сравнивая численные значения весов - все они будут разными, и можно смело говорить про их уникальность. Но отличия между такими моделями будут оче малы и толку от построения мое на подобном - ноль.
> каждый эксперт в Лламе 4 обучался с нуля
Может не каждый, но в современных мое ветвления начинаются оче рано, и объединяют тоже, по крайней мере утверждают. А про эффективность мое в ллами4 это ровно то про что там написал.
> ты линкани
Сам ищи, лень.
> что оллама хуета
База. Там же цель только на простоту первого запуска и формальное покрытие возможностей. А то что реализовано отвратительно или формально - счастливые запускатели чатжпт в терминале не заметят и всеравно будут советовать.
>>1134229
Прими таблетки и переключи таверну на текст комплишн, выставив шаблон. Вот же бедолага.
> один формат, который НЕОБХОДИМО железобетонно соблюдать
Только не рассказывайте ему как мистраль инстракт или гемма работают в чатмл и комбинациях, не выдержит.
Аноним 06/04/25 Вск 18:17:02 1134254 512
>>1134223
>А если хочется 5 токена/сек?
Хоть 10 - покупай 3090. Ну или 5090, если деньги есть.
Аноним 06/04/25 Вск 18:19:33 1134258 513
>>1134228
1. Вторая работа, маленький муниципальный сектор, ниче не делаю, получаю копеечку на шашлычки.
2. Приобрел домик, ремонтирую.
3. Планирую свое небольшое дело, перепрофилироваться из кодамакаки во что-то более важное (но, возможно, менееоплачиваемое=).
У кого есть сбережения — диверсификация в разные банки и/или покупка недвижимости для сдачи в аренду, — звучит как план.

Я не сеньор 500к+, слишком ленив, поэтому мне удобнее просто тихо жить дома, нежели напрягаться и вкатываться в лютый матан.

>>1134229
> И зачем тебе тогда
Кому мне, пчел? Таблетки выпей!

Если ты говоришь об одном, то ты просто несешь хуйню.
Я и с чат-комплишеном и с текст-комплишеном работал и работаю при написании собственных приложений (как бэк, так и фронт, ебал я в рот это тупое деление).

> У тебя есть один формат, который НЕОБХОДИМО железобетонно соблюдать. Какие такие токены разметки, не предусмотренные им, ты собрался там юзать?
Я ответил на этот вопрос выше.
Если ты наглухо игнорируешь реальность, и все неудобные аргументы, то говорить тут не о чем, ты явно не хочешь разбираться в вопросе, просто пытаешься прикрыться, что обосрался, но это уже твои проблемы.

Но оффенс, в моих двух сообщениях на эту тему прямо все расписано.

>>1134241
Довольно забавно, как ты доказываешь это целому треду, который с тобой спорит. =)
Правда, прими таблеточки, добра и здоровья!
Аноним 06/04/25 Вск 18:21:06 1134262 514
>>1134252
> Может не каждый, но в современных мое ветвления начинаются оче рано, и объединяют тоже, по крайней мере утверждают.
Ладно, верю.
Мне тоже лень искать. =)
А ты адекватно пояснил, спасибо.
Аноним 06/04/25 Вск 18:24:58 1134272 515
>>1134254
Это я понимаю я о том что хочется под мою систему выбрать оптимальную модель.
Кажется что 12б без проблем пойдет и может даже выдать в районе 5 токенов в сек, стоит рассмотреть что то еще если хочу 5 токенов в сек?
Аноним 06/04/25 Вск 18:28:28 1134276 516
>>1134258
> Довольно забавно, как ты доказываешь это целому треду, который с тобой спорит. =)
Не туда воюешь, дядь, мы на одной стороне. Перекат делай. =)
Аноним 06/04/25 Вск 18:29:34 1134279 517
>>1134258
> Довольно забавно
Френдлифаер оформил похоже, там чел вроде того шиза пристыживал.

А вообще четко, один сделал наброс и сразу видеорелейтед пошел https://www.youtube.com/watch?v=VeFMdVIFsgs обожаю этот тред

А еще >>1119424 → хрен кто скинул
Аноним 06/04/25 Вск 18:31:01 1134283 518
>>1134279
> видеорелейтед
Прекрасный видос. Единственный хороший пост за сегодня. Добра.
Аноним 06/04/25 Вск 18:35:47 1134290 519
>>1134279
>А еще >>1119424 → → хрен кто скинул
Лично я отвечал тебе дважды, без скрина правда. И ещё были ответы. Но ты всё жалуешься. Третий раз скажу - гемма на тесле норм в 4-м кванте, хуле ещё надо то? И QwQ норм. С учётом того, что там чип от 1080Ti, понятно.
Аноним 06/04/25 Вск 18:37:43 1134293 520
>>1134290
Красавчик что отвечал, все учтено. Просто кроме теслы и ноутбучной 4080 больше ничего. В треде хватает владельцев 3060 и прочих, но сидят и молчат.
Аноним 06/04/25 Вск 18:47:39 1134310 521
>>1134293
>В треде хватает владельцев 3060 и прочих, но сидят и молчат.
А что они могут сказать-то? В 12 гигов гемма 27В целиком никак не влезет. С частичной выгрузкой в RAM приходится терпеть те самые 2,5 токена в секунду, о которых в этом же треде и упоминали. Если две 3060, то жить можно.
Аноним 06/04/25 Вск 18:52:18 1134316 522
>>1134310
>С частичной выгрузкой в RAM приходится терпеть те самые 2,5 токена в секунду
Угараете?
Я на процессоре без выгрузки слоев столько получаю на Q4_K_L
Пол модели в врам, там должны быть скорости под 5 токенов в секунду как раз, на обычной ддр4 под 60 гб/с
Аноним 06/04/25 Вск 19:00:10 1134335 523
>>1134316
>Пол модели в врам, там должны быть скорости под 5 токенов в секунду как раз
Спорить не буду, хотя полагаю, что с увеличением контекста скорость немножечко так уменьшится. Владельцы 3060 если захотят, то расскажут.
Аноним 06/04/25 Вск 19:04:02 1134339 524
>>1134335
>хотя полагаю, что с увеличением контекста скорость немножечко так уменьшится.
Эт конечно, я про скорости после системного промпта и первого сообщения сетки, тоесть на 300-600 токенах
2.5 неюзабельно, но иногда запускаю qwq если комп не нужен и можно отойти, минут за 10 родит ответ кек
Аноним 06/04/25 Вск 19:15:31 1134346 525
>>1134310
> А что они могут сказать-то?
Не так давно весь тред был в "русских 12б моделях".
> Если две 3060, то жить можно.
Если такие есть то интересна скорость, генерация + контекст.
>>1134316
> на обычной ддр4 под 60 гб/с
Это не обычная а уже из самых быстрых типа 4300.
ПЕРЕКАТ Аноним # OP 06/04/25 Вск 19:31:09 1134364 526
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов