Сап, двач! Любители Sillytavern, Character.ai, Chub и т.д, зацените открытую языковую модельку. 8B, имхо SOTA для креативного письма, RP на русском языке в своей весовой категории.
huggingface.co/secretmoon/YankaGPT-8B-v0.1
Не умеешь запускать LLM? Можешь бесплатно пообщаться в моем Telegram боте, он умеет жрать карточки с Chub в .json формате. @Yanka_GPT_bot. Твои диалоги с нейровайфу обязательно пойдут на новый крутой датасет!
>>1127875 Ну, кайф. Если зайдет большому колличеству людей модель, то постараюсь расширить РП датасет раза ещё в 2 и обучить Gemma 3 12B/27B, либо в YandexGPT ещё поковыряться, там есть потенциал.
Потому что здесь у меня криво resume произошёл и с конца первой эпохи у perplexity был аномальный скачок.
>>1128527 Поигрался я с моделькой, всё бы хорошо, но её сука не разговоришь, нужно прям её сообщения редачить, чтоб описания были более подробные. Без ручных направлений описывает суховато. Карточки на енглише читает, вроде даже понимает, только нужно первое сообщение от персонажа игнорить, но не критично. Но я удивлён, что 8B моделька даже фетиши понимает, и на русском!только со снаффом не очень. Кто бы мог подумать, что спустя всего полтора года сможем кумить на русском языке, да и ещё с локальной небольшой моделькой. Спасибо, анон!
>>1129928 Бля, анончик, на 27B надо будет H100 арендовывать часов на 40 и не факт что выйдет что-то нормальное, учитывая сколько он на KV cache жрёт и то, что Unsloth нормально 27B не поддерживает, там куча багов.
У меня бюджет ограничен, на ЯндексГПТ я всего-лишь $60-80 потратил на генерацию датасетов и ada A6000 на 20 часов.
По хорошему надо провести DPO/GRPO чтобы подправить её интеллект, и по датасету пройтись reward моделью, либо вообще перегенерировать кое что, потому что DeepInfra говно.
Нужен compute короче, и более трепетная очистка/генерация датасетов.
>>1127283 (OP) В тред локальных языковых моделей съеби нахуй отсюда. Или ты уже сходил и тебя там говном наркомили, верно?
Ты не сделал ничего особенного, чтобы это было достойно отдельного треда. Более того, аноны из локального делали гораздо больше, чем ты, работая с более жирными мистралями и даже файнтюня 24б.
Если б ты сюда не нейрослоп притащил, а хотя бы 12б модель с крепким русскоязычным датасетом, позволяющим модели хотя бы на среднем уровне стихи писать (английские 12б, напоминаю, это могут), то уже можно было бы поговорить на тему отдельного треда твоей величественной жопы.
Давай, размечай всю классическую литературу и современную, а потом выкладывай датасет и файнтюнь модель. Вот тогда это будет достойно.
>>1130506 Ну, анончик, никто мне не запрещал правилами создавать отдельный тред и я создал. И я не спамлю, один раз написал про эту модель. К тому же я в первый раз зашёл на /ai/ и нигде не оставлял сообщения кроме этого треда.
Я не говорил, что сделал что-то особенное и невероятное. Это сыроватая модель, но показывающая, что в целом YandexGPT и 8B способны в RP на русском и что надо дальше работать в направлении файнтюнов на RU-data, ведь есть перспективы получить свои модельки, как у Sao10k, TheDrummer, Anthracite и остальных.
Но фантазии о внезапно свалившейся на голову модельке, неожиданно научившейся строчить прозу на русском и полностью открытым датасетом это классно... А что ещё она должна уметь?
>>1130990 Так дело не в правилах, это просто моё мнение.
Тут есть уже тред для локальных моделей, где и твоя была. На это я указал потому, что твой файтюн не что-то выдающееся и обсуждать здесь что-то в отдельном треде, собственно, особо нечего: всё можно сделать в основном и там больше народу, который может помочь или подсказать. Если только ты не собрался заниматься созданием чего-то серьёзного, пилить тут эту или иные модели до посинения, прям реально вкладываться силами и/или деньгами — тогда твой тред может быть полезным и отдельной точкой притяжения. А иначе он размывает внимание анонов по тредам и не консолидирует всё в одной точке, что в целом понижает импакт на мой взгляд. Но учти, что там среда чуть-чуть токсичная бывает.
Другая проблема, что там 8б. Я, честно, не видел ни одной нормальной 8б даже на англ. Может быть, если делать с нуля или файтюн под рп с гигантским датасетом, что-то выйдет, но это задача явно для поехавшего задрота или человека на зарплате.
Плюс датасет состоит из синтетики, что тоже не очень хорошо. Слава богу, ты выбрал клода 3.5, ибо он может в русик нормальный. Эти корпоративные скоты все языки, кроме английского, ухудшили. Качество русского даже у 3 опуща выше, чем у 3.7. И дальше будет только хуже.
Возможно, стоить присмотреться к гемини, хотя я не шарю за их цены и модели. У какой-то из версии гемини русский лучше, чем у 3.5, но там более позитивный биас и для более литературного языка надо ей руки выкручивать.
В общем, вся проблема в датасете. Если он реально будет, здесь есть люди, которые и 24б зафайнтюнят за тебя локально или по твоим инструкциям, если не будут знать, как делать, так как у многих видеокарты тупо для инференса.
Я бы и сам хотел русскую модель. Более того, есть небольшие модели, которые пишут не хуже этой по-русски, но из-за сложности языка я не представляю, как сделать её хотя бы на уровне 12б мистраля, только крепком русском, учитывая, что даже корпоративные модели часто сыпятся. Чего стоит только линейка о1-о3 или дипсик, тот же клод 3.7.
Рекомендую выложить уже имеющийся датасет в треде локалок — возможно, кто-нибудь зафайнтюнит одну из 12б моделей самостоятельно. Там есть перспективые кандидаты на файнтюн, которые уже неплохо могут в русский.
>>1131035 Я пытался и разочаровался и сижу на английском, потому что делать датасет на русском не хуй собачий, если не использовать синтетику, но даже с ней нужно ещё нормально зафайнтюнить. Это столько времени и такой геморрой.
Плюс я тестировал эту 8б модель несколько часов — и там всё плохо, учитывая, что автор пыхтел над ней и даже бабки вкидывал неплохие. Видно, что старался, даже по странице обниморды.
Однако модель не держит контекст в 32к, часто шизит и в целом непригодна для рп на данном этапе, хотя и плюсы есть, которые не наблюдаются в иных моделях: она использует специфические русские и сленговые слова и иногда выдаёт неожиданно приличный результат, который я и в 123б мистрале не видел. Если модель не охватывает шиза, речь более естественная в отдельные моменты.
>>1127283 (OP) Обосрали в треде локальных моделей, съебался в отдельный?
Напишу и тут для других антонов, тюн стал намного глупее по сравнению с оригиналом, к тому же разметка также поломалась. Если оригинал писал сухо, но хотя бы сохранял логику, то рп-датасет напрочь убил остатки разума.
И еще, ты проебался даже залить model.safetensors.index.json в репу.
>>1131569 Думаю, что буду в своем темпе вкладываться, мне всегда хотелось сделать RP модель на русском, но движений в эту сторону у нас мало. Сори если так не принято, я просто по принципу как в r/Sillytavern или r/LocalLLaMA создал тред о новой модели, и учитывая их малочисленность подумал что это будет уместно.
Заменить синтетику в датасете, мне кажется, можно только художкой, у нас с товарищем есть размеченный датасет с синтетическими инпутами на ~700МБ литературы всякой молодежной. Но я боюсь, что LoRA здесь не потянет. По ощущениям с LoRA надо делать несколько моделей, а потом merge, чтобы получить норм результат на больших/сложных данных.
Gemini вижу на OpenRouter даже выпустили API. $1.25/$10, но у них на эндпоинтах такая цензура, что надо за finish_reason следить внимательно, а то будут обрывки генерации в датасете на местах где персонаж решил чутка пофлиртовать. Попробую, но это дороже чем халявные ваучеры на DeepSeek V3 или $0.4/1.3 за 03-2024 DeepSeek...
И я пока не понимаю, как нормальный датасет с RP и creative-writing выправит интеллект модели, по-моему тут либо надо отдельно оживлять её способность к построению логических цепочек после, либо это всё вина LoRA.
Спасибо за фидбек в общем, если можешь напиши в ТГ в профиле на HF, скажи как тренил ты.
>>1132017 >либо это всё вина LoRA. не думаю, что проблема в самой LoRA (хотя, тюнить фулл не пробовал. могу лишь позволить себе арендовать одну a100), гораздо вероятнее, что всё ломается на уровне датасета. скорее именно включение RP контента сносит крышу модели. возможно, сегодня-завтра подниму свой старый пак живых одиночных RP логов, которым обучал немо, и проверю, насколько это все покалечит yandexgpt модельку. хотя почти уверен заранее, что результат будет не лучше. мимодругой анон.
>>1132626 Не оч понимаю, что тут не так. Попробуй вручную instruction template поставить, а не давать этой штуке извлекать из metadata. Точно помню, что токенайзер у YandexGPT для работы в чистом Python требует sentencepiece.