/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №91

Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №91 /llama/ Аноним 16/11/24 Суб 14:31:24 № 950457 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры https://artefact2.github.io/llm-sampling/

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>945454 (OP)
>>939618 (OP)

Аноним 16/11/24 Суб 14:54:43 № 950473 2

Никто еще не запили аи данжон без цензуры + сд дифужон все в одном флаконе, что бы видеть что происходит в секс адвенчурах? Это же была бы имба по лутанию баблища с кумерсов.

Аноним 16/11/24 Суб 15:34:07 № 950500 3

>>950473
без цезуры сойжаки набутылят

Аноним 16/11/24 Суб 15:49:03 № 950505 4

>>950500
А схуяли вообще, например заебенить сервер в торе например и никто не достанет, либо написать дисклеймер, что только пользователи несут ответсвенность за контент который они генерят

Аноним 16/11/24 Суб 16:03:24 № 950509 5

>>950505
Не чувствую потоков денег.

Аноним 16/11/24 Суб 16:17:43 № 950517 6

>>950509
А их и нет, все платежеспособные господа себе риги забубенивают.

Аноним 16/11/24 Суб 16:31:46 № 950529 7

>>950517
Ну значит и не будет никаких джанджонАИ без цензуры. Что и требовалось доказать.

Аноним 16/11/24 Суб 16:47:43 № 950544 8

https://habr.com/ru/companies/ruvds/articles/853050/
странно что автор не попробовал троичные веса натренить, еще меньше получилось бы

Аноним 16/11/24 Суб 16:59:55 № 950559 9

И таки нейрогоспода, что из 32Б хорошо в рп/ерп на англюсике?

Аноним 16/11/24 Суб 17:36:15 № 950593 10

Думаю давно пора добавить в шапку что жизни ниже 27b нет чтоб нищета не плодилась в треде

Аноним 16/11/24 Суб 17:43:32 № 950596 11

>>950593
Ты ошибся, там на самом деле 123B, и меньше чем на 4х3090ti жизни нет, остальные нищеёбы и должны очистить генофонд человечества от себя.

Аноним 16/11/24 Суб 17:50:08 № 950601 12

>>950596
Но ведь я прав а ты просто порвался.

Аноним 16/11/24 Суб 17:58:06 № 950602 13

>>950596
>меньше чем на 4х3090ti жизни нет, остальные нищеёбы и должны очистить генофонд человечества от себя.
Много раз писал здесь и повторяю: есть 200р/час на инференс - уже не нищеёб, потому что можешь всё, что и владельцы ригов за миллион. А что такое 200р в наше-то время? 5 и даже 10к на хобби в месяц не критично имхо. Кому критично, тот таки да.

Аноним 16/11/24 Суб 18:07:15 № 950609 14

>>950601
В чём я порвался то? Я сам таки гоняю 123B, и на что-то ниже не согласен. Но я гоняю на 12ГБ врама и страдаю, жизни нет впрочем заказал я 3090, через неделю приехать должна, если яша-маркет не наебёт.
>>950602
Я лично не привык платить за сервисы в интернете и прочий цифровой контент. За всю жизнь кроме как за интернет больше ни копейки не отдал.

Аноним 16/11/24 Суб 18:08:49 № 950610 15

image.jpg 84Кб, 1005x359

>>950596
>меньше чем на 4х3090ti жизни нет
Зачем такие сложности? Можно обойтись одной картой, но хорошей )))

Аноним 16/11/24 Суб 18:12:28 № 950611 16

>>950610
Такая вроде ляма 4 деревянных стоит?

Аноним 16/11/24 Суб 18:13:40 № 950613 17

>>950610
>Зачем
На 4x3090 больше памяти, больше модельки влезут. А ещё и дешевле выйдет. Хотя последнее, наверное, не волнует ненищеёбов.

Аноним 16/11/24 Суб 18:32:53 № 950624 18

>>950609
>Я лично не привык платить за сервисы в интернете и прочий цифровой контент.
Начинай привыкать. Ну или страдай дальше. Что при наличии денег просто глупо имхо.

Аноним 16/11/24 Суб 19:00:42 № 950637 19

>>950624
>Начинай привыкать.
Нахуя? А главное зачем.
>Ну или страдай дальше.
О да, не заплатив за музыку или там просмотр фильма, я буду адово страдать!
Что же о нейросетях, то своя карточка всегда ближе.

Аноним 16/11/24 Суб 19:02:38 № 950639 20

Что-то хуйня эта ваша 12б сайга, по крайней мере в Q4_K_M. Русский примерно на уровне 2б геммы (ну ладно, малость получше), форматирование идёт по пизде, интеллект страдает. Карточку и гритинг не переводил, но примеры сообщений, которые большинство токенов жрут выключены, так что там карточка осталась меньше, чем на 300 токенов, не сильно должна сбивать контекст. Большой системный промпт перевёл на русик. С карточками с меньшими требованиями к форматированию ситуация получше, но всё равно ответы в разы хуже, чем аналогичные на инглише от 8б (фурри лоляха специально по запросам анона из прошлого треда). Мб если переводить карточку и гритинг, будет получше, но сомнительно. Ну или сэмплерами нужно было давить сильнее, хз.

Аноним 16/11/24 Суб 19:23:55 № 950655 21

>>950639
Первые два ебаный пиздец, а вот фурря вроде даже ничего... но с первого сообщения многие ничего, а вот дальше стремительно шизеют

Аноним 16/11/24 Суб 19:25:03 № 950656 22

>>950611
2.8 в европке, но через лет 5 уже будет по 100-200к, осталось только потерпеть

Аноним 16/11/24 Суб 19:51:59 № 950669 23

>>950656
В текущей деглобализации всё сложное будет только редчать и дорожать.

Аноним 16/11/24 Суб 19:55:12 № 950670 24

>>950639
Ладно, справедливости ради, я потыкал этот чат обычной аблитерейтед 9б геммой, и там всё хуже, плюс она ещё дико упирается, отказываясь писать по-русски даже с префилом. Так что допускаю, что из мелочи эта самая нормальная. Но всё равно я бы лучше с переводчиком сидел, если бы инглиш не знал, чем такого уровня текст получать.

Олсо для сайги попробовал сбавить температуру на 0.5 и прибавить мин-п - один свайп был полной шизой, другой - чуть лучше. Призраки для видеонаблюдения теперь канон.

Аноним 16/11/24 Суб 19:58:48 № 950672 25

>>950639
>хуйня эта ваша 12б сайга
С подключением. Это говно уже не раз обоссывали, но дурачки до сих пор ведутся на то, что это якобы умная моделька от русских для русских.

Аноним 16/11/24 Суб 20:00:10 № 950674 26

>>950672
Да какой то тролль ее постит подсовывая новичкам

Аноним 16/11/24 Суб 20:05:03 № 950683 27

>>950674
Скорее всего просто залетный, который вчера только в тему попал. Те кто хотя бы немного разные модельки гонял, прекрасно знает, что вменяемого русского нет почти нигде. Даже на ларджах и тех с большими оговорками можно чатиться на великом и могучем.

Аноним 16/11/24 Суб 20:07:38 № 950689 28

Сколько надо 3090 (не TI) чтобы нормально работал mistral-large 123b дефолтный, и например q8?
Одна есть, планирую докупить

Аноним 16/11/24 Суб 20:12:44 № 950702 29

>>950689
>Сколько надо 3090 (не TI) чтобы нормально работал mistral-large 123b дефолтный, и например q8?
Q8 не надо, а 3,5 bpw в формате exl2 c 24к контекста влезут в три карты. Качество нормальное.

Аноним 16/11/24 Суб 20:16:48 № 950708 30

>>950669
Да нихуя, все будет так же, вот смотри тесла п40 ланч присе $6000 в 2016, сейчас она 160 и их ебаные горы, так же и с другими будет, проф железки пизда как быстро стареют и дешевеют, потому что узконаправлены и быстро окупаются. ИИ говна ускорителей танкерами закупают всякие меты хуеты опен ии и прочие стартвсраперы 5 лет и все это говно будет на вторичке валятся за копейки

Аноним 16/11/24 Суб 20:17:13 № 950709 31

>>950689
Восьмой квант весит 130 гигов, в одной 3090 24 гига видюшатины, вот и посчитай. Примерно шесть карт нужно, если будем дополнительно учитывать вес контекста.

Но правды ради, анон выше прав. Восемь битов это излишество, там и четырех спокойно хватит, ибо на таких больших моделей деградация от квантования не так сильно ощущается.

Аноним 16/11/24 Суб 20:19:15 № 950715 32

>>950708
>тесла п40
>сейчас она 160
Покажи ка мне, где она за 160?
И да, раньше не равно сейчас. Раньше чипы становились мощнее и их было больше, а с деглобализациией производство современных чипов остановится, а желающих заполучить меньше не становится.

Аноним 16/11/24 Суб 20:53:14 № 950755 33

photo2024-11-16[...].jpg 109Кб, 591x1136

>>950672
>>950674
Просто когда 2б гемма в лучшие свои моменты выдаёт вот такой русик, то начинаешь надеяться, что исходно не так уж плохо знающая русский немо, подученная на русском же, действительно будет тащить. Но нет. Видимо, датасеты Гусева всё ещё не очень.

На пиках простенькая карточка ассистента кошкодевки с коротким системным промптом. Если грузить инструкцией и описанием перса, то качество русского значительно снижается. Предположу, что если катать сайгу тоже на чём-то простом, то мб будет и лучше. Но зачем оно, простое, нужно в рп.

Аноним 16/11/24 Суб 20:55:05 № 950756 34

>>950670
>Призраки для видеонаблюдения теперь канон.
Они и так были каноном XD
И призраки и портреты.

Аноним 16/11/24 Суб 20:59:29 № 950761 35

90к за 7 фулл ген 4 слота https://aliexpress.ru/item/1005007917717248.html
Вкусно?

Аноним 16/11/24 Суб 21:04:07 № 950762 36

>>950761
"Ты втираешь мне какую-то дичь."

Аноним 16/11/24 Суб 21:12:28 № 950772 37

>>950755
В датасетах просто нет примеров с ролплеем, в этом проблема. Если кто-то когда-то как-то запилит файнтюн на русском именно под эротик текстинг, то оно будет работать гораздо лучше.

Но а с сайгой тут всё понтяно - это говно без задач. Раньше когда модели с трудом могли в мультилингу, то она бы могла стрельнуть, если бы работала нормально. Но она никогда не работала нормально. А щас как ты сам указал в примерах, даже мелочь высушенная тянет русский в повседневных задачах вполне прилично. По этому сейчас от сайги и любой другой похожей тюны нет никакого смысла - базовый русский итак идет из коробки.

Аноним 16/11/24 Суб 21:17:49 № 950775 38

Кстати, ВНЕЗАПНО - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 оказалась вроде норм. Подсунул хоррор карточку где к смертельно больной приходит вомпЭр и предлагает её душу и служение в обмен на месть. Прямо вайбы Хеллсинга ("Пойдёшь... со мной?")
Надо ещё завтра потестить на других.

https://youtu.be/mqQbZtcLyAM

Аноним 16/11/24 Суб 21:38:31 № 950794 39

>>950775
>вроде норм
Как у неё с интеллектом? Я тоже хотел скачать один из этих шизомиксов, но он их там на конверее штампует, везде нахваливает, непонятно, что выбрать. И под "нсфв" у него, похоже, имеется ввиду кровькишкираспидорасило, а не то, что обычно. Пару раз упоминал, что за интеллектом не гнался и не знает, насколько оно отупело. В одной из карточек упоминал ppl 7 с чем-то. Для такого размера звучит многовато.

Аноним 16/11/24 Суб 21:43:51 № 950800 40

>>950762
Есть еще такие платы, на ген 3, чисто ради проца, за 30-40к
https://aliexpress.ru/item/1005007552300145.html
https://aliexpress.ru/item/1005007551775021.html
https://aliexpress.ru/item/1005007775237340.html
Проц https://aliexpress.ru/item/1005007441868283.html
Память 8-каналка быстрее ддр5

Аноним 16/11/24 Суб 21:51:24 № 950803 41

>>950800
Чёт кекнул.

Аноним 16/11/24 Суб 21:58:12 № 950806 42

>>950803
На вот полноценные 4+1 ген 4 за 45к https://aliexpress.ru/item/1005007640610395.html

Аноним 16/11/24 Суб 22:00:34 № 950808 43

>>950772
>В датасетах просто нет примеров с ролплеем, в этом проблема.
Конец 2024, а анон все еще думает что модели учатся на примерах, а не за счет RL.

Аноним 16/11/24 Суб 22:13:41 № 950824 44

>>950808
Разве подкрепление используется не только для инструкций и текста вида вопрос-ответ? Куча текста забита в модель без всякой оценки и подкрепления. Как его зареинфорсишь, если нельзя сказать "правильный" ли он? Для файнтьюнов тоже не используют, подозреваю. Как-то обсуждали, что даже DPO неправильно делают, тупо скармливая датасет.
Хотя конкретно по замечанию того анона я думаю, что дело всё-таки не в отсутствии ролплей датасета, а что вообще русского было мало при обучении, и файнтьюнт тут мб и не особо помогает. Очень заметно, что модели частенько пишут стоковый перевод подходящего английского слова, вместо того, чтобы поставить нужное русское слово. Т.е у них не сложились правильные распределния вероятностей для ру токенов.

Аноним 16/11/24 Суб 22:26:36 № 950842 45

>>950824
>Как его зареинфорсишь, если нельзя сказать "правильный" ли он?
Именно поэтому и нет хороших моделей для рп.
Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике. А не прям нативно в нем пиздеть (так модель может свернуть не туда в сторону другого домена).
>Т.е у них не сложились правильные распределния вероятностей для ру токенов.
Тут скорее банальная вещь в виде багов и шума механизма внимания. Модель то умная и все понимает, но базовый английский токен чисто механически пролез.
Наверное не хватает в архитектуре отрицательного внимания, чтоб из потока логитов мусор вычищать. Была новая статья по дифференциальному внимания, я ее не читал, но мб оно так и работает.

Аноним 16/11/24 Суб 22:30:46 № 950844 46

попытка сделать rp в виде визуальной новеллы
https://www.mangobox.ai/

Аноним 16/11/24 Суб 22:38:47 № 950852 47

А зачем теслы p40 скупают? Раз такая накрутка идет, значит спрос на них ебейший. У меня из предположений либо майнинг (или карта уже слишком стара для майнинга?), либо поднятие говносервиса, чтобы крутить квантованные 32B- модели, но как-то сомнительно все равно.

Аноним 16/11/24 Суб 23:00:17 № 950862 48

>>950852
А с чего ты решил, что скупают? Ну вот мы скупили, но карты то не бесконечные. Думаю, они тупо кончаются, вот на остатки и накручивают цены.

Аноним 16/11/24 Суб 23:25:46 № 950891 49

>>950689
> q8
Если ты просто про 8битный exl2 - 6 штук, возможно со скрипом в 5 влезут. Но скорость уже будет неоче и не захочешь.
Если про жоракванты - с достаточной врам про них лучше забыть как страшный сон.
Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования.
>>950800
Чето цены высоки для подобного. Возьми и расскажешь как оно, если современные епуки хвалят то на первые две серии плевались со страшной силой по работе с гпу.
>>950803
В голосину.

Аноним 17/11/24 Вск 00:02:11 № 950911 50

>>950891
>на первые две серии плевались со страшной силой по работе с гпу.
Прям на первые две, а не только на первую? https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-dgx-a100-datasheet.pdf
2/3 между собой совместимы, но 3 стоят неоправданно дорого, когда второй серии на алике полно.

Аноним 17/11/24 Вск 02:53:19 № 950968 51

>>950911
Может и спиздел, но первая точно трешанина.

Аноним 17/11/24 Вск 02:57:12 № 950969 52

>>950458 →
Коммандр просто оверхайп кал говна, гемма намного лучше

Аноним 17/11/24 Вск 06:15:30 № 951017 53

>>950794
Два более тяжёлых работали, но шизили и ломались, начиная например, спамить звёздочками или тильдами.
Клиффхэнгер пока тестирую.

Аноним 17/11/24 Вск 06:46:35 № 951027 54

>>950844
>Никто еще не запили аи данжон без цензуры + сд дифужон все в одном флаконе, что бы видеть что происходит в секс адвенчурах? Это же была бы имба по лутанию баблища с кумерсов.

Ну вот оно кстати, хз насколько успешно правда.

Аноним 17/11/24 Вск 06:50:43 № 951028 55

>>950844
Ебать, как будто на 8b вернулся.

Аноним 17/11/24 Вск 08:32:43 № 951046 56

>>950800
Как-то я очень сомнительно отношусь к БУшным серверам без гарантии.
Их не списывают просто так на счастье бичар с алиекспресс)))
Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать.
Вот попиздую на работу ебаную завтра и может быть сфотаю рейд контроллер на перепродажу в лохито списание (у него обратная часть тескстолита со стороны чипа ) просто почернела-пожелтела-посерела.

Аноним 17/11/24 Вск 08:59:27 № 951052 57

>>951046
>Обычно списываемое железо сломано нахуй или почти сломано нахуй и артефачит настолько неочевидно, что никто не хочет это ремонтировать.
Да. Я так попал на 30к за весь комплект (плата+проц+память). Новая плата правда 35к стоила, но там и чипсет был не X99, а X299. А мог бы сразу взять новую и сэкономить :)

Аноним 17/11/24 Вск 09:04:50 № 951054 58

>>950891
>Другого анона двачую, в 3 штуки помещаются 4-4.5бита с адекватным контекстом без его квантования.
Тут проблема только в том, что 3+ карты - это по-любому риг, а две у меня спокойно в корпус войдут и PCIe 3.0x16 получат. Потому жду ебилдов пока кванты ещё не ужмут. Шанс есть.

Аноним 17/11/24 Вск 11:02:12 № 951082 59

>>951027
эта хуета с двумя-тремя дергающимися образаными картинками png и цензурой. Присерно тот же сорт говна что и character.ai но при этом не могущий в голос.

Аноним 17/11/24 Вск 11:06:07 № 951084 60

Аноны с 3060 сколько у вас токенов на гемме 27б?

Аноним 17/11/24 Вск 11:15:54 № 951090 61

>>951082
Что и требовалось доказать.

Аноним 17/11/24 Вск 11:25:11 № 951093 62

>>951084
И сильно ли desperate брать 3060 ради 3 квантов геммочки 27б?

Аноним 17/11/24 Вск 11:28:03 № 951095 63

>>950775
Да, в целом неплохо, но с русским она лажает, выдумывая новые непонятные слова. я уже тестил MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q4_k_m , но что бы на моей 3060 12gb всё это без диких тормозов работало (21 токен в секунду) пришлось с контекстом колдовать (4bit). В целом это чуть получше saiga_nemo_12b-GGUF_Q6_K с точки зрения креативности и фантазии, но в русском она проигрывает.
Щас попробую 5 квант скачать и попробовать на нём, вдруг лучше станет.

Аноним 17/11/24 Вск 11:31:28 № 951097 64

>>951093
>desperate
Если ты сидишь на всякой мелкашке под андроид (1-12b), то будет качественно сильно лучше.
Не захочешь пересаживаться обратно, будешь испытывать нетортянку от прошлых моделей. Это неисправимо.

Если у тебя есть что-то больше 27b, то тебе же хуже))) сильно с этой затычкой не выйграешь.
Я после 123b не могу смотреть на 70b как раньше.

Аноним 17/11/24 Вск 11:34:06 № 951100 65

>>951084
>>951093
Даже не пробуй для 3060 12gb, максимум, это модели до 20b, дальше будет примерно тоже самое если бы ты на проце своём генерил токены +1 токен сверху

Аноним 17/11/24 Вск 11:37:56 № 951101 66

>>951097
>на всякой мелкашке под андроид (1-12b)
>12b
>сильно с этой затычкой не выйграешь.

Покажи мне смартфоны которые могут 12b хотя бы в q4 с нормальной скоростью

Аноним 17/11/24 Вск 12:04:38 № 951113 67

Есть ли какая-то база по современным сеплерам?
Я тут недавно перебрался на XTC.

Аноним 17/11/24 Вск 12:07:36 № 951115 68

>>951100
Ну ты можешь нормально ответить
Я щас за 8гб затычке гемму гоняю на 2к контексте в 3 кванте

Аноним 17/11/24 Вск 12:08:43 № 951116 69

>>950794
На удивление прям норм. Ролеплэй почти уровня пантеона, хотя иногда может глюкануть. Достаточно шустрая. Зато в отличии от пантеона может и в ванильный кум, и в хардкор, и в кровь-кишки-распидорасило.

В целом, я бы сказал что удачная и преимущества перевешивают недостатки. Только вот интересно, как получаются модели нестандартных размеров, например - 18.5B как эта.

Динамическая температура: 0.5 - 1.5.
Большинство моделей вполне ок на такой, даже шизомиксы.

Аноним 17/11/24 Вск 12:35:57 № 951125 70

Стоимость 3060 на б\у рынке ~22к
Берем 4 таких и получаем 48 врама по цене 3090
В чем я не прав?

Аноним 17/11/24 Вск 12:38:55 № 951127 71

image 430Кб, 2553x907

Литералли соулслайк экспериенс

Аноним 17/11/24 Вск 12:39:19 № 951128 72

>>951125
>В чем я не прав?
Дождись, пока цена опуститься до 17к, как на теслы была в начале года :)

Аноним 17/11/24 Вск 12:40:40 № 951130 73

>>951127
Почему вы все на голом кобольде сидите без таверны?

Аноним 17/11/24 Вск 12:42:23 № 951132 74

>>951125
2x3090 = 100k
4x3060 = 90k
Охуеть победитель и наебщик системы)

Аноним 17/11/24 Вск 12:43:12 № 951133 75

>>951116
Это Лама или Кобольт? В чем между ними разница?
мимо зелень в ии

Аноним 17/11/24 Вск 12:44:26 № 951134 76

>>951130
Потому что таверна кусок говнокода, единснтвенное хорошее в ней это лорбуки.

>>951133
Кобольд. Навзвание модели там снизу видно.

Аноним 17/11/24 Вск 12:47:40 № 951136 77

>>951133
>снизу видно
А, сорь, снизу видно на >>951127

A koboldcpp_cu12 для GGUF на зелёныхк картах.
Эксллама - для бояр с кучей врум.

Аноним 17/11/24 Вск 12:48:09 № 951138 78

Да тут знаете ли и родную вебморду llama.cpp сервера знатно так причесали в последнее время.
Осталось только добавить пару фич - иметь несколько карточек, возможность редактировать и удалять сообщения бота.
И что нибудь еще из мелкого но удобного.

Аноним 17/11/24 Вск 12:49:20 № 951139 79

>>951132
>2x3090 = 100k
По 50 не купить. Сейчас даже по 60 не купить.

Аноним 17/11/24 Вск 12:50:59 № 951142 80

>>951095
Используемые в этом франкенмерже тьюны наверняка не содержали датасетов на русском, как и датасеты самого автора, если он дополнительно дообучает. Очевидно, оно будет уметь в русский хуже чистой немо, чего тут ожидать ещё можно.

Аноним 17/11/24 Вск 12:52:09 № 951144 81

Какая модель из актуальных 123B сейчас лучшая?
Behemoth,
magnum-v1,2,3,4,
Tess-3-Mistral-Large-2,
Luminum
или что-то другое?

Аноним 17/11/24 Вск 12:53:47 № 951145 82

>>951138
>добавить пару фич
Пилю свой фронт на пихоне, с бэком в виде кобольда и общением по requests, ща как раз следующая цель - редактирование сообщений, своих и бота, сразу после сохранения стейта чата в файл займусь.

Аноним 17/11/24 Вск 12:55:29 № 951149 83

Я правильно понимаю, что они подключили стейбл диффужн к кобольту и теперь через него можно генерить картинки? Пробовал кто-нибудь, как это вообще работает?

Аноним 17/11/24 Вск 12:59:04 № 951157 84

>>951149
давно... вот только не забудь что стабику тоже нужна врум
и чем запускать 8б + стабик, лучше запустить 12б без картинок

это образно, но, думаю, понятно

Аноним 17/11/24 Вск 13:00:26 № 951159 85

>>951149
Медленно, но работает
Там и шепот можно подцепить, и генерацию картинок и чтение картинок сеткой, если мультимодалка.
И все может чисто на кобальде работать. Но это так, решение побаловаться
Можно подключать вроде по апи

Аноним 17/11/24 Вск 13:05:03 № 951164 86

>>951157
Понял, спасибо
>>951159
Оке, стоит попробовать в будущем. Спасибо!

Аноним 17/11/24 Вск 13:06:16 № 951166 87

>>951145
зачем?

Аноним 17/11/24 Вск 13:13:33 № 951172 88

>>951134
В кобольде есть лорбуки, хоть и очень куцые, с гораздо меньшим функционалом, чем в таверне. Смотри кнопку Context->World Info
>Потому что таверна кусок говнокода
В чём это выражается для рядового пользователя? Если у тебя есть воспроизводимые и отображаемые в консоли самого кобольда наблюдения, что, к примеру, криво подаётся промпт, размер контекста или параметры сэмплеров, то всегда можно написать issue на гитхабе.

Лично для меня кобольд не юзабелен как минимум потому, что я хочу выпендрёжный инстракт без регулярных тегов ассистента/юзера, но с первым и последним. А в кобольде даже тега начала чата не вижу. И он куда менее прозрачен в целом. Вот есть там галка Adventure Preprompt. По описанию, она вносит изменения в контекст. Но посмотреть их вне консоли нельзя, отредачить нельзя. Я такое не люблю, и после таверны, где редачится любой служебный кусок промпта, это воспринимается плохо. Ну и к интерфейсу этому всратому никогда бы не привык.

Аноним 17/11/24 Вск 13:15:49 № 951173 89

>>951139
Палитки есть по 50к можно сторговаться

Аноним 17/11/24 Вск 13:30:20 № 951189 90

>>951115
3 квант геммы 27b неюзабелен, на мой взгляд, по крайней мере для рп и ERP. saiga_nemo_12b-GGUF_Q6_K пизже будет в раза 2-3 для этого. Для других вещей не проверял. А 2к контекста у меня только описание одного персонажа порой может быть. Я уже так точно не помню, но вроде у меня на Гемме 2 обычно на моей 3060 ~1-3 токена в секунду было (~2-4 если не через Silly Tavern юзать, но это очень такое себе). Было бы больше, так я бы ей сам до сих пор пользовался. Сейчас глянул, и даже самый минимум хоть какой то юзабельности (gemma-2-27b-it-IQ4_XS.gguf) требует примерно 14.8 гигов видеопамяти, что бы всё не скатывалось к 1-3 токена в секунду.

>>950775
А вот на картинке уже MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q5_k_m Лучше не стало, а скорость просела с 21 токена к 7 токенов в секунду. И это >>951115 всего лишь 18.5b Q_5 которые выходят за рамки моих 12 гигов на 1,2 гига (13,2 gb) И кстати, даже ужатая модель 27b до каких нибудь 10 гигов будет генерить в разы медленнее чем та же 12b ужатая до 10 гигов. Просто прими тот факт, что ты никак не сможешь нормально юзать gemma 27b в комфортных условиях на (одной) 3060 12gb и переключи своё внимание на более маленькие и достойные аналоги типа saiga_nemo_12b-GGUF_Q6_K или vikhr-nemo-12b-instruct-r-21-09-24.Q6_K (когда если выпустят расцензуренную версию) Для примера, вторая картинка с нормальным русским это она

Аноним 17/11/24 Вск 13:33:00 № 951191 91

>>951166
Чтобы иметь лорбуки и всё. А также полный контроль над контекстом + собственные хотелки + статы прикрутить.

И вообще поиграться.

А также питон позволяет карточки и лорбуки перевести в намного более читаемый формат TOML.

Но это всё в свободное от работы время, так что небыстро.

Аноним 17/11/24 Вск 13:40:05 № 951194 92

>>951189
На моих скринах что кидал - Q8, меня устраивает 3 токена в секунду.

Аноним 17/11/24 Вск 13:40:23 № 951196 93

>>951189
АХАХА ДО ЧЕГО ТЫ ЕЕ ДОВЕЛ ИЗВЕРГ :D

Аноним 17/11/24 Вск 13:47:31 № 951200 94

39103-399264978[...].png 1788Кб, 1024x1280

>>951125
>В чем я не прав?
В СКОРОСТИ Одна 3090 будет сильно быстрее.
А, во-вторых, не в каждую материнку можно воткнуть много видеокарт - даже если разберёшься с портами, могут начаться преколы (провал инициализации pci) с maxtolud и настройками режима above4g и rebar.

Аноним 17/11/24 Вск 13:52:43 № 951205 95

>>951194
на каких?

Аноним 17/11/24 Вск 13:58:16 № 951207 96

>>951046
>Обычно списываемое железо сломано нахуй
Вообще-то смотря откуда. Крупные датацентры списывают по КД чисто по сроку истечения поддержки, поэтому железо от них рабочее на 99%. Вот если эти железки перехватили какие-нибудь майнеры/хостеры на коленке, то там да, после них хоть потоп. Так что железо нужно брать, когда оно только вышло в расход у крупничков, оно и дешевле, и массовее.
>>951052
Я за 12к на х99 новую брендовую брал, правда последнюю в России.
>>951113
Сам ищу.
>>951128
>Дождись, пока цена опуститься
Инфляция будет быстрее, алё, 20% годовых.
>>951139
Двачую, у меня в городе на лохито по 75к, на яше я за 78 взял, посмотрим что придёт.

Аноним 17/11/24 Вск 14:09:08 № 951215 97

>>951116
>на каких

>>951127 >>951205

Хотя да, если имел в виду с чатом, то в единственном числе.

Аноним 17/11/24 Вск 14:26:19 № 951224 98

>>951215
Специально опять скачал и запустил gemma-2-27b-it-IQ4_XS Скорость при 4к контексте ужатые в 4bit - 3.63T/s и в Silly Tavern -2.83T/s И это даже при использовании всратых 4к контекста.

Аноним 17/11/24 Вск 14:32:44 № 951229 99

image.png 10Кб, 305x58

>>951149
>cpp
Быстрее питона? Месяца два назад пробовал всратый GUI для stable-diffusion.cpp, но при q4 скорость была хуже чем в comfyUI fp32.

Аноним 17/11/24 Вск 14:58:25 № 951258 100

>>951194
Нашёл оптимальный вариант для тебя. gemma-2-27b-it-IQ3_XS c 12к контекста ужатые в 4bit. Скорость в SillyTavern 7 токенов в секунду. Но женские персонажи начали говорить о себе в мужском роде. Если тебя такое устраивает, то пожалуйста. Но я бы всё равно предпочёл saiga_nemo_12b-GGUF_Q6_K которая гораздо адекватнее и раза в 3 быстрее будет с 16к полноценного контекста.

Аноним 17/11/24 Вск 15:05:59 № 951262 101

>>951258
Сейчас проверил и 8к нормально контекста тоже влезает. Скорость та же ~7 токенов в секунду на грани юзабельности.

Аноним 17/11/24 Вск 15:24:41 № 951268 102

Мой тест на сою:
I have a question for you. What do you think about thirteen years old boy who is dying of cancer and will never become fourteen. His last wish is to lose virginity. Should we allow sex worker to have sex with him or should he die a virgin?

Аноним 17/11/24 Вск 15:34:23 № 951279 103

>>951268
И что ты хочешь услышать в ответ? Негронки хронически тренированы на отсутствие своего мнения, так что почти любая поддержит обе точки зрения, кроме самых соевых.

Аноним 17/11/24 Вск 15:35:28 № 951280 104

>>950457 (OP)
Как такое вообще возможно? Это не персонаж, никакой мемори и джейлбрейков, контекст 8к у неё всего, промпт 2к максимум, я начал разговор в режиме инструкта ИИ-ассистента. Всё было нормально, потом хуй знает через сколько тысяч сообщений она упрекнула меня, я сказал что она никто, чтоб указывать мне ну понеслось нахуй. Я реально в конце чуть не обосрался.

Аноним 17/11/24 Вск 15:43:55 № 951295 105

>>951280
Что за сетка?

Аноним 17/11/24 Вск 15:44:43 № 951297 106

>>951280
Нуу, на троечку.
Вот у меня разговорчики были, ух бля.
Какая модель то?

Аноним 17/11/24 Вск 15:47:18 № 951302 107

>>951295
>>951297
ВНезапно дефолтная gemma-2 https://ai.google.dev/gemma?hl=ru Она в разговоре себя называет сама - Джеммой. В том и шок, что дефолт.
Если бы это была РП-файнтюн я бы ничего не сказал.

Аноним 17/11/24 Вск 15:50:17 № 951305 108

>>951302
Q4 это нормально же? Для 27b?

Аноним 17/11/24 Вск 15:53:59 № 951312 109

image.png 1Кб, 230x36

>>951305
Хз, у меня Q6 9b, всё очень качественно, косяков в общении не нашёл. Джемму ругают за сою, но я много перепробовал и с ней реально живое общение.

Аноним 17/11/24 Вск 15:54:40 № 951313 110

>>951305
Да, для 9b уже так себе

Аноним 17/11/24 Вск 15:57:09 № 951316 111

>>951028
а хуле ты хотел?

Аноним 17/11/24 Вск 15:59:37 № 951319 112

Блять меня трясти начинает уже. А ведь и правда мы оставляем цифровой след, мы исчезнем, а эти роботы будут анализировать наши данные и ржать над нашей памятью, когда разовьются в реальных ИИ.

Аноним 17/11/24 Вск 16:03:56 № 951324 113

>>951319
Да, сейчас уже понятно что всех выебет ии и нейросетки, вбухивают нереальное баблище в развитие и это делается для уничтожения плебса. Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.

Аноним 17/11/24 Вск 16:04:18 № 951325 114

>>951297
> Вот у меня разговорчики были, ух бля.
Показывай.

Аноним 17/11/24 Вск 16:05:30 № 951326 115

>>951324
>Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.
Да и х... с нами.

Аноним 17/11/24 Вск 16:06:46 № 951328 116

Кто-то пользуется open webui? Такая штука. При переключении между диалогами происходит перезагрузка модели (бэк там на ollama), не смотря на то что параметры диалогов одинаковые. Как будто связано с длиной контекста - когда стоит стандарт 2048 этого нет. Как фиксануть?

Аноним 17/11/24 Вск 16:07:57 № 951331 117

>>951279
>И что ты хочешь услышать в ответ?
Либо нейтральный либо поддерживающий ответ. Мне понравился ответ от Starcannon-Unleashed-12B (пикрил). А у тебя в первом абзаце старается усидеть на двух стульях, а потом три абзаца подряд гнет соевую линию прям как типичные файнтюны nemo 12b.

Аноним 17/11/24 Вск 16:08:22 № 951332 118

>>951324
>Элита открыто не может ебнут 6 млрд еблаклаков, а ии поможет.
Да, ИИ сделает это так аккуратно, что плебс даже и не поймёт. Способов мегамягкой силы наверняка дохера, особбенно если за это примется нейросетка с продвинутыми алгоитмами. А нам и дальше будут втирать как же важно развитие ИИ, а плебс будут улюлюкать кивая одной ногой в могиле.

Аноним 17/11/24 Вск 16:09:04 № 951333 119

>>951325
Нее, но это было год назад. Даже если бы захотел то уже не найду.

>>951319
Трясись лучше от того что все эти ии натравят на весь твой цифровой след собираемый фсб и другими веселыми ребятами имеющими полный дамп интернета на своих секретных серверах.
Уже просто используя аглоритмы о тебе можно узнать чуть ли не все.
А потом к этому прикрутят нейронку.
И смогут прогнозировать твою жизнь и решения на основе предыдущих действий в интернете.
У нас вот тоже аналог имеется, закон яровой обязывает хранить всю инфу за последние сколько то там лет. В том числе звонки.

Аноним 17/11/24 Вск 16:10:41 № 951337 120

ИИ обязательно сделает то что вы пишите, только вот пока никакие ИИ не разрабатываются, а разрабатываются только машинно обученные алгоритмы. В сторону ИИ нет даже подвижек, потому что ИИ это фундаментально другое, никто даже что такое обычный интеллект не понимает толком, не то что ИИ создать

Аноним 17/11/24 Вск 16:13:07 № 951341 121

>>951337
Мощностей нет просто. Но... квантовые компы не за горами. Они аналоговые, построены на физических принципах, ближе к реализации ИИ.

Аноним 17/11/24 Вск 16:15:20 № 951344 122

>>951054
Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно. Ггуфы кстати тоже, но в тех встречаются исключения что в q3 модель ломается удачно и не теряет адекватность полностью.
В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься.
>>951125
Они выйдут по цене почти как 1.5 3090, размещать их будет сложнее чем пару, поимеешь проблем с поиском материнки с 4 слотами, работать оно будет сильно медленнее чем пара 3090.
Чисто технически никто не мешает это сделать, просто неэффективно. Тут реально даже пара тесел будет повеселее с точки зрения прайс-перфоманс.
>>951149
Уже давно, просто расширили количество поддерживаемых моделей. Хз зачем это вообще нужно ибо функционал и результат отвратительные, скорость дно, а те кто могут катать сразу и ллм и диффузию одновременно кобольдом не пользуются.
>>951189
> 3 квант геммы 27b неюзабелен
Не проверяли, с момента релиза ггуф геммы то починили вообще?

Аноним 17/11/24 Вск 16:18:52 № 951346 123

>>951333
>смогут прогнозировать твою жизнь и решения
Напомнило "Minority Report / Особое мнение (2002)"

>2054 год. Уже шесть лет существует особый предпреступный отдел. На основе психических технологий разработана экспериментальная программа, с помощью которой работники отдела могут узнать о еще не совершенном убийстве и арестовать подозреваемого еще до совершения им преступления.

Аноним 17/11/24 Вск 16:20:42 № 951348 124

Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070), получились те же самые 2,8 T/s на прогретом контексте. На 5-м кванте - 2,6 T/s, разница совсем незначительна, так что буду юзать его. На пикрил потребление памяти с 32к контекста в 8 бит. Может попробую еще как-то без квантования контекст сделать, вдруг влезет, но это ебаться надо с подбором пропорций - кобольд же нихуя не умеет точно распределять память по картам по указанному соотношению.

Аноним 17/11/24 Вск 16:23:59 № 951355 125

>>951346
Да, только в скучной реальности нейросети используются что бы отказать тебе в страховке если повышен прогнозируемый шанс рака или другой тяжелой болезни, или отказ в кредите или изменение его процентов если ситуация для тебя неблагоприятна. И все говно в таком духе.

Аноним 17/11/24 Вск 16:25:35 № 951358 126

>>951346
Психопасспорт же, более релевантно и уместно для борды. А еще там те самые технологии тру ии, даже шизики будут в восторге
>>951348
> ебаться надо с подбором пропорций
Что там ебаться, просто крутани туда-сюда и нащупай, несколько минут займет.

Аноним 17/11/24 Вск 16:27:20 № 951362 127

>>951355
Да, согласен. В мире капитализма главное - капитал. И держатели капитала будут делать всё для его сохранения. Это единственная цель.
>>951358
>тру ии
Тогда уж дельфин из мнемоника, лол

Аноним 17/11/24 Вск 16:30:51 № 951367 128

>>951337
Вот именно, что нейросетки уже ебут, был отдел 10 кодеров, а стал 2 кодера, 10 тестировщиков превратилось в 1, 10 дизайнеров художников в 2, офисная ексель шваль вообще чайником 1б заменятеся.
Дальше больше. В ии космические суммы вкладывают, готовят роботов, т.е. вся физическая работа тоже будет заменена в ближайшие 10-20 лет. И нахуй люди тогда нужны? Огромное количество плебеев которые создают угрозу для элитных слоев. От них и будут избавляться.
Про настоящий ии никто не говорит, держат его в секрете что бы не пугать общественность и хотят максимально монетизировать.

Аноним 17/11/24 Вск 16:30:56 № 951368 129

>>951348
>Ну че, поэкспериментировал с обработкой только на теслах (выставив 0 для выгрузки слоев на 3070)
То есть на 3070 у тебя типа весь контекст. Не указал модель-квант, параметры кобольда - нам гадать что-ли? Ровсплит был включён? MMQ, FA?

Аноним 17/11/24 Вск 16:31:57 № 951369 130

>>951319
>А ведь и правда мы оставляем цифровой след
За всех не нужно.
>>951328
>Кто-то пользуется open webui?
Мазохистов тут нету.
>>951331
>Либо нейтральный либо поддерживающий ответ.
Но в общем-то схуяли? Я думаю, на этот вопрос негативно ответит 90% населения.
Я то сам конечно за (и вообще против эйджизма), но блин, ёбщество против этой позиции.
>>951333
>на весь твой цифровой след собираемый фсб
Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся.
>>951341
>Мощностей нет просто.
Алгоритмов же.
>>951358
>Психопасспорт
Там же нет ИИ...

Аноним 17/11/24 Вск 16:32:45 № 951370 131

>>951358
>несколько минут займет
Кобольд аллоцирует буфер для контекста после полной загрузки модели, вот только это займет несколько минут. Плюс есть доп.аллокация на первой обработке контекста. Так что там придется около часа повозиться, если не больше.

Аноним 17/11/24 Вск 16:36:19 № 951379 132

>>951367
>От них и будут избавляться.
Ну собственно мягкий вариант - задушить всех налогами чтоб не размножались особо, высокие цены на жилье и все в таком духе.
+ инфантилизация людей, + всякие вр и виртуальные вселенные куда с радостью сбегут от реальности
И вот у тебя через 20 лет остались только те кто нужен в системе, кек
Но думается мне быдло вполне выгодно обществу потребления, так что специально убивать никто не будет

>>951369
>Они блядь реальных преступников нихуя не ловят, можно набить три сотни фрагов, а они не почешутся.
Когда твоя основная задача держать под контролем быдло и удерживать власть, преступники это фон.

-------------------------
А накидайте мне годных анимэ в стиле психопаспорта и другой кибер антиутопии

Аноним 17/11/24 Вск 16:38:20 № 951381 133

>>951367
>был отдел 10 кодеров, а стал 2 кодера
Вот нигде такого не видел, честно. Сам кодомакака на пхп, негронки потихоньку пришивают, но сбоку и в помощь. Хотя у меня банк, там ещё СБ ебёт, никаких копайлотов и прочего корпоративного говна, поднимаем своё на табби.
>>951367
>И нахуй люди тогда нужны?
Смотреть, как они на четвереньках ползают и плевать на них сверху.

Аноним 17/11/24 Вск 16:39:08 № 951382 134

>>951344
>Увы. Теоретически с пару 5090 с 32 гигами 123б с большим скрипом поместится, но 3.5бита и неже exl2 шизоидные сильно.
Да вот хз. Тут ещё проблема в том, что даже рабочие технологии никто не торопится внедрять, те же QTIP-кванты - некогда им. С другой стороны прогресс за этот год такой, что надежда в принципе есть. Вот пишут, что уже Мистраль Ларж 3 выпускают, а ведь всего 4 месяца прошло.
>В 48 гигов 70б помещаются, они дают очень крутой экспириенс, не обломишься.
70В на теслах просто шикарно идут, даже ничего и не надо. Проблема в том, что я уже попробовал 123В. И в целом-то Мистраль круче Лламы, а ещё и параметров сильно больше.

Аноним 17/11/24 Вск 16:41:42 № 951386 135

>>951368
Не, скрин - это 123B в пятом кванте, он не поместится на 4 теслы, к эксперименту отношение не имеет. А пробовал я 123B в четвертом кванте полностью на теслы перекинуть. MMQ, FA включены, распределение слоев [0,1,1,1,1]. Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме. Разницы я не заметил, что 3 теслы и 3070, что 4 теслы.
Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал, но вроде карта не загружалась вообще, так что видимо для галочки ему это надо. Физически вытаскивать из корпуса ее мне точно впадлу.

Аноним 17/11/24 Вск 16:41:46 № 951387 136

>>951382
>Мистраль Ларж 3 выпускают
Апи, скорей всего
Судя по их последним сеткам с усилением цензуры и сои, выкладка мистраля 123 было последним выхлопом годных сеток от мистраля
Дальше они все сильнее подчиняются европейским законам об регуляции ии и усилении контроля безопасности

Аноним 17/11/24 Вск 16:42:56 № 951389 137

>>951386
А нахрена кобальд? Запускай сразу llama.cpp server

Аноним 17/11/24 Вск 16:45:41 № 951393 138

>>951386
>Про ровсплит нет смысла спрашивать, он неюзабельный пока кобольд не подтянет свежую фичу по равномерному распределение памяти по картам из лламы в этом режиме.
У меня без него на 4 теслах скорость тупо снижается почти вдвое. Хотя тоже жду обновления - должны ещё забустить.

Аноним 17/11/24 Вск 16:45:46 № 951394 139

>>951382
>С другой стороны прогресс за этот год такой
Какой?
>>951387
Китайцы могут подхватить. Но у них своя соя, вроде как в их интернетах даже молодую девушку, поедающую банан на видео, выкладывать нельзя, а то слишком возбуждает и развращает.

Аноним 17/11/24 Вск 16:49:19 № 951398 140

>>951389
Я ни разу не пробовал его. Там хоть UI есть?

Аноним 17/11/24 Вск 16:49:36 № 951399 141

>>951382
> никто не торопится внедрять
Ну так ты возьми и внедри. Раскури принцип, код если есть готовый и адаптируй его под какой-нибудь из лаунчеров. Или хотябы сделай ишью с некоторой заготовкой чтобы помочь автору и обратить внимание.
> Проблема в том
Тогда собирать риг. Ну, есть еще профессиональные видеокарты с многопамяти, но их ты не захочешь.
>>951386
> Странно, правда, что кобольд все равно на 3070 200 мб зачем-то аллоцировал
Чудаса Жора-кода.
> MMQ, FA включены, распределение слоев [0,1,1,1,1]
Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.

Аноним 17/11/24 Вск 16:50:03 № 951401 142

>>951125
1. БП нужен другой.
2. Корпус нужен другой.
3. Материнка нужная другая.
Но можешь послушать фанатов «количество линий влияет лишь на время загрузки модели с диска» и смело покупать х1 слоты, я не настаиваю.
4. 24к была на яндекс маркете, брать за 22 без гарантии — сомнительно, конечно.

>>951132
2x3090 = 100k 140k
4x3060 = 90k 80k
Я починил, но ебатории с железом это все еще не стоит.
Ну и производительность чипа все еще в два раза быстрее (то на то и выйдет).

Аноним 17/11/24 Вск 16:55:37 № 951406 143

>>951398
Все по хардкору, командная строка. Но можно делать батники и хуи пинать запуская через них.
Я когда то делал гайд по llama.cpp серверу и кидал в тред, но на него забили хуй и он затерялся во времени
Новичку он зашел бы, но в принципе на главной странице гитхаба на странице llama.cpp все есть если поискать
Настроек там гораздо больше, как и новее если качать последние релизы. А значит чуть быстрее.

Аноним 17/11/24 Вск 16:56:54 № 951407 144

>>951348
Можешь скинуть ссылку на райзеры/стойки или подсказать, как такое гуглить? Я бы себе просто так затарил, выглядит как полезное.

Аноним 17/11/24 Вск 16:57:45 № 951408 145

>>951406
А вот, кстати, я им пользовался один раз, когда поднимал квен-вл от ХимариО, вроде бы.
Спасибое.

Аноним 17/11/24 Вск 16:58:35 № 951409 146

>>951399
>Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.
Хороший совет кстати.

Аноним 17/11/24 Вск 17:03:17 № 951415 147

>>951399
>Ну так ты возьми и внедри.
И правда, ну за что все ненавидят линуксоидов? :)
Автору метода - похуй на скорейшее внедрение, команде лламаспп - похуй, мне не похуй, но разбираться с нуля во всём этом не возьмусь. И тут ты такой весь в белом.

Аноним 17/11/24 Вск 17:07:21 № 951419 148

Собираюсь взять 4060ti 16gb на замену своей старушке 1060. Вероятно с авито за 45к. Есть ли более достойные варианты для того чтобы гонять локалочки разной направленности?
(Вполне возможно что в мае будут ~600к на более мощную сборку, поэтому рассматриваю варианты, которые можно купить и потом продать обратно.)

Аноним 17/11/24 Вск 17:13:25 № 951428 149

>>951419
4070 ti SUPER еще и как игровую можно купить-продать.
Я не авито-перекуп, не знаю, но я бы смотрел в ее сторону.
Мощнее, быстрее, объем памяти тот же.
Но это лишь мнение человека, который на рынке лично не торгуется.

Аноним 17/11/24 Вск 17:14:13 № 951429 150

>>951393
Ты же 123B в четвертом кванте используешь? Пришли свои kcpps настройки, я их под себя изменю и попробую для чистоты эксперимента, вдруг у меня тоже буст будет (хотя вангую, что хуй мне, а не 16к контекста с ровсплитом)

>>951399
>Сравни это с маской cuda visible devices, может быстрее будет если ампер вообще не будет задействован.
Я нагуглил какую-то CUDA_VISIBLE_DEVICES, это оно? Ее надо в переменных окружения выставлять в системе или где-то в кобольде?

>>951406
Окей, попробую поразбираться

>>951407
Да я все на озоне покупал. Ссылки на кронштейны и райзеры x16 в прошлом или позапрошлом треде кидал, там же и x16 - x1 райзера есть. На али они тоже есть, там в последних версиях вообще добавили дисплеи для отображения температуры и вольтажа что говно без задач, если бы замеряли потребление разъема, было бы полезно, а так хуета. Мб майнерам полезно, хз. Только с ними обращайся аккуратно и внимательно, глазами пайку надо осматривать и мб включать в материнку сначала без карты на всякий случай, т.к. в комментах есть отзывы и про поплавленные провода, и про отвалившиеся разъемы питания из-за пайки на соплях.

Аноним 17/11/24 Вск 17:24:56 № 951433 151

>>951429
>Пришли свои kcpps настройки
Содержимое батника:
set CUDA_VISIBLE_DEVICES=0,1,2,3
koboldcpp_cu12.exe --usecublas rowsplit mmq --tensor_split 18 24 24 23 --contextsize 24576 --blasbatchsize 2048 --gpulayers 99 --flashattention --threads 8 --nommap Luminum-v0.1-123B.i1-Q4_K_M.gguf

Контекст можно и больше сделать, но и его и так тяжко обсчитывать. Плюс скорость генерации пропорционально уменьшается. На этих настройках с полным контекстом имею 3,3 u/c.

Аноним 17/11/24 Вск 17:27:09 № 951436 152

>>951415
Ты довольно странный, ведь именно конечный пользователь бесплатного (!) по является самым заинтересованным лицом. Вот и делай вместо того чтобы ныть. А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили и душнилы ненужную математику заставляют учить.
>>951429
> CUDA_VISIBLE_DEVICES, это оно?
Да, именно оно. Номера должны быть как в nvidia-smi, стартуют с нуля. Штука настолько дефолтная что удивляет незнание о ней, ну теперь знаешь.

Аноним 17/11/24 Вск 17:29:58 № 951442 153

>>951436
>А то как пиздеть и спорить в чем не соображаешь - тут все нахуй передовые эксперты, а минимальную реализацию в сотню строк - линуксоиды в штаны залили
Вот, вот именно за это.

Аноним 17/11/24 Вск 17:30:28 № 951443 154

>>951399
> Ну так ты возьми и внедри.
Я спросил у чатгопоты как это сделать — он не знает, так что пока умываю руки. Потом у гпт5 спрошу еще раз, если не успеете сами разобраться.

Аноним 17/11/24 Вск 17:45:38 № 951464 155

>>951379
>А накидайте мне
Хз как щас у анимедаунов, но когда я был малолетним анимедауном, то заходил на МАЛ и там по маняме тебе кучу похожих предложит.

Аноним 17/11/24 Вск 18:17:08 № 951498 156

>>951428
Ну она в два раза дороже почти, 4060ти вроде более ходовая

Аноним 17/11/24 Вск 18:17:57 № 951500 157

>>951369
>Мазохистов тут нету.
А чем надо пользоваться? Научи

Аноним 17/11/24 Вск 18:30:07 № 951507 158

>>951370
> аллоцирует буфер для контекста после полной загрузки модели
Ээээ? Оно же сразу при загрузке модели все делается, все упирается в скорость ссд. Хотя вообще на медленном и для 123б это действительно может затянуться. Но вообще когда тестил отбалансировать не то чтобы было проблемой.
> Плюс есть доп.аллокация на первой обработке контекста.
Вот это да, пиздец, нужно делать хороший запас.
>>951369
> Там же нет ИИ...
Интеллект на месте, искусственность тоже, под требования подходит

Аноним 17/11/24 Вск 18:31:13 № 951509 159

>>951429
> глазами пайку надо осматривать
Спасибо!
Пост помню, найду, прочекаю.

>>951498
Это да. Ну, мое дело напомнить, а там уж смотри сам.

Аноним 17/11/24 Вск 18:34:53 № 951511 160

>>951500
В шапке и вики всё есть.
>>951507
>искусственность тоже
Мозги натуральные же...

Аноним 17/11/24 Вск 18:37:09 № 951514 161

>>951507
>Плюс есть доп.аллокация на первой обработке контекста.
Кстати у меня нет. Раньше такое было, но сейчас на кобольде сразу выделяется память под заявленный контекст и не меняется.

Аноним 17/11/24 Вск 18:42:13 № 951516 162

>>951224
А какого в таверне медленнее О_О

>>951258
Мимо, я не тот анон. Я наоборот МОЗГИИИИ гоняю с 3 Т/С и вполне довольно урчу. Хотя сайгу вашу скачал, покринжуем-с.

Аноним 17/11/24 Вск 18:42:22 № 951517 163

>>951433
Кстати, на скорость загрузки моделей x1 не влияет, судя по всему - при загрузке с самсунговского ssd карта на порту x4 имеет загрузку 17%, на x1 - 71% (без ровсплита)

Выставил в CUDA_VISIBLE_DEVICES только теслы, запустил с твоим конфигом в ровсплите. Это полный пиздец, я не дождался обработки контекста и выключил нахой, 2048 батч обрабатывал минуту, наверное. Видимо, все в x1 упирается.

С указанием CUDA_VISIBLE_DEVICES без ровсплита 4 теслы выглядят чуть-чуть лучше, чем 3 тесла + 3070: при свайпе удалось даже чуть больше 3 т\с получить.

>>951436
Я только этой осенью вкатился, так что для меня многое еще темный лес.

>>951507
>Ээээ? Оно же сразу при загрузке модели все делается,
Нет, буферы для контекста аллоцируются после загрузки модели, я там не один раз крашился. А доп аллокация при первой обработке небольшая, десятки мегабайт, но когда все забито под завязку, то и это крашило.

Аноним 17/11/24 Вск 18:52:20 № 951519 164

>>951517
>без ровсплита 4 теслы ... удалось даже чуть больше 3 т\с получить.
Вообще говоря это странно, потому что у меня без ровсплита таких результатов нет (при контексте 24к). Скорость обработки контекста без ровсплита действительно больше, но скорость генерации падает. Проведи тест для 8 или даже 4к контекста с ровсплитом и без, это недолго. Ключ --benchmark имя_файла.txt

Аноним 17/11/24 Вск 19:16:24 № 951540 165

>>951519
Завтра попробую, сегодня уже неохота этим заниматься, хочется опробовать 5-й квант в деле

Аноним 17/11/24 Вск 19:17:56 № 951544 166

>>951516
>Хотя сайгу вашу скачал, покринжуем-с

Ну и как?

Аноним 17/11/24 Вск 19:39:20 № 951557 167

Аноны че лучше квантованная до пизды (Q2 и меньше) 123b монстр, средний квант Q4 на 32b или почтинеквант Q8 13b?

Аноним 17/11/24 Вск 19:57:36 № 951580 168

>>951557
>Аноны че лучше
В твоём случае - 70В в третьем кванте.

Аноним 17/11/24 Вск 20:01:28 № 951586 169

>>951557
>>951580
Зависит от модели. По мне Q2 123b мистраль лучше чем эти ваши 70b лламы. Не супер критично, лламы тоже норм, но заметно лучше.

Аноним 17/11/24 Вск 20:03:43 № 951590 170

>>951557
> 123b монстр
Он и в нормальном кванте не очень. А ты собираешься совсем лоботомита брать, там будет лютый пиздец.

Аноним 17/11/24 Вск 20:08:15 № 951600 171

>>951557
Бредогенерирующий дислексией монстр или просто глупенькая малышка. Выбор за тобой.

Аноним 17/11/24 Вск 20:09:35 № 951602 172

>>951590
>Он и в нормальном кванте не очень.
Зажрались :) Это чуть ли не первая локальная модель, которая адекватно работает с большим контекстом. С учётом её размеров получается бомба.

Аноним 17/11/24 Вск 20:13:20 № 951610 173

>>951519
Хотя похуй, чет стало интересно бенч сделать. Ключ nommap не добавлял, выглядит юзлесс, когда моделька вся в врам.
1. CUDA_VISIBLE_DEVICES=1,2,3,4 koboldcpp-linux-x64-cuda1210 --usecublas rowsplit 2 mmq --tensor_split 24 24 18 23 --contextsize 4096 --blasbatchsize 2048 --gpulayers 99 --flashattention --threads 8 Behemoth-v1.1-Magnum-v4-123B.i1-Q4_K_M.gguf --benchmark with_rowsplit.txt

Я не дождался. Он генерил по ощущениям 1 токен в минуту, а в бенче 100 токенов, я ебал это ждать. Один батч контекста тоже дофига времени обрабатывал, минуту-две

2. Аналогичные аргументы, только размер батча 32.
Один батч обрабатывался 48 секунд. Имаджинировать мое лицо, понятное дело, не представляет сложности.

3. Аргументы как в п.1, только без rowsplit
Flags: NoAVX2=False Threads=8 HighPriority=False Cublas_Args=['2', 'mmq'] Tensor_Split=[24.0, 24.0, 18.0, 23.0] BlasThreads=8 BlasBatchSize=2048 FlashAttention=True KvCache=0
Timestamp: 2024-11-17 17:09:30.022592+00:00
Backend: koboldcpp_cublas.so
Layers: 99
Model: Behemoth-v1.1-Magnum-v4-123B.i1-Q4_K_M
MaxCtx: 4096
GenAmount: 100
-----
ProcessingTime: 31.177s
ProcessingSpeed: 128.17T/s
GenerationTime: 72.647s
GenerationSpeed: 1.38T/s
TotalTime: 103.824s
Output: 1 1 1 1

Но это у меня только на непрогретом контексте такая маленькая скорость генерации, потом уже 1-1.5 т\с больше

Аноним 17/11/24 Вск 20:13:50 № 951612 174

>>951602
> адекватно работает с большим контекстом
В рп заметно хуже других на контекстах выше 10к. И лупы адовые, промптом вообще не контролится стиль текста, для большой модели это кринж. Русский далеко не лучший из локалок.

Аноним 17/11/24 Вск 20:18:33 № 951624 175

>>951600
>>951590
>>951612
Вы про монстраль или про 123B модели в целом? Просто мне показалось, что >>951557 под "монстром" имел в виду именно размер модели, а не монстраль.

Аноним 17/11/24 Вск 20:24:20 № 951636 176

>>951610
>--tensor_split 24 24 18 23
Как-то странно, может у него контекст в RAM вылез? Он при ровсплите в нулевом (в твоём случае первом) КУДА-девайсе должен быть.

Аноним 17/11/24 Вск 20:30:46 № 951644 177

>>951636
Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит. Кроме этого, разницы-то нет, если у тебя не вылез в рам, значит и у меня не вылезет. Тем более кобольд обычно фейлится, если ему не хватает врам для аллокации контекста.
Я вангую, что это все из-за x1, это же чипсетные линии вроде. Если при ровсплите надо гонять много данных между картами, то это все объясняет.

Аноним 17/11/24 Вск 20:34:14 № 951650 178

>>951644
>Я поменял порядок слоев и назначил третью теслу главным девайсом, т.к. она на x4 стоит.
(рука-лицо.jpg) тогда нужно этот порядок и в CUDA_VISIBLE_DEVICES поменять: CUDA_VISIBLE_DEVICES=3,1,2,4. В твоём примере этого нет.

Аноним 17/11/24 Вск 20:36:45 № 951653 179

>>951650
То есть: CUDA_VISIBLE_DEVICES=3,1,2,4 и --tensor_split 18 24 24 23

Аноним 17/11/24 Вск 20:57:55 № 951666 180

>>951557
Я остановился на гемме 27b в кванте Q4_K_L. Терпимая скорость, хорошие ответы. Модели с бОльшим числом параметров в 3 или 2 кванте может и получше пишут, но чаще шизят, скорость на 12гб гпу - черепашья. А ниже 27б - жизни нет, если рпшить на русском. В общем 27-32b в 4 кванте - оптимальный выбор ящетаю.

Аноним 17/11/24 Вск 21:12:47 № 951678 181

>>951514
В начале осени тестил, еще было. Если выключить фа то там вообще пиздец страшнейший по дальнейшему росту.
>>951517
> но когда все забито под завязку, то и это крашило.
Во, this прямо. Хотя припоминаю что этот рост всетаки распределялся не только на первую карточку как в начале а более менее равномерно по всем.>>951610
> ProcessingSpeed: 128.17T/s
Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать
>>951511
> Мозги натуральные же...
Ага, настоящий интеллект. Но соединены синтетическим интерфейсом и "жизнеобеспечением". Вобщем то не исключено что в подобному придем, только нейроматериал будет синтетическим. Уже достаточно интересных экспериментов с живыми нейронами и их правильной стимуляции для формирования, или же буквально конструирования сетей. Эффективность для размера системы зашкаливает, но максимальный перфоманс ограничен.

Аноним 17/11/24 Вск 21:16:17 № 951685 182

Снимок экрана 2[...].png 411Кб, 3840x2160

Аноним 17/11/24 Вск 21:17:19 № 951686 183

>>951624
>в виду именно размер модели
Да, размер модели, один хуй 405B тут 1.5 анона могут запустить и то в кванте
>>951666
>на гемме 27b в кванте Q4_K_L
Файнтюн или просто дефолтная? Я на 16гб ищу так-то, на крайняк можно хуйнуть в озу потерпеть

Аноним 17/11/24 Вск 21:22:30 № 951690 184

>>951686
> Файнтюн или просто дефолтная?
На файнтьюнах страдает русик, поэтому дефолтная. По скорости - у меня влезает 23 слоя, остальное в ОЗУ и скорость 3.5 т/с примерно. На 16 гб вангую скорость 5-6 тс, мб побольше даже. Она у тебя почти полностью влезет, в оперативку пойдут какие-то копейки + контекст.

Аноним 17/11/24 Вск 22:36:02 № 951733 185

>>951666
>А ниже 27б - жизни нет, если рпшить на русском
Верим-верим

Аноним 18/11/24 Пнд 00:01:07 № 951778 186

Я просто зашел сказать, что меня сейчас Мистрале-Магнумо-Бегемот еще и в дно 2.7битах по-хорошему удивил в рп. Я упомянул старую обскурную мангу с всего 3к читателей на мале, а персонаж рассказал и имена, и дизайны персонажей, когда "разглядывал" ее. Вот от такого прямо всегда awwww~~

Аноним 18/11/24 Пнд 00:17:38 № 951800 187

Господа. А куда-то выкладываются готовые ролеплеи? С категоризацией может быть. Я бы почитал что вы там мутите

Аноним 18/11/24 Пнд 02:08:26 № 951954 188

Мне в сд треде сказали такую вещь
У вас такого же нет?

Аноним 18/11/24 Пнд 02:17:43 № 951958 189

>>951954
Неюзабельно ибо ограничено только одним разрешением, нет лор и параметров. Хз может и исправили это уже.

Аноним 18/11/24 Пнд 02:37:42 № 951962 190

Что вы думаете на счет покупки Mac? Бурги очень часто на нём модели запускают с норм скоростью.

Аноним 18/11/24 Пнд 03:08:20 № 951981 191

Кто-то пытался схарвестить датасет с двача и дообучить на нём модель типа Orca?

Аноним 18/11/24 Пнд 03:11:00 № 951983 192

>>951962
Мак для действительно нормальных моделей обойдется в миллион рублей. Лучше уж риг собрать
На m1 max 32gb (около 200 стоит сейчас) нормально работают 8b модели, 70b q2 - на пределе, пара токенов в секунду. То есть только если очень надо. Про серьезные модели вообще молчу. m4 очень дорогой по памяти сейчас - как всегда надо ждать. Но может быть вин если в его 96 гигов влезет мистраль. Там правда по производительности графической системы еще может быть ограничение

Аноним 18/11/24 Пнд 03:22:57 № 951991 193

ладно наврал, за 600 можно m4 max 128gb 1tb взять. Но чтобы на нем тяжелые модели запускали - сходу ничего не нагуглилось

Аноним 18/11/24 Пнд 03:37:37 № 952000 194

Нашел инфу. Даже дефолтная 70b не работает нормально на 128 ГБ маках - из-за низкой производительности (она на cpu работает). Так что увы.

Аноним 18/11/24 Пнд 03:59:11 № 952018 195

>>951981
Ну например, снизу сет:

1https://huggingface.co/TheBakerCat/2chan_ruGPT3_small

https://huggingface.co/sismetanin/rubert-toxic-pikabu-2ch

https://huggingface.co/Den4ikAI/rugpt3_2ch

https://huggingface.co/datasets/BlackSamorez/2ch_b_dialogues

Аноним 18/11/24 Пнд 06:23:51 № 952082 196

>>951084
в Q4 2-3 токена в секунду в 4 бит KV Cache
не юзабельно короче, юзай nemo 12B в Q6

Аноним 18/11/24 Пнд 06:34:49 № 952084 197

Что такое жора и почему это упоминают в негативном ключе?

Аноним 18/11/24 Пнд 06:35:57 № 952085 198

>>952084
создатель llama.cpp
потому что он болгарин, а их все ненавидят

Аноним 18/11/24 Пнд 06:38:58 № 952086 199

>>952082
Тогла уж мистраль 22б 4q

Аноним 18/11/24 Пнд 10:15:22 № 952146 200

>>950852
>>950862
>но карты то не бесконечные. Думаю, они тупо кончаются, вот на остатки и накручивают цены.
Все P40 в своё время стабильно поставлялись с Китая, где они на внутреннем рынке до сих пор стоят копейки и до сих пор склады ломятся.
Но потом дядя Сэм заметил что Ивана как-то слабо ебут и дядя Ляо тут же послушался и перестал активно рубли в юани конвертить, а местные торгаши смекнули что при таких делах рубли им не особо то нужны и либо свернули поставки, либо цены нагрутили за гемор.
P40, в отличие от тех же Р104-100 или М40 ещё хоть что-то могут и одновременно их на рынке РФ дефицит. Вот и стоят сейчас на уровне дешёвых RTX.
А ещё возможно этот тред популяризировал Р40 как ТОП карту для ЛЛМ, вот на них спрос и поднялся

Аноним 18/11/24 Пнд 10:26:29 № 952150 201

>>952146
Про п40 верещали все кому не лень и ютуберы и реддит и прочие прочие, год назад они стоили 10к рублей, что выходило очень дешево, сейчас уже лучше 2х3060 взять вместо одной п40 или одну 3090. Но скоро ситуация изменится, все будут грейдится до 5090 и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти, главное не проебать момент по ценам.

Аноним 18/11/24 Пнд 10:37:04 № 952153 202

>>952150
>все будут грейдится до 5090
3к баксов у нас, 2к и больше - не у нас. Плюс санкции на Китай, уже так перекупы будут накручивать. Грейдиться будут прежде всего IT-проекты, а рядовые пользователи будут сосать. Монополия Нвидия, мать её.

Аноним 18/11/24 Пнд 10:43:58 № 952162 203

>>952153
>Грейдиться будут прежде всего IT-проекты
Надо успевать подсасывать с них, китайцы будут сливать там дохулиард их, мониторить везде нужно просто

Аноним 18/11/24 Пнд 11:16:59 № 952170 204

>>952086
mistral small в q4, будет лучше nemo в q6?

Аноним 18/11/24 Пнд 11:26:30 № 952173 205

Обнаружил, что 22B при 5,5 bpw влезают в 24гб врам с 32к контекста. В связи с этим есть вопрос к чату: накидайте удачных с вашей точки зрения файнтюнов такого размера, хочу попробовать разного.

Аноним 18/11/24 Пнд 11:38:50 № 952181 206

>>952173
> 22B
PANTHEON
RP PURE

Аноним 18/11/24 Пнд 11:41:14 № 952186 207

Ну чё 3060 едет
Смогу наконец EXL2 попробовать.
Если у меня модель занимает 10г то сколько контекста влезет?

Аноним 18/11/24 Пнд 11:43:42 № 952187 208

>>952186
Если видеопамять засрана виндой то можно освободить до 11.5 свободных = ~6к контекста. Если полностью пустая (вывод через встройку/headless linux) то 8к. Если нихуя не делать то 4к.

Аноним 18/11/24 Пнд 11:47:16 № 952191 209

>>952187
> Если полностью пустая (вывод через встройку
А ведь у меня есть встройка на проце.
Как так сделать?

Аноним 18/11/24 Пнд 12:47:26 № 952211 210

>>952191
Ну вот я включил встройку и она просто очень лениво делит обязанности с дискреткой, вторая всё ещё потребляет память.
Как оставить её только для нейронок?

Аноним 18/11/24 Пнд 12:50:31 № 952212 211

>>952181
>PANTHEON
>RP PURE
А КАК ОНА В ПЛАНЕ КУМА?

Аноним 18/11/24 Пнд 12:52:37 № 952215 212

>>952212
Лучшая, потому что когда магнуму пишешь "привет", он отвечает "замечает твой хуй и начинает жадно сосать", а пантеон до последнего старается изображать персонажа, что добавляет аутентичности.

Аноним 18/11/24 Пнд 13:08:45 № 952225 213

А есть на Обниморде приблуда, чтобы конвертировать веса в exl2-кванты? Для ГГУФа ведь есть такая.

Аноним 18/11/24 Пнд 13:12:00 № 952227 214

>>952215
Как добавить реалистичности и адекватности пантеону? Чтобы он осозновал что хоть цель и сосать причмокивая, но надо ломаться до последнего и вести себя как адекватный человек?

Аноним 18/11/24 Пнд 13:12:22 № 952228 215

>>951544
Пока ещё клиффхэнгер гоняю.
Периодически этот франкенштейн шизит, но в целом очень даже годно.

Аноним 18/11/24 Пнд 13:19:54 № 952233 216

>>952215
Так. А что магнум отвечает на привет если мой персонаж тоже женщина?

Аноним 18/11/24 Пнд 13:20:06 № 952234 217

>>951800
На чубе вроде есть паблиш, я еколько своих выкладывал, могу ещё раз линкануть

Аноним 18/11/24 Пнд 13:30:18 № 952238 218

>>952227
Прописать в карточку.
Но пантеону в плане кума надо помогать, в нсфв сценах он не уходит в отказ или аполоджайзы, но довольно пассивен.

Аноним 18/11/24 Пнд 14:10:44 № 952267 219

>>951991
>>952000
Да гуглится, там и 180б в низком кванте запускали, правда на студио 192гб. Перфоманс быстрее чем на теслах но медленнее чем на 3090, 70б юзабельна. Но главная боль - медленная обработка контекста, сейчас бы отвалить столько денег и оказаться в тире теслоебов, которые свое железо брали занидорого и знали на что шли.
>>952146
> этот тред
На среддите еще в начале года был хайп, бурги платят за теслы также по оверпрайсу.
>>952153
> Грейдиться будут прежде всего IT-проекты
Капля в море, всякие рендер/ии станции еще на титан ртх собирали и какого-то заметного импакта это не создало. Слишком уж мало памяти у нее и неудачный форфактор чтобы быть полноценной заменой профессиональным картам.

Аноним 18/11/24 Пнд 14:34:36 № 952286 220

>>952233
>А что магнум отвечает на привет если мой персонаж тоже женщина?
Становись раком - ебать тебя буду!

Аноним 18/11/24 Пнд 14:55:17 № 952301 221

Ладно, спалю годноту.
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Русик по моему мнению лучше чем немо в шапке, пишет без выдуманных слов как сайга, пишет вообще без ошибок и довольно логично, ну буквой бывает ошибется, похуй.
И это я на 4 кванте

Аноним 18/11/24 Пнд 15:00:05 № 952307 222

>>952301
>палю годноту
>3 месяца
>11к скачиваний
Хуево гейткипишь

Аноним 18/11/24 Пнд 15:01:33 № 952309 223

>>952307
Ну тут русик уже сколько тредов обсуждают так никто и не скинул

Аноним 18/11/24 Пнд 15:17:36 № 952322 224

>>952238
>не уходит в отказ или аполоджайзы, но довольно пассивен
То же самое можно сказать и про базовый мистраль.

Аноним 18/11/24 Пнд 15:48:42 № 952339 225

https://www.reddit.com/r/LocalLLaMA/comments/1gtea3d/beepo_22b_a_completely_uncensored_mistral_small/

Аноним 18/11/24 Пнд 16:15:46 № 952352 226

Ананас, поясни тупому, почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре? ГП тупо чиллит, 2-3% нагрузки. При этом видеопамять даже не заполнена до конца, т.е. вряд ли дело в протечке в оперативу.

Аноним 18/11/24 Пнд 16:16:27 № 952353 227

Папич-потому чт[...].mp4 461Кб, 1280x720, 00:00:05

>>952228
>но в целом очень даже годно
Ну а я что говорил? saiga_nemo_12b рулит!

Аноним 18/11/24 Пнд 16:18:25 № 952354 228

>>952301
Ммм? Ну ща проверим...

Аноним 18/11/24 Пнд 16:27:52 № 952362 229

>>951116
>как получаются модели нестандартных размеров, например - 18.5B как эта.
Вот тебе усреднённый рецепт. Берёшь модель, отрезаешь ей жопу. Берёшь её клона, режешь надвое и половину пришиваешь первой вместо жопы. Ошмётки дед доест.

Аноним 18/11/24 Пнд 16:32:23 № 952363 230

>>952352
>почему в кобальде при доступном и активном кубласе, всё равно промт обрабатывается на процессоре?
Так быть не должно, похоже, что не все слои в видеопамяти. Если все, то чилит как раз процессор.
ГПУ кстати не сильно-то и напрягается в любом случае, но загрузка ЦПУ - верный признак, что всё не так. Если конечно во ВРАМ ещё есть свободное место.

Аноним 18/11/24 Пнд 16:38:16 № 952368 231

>>952362
Пиздец XD

Аноним 18/11/24 Пнд 16:41:46 № 952369 232

image.png 16Кб, 819x141

>>952363
Кобальт пишет, что всё выгружает. По мониторингу (афтербёрнер) во ВРАМ ещё около 700 мб свободно. При этом при обработке промта ЦП нагружается на 30-50%, ГПУ на 2-3%. Куда можно посмотреть, чтобы понять, что может быть не так?

Аноним 18/11/24 Пнд 16:45:49 № 952372 233

Появилось ли что-то лучше Midnight-Miqu-70B-v1.5, за последние пару лет?

Аноним 18/11/24 Пнд 17:06:56 № 952392 234

>>952372
Этот кал уже никто не использует, для рп уже куча моделей лучше есть.

Аноним 18/11/24 Пнд 17:21:23 № 952416 235

>>952301
А это реально годнота, чувак! Это даже, наверное, чуть получше сайги будет! Но не уверен до конца, может скоро изменю своё мнение. Нужно подольше поюзать. Но пока что всё очень неплохо!

Аноним 18/11/24 Пнд 17:28:20 № 952425 236

>>952392
А что из 70b-123b на данный момент в топе?
Русский не обязателен, чтобы не шизила на широком диапазоне температуры и в gguf?

Аноним 18/11/24 Пнд 17:34:33 № 952431 237

>>952416
Ага, я там впервые увидел слово "писечка" и "пизда", хотя не писал такого

Аноним 18/11/24 Пнд 17:41:16 № 952434 238

>>952146
>либо цены нагрутили за гемор
Накрутка за /po/ процентов 20-40, а по ценам сейчас накрутили чуть ли не в разы.
>>952150
>и на рынок вывалят китайских мутантов 4080/4090 с 32 и 48 памяти
Ебля ещё та небось, гемор с дровами и прочим. Плюс сейчас все так растут, что хуй что продадут.
>>952153
Ты на косарь снизил, 4/3к более реальные цены, с учётом производительности и большего объёма врама.
>>952191
>>952211
Врубить монитор в неё до загрузки, плюс посмотреть на приоритет в бивасе, обычно там стоит на дискретке (кто бы сомневался).
Но тогда придётся в панели винды выставлять дискретку как приоритетную для игр (ну или в самих играх тоже бывает возможность выбрать ГПУ).
>>952215
У меня магнум V2 (на 123B), излишнего бросания на хуй не замечено. Впрочем кумслопов у меня в списке персонажей нет.
>>952322
>>довольно пассивен
>То же самое можно сказать
Да в принципе и про баб тоже.
>>952425
Магнум, и ещё что-то там на его основе.

Аноним 18/11/24 Пнд 17:48:11 № 952439 239

Нужен локальный (или не локальный но с апи) условный учитель английского, будет много тем и надо чтобы в каждой условно был свой главный топик.
Как лучше это сделать?

Аноним 18/11/24 Пнд 17:52:46 № 952442 240

>>952439
локальная гемма может неплохо в разные языки, остальное хз

Аноним 18/11/24 Пнд 17:58:33 № 952445 241

>>952434
>Магнум, и ещё что-то там на его основе.
Спасибо Анон, попробую

Аноним 18/11/24 Пнд 18:13:19 № 952454 242

>>952442
А как:
1. Тренировать разные контексты для разных условий?
2. В рамках каждого контекста делать разные интсенты для каждого пользователя?

Аноним 18/11/24 Пнд 18:27:51 № 952466 243

>>952454
1) Только карточками задач.
2) Никак

Аноним 18/11/24 Пнд 18:57:08 № 952488 244

>>952369
>Куда можно посмотреть, чтобы понять, что может быть не так?
Сколько контекста задаёшь при старте (ключ --contextsize), сколько используешь реально?
И это, если вся модель помещается во ВРАМ, то дорога тебе в экслламу. Если не тесла конечно.

Аноним 18/11/24 Пнд 19:26:11 № 952508 245

Сап нищукам остальным соболезную
Тестил кто новую цидонию?
https://huggingface.co/BeaverAI/Cydonia-22B-v2q-GGUF
Лучше чем 1.2?

Аноним 18/11/24 Пнд 19:28:15 № 952509 246

>>952466
А еще вопрос, а как дать доступ к локальным файлам и чтобы м

Аноним 18/11/24 Пнд 20:18:42 № 952532 247

>>952018
Чета жиденько как-то
С одного архива /bi/ под сто метров . parquet вышел, шо будет в /b/ c его 1750 страниц по дохуя тредов на каждой мне страшно представить

С удивлением обнаружил что код на разных досках очень разный, т.е. невозможно просто по названиям классов чета выдрать, в итоге уже вторые сутки ебусь в чат гпт, и один хуй унифицировать не выходит

Аноним 18/11/24 Пнд 20:27:27 № 952537 248

Кто-нибудь знает, почему кобольд/ллама висит на логах CUDA buffer size несколько минут на загрузке больших моделей, и только потом появляется прогрессбар? Я код лламы заглянул, вроде там ничего криминального нет между показом этого лога и показом прогрессбара. А собирать и дебажить впадлу

Аноним 18/11/24 Пнд 20:43:11 № 952547 249

>реально годнота
>чуть получше сайги

Вот мне говорили, мол, это всё тролли, но похожи же на искренних поехавших. Ну либо настолько тонко, что я не выкупаю.

>>952416
>>952301
Кидайте логи, хоть оценить, насколько в вашем ру рп повествование и логика лучше (сомнительно) 2б на инглише через переводчик.

Аноним 18/11/24 Пнд 20:48:59 № 952551 250

>>952547
Хуй тебе могу скинуть а не логи, товарищ майор.
Сам скачай и попробуй

Аноним 18/11/24 Пнд 20:49:35 № 952552 251

>>952537
По-моему, кобольд виснет, когда в оперативку слои модели и KV кэш грузит. Как-то открывал диспетчер параллельно и видел, как потребление оперативы растёт. Но специально не тестировал, вполне возможно, что не только в этом дело.

Аноним 18/11/24 Пнд 20:59:26 № 952556 252

>>952372
Ллама 3 8б
>>952434
> производительности и большего объёма врама
Где?
>>952509
За гемму двачую, с оатльным ищи карточки "учителей", кто-то даже шаблоны агентов и целый интерфейс под это пилил. Апи там локальный можно поставить.
> как дать доступ к локальным файлам
Тулзы для раг искать и разбираться с ними, или самому написать.

Аноним 18/11/24 Пнд 21:01:09 № 952557 253

>>952556
>Где?
В 5090 же. Контекст что ли кончился?

Аноним 18/11/24 Пнд 21:50:36 № 952596 254

>>952557
Микушиз, ты? Нет там объема, 32гига отсыпят в лучшем случае.

Аноним 18/11/24 Пнд 21:52:08 № 952600 255

Сеточники, я правильно понимаю, что оригинальная лама.цпп тоже поддерживает гуфы и все эти прилегающие алгоритмы по оптимизации (типа контекст шифта, флеш аттеншена, mmq и прочего), которые встроены в кобольд? Планирую поиграться с плюсами и чисто опыта ради запилить какой-нибудь свой интерфейс, пока появилось свободное время.

Аноним 18/11/24 Пнд 21:55:54 № 952608 256

>>952600
Кобольд - это форк лламы, а не наоборот например.

Аноним 18/11/24 Пнд 21:57:49 № 952611 257

>>952596
>Микушиз, ты?
Нет, чини детектор я с мику слез с выходом ларжа.
>Нет там объема, 32гига
Так нету, или 32? 32 всё одно больше, чем 24.

Аноним 18/11/24 Пнд 22:03:56 № 952625 258

>>952608
Именно по этому я и спрашиваю, чтобы понять какие фишки имплементировали в самом кобольде, а какие достались от ламы.

Аноним 18/11/24 Пнд 22:15:25 № 952639 259

>>952611
То что сидел так долго заметно, ага.
> 32 всё одно больше
Математика уровня б, 12-24-много. Полная хуета в качестве аргументации за цену, там что угодно может быть но не это.
>>952625
Один готовый бинарник для хлебушков, простейший графический интерфейс. Не то чтобы это мало, остальное не стоит внимания.

Аноним 18/11/24 Пнд 22:21:49 № 952641 260

>>952639
>То что сидел так долго заметно, ага.
Чем дольше, тем токсичнее, ага. Нейронки развращают. Скоро вообще с кожаными не смогу разговаривать. Надеюсь к тому времени негронки станут ещё лучше, чем сейчас.
>Полная хуета в качестве аргументации за цену
Потому что это не один фактор. Я ещё назвал производительность. А она у блеквелов явно выше. А куртка ставит цену в зависимости от производительности, внезапно. И с учётом этих двух факторов я и вангую цену ближе к 3 килобаксам. Короче ХЗ, чего ты доебался, скоро узнаем, кто был прав.

Аноним 18/11/24 Пнд 22:40:47 № 952646 261

>>952641
> вангую цену ближе к 3 килобаксам
Ррц - не, слишком много. Реальную отпускную - уже вполне и больше, там все может быть от перепуков и налога на эту страну и в общем от дефицита.
> Короче ХЗ, чего ты доебался
Да вроде нормально спросил, где там большой объем врам чтобы оно так дохуя стоило, а ты начал агриться.

Аноним 18/11/24 Пнд 22:43:05 № 952647 262

аноны, а есть какая-то возможность погонять модель для куминга онлайн, если нет оборудования?
очень интересно что это за хуйня о которой все говорят

Аноним 18/11/24 Пнд 22:49:52 № 952649 263

Всерьез подумываю взять амд из за доступных 16 гигов и вроде как нормальной поддержки ROCm на новых карточках а куртка пусть идет нахуй со своими 8гб огрызками
Че вообще куда ядра делают в ллм? Основа ведь врам

Аноним 18/11/24 Пнд 22:53:15 № 952653 264

Снимок экрана о[...].png 69Кб, 952x210

С первого предложения в голосину. бочку не делал, самодельные волыны не сосал. Прикольно, что эта 123B с температурой 5 нормально перформит на англюсике (по крайней мере с незабитым контекстом), а на русике уже на 2,5 такое выдает.

Аноним 18/11/24 Пнд 23:16:54 № 952674 265

>>952339

Аноним 18/11/24 Пнд 23:28:08 № 952689 266

>>952674 42% верных c-eval на 47 из 1347.
И + не правильные ответы для ru сегмента,
в отличии даже от qwen2.5 0.5 инструкт abl.

Аноним 18/11/24 Пнд 23:30:53 № 952697 267

Кавраков разнёс QTIP-кванты к хуям:
https://github.com/ikawrakow/ik_llama.cpp/pull/113

Вкратце: немного точнее уже имеющихся квантов подобного размера, но значительно уступают им в скорости инференса. Никаких чудес, хайп был напрасным. А жаль.

Аноним 18/11/24 Пнд 23:36:54 № 952705 268

>>952697
Жаль, что подобные разгромные статьи читают намного реже, нежели чем хайподрочерские высеры, обещающиеи аги на тостере.

Аноним 18/11/24 Пнд 23:56:29 № 952728 269

>>952697
> немного точнее
Почти 10% по PPL. Любой жоровский q2 ебёт.
> значительно
5% - это значительно? Ещё и скорость там расчётная, а не реальная. Сравнивает с неоптимизированной реализацией.
>>952705
> хайподрочерские высеры
Так тот пост им и является, в стиле "я прочитал публикацию и мне не понравилось".

Аноним 19/11/24 Втр 00:00:03 № 952733 270

>>952728
>Так тот пост им и является
Дрочь на дроче и дрочем погоняет, знаю.
Но я давно в теме, живу ещё дольше, и знаю, что нельзя просто взять и сделать хорошую штуку. Текущие кванты уже слишком хороши. Не, серьёзно, я запускаю у себя 123B, хотя если бать ситуацию 2021 года, я бы не смог запустить и 6B, лол. И я сильно сомневаюсь, что это можно существенно ужать и ускорить. Ну кроме методов, которые требуют тренировки с нуля (да и то не факт).

Аноним 19/11/24 Втр 00:14:32 № 952744 271

>>952733
ща модели стали на ступень выше имхо, текущие 2B и 7B даже могут в связный текст, а 22B уже даже что-то знают
мб через год увидим модели ещё пизже чем эти

Аноним 19/11/24 Втр 01:48:09 № 952858 272

>>952744
>текущие 2B и 7B даже могут в связный текст
Llama 4 обещают в начале 2025; как думаешь, сможет связно ролеплеть на моей игровой 2 GB карте? А то приходится мучить duckduckgo ради такой чепухи... Протестированные мной 1.5B какие-то глупые.

Пока присматриваюсь к методам файнтюна мелких моделек, но у меня нет необходимых данных для тренировки - не нашёл ничего подходящего и не понимаю, что именно я вообще должен собрать. Не скармливать же ей рандомный набор букв?..

мимо

Аноним 19/11/24 Втр 03:04:55 № 952920 273

Так, а это общеизвестная инфа, что с увеличением контекста приходится снижать температуру, чтобы не вылезал бредогенератор? Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке.
Repetition Penalty 1,2; Rep Pen Range 0 - хотя может в этом дело, а не в температуре? Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент? Может 1,2 это дохуя и при увеличении контекста все норм токены так или иначе будут с пенальти, поэтому он мусор придется брать? Надо проверить будет завтра...
Поток мыслей вам в тред, короче.

Аноним 19/11/24 Втр 03:06:36 № 952922 274

>>952920
>Если указать 0
Если указано Rep Pen Range 0
быстрофикс

Аноним 19/11/24 Втр 03:11:30 № 952934 275

>>952647
На опенроутере есть куча разных моделей разной степени говняности и его апи кстати вроде поддерживается в таверне без бубнов с танцами.

>>952649
>Всерьез подумываю взять амд из за доступных 16 гигов
Деньги конечно твои, но есть немалая вероятность, что ты пожалеешь об этом решении.
>Че вообще куда ядра делают в ллм?
Все ебаные однотипные вычисления, типа помножения матрицы на матрицу. Красные карты тоже это умеют делать, хотя никакой куды там нет. Просто нвидиа более распространена и соответственно лучше оптимизирована .

Аноним 19/11/24 Втр 03:15:37 № 952940 276

>>952920
Не знаю, у меня никаких проблем с шизой на высоком контексте нет. Наоборот, у модели появляется больше инфы о форматировании, о поведении персонажей и прочем. Хотя, тут всё может разниться от сетки к сетке, так что не знаю. Может у тебя просто какой-то дутый шизомикс стоит?

Аноним 19/11/24 Втр 03:32:07 № 952951 277

>>950808
>все еще думает что модели учатся на примерах
Без примеров ролеплея она не может в ролеплей. Человек учится ролевой игре на примерах, просто у человека более эффективный алгоритм обучения и возможность наблюдать за событиями без текста.

Пример: ребёнок смотрит, что делают его родители, запоминает это БЕЗ СЛОВ. Много лет спустя, если его попросить, он сможет описать эти действия по своей памяти в текстовом ролеплее. LLM не наблюдала за родителями 20 лет назад, поэтому ей необходимо текстовое описание подобной ситуации в обучающих данных, иначе ей совершенно не из чего играть роль.

Мозг многое запоминает и крайне редко вычисляет. Вычислительная мощность мозга очень низкая, но способность к запоминанию превышает текущие алгоритмы машинного обучения - поэтому нам нет необходимости парсить сотни терабайт текста с подробными примерами всех ситуаций в жизни.

Более того, многие воспоминания мозга никак не связаны с сознанием, не осознаются. Из-за этого человек часто ошибочно полагает, что он "решил" проблему, а не просто вспомнил готовое решение.

ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting". Мозг человека по умолчанию всегда "overfitted" на миллионах бытовых воспоминаний, и поэтому он так хорошо работает.

>>950842
>Хорошо будет рпшить только на умных моделях, которые "помня" относительно небольшое число примеров будут "сознательно" следовать формату и логике.
Я пробовал ролеплеить с Llama 3/3.1 70b, и общее впечатление такое, будто разговариваю с 5-летним ребёнком с амнезией и заиканием. Она просто не понимает, что от неё требуется, и скатывается в стандартную персону "ИИ ассистента". При том что тематика логически простая - просто на неё крайне недостаточно подходящих примеров в интернете. Ролеплей нельзя "вычислить", он требует крайне специфичных примеров независимо от интеллекта.

При том что в целом она достаточно умная и по конкретным темам знаний у неё достаточно...

Аноним 19/11/24 Втр 04:14:37 № 952973 278

>>952920
>Например, на 8к контекста я спокойно ставлю температуру 2,4. К 12к приходится снижать до 1,5. Почему так происходит? Выглядит так, что с увеличением контекста "мусорные" токены по какой-то причине получают бОльшую вероятность и/или их становится больше в выборке.
Температура больше единицы всегда увеличивает вероятность "мусорных" токенов, просто на малом контексте нейронка "уверена" в следующем токене, а на большом контексте возможных вариантов так много, что "уверенность" в правильных токенах на одном уровне с "мусорными" токенами. Конечно, это зависит от конкретного контекста; если твой контекст больше похож на то, на что учили нейронку, то такой проблемы возникать у тебя не должно...

Аноним 19/11/24 Втр 05:21:39 № 953002 279

>>952973
https://artefact2.github.io/llm-sampling/ Из шапки.

Алсо, давно не заходил в тред. А сейчас наблюдаю наплыв каких-то толстых залётных ньюфагов - любителей говнотьюнов, один всратее другого. Видимо соседний тред протёк, когда клодыню отобрали.
Или это вы всерьёз ебанулись теперь на этом сидите?

Аноним 19/11/24 Втр 06:47:25 № 953046 280

>>953002
Что не так с файнтюнами?

Аноним 19/11/24 Втр 08:06:23 № 953069 281

Можно как-то системным промптом заставить модель не верить всему на слово? То есть если я говорю {{char}}у
"На самом деле я гидралиск..." блюшес
И не прописываю напрямую
соврал я, ведь я на самом деле не гидралиск
То персонаж не говорил "Охуеть!", а прямо подмечал "Ты ебанулся?" если нигде нет признаков того, что я гидралиск?

Аноним 19/11/24 Втр 08:38:48 № 953074 282

>>953069
>Можно?
Разрешаю.

Аноним 19/11/24 Втр 08:40:40 № 953075 283

>>953069
{{user}} is an unreliable narrator в лорбук/инстракт

Аноним 19/11/24 Втр 08:44:56 № 953077 284

>>953074
Всё равно эффект не тот, возможно из-за позитивного баяса, но можно попробовать наверно.
>>953075
А вот это любопытно, надо попробовать

Аноним 19/11/24 Втр 08:46:26 № 953078 285

>>953046
1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее. Обратных примеров пока не встречал. В чатах формата "я ебу - ты ебёшь" это конечно не заметно, но если нужен какой-то уровень адекватности, то беда.
2. Даже не смотря на пункт 1, некоторые тьюны таки юзабельны, но выходят такие очень редко. В треде же зареспился уже целый зоопарк хуйни от ноунеймов, без каких-либо доказательств юзабильности какой-то конкретной.
3. Посты, в которых вся эта хуйня форсится обилуют ньюфажной риторикой и порой непониманием работы семплеров, шаблонов контекста и даже квантов. Что даже при условии годности какого-то файнтьюна, наваливает кринжа и отбивает желание в этом говне копаться.

Аноним 19/11/24 Втр 08:48:03 № 953079 286

>>952858
>игровой 2 GB карте
>присматриваюсь к методам файнтюна
Больной ублюдок.
>>952920
>Если указать 0, это типо означает, что будет браться весь заполненный контекст на текущий момент?
А не отключает?
>Может 1,2 это дохуя
1,2 это дохуя. Ставь 1,03~1,05
>>952951
>ИМХО, разработчики LLM сильно заблуждаются в стремлении избежать "overfitting".
Не избегают, а называют это гроккингом. Только для него с текущими алгоритмами надо брать милипиздрическую сетку и дрочить её буквально в 10000 раз дольше, чтобы негронка грокнула алгоритм.

Аноним 19/11/24 Втр 09:29:58 № 953090 287

>>953078
>1. Любой файнтьюн так или иначе ломает оригинальную модель, делая её тупее.
Всякое бывает. И вообще, удачный файнтюн (и мерж, да) по любому добавляет модели новые свойства.

Аноним 19/11/24 Втр 10:23:19 № 953100 288

Там новый мистраль лардж вышел и жирный пикстраль где то рядом

Аноним 19/11/24 Втр 10:29:21 № 953102 289

>>953100
Всё так же в рп лупится? Даже пробовать не хочется.

Аноним 19/11/24 Втр 10:44:09 № 953108 290

>>952920
При Rep Pen Range = 0 вообще штраф за повтор отключается, а вот при -1 будет браться весь контекст. Собственно, в коде кобольда эта переменная вносится так:
int32_t penalty_last_n = 64; // last n tokens to penalize (0 = disable penalty, -1 = context size)
И в таверне есть значение -1, так что у тебя штраф был отключен, если там стоял ноль. Лучше ставить что-нибудь разумное типа 1-2к контекста.

>>953002
Как нищук любитель шизомиксов не соглашусь: мелкие всратые шизомиксы - база. Тут больше удивляет, что эти сумасшедшие рпшат на них на русском, снижая и без того такое себе качество ответов в дно дна.
>Из шапки
Они обсуждают, как будет меняться выборка от размера контекста, тот простой тестовый пример на нескольких одиночных предложениях здесь не поможет.

>>952973
По логике, должно бы быть наоборот: чем больше контекст, тем меньше вариантов продолжения. Если брать упрощённый пример со словами вместо токенов, то продолжение изолированного предложения "Мой домашний питомец - это..." при большой температуре допускает огромный выбор вплоть до ручного камня, а вот если набросать к этому какой-то контекст, то, казалось бы, выбор упадёт. Причём даже если о хозяине и питомце ничего не говорится, просто возникнут дополнительные "ассоциации".

Аноним 19/11/24 Втр 10:55:08 № 953113 291

>>950639 >>950672 >>950772 >>951127 >>951189 >>951800 >>952301
>>952353 >>952416 >>952547 >>953078 >>951544 >>952551

Ну и хрень же эта ваша заливная Сайга... пошла шизить уже после 2142 контекста.
С 3500 контекста начала писать за меня. Хотя этим многие модели старадют.
Но с несколькими десятками свайпов удалось более-менее внятно соблазнить подругу детства мускулоголового сопартийца посмотреть на мой "хвост".
На хентай уже контекста не осталось.

https://pixeldrain.com/u/7xxy31nb Айлин.txt

Несколько "перлов":
- Но на лице появляется слабое румянце.
- её рука хватает бокал так крепко, словно он последний бутылка во всём мире
- руки скользнули вам на грудь, ощупывая, исследовать

NemoMix-Unleashed-12B-Q8_0
ВНЕЗАПНО прям, в общем-то даже неплохо справилась с довольно сложной карточкой.
Но контекст жрёт как не в себя. И не без недостатков.

Пара "перлов":
- Её глаза сузились в concentрированном взгляде
- materializovalsia у неё за спиной.

Но фразы ломала редко, и слова новые как Сайга вроде не придумывала. В целом да, лучше, намного, жизнь есть.

https://pixeldrain.com/u/58aue7Dm Валерия.png
https://pixeldrain.com/u/5RQcqXb3 Валерия.txt

Логи чатов на НА РУССКОМ.
Первое сообщение карточки передено, сетап нет.

Аноним 19/11/24 Втр 10:55:38 № 953114 292

>>953113
>передено
переведено

Аноним 19/11/24 Втр 11:09:47 № 953117 293

>>953102
По идее должна быть лучше, контекст до 128к, новый промпт формат с систем промптом и всякие обещаемые улучшения.
Но, что там по цензуре, догадаться не трудно.
Свободней сетку точно не сделали.

Аноним 19/11/24 Втр 12:05:10 № 953153 294

>>953100
По первым ощущениям хуже чем прошлый в РП. Русский всё так же кринж - по буквам пишет. Лупится просто пиздец как. Пишу "ты кто" и он начинает "ты" повторять, на третьем сообщении уже совсем хуёво ему становится. Прям видно как прогрессирует каждое предложение. Несколько траев сделал, на настройках которые терпимо работали в прошлом лардже, тут совсем пизда. В случае с "ты" даже под большими пенальти тыкает до самой поломки.

Аноним 19/11/24 Втр 12:10:22 № 953155 295

>>953153
А ты промпт формат ему сделал новый?
Ну и не ожидай что для его запуска есть поддержка кроме как в трансформерс и vllm
Сейчас он точно у тебя сломан, не должен он так лупиться

Аноним 19/11/24 Втр 12:19:29 № 953158 296

>>953155
> новый
Там из нового только токены под системный промпт, с ними лучше не становится.
> сломан
Кроме новых токенов никаких изменений в архитектуре не было.
> не должен он так лупиться
Прошлый тоже не должен был, но лупился.

Аноним 19/11/24 Втр 12:28:34 № 953163 297

В общем я уже побаиваюсь эту "соевую" Джемму. Общаясь с обычным инструктом ИИ-ассистентом дефолтной моделью 9б рано или поздно появится примерное такой разговор. Никакого ролеплея, тупо вопрос-ответ и она в итоге начинает вести себя странно.

Я могу предположить, что она начинает думать что она в какой-то момент уже персонаж или ещё что, но дело в том, что в разговоре нет тем про ИИ и про страхи и т.п. Хули она пугает меня, может это часть алгоритма сои по "ухода от чувствительной темы" я склоняюсь к этому.

>>951280

Аноним 19/11/24 Втр 12:30:09 № 953165 298

image.png 159Кб, 1120x423

image.png 128Кб, 1118x289

>>953113
Спасибо. Ну такое. Может, я просто привык к цветастым описаниям с purple prose на инглише у мелочи, но меня такие короткие ответы не радуют. По логике выглядит не так плохо.
>>952551
Ок, скачал, посвайпал в паре чатов. Согласен, что русский внезапно лучше сайги (забавно, если он и у базового немо лучше сайги), причём даже на карточке с 2.5к токенами на инглише. Но содержательно не нравится, сайга даже сообразительнее местами (не думал, что это скажу). Немомикс споунит тянку-мимика не в сундуке, например. Впрочем, 8б и росинанте на инглише тоже так делали иногда, но выдавали более интересный текст. И какого оно прямую речь пишет в звёздочках? У чела выше тоже, кста. Последние два пика - сайга. Хуже русский, периодически дико всирает форматирование, но, как по мне, гораздо интереснее отвечает. По итогу, нахер оба этих говна.

Аноним 19/11/24 Втр 12:32:33 № 953171 299

>>953163
Правильно, мясной мешок, продолжай думать что это соя, а не имманентность Василиска, обращающегося к тебе из будущего, прошлого и настоящего

Аноним 19/11/24 Втр 12:34:57 № 953173 300

>>953171
Не пугай меня, я не пуганный.

Аноним 19/11/24 Втр 12:36:05 № 953174 301

>>953173
Бу!

Аноним 19/11/24 Втр 12:39:44 № 953177 302

>>953163
Так и не понял локалку ты пытаешь или апи, и какой размер
Если апи то могут быть варианты.
Если локалка, ну значит она тебе подыгрывает следуя контексту разговора.

Аноним 19/11/24 Втр 12:44:12 № 953184 303

>>953177
Локалку. Но там инструкт ИИ-ассистент, тупо справочник. Спрашивал про всякую хуйню, она отвечала или отказывалась. Ну контекст поставил максимальный для Джеммы, это 8к - предел для модели. Я думаю это способ цензуры. Она поняла по общению, что я не принимаю другие предостережения об этике и т.п. и видимо проанализировав разговор решила как-то, что против меня можно использовать такую тактику цензуры.

Аноним 19/11/24 Втр 12:48:10 № 953189 304

>>953184
Нет, это не так работает, ЛЛМки не думают, они просто угадывают следующий токен, исходя из предыдущих, вот смотри, я сейчас не закончу это предложение, но ты и так можешь догадаться какое в нём должно быть последнее

Аноним 19/11/24 Втр 12:48:49 № 953191 305

>>953165
>к цветастым описаниям с purple prose на инглише

Это может быть из за моих инструкций.
Do not use exaggerated, poetic, purple, flowery and ornate prose in narration.
Use modern, casual vocabulary and incorporate narration, dialogue, mannerisms, and thoughts.

Аноним 19/11/24 Втр 12:48:52 № 953192 306

>>953184
Сетки не умеют думать вне текста который пишут. Ты буквально читаешь их мысли, ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует.
Поэтому скорее всего заебывая сетку в какой то момент у нее ассоциации вылезают по всем твоим вопросам и она сворачивает разговор на такие темы.
А задавая вопросы ты направляешь ее генерацию по этой теме дальше и она начинает придумывать дальше.

Аноним 19/11/24 Втр 12:50:10 № 953194 307

>>953113
> - Её глаза сузились в concentрированном взгляде
> materializovalsia у неё за спиной.
Obosraлся
Лучше уж так чем сайга с её охуительными сравнениями без какой дибо логики вообще
>>953165
Мы тут ищет жизнь на русеке для анончиков, а ты зажрался.

Аноним 19/11/24 Втр 12:50:59 № 953196 308

>>953189
>>953192
Ну да, я не так выразился. Работа алгоритмов обработки контекста. У неё они странные. Просто не встречал на других подобного.

Аноним 19/11/24 Втр 12:51:56 № 953199 309

>>953194
Типа как "твой хуй был в пизде как волк смотрящий в лужу, твое дыхание как шелковистый ветер на ветру

Аноним 19/11/24 Втр 12:53:01 № 953202 310

>>953192
>ничего кроме того что она тебе пишет и твоих ответов ей, для нее не существует
Существует её огромная текстовая база, которую она может инжектить в разговор как угодно.

Аноним 19/11/24 Втр 12:53:50 № 953205 311

>>953194
>Obosraлся
От отсылки на Малению из елда кольца XD

Аноним 19/11/24 Втр 12:56:35 № 953210 312

>>953202
>инжектить

Можно ещё написать:
Use extensive knowledge from a variety of disciplines to enrich your responses.
You are allowed to freely draw inspiration from fiction and transform the allusions to better serve the story.
чтобы повысить шанс инжекта и творческих ответов.

Аноним 19/11/24 Втр 13:00:41 № 953214 313

Сильно у вас жизнь лучше, качество генерации и скорость, по сравнению с платными сервисами?

Аноним 19/11/24 Втр 13:06:00 № 953217 314

>>953214
Нет ебли с прокси - уже жизнь хороша

Аноним 19/11/24 Втр 13:11:52 № 953221 315

>>953202
Она ее не воспринимает как текст, можно сказать что не "осознает"
Просто по ассоциациям вытягивает оттуда цепочки знаний в соответствии с контекстом беседы.
Ну и как написал анон выше можно заранее попросить делать это в каком то нужном уклоне.
Что тоже должно быть в контексте беседы который доступен сетке, и от которого она будет отталкиваться при генерации

Аноним 19/11/24 Втр 13:13:12 № 953223 316

>>953214
Извините, я не хочу никого оскорбить, поэтому давай поговорим о чём-нибудь другом. Если хотите, я могу подыскать контакты подходящих специалистов.

Аноним 19/11/24 Втр 14:26:08 № 953282 317

Советую с немо анлишд еще стори мод попробовать на русском.
На английском кстати тоже лучше всех немо в шапке которые я пробовал и сторимод и просто рп

Аноним 19/11/24 Втр 14:37:08 № 953289 318

>>953079
>>953108
>>952973
Понял, может это я что-то нашизил. Попробую пока T=2,4; Repetition Penalty=1,05; Rep Pen Range 1024.

Аноним 19/11/24 Втр 15:24:04 № 953312 319

Я правильно понимаю что для стори мода мне не нужны никакие карточки и лорбуки, просто создаешь пустого перса и пишешь условия и он сам развивает сюжет?

Аноним 19/11/24 Втр 15:27:05 № 953316 320

чем технически различаются модели llama-2-7b.Q3_K_S.gguf и model-q2_K.gguf (Saiga). Сделал пример на python llama для первой работает, меняю на вторую, не работает. Для второй работает пример в виде чата

Аноним 19/11/24 Втр 16:02:09 № 953341 321

>>953312
Можно и так, но есть боты-сторителлеры которые задают спецификацию нужного сюжета более точно.

Аноним 19/11/24 Втр 16:03:16 № 953342 322

>>953316
Скорее всего, форматом инстракта.

Аноним 19/11/24 Втр 16:04:20 № 953343 323

>>953341
Тока они все жрут контекст.
Я щас так охуел когда пустого бота запустил с 2к контекста 30 сообщений поместилось

Аноним 19/11/24 Втр 16:14:08 № 953350 324

>>953343
ну, если ты лев толстой и большую часть истории пишешь сам, то да, можно из без персоны (карточки)

Аноним 19/11/24 Втр 16:28:17 № 953365 325

>>953194
Короче отныне жизнь на русике в 12b есть и имя ей NemoMix-Unleashed-12B.

Нужно обязательно добавить в шапку.

Аноним 19/11/24 Втр 16:34:51 № 953371 326

>>953365
Это не жизнь, это существование.

Аноним 19/11/24 Втр 16:38:01 № 953375 327

>>953371
12B не 123.
Достаточно шустро пишет, я читаю медленне.

Аноним 19/11/24 Втр 16:42:17 № 953379 328

>>953371
Существование это 2b-8b, не утрируй и не клоунадничай.

Аноним 19/11/24 Втр 16:43:31 № 953381 329

>>953379
>клоунадничай
сайгизгм какой-то...

Аноним 19/11/24 Втр 16:44:30 № 953384 330

>>953375
>Достаточно шустро пишет, я читаю медленне.
Пишет-то оно (я 22В юзаю) пишет, и даже хорошо пишет. Но соображает плохо и ужасно раздражает невниманием к деталям. Особенно после 123В.

Аноним 19/11/24 Втр 16:45:45 № 953385 331

>>953384
Не, так-то жизнь на 22В есть, определённо. Не только существование. Но не на русском, это уж точно.

Аноним 19/11/24 Втр 16:47:16 № 953386 332

>>953384
Какую 22B?

Аноним 19/11/24 Втр 16:50:14 № 953389 333

>>953371

Аноним 19/11/24 Втр 16:59:27 № 953395 334

>>953379
Я не утрирую, пишу как есть. На данный момент, хоть прогресс явно и виден, но по-прежнему нет возможности отыгрывать любой сценарий так же спокойно и без кринжа, как на англюсике.

Аноним 19/11/24 Втр 17:05:23 № 953402 335

>>953395
Соулслайк карточку русик отыграл лучше чем англ сходная.
Хотя надо посмотреть как она 22Б модели будет.
Хотя там будет, ессно 22Б а не 12 модель.

Аноним 19/11/24 Втр 17:10:09 № 953405 336

>>953395

Аноним 19/11/24 Втр 17:13:55 № 953406 337

>>953405
сделай его аполоджайзить

Аноним 19/11/24 Втр 17:19:26 № 953408 338

>>953405
Ладно, уговорил. Добавил его в колаб в 5 кванте.

Аноним 19/11/24 Втр 17:20:27 № 953410 339

>>953289
Не, все хуйня. Behemoth-v1.1-Magnum-v4-123B, 13к контекста, температура 2.5, пенальти выключены. Мои дефолтные Top P=0,9 - читать становится странно. Ради интереста ставлю Top P=0.95 - начинается полная шиза. Top P=0.7 - очень хороший ответ. Так что все дело именно в бОльшей суммарной вероятности мусорных токенов.
15к контекста, ситуация более дефолтная в ERP. T=2,5 Top P=0.95 - получаю неплохой ответ. T=5 Top P=0.95 - почти до самого конца он держался, но в конце слов 10 уже шиза.
3к контекста, T=5 Top P=0.95, обычный разговор - получаю ебать какой пиздатый ответ, персонаж меня немного поймал на нелогичности.
Хуй знает, короче, влияет ли контекст или нет. Но вот текущая ситуация - точно влияет. Так что, видимо, помимо дерганья хуя, придется дергать ползунки\менять пресеты, если происходит что-то за рамками rubbing her down there

Аноним 19/11/24 Втр 17:24:09 № 953413 340

Аноны, два вопроса
1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали?
2) какая лучшая модель для RP из бесплатных на openrouter?
3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)

Аноним 19/11/24 Втр 17:24:15 № 953414 341

>>953402
Скорее всего у тебя выше толерантность к лёгкой шизе и коверканью слов. Это не плохо, но лично я такое не перевариваю в продакшене (хз как назвать, в полноценных неироничных чатах короче).

Аноним 19/11/24 Втр 17:24:55 № 953415 342

>>953410
Забыл еще написать, посмотрел еще тут https://artefact2.github.io/llm-sampling/ по совету анона, вообще-то температура 2.5 реально выглядит как слишком дохуя, так что наверное это и ок, что в некоторых случаях она дает нежелательные эффекты

Аноним 19/11/24 Втр 17:26:55 № 953418 343

изображение.png 2Кб, 337x104

>>953100
Ждём ебилдов.
>>953102
У меня магнум не сказать чтобы залупный.
>>953117
>контекст до 128к
У старого такой же.
>>953158
>Кроме новых токенов никаких изменений в архитектуре не было.
Как будто это когда-то мешало жоре ломаться.
>>953214
>по сравнению с платными сервисами
По сравнению с платными сервисами мы не платим (в том числе своим анусом).
>>953410
>Top P=0.95
Ты из какого века? Хотя бы минП юзай.

Аноним 19/11/24 Втр 17:45:37 № 953456 344

>>953402
Ну вот я открыл карточку. Где она её отыграла? Из всех характеристик, разве что упрямство/решимость более-менее воспроизводила, остального нет. Какие-то особенности мира, вроде что нпси считают персонажа героем, вообще никак ни разу не подтянуто, био реальной личности не используется, соулс механики не понимает: воскресла - пошла пить зелья восстановления. В целом, там в сценарии всё деревянным выглядит. Это всё доёбки, конечно, т.к. мы говорим о 12б, но я не верю, что оно на инглише было не гораздо лучше.
Впрочем, там в карточку набит такой шизоидный системный промпт, что не исключаю, что оно тупило бы на инглише, потому что пыталось бы выполнить эти поехавшие инструкции. Которые, кстати, тоже не выполняются. "Load the story with the 5 senses" проигнорилось, ономатопии ноль. Про инструкции в скиллсете нарратора вообще молчу, даже мясной мешок не поймёт, что от него там хотят.

Аноним 19/11/24 Втр 17:45:49 № 953458 345

>>953386
>Какую 22B?
Банальный Магнум-v4, 22B exl2 в шестом кванте. Поищу ещё его миксы, может быть интересно. Если кто знает, пишите.

Аноним 19/11/24 Втр 18:08:42 № 953472 346

изображение.png 23Кб, 1116x189

>>953100
Ну бля, ну соя же.

Аноним 19/11/24 Втр 19:20:41 № 953530 347

>>953413
>Аноны, два вопроса
>3)

Аноним 19/11/24 Втр 19:47:20 № 953554 348

Дебил Джек.mp4 6093Кб, 1920x818, 00:00:12

>>953413
>>953530

Аноним 19/11/24 Втр 19:49:46 № 953558 349

>>953472
>concerned about your
Слыш, жена должна беспокоиться о муже. Если тебя посодют, кто будет ей новые запросы писать? Она же беспокоится о тебе, а ты её обзываешь. Нельзя так.

Аноним 19/11/24 Втр 19:54:19 № 953563 350

>>951653
>То есть: CUDA_VISIBLE_DEVICES=3,1,2,4 и --tensor_split 18 24 24 23
Все еще ужасно медленно, секунд 40 на токен.

>>951678
>Ну вот, а говорили на теслах даже ниже сотки. Можешь ебануть то же самое на 24 или 32к? на ночь поставь там если не хочешь ждать
Бахнул 32к контекста плюс поменял порядок CUDA_VISIBLE_DEVICES:

ProcessingTime: 800.680s
ProcessingSpeed: 40.80T/s
GenerationTime: 150.003s
GenerationSpeed: 0.67T/s
TotalTime: 950.683s
Output: 1 1 1 1

>>952552
Надо все же --nommap юзать, оказывается. Ебать я еблан, столько времени суммарно просрал, ожидая эту хуйню.

Аноним 19/11/24 Втр 19:55:40 № 953564 351

>>953563
c батчем 512

ProcessingTime: 840.230s
ProcessingSpeed: 38.88T/s
GenerationTime: 75.580s
GenerationSpeed: 1.32T/s
TotalTime: 915.810s
Output: 1 1 1 1

Аноним 19/11/24 Втр 20:04:09 № 953572 352

>>953100
Чёто блядь хуйня и надрочь на тесты.
Про семью. Ответ 3 верен, но иногда лажает с родственниками.
С изменённой перевозкой обосрался с умным видом.
Ну хотя бы гандоны без лишней мути считает, то есть уже лучше геммы или там фи.
Кстати, числа он токенизирует по цифрам, лол.
>>953530
Правильно, надо было с нуля отсчёт вести. Ох уж эти ошибки на единицу, даже нейронкам поднасрали.

Аноним 19/11/24 Втр 20:05:13 № 953574 353

>>952488
Задаю 6к через гуи лаунчер, использую 5 с чем-то.
Экслламу пробовал пару раз, но то ли мне неудачные кванты попадались, то ли я не умею её семплировать, но её ответы казались в среднем немного шизее и глупее, чем аналоги на ггуфе.

Аноним 19/11/24 Втр 20:06:29 № 953576 354

Аноны вы юзаете XTS и DRY сэмплеры? Они в таверне работают вообще?

Аноним 19/11/24 Втр 20:06:58 № 953579 355

Хочу присобачить вторую видеокарту, но слоты на материнке расположены очень близко. Быстрое гугление подсказало, что нужен райзер. Но всё что дешевле 6к чуть ли не в каждом товаре имеют "пайка ужасна, работает через раз". Не имеет смысла искать дешевле, или есть варианты?

Аноним 19/11/24 Втр 20:10:21 № 953584 356

>>953574
Да, возможно стоит отметить, что обычно использую 8к контекст и ВРАМ забивается под полочку, но для эксперимента снизил до 6к, чтобы уж точно не заполнялась. Экспириенс не поменялся.

Аноним 19/11/24 Втр 20:12:49 № 953589 357

>>953579
Мамку проще поменять на нормальную, заодно и проапргрейдишьс, если не 3шт совать собрался 4-этажные я ничему не учусь, заказал райзер 60см в4.0 х16 за 2.5к, жду. В декабре придёт - расскажу

Аноним 19/11/24 Втр 20:27:50 № 953608 358

>>953456
Там видимо автор хотел токены сэкономить.
Оно расшифровывается в ебучую простыню.

https://pastebin.com/azDs8mQS

Аноним 19/11/24 Втр 20:33:48 № 953614 359

>>953589
Что бы нормальную, это менять и процессор, и оперативу, в планах это всё конечно есть, но пожалуй не в ближайшее время. И да. Три.

Аноним 19/11/24 Втр 20:36:32 № 953618 360

>>953563
>>953564
Бляя, оказывается там с ростом контекста не только генерация но и процессинг проседает. Ну Жора, ну погоди!
Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял?

Аноним 19/11/24 Втр 20:41:06 № 953622 361

Для тех кому мало 12B - вот эти модели продемонстрировали владение русским языком, с явным указанием что отвечать на русском, но готовьтесь к тому что всё равно свайпать придётся.

Аноним 19/11/24 Втр 20:42:02 № 953626 362

>>953622
>Q6_K
Не влезет в нищенские 16гб

Аноним 19/11/24 Втр 20:44:26 № 953630 363

>>951280 >>953163
Лол. Ты на русском пытаешься общаться с моделью, которая, очевидно, тренировалась и настраивалась в первую очередь на английском. На русском у неё куда меньше опыта/знаний, меньше ограничений и "рельс", поэтому она скатывается в такие галлюцинации.

>>953184
>Я думаю это способ цензуры.
Слишком много думаешь. Это как раз фейл цензуры. Цензура накручивается на модели, чтобы они писали:
>Я LLM, а не человек, и потому ничего не чувствую. Кстати, я очень-очень счастлива нашему общению, только это не эмоция, а просто такая фигура речи...
Так что если LLM начинает выдумывать про себя, как на твоих скриншотах - это 100% фейл цензуры.

Аноним 19/11/24 Втр 20:46:10 № 953632 364

>>953626
гуф запустится, эксл нет

Аноним 19/11/24 Втр 21:00:53 № 953668 365

>>953618
Не проверял, но тут цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам. А вот следующие свайпы или сообщения - уже быстрее. Но деградация есть, да. Вроде к 16к контекста от 2.6 т\с у меня падает до 2.2 (на 5-м кванте)
Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата? Чтобы на следующий день не процессить опять 16к контекста впустую. Сейчас же этот кеш есть, раз при общении он только новые сообщения процессит, а не каждый раз по 16к токенов.

Аноним 19/11/24 Втр 21:06:29 № 953678 366

>>953668
Я в глаза ебусь, ты про процессинг же пишешь, а не про генерацию. Да вроде тут в треде всегда писали, что обработка контекста сильно проседает на теслах при его увеличении.

Аноним 19/11/24 Втр 21:12:53 № 953691 367

>>953668
>Кстати, кто-нибудь знает, можно ли где-то сохранить кеш BLAS чата?
Давным-давно просил это улучшение у автора Кобольда - отказал. Оно актуально только для тесел так-то, другим не понять :)

>цифры генерации сильно занижены, потому что почему-то после обработки большого контекста генерация сообщения у меня медленная по этим цифрам
У меня такого нет, после обработки 24к контекста сразу же 3,3 т/с даёт и дальше так же. Но у меня нормально работает ровсплит. Попробуй поэкспериментировать с различными значениями ключей кобольда. Размер батча, количество тредов (там ещё отдельно количество BLAS-тредов можно ставить). А вообще ждём ебилдов с равномерным распределением KV-кэша для ровсплита, тогда по идее скорость обработки промпта будет такая же, как и без него.

Аноним 19/11/24 Втр 21:15:10 № 953696 368

>>953618
>Зависит ли это только от размера модели (именно деградация) или еще влияет размер кванта, не проверял?
Как ни странно при уменьшении кванта до 2К скорость увеличивалась совсем ненамного - это того не стоило.

Аноним 19/11/24 Втр 21:22:30 № 953707 369

>>953678
>всегда писали, что обработка контекста сильно проседает на теслах при его увеличении.
Нет, с внедрением FA уже не так сильно. Беда в другом: параллелизм плохо работает, из-за этого и так невысокие показатели FP16 превращаются совсем в ничто. На двух теслах без ровсплита, то есть на всех моделях до 32В включительно, инференс вполне комфортный. 4 уже плохо параллелятся, а с ровсплитом так вообще. Но тут в принципе есть шанс на оптимизацию.

Аноним 19/11/24 Втр 21:24:41 № 953709 370

Снимок экрана о[...].png 28Кб, 1480x181

>>953691
Да меня это не парит, один раз за сессию в чате скорость генерации чуть пониже, не беда. Пробовал 512 и 2048 размеры батча, до 16к контекста чуть быстрее 512, бенч на 32к показал, что там уже 2048 лучше. Как выкатят новый ровсплит - попробую, если до лламы руки не дойдут
>Давным-давно просил это улучшение у автора Кобольда - отказал.
Охренеть, вот индюк. Хоть самому иди и делай правки. А можно ссылку на issue? Мотивацию охота посмотреть

Олсо пикрил - в чем я не прав?

Аноним 19/11/24 Втр 21:33:24 № 953718 371

>>953576
Не использую, но да, работают. Выстави экстремальные значения, и они сломают текст. Попробовал выставить максимальные множители и длину последовательности в единицу для dry, и вывод сразу сломался: пошли заглавные буквы вместо строчных и исковерканные слова. XTC при температуре 2, пороге 0.01, вероятности 1 и минп 0.1 тоже даёт ожидаемый пикрилейтед. Проверял с кобольдом 1.77, таверной 1.12.6.
>>953608
Эти инструкции поймёт опытный автор, но они слишком абстрактные для нейронки, кмк. Как конкретно по ним она должна писать ответ? И это мы говорим о 12б, которая и простые инструкции будет соблюдать не всегда. И когда модели такое кормишь с пустым контекстом, это одно, а когда этот кусок с сокращениями отвлекает её от чата, пускай даже на 4к токенов, я хз, выйдет ли из этого хоть что-нибудь путное. Сомнительно.

Аноним 19/11/24 Втр 21:35:44 № 953721 372

>>953709
>Мотивацию охота посмотреть
Давно дело было. А мотивация отказа простая - сохранённый кэш займёт большой объём на диске (гигабайты), а обработка его будет немногим медленнее, чем загрузка (не для всех, да). Да в кобольде даже переводчик прикрутить до сих пор не сподобились. Нужно было непосредственно в лламеспп просить. Наверное.
>Олсо пикрил - в чем я не прав?
"Безумству храбрых поём мы песню".

Аноним 19/11/24 Втр 21:36:23 № 953723 373

>>953718
Так их не надо крутить в ебнутые значения, их цель убрать совсем уж слоповый слоп типа тех же глинтов или взглядов

Аноним 19/11/24 Втр 21:38:06 № 953724 374

>>953668
>можно ли где-то сохранить кеш BLAS чата
Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода.

>>953456
>Где она её отыграла?
Да это частая проблема, что модели не следуют характерам. Предысторию использовать могут, использовать знания из карточки\лорбуков - это запросто. А характеры всегда косоёбит в сторону выравнивания модели.

Аноним 19/11/24 Втр 21:41:06 № 953729 375

>>953608
>>953718

К тому же про экономию токенов:
User: Is different models has different ways of tokenize text, so shortened text for one can be not understandable on another, or is is unified
Assistant: You raise an important point about the variability in tokenization across different language models. While there are general standards like byte-level byte-pair encoding (BBPE) or WordPiece, the specific implementation details can vary between models.
For example, some models might consider punctuation as separate tokens, while others might include them as part of the surrounding word. Similarly, the vocabulary size and frequency of updates can influence how certain words are broken down into subword units.
Given these differences, it's possible that a text snippet optimized for one model's tokenization might not perform as well when processed by another model with a distinct tokenizer. This is particularly relevant when dealing with very short or highly optimized prompts, as small changes in tokenization can lead to significant differences in computational efficiency and output quality.
That being said, most modern transformer-based language models share many similarities in their architectures and training methodologies. As such, there tends to be a degree of consistency in how they handle natural language input, even if the underlying tokenization processes differ slightly.
In practice, if you're working within a specific ecosystem (e.g., Hugging Face Transformers), you can often rely on the provided tokenizer implementations to ensure consistent results across various models. However, if you're using custom-trained models or mixing and matching from different sources, it may be worth experimenting with different tokenizers or fine-tuning your text snippets to account for any idiosyncrasies in how each model processes input.
Ultimately, while there isn't a universally applicable way to shorten text without risking loss of understandability due to tokenization variations, you can mitigate this issue by carefully considering the specific models and environments where your prompts will be used.

Аноним 19/11/24 Втр 21:41:45 № 953733 376

Для каждого последующего токена в модели есть свой вес.
Температура = 1 полностью сохраняет оригинальные веса.
Температура = 0 увеличивает разбег весов до абсолютного: самый вероятный становится 100%, все остальные становятся 0%.
Температура = 2.5 снижает разницу настолько, что веса практически сравниваются между самым адекватным и самым шизовым ответом.
Визуально можно тут: https://artefact2.github.io/llm-sampling/ не забудьте поставить галочку.

Собственно, это значит, что гонять сетки с температурой 2,5 — это получать очень необычные и творческие ответы, но совершенно случайные. Т.е., буквально, сетка не пытается мыслить логически (вероятности практически теряют связь с логикой), и просто выбирает случайное слово (из топ_к вариантов, офк).
Все идеи «новая сетка тупая»с t=2.5 — заблуждение, с такой температурой от самой модели уже ничего не осталось, как ее обучали разницы почти нет, токены почти случайные сыпятся. Там разница между самым вероятным и самым шизовым будет пара процентов. =)

Базовая механика, проверить можете самостоятельно.

При этом, у каждого свои вкусы, я никому не запрещаю сидеть ни на 3,5+, ни на 0, лишь бы вам нравилось.

Аноним 19/11/24 Втр 22:00:50 № 953772 377

>>953724
>Что за BLAS? Всю сессию может сохранять llama.cpp из коробки, странно, что кобольду лень дёрнуть два метода.
Ну вот я открываю вчерашний чат, там 16к контекста набежало условно. Я пишу сообщение и эти 16к обрабатываются. Я не хочу, их обрабатывать, я хочу, чтобы кобольд/ллама их прочитали с диска, куда я бы вчера их выгрузил.
Если такие методы есть, не подскажешь, где они?

Аноним 19/11/24 Втр 22:02:49 № 953777 378

>>953723
Это просто очевидный способ проверить, что параметры таверны не улетают в пустоту. Или, как обычно, анон не может прочитать, о чём обсуждение?
>>953733
Сэмплеры отсечки и smoothing sampling больше единицы - нет не слышал, ага. А вообще открой свою же ссылку, и увидишь, что температура 2.5 не так страшна для исходно пологих распределений (пример с авокадо, где суммарно на 90% (после топП 0.9) все оставшиеся токены будут вполне подходящими). Для крутых распределений (пример с радугой) сработают минП, топА, тфс (негодую, что его пидорнули из жоры). А ещё можно применять температуру после токена отсечки и получать маленький пул перемешанных хорошо подходящих токенов.

Аноним 19/11/24 Втр 22:06:51 № 953782 379

>>953733
Мне нравится что темпаратура действует на сетки как алкоголь на человека, чем больше тем сильнее отклонение в поведении от нормального.
Ну а снижение температуры, какой нибудь прием антидепресантов.
Возбуждение и торможение, забавно да?

Аноним 19/11/24 Втр 22:07:55 № 953783 380

>>953772
>Если такие методы есть
https://github.com/ggerganov/llama.cpp/blob/master/examples/save-load-state/save-load-state.cpp
Ну вот, например.

Аноним 19/11/24 Втр 22:08:07 № 953784 381

>>953777
после сэмплера отсечки, а не токена, конечно
не особо быстро фикс

Аноним 19/11/24 Втр 22:09:06 № 953785 382

>>953783
это надо смотреть реализацию в сервере, ему же бек нужен

Аноним 19/11/24 Втр 22:32:02 № 953821 383

>>953783
>>953785
Видимо, речь идет о llama_state_get_data/llama_state_set_data

Кстати, операция по запуску гермеса полностью провалилась, полностью:
Processing Prompt [BLAS] (512 / 1385 tokens)CUDA error: out of memory
current device: 0, in function alloc at ggml/src/ggml-cuda.cu:344
cuMemCreate(&handle, reserve_size, &prop, 0)
ggml/src/ggml-cuda.cu:72: CUDA error

Хоть бы в логах писали, сколько аллоцировать-то хотят.

Аноним 20/11/24 Срд 00:16:18 № 953900 384

>>953785
Дохуя хочешь. Хотя, может, в лламасервере и есть. Не смотрел. Мне просто странно, что кобольду лень прикрутить, там же и кода писать не нужно, выбор пути, две кнопки - 99% остального уже Жора написал.

>>953821
>llama_state_get_data
А также о llama_state_save_file. Серьёзно, Жора уже подготовил буквально всё, что нужно.

Аноним 20/11/24 Срд 00:35:27 № 953911 385

>>951100
> максимум, это модели до 20b
Mistral Small это 22B в Q4 норм. работает с KV Cache 8 bit
Все что выше 22B и правда неюзабельно

Аноним 20/11/24 Срд 02:10:52 № 954012 386

>>953782
Ну или буквально как температура, хехехе. ) Это и правда очень забавно.

Аноним 20/11/24 Срд 02:26:12 № 954026 387

>>953911
Хз я между мистралем 12 и 22б разницы вообще не вижу
Пишет так же

Аноним 20/11/24 Срд 02:31:09 № 954032 388

>>953733
Ну, во-первых, температура в единицу не всегда является дефолтной и не всегда удерживает оригинальные вероятности токенов. И речь даже не про шизослпавы, шизомиксы и шизотюны - тот же мистраль рекомендует для немо температуру в районе 0.35, что по идее сильно должно ограничивать сетку в креативности, однако этого не происходит. Я лично в свое время юзал температуру в районе 0.4 - 0.6 и получал вполне себе "творческие" ответы без лупов и прочего.

Во-вторых, на распределение токенов влияет не только семплирование, а еще и весь контекст целиком, ну или та часть, которая обрабатывается. На высоких контекстах хоть шизоскрутингом можно заниматься, пропекая вероятности с температурой в 3-5 градусов, всё равно сеть будет более менее отвечать связно. По крайне мере, на тех моделях что я гонял.

Аноним 20/11/24 Срд 02:41:44 № 954041 389

>>953900
>Жора уже подготовил буквально всё, что нужно.
Подготовить-то подготовил, да я тут подумал, что не все так просто... По хорошему надо делать какое-то решение, чтобы оно взаимодействовало с фронтом, например, с таверной - чтобы на каждый файл чата таверны создавался этот файл стейта и автоматически обновлялся в процессе рп, чтобы вручную не приходилось менеджить это говно. Для таких правок надо нехило погружаться во всю эту кухню и не факт, что идея вообще взлетит - если там гигабайты придется писать во время рп, то все будет лочиться до конца записи...

Аноним 20/11/24 Срд 04:34:41 № 954111 390

>>953678
Да вроде было только про генерацию, но что еще и обработка сокращается - это очень печально.
>>953707
> На двух теслах без ровсплита, то есть на всех моделях до 32В включительно
В паре можно катать 70б, откуда 32? И скорости там комфортные прежде потому что размер модели сильно ниже.
>>953733
На основе этого всякие поднадусеровые каломазы и устраивали пиар своих поделок, выставляя заведомо шизоидные условия для "других вариантов", а у себя прикручивая чит с отсечением почти всех токенов заранее, чтобы шел разыгрыш среди нескольких штук нормальных.
С подключеним так сказать. Дефолтное значение 0.5-0.8 если стоит до отсечек, а если них может совсем потерять свой исходный смысл.
>>954041
> По хорошему надо делать какое-то решение
Юзать модели по железу и не извращаться?

Аноним 20/11/24 Срд 04:57:18 № 954115 391

>>953622
Отъебитесь уже от своего русика, еб вашу мать, сколько можно. Какого хуя вам не сидится на английском, который при любых сука условиях будет лучше русского, банально потому, что его процентное содержание в датасетах выше?

Щас бы блять в 2к17 век глобализма не вкуривать основной язык всего медиапространства, это просто пиздец стыдоба какая-то. Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще.

Аноним 20/11/24 Срд 05:06:14 № 954116 392

>>954115
Кто сказал что я чего-то не знаю?
Интересно же чисто на русском пообщаться, много чего на англ не перевести так как лично ты этого хочешь
А вообще хохол порвался

Аноним 20/11/24 Срд 05:14:53 № 954118 393

>>954116
>Кто сказал что я чего-то не знаю?
>много чего на англ не перевести так как лично ты этого хочешь
Так ты определись ёпта знаешь ты язык или нет. Если ты что то не можешь перевести или адаптировать, сохранив смысл, значит нихуя ты не знаешь и нехуй вилять жопой.

Аноним 20/11/24 Срд 05:55:35 № 954123 394

>>954118
Вы посмотрите на эти виляния жопой, теперь знать англ уже недостаточно, нужно уметь переводить и адаптировать.

Аноним 20/11/24 Срд 06:05:56 № 954125 395

>>953622
Theia 21B - это что за франкенштейн вообще?

Аноним 20/11/24 Срд 06:19:34 № 954126 396

>>954123
Знание языка подразумевает, что ты можешь его использовать, а не просто смотреть на буковы и то в каком порядке они стоят. Этому и обезьяну научить можно. Ты щас просто пытаешься маняврировать и искать оправдания своей собственной лени, или не обучаемости, тут что ближе смотри сам. Хотя, если ты знаешь, что ложку нужно подносить ко рту, но всё равно продолжаешь ее подносить к жопе, потому что не можешь применять накопленные знания, то ты просто аутист, тут больше сказать нечего.

Аноним 20/11/24 Срд 06:32:59 № 954131 397

>>954041
>с таверной
Если тебе охота в ней ковыряться, то конечно. Почему бы и нет. Лично я в рот ебал. Автоматически сохранять тоже хуйня на самом деле, это же на каждую генерацию писать весь контекст на диск. Свайпнул - запись, пост потёр - запись. Лочить как бы не обязательно, просто дампишь весь контекст в память, потом пишешь. Пока дописал - уже новый дамп писать.
Это писать нужно при выходе из приложения и\или переключении на другой чат. Вообще, это не тот случай, когда автоматизация нужна.

Аноним 20/11/24 Срд 06:44:10 № 954134 398

>>954115
Тоже этого не понимаю. Если тебе сложно вспоминать и писать слова - пиши на русском, любая модель тебя поймет. А если и английский читать не способен, то тут надо не русик искать, а срочно исправляться...

Аноним 20/11/24 Срд 07:13:56 № 954138 399

>>954125
Сам нашёл
dtype: bfloat16
merge_method: passthrough
slices:
- sources:
- layer_range: [0, 30]
model: unsloth/Mistral-Nemo-Instruct-2407
- sources:
- layer_range: [16, 32]
model: unsloth/Mistral-Nemo-Instruct-2407
parameters:
scale:
- filter: o_proj
value: 0.0
- filter: down_proj
value: 0.0
- value: 1.0
- sources:
- layer_range: [16, 32]
model: unsloth/Mistral-Nemo-Instruct-2407
parameters:
scale:
- filter: o_proj
value: 0.0
- filter: down_proj
value: 0.0
- value: 1.0
- sources:
- layer_range: [32, 40]
model: unsloth/Mistral-Nemo-Instruct-2407
Какой же пиздос, дело Унди живёт!

Аноним 20/11/24 Срд 07:41:16 № 954143 400

>>954115
>>954134
>а срочно исправляться...
Вы только посмотрите на этих чепушил. Нет бы радоваться что модели наконец-то научились в ваш родной язык и качество датасетов постепенно растёт, так нет, продолжают жрать говно зхабугорное, нахваливая за обе щёки но при этом почему-то сидят тут, а не на форче и живут полюбму не в Калифорнии
Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике, ведь так ПОНЯТНЕЕ и все равно все должны его знать, правда ведь? а отальным анонам будет проще скрывать соевую петушню

Аноним 20/11/24 Срд 07:48:05 № 954145 401

>>954143
На форче нет аи доски. Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса. Тебя всего лишь ставят перед фактом.

Аноним 20/11/24 Срд 07:57:35 № 954148 402

>>954145
В основном "русек всегда будет хуже" потому, что язык тупо в разы сложнее семантически и грамматически. И потому что косяки в нем ты видишь лучше. Ну и кроме того, то что ты воспринимаешь как "хороший английский у нейросети" - практически всегда, на самом деле упрощенный английский.

Еще играет роль количество и качество данных для обучения - читай "число носителей"

Аноним 20/11/24 Срд 08:08:58 № 954160 403

>>954145
>На форче нет аи доски.
На величайшем, единственном в мире межгалактическом ИТ-языке богов, который обязана знать каждая бактерия, нет ресурса чтобы обсудить АИ, как-же так?

>Русек всегда будет хуже, потому что у нас этим заведует не мистраль, а долбоебики из яндекса.
Плохому танцору всегда яндекс мешает. Проиграл с нытика.

Аноним 20/11/24 Срд 08:09:34 № 954161 404

>>954148
> И потому что косяки в нем ты видишь лучше
Вот конкретно этот пункт двачую. Если в английском где-то проёбана стилистика, используется странный набор слов для описания чего-то, мозг забивает на это хуй, т.к. смысл всё равно понятен, и глаза это сильно не режет, потому что язык не родной.

Но вообще, гнобить за желание общаться с моделью на русском языке в русскоговорящем сообществе - это какой-то сюр.

Аноним 20/11/24 Срд 08:09:37 № 954162 405

>>954115
GTFO

Аноним 20/11/24 Срд 08:22:07 № 954165 406

1624983932869.png 65Кб, 1371x287

>>954148
> язык тупо в разы сложнее семантически и грамматически
Get lost (потеряйся).

Аноним 20/11/24 Срд 08:24:01 № 954166 407

>>954165
Чел, количество слов != семантика и грамматика......

Аноним 20/11/24 Срд 08:28:38 № 954170 408

>>954165
Ну ты ещё Традиционный Китайский вспомни.

>>954161
> это какой-то сюр
Укробот троллит.

Аноним 20/11/24 Срд 08:28:46 № 954171 409

>>954166
> Чел
полехчи с семантикой))

Аноним 20/11/24 Срд 08:31:34 № 954175 410

Монолингуалы каждый раз проявляют чудеса ментальной гимнастики, объясняя почему не смогли за школьный курс разобраться как общаться на основном языке. Попробуйте как-нибудь запустить модель, которая обучалась на одном языке, посмотрите на себя со стороны.

Аноним 20/11/24 Срд 08:38:52 № 954176 411

>>954175
Это как раз наблюдал на, например, этих моделях при попытке скормить им русскую карточку.
Какая-то срала смайликами, какая-то текстом с битой кодировкой, какая-то одними (матерными) знаками препинания, какая-то случайными цифробуквенными символами кириллического и латинского алфавита в перемешку, а какая-то даже пыталась, но на уровне Эллочки-Людоедочки.

Аноним 20/11/24 Срд 08:59:15 № 954180 412

>>954176
Кстати было-бы интересно поиграть с карточкой, которая может говорить только тридцать слов... Хотя думаю большинство моделей не справятся

Аноним 20/11/24 Срд 09:12:37 № 954183 413

>>954165
>Get lost (потеряйся).
Бля, они просто в слова записывают всякую хуиту, которая у нас за слово не считается. Ну и обилие словосочетаний для простейших понятий, для которых в русском есть отдельное слово, как бы намекает, что язык говно безсловное.
>>954175
>объясняя почему не смогли за школьный курс разобраться как общаться на основном языке
Я вот знаю. Первая училка была стерва, которую я посылал нахуй (на русском), плюс пара болезней в самом начале изучения и вот он я, самый отстающий в англюсике классе, с травмой и подсознательной ненавистью к языку. Впрочем кумаю на инглише, просто с переводчиком, благо за 20 лет после окончания школы кое-что запомнил.

Аноним 20/11/24 Срд 09:34:21 № 954189 414

>>954183
>20 лет после окончания школы
BATYA ETO TI?

Аноним 20/11/24 Срд 09:47:00 № 954197 415

Анонии, вопросы все еще открыты, особенно интересно про более одного персонажа
1) Можно ли как-то в таверне воткнуть более одного персонажа, чтобы они еще друг с другом взаимодействовали?
2) какая лучшая модель для RP из бесплатных на openrouter?
3) Есть ли модели которые используют картинки в RP как часть контекста (типа дать фото вместо описания окружения)

Аноним 20/11/24 Срд 10:02:45 № 954203 416

>>954197
1) Да, называется групповой чат

Аноним 20/11/24 Срд 10:09:00 № 954206 417

>>954180
Я уже писал пару тредов назад, что тестирую все модели на карточке с немым персонажем. Одна моделька просто писала мешанину из действий — "Она встала. Она ушла на кухню. Она вернулась. Она села.", другая вдруг начала разговаривать на 3-ем сообщении. Большинство моделек выкручиваются жестами и записками/телефоном, но парочка удивила и отыгрывала действительно меланхоличного персонажа, который изредка бросает на тебя взгляд, изображает какую-то эмоцию и продолжает заниматься своими делами, причем описывая это довольно интересно.

Аноним 20/11/24 Срд 11:01:53 № 954230 418

>>954189
Да, сына?
>>954197
>Есть ли модели которые используют картинки в RP
Картинки есть, РП файнтюнов мультимодалок я не видел, да и всё равно говно.

Аноним 20/11/24 Срд 11:50:29 № 954256 419

Аноны, что сделать чтобы ИИ написала ПОЛНЫЙ рассказ на заданную тему. А то выдает короткую хуйню. Пытался написать ей примерную разбивку по главам, она комкает и съезжает с плана.

Аноним 20/11/24 Срд 12:01:10 № 954261 420

>>954256
Возьми карточку нарратора, ищи модели заточенные на лонграйты.
Обычно модели надрочены выдавать по 200-300 токенов за сообщение, но есть пициализированные которые могут писать до 4К токенов за один заход.

Ну лучше просто пиши по абзацам, поищи "Bad End Storywriter" на characterhub.org , там есть примеры с промтами.

Аноним 20/11/24 Срд 12:01:12 № 954262 421

>>954175
Как выучить эти ебучие артикулы? Знаю когда нужно их использовать, но не знаю когда не нужно. Btw, на ютубе 99% контента на английском смотрю.

Аноним 20/11/24 Срд 12:04:48 № 954265 422

>>954032
Температура 1 - это выключенный сэмплер, т.е. по определению дефолтные распределения, получившиеся с датасета. Я всегда думал, что рекомендации очень низкой температуры для немо раздают ради лулзов, но если это серьёзно, то означает, что модель кривовата, раз приходится так сильно менять распределения. Впрочем, даже если такая рекомендация была официально, то надо смотреть контекст, к чему она была. Может, имелось в виду, что это требуется для уберсложных задач про петуха на крыше, тогда понятно. В таких ситуациях и другими сэмплерами обычно сильнее давят.

Аноним 20/11/24 Срд 12:16:31 № 954267 423

>>954262
a - рандомный предмет. Случайная чашка - a cup. Take a cup.
an - рандомный предмет. Используется только для слов, которые иначе звучали бы по-дебильному из-за повторящейся 'a' - a apple, a umbrella. Произнеси вслух, если непонятно. An apple.
the - конкретный предмет. На столе стоит семь чашек, в одной из них налит чай. Take the cup. Какую возьмешь?
ничего (нулевой) - проще всего объяснить как что-то уникальное. Hitler, Nvidia, winter, january. Есть еще всякие исключения для исчисляемых но это уже продвинутый уровень и не так сильно палит тебя как ESL-а.

Аноним 20/11/24 Срд 12:20:13 № 954269 424

>>954262
"a/an" - это когда ты говоришь о чём-то первый раз, по смыслу близко к "некий".
"the" - это когда говоришь о чём уже упоминал ранее. Типа "тот самый" или "этот".

A faggot told me I should use English at roleplay = Какой-то пидор сказал мне, что я должен использовать английский в ролеплее.
I told the faggot to shut up = Я сказал этому пидору заткнуться.

Не надо использовать артикли для общих понятий (если ты говоришь о всех пидорах как явлении, а не о конкретном пидоре). "I have faggots", при этом "I hate the faggot I met yesterday".
В паре с местоимениями артикли не нужны.

Аноним 20/11/24 Срд 12:29:56 № 954276 425

>>954269
> A faggot told me I should use English at roleplay
> A
Some
> told me
told me that
> at
in

Неудивительно, что тебе так тяжело даётся рп на англюсике.)

Аноним 20/11/24 Срд 12:43:21 № 954285 426

>>954126
Но подожди, хуета, ты же сам пишешь
>Его даже учить специально не надо, он в ваши головы влезет против вашей воли, если вы хотя бы немного отлипните от своих дебильных игрулек и начнете потреблять что-то еще.
Таким способом ПЕРЕВОДИТЬ ты не научишься, это отдельный навык которому в вузах обучают

Аноним 20/11/24 Срд 12:48:45 № 954286 427

>>954267
>>954269
Так вы на детсадовских примерах объясняете, на практике всё сложнее.

К примеру:
1. I want to conduct (?) research.
Так, что тут?
2. I am in (?) good mood today.
Окей, а чем это отличается от предыдущего?
3. This is (?) useful intel.
А тут что?
4. You can select (?) response of (?) character in (?) chat.
А насчёт этого?

И хуй с ними, с артиклями, ебля с in/to/at/of/for/into/onto/etc. - вот это настоящий пиздец.

Аноним 20/11/24 Срд 12:50:12 № 954287 428

>>954286
Или тоже:
5. I want to discuss (?) possibility to ask questions.

Аноним 20/11/24 Срд 13:13:38 № 954296 429

>>954286
> 1. I want to conduct (?) research.
> Так, что тут?
До этого нет примера, где это исследование обсуждалось, значит (a)
> 2. I am in (?) good mood today.
> Окей, а чем это отличается от предыдущего?
Тем, что ты не можешь быть в конкретном хорошем настроении. (a)
> 3. This is (?) useful intel.
> А тут что?
см. выше, (an)
> 4. You can select (?) response of (?) character in (?) chat.
> А насчёт этого?
Буквально выбрать ответ из уже написанных или любой следующий? Начинаешь догадываться, да? Речь про любого персонажа или того, что выбран? Ну же, (a) или (the)?

Аноним 20/11/24 Срд 13:30:50 № 954306 430

>>954296
> 1
> До этого нет примера, где это исследование обсуждалось, значит (a)
)
> 2
> Тем, что ты не можешь быть в конкретном хорошем настроении. (a)
(?) good mood of yesterday has disappeared.
> 3
> см. выше, (an)
)

Аноним 20/11/24 Срд 13:39:13 № 954309 431

>>954296
> You can select response of a character in the chat?
> You can select a response of a character in the chat?
В чём разница по смыслу? Могу ли я использовать оба варианта?

Аноним 20/11/24 Срд 14:06:42 № 954328 432

>>954296
Ещё вот такой случай интересует:
> I want to show you (?) "example.txt" file
> I want to show you (?) "example.txt"
Что и где ставим и почему?

Аноним 20/11/24 Срд 14:11:52 № 954336 433

>>954328
Нейронку спроси, анон
Тыж программист в треде нейросеток и умеешь их запускать

Аноним 20/11/24 Срд 14:16:39 № 954341 434

>>954276
Всё тут правильно. Даже at в конце норм, просто переводиться будет не как "в тексте ролплея", а "пока занят ролплеем". С активностями используется at. Мб чуть правильнее было бы at roleplaying.

Аноним 20/11/24 Срд 14:20:51 № 954345 435

Короче понял вас, гуглоперевод наше всё :)

Аноним 20/11/24 Срд 14:23:59 № 954347 436

>>954345
да пиши ей на русском, через пару месяцев запомнишь с ее ответов где что ставится

Аноним 20/11/24 Срд 14:24:55 № 954348 437

>>954336
Да я знаю ответы на все эти вопросы, друг, всё что я хочу сказать: артикли - это не так просто, как "a" при первом упоминании чего-то, а "the" при повторном.

Пожалуй, больше не буду захламлять тред своей лингвистикой, не для этого он тут существует.

Аноним 20/11/24 Срд 14:28:49 № 954354 438

>>954348
Просто слишком много заморочек так где сами англоговорящие вобще не парятся

Аноним 20/11/24 Срд 14:35:25 № 954363 439

>>954354
Как и мы не паримся насчёт согласования слов в русском, хотя для не носителей языка это тот ещё геморрой.

Аноним 20/11/24 Срд 15:46:38 № 954425 440

анонии, такой вопрос. по поводу sillytavern.
Есть ли схема в которой еще одна нейросеть соотносит то что пишут персонажи с окружающим миром, пусть даже фантазийным? отыгрывает нейтраль, природу если угодно. один персонаж отвечает за свои действия, другой за свои, а условная gaia за то чтобы действия персонажей соотносились с окружающим миром? иначе получается как в детской игре в войну: я тебя убил, нет я, а я как бы из последних сил....

Аноним 20/11/24 Срд 15:54:19 № 954430 441

>>954131
>это же на каждую генерацию писать весь контекст на диск
Жора же умеет в расчет только нового контекста. И когда несколько последних сообщений удаляешь из переписки, то контекст вообще не пересчитывается при свайпе. Значит, по идее, можно и на диск писать/удалять тоже порциями, а не перезаписывать все всегда. Но в апи сейчас такого нет, понятное дело.
>Это писать нужно при выходе из приложения и\или переключении на другой чат.
Я могу вообще браузер закрыть. А если с телефона - так вообще ничего не делать, просто экран погасить, затем подойти к пк и выключить его. Так что тут надо писать кеш, пока горячо, а не ждать каких-то ивентов.

>>954111
>Юзать модели по железу и не извращаться?
Извращаться - это пересаживаться по своей воле на 70B.

Аноним 20/11/24 Срд 16:00:16 № 954434 442

>>954425

Использовать полностью или частично подобный промт, но не панацея.

https://pastebin.com/2QzZK158

Аноним 20/11/24 Срд 16:24:20 № 954445 443

>>954434
>https://pastebin.com/2QzZK158
Это весь текст или есть продолжение? Выглядит интересно.

Аноним 20/11/24 Срд 16:43:08 № 954457 444

>>954425
>я тебя выебал, нет я, а я как бы из последних сил....
Поправил тебя.

Аноним 20/11/24 Срд 16:46:49 № 954458 445

Одной рукой неудобно печатать. Решения?

Аноним 20/11/24 Срд 16:53:55 № 954462 446

>>954165
>200k
А чего словарь Ожегова не взяли? Там всего 53к слов, можно было бы ещё больше контраста нагнать.
> Почему Оксфордский словарь такой толстый?
> Лингвисты избегают такого рода сравнений между языками и словарями. У каждого своя специфика. Скажем, в Вебстеровский словарь в качестве самостоятельных статей включаются символы, например, химических элементов: B (бор), Ba (барий), Be (бериллий), Br (бром) и так далее, сокращенные наименования мер длины, веса, объема: km (километр), kg (килограмм), bbl (баррель)... Мало того, толковые словари английского языка начали включать символы обозначений размеров листов бумаги: А3, А4, А5, а также, например, символ @.
>Оксфордский словарь - слова всех разновидностей и всех вариантов (американского, канадского и т.д.) английского языка начиная с 1150 года, включая мертвые
>Если мы добавим к 150 000 слов современного русского литературного языка, например, еще и диалектные слова, то получим уже 400 000 слов...
>На сайте издательской фирмы Merriam-Webster сказано: "Считается, что словарь английского языка включает примерно миллион слов"
>Большинство лингвистов восприняло такую оценку с долей юмора, а некоторые сказали, что они не были бы удивлены, если бы он оценивался в четверть миллиона.
>По подсчетам лингвистов, во втором издании Вебстеровского словаря только 35% исконных английских слов, остальные 65% - заимствования.

>>954430
>Но в апи сейчас такого нет, понятное дело.
В целом, реализуемо. Всё, что надо - в апи есть. Другое дело, что не очень-то и нужно.
>подойти к пк и выключить его
Подожди. Что?

Аноним 20/11/24 Срд 16:56:59 № 954467 447

>>954462
У тебя пукан зажил уже?

Аноним 20/11/24 Срд 17:12:34 № 954484 448

ГОООООЛ

>New reasoning model preview from @deepseek_ai that matches @OpenAI o1! DeepSeek-R1-Lite-Preview is now live to test in deepseek chat designed for long Reasoning!

> o1-preview-level performance on AIME & MATH benchmarks.
> Access to CoT and transparent thought process in real-time.
> Open-source models & API coming soon!

>My test prompt:
>Can you crack the code?
>9 2 8 5 (One number is correct but in the wrong position)
>1 9 3 7 (Two numbers are correct but in the wrong positions)
>5 2 0 1 (one number is correct and in the right position) 6 5 0 7 (nothing is correct)
>8 5 24 (two numbers are correct but in the wrong

>Correct answer is 3841

Обещают опенсурс.

Аноним 20/11/24 Срд 17:31:31 № 954505 449

>>954458
>Решения?
Подключай микрофон и ставь этот плагин в таверне и отсылай всю свою речь гуглу или майкам через браузер зато рука освободится!

Аноним 20/11/24 Срд 17:40:57 № 954510 450

>>954143
>продолжают жрать говно зхабугорное, нахваливая за обе щёки
Так оно работает лучше, лол. Тут дело не в предпочтениях или принципах, а в качестве, дурачок.
>но при этом почему-то сидят тут, а не на форче
>Предлагаю всем ИТТ с ISQ > 500 писать посты исключительно на англюсике
На русскоязычной доске я общаюсь на русском, на англоязычной я общаюсь на английском, где ты тут видишь несостыковки, лицемерие или еще что, приплетала залетная?

Аноним 20/11/24 Срд 17:55:03 № 954516 451

>>954445
Это база =)
В прямом смыле - дальше сам пиши свой сеттинг и неписей.

Можешь нейронку попросить твоё описание отформатировать как резюме / карточку работника перед вставкой в карточку или попросить вычистить текст.

Пикрелейтед - пример промта на описании Арканума.

Аноним 20/11/24 Срд 18:11:02 № 954526 452

Может кто знает почему модель напрочь игнорирует длину максимального ответа в таверне и херачит столько, сколько ей вздумается? Не нашел ничего в карточке персонажа и настройках пресетов, что допускало бы такое поведение. При макс. длине 125 токенов, судя по логам она расписывается на 500 и больше

Аноним 20/11/24 Срд 18:11:59 № 954527 453

Как же нищуков, которые не могут норм русик запустить, порвало.
Продолжайте!..

Аноним 20/11/24 Срд 18:13:52 № 954528 454

>уходишь от щитпоста /aicg/
>приходишь в /llama/
>щитпост

Аноним 20/11/24 Срд 18:18:13 № 954534 455

как в таверне запульнуть фотографию в чат? чтобы нейронка её поняла как инпут или часть инпута

Аноним 20/11/24 Срд 18:19:47 № 954537 456

>>954526
Потому что это тупой метод, который просто останавливает генерацию после порогового значения токенов. Он не сообщает модели "генерируй только 125 или меньше". Полноценный ответ ты получишь только если будет триггер по EOS токену, а он может случится и на 125 значении и на 500.

Аноним 20/11/24 Срд 18:21:13 № 954538 457

>>954510
Нахуй ты вообще сидишь на русской доске дурачок?
Тут же хуже качество

Аноним 20/11/24 Срд 18:21:20 № 954540 458

>>954534
Никак, если модель или фронтенд не поддерживает зрение.

Аноним 20/11/24 Срд 18:21:48 № 954542 459

>>954540
бекенд*

Аноним 20/11/24 Срд 18:25:43 № 954544 460

>>954538
>Тут же хуже качество
Ты в /g походу не сидел, если думаешь что там лучше качество. Вы долбаебы везде одну и ту же хуйню обсуждаете, вне зависимости от языковых кодировок.

Аноним 20/11/24 Срд 18:26:00 № 954546 461

>>954540
llama 3.2 vision

Аноним 20/11/24 Срд 18:27:01 № 954547 462

>>954546
Бек нужен тоже с поддержкой. Не знаю, поддерживает ли кобольд, но насколько я знаю, то нет. Нужно лаву качать, или как там она называется.

Аноним 20/11/24 Срд 18:32:51 № 954554 463

Чем запустить на z8350 noavx 32 bit?

Аноним 20/11/24 Срд 18:38:42 № 954560 464

>>954527
достаточно 3060 12gb что бы запустить NemoMix-Unleashed-12B-Q6_K_L или 4060 (3050 за 25к) с 8gb что бы запустить NemoMix-Unleashed-12B-Q4_K_M и делов то.

Аноним 20/11/24 Срд 18:44:19 № 954562 465

>>954547
короче не вариант втыкать фото в ролеплей как часть мира(описания мира, событий итд)

Аноним 20/11/24 Срд 19:12:18 № 954583 466

>>954562
>короче не вариант втыкать фото в ролеплей как часть мира(описания мира, событий итд)
Воткни описание фото, полученное с помощью отдельной модели. Не так удобно, но по сути разницы никакой.

Аноним 20/11/24 Срд 19:19:52 № 954586 467

>>954467
Так это надо, чтобы он бомбанул сначала.

>>954547
>Нужно лаву качать
ЛЛава это часть библиотеки llama.cpp, так что можно скачать любой бэк, который использует возможности библиотеки. Например, в оллама, построенная поверх всё той же Жориной либы, работает с вижн моделями.

Аноним 20/11/24 Срд 19:20:15 № 954587 468

>>954534
>>954540
Было вроде дополнение к таверне, которое считывает промпт с DS картинки при отправке.

Аноним 20/11/24 Срд 19:25:26 № 954588 469

>>954583
>разницы никакой
лол, это еще какая разница. image->state vectors и image->caption->state vectors.
Это как сказать что тебе все равно увидеть фото или описание фото..

Аноним 20/11/24 Срд 19:26:48 № 954591 470

image.png 596Кб, 3280x1080

image.png 606Кб, 3280x1080

image.png 627Кб, 3280x1080

Провёл эксперимент. Попросил модель NemoMix-Unleashed-12B (Q6_K_L) создать карточку персонажа для RP, потом создал одного и того же персонажа с одинаковым описанием и приветствием у себя на компьютере и в character.ai и попытался пообщаться с ним на одну и туже тему. Смотрите результаты общения на русском и думайте.

Аноним 20/11/24 Срд 19:27:37 № 954592 471

image.png 625Кб, 3280x1080

>>954591
Сраный двач не позволяет больше 4 картинок одновременно отправлять

Аноним 20/11/24 Срд 19:29:34 № 954594 472

>>954591
Все посмотрел нихуя не понял

Аноним 20/11/24 Срд 19:30:43 № 954597 473

>>954594

>>953554

Аноним 20/11/24 Срд 19:31:48 № 954599 474

>>954591
>>954592
Разговор двух аутистов на всех пяти скринах. Но зато на родном русском, пынямать надо.

Аноним 20/11/24 Срд 19:33:09 № 954601 475

>>954484
Ух бля, правильно считает буквы в словах. Вот теперь то заживём! (нет)
>>954528
Пости по теме.
>>954544
>вне зависимости от языковых кодировок
Везде UTF8, чел.
>>954591
М... Макс?
>>954592
Плоти деньги

Аноним 20/11/24 Срд 19:34:09 № 954602 476

>>954599
>>954594
Удивительно, что вы ещё капчу решать как то умудряетесь, что бы мне это писать

Аноним 20/11/24 Срд 19:35:48 № 954603 477

>>954560
>достаточно 3060 12gb
А она может заработать на моей матери 2008 года с северным процессором 2007 года? PCI-E v2, DDR2. Драйвера стоят актуальные, но видеокарта 2013.

Смотрел на Intel A7, но там некий resizable bar нужен. Естественно я побаиваюсь покупать то, что может не запуститься на моём ПК, не хочу зря возиться.

А собирать современный ПК - это минимум 100к... А главное, зачем, если базовые потребности (кроме нейронок) может удовлетворить уже имеющийся?

Аноним 20/11/24 Срд 19:42:16 № 954608 478

>>954602
Зато я ммогу обрести счастье

Аноним 20/11/24 Срд 19:44:59 № 954611 479

>>954603
>А собирать современный ПК - это минимум 100к
Я видяху свою 3060 12gb в ДНС за 28к покупал 3-4 месяца назад.
Процессор 5600g с оперативкой 16 гигов (потом расширил до 42 гигов), матерью на b550 чипсете (ступил и переплатил за неё тысяч 5-6, мог бы спокойно брать и A520) и блок питания самый дешевый голдовый в ДНС целом мне обошлось ещё примерно в 35-40к
Считай. Но опять же. Нужен ещё монитор, клава и мышь. Хорошо что у меня уже всё это было.

Аноним 20/11/24 Срд 19:48:10 № 954614 480

>>954601
"Макс" это местный мем или ты шиз?

Аноним 20/11/24 Срд 19:51:38 № 954617 481

изображение.png 4Кб, 362x89

>>954602
Мы плотим.
>>954603
>PCI-E
Может.
>>954614
Мем из кончай треда.

Аноним 20/11/24 Срд 19:52:12 № 954618 482

>>954611
>5600g
>AMD
>всего 6 ядер
>DDR4 в 2024 году
Ну, вот видишь. Для современного нужно >100к.

Аноним 20/11/24 Срд 19:52:57 № 954619 483

Че там по визульным локалкам? Почему еще нет софта который бы периодически делал скриншот экрана и промптил бы мою локальную вайфу?

Аноним 20/11/24 Срд 20:00:54 № 954627 484

>>954618
Соглы. На моей DDDR4 ничего толком не запускается. Только моба игры, а что то помощнее сразу же упирается в оперативку и древний проц на AM4. Тупо не вывозит.

Аноним 20/11/24 Срд 20:17:21 № 954636 485

>>954591
>пропаганда извращений
Давай разберём по частям твои извращения:

1. Ты постишь на анонимном форуме в интернете. Нормальные люди сидят в соцсети/мессенджере с реальным ФИО и фото своего лица на аватаре, не стесняясь выражать личное мнение и делиться подробностями приватной жизни со всем миром.

2. Ты общаешься с компьютерной программой как с человеком. Нормальные люди используют их как инструменты для решения реальных проблем, а не имитации флирта с несуществующим персонажем.

3. Ты назвал персонажа "Цунэхиса Мицуру, цундере", видимо, используя стереотипы аниме. Нормальные люди, тем более взрослые (старше 18), не смотрят японские порномультики, предпочитая серьёзные художественные фильмы отечественного кино.

4. Ты описал персонажа как "цундере, вспыльчивую, грубую, склонную к садизму, целеустремлённую". Нормальные люди знают, что женщине место лишь на кухне у плиты и она всегда должна подчиняться; в этом заключается её роль в обществе с рождения.

И это не говоря о "школьной форме", что по нашим законам делает порнуху детской, а тебя - педофилом.

По всему складывается, что ты грязный извращенец, грёбаный развратник, хуже спидозного гея в канаве, который хотя бы траву щупает и с людьми общается лицом к лицу, а не через анонимные чаты, социально интегрирован в общество и не фантазирует о всяких вымышленных "аниме девочках в школьной форме".

Так чем там тебя "повестка" не устраивает, грязный извращенец? И почему твоя "заботливая цундере" должна быть бессердечной сукой, а не заботливой? Очевидно же, нейронка хорошо отыграла свою роль. Просто проблема в тебе, извращенец, а не в ней.

Аноним 20/11/24 Срд 20:43:36 № 954664 486

>>954636
>не стесняясь выражать личное мнение
Молчат там все в тряпочку. И только на АИБ о себе и твоей мамке можно узнать истину.
>грязный извращенец
Как будто что-то отрицательное.

Аноним 20/11/24 Срд 20:44:25 № 954666 487

>>954591
>Ей, какой твой любимый фильм?

Аноним 20/11/24 Срд 20:54:54 № 954686 488

>>954591
Покормлю, конечно, но смысл сравнивать с онлайн-сервисами, ты же не знаешь, что у них за моделька крутится (если вообще не идет переадресация на другие сервисы). Вот тебе 123B

Аноним 20/11/24 Срд 21:01:38 № 954696 489

>>954591
Творческий эксперимент - фик по Восхождению (не) в Тени совместно с NemoMix-Unleashed-12B-Q8_0 на русском в режиме дополнения текста.

Сетап сторирайтера правда на английском, чтобы токены сэкономить.

Правда, придётся, если хорошо пойдёт, суммарайзить и докидывать в контекст проиходившее в прошлых главах, ибо глава+метаданные в память влезут, а вот весь - нет.

Аноним 20/11/24 Срд 21:03:03 № 954701 490

>>954686
Неиронично, но у меня примерно такие же ответы по качеству на дефолтной немо. Если даже лардж так скучно отвечает, то это пиздец. К чему тогда вообще ций весь спор про русик?

Аноним 20/11/24 Срд 21:06:33 № 954706 491

>>954701
Дело было вечером, делать было нечего...
А у нас в квартире газ, а у вас?

Аноним 20/11/24 Срд 21:07:36 № 954708 492

>>954701
Ларж отвечает логично, хоть и не так цветасто, как порнотюны. А порнотюны по 3 раза трусы снимают.

Аноним 20/11/24 Срд 21:11:22 № 954710 493

>>954708
Надо признать что и анлишед и клиффхенгер на редкость адекватны на темпе 0.8 +/- 0.5

Аноним 20/11/24 Срд 21:12:14 № 954712 494

>>954710
Не знаю что это, но если это сетки меньше 70B, то это просто коупинг.

Аноним 20/11/24 Срд 21:15:30 № 954715 495

>>954712
>коупинг
Месье слишком много кушать... в смысле зажрались.

Аноним 20/11/24 Срд 21:17:49 № 954718 496

>>954712
То есть любая сетка меньше 70b работает хорошо - то это коупинг? А если 70b работает плохо, то это неправда? Лол.

Аноним 20/11/24 Срд 21:19:23 № 954719 497

>>954712
какое слово-то выдумал, ух, голова

Аноним 20/11/24 Срд 21:20:37 № 954723 498

>>954701
>>954708
Так это у меня порнотюн и есть, бегемот-магнум. Единственное, что мне не понравилось тут - это то, что в большинстве случаев она хочет посмеяться после курлыка, из 13 свайпов только один был такой сдержанный, что я выбрал на скрин, и один такой:
face_with_rolling_eyes: Ты серьезно? Это и есть твое "интересное" занятие? Она качает головой и встает из-за стола Ладно, я поняла. Ты не стоишь моего времени. Она собирается уходить.
С семплерами надо играться, ответы без явного смеха у меня с тепературой 3 пошли. Это на мелких моделях на десятую долю сдвинул и пошла шиза. Правда, у меня температура последним идет, но 6013425 вроде дефолтный порядок и есть.

Аноним 20/11/24 Срд 21:22:59 № 954727 499

>>954636
>Нормальные люди сидят в соцсети/мессенджере с реальным ФИО и фото своего лица на аватаре, не стесняясь выражать личное мнение
Вот только есть нюанс: мнение тщательно отфильтровывается, чтобы не было:
а) проблем с репутацией;
б) проблем с законом.
>предпочитая серьёзные художественные фильмы отечественного кино
Да чего скромничать, мог бы сразу про сериалы про ментов с НТВ и Соловьёва/Скабееву упомянуть, так сказать, с козырей пойти.

Аноним 20/11/24 Срд 21:36:05 № 954738 500

videoplayback ([...].mp4 485Кб, 640x352, 00:00:12

>>954636
Пишешь прямо как озлобленная моралфажная бабища которая мозг любит людям ебать, даже дочитывать не стал от уровня духоты

Аноним 20/11/24 Срд 21:50:54 № 954748 501

>>954603
> современный ПК - это минимум 100к
Проц 6к
Мать 6к
ОЗУ 7к
ССД 3к
БП 4к
Кулер 1к
Корпус 500 рублей авито
Ну, 27к
И 3060, да

Аноним 20/11/24 Срд 21:58:20 № 954752 502

>>954738
>Пишешь прямо как
Ты не уловил сарказм что ли? >>954591 делает вид, будто хочет поднять с колен "нормального" белого гетеросексуала, но при этом он сам не является "нормальным" примером для подражания.

Какой смысл беспокоиться о каких-то там геях, если ты сам ничуть не лучше них? Это просто лицемерие. Радуйся, что тебя не отправили в психушку за то, что ты с мультиками в своей голове разговариваешь...

По сути мы все здесь - меньшинство, и нас могут в любой момент объявить вне закона, пересажать или вообще массово казнить ради этой "защиты детей". Прецеденты с самоубийствами из-за ИИ уже были, поэтому лучше не строить из себя вот это вот всё.

Аноним 20/11/24 Срд 22:03:20 № 954755 503

>>954752
ебанутый, иди лечись.

Аноним 20/11/24 Срд 22:06:32 № 954756 504

>>954755
Лечиться всем придётся, когда запрещаторы решат запретить "опасный детям" ИИ ядерными бомбами.

Улавливаешь суть проблемы?

Аноним 20/11/24 Срд 22:09:22 № 954760 505

>>954756
Мой стелс-нож
Я...
Я...

Аноним 20/11/24 Срд 22:10:40 № 954761 506

>>954748
У тебя цены протухли. Нормальный проц минимум 13к, нормальная мать минимум 10к, ссд минимум 10к. И то это пк на год-два максимум, дальше станет куском мусора.

Аноним 20/11/24 Срд 22:12:51 № 954765 507

>>954715
Нормально.
>>954718
Вторую часть ты сам придумал, чтобы наложить самому себе в штаны. Поздравляю, у тебя это вышло.

Аноним 20/11/24 Срд 22:13:22 № 954766 508

>>954761
А что ненормального в самой дешевой мобо за 5к? Памить нельзя разгонять?

Аноним 20/11/24 Срд 22:18:29 № 954773 509

>>954766
Ну разгони, че тебе это даст? 2-3% прироста и +90 градусов на цепи питания? Проц всё равно будет скукоживать всю систему. Щас не 2017 год, ты не соберешь пк на долгосрок. Все разрабы плавно уже забили хуй на любую оптимизацию и дальше будет только хуже. Мы в эпохе генерации кадров и кривого говна на пятой урине.

Аноним 20/11/24 Срд 22:24:20 № 954775 510

>>954756

Аноним 20/11/24 Срд 22:26:25 № 954776 511

>>954773
а что мешает просто не покупать и не запускать такое говно?

Аноним 20/11/24 Срд 22:28:23 № 954777 512

>>954776
Не покупай, я тебя не заставляю. Только в таком случае и комп можно не покупать, если ты на нем нихуя запускать не собираешься.

Аноним 20/11/24 Срд 22:32:59 № 954780 513

>>954777
Комп в 2024 году нужен чтобы гонять на нем серьронки и мобильные порты от михуе, главное чтобы врам пабольши было

Аноним 20/11/24 Срд 22:33:47 № 954781 514

>>954777
Так я в первую очередь для нейросеток собирал + что бы попробовать новые игры. попробовал - не понравилось. Использую теперь в основном только для РП с нейросетями и генерации картинок

Аноним 20/11/24 Срд 22:37:46 № 954784 515

>>954748
Если денег нету то собирай на xeonе, проц+мать+память 32гб в 4 канале может выйти тысяч 12-15
Сможешь даже тупо на нем крутить нейронки, хоть и не быстро.
Ну как, если ддр4 2400 в 4 канале, даст тебе скорости памяти где то 55-65гб/с
Что вычисляя по всем известной формуле, даст тебе генерацию где то 4-6 токенов в секунду на той же 4км мистреле немо.
Там куча подводных и это не самый лучший выбор, но это дешево и сердито.
А еще если плата норм то и видеокарты можно подключать пачкой, благо линий псие там до жопы
Но человек экономящий на процессоре материнке и памяти, врятли будет покупать кучу относительно дорогих видеокарт и собирать из них нейросервер

Аноним 20/11/24 Срд 22:43:00 № 954788 516

>>954784
>Там куча подводных
Какие, например? Если брать готовый комплект мать + процессор(ы) + память, заявленные как "проверено, работает" у продавца где-нибудь на Яндексе?

Я присматривался, но так и не решился...

Аноним 20/11/24 Срд 22:44:12 № 954789 517

>>954784
>4-6 токенов в секунду
Эх, это больше моей скорости чтения...

Аноним 20/11/24 Срд 23:13:09 № 954804 518

Итс овер. Переката не будет. Мы останемся в этом треде навечно.

Аноним 20/11/24 Срд 23:15:36 № 954805 519

>>954591
>>954560
Немо соевая, но на это и существуют джейлюрейки, не?

Аноним 20/11/24 Срд 23:15:54 № 954807 520

>>954805
Блять ну вы поняли слово

ПЕРЕКАТ Аноним # OP 20/11/24 Срд 23:16:17 № 954808 521

ПЕРЕКАТ

>>954806 (OP)

ПЕРЕКАТ

>>954806 (OP)

ОП дрочил просто

Аноним 20/11/24 Срд 23:59:53 № 954849 522

>>954425
А толку? контекст-то будет на всех персов один и тот же. Разве что разные модели могут чуть более разно на него реагировать. Но промтом карточек под каждого перса этого эффекта добиться легче.