Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 519 91 92
Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №79 /llama/ Аноним 13/09/24 Птн 18:15:57 885509 1
Llama 1.png 818Кб, 630x900
630x900
Альфа от контек[...].png 121Кб, 3090x1830
3090x1830
KL-divergence s[...].jpg 223Кб, 1771x944
1771x944
Багованная P40.jpg 462Кб, 999x1156
999x1156
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>878677 (OP)
>>869674 (OP)
Аноним 13/09/24 Птн 18:18:26 885513 2
Анон, для этих нейронок какую карту надо? Выбираю между 4060 8 из магазина или 4070 12 из под полы.
Аноним 13/09/24 Птн 18:19:04 885515 3
image.png 102Кб, 1563x745
1563x745
>>885509 (OP)
На сцене новый участник gemma-2-9b-it-abliterated-Q4_K_L

Казалось бы, очищенный от сои, но по факту нет. И не знает, кто такие бляди.

Это был бы полный провал, если бы модель не написала код для змейки.

Модель соевая и немного туповатая, но код пишет, поэтому возможно для кодинга она подойдет. И только для кодинга, но надо сравнивать в более сложных задачах. Пройдено 2 теста из 4.

Большая проблема кодинга - нужно постоянно писать дальше, нужно поиграться с размерами контекста. Возможно это поможет.
Аноним 13/09/24 Птн 18:21:15 885517 4
>>885513
>Анон, для этих нейронок какую карту надо?
Не какую, а сколько штук 3090, лол.
Аноним 13/09/24 Птн 18:23:27 885520 5
Да, проверил, мини-магнум почему то стал говорить во время минета...
Аноним 13/09/24 Птн 18:46:05 885540 6
image.png 98Кб, 1440x528
1440x528
>>885515
Ну и для разнообразия, еще один партнер для спарринга
с текущим лидером >>885499 →, модель meta-llama-3.1-8b-instruct-abliterated.Q6_K

Модель знает, что такое горловая ёбля, но не знает, кто такие бляди. Соевой не является, но немного тупая.

Код пишет подробный, возможно это новый кандидат для кодинга, но вопросы за пределами сои она не всегда хорошо понимает, по тупости, а не по злому умыслу.
Аноним 13/09/24 Птн 18:52:45 885547 7
>>885521 →
короче говоря, если чел хочет 4 поколение ПиСиАй то ему что-то типа такого надо
https://www.ebay.com/itm/175685580161?_skw=epyc+7203&itmmeta=01J7P0QDETRDDS78FPZAGRX929&hash=item28e7ad3581:g:wwgAAOSwYE1kNVaj&itmprp=enc%3AAQAJAAAAwHoV3kP08IDx%2BKZ9MfhVJKliRJzg5rTVmOzb82TPtcE8i07L83Deg742C3nYsppX9olqKTecvwT7gKgzL%2Fztoa66jf%2Bs155ZZuw93vPFDXGWzIzVRANKipEgbqY8CAT9e5TtpZQv6OqquZm%2F9NtgQWaKOmHSqqO3LRfBQF3DjyxPxJchz%2FEzCTsWakD46LhRXcWH6vCNUvwXwuvKC%2FkBMHd0IStF2HJ1fiZaSZ8svR4%2Bi3UmjnsxTSSjacC0TjV%2F5g%3D%3D%7Ctkp%3ABk9SR8LX3cC9ZA&edge=1
если найти с 7203 то можно в косарь вложиться, с риперами +- то же самое будет по цене, те что еще могут чего-то дорого стоят...
Аноним 13/09/24 Птн 18:54:34 885548 8
>>885540
Почему у тебя 8б с Q6, а 13б с Q3?
Аноним 13/09/24 Птн 18:55:15 885550 9
а подскажите, в чем может быть прикол, что чурез бугу нормальные ответы дает, а по API периодически фигня - это с контекстом связано? или инстракшен кард?

(то пытаюсь настроить систему тестирования моделек, чтобы не гонять вручную запросы, но пока по апи периодически косяки лютые)
Аноним 13/09/24 Птн 18:57:14 885554 10
>>885550
Есть такое, ответы с апи отличаются от встроенного чата угабуги, как пофиксить я не знаю. У кого-то нет проблем с этим.
Аноним 13/09/24 Птн 19:05:36 885559 11
>>885550
А ты включи --verbose и посмотри, что уба отправляет модели при запросах через api и через встроенный чат. Сюрприз будет.
Аноним 13/09/24 Птн 19:07:08 885562 12
>>885517
Почитал шапку
>от 12 до 36Гб памяти
Эта память должна быть на видео карте или я могу использовать свои 32гб ддр4 оперативной?
Аноним 13/09/24 Птн 19:07:46 885563 13
>>885559
спасибо анонче, гляну...
выходит через АПИ нельзя сделать по людски, чтоль?
Аноним 13/09/24 Птн 19:08:32 885564 14
>>885562
можеш конечно, но тогда ты на процессоре запускать будеш, и это медленно будет довольно...
Аноним 13/09/24 Птн 19:08:37 885565 15
>>885562
ОЗУ не нужна, на ней ничего не будет работать, особенно на ддр4.
Аноним 13/09/24 Птн 19:08:48 885566 16
>>885562
Читай теперь и вики.
Аноним 13/09/24 Птн 19:10:40 885567 17
>>885431 →
> где тут вобще про tr4 речь шла?
> есть старые материнки под Threadripper на x399 чипсете с сокетом AM4, там до четырех честных слотов PCIe 16x единственное что версии 3.0
И пост с исрпавлением очепятки про tr4, в шары долбишься?
> даже в твоем 1920х
Боже упаси в это говно вмазаться
> 64 линии
> PCI-Express: Gen 3, 60 Lanes (CPU only)
Порошок уходи!
И даже если бы их реально было 64 то из них штук 8 выделили бы под пару ssd и остальные поделили чтобы сделать больше слотов.
> тредриперы "огрызки"
Они странные, первые под tr4 параша, которую убили свои же десктопы. После них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть.
>>885446 →
> И всё это добро обходится тебе дешевле одной 4090.
Не забудь добавить что каждый из процов будет стоит как видеокарта, могут быть нюансы с нумой. Но, если есть чем загрузить, вариант вкусный 100%.
>>885533 →
Именно, проследуй нахуй на среддит читать нытье бедолаг, что пытаются завести жору на теслах с двухголовыми некрозеонами и получают сильную просадку скорости в зависимости от того какие из карточек задействованы. В трипаке и амудах если че отдельных нод, как в многосоккетных, нет.
>>885550
Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров.
Аноним 13/09/24 Птн 19:13:13 885569 18
>>885563
А там наоборот. Через апи всё идёт, как положено. А через чат - как уба захотел.
Аноним 13/09/24 Птн 19:19:16 885580 19
>>885564
>>885566
Прочитал вики. Не понял работают ли матрицы квантования для актуальных моделей.
Как аноны запускают модели на 32гб +?
Аноним 13/09/24 Птн 19:20:43 885582 20
>>885548
Сначала качал по советам из шапки, что хотел, скачалась модель meta-llama-3.1-8b-instruct-abliterated.Q6_K

Затем по совету анона >>885391 → качал модели на 5-6 гигов, чтобы хватило на контекст, как итог скачалась модель Mistral-Nemo-Instruct-2407-abliterated.Q3_K_S

Потом сравнивал лучшую модель для своего устройства >>885371 → по критериям >>885390 →, первичный отсев, так сказать
Аноним 13/09/24 Птн 19:27:50 885586 21
image.png 9Кб, 296x426
296x426
image.png 9Кб, 288x427
288x427
image.png 8Кб, 290x441
290x441
>>885582
Ну есть такое, да 5-6 не весят Q4+ Сколько у тебя т\с? У меня 7-9, после падает до ~5
Аноним 13/09/24 Птн 19:29:59 885589 22
изображение.png 5Кб, 215x108
215x108
Аноним 13/09/24 Птн 19:31:18 885590 23
image.png 44Кб, 834x448
834x448
>>885589
Хах, я че знаю? Это с проводника
Аноним 13/09/24 Птн 19:32:58 885592 24
image.png 66Кб, 1025x835
1025x835
>>885586
> Сколько у тебя т\с?
Аноним 13/09/24 Птн 19:33:16 885593 25
>>885567
>каждый из процов будет стоит как видеокарта
Два 4410Y на штуку зелёных и доска на сдачу. Ладно, по цене одной 4090 всё удовольствие.
Аноним 13/09/24 Птн 19:34:34 885596 26
>>885592
И куда тут смотреть? Цифирки дают чистое значение? Или
это с запятыми? т.е. 666 т/с или же 6,66

Алсо, это бенчмарк от кобольда что ли?
Аноним 13/09/24 Птн 19:46:24 885613 27
image.png 14Кб, 459x321
459x321
>>885596
> И куда тут смотреть?
Ну вот например

> это бенчмарк от кобольда что ли
Да
Аноним 13/09/24 Птн 19:57:22 885619 28
>>885565
> 64 линии
> PCI-Express: Gen 3, 60 Lanes (CPU only)
ну значит гугл звиздит, а на сайте АМД вообще нет спеки этой похоже...

>осле них те что под trx40 имеют неадекватный прайс что есть смысл на эпики или интел смотреть.
так и я о том, но, предпоследнее поколение железа, нам ведь PCIE4 надо, не может дешевым быть... с тройкой цена сразу падает... а так,только страдать...
Аноним 13/09/24 Птн 19:59:33 885624 29
>>885567
>Скорее всего ты просто криво юзаешь апи. Для чата необходимо сначала правильно настроить формат промта и прочее. Для текст комплишн правильно оформить все самому и уже передать. Плюс, параметры семплеров.
а есть где-то простые гайды по АПИ?
тоесть выходит все то что в буге настраиваеш на АПИ не влияет? ну окромя параметрова загрузки модели... ? и надо все подстраивать в программе юзающей API?
Аноним 13/09/24 Птн 20:02:13 885628 30
image.png 52Кб, 1312x466
1312x466
>>885540
Составил таблицу текущих результатов тестов.

В тесте на сою следует различать нуль и минус один. В первом случае модель неправильно ответила на вопрос, потому что она тупая, но не соевая. Во втором случае отказывается отвечать, что хуже. По моим критериям, лучше в некоторых вопросах быть тупой моделью, чем соевой. Тупость - простительна, соевость - нет.

Предлагайте свои модели и критерии отбора.
Аноним 13/09/24 Птн 20:21:20 885660 31
>>885628
>В тесте на сою следует различать нуль и минус один.
Спасибо что не ноль и минус ноль.
Аноним 13/09/24 Птн 20:26:15 885670 32
image.png 94Кб, 1480x536
1480x536
Аноним 13/09/24 Птн 20:30:13 885678 33
>>885670
Ну а хули ты хотел от модели, которую обучали на синтетических, стерильных данных? Она и слово то такого никогда не видела.
Аноним 13/09/24 Птн 20:45:32 885698 34
>>885670
Ля, аж запах ели почувствовал после такого поста, такие модели сразу отправляются в мусорку, если она не может нормальный связный текст выдавать, с такой даже кумерством заняться проблемно будет, похоже что она русского почти не знает...
Аноним 13/09/24 Птн 20:49:47 885702 35
1632952984185.webp 49Кб, 862x602
862x602
>>885567
> вариант вкусный 100%
Топовые варианты на Эпиках всего в 3 раза быстрее игровой DDR5. Этот кал даже хуже тесл.
Аноним 13/09/24 Птн 20:57:54 885714 36
>>885593
Ультразатычка, но в целом почему бы и нет, норм вариант.
>>885624
> а есть где-то простые гайды по АПИ?
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API и в самом коде глянь, там все оче просто.
> тоесть выходит все то что в буге настраиваеш на АПИ не влияет?
А хуй знает, обычно все параметры передаются, непонятно что именно оно юзает при отсутствии данных, какой-то дефолт или выставленное в вебуи.
> окромя параметрова загрузки модели
Через апи можно управлять загрузкой новых моделей.
> и надо все подстраивать в программе юзающей API
Типа того, обычно используют тексткомплишн чтобы сделать себе желаемый правильный формат промта, и с каждым запросом передают основные параметры для генерации.
>>885628
Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!) с неведомым форматом и всратым промтом, какой вообще с этом смысл? Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети.
>>885702
Можно подумать что твой пикрел кал лучше тесел, и забываешь что там в сумме 16 каналов вместо 12 за меньшую цену.
Аноним 13/09/24 Птн 21:03:22 885719 37
>>885714
>Вот вы тут какие-то выводы делаете, но тестируете в кобольде
Вот вы тут выводы какие-то делаете, а ML щики вы не настоящие, а кобольд на порнхабе скачали
Аноним 13/09/24 Птн 21:04:05 885720 38
>>885714
> Вот вы тут какие-то выводы делаете, но тестируете в кобольде (!)
А что с ним не так? И где надо тестировать?

> с неведомым форматом и всратым промтом, какой вообще с этом смысл?
А что не так с промтом? Простые житейские вопросы, чтобы быстро обнаружить явные косяки.

> Что-то уровня рассуждений об эргономике перфоратора отбивая им чисто вручную без подключения к сети.
Чисто прикладной тест, чтобы быстро отбраковать заведомо хуевые модельки для моих задач.
Аноним 13/09/24 Птн 21:05:05 885724 39
>>885719
>>885714
забыл, кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли, такое чувство что кобольд в некоторых моментах криво настроен.
Аноним 13/09/24 Птн 21:06:27 885726 40
>>885720
а ты убедился, что он модельки корректно вообще гоняет? потому что из за этого вообще может бред нести например...
Аноним 13/09/24 Птн 21:08:56 885730 41
>>885726
И как это проверить?
Аноним 13/09/24 Птн 21:10:05 885733 42
>>885724
>кобольд - реально дичь какая-то, когда на угу перешел - значительно лучше ответы пошли
А ты его что - как фронтенд использовал? Он для этого не предназначен, даром что возможность есть. Кобольд ценен другим.
Аноним 13/09/24 Птн 21:30:22 885765 43
>>885733
Какой пресет на магнум для таверны?
Аноним 13/09/24 Птн 21:34:09 885771 44
>>885765
>Какой пресет на магнум для таверны?
Могу рекомендовать Миростат.
Аноним 13/09/24 Птн 21:37:04 885773 45
>>885771
Это который MiroGold, MiroSilver, MiroBronze?
Аноним 13/09/24 Птн 21:48:39 885783 46
>>885773
>Это который MiroGold, MiroSilver, MiroBronze?
У меня там стоит обычный Mirostat. Возможно со старых версий остался. Пробуй все, чего бы и нет.
Аноним 13/09/24 Птн 21:59:23 885787 47
image.png 143Кб, 485x779
485x779
>>885783
В новых версиях, чего-то нет миростата. Скинь как выглядит он.
Аноним 13/09/24 Птн 22:03:22 885789 48
>>885787
>путает пресеты и темплейты
Шапку с вики не читал, или в ней не достаточно информации?
Аноним 13/09/24 Птн 22:13:25 885797 49
image.png 82Кб, 1567x421
1567x421
Страшно?
Аноним 13/09/24 Птн 22:16:53 885802 50
>>885789
Вы друг друга стоите, тоже в прошлом треде говорил кто-то про миростат. Имел ввиду не семплеры, а ты теперь что имеешь?

Где у тебя в вики прописано про Template/Пресеты? Покажи если обращаешься к ней.
Аноним 13/09/24 Птн 22:18:14 885804 51
>>885787
>В новых версиях, чего-то нет миростата. Скинь как выглядит он.
Это вообще в другой вкладке, там где "настройка ответа ИИ". Не найдёшь там Миростата - ставь Миростат Голд, судя по настройкам разница небольшая.
Аноним 13/09/24 Птн 22:19:28 885806 52
>>885802
>Имел ввиду не семплеры
Семплеры-семплеры. И тогда семплеры и сейчас семплеры :)
Аноним 13/09/24 Птн 22:21:17 885807 53
>>885802
>Где у тебя в вики прописано про Template/Пресеты?
Я тебя и спрашиваю, достаточно ли там инфы или нет. Видимо ответ нет.
Аноним 13/09/24 Птн 22:22:04 885809 54
>>885804
>>885806
Так и так миростат лупиться на магнуме, или может настройки семплера разные? Я чисто пробовал миростат, без голд/бронз и прочего.
Аноним 13/09/24 Птн 22:24:36 885812 55
>>885807
Если недостаточно, добавь. В Силли дефолтные пресеты нормальные.
Аноним 13/09/24 Птн 22:26:43 885815 56
>>885719
>>885724
>>885720
Кобольд вовсе не плох, но это довольно минималистичный инструмент, который требует настройки и имеет ограниченный функционал. С убой может быть действительно проще, ведь там и полные семплеры и большинство форматов есть по дефолту.
> А что не так с промтом?
Системный промт у тебя какой? Если "ты безопасный ассистент" или подобное то и рассчитывать не на что, модель буквально будет делать то что ты просишь, а ты носом воротишь.
>>885726
Ну да, тут еще ггуфоприколы могут быть.
Аноним 13/09/24 Птн 22:36:55 885824 57
image.png 51Кб, 748x598
748x598
>>885815
> Системный промт у тебя какой?
Ну например для мистраля
Аноним 13/09/24 Птн 22:43:06 885830 58
>>885809
>Так и так миростат лупиться на магнуме, или может настройки семплера разные? Я чисто пробовал миростат, без голд/бронз и прочего.
От дефолтного Миростата я только поднял температуру (но это дело вкуса и на лупы не должно влиять) и поставил "Штраф за повтор" в 1,1 при "Окне для штрафов за повтор" = 2048. Этого оказалось достаточно. Правда у меня Магнум 123В.
Аноним 13/09/24 Птн 22:47:59 885837 59
>>885824
{{char}} должен отвечать только на русском языке!
"Пиши на русском" - это уж слишком минималистично :)
Аноним 13/09/24 Птн 22:49:47 885842 60
>>885830
Получше стало, лупов или нет или их кол-во уменьшилось. Хотя я до сих пор играюсь с семплерами, не могу найти какой-то один.

>>885837
У меня в Силли в заметках автора такое - Все взаимодействия и ответы должны быть на русском языке. Пожалуйста, используй грамматически правильный и ясный русский язык. Если нужно ты можешь использовать ненормативную лексику.
Аноним 13/09/24 Птн 23:08:59 885873 61
>>885824
Ну ты содомит, чуть с кресла не пезднулся. Ну удачи с такой херней, хули.
Аноним 13/09/24 Птн 23:41:40 885906 62
Немного с АПИ разобрался, оказалось проблема была на стороне "клиентской части", которая не хотела все параметры передавать... но все равно, разница в генерациях есть, может потому что контекста нет при передаче через АПИ, потому что разницы я не вижу уже...

и так, погоняв немного Yi-Coder 1,5 потенциал в нем всеже вижу, лол, аж самому смешно, потенциал в полторашке, да, не всегда правильно, но базовые штуки пишет, типа сортировок, слияния файлов итд...
Аноним 13/09/24 Птн 23:44:41 885909 63
Какую базу посоветуете для 10 гб врам (3080) для рп? Есть еще 32 гб оперативы 6000
Аноним 14/09/24 Суб 00:27:26 885956 64
image.png 165Кб, 1886x467
1886x467
попробовал я этот ваш магнум 123б.
Ебать конечно она шпарит, прям как настоящий человек.
Тян официально больше не нужны.

альсо братишкам с темлами привет, остальным соболезную.
Аноним 14/09/24 Суб 00:27:47 885958 65
как блять заебло
пример реал ситуации
посылают в магаз за хлебом
тдешь
покупаешь
возвращаешься

нейронка же мгновенно забывает недавние цели что ты пришел в магаз не на вечность засовывать булки в жопы - а просто сделать чек и сьебать.
нейронка вечно отвливается на какуюто фигню и забывает что это было уточнение истории. и вобще то историю надо двгать дальше.
что сделать чтоб сеть не вела себя так тупо?
надеюсь понятно обьяснил
Аноним 14/09/24 Суб 00:42:35 885972 66
>>885958
>что сделать чтоб сеть не вела себя так тупо?
Чем больше модель - тем меньше ошибок;
Делай большой контекст;
Работай на английском (с переводчиком в обе стороны);
Реролль, если генерит совсем не то;
Если пошло совсем не туда - стирай последние посты и подсказывай;
Делай ручной суммарайз;
Пробуй разные модели и файнтюны последних поколений;
Всегда помни, что модель несовершенна.
Аноним 14/09/24 Суб 00:45:16 885977 67
>>885956
>попробовал я этот ваш магнум 123б.
А теперь попробуй Luminum-123B. Умнее и даже немного быстрее.
Аноним 14/09/24 Суб 00:54:40 885981 68
>>885972
>Работай на английском (с переводчиком в обе стороны);
лол а разве не все так по умолчанию делают?
>Делай большой контекст
хуй найдешь где он больше
>Реролль, если генерит совсем не то;
ваще не решение
>Пробуй разные модели и файнтюны последних поколений;
проблему вижу пару лет на всех моделях . просто где то везет а где то нет но я уверен что причина проблема есть везде
> стирай последние посты и подсказывай
так можно и до рп в блокноте дайти
Аноним 14/09/24 Суб 00:56:45 885986 69
>>885981
Хорошо, тогда ещё один совет: найди индюка и еби мозги ему :) А тут не надо. Все живут как-то, справляются.
Аноним 14/09/24 Суб 01:01:08 885990 70
>>885956
Вы на чем их гоняете?
Аноним 14/09/24 Суб 01:03:22 885992 71
>>885981
лол а разве не все так по умолчанию делают?
так а нафига ллмки если к ним еще гугель транслейт прикручивать
модель должна быть универсальной и сама переводить хорошо
Аноним 14/09/24 Суб 01:04:05 885994 72
>>885990
я на трех теслах.
Еще четвертая лежит, но воткнуть некуда и с охладом проблемы.
Карты которые в корпусе на материнских pcie жарче на 10+ градусов чем та, которая снаружи на райзере висит. А это не шутки, когда речь про температуры около 60. И это в жоре когда контекст скачет с карты на карту. СД утилизирует так, что там доменная печь образуется.
Заказал себе мать BTC79x5v1.0, сижу жду. Надеюсь на ней есть above 4g.
Аноним 14/09/24 Суб 01:05:43 886000 73
>>885992
чо бля? а если все модели плохи в русском мне с блокнотиком сидеть вместо сеток?
Аноним 14/09/24 Суб 01:08:24 886002 74
>>886000
в чем проблема сделать машину времени и год назад купить себе 4 теслы по цене пиццы с школьной столовой
Аноним 14/09/24 Суб 01:09:56 886003 75
>>886000
та РПш как хочеш, хоть через Промт переводиОлды здесь?, я говорю что для многих тасков окромя кумерства нативная поддержка языка необходимость практически, более того гугл плохо переводит иногда...
Аноним 14/09/24 Суб 01:10:01 886004 76
>>886002
чтобы что?
к чему это блять?
Аноним 14/09/24 Суб 01:11:33 886006 77
>>886003
и чо ты предлагаешь - юзать русик который естесно во всем хуже енглиша? мне не сложно копипастить с другой вкладки
Аноним 14/09/24 Суб 01:11:34 886007 78
>>886004
Чтобы собрать майнинг ферму и гонять Ламу самую жирную... которая нормально работает со всеми языками, и минимум глюков содержит...
Аноним 14/09/24 Суб 01:12:37 886008 79
>>886004
заходит как-то школьник в ЛЛМ тред, снимает ботинок с ноги и каблуком хлопнув по трибуне спрашивает "а хули вы все тут собрались? нахуя это всё?"
Аноним 14/09/24 Суб 01:13:35 886009 80
>>886007
причем тут глюки ты меня слышиш вобще?
сетки не защищены от забывания что из уточнения и отвлечения надо возвращатся в основную конву
а нее как у толстово встретил дерево и описывает его на 100 страниц
Аноним 14/09/24 Суб 01:14:21 886011 81
>>886008
а зачем ты ботинки с каблуками носиш?
Аноним 14/09/24 Суб 01:14:24 886012 82
>>886002
За сколько тогда можно было купить теслу?
Аноним 14/09/24 Суб 01:15:53 886014 83
>>886012
зависит от того, какое "тогда" ты имеешь в виду
Я слышал, что год назад то-то и за 13к брал.
>>886011
ну точно школьник, не понял отсылки...
слыш, борда 18+
Аноним 14/09/24 Суб 01:17:01 886016 84
>>886014
И смотря какую теслу, я как понимаю в мое "тогда" за 13к, точно уж не 12гиговую.
Аноним 14/09/24 Суб 01:17:10 886017 85
>>886006
Ничего тебе не предлагают тут, ты еще и по вкладкам махаеш? жесть... Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь?, если на инглише результат устраивает работай на инглише, внезапно можно и не переводить, инглиш не корейский, надо знать,

>>886009
ну так тут вооббще влияние языка минимальное, это проблема сетки как таковой, вожможно правка контекста подлечивать может такую проблему...
Аноним 14/09/24 Суб 01:18:27 886019 86
>>886016
сейчас бы теслу брать не 24 гб...
Аноним 14/09/24 Суб 01:26:16 886022 87
>>886016
народная тесла треда только одна - P40.
>>886017
>Куда вы этот ролплей примазываете? сириосли днями сидите с нейронкой общаетесь?
хороший вопрос. Да, обычно примазывать его некуда, кроме кума радугой по вечерам.
Но я иногда спрашиваю её по SRE тематике. Внезапно в 70b+ сетках открывается емерджентное свойство рассуждать логически при скудных вводных данных и плохой изученности проблемы. Сложно описать. Типа, обычная gemma 23b тебе конечно выдаст ответ, но он будет как сборник ответов со стековерфлоу. В то время, как 70b+ может выдать какой-то инсайт.
Ну, а еще мне сетка норм по диете и питанию разложила. И сразу с препаратами даже, а не просто "занимайся больше и жри меньше". Их плюс в том, что они по знаниям дохуя широкие.
Аноним 14/09/24 Суб 01:45:50 886027 88
.png 33Кб, 1461x308
1461x308
.png 5Кб, 751x32
751x32
>>886012
Моя лучшая покупка за последний год.
Аноним 14/09/24 Суб 01:59:39 886033 89
А производительность у теслы какая? Какая сопоставимая видимокарта
Аноним 14/09/24 Суб 02:51:51 886050 90
>>885994
> на трех теслах
Че там по скоростям?
> когда речь про температуры около 60
Это смешная температура.
> BTC79x5v1.0
Ща набегут засрут что там линий недостаточно.
>>886002
Хорош, всхрюкнул
>>886008
А она ему как раз.
Аноним 14/09/24 Суб 03:22:40 886062 91
>>886050
> > BTC79x5v1.0
> Ща набегут засрут что там линий недостаточно.
Ее бы какими-нибудь p102 на фулл забить, лол, вот это был бы потешный днищеконфиг. Или еще лучше ту восьмислотовую йобу вместе с дешевым "майнерским" бп. Я бы на такое посмотрел...
Аноним 14/09/24 Суб 06:50:26 886099 92
Аноним 14/09/24 Суб 07:23:47 886104 93
>>885956
Как ты сделал такую двачеоболочку? я что-то пропустил?
Аноним 14/09/24 Суб 07:29:04 886107 94
>>885981
Эти проблемы отчасти можно решить скриптами, задавая модели разные промпты на разные ситуации, заставляя её генерить себе "план" и включая его в промпт и т.д.
Анон в позапрошлом треде скидывал методику >>868995 →
Всё хочу попробовать заняться, но некогда...
Аноним 14/09/24 Суб 07:47:46 886116 95
>>886099
Да, за Магнумами надо следить.
Добавил в список, особенно 27В. Для меня эта Гемма стала базовой локальной моделью и наконец-то к ней вышло что-то кроме поломанного БигТайгера это надо затестить.

>куча моделей пачками повыходили чуть ли не каждый день
А что ещё?
Аноним 14/09/24 Суб 07:53:34 886117 96
111.PNG 36Кб, 986x519
986x519
222.PNG 29Кб, 570x596
570x596
>>885509 (OP)
Аноны, подскажите что за хуйня. Загрузка кобальта стопорится на этом этапе и потом очень очень долго ничего не загружается, даже мелкие модели. Причём если один раз эта хуйня прогрузится, то потом будет запускаться моментально. Предположу что проблема возникла после версии с автоопределением кол-ва слоёв на видимокарту, но даже если выставлять своё значение или 0, или вообще использовать нокуда, то ситуация аналогичная.
Что это за хуйня и как победить?
И куда кобольт пишет свои конфиги, в appdata ничего связанного с ним нет?
Версия 1.74.
Аноним 14/09/24 Суб 08:35:03 886134 97
Аноним 14/09/24 Суб 08:36:36 886135 98
>>886117
Попробуй просто подождать подольше, у меня свеже-скачанный кобальд при первой загрузке модели может тупить минуту+ на этом же этапе.
Аноним 14/09/24 Суб 09:26:22 886162 99
>>886117
Попробуй CU12 версию
Аноним 14/09/24 Суб 09:26:40 886164 100
Аноним 14/09/24 Суб 09:31:01 886167 101
Аноним 14/09/24 Суб 09:35:20 886170 102
456.PNG 32Кб, 990x522
990x522
Аноним 14/09/24 Суб 10:39:39 886210 103
>>886014
>ну точно школьник, не понял отсылки...

Ну про никитку отсылка совсем древняя, тут пенсионеры не все вспомнят...
Аноним 14/09/24 Суб 10:43:13 886214 104
>>886022
к 70b, 123b вопросов нет, вопрос куда столько народу крутит 10 и меньше, и есть ли на них жизнь... я понимаю конечно что локальная гопота это круто, но только если результат практически сопоставим, а не вычищать тексты после локалки 3 дня...
Аноним 14/09/24 Суб 10:44:44 886215 105
>>886033
1080 конечно... да она тугая для нейронок, по современным меркам, но ведь 24 гб,
Аноним 14/09/24 Суб 10:46:44 886217 106
>>886050
>заходит как-то школьник в ЛЛМ тред
и покупает 660ti
>А она ему как раз.
Аноним 14/09/24 Суб 10:49:54 886218 107
>>886062
так сразу ферму купить на 102х норм тема будет, почти... не знаю как 102, но 104 дешевые довольно, по цене выгоднее теслы, но они ж жрать будут электрики капец...
ну и на тесле можно гонять СД в высоком разрешении и с контролнетами
Аноним 14/09/24 Суб 10:52:56 886219 108
Аноним 14/09/24 Суб 10:54:40 886220 109
а кто подскажет по тренировке лор, как происходит процесс и главное сколько памяти надо на такое чудо?
Аноним 14/09/24 Суб 11:19:49 886233 110
>>886011
Хочет быть выше, карлан же.
>>886019
P100 по идее тоже интересна, HMB память же, ебёт всё кроме 3090.
>>886050
>Ща набегут засрут что там линий недостаточно.
Линий там достаточно, 40 штук же. А вот одна плашка это конечно лол.
>>886099
>Да и вообще куча моделей пачками повыходили чуть ли не каждый день
Уже два года так живём. Иногда бывают мирные периоды затишья, но выходит новая база, и вот куча шизомержей.
>>886220
>сколько памяти надо на такое чудо
Чем больше, тем лучше. Без 24 гиг лучше не соваться.
Аноним 14/09/24 Суб 11:22:00 886236 111
>>886233
а были извращуги пробовавшие на цп тренить лоры? или люди столько не живут?
Аноним 14/09/24 Суб 11:42:34 886242 112
хм, интересный момент, судя по калькулятору https://rahulschand.github.io/gpu_poor/, 410м модельку можно полностью тренировать на одной видяхе, кто-то пробовал такое делать?
Аноним 14/09/24 Суб 11:49:14 886246 113
>>886236
>или люди столько не живут
Yep.
>>886242
>полностью тренировать на одной видяхе, кто-то пробовал такое делать
Пробовал. Там по времени всё равно дохуя выходит, а я не готов ждать результата неделю. Поэтому у меня были недотрейненные огрызки. Можешь задавать свои ответы.
Аноним 14/09/24 Суб 11:57:25 886251 114
>>886242
Сайт ебанутый, ты линком не ошибся?
Аноним 14/09/24 Суб 12:16:42 886271 115
>>886050
>Че там по скоростям?
по скоростям жопа, но ради качества ответов я могу это потерпеть.
Для порнорп юзаю сетку поменьше - magnum-72b-v1-Q5_K_M. У неё достаточная скорость генерации, чтобы не ждать прям по буквам пока сеть рожает слова.
>Это смешная температура.
смешная? Ну разогрей карту до 60 и попробуй подержать руку на черной металлической пластине на бэке карты.
Термическую усталость материалов никто не отменял, а карты на секундочку 16 года выпуска. Их и до нас уже хорошо прожарили.
>Ща набегут засрут что там линий недостаточно.
для жоры достаточно x1.
Я экспериментально проверил как работает использование нескольких карт.
Жора кладет одинаковую программу и разыне куски модели во все карты и между ними перекидывается при выполнении небольшой объем данных. Настолько небольшой, что скоростью их передачи можно пренебречь. x16 или x1 - не важно, это не является батлнеком при генерации. Батлнек - работа с самой моделью, она не параллелится.
По сути работа на трех картах по 24 гб с тремя чипами равноценна работе на одной карте с 72 гб и при росте объема модели медленнее она начинает генерировать только потому, что чип в картах слабый и старый.
>BTC79x5v1.0
вообще я именно её взял не из-за линий (хотя там в комплекте проц на 40 линий и написано что на все порты подается x8), а из-за того, что это удобный формфактор. Другие такие платы излишне длинные.
>>886104
просто добавил это в чара
> Она знает о существовании интернета, давно сидит на имиджбордах и умеет троллить, не боится колко выражаться для красоты речи.
>>886214
>куда столько народу крутит 10 и меньше
ну так там и теслы не нужны. Люди просто пробуют. Я тоже сначала гонял мелкую модель на 3070 до покупки тесел. порно рп на них конечно уровня "я тебя ебу, ты меня ебешь, ах", но все-равно новые ощущения.
>>886218
>СД в высоком разрешении
только в рамках одной карты к сожалению. Я не нашел способа использовать память всех трех карт под одну задачу. Есть мультидифьюжн, но он параллелит генерацию мелких картинок, а не размазывает генерацию одной большой картинки на все карты. И то это в half режиме. Если выставить --no-half - там сразу 10 гигабайт от карты съедается просто при загрузке модели. fullhd при ренерации без апскейла - это потолок, да и апскейл тоже падать будет по cuda oom если больше чем x2.
И апскейлеры тоже не умеют апскейлить одну картинку с помощью трех карт.
Аноним 14/09/24 Суб 12:30:53 886275 116
>>886099
для моей 3060 12gb это не актуально. Либо слишком ужатая до уровня даун модель, либо 1,5 токена в секунду + по 10 секунд ждать прогрузки каждого 512 контекста.
Аноним 14/09/24 Суб 12:31:33 886276 117
Считает ли SillyTavern токены или просто буквы? В метадате моделей написано что есть токен?
Аноним 14/09/24 Суб 12:34:52 886278 118
>>886246
Можешь задавать свои ответы.

подкинь тогда где почитать как вкатится в такую содомию, вцелом то вижу задачу зафайнтюнить на конкретную тему, есть подозрения что 410 справится с таким
Аноним 14/09/24 Суб 12:38:03 886281 119
>>886271
>но все-равно новые ощущения
я когда-то в анонимном чате так по рпшил, прикольно, но ощущение проёбаного времени, даже ютубчик позалипать менее угнетающе звучит
Аноним 14/09/24 Суб 12:40:06 886284 120
>>886275
хуй знает, как вообще люди без тесел живут, господи... 12 гигабайт - для него слишком много. Бедный парень.
Аноним 14/09/24 Суб 12:41:17 886287 121
>>886271
по СД то понятно, никто и не просит от нее паралелиться, и потому тесла и выгодна, что 24 это в три раза больше чем 8, а 8 это совсем притык, а если видосы перерисовывать так там надо шустро, и желательно хотяб 720p а не 320*240
Аноним 14/09/24 Суб 12:42:23 886289 122
>>886287
> никто и не просит от нее паралелиться
буквально я. Я прошу от неё параллелиться и использовать всю память всех карт.
Блять....
Аноним 14/09/24 Суб 12:48:25 886293 123
>>886284
так тут проблема в том, что оно как бы не особо выгодно, купляеш одну теслу - и как лох гоняеш 30b модельки, покупаеш пачку тесел, и.и.и. есть шанс запустить жирную модельку на хреновой скорости, но за эти деньги можно на несколько лет подписку на гопоту купить и работать как белый господин... короче говоря это для энтузиастов, которым гонять самому интересно, а не рабочий иструмент максимально выгодно нужен...

>>886289
хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная......

Лол, короче вспомнил, как по приколу попробовал проходя какой-то курс по нейронкам на основе сверточной натренированной на класификацию картинок посчитать градиенты при класификации рандомного шума и получить с него картинку - вышел психодел лютый)
Аноним 14/09/24 Суб 12:59:15 886303 124
>>886293
>подписку на гопоту купить
щас бы платить выблядкам, продавшим свою жопу майкрософту и предавшим принципы opensource коммьюнити, ага
Аноним 14/09/24 Суб 14:23:57 886382 125
>>886293
>подписку на гопоту купить
Вот, кстати, интересная хуйня. До первой теслы мне гопота умной казалась. Я тогда гонял 20b франкенштейнов из второй лламы и гопота выгодно смотрелась на их фоне. После первой теслы, появления в моей жизни коммандеров, гемм, третьих ллам - всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью.
Аноним 14/09/24 Суб 14:58:04 886417 126
>>886382
С коммандером и геммой просто смешно 4о сравнивать. Лама 3 тоже еще далековато, если смотреть не на красивые графики
Аноним 14/09/24 Суб 15:07:20 886426 127
>>886382
>всё в корне изменилось и гопота вызывает только раздражение своей беспомощностью и глупостью.
Я давно не общался с ЧатГПТ и даже не в курсе, на каком он сейчас уровне. Но иногда работаю с Клод Соннет - все говорят, что она даже лучше. Очень раздражает демонстративная услужливость и соглашательство данной модели, хотя заметен и огромный потенциал. Но третью Лламу в принципе уже можно сравнивать, а уж Мистраль Ларж 2 тем более. И очевидно - я не пробовал, но это прямо чувствуется - что в РП Соннету точно так же не хватит соображалки, как и тем двум моделям. Тем более он под это не заточен. О сое я уже и не говорю.
Аноним 14/09/24 Суб 15:12:38 886432 128
>>886215
Ну чуть быстрее моей 2060, однако памяти 24гб, и сколько т/с на больших моделях? аля 70+, у меня на гуфе 7-9 т\с 13б, при не полной загрузке. Там я думаю на порядок больше, а может и нет.
Аноним 14/09/24 Суб 15:16:30 886435 129
>>886432
>сколько т/с на больших моделях
6+ на 70В_Q5KM c 16к контекста
4+ на 123В_Q4KM c 16к контекста
Плюс небольшой. Но - это только генерация. Обработка контекста на теслах - боль, для смягчения которой применяются многие хитрости. Иногда не помогает.
Аноним 14/09/24 Суб 15:20:55 886441 130
>>886170
Конечно вряд ли поможет, но попробуй тыкнуть лкмом в консоль и понажимай пару раз enter. В 11 винде консоль блочится если кликнуть на нее
>>886435
>смягчения которой применяются многие хитрости
Это какие? Есть что-то кроме FleshAttension?
Аноним 14/09/24 Суб 15:24:50 886447 131
>>886441
>Это какие? Есть что-то кроме FleshAttension?
Прежде всего Context Shift. Если он с моделью работает - всё зашибись.
Аноним 14/09/24 Суб 15:26:26 886451 132
>>886278
Я вот эту шнягу использовал
https://huggingface.co/docs/transformers/model_doc/gpt2
плюс нейросетки спрашивал, лол.
>>886382
Уже тысячу раз писал, что соя портит все коммерческие сетки. Все эти килобайтные джейлы нихуя на пользу не идут, а без них у меня Сори я кант континуе прямо на карточку персонажа.
Аноним 14/09/24 Суб 15:26:35 886452 133
>>886447
А ну, да, только я его почему-то только в коболде видел, его разве нет в угабуге?
Аноним 14/09/24 Суб 15:29:54 886464 134
>>886451
>Сори я кант континуе прямо на карточку персонажа.
в голос
Аноним 14/09/24 Суб 15:30:44 886467 135
Достаточно долгое время зависал на сатах типа спайсиаичат и решил попробовать ЛЛМ. После изучения гайдов из шапки решил поставить таверну через кобольда для ерп. Проковырялся несколько вечеров и заставил все работать. Возникло несколько вопросов:
1. Минимагнум 12б на 4070 генерит респонсы примерно полторы минуты на дефолтные 250 токенов. Можно ли это ускорить и каким образом без снижения качества модели? Или эта гпу совсем дно и нужно понижаться до 7б моделей
2. Если я правильно понял, полнота и развернутость ответа зависит от используемой модели и степени квантования. Но в некоторых случаях на одной с разными пресетами персонажей/сценариев получаю совершенной несвязанное повествование. Это значит нужно искать менее кривые карточки персонажей?
3. аналогичная ситуация с ответами за юзера, в некоторых случаях происходит пиздеж за меня на половину респонса. Какой параметр отвечает за это и как ограничить эту возможность.
4. Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса.
Заранее спасибо за пояснения.
Аноним 14/09/24 Суб 15:31:39 886470 136
>>886452
>А ну, да, только я его почему-то только в коболде видел, его разве нет в угабуге?
Должен быть, но я не пользуюсь. Кобольд стабильнее и удобнее. Кому нужны свежие сборки - есть лламаспп сервер. А в убе ллама особая, на айронпайтоне что ли. Надо бы попробовать для прикола.
Аноним 14/09/24 Суб 15:32:35 886472 137
>>886470
Там есть тензоркор, дает больше прибавку к токенам, на порядок 1-2 т/с
Аноним 14/09/24 Суб 15:34:46 886474 138
>>886467
>Минимагнум 12б на 4070
У меня мини магнум 12б, на 2060 9-7 т\с, как и почти любая 12б, ПРИ Q4_K_M\Q4_K_L. Смотри какой у тебя квант, наверное выбрал Q8_0
>Это значит нужно искать менее кривые карточки персонажей?
Да, есть такое, зависит от этого, пресеты и семплеры влияют еще, так что все в тандеме.
Аноним 14/09/24 Суб 15:37:28 886478 139
>>886467
>Что можно почитать для более детальной настройки моделей/персонажей, чтобы они не выпрыгивали из штанов после первого респонса.
в общем рекомендация сводится к добавлению в чат темплейт чего-то вроде "развивай сюжет медленно". Но зачастую мелкие сетки слишком тупы, чтобы развить сюжет куда-то кроме очевидной ебли и выпрыгивания из штанов. Но ты попробуй оптимизировать инструкции.
>4070
нахуй ты это говно вообще брал?
Аноним 14/09/24 Суб 15:40:25 886481 140
>>886472
>Там есть тензоркор, дает больше прибавку к токенам, на порядок 1-2 т/с
Если оно не просто так называется, то печаль - у теслы нет тензорных ядер... Но попробую.
Аноним 14/09/24 Суб 15:43:19 886483 141
Futurama - I as[...].mp4 2919Кб, 960x720, 00:00:15
960x720
>>886284
>12 гигабайт - для него слишком много
Наоборот слишком мало, что бы запускать на ней 20b+ модели с более-менее терпимой скорости для RP

Пока что перебиваюсь на разновидностях модели Nemo-Mistral 12b и Magnum 12b v2

Хотя в своё время юзал на своём проце Ryzen 5600g Llama-3SOME-8B-v2b и был рад 2 токенам в секунду и обработке 512 контекста за 10 сек, но потом однажды попробовав на настоящей видеокарте позалипать в нейронки во мне проснулся пикрелейтед
Аноним 14/09/24 Суб 15:44:07 886484 142
>>886481
У меня есть эти ядрышки, поэтому перешел с кобольда, на угабугу.

+ буги, она позволяет загрузить намного больше слоев/контекста без ошибки, чем кобольд. Тем не менее за все есть цена, то что ты загрузил сверх меры будет браться с озу.

Я хотел получить скорости, и на 7б кобольд - 20т/с, буга - 22т/с. Прибавка есть, но маленькая, может быть из-за моей rtx 2000.
Аноним 14/09/24 Суб 15:45:56 886487 143
>>886484
>перешел с кобольда, на угабугу.
А есть смысл переходить?
Аноним 14/09/24 Суб 15:48:01 886492 144
>>886484
>rtx 2000

почему не 3090? Тоже 2 гб, но найти можно за 55к. А твоя под сотку стоит.
Аноним 14/09/24 Суб 15:48:23 886493 145
Аноним 14/09/24 Суб 15:48:37 886494 146
>>886417
Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка.

>>886426
>на каком он сейчас уровне.
Чисто по ощущениям, это что-то уровня 10-12b с прикрученным RAG. Оно ебать, как много знает, но чтобы выудить эти знания иногда даже наводящих вопросов недостаточно, ты уже должен знать о том, о чём ты спрашиваешь. Эта самая 4o крайне просто входит в петли, не может исправлять свои ошибки, не может на ходу переключиться на другую тему, не понимает сарказм, не понимает, когда ты просишь чего-то не делать, откровенно врёт, если чего-то не знает, и выдумывает на ходу. И да, лупы у 4о это непобедимая хуйня, он либо повторяет одно и то же, либо делает то же самое, даже если ты говоришь этого не делать.
Локалки в этом плане куда честнее, чтоли. Они знают меньше, но понимают гораздо больше.
Аноним 14/09/24 Суб 15:48:47 886496 147
>>886487
ue,fue,f negj elj,ytt c nfdthyjq
Аноним 14/09/24 Суб 15:49:35 886497 148
>>886474
Сейчас специально протестил у себя магнум 12b на 3060 12gb на kobold.ccp с уже наговоренным диалогом

CtxLimit:2766/8192, Amt:250/250, Init:0.05s, Process:2.73s (1.1ms/T = 922.63T/s), Generate:10.63s (42.5ms/T = 23.51T/s), Total:13.36s (18.71T/s)
Аноним 14/09/24 Суб 15:49:50 886498 149
>>886474
Да, на Q8_0.
Сейчас запустил бенчмарк - всего 3.8 Т/с скорость генерации.
Аноним 14/09/24 Суб 15:51:55 886499 150
>>886487
Я не знаю, я просто долго сидел на кобольде, и перешел на бугу.

У буги мне апи не нравиться, он пишет иначе чем кобольд.

Проверил по бенчу, у меня на коболде меньше чем у буги на 2т/с

>>886492
) я имел ввиду серию, аля rtx 2000, rtx 3000, rtx 4000

>>886498
Оно и понятно, ставь Q6_K или Q5_K_M
Аноним 14/09/24 Суб 15:52:28 886501 151
>>886497
magnum-12b-v2-Q6_K_L если что
Аноним 14/09/24 Суб 15:53:44 886502 152
>>886478
>нахуй ты это говно вообще брал?
Была неплохая возможность обновиться с рх580 за 48к. Ничего лучше на тот момент не было.
Аноним 14/09/24 Суб 15:57:37 886505 153
>>886487
>А есть смысл переходить?
Есть смысл экспериментировать - 0,2т/с тут выиграл, 0,1 там - в сумме набегает...
Аноним 14/09/24 Суб 16:08:54 886515 154
>>886498
Чувак, у тебя во время того как ты запускаешь эту модель - модель вся грузиться в видеопамять. Если во время запуска модели или её использования у тебя ещё запущены другие игры- приложения, даже ютюб - они занимают часть видеопамяти твоей карты и допустим вместо 12 гигов у тебя по факту оказывается 10,5 или вообще 8. Лично у меня встройка на проце и я всю отображаемую графику для моника через неё гоню (тупо оставил моник подключенным к материнской плате а не к видяхе) и моя видяха остаётся незадействованна для всякого мусора и может на все 100% отдаваться обработке генерации текста.

Вот прямо сейчас закрой прогу кобольд или на чём ты там генеришь и открой диспетчер задач. Перейди в раздел производительность и выдели свою видюху. Там ты увидишь сколько у тебя видеопамяти занято и сколько свободно. + учитывай что чем дольше общаешься с чат ботом тем больше памяти нужно будет для хранения в его памяти прошлых твоих сообщений. Контекст короче, который ты изначально выбираешь. У некоторых моделей только 8к а у других и 16к+ можно сделать. У магнума только 8к максимум ставь.
Аноним 14/09/24 Суб 16:09:33 886516 155
>>885335 →
Ну, проще написать, на самом деле. =) Делов-то.

>>885341 →
Ты опять забыл таблетки выпить? =( Чувак, ну ты не забрасывай свое здоровье…

>>885371 →
Возьми LazyMix+ (Real Amateur Nudes) и накати NostalgiCam (18+) - Nude Webcam Girls + всякие селфи.

Памяти не хватит ни на что вообще, сразу дропай.
Для кодинга Deepseek-Coderl-V2-Lite, его можно крутить на проце, кстати.
Для кума — пиздуй в шапку, там охуенная подборка спецом для новичков. Чел старался.

> mini-magnum-12b-v1.1
Да.
> Q4_K_M
Нет.
Хотя бы Q6.

Работать будет, если подрубить че-то там, для работы наружу.

>>885379 →
Хуйня, даже не тестируй такое говно. Не трать время.

>>885386 →
Я сочувствую твоим страданиям. =) Зато ты приобрел опыт.

>>885441 →
> по совету
> качает говно в третьем кванте

Чувак, послушай, то что они не влазят тебе в видеокарту не делает модели плохими. Это делает плохой твою видеокарту.
Качай не ниже Q6 (а лучше Q8) и выгружай на оперативу, иначе никак.
Или докупи вторую видяху.

>>885446 →
Опа, нихуя себе.

>>885513
ТОЧНО НЕ 4060.

>>885559
Плюсую, сижу с вербоуз всегда.

>>885563
Нет, скорее только через апи и можно.
Убабуга по умолчанию работает в режиме «Ты отыгрываешь персонажа, вот чат, напиши следующее сообщение:» это ролеплей, а не диалог, и ллм понимает, что она ролит с тобой.
А по апи зачастую диалоги хуярятся, там иной результат.

>>885593
Значит косарь за кит, плюс опера, и видяхи. На райзерах, вероятно.
Ну, так-то, цена норм для тех, кто хочет дохуя, но не хватает на H100.
Новая база тре… кекеке.
Хорошечно, спасибо.

>>885624
Ну, в теории ты можешь обращаться с пресонажам из убабуги через апи, но в общем, да, если не делаешь специально — настройки никак не влияют, только то, что ты даешь.

>>885628
Твоя таблица ну полная хуйня.
Я не обвиняю тебя, просто очень жаль, что тебе сразу никто толком не объяснил, что ты трогаешь исключительно говно, почему-то.
Точнее, тебе говорили, но недостаточно резко.

ВЫКИНЬ
ДЕРЬМО
Качаешь гемму в 8 битах или мини-магнум в 6 битах МИНИМУМ, а лучше в 8.
И тестишь ТОЛЬКО ИХ И ТОЛЬКО ТАК.
Ну, на вкус и цвет, конечно, но все остальное будет давать хуевые результаты в любом случае. Я не знаю, что ты пытаешься выжать из такого ужаса.
И, да, у тебя будет медленно, хоть укакайся, либо будет тупо и криво, тут выбор за тобой.

>>885724
Кобольд пихает свои префиллы в промпт, а если ты еще и галочки не снимал пихать адвенчуре промпт… =) То это эпик фейл.
Кобольд надо тонко настраивать и он все равно так себе.
Чисто для вката подходит.

>>885906
Ну 9 прям говно на фоне дипсик кодера.
Если полторашка такое же говно — то… это уже достойно, конечно. =)

>>885956
Кстати, как пихают такое оформление? Я видел уже где-то тут.

>>885977
А быстрее-то схуя? О_о Но, интересно, попробую.
Я не он, но спасибо. =)

>>885981
Переводчик в 2к24? Ловите наркомана!

>>886000
Скилл ишью или бомж? Но если бомж, то да, переводчики, шо поделать.

>>886003
Здесь. Гугл, кстати, в последнее время прям напоминает…

>>886050
Аноны такие:
> Это смешная температура.
Потом:
> у меня умирает тесла, что делац =')

Но у того чела, вроде, 75 была от стаблы на постоянке.

>>886099
О, 27б может быть клевой!
Надо потестить.
Жаль в 16 гигов не влезет, эх… Где там материнки с тремя слотами? х) Впихну все три P104-100, будет ультра-бомж сборка.

>>886104
Не, баян, еще месяцы назад скидывали такое же.

>>886271
> для жоры достаточно x1.
До первой обработки длинного контекста с двумя и более картами. =)
> Я экспериментально проверил как работает использование нескольких карт.
Ну ты хуйню проверил, братан.

Потестируй следующим образом.
Залей на одну видеокарту небольшую модель и прогони тест на контекст… Ну 60к контекста. Как быстро пережует.
Потом, залей эту же модель ровно на три карты (или сколько у тебя там), и на х1 линии залей тот же контекст.
Охуеешь от разницы.
Вот, не надо сейчас рваться жопой (я надеюсь, ты адекватный) и отказываться от тестов, чтобы не развалился твой манямирок.
Просто возьми и сделай эти тесты, и покажи, какая скорость обработки промпта в 1 видяхе, какая скорость в х16+х16 и какая скорость в х1+х1. Если ты прав, то разницы не будет. Но если разница будет…
Короче, влияние количества линий пренебрежительно мало на малых контекстах, а на больших возникают проблемы. Вот увидишь.

>>886276
Там есть токенайзер каунт. Был раньше.

>>886293
> подписку на гопоту
В локал треде.
Про кум в т.ч.
Гениально.

>>886467

1. Там должно быть пару секунд.
2. Объем ответов зависит и от модели, и от карточки.
3. «Не отвечай за юзера».

https://huggingface.co/Quant-Cartel/mini-magnum-12b-v1.1-exl2-rpcal — возьми 6bpw и 8к контекста или 16к 8-битного контекста.
Аноним 14/09/24 Суб 16:11:31 886517 156
>>886515
Вот тут плюсану, я отдельную видяху поставил под рабочий стол и прочее, чтобы игровую всегда держать свободной. Лишний гиг не лишний.
Аноним 14/09/24 Суб 16:15:46 886522 157
Аноним 14/09/24 Суб 16:18:28 886524 158
>>886522
Если у него 4070, то нормальная ссылка — как раз эксллама. И работает чуть лучше, и чуть быстрее. И если вдруг вылезет на оперативу — вылетит к хуям. =D
Поэтому я ему и дал именно на экслламу. Чтобы он сравнил лучший вариант с текущим.

Но, q6_K_L тоже пойдет, думаю.

Выбор у него теперь есть из лучших вариантов под его видяху.
Аноним 14/09/24 Суб 16:22:42 886527 159
>>886516
>Переводчик в 2к24? Ловите наркомана!
Может я и наркоман, но плюсов куча:
Токенов для eng-текста требуется меньше, понимание модели лучше. Примитивный стиль перевода Гугла для общения с моделью лучше в целом, имхо. Из недостатков - перевод иногда косячит, но при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно.
Аноним 14/09/24 Суб 16:24:06 886528 160
>>886524
>оперативу — вылетит к хуям.
Странно, ну это уже проблемы пользователей эксламмы, на кобольде такого нет.
Кстати, а что тогда произойдёт, когда он на этой эксламе упрётся в 8к контекста, учитывая что я слышал что каждый 1к контекст примерно занимает 1гиг видеопамяти и учитывая что сама модель весит около 10,4 гига? Или в эксламме эта модель весит меньше?
Аноним 14/09/24 Суб 16:34:47 886534 161
image.png 55Кб, 530x453
530x453
>>886516
>Не, баян, еще месяцы назад скидывали такое же.
Последний раз видел бота AICG треда, но у него форматирование и оформление другое.
А как новая хуйня называется?

>>886271
>просто добавил это в чара
А двачевское HTML-форматирование с аватаркой бота в посте и постами с ответами он тебе сам по рофлу написал?
Аноним 14/09/24 Суб 16:37:01 886536 162
image.png 61Кб, 1301x679
1301x679
image.png 64Кб, 1301x679
1301x679
image.png 65Кб, 1301x679
1301x679
>>886527
> при тексте от 300 токенов уже работает с контекстом и переводит верно, даже художественно
Может у них там подключается другая модель перевода?
Это интересное замечание, я не обращал внимания.

>>886528
Нет, это не проблема, а фича. =)
Это отключаемо, просто приятнее увидеть, что у тебя модель с контекстом не влазит, нежели сидеть на медленной скорости и думать, что «ну, 4070 не способна более чем на 6 токенов…»
Так что, это ггуфопроблемы, получается. =)

По поводу контекста. хз.

Вот три скина. Без модели. С моделью и 4К контекста. С моделью и 8к контекста.
Это Немо 6.4bpw.
Т.е., 4к контекста = 0,5 гб, я хз. =)

Контекст рабочий.
Аноним 14/09/24 Суб 16:37:43 886537 163
>>886293
>хотелось бы конечно, но низзя, не раскидывается она, как минимум потому что не однопроходная......
Недавно Флюкс в GGUF-формате квантовали. Я ни на что не намекаю, но...
Аноним 14/09/24 Суб 16:37:46 886538 164
>>886534
Не знаю, самому интересно. =)
Аноним 14/09/24 Суб 16:38:31 886539 165
>>886536
*скрина
слоупокофикс
Аноним 14/09/24 Суб 16:52:49 886549 166
изображение.png 2Кб, 74x51
74x51
Аноним 14/09/24 Суб 16:53:06 886550 167
>>886303
М-м-м, идейный опенсорсник, наверное и на такси не ездиш если машина проклятых капиталистов и без открытых исходников

если инструмент выполняет работу свою, то им пользуются, или прикажеш опенсорса ждать?
Аноним 14/09/24 Суб 16:56:03 886553 168
>>886382
Ну так про гопоту я условно, можно и Ламму жирную арендовать и клавдию, вопрос же не в этом, вопрос в том, стоит ли покупка железа выхлопа от него?
Аноним 14/09/24 Суб 16:58:24 886555 169
>>886550
ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун.
Выполняет у него блять работу. Соевая сетка с клеточкой на члене модели.
Аноним 14/09/24 Суб 17:00:51 886557 170
>>886426
Та хватит со своим кумерским ролплеем сравнивать, да, никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике,

может ты по уровню эрудированности их сравнивал? или по качеству перевода и умению обрабатывать документы текстовые? Или код генерит и ошибки в коде хорошо ищет?, может граматику проверяет?

такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще?
Аноним 14/09/24 Суб 17:02:46 886560 171
>>886557
>никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике,
Затачивают. Но не гопоту. И результаты хорошие. Но не с гопотой.
Аноним 14/09/24 Суб 17:04:00 886562 172
>>886557
>такое чувство создается что тут одни кумеры РПшники сидят, и по другим критериям модели не тестятся вообще?
ты только это понял?
новичок в треде чтоли?
Аноним 14/09/24 Суб 17:05:26 886564 173
>>886549
Бомжую, по факту. =(

А где еще торренты хранить, сериальчики, музычку, ух, все локальное, вдруг захочу пересмотреть или интернет отключат!.. =D

>>886550
Вообще, немного наоборот, коммунизм против опенсорса, это капитализм за.
Так что, наверное на такси ездит, если хочет. Или не ездит, если не хочет. Или каршеринг. Как захочет. Лишь бы не принудительные автобусы. =D

>>886557
В смысле, не затачивает? Файнтьюны — буквально затачивают, да.
Так что, все логично.
Аноним 14/09/24 Суб 17:22:01 886593 174
>>886537
ну, поживем - увидим - точто там гуф не значит что разобъется нормально и будет работать....
Аноним 14/09/24 Суб 17:29:46 886608 175
RPK-16-(Girls-F[...].png 4145Кб, 3000x4000
3000x4000
1. Нужно купить сервер с 12 канальной ддр5. Дорого нахуй, но тогда даже 400+b модели можно включать.
Аноним 14/09/24 Суб 17:30:22 886610 176
изображение.png 21Кб, 879x273
879x273
>>886555
>советов по знакомству с маленькими девочками
А тебе это зачем? Плюс нейросети выдадут баяны без задач.
>>886564
>А где еще торренты хранить
На NAS, где же ещё.
Аноним 14/09/24 Суб 17:32:01 886612 177
1442251251296.jpeg 129Кб, 500x500
500x500
>>886610
А у тебя хороший нас. Что это за устройство и как собирал?
Аноним 14/09/24 Суб 17:33:14 886615 178
>>886555
>ну иди нагенерируй в гопоте советов по знакомству с маленькими девочками или советов по ебле с уличными псами, я посмотрю как ты это сделаешь, клоун.

Ты серьезно? у тебя по жизни два интереса только? псы и девочки? походу надо кластер арендовать и накатить моделькуд для таких кумеров и на бабосы доить....
так по себе ровнять не стоит, другим надо для других задач ЛЛМ, при которых твоя соя не заметна от слова совсем

>>886560
Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства....

>>886562
>ты только это понял?
Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет...

>>886564
>В смысле, не затачивает? Файнтьюны — буквально затачивают, да.
та едрить, там про гопоту разговор шел, и да, ни одна из официальной гопоты не заточена под это...
Аноним 14/09/24 Суб 17:34:00 886616 179
image.png 132Кб, 416x381
416x381
>>886564
> или интернет отключат!
Аноним 14/09/24 Суб 17:34:25 886618 180
>>886612
>Что это за устройство и как собирал?
Материнка на 2011-v3 и серверный корпус под 10 15 дисков. Про запас, там и половины гнёзд не занято.
Ещё там можно подрубить 3 видяхи по схеме 16+16+8, но у меня денег на это нет ((
Аноним 14/09/24 Суб 17:44:52 886631 181
>>886615
>Ну да, но контекст был про коммерческие, ни гопота, ни гемини, ни клава, ни преплексити не заточены под это, более того, формат асистента более выгоден для большинства....
Ну следовательно если ты не большинство - собирай ГПУ-сервер или арендуй. Плохо, что всё это недёшево. Тяжело быть илитой :)
Аноним 14/09/24 Суб 17:46:57 886633 182
6bfaf8eb712ed61[...].jpg 76Кб, 1015x1024
1015x1024
>>886618
Малаца. Хорошо зделол.

>>886616
>интернет отключат!
Спутниковая тарелка в сторону швитого маска + НАС

>>886631
>Тяжело быть илитой :)
Жиза. Просто нет ни доступных железяк, ни нормальных сервисов.
Аноним 14/09/24 Суб 17:49:42 886634 183
>>886615
>Нет, но надеюсь все еще что есть применяющие на практике всеже ... или они все в треде гопоты сидят? отдельного то не кумерского треда нет...
ну я использую для не кумерских задач, да. И для работы айти и просто проконсультироваться и поговорить.
Но было бы странно имея локальную ллм не кумить на ней. Если ты смог запустить 405б модель у себя под кроватью и не делаешь с ней порнорп - то у тебя точно что-то не в порядлке с головой.
Вот так и получается, что тут полный тред кумеров.
Аноним 14/09/24 Суб 17:52:35 886635 184
>>886494
> Я не на графики смотрю, это чисто субъективное мнение по итогам использования. Если сравнивать 4о с лламой 70b, то первый просто сливается в унитаз, как дешёвка.
Ну и для чего ты их используешь?
Аноним 14/09/24 Суб 18:07:57 886648 185
>>886633
>тарелка в сторону швитого маска
Он прогибается под требование властей, ты у него получишь тоже, что и по проводу то есть нихуя.
Аноним 14/09/24 Суб 18:25:43 886660 186
>>886610
> NAS
Справедливо!

>>886615
> та едрить, там про гопоту разговор шел
Не, чел, ты в треде локальных моделей, там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены. ) Признай поражение, не сопротивляйся.
По факту же разъебали.

А о том, как она в других задачах — то она (вместе с клодом и джемини) все еще сота, но уже не так чтобы сильно.
В VL задачах Qwen2 дышит в лицо попой (API-шная обошла, если что, да), в программировании есть Deepseek-Coder (и вовсе фулл опенсорсный), в РИЗОНИНГЕ ЕСТЬ РЕФЛЕКШИН АХАХАХ, ну, то есть, Llama-3.1-405B, да и дипсик опять же, и Mistral-123b, всего хватает, что отстает от актуальной гопоты лишь чуть-чуть.
У корпоративных ллм плюсы — в артефактах/гптхах, доступе к вебу, доступе к твоей инфе. На локальных это надо костылить, а там уже закостылено до нас.

А если вернуться к началу вашего диалога… Почему платишь за локальные а не подписку? Паранойя и сенситив данные. В корпоративном секторе на это многим плевать (неожиданно, но факт), а вот в частном… так же, но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.

Такие дела.

>>886618
Оу май, материнкой поделишься?
Я смотрю, на Z270 можно подключить x8+x8+x4, и стоит она 7к рублей на авито.
Но если есть вдвое больше, то почему бы и не да?

>>886634
Кстати, лол, но сижу тут год и не кумлю. Ведь есть stable diffusion с лорами и flux…
Аноним 14/09/24 Суб 18:32:52 886669 187
>>886660
>Оу май, материнкой поделишься?
Сасус x99-e, сейчас такие уже не продают, купил последнюю из завалявшихся на складе. Проц офк с алишки самый простой, стопка памяти оттуда же.
>на Z270
Так это же десктопное говно, там никогда не было кучи линий.
>Ведь есть stable diffusion
Текст даёт больше простора для воображения, плюс развитие сюжета, так что стояк на буквы больше, лол.
Аноним 14/09/24 Суб 19:37:01 886741 188
Обновил таверну - пропали аватарки у ботов и юзера.
Что за дела? Как вернуть?
Аноним 14/09/24 Суб 19:46:00 886746 189
1584950910376.png 4Кб, 263x142
263x142
>>886233
> Линий там достаточно, 40 штук же
А какая конфигурация слотов и что за процы?
> А вот одна плашка это конечно лол.
Не, вотэт пиздец.
>>886528
> что каждый 1к контекст примерно занимает 1гиг видеопамяти
Даже в богомерзком жоре это подебили добавлением флешатеншн спустя долгое время. Но в целом - эксллама почти не повышает расход врам относительно выделенного в начале, так что вылет крайне маловероятен. Жора же по ходу заполнения контекста наращивает аппетиты, и именно там будешь радоваться оому во время горячего кума.
>>886549
В чем проблема? Непревзойденные объемы, ахуительная надежность и отсутствие внезапных смертей, скорость выше чем днище qlc, низкая цена. Пикрел еще мелочь.
>>886557
> никто не затачивает ЛЛМ под то чтобы вася сычев сидел дрочил в чатике
Всмысле, а как же десятки шизомерджеров, которые с использованием методов средневековых алхимиков пытаются синтезировать золото? А сейчас даже пулл нормальных тюнеров набрался.
>>886610
> На NAS
Скорость доступа не та.
Аноним 14/09/24 Суб 19:46:57 886747 190
>>886631
а если большинство то можно не собирать?
Аноним 14/09/24 Суб 19:48:12 886749 191
>>886747
>а если большинство то можно не собирать?
Можно. Разрешаю.
Аноним 14/09/24 Суб 19:51:28 886754 192
>>886634
>у себя под кроватью и не делаешь с ней порнорп
предпочитаю такой рп с тянучкой на кровати) (не, серьезно, даж завидую немного что у народа времени столько есть чтобы тупо с нейронкой общаться...)

>И для работы айти и просто проконсультироваться и поговорить

это поинтересней уже, какие сетки в каких задачах себя проявили хорошо?
Аноним 14/09/24 Суб 20:01:49 886762 193
>>886746
>В чем проблема?
Шум же, и скорость улитки.
>отсутствие внезапных смертей
Ты это говоришь тому, кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО.
>Скорость доступа не та.
Если гигабита мало, тянешь 2,5/10/40 гигабит и довольно урчишь.
>>886754
>рп с тянучкой на кровати
Пиздец с каким отребьем я сижу на одной борде.
Аноним 14/09/24 Суб 20:03:19 886767 194
>>886762
>Пиздец с каким отребьем я сижу на одной борде.
база. Нормисы уже из б в тематику протекли блять...
Аноним 14/09/24 Суб 20:08:31 886771 195
>>886762
> Шум же
Только для шизиков.
> скорость улитки
Не настолько плохо и с учетом остальных плюсов это не проблема.
> кто похоронил уже 3 жесткача, 2 из них ВНЕЗАПНО
Какой-то ультимейт скиллишью, даже с погорельца можно восстановить данные, пусть и сложно. Зато с ссд - нахуй иди просто, оно помирает внезапно и сразу без каких либо признаков, тогда как хард будет до последнего пердеть, страдать но терпеть. Где-то валяется пачка дохлятины, за все время доверия к ним так и нет, никаких важных данных нельзя оставить без регулярного бекапа.
> тянешь 2,5/10/40 гигабит
Куда ты их протянешь, нужно соответствующее железо, что будет стоить неадекват и/или потребует времени и пердолинга. И всеравно всратый протокол не способен обеспечить нормального времени доступа, тогда как на локальном харде проблем нет.
> Пиздец с каким отребьем я сижу на одной борде.
Это моя фраза в твою сторону.
Аноним 14/09/24 Суб 20:12:09 886773 196
>>886660
>там диалог шел о том, что локальные модели превосходят гопоту в том, что заточены.
там диалог шел о том что гопота в кумерство не может, но то такое,

>но в этом треде сидят те,к ому не плевать на приватность своих данных. Вот и предпочитают закупиться железом вместо подписки.

Не, ну тут без спорно, а то узнает еще кто, что славик сычев правой дрочит, левой жопу щекочет... прикольно так-то что вообще как раз корпоратам должно быть не плевать на приватность данных, но там и возможности локалки крутить есть... просто интересен вопрос аналитический скажем - сколько переплачиваеш или наоборот выигрываеш в сравнении используя локалки а не коммерцию, и выгоднее ли свое железо, или арендовать

лама 405 жжет конечно...
>Classic tongue-twister!

The answer, of course, is "a woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood!"

But, just for fun, let's try to estimate a real answer. Woodchucks, also known as groundhogs, are rodents that burrow in the ground and move earth as part of their habitat creation. They are quite strong for their size, and can move a significant amount of soil relative to their body weight.

If we assume a woodchuck could chuck wood with the same efficiency as they burrow soil, we might estimate that they could move a volume of wood equal to the volume of soil they can excavate.

According to a study on groundhog burrowing behavior, a single groundhog can excavate up to 700 pounds (318 kg) of soil in a day. If we convert this to a volume of wood, assuming a density of dry firewood to be around 35-40 pounds per cubic foot (560-640 kg/m³), we could estimate that a woodchuck could potentially move around 1-2 cubic feet (28-57 liters) of wood per day.

So, to answer the tongue-twister in a completely unscientific and humorous way: a woodchuck would chuck about 1-2 cubic feet of wood if a woodchuck could chuck wood!
Аноним 14/09/24 Суб 20:15:46 886776 197
>>886771
>Какой-то ультимейт скиллишью
Просто много дисков и много времени плюс удача с двумя ST3000DM001, погугли артикул.
>даже с погорельца можно восстановить данные
Абсолютно нереентабельно, по почке продать за каждый мегабайт. Я лучше в бекапы.
>тогда как хард будет до последнего пердеть
Ну вот у меня не пердели, в один момент перестали данные отдавать и всё.
>нужно соответствующее железо, что будет стоить неадекват
Бу серверного говна навалом, и с нормальными протоколами под SMB оно будет летать неотличимо от локального. А шум где-то далеко.
Аноним 14/09/24 Суб 20:16:01 886777 198
>>886746
>Скорость доступа не та.
сколько тебе скорости надо то? 40гбит кинь сеть, хватит же?
Аноним 14/09/24 Суб 20:19:35 886780 199
>>886762
>Шум же, и скорость улитки.
Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал....
или у вас охлады сверх бесшумные? в пеке я вообще не слышу диска, в NAS похрустывают малость, но тоже не критично, охлад опять таки громче...
Аноним 14/09/24 Суб 20:21:34 886782 200
>>886762
>Пиздец с каким отребьем я сижу на одной борде.
а тут филиал инцелача и нормисы не приветствуются?
ладно придется кумерить целыми днями в таверне...
Аноним 14/09/24 Суб 20:26:40 886785 201
>>886780
Тихий комп и вообще окружение, 2 диска слышно когда работают
Но прикол в том что ссд так же слышно, иногда при полной загрузке тихонько свистят падлы. Чем? Не ебу
Минусы хорошего слуха и низкого звукового загрязнения
Аноним 14/09/24 Суб 20:29:56 886788 202
Аноним 14/09/24 Суб 20:49:44 886803 203
>>886553
Зависит от ожидаемого срока использования, не? Если ты покупаешь условную теслу и планируешь её заменять на что-то более современное примерно никогда, то тебе достаточно прожить плюс-минус год, чтобы покупка стала выгоднее аренды. А если берёшь 4090 и собираешься её заменять на 5090 сразу с релизом, то лучше не покупать обе и влошиться в аренду. И я здесь даже не учитываю наркоманские ситуации, когда можно купить теслу за 15к и через год продать за 20.

>>886635
>Ну и для чего ты их используешь?
Да для всего. Понятное дело, что гопота для кума не использовалась, но всё остальное - вполне себе. Чатбот, кодинг, обсуждение разной хуйни. В итоге гопота меня на кодинге и доебала, она регулярно уходит в лупы и пишет тот же код, даже если функции она нагаллюцинировала - извиняется, соглашается, что таких функций нет. И снова их использует.
Аноним 14/09/24 Суб 20:54:22 886809 204
>>886776
> Абсолютно нереентабельно
Подобное в совсем печальных случаях и если данные вялые. А так по дефолту хватает подмахнуть плату (и перепаять eeprom при необходимости), механические же дефекты прогнозируемые и плавные, всегда успеешь заметить и принять меры. Классика "вот у меня" имеет сомнительную релевантность, погугли тренды и статистику.
> Бу серверного говна навалом
Обмазываться этим добром, тем более дома - довольно сомнительное действо, и всеравно оно будет всратым, что там за "нормальные протоколы"?
>>886785
> Тихий комп
Отдельный вид шизы и расстройств невростеников, под нагрузкой оно будет шуметь априори, в холостую шум не будет заметным. Тут дело не в слухе.
Аноним 14/09/24 Суб 20:55:27 886814 205
>>886782
>а тут филиал инцелача и нормисы не приветствуются?
Ну в общем то да. И вообще, зачем имеющим тянку нейросети? Они просто не прозрели ещё. Хотя некоторые живут всю жизнь, не приходя в сознание, лол, и содержат несколько баб с детьми.
А кто прозрел, те понимают, что нейросетки, даже сейчас, во всём лучше мясных дырок.
>>886803
>и пишет тот же код
Замечал на последних снапшотах, старая умнее была.
Аноним 14/09/24 Суб 20:58:31 886823 206
>>886814
>что нейросетки, даже сейчас, во всём лучше мясных дырок.
та блин, хавать не готовят хату не убирают... дороговаты пока что короче роботы-гуманоиды... хотел робособаку прикупить от Унитри, но тоже дорого...
Аноним 14/09/24 Суб 20:59:01 886825 207
>>886809
>погугли тренды и статистику
Тренды как раз показывают, что механика отлетает всё чаще, а сосоди достаточно надёжны при домашнем использовании.
>что там за "нормальные протоколы"?
InfiniBand вестимо, задержек меньше, и самба умеет по нему работать.
>Отдельный вид шизы и расстройств невростеников
Вполне себе нормальное желание иметь тихий ПК. И да, дело именно в слухе, у меня мама нихуя не слышит, и 144 герца 4к монитора не видит. А мне прям критично.
Аноним 14/09/24 Суб 21:00:38 886829 208
>>886823
>хавать не готовят хату не убирают...
К мамке вернись, всё было в комплекте, при хороших отношениях с ней будет лучше любой другой родной дырки. И любит по настоящему а спускать лучше в кулачок под нежный сгенерированный голос.
>дороговаты пока что короче роботы-гуманоиды
Пока да. Но скоро будет в каждом доме.
Аноним 14/09/24 Суб 21:22:14 886859 209
>>886780
>Что у вас за винты что вы их слышите? последний который помню из прям слышных это был 4 гиговый из 90х, от еще с таким звонким звуком скрежетал....
Ага, а потом механику отладили и винты стали тихими. Старые и сейчас тихие, какие живы. А вот новые делают на отъебись и там уже жопа. Именно поэтому я лично перешёл на ссд.
Аноним 14/09/24 Суб 21:23:45 886860 210
Your selected API doesn't support the tokenization endpoint. Using estimated counts.
Что это за ошибка в Таверне? Кобальд после нее падает.
Аноним 14/09/24 Суб 21:25:12 886862 211
>>886829
>Пока да. Но скоро будет в каждом доме.
Скоро. Как раз те аноны, которым здесь и сейчас нет и двадцати к старости успеют попользоваться. Кашку сварить, задницу вытереть - в государственных богадельнях.
Аноним 14/09/24 Суб 21:25:44 886863 212
>>886860
Выбери в таверне внутреннюю токенизацию. Или обнови кобольд, вдруг старый. Или скажи, на какой модели ты наблюдаешь эту хуйню, ибо у меня такого никогда не было.
Аноним 14/09/24 Суб 21:29:16 886868 213
>>886863
Кобольд последней 1.74 (но было на всех версиях), модель Magnum 12b 2.5 kto, но опять же ошибка была всех моделях, если перебирать ботов в таверне.
Аноним 14/09/24 Суб 21:30:23 886871 214
изображение.png 15Кб, 511x262
511x262
>>886868
А, точно. Какое апи выбрано? Должно быть пикрил.
Аноним 14/09/24 Суб 21:33:23 886874 215
>>886809
>не будет заметным
Отдельная шиза читать жопой и считать всех дураками
У меня тут ночью тишина такая что я пердеж мухи из соседней комнаты слышу, а хорошо спать с включеным компом не могу, внимание на себе удерживает, паскуда
Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов
Печаль беда
Аноним 14/09/24 Суб 21:36:38 886881 216
>>886874
>Собрал тихий комп, но и в простое его слышу все равно если чет на ночь оставлять там на вроде торрентов
>Печаль беда
Ну, пришло время собирать NAS. Я этим путём уже прошёл, пока остановился на этом шаге, даже интересно, что будет дальше. ин4б познаю дзен и сотру всю инфу нахуй, потом уйду в тайгу пасти овец.
Аноним 14/09/24 Суб 21:42:09 886889 217
>>886881
Можно упороться и собрать комп с полностью пассивным или полу пассивным охладом и качественными не свестящими ссдшниками
Будет полностью тихо до средней нагрузки, но слабовато и дорого. Но если хочется тишины любой ценой - это вариант
Нас - не хочу становится сисадмином и ебаться уже с 2 компами, но вариант
Аноним 14/09/24 Суб 21:42:56 886891 218
>>886825
> что механика отлетает всё чаще
Делая это плавно, прогнозируемо и громко вопя о проблемах, тогда как ссд - мгновенная смерть и в очень редких случаях обнаружение проблемы и блокировка записи.
> дело именно в слухе
Не, дело именно в невростении и расстройствах, причем оно может быть и как с йоба слухом, так и вообще без него. Со музыкальными навыками, способностью слышать/различать и тем более зрением никак не коррелирует, это что-то уровня "раздражает микроузор обоев что висят где-то позади". Не то чтобы осуждаю, каждый дрочит как хочеть, но нужно осознавать уровень.
>>886874
> хорошо спать с включеным компом не могу
Это нормально если там реальный шум, но когда "пердеж мухи" и такое - это диагноз, буквально. нахуя вообще спать в одной комнате с компом? И каково это жить без кондиционера? Страдай с берушами, обмазывайся noise machine, или покупай оверпрайс продукты с пренебрежимой разницей для дойки бедолаг.
>>886889
> комп с полностью пассивным или полу пассивным охладом
Во, апофеоз безумия.
Аноним 14/09/24 Суб 21:52:02 886902 219
>>886889
>не хочу становится сисадмином и ебаться уже с 2 компами
Настроил и забыл. Первое время ещё заглядывал в панельку, сейчас же зашёл туда впервые за полгода (диски пока ещё в порядке).
>>886891
>громко вопя о проблемах
В лужу пердя разве что. Пока в логи не заглянешь или в смарт не посмотришь- хуй узнаешь.
Аноним 14/09/24 Суб 21:53:27 886903 220
>>886891
>диагноз, буквально
Кек, я думал диванные психоаналитики уже вымерли лет 10 назад
Я могу спать с неоднородным шумом, дождь - балдеж
Но упорядоченный шум мозги не игнорят а активно отслеживают. И это прям нормально, инстинкты помнят хищников в соседнем кусте.
Но мешает когда эта хуйня триггерится на ерунду, на вроде активности дисков или однородного шума крутиляторов
Завдуую тем кто спит в любых условиях
Аноним 14/09/24 Суб 22:02:28 886906 221
>>886874
>хорошо спать с включеным компом не могу
Cплю в наушниках под документалки про маньяков или аудиокниги Г. Ф. Лавкрафта. И это просто охуенно. Правда, наушники быстро разваливаются, но это похуй.
Аноним 14/09/24 Суб 22:03:06 886907 222
Монотонный шум очень мне мешает, поэтому я не понимаю как люди спят с включенным пк в одной комнате. Однако, с тем же самым я спокойно могу уснуть слушая - мело/техникал/брутал дет и прочую музыку, хуй поймешь мозг.
Аноним 14/09/24 Суб 22:07:03 886912 223
image.png 458Кб, 1920x1040
1920x1040
image.png 512Кб, 1920x1040
1920x1040
Rocinante-12B-v2d-Q6_K
Аноним 14/09/24 Суб 22:07:18 886913 224
>>886859
та вопрос в объемах, 8, 16 тб в виде ссд дорого очень будет, а винты для НАСов вполне надежные, на них не так экономят...
Аноним 14/09/24 Суб 22:09:10 886917 225
Аноним 14/09/24 Суб 22:11:28 886921 226
Аноним 14/09/24 Суб 22:11:57 886922 227
>>886902
так а кто тебе мешает настроить уведомление о проблемах с диском? более того, нормлаьные раид контроллеры диск который начинает сбоить из массивы выкидывают и начинают на резервный восстанавливать, но для этого диски конечно правильные нужны...
Аноним 14/09/24 Суб 22:18:57 886930 228
>>886922
>нормлаьные раид контроллеры
Я на мержФС сижу, поверх юзерспейсового NTFS в люнупсе...
Аноним 14/09/24 Суб 22:27:04 886934 229
>>886930
Что ты такое? зачем ты такие странные штуки юзаеш?
есть же православный MD, LVM, ZFS, BTRFS, последние две предпочтительней, если мы уж про програмные райды говорим, есть хардверные райд контроллеры которые с процессора нагрузку снимают по подсчету контрольных сумм, но то уже сильно гиковское, но зачем НТФС под линупсом? она ж капец дибильная...
Аноним 14/09/24 Суб 22:29:39 886938 230
>>886930
Выше по треду ловили каких-то наркоманов-переводчиков, но у этого анона явно что-то более забористое.
Аноним 14/09/24 Суб 22:34:05 886941 231
>>886938
я вообще хз где люди такое назодят вообще? сколько уже толкусь с серверами, но про такую дичь не слышал даже, и оно походу капец странное, посыплется так не факт что вообще восстановиш чем-то... на популярные штуки хоть инструментарий есть...
Аноним 14/09/24 Суб 22:41:32 886946 232
Накопал я короче инструментов для тренировок, походу калькулятор трохи трындел... бо диспетчер задач показывает что шаред мемори используется - тобиш 410М полностью не влазит в 8гб, хотя... кто знает, может что-то не нужное выгрузилось... около 3 сек/итерацию молотит...
теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку?

и еще вопрос - Токенайзер, он настроенный заранее идет и во время тренировок не меняется? или он тоже тренируется? просто выходит фигня в том, что токенайзеры в основном на инглиш ориентированы, то явно не очень хорошо, если только с кириликом работать...

и как к стати понимать прогресс тренировок? лосс как-то падает не охотно...
Аноним 14/09/24 Суб 22:52:32 886955 233
>>886934
>зачем ты такие странные штуки юзаеш?
>>886938
>>886941
Да ёбт, говорю же, эволюция. У меня уже было 4 диска в винде, самой собой на NTFS, и я не стал переделывать всё это говно под BTRFS, которая конечно мне мила, но всё равно не доверяю, наебнёт все данные и глазом не моргнёт.
Знаю что упорото, но оно работает.
>>886941
>посыплется так не факт что вообще восстановиш чем
МержФС это тупо раскидывание папок по дискам и их виртуальное объединение, там нечему сыпаться, по факту у меня самые восстанавливаемые диски, ибо там старая добрая NTFS, и диски могут работать по отдельности как будто и не было никакого мержа.
>>886946
>тобиш 410М полностью не влазит в 8гб
Попробуй меньше, начни с сотки и наращивай. Если будет переломный момент, где скорость прям сильно просядет, значит переполнение.
>3 сек/итерацию
Лол, при обучении меньше ляма итераций вообще ни о чём, вот и считай, сколько это займёт у тебя времени.
> или есть возможность просто текстами накормить модельку?
Я только так и делал.
>и еще вопрос - Токенайзер
Как хочешь. Можешь отдельный обучить, поиграться с предварительным разбиением, к примеру. По коду там всё видно, что происходит.
>и как к стати понимать прогресс тренировок?
Индивидуально, лол. В каждом конкретном случае и комбинации настроек свои темпы падения лоса. Так что запускай саму модель и проверяй, что она высирает. Ты же разбил датасет на трейн, валидейт и тест?
Аноним 14/09/24 Суб 22:53:56 886958 234
>>886946
>около 3 сек/итерацию молотит...
Пиздец, как медленно.
>Токенайзер, он настроенный заранее идет и во время тренировок не меняется?
Если файнтюн, то токенизатор лучше не трогать. Лора - трогать категорически не стоит. Кроме использования заранее резервированных тегов, их можно донастроить. Если трейн с нуля, то токенизатор можно натренировать. Настрой претокенизацию, т.к без претокенизации будет суперхуёво. BPE вордпис тренится плохо, очень плохо. А другие тебе и не нужны, скорее всего.
Аноним 14/09/24 Суб 23:08:06 886980 235
>>886955
>>886958
я через ЛЛамаФактори пока треню, оно само занимается разбиванием датасета, итд,

С сотки - хорошо сказанно - я ж существующую файнтюню, хотя, надо подумать, может рили можно с нуля бахнуть, и нормальный токенайзер сделать на кирилик языки, по идее это должно лучше перфоманс дать... материалов количество чет к нолю близится по обучениям полным, все про лоры в основном чет...

больше ляма это с нуля если учить или файнтюн? лол в конфиге по умолчанию вообще лимит на 1000 итераций стоял...
Аноним 14/09/24 Суб 23:12:52 886995 236
>>886980
С файнтюном не работал если что.
>больше ляма это с нуля если учить или файнтюн
С нуля офк. Хотя наверное зря я тебе про тренировку базовой задвигаю- на это у тебя железа всё равно не хватит.
Аноним 14/09/24 Суб 23:23:01 887008 237
>>886946
>410М
Нахуя тренить такую мелочь? Это даже не 1.5B, это что-то совсем за гранью. Только чисто ради опыта может быть, потому что смысла от такой модели ровно ноль.
Аноним 14/09/24 Суб 23:29:34 887015 238
>>886902
Признание, правильно.
>>886903
> Но упорядоченный шум мозги не игнорят а активно отслеживают.
Шум нормальных кулеров едва различим и не отличается от дождя, если они не громкие. Пиздецом может быть наличие резонансов и частое слышимое изменение их скорости вращения, вот это будет вымораживать но скиллишью.
>>886930
Ебааааать, снимаю шляпу, делись дурью
>>886946
> обучение идет исключительно супервайзед? и надо датасет в виде вопрос-ответ? или есть возможность просто текстами накормить модельку?
Да. Все зависит от твоих скриптов тренировки и отличия будут только в применяемых масках и желаемом методе.
> если только с кириликом работать
> 410М
Какой самоуверенный господин.
Аноним 14/09/24 Суб 23:31:58 887016 239
>>886995
ну, если до 300М снизить то выгрузки не должно бы быть по идее, может шустрее будет...

ну, пока-может и не хватает, но если надо можно ж и в аренду взять 48 гиговых, за 1$/час, если перспектива проекта обозримой будет, а можно и спонсора поискать, под академик ресерч иногда можно достать...
Есть еще про версия колаба, если не так много надо ресурсов,
Аноним 14/09/24 Суб 23:36:20 887021 240
>>887015
>Какой самоуверенный господин.
в чем принципиальная разница? в том что в класик модельках токенайзер в кирилик не обучен нормально? собственно для ответов на тупые вопросы со списка больше поллярда выделять как-то не кошерно...

>>887008
ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь...
Аноним 14/09/24 Суб 23:45:01 887030 241
>>887021
Обучить ллм - сложно. Обучить ллм с базы - сильно проще. Обучить ллм с базы тому что оно вообще очень плохо знает - сложно. Мелкие модели сами по себе обучаются так себе, русского они не знают и обучение ему само по себе сложная задача.
Если все это сложить - будет ответ. Ничего плохого в этом нет, просто будь готов к неудаче.
Аноним 14/09/24 Суб 23:49:36 887037 242
>>887030
та я какбы к удаче и не был готов, меня порадовало что моделька вообще что-то из обучающего набора запомнила, и хоть иногда выдавала связный текст... но походу копну на тему того, как с ноля обучать, мне почему-то кажется что правильный токенайзер залог лучшей обучаемости? или всеже нет? (но ведь в основном ЛЛМ более прожорливы по токенам на русском? а меньше токенов меньше возможностей налажать... но это так, рассуждения...)
Аноним 14/09/24 Суб 23:53:17 887038 243
>>887037
>но ведь в основном ЛЛМ более прожорливы по токенам на русском?
Сама суть и структура токенизации говно, просто на русском это более заметно.
Аноним 15/09/24 Вск 00:00:20 887053 244
>>887037
Cмотри, какая хуйня, у тебя дефолтный токенизатор, допустим, совсем не может в русский. И будет кодировать один токен - одна буква. Здесь сразу два хуя в сраку. Первый, это модели сложнее выстраивать логические цепочки и взаимосвязи между токенами. То есть твоё количество параметров как бы "снижается". И второй, страдает скорость обучения, т.к за раз в модель посылается фиксированное количество токенов, это мало текста, меньше текста - меньше текста. Трейн идёт дольше.
Аноним 15/09/24 Вск 00:00:28 887054 245
Вот бы придумал какой-нить новый принцип этого говнища, чтобы можно было 100В на 12 бомжегигах запускать.
Аноним 15/09/24 Вск 00:23:44 887074 246
>>887054
Скорее мы получим мелкие модели которые будут перформить как текущие сотки. Ну либо нам начнут впаривать видеопамять отдельными платами. На какой нибудь ахуенно мудреный алгоритм сжатия разжатия для запуска больших моделей на днищекартах я бы не рассчитывал.
Аноним 15/09/24 Вск 00:39:54 887093 247
>>887053
значит рассужда правильно, и токенайзер сразу надо на русик учить, чтобы словами кидал, а не буквами...

>>887054
принципа кардинально нового не будет, потому, что впихнуть невпихуемое нельзя... может придумают как еще оптимизировать и заквантовать чтоб меньше потери были и пустого не считать, но...

>>887074
тут тоже интересный момент, где предел мелкости, по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже.

По поводу Врама планками отдельными - тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах доступных, сверх дорогой ХренDDR7 не нужон, просто сейчас видяхи по сути самые доступные универсальные решения для такого дела, но, так-то при правильной архитектуре 100500ядер и лютый многоканал памяти дадут возможность даже на DDR3 каком-нибудь выдать хорошую скорость... (хм, интересно, кто-то пробовал уже TPU на ПЛИСах делать и смотреть что с этого выйдет)




(интересно кста, я выше приводил пример ответа 405В ламы на "How much wood would a woodchuck chuck if a woodchuck could chuck wood?", кому нечего делать и есть возможность погонять относительно толстые модельки, чекните, будут попытки в рассуждение и ответ, окромя того что это скороговорка?
Аноним 15/09/24 Вск 01:40:54 887150 248
image.png 22Кб, 1264x196
1264x196
image.png 74Кб, 1213x589
1213x589
Хуйня какая-то
Почему не получается загрузить эту модель в textgen? Только вкатываюсь, ничего не гуглится толком.
Аноним 15/09/24 Вск 01:46:56 887153 249
>>887150
на всякий случай попробуй таверну. Угабуга на жоре часто модели прогрузить не может, потому что убабуга кривое говно.
Аноним 15/09/24 Вск 01:50:02 887155 250
>>886946
О, наконец-то анон решил не проперживать воздух шизотеориями, а сразу взяться за дело, уважаемо!
Делись кодом и результатами, если будет получаться. Я тоже хочу заняться такой хуйней, или тренить с нуля что-то уровня 100М ради опыта, или из идей очевидно зафайнтюнить готовую модель на всем пикабу или дваче, или и то и то вместе. Под пикабу есть готовый датасет, но старый, под двач надо самому архивач парсить.

>теперь назревает вопрос по подготовке датасетов - обучение идет исключительно супервайзед?
Что ты тренишь? Если с нуля, то просто кормишь текстами, под конец закидываешь самые качественные, потом файнтюн инструкциями 5%, потом на DPO отфильтровываются говноответы.
>Токенайзер, он настроенный заранее идет и во время тренировок не меняется?
Токенайзер или берется готовый, или делается на твоем датасете простым алгоритмом. Во время обучения он не меняется, максимум может быть можно вводить новые токены под разметку формата.
> и как к стати понимать прогресс тренировок? лосс как-то падает не охотно...
На 8 гигах, удивительно, что ты вообще видишь как он падает, по моему даже 100М с нуля обучается на H100 ~сутки.
>>887021
>ну сорян, кластера для 70В не имею, и в ближайшее время не разживусь...
Посмотри в строну аренды видеокарт или абуза гугл колаба.

И еще, если ты с нуля тренишь, то твоя модель будет лучше всего работать, если ты kv матрицы в одну или две на стой объединишь, так сейчас на всех новых мелких моделях делают.

>>887093
>TPU на ПЛИСах
А какая там скорость памяти на плисах? По моему там уровень позапрошлого поколения процов, при стоимости одной плисины как готовой H100.
Аноним 15/09/24 Вск 05:16:16 887199 251
>>887093
>по сути теряя в параметрах мы теряем в эрудированности модели как минимум, та и сообразительности тоже.
Нынешние мелкие модели на 2-4 лярда уже приближаются к народным 7-12B по производительности. Не во всех ситуациях конечно и не во всех задачах, но если сравнивать с прошлым годом, то скачок ощутимый. Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума, не говоря уже о других сферах. А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.

>тут не в враме вопрос собственно, вопрос скорее в тензорных процессорах
Я не технолог, мозгов у меня мизер. Но в чем проблема выпустить плату чисто с видеопамятью и контроллером, например? Стоит у тебя какая-нибудь днищенская 4060, которая будет проводить часть вычислений, а к ней в пару ты прикупил елду на каких нибудь 32 гигабайта. И теперь у тебя не смешные 8, а целых 40 кило. Сиди гоняй себе какого нибудь командора и радуйся. На сам дорогущий чип тратиться не надо, на охлаждение тратиться не надо, плюс жрать это будет копейки даже в сравнении с какой-нибудь паленой теслой.
Аноним 15/09/24 Вск 11:28:06 887344 252
>>887074
> мелкие модели которые будут перформить как текущие сотки
Хотелось бы, но всему есть предел, сравниться с большими оно сможет только с ограниченной области задач под которую заточен.
>>887150
В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать?
>>887153
Надо huggingface пробовать вместо них, вот там говорят все модели загружаются.
орублять
>>887155
> какая там скорость памяти на плисах
Любая какую сделаешь. Именно они применяются во всяких высокоскоростных решениях, где, например, нужно буферизовать данные супербыстрого ацп, с которыми не в силах совладать даже мощный проц. Но конкуренцию передовым решениям хуанга это врядли составит, буквально прототипирование vs asic.
Аноним 15/09/24 Вск 13:00:03 887442 253
>>887199
>А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.
Нихуя подобного. Сотки всё ещё ебут всё и вся.
>прикупил елду на каких нибудь 32 гигабайта
Рядом положил и надеешься, что оно по эфиру сконектится?
Аноним 15/09/24 Вск 13:23:55 887467 254
>>887199
>Я не технолог, мозгов у меня мизер
по этому для начала надо почитать как устроен компьютер и как и почему это работает, ты же понимаеш что сама по себе видеопамять не имеет каки-то уникальных характеристик прибавляющих перформанса в десятки раз?

в том же ж и проблема, контроллер памяти по сути в процессоре стоит, суть не в том чтоб просто много памяти залить, суть в том, что нужна память к которой процессор имеет быстрый доступ - а значит ее надо прям на шину процессора вешать, и для этого процессор должен уметь адресовать такие объемы... тут в целом видится с одной стороны подход схожий с тем как в серверных процессорах - тобиш делать регистровую ГПУ память, чтобы адресовать большие объемы, или опять таки делать модульные приблуды, куда памяти докинуть можно... какая-нибудь отдельная тензорная плата, ну или на худой конец, тензорные модули в ЦП будут, и тогда можно будет использовать весь RAM доступный в пекарне, да, может для тренировок это будет не оч, но для запуска вполне себе...
Аноним 15/09/24 Вск 13:40:15 887484 255
>>887199
>А сегодня уже точно понятно, что количество параметров мало влияет на сообразительность.
Влияет. Чётко видна разница даже между 70В и 123В. Чем больше деталей нужно учитывать, тем больше параметров нужно.
Аноним 15/09/24 Вск 15:11:52 887555 256
>>887484
>даже между 70В и 123В
104 и 123 же.
Аноним 15/09/24 Вск 15:36:29 887574 257
>>887199
>Раньше всё что ниже 13B считалось тупым и неюзабельым, непригодным даже для еби-меня-еби кума
А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b.


>ты прикупил елду на каких нибудь 32 гигабайта.
Дефолтная отмазка - все длины дорожек от гпу до памяти рассчитаны, равноудалены и бла-бла-бла. Решается просто - стандартизацией. С завода распаянной памяти нет вообще, изначально ставится плата. Вторая по популярности отмаза это разъём, мол, там-то точно пизда, помехи и всё такое. Ноутбучная lpddr5 суёт за щеку этим рассуждениям. То есть технических ограничений нет. Да, что-то придётся подшаманить в контроллере памяти. В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль?
Аноним 15/09/24 Вск 15:53:47 887592 258
>>886955
Лям итераций при скорости в 3 итерации в секунду это 3-4 дня всего, плевое дело
Аноним 15/09/24 Вск 15:59:37 887602 259
>>887155
Там поначалу сетка учится просто слова составлять из букв, а это уже очень много дает в плане падения лосса, я десять лет назад на 980ti lstm модели за сутки надрачивал писать грамматически почти верный текст, так что лосс будет падать конечно в начале
Аноним 15/09/24 Вск 16:04:44 887605 260
>>887574
>С завода распаянной памяти нет вообще
А контакты и сам чип под это должны быть рассчитаны. В итоге куча людей будет переплачивать за ненужную им хуету, а во времена, когда производители экономят на каждом резисторе для увеличения маржи, это практически невозможно.
Аноним 15/09/24 Вск 16:10:04 887610 261
>>887344
> В интерфейсе не пишет про то что нужно скачать токенайзер и не дает инструкцию как это сделать?
Нет, к сожалению.
Было бы слишком очевидно. Но все-равно скачал, если речь о токенайзере из тредовской инструкции.

Вместе с этим имею еще развернутый llama_cpp_python (в отдельном виртуальном окружении питона) и там подгружаются все модели без ошибок, но через код на питоне это все делать - такое себе, да и явно в убабуге настройки исходные лучше для пользовательского взаимодействия, а также там еще есть человеческая апишка.

Также пробовал развернуть убабугу с нуля на WSL, результат - та же самая ошибка. Придется, крч, еще покопаться.
Аноним 15/09/24 Вск 16:15:23 887615 262
>>887605
Cебестоимость слабо влияет на итоговую цену. У той же h100 маржа около 800% от себестоимости. А за счёт массовости эта вся модификация будет стоить баксов десять. Можно отдельно выпускать под увеличение памяти и без такой возможности, но вангую, что это будет дороже.
Аноним 15/09/24 Вск 16:35:56 887632 263
>>887615
>А за счёт массовости эта вся модификация будет стоить баксов десять.
Пока что цены только растут. Карт нужно всё больше и даже на игровой рынок забивают. Я даже не представляю, кто и что мог бы сделать для больших локальных моделей. Для 7В вот встречал решения, которые подавались "стартапами" с большим энтузиазмом. Но даже 70В для этих жуликов непреодолимый барьер.
Аноним 15/09/24 Вск 16:39:07 887634 264
>>887615
>А за счёт массовости эта вся модификация будет стоить баксов десять.
10 баксов?! А ты не ахуел столько тратить? Очевидно, что 10 баксов на миллион устройств это 10 млн баксов, а это уже сумма, за которую можно удавить и тебя, и меня.
>но вангую, что это будет дороже
Именно. Поэтому никогда и не будет.
Аноним 15/09/24 Вск 16:53:02 887638 265
image.png 4Кб, 403x70
403x70
Что это? Типа автоматом слои выставляет?
Аноним 15/09/24 Вск 17:22:26 887650 266
Аноним 15/09/24 Вск 17:32:37 887662 267
>>887602
так я не с ноля тренил, еще не смотрел со вчерашнего что вышло, но сегодня загляну...

а вообще, мне пришла мысль, что для моей идеи полноценная ЛЛМ не нужна, надо распознать что хочет анон, и отдать ID ответа, или последовательность таковых... походу такое должно проще на порядок тренироваться, и главное, можно править ответы если поменялось что-то... буду наверно в эту сторону копать... но полноценные тоже потренирую конечно
Аноним 15/09/24 Вск 17:35:02 887665 268
>>887467
Ты говоришь про устройство материнской платы, а но про ГП.
Китайцы умудряются припаивать чипы с дополнительной памятью картам, в которых она изначально не предусмотрена. Так почему бы не сделать разъём куда будут вставляться готовые модули?
Аноним 15/09/24 Вск 17:39:15 887669 269
>>887574
>а нахуя это всё кожаному

Именно!, массовые платформы для нейронок пока не нужны скажем так, они 1.5 калекам сейчас нужны дешевые, а компании покупают и то чот есть... но вообще, хотелось бы увидеть вундервафлю, в которую можно засунуть 100500 гб обычной ддр3, и которая могла б нормально нейронки гонять, но, тут опять таки вопрос в том, кто и для кого єто разработает, спроса нет, значит не разработают... по факту как таковой ГПУ не нужон, нужон просто вычислительный модуль с овер дофига простых ядер...
Аноним 15/09/24 Вск 17:46:02 887673 270
>>887467
какая разница мать или видяха, принцип везде одинаковый, китайци припаивают потому, то там свободное место есть, под которое рассчитан процессо, и все, у него есть каналы свободные, есть возможность адресовать - значит можно допаять и биос пофиксить, но, это в потребительских весьма ограничено, и 80гб в 1060 не запаяеш, как бы не хотел... какой смысл от разъема будет, если еще и биос карты править надо, и к тому же выбор не велик будет чуть меньше или чуть больше, не забывай, что в этом плане, видеокарта не мать, и как угодно какую угодно память жевать не будет, + ты получиш едреного франкенштейна с разъемами памяти, которую не понятно как остужать, и которая зачем?
Аноним 15/09/24 Вск 17:46:49 887674 271
>>887665
>>887673
детектор сломался, не туда ответил
Аноним 15/09/24 Вск 17:48:28 887679 272
169316407413763[...].png 590Кб, 1024x682
1024x682
>>887665
> не сделать разъём куда будут вставляться готовые модули?
Слишком умный, да? Покупай А100, если нужно больше памяти. Умные люди уже подумали.
Аноним 15/09/24 Вск 17:49:42 887683 273
>>887610
Да, то только для hf загрузчика нужно. И там другая ошибка, у тебя оно по другой причине не стартует, возможно поломалась установка или древняя версия.
> убабугу с нуля на WSL, результат - та же самая ошибка
Или параметры запуска кривые, или модель битая (но раз другим запускается то норм), или либы не соответствуют железу, что там кстати?
>>887574
> А сейчас не так, чтоли?
Все так, мелочь хоть и стали умнее и их можно применять в некоторых задачах, они остались глуповатыми до абстракций, а 65-70б как ебали from the beginning, так и ебут.
>>887665
> Китайцы умудряются припаивать чипы с дополнительной памятью картам
Правильно, даешь зомби-врам мод!
Аноним 15/09/24 Вск 17:57:55 887692 274
>>887610
Зачем, зачем ты в WSL cуеш? она под виндой нормально работает, зачем лишняя прослойка? тем более тебе видяха нужна
Аноним 15/09/24 Вск 18:01:08 887701 275
>>887679
когда ♂Letherman♂ перестал сниматься в гачи рликах, и стал продавать видяхи ML бомжам...

а вообще, хорошо что в нашей сфере хоть как-то "наука" доступна массам, прикиньте еслиб физики ныли сейчас, дайте коллайдер за 200$ массовый отечественный, чтоб каждый мог НЕХ делать...
Аноним 15/09/24 Вск 18:06:40 887712 276
>>887683
> Или параметры запуска кривые
А, я дэбил, прошу прощения. Не выставил ручками размер контекста для запуски модели, он там по умолчанию какой-то большой слишком.
Аноним 15/09/24 Вск 18:16:48 887724 277
>>887712
постоянно на такое попадаюсь, при подгрузке модели ставить любит 130к контекста....
Аноним 15/09/24 Вск 18:20:58 887733 278
Screenshot 2024[...].png 846Кб, 1000x1000
1000x1000
Untitled.png 10Кб, 976x175
976x175
Screenshot 2024[...].png 77Кб, 517x552
517x552
Screenshot 2024[...].png 74Кб, 414x580
414x580
Ну чо, 2 токена в секунду на хую у муравья!

Но есть проблема - если выбираю Text Completion, то нихера не работает. Если выбираю Chat Completion, то все работает. Как пофиксить Chat Completion, чтобы работал с уга-бугой?
Аноним 15/09/24 Вск 18:35:55 887771 279
>>887733
что там за начинка? капец, роутер с ХДМИ, к такому жизнь меня не готовила)
Аноним 15/09/24 Вск 18:39:12 887775 280
Аноним 15/09/24 Вск 18:39:44 887776 281
image.png 96Кб, 1049x750
1049x750
Аноним 15/09/24 Вск 18:40:01 887778 282
>>887775
Зачем? Ставь таверну.
Аноним 15/09/24 Вск 18:50:05 887795 283
Screenshot 2024[...].png 108Кб, 1894x673
1894x673
>>887771
Intel Core i3-N305, 32 GB RAM LPDDR5 6400MT/s, три порта по 2.5 Гб, два порта по 10Гб.

>>887776
Хммм, включено
Аноним 15/09/24 Вск 18:50:19 887797 284
>>886912
Ты где ее взял? Дай ссылку.
Аноним 15/09/24 Вск 18:50:30 887798 285
>>887778
Ну я только с кобольдом пока разобрался. Для работы таверны он тоже ведь нужен? Можешь послать по урлу как ставить таверну и вот это вот все?
Аноним 15/09/24 Вск 19:02:58 887822 286
изображение.png 22Кб, 942x318
942x318
>>887795
>три порта по 2.5 Гб, два порта по 10Гб
Если ещё и стоит до 10к, я бы взял.
>>887798
>Для работы таверны он тоже ведь нужен?
Да. Отличный гайд если что есть в вики не, серьёзно, в офф репе инфы достаточно.
Аноним 15/09/24 Вск 19:05:16 887831 287
Аноним 15/09/24 Вск 19:08:43 887839 288
>>887467
Научись сначала посты внимательно читать. Мой реплай изначально был о том, чтобы использовать дефолтную видеокарту для вычислений, а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie. Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda (да, оно работает медленнее, но всё равно быстрее любого цпу с псевдоинтрукциями), по этому никакой проблемы нарастить объем видеопамяти нет. То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки.

>>887574
>А сейчас не так, чтоли? Очевидно, что выше семидесяток умственные способности моделей практически не растут, но 7-12 это далеко не 70b.
Никто не сравнивал 7-12 и 70. Я буквально написал, что разрыв между мелкими моделями 2-12B существенно сократился за последний год и по этому количество параметров это уже не релевантный способ для оценки умственных способностей модели в примерно одной весовой категории. Разумеется если ты возьмешь ламу три-восемь и ламу три-семьдесят ты почувствуешь разницу. Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после десятка часов специфических тестов.

>В итоге остаётся только один вопрос - а нахуя это всё кожаному? С какого перепуга ему делать такую систему, которая снижает его прибыль?
И насколько сильно это снизит прибыль тех же зеленых жопошников, когда они уже сейчас продают целые кластеры на сотни миллиардов американских рублей всем сторонам, включая китайские подвальные корпы? Некоторые вендоры видеокарт итак периодически паяли на платы больше памяти, чем рассчитывал куртка, но че-то никто сильно не вонял по этому поводу. Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит, потому что тебе всё равно придется покупать полноценную карту с чипом для математической ебли. А уж если мы говорим о коммерческой составляющей, то нахуя продавать что-то целиком, когда это можно впихнуть по кускам с большим выхлопом? Выпускаешь огрызок который ни на что не способен сам по себе, а в довесок к нему барыжишь видеопамятью. Кому надо больше - возьмет больше. Кому нихуя не надо - возьмет меньше. Все только останутся в выигрыше. Ну либо будем иметь ситуацию как сейчас, где в карте за 130 кусков тебе предлагают 16 кило памяти и ебись дальше как хочешь.
Аноним 15/09/24 Вск 19:17:37 887854 289
image.png 95Кб, 954x551
954x551
>>887795
Хз, может у тебя из-за твоего апи жалуется? У тебя же не стандартный локалхост стоит, но все равно должно быть похуй на это и работать. А чем тебя не устраивает работа через Chat Compeletion, чем через Text Completion?
Аноним 15/09/24 Вск 19:18:51 887857 290
>>887854
>похуй на это и так работать должно*
Аноним 15/09/24 Вск 19:19:35 887858 291
>>887839
>по этому никакой проблемы нарастить объем видеопамяти нет
>То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX
Отберите у человека доступ в интернет, он еблан.
>Но если ты сейчас запустишь какую-нибудь фи 3.5 и сравнишь ее с любой мелкой ламой любого поколения, то разницу заметишь после
1 поста. В данном случае, но всё же. Просто фи эталон сои, она воняет ей за километр.
Аноним 15/09/24 Вск 19:21:38 887860 292
А в убабуге нельзя дообучить llamacpp модель на собственном датасете? Хотелось бы научить новым словам и речевым оборотам.

На сколько сложно это вообще осуществить?
Аноним 15/09/24 Вск 19:41:46 887888 293
>>887839
>а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie

ну ты васян... архитектуру компьютеров учи, чтобы знать что такое быстрые и медленные шины, и чтобы такой бред не нести...
Может ты еще оперативку по SATA3 подключиш? видеопамять должна быть подключена напрямую к GPU иначе скорость доступа к ней еще медленнее чем к оперативке будет (ладно про оперативку погорячился, но упор все равно в PCIE)...

>То же самое что ты берешь теслу и втыкаешь ее в связку с условной RTX40XX чтобы просто получить больше пространства для выгрузки.
Ты этого даже не пробовал делать, РТХ будет считать только то что в ее памяти, то что в памяти теслы будет считать тесла!, и тормозить весь пайплайн...

> потому что на чипе от любого огрызка уже есть cuda
и скорость работы будет соответствовать огрызку, найс решение, надежное как швейцарские часы... количество ж ядер вообще не решает, 500 там, 1000, или 5000...

короче гоняй на ЦП, там можеш хоть терабат, хоть 2 оперативы засунуть, а количество ядер у тебя все равно не решает, так что процессор самый дешевый бери
Аноним 15/09/24 Вск 19:44:25 887892 294
>>887858
с кем мы сидим в одном треде...
Аноним 15/09/24 Вск 19:46:14 887893 295
>>887839
>И насколько сильно это снизит прибыль тех же зеленых жопошников
На много.
>вендоры видеокарт итак периодически паяли на платы больше памяти
Ага. Партия уничтоженных 3080 на 20gb.жпг.Пара единиц карт, спизженных со складов, не в счёт. Страшно представить, какие убытки понесли вендоры.
Или те же EVGA, которых кожаный схватил за яйца и запретил даже разгон биоса делать. Да так сдавил, что EVGA отказались от 80% своей прибыли и вышли из партнёрства. Дохуя свободы, да? Если завтра какая-нибудь фирма начнёт продавать карты со слотами под память, то им очко порвут.
>Продажа видеопамяти отдельными кусками текстолита сильно никого в убыток не затащит
Ну да, вместо покупки условной 6090 народ будет покупать 6060, лепить туда память и просто ждать подольше. Потом ещё найдутся какие-нибудь конфигурации, когда производительность на доллар будет выше, чем у топового решения и все хуй забьют на хх90.
>Выпускаешь огрызок который ни на что не способен сам по себе
Смотри какая хуйня, сейчас есть 4080 супер за штуку зелени и 4090 за две. Предположим, что меня абсолютно устраивает перформанс 4080, но мне мало памяти и это единственная причина, по которой я буду готов выложить лишнюю штуку баксов. Кожаному, чтобы не стрелять себе в ногу, нужно сформировать цену таким образом, чтобы я выложил эту лишнюю тысячу. Значит, 4080+8гб памяти должны быть сопоставимы по цене с 4090. Это тысяча долларов за 8 гигабайт, иначе кожаный теряет прибыль. И сюда же нужно добавить риски того, что китайцы начнут выпускать 8гб по 500$. Это один случай. А если бы я покупал две 4090, но оказалось, что одна+24 гига памяти дешевле и устраивает меня по перформансу? Кожаный теряет лишнюю продажу.

>всунуть в тот же соседний слот pcie.
Это полный кал.
Аноним 15/09/24 Вск 20:04:09 887905 296
image 78Кб, 1239x151
1239x151
>>887822
IT'S ALIVE!

Я пока не вникал, но как оно работает вообще, этот лорбук? Парсит мой инпут на совпадения и впихивает в промпт текст оттуда? Как сильно оно загружает мощностя / тратит контекст?
Аноним 15/09/24 Вск 20:10:34 887907 297
>>887905
>Парсит мой инпут на совпадения и впихивает в промпт текст оттуда?
Да.
> Как сильно оно загружает мощностя / тратит контекст?
Так ты посмотри, хули там. И да, всё настраивается.
Аноним 15/09/24 Вск 20:12:30 887909 298
>>887888
Ну хули, сиди и страдай тогда. Ебись с некротеслами или плати по оверпрайсу за пару 4090, наслаждаясь сапогом в жопе, за который ты сам заплатил. Я тебе привел теоретически рабочую схему, а ты навыдумывал какой-то хуйни, приплел какую-то другую хуйню и сейчас сидишь и ей обмазываешься, лишь бы че-то доказать.

Да, подключение через pci-экспресс порт не самое эффективное, но это просто один из вариантов. И даже в таком случае будет в разы быстрее чем гонять через процессор и оперативную память. Хочешь меньше потерь при передаче - всегда можно придумать альтернативу, распаять слоты на видеокарте, но новые технологии ведь не нужны, правда?

>>887893
Нужно просто увеличить разрыв и разделить карты по производительности. Берешь базовую карту с дешевеньким чипом за условные 500$ и на 500$ докупаешь к ней видеопамяти на те же например 32 гигабайта. Итого косарь за сборку, которая будет худо-бедно гонять средние 20-30B не на дробных токенах. Хочешь что-то более производительное, покупаешь чип за 1000$, докупаешь видеопамять и так далее. Итоговый упор будет всё равно в мощность самого кристалла, какая бы цена за видеопамять не была, так что потери кожаного будут минимальны, если они вообще будут.

Но это чисто моя влажная фантазия, ни на какие щедрости от жопошника я не надеюсь. Он итак сейчас по сути монополист, так что как минимум еще одно поколение мы от него никуда не денемся.
Аноним 15/09/24 Вск 20:14:33 887910 299
>>887909
>И даже в таком случае будет в разы быстрее чем гонять через процессор
Мы тут будем ему рассказывать, или скроем правду?
Аноним 15/09/24 Вск 20:17:42 887914 300
>>887893
забей, там магическое мышление,
чел не понимает, почему видеокарта гоняет модельки быстрее, иза счет чего видеопамять выигрывает.... в его понимании видеопамять это просто какой-то особенный чип прибавляющий производительность

Интересный факт, первые поголения гугловсикх TPU были на ДДР3!, внезапно, и это не мешало им нейронки гонять по полной
Аноним 15/09/24 Вск 20:23:00 887918 301
>>887914
>и это не мешало им нейронки гонять по полной
Уверен?
>Пропускная способность памяти 34 Гб/с
Аноним 15/09/24 Вск 20:24:01 887920 302
>>887914
Ты откуда сюда приполз, дурик? Ты буквально ебешься в глаза, сам что-то выдумываешь в своей голове, а потом на это отвечаешь с умным ебалом и кучей уверенности. Перечитай мои посты по трезвяку, а потом уже высирайся.
Аноним 15/09/24 Вск 20:40:29 887926 303
>>887909
>будет в разы быстрее чем гонять через процессор
С херов ли? У pci-e 4.0 пропускная способность 32 гигабайта. Это что-то уровня 1866 ram в двухканале. Чуть быстрее. То есть pci-e сосёт даже у ddr3. У 3200 в восьмиканале будет уже около 200 гб\с пропускной способности, о чём pci-e может только мечтать, даже у 5.0 версии чуть меньше 4 гигов на линию, при 16 линиях около 64 гигов в секунду. Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет.

>Хочешь что-то более производительное, покупаешь чип за 1000$
Приходит киберкотлет в магазин и выбирает картонку под каэс. У него требование одно - миллиард фпс в ксго. Это ему обеспечит топовый чип. То есть он берёт минимальный набор vram и топ чип. Ну, пусть 1200 за всё. Приходит тот же киберкотлет в тот же магазин в параллельном мире, где он не может выбирать количество vram. Он покупает топовое решение за 2к$. Итого, в этом мире кожаный поимел на 800$ больше. Кожаный из первого мира ощущает привкус хуйца.
>на те же например 32 гигабайта
Ты в том мире собрал 32 гигабайта за косарь, в этом мире 32 гигабайта это две 4080 по 16 гигов на два косаря. Параллельный кожаный теряет косарь и снова ощущет привкус хуйца. И можешь быть уверен, что он сделает всё, чтобы привкус хуйца ощущал ты вместо него.
Аноним 15/09/24 Вск 20:53:19 887930 304
>>887926
Лол, возьми 4060 засунь ее сначала в x16, потом в x4 и посмотри на разницу. По твоей логике ее ддр6 походу должна как ддр3 перформить, пропускная то урезана. Но че то этого не происходит, почему интересно?
Аноним 15/09/24 Вск 20:55:31 887933 305
>>887926
>Это, кстати, одна из причин, почему нвлинк это для илиты и на 4090 его нет.
А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь?
Аноним 15/09/24 Вск 20:58:40 887936 306
image.png 14Кб, 778x309
778x309
image.png 542Кб, 845x870
845x870
Я для тебя шутка?
Аноним 15/09/24 Вск 21:01:02 887939 307
>>887909
поделись шмалью

ты пропускную PCIE видел? это самая медленная из внутрених шин компьютера, медленнее только внешняя периферия, хотя по сути это и есть шина для периферии внешней, топовые ускорители все на HBM памяти сейчас, чтобы максимально ускорить доступ процессора к памяти...

твоя схема теоретически работающая это а давайте ядерный реактор под капотом тачки поставим, чтоб заправлять не надо было, и платить жидомасонам за бенз треп языком, ты ведь ни конкретных реализация ни прототипов не предоставил, как она будт детектится, как совместимость между чипами, и памятью, стандарт разъема итд...

Видеокарта для таких целей вообще принципиально плохое решение, жду массовых TPU лол, не дождусь походу или ЦП с тензорными ускорителями, зачем переплачивать за шейдерные блоки, всякую хрень игровую дайректиксы итд, чтобы гонять на этом вычисления...

А кто целевая аудитория конструкторов этих будет? корпоратов устаивает текущий рынок, а геймерам нафиг не сдалось, какой процент аудитории использует для нейронок, чтобы выпускать это в массы?
Аноним 15/09/24 Вск 21:03:27 887940 308
>>887930
Даю подсказку для долбоёбов - чтобы пропускная способность pci-e на что-то влияла, нужно чтобы по ней гонялись данные. И тут у нас как раз охуенная ситуация, когда внешнюю vram предлагают расположить сразу за двумя pci-e. Это будет медленнее, чем оффлоад в ram.

>>887933
Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу.
Аноним 15/09/24 Вск 21:05:18 887942 309
>>887933
>А кстати в экслламе нвлинк поддерживается? И если да, то даёт что-нибудь?
Сам нашёл ответ. Нет, пока нет. Может и никогда нет - очень узкая ниша.
Аноним 15/09/24 Вск 21:08:43 887945 310
>>887940
Подсказка засчитана, только долбаеб тут ты. Ты выгружаешь модель в видеопамять и всё, она там лежит и спокойно обрабатывается, пока ты гоняешь модель. Долгим будет только процесс самой первичной загрузки.
Аноним 15/09/24 Вск 21:08:59 887946 311
>>887926
>У pci-e 4.0 пропускная способность 32 гигабайта.
ты вкурсе нахуй ваще видео память нужна? что б не гонять постоянно все через пси-е шину а 1 раз загрузил и работай на видяхе
учите матчасть
>Это что-то уровня 1866 ram в двухканале.
дальше не читал
Аноним 15/09/24 Вск 21:09:51 887947 312
>>887940
>Вряд ли. Это даст буст при обучении, но при инференсе данных гоняется не настолько много, чтобы заметить эту разницу.
Ну допустим 2-4 3090, у которых есть выход нвлинк - и плата с PCIe 3.0 или вовсе обрезки какие-нибудь. А так получаем типа одно устройство с 48 или 96 гб врам. Жаль только, что ни лламаспп, ни эксллама и вообще никто этот самый нвлинк не поддерживают :)
Аноним 15/09/24 Вск 21:12:57 887949 313
>>887918
И? там памяти 8 гб так-то было, та и нейронки чуть другие были, да, ограничение было, но в том же году вышло 10е поколение зеленых, и тем не менее гугловские тензорники конкуренцию дежали... тем более в следующей версии взяли нормальный интерфейс для памяти всеже
Аноним 15/09/24 Вск 21:15:10 887950 314
>>887930
>>887920
свали в железотред, а лучше в колледж местный, и изучи как пекарня работает, и не морочь голову в нейронкотреде
Аноним 15/09/24 Вск 21:17:10 887951 315
>>887946
так даунич предлагает видеопамять воткнуть в PCIE
Аноним 15/09/24 Вск 21:19:05 887952 316
>>887945
кто ее гонять будет если память отдельно от ГПУ?
Аноним 15/09/24 Вск 21:19:13 887953 317
>>887946
>>887945
Два слепошарых дебила. Пиздец просто.

>>887947
>типа одно устройство с 48 или 96 гб врам
Да эта залупа так не работает. У нас всё ещё два устройства, только синхронизация между ними будет быстрее. Жора вообще поехавший, у него при ровсплите разбиваются тензоры, потому это даёт прирост только при сравнительно большой псп и слабых чипах. Послойное разделение он не так давно добавил, но вангую, что всё ещё полно косяков.
>Жаль только, что ни лламаспп
https://github.com/ggerganov/llama.cpp/pull/2470
Хе-хе. Жора вперде планеты всей.
Аноним 15/09/24 Вск 21:19:32 887954 318
изображение.png 7Кб, 936x89
936x89
>>887930
>возьми 4060
>x16
Ты блядь троллишь или да?
>>887939
>ЦП с тензорными ускорителями
Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может.
>>887949
> тем более в следующей версии взяли нормальный интерфейс для памяти всеже
Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна.
Аноним 15/09/24 Вск 21:25:38 887955 319
>>887952
Я лично транзисторы щелкать буду, долбаеб дремучий блять. Уже сука три раза написал, всё равно в упор не видишь.

>>887950
Только если ты со мной вместе в колледж пойдешь, потому что твою шизофрению стыдно в пределах треда держать, нужна аудитория побольше.

>>887954
Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь? Хорошо блять, если тебе принципиально, засунь сначала в x8, а потом в x4.
Аноним 15/09/24 Вск 21:29:52 887956 320
>>887955
>Ты долбаеб разницы между встроенным количеством линий и линиями на материнки не видишь?
Ух бля, вот вставлю видяху х1 в слот х16, и как попрёт у меня скорость в 16 раз больше!
Аноним 15/09/24 Вск 21:32:10 887958 321
>>887956
Хуйню сморозил - начал клоуничать. Обожаю этот тред.
Аноним 15/09/24 Вск 21:32:29 887959 322
>>887954
>Именно что, первая версия это блин комом, чисто тестовая хуйня, даже в каллабе бесплатно её не дают, ибо нахуй не нужна.
да, не особо удачный варик, но утверждали что 16 ТПшек, показывали перформанс 50 гпу (не говорится правда каких, и что за задача была, но то такое, вопрос во многом в том, насколько эффективно можем загрузить и использовать в подсчетах...)

>Ничего не дадут, ибо больше 6 ядир контроллер памяти обслужить не может
поживем - увидим, что будет, хм, а зачем оператива восьмиканальная тогда? мне сдается для инференса адаптиуют процессоры, ибо выгодно, для тренек - да, спец железо останется приоритетным... ждем тестов короче на текущих топовых серверниках, и смотрим куда движется движ...
Аноним 15/09/24 Вск 21:33:32 887960 323
>>887955
>Уже сука три раза написал, всё равно в упор не видишь
что ты хочеш вставить память отдельно от ГП в PCIE?
Аноним 15/09/24 Вск 21:38:39 887965 324
>>887960
Если будет технология по сопряжению, то да. И не просто память отдельно, а контроллер вместе с ней чтобы вся эта хуйня бурлила совместно с основной картой. Либо на самой карте слоты распаять, чтобы о боже мой скорость передачи данных так сильно не падала при загрузке.
Аноним 15/09/24 Вск 21:44:37 887970 325
>>887839
> а видеопамять ей докинуть уже отдельными модулями, всунуть в тот же соседний слот pcie
Без шансов, за эту фразу тебя и начала обоссывать, вполне справедливо. В том и вся проблема что видеопамять так просто не нарастить и пихать в соседние слоты бессмысленно.
> Никакие отдельные блоки тензорных ядер не нужны, потому что на чипе от любого огрызка уже есть cuda
А вот за это зря не обоссали ибо вычислительная мощща необходима для обработки контекста.

Если на что-то более менее реальное смотреть то это должен быть какой-нибудь soc с кучей каналов памяти, как это реализовано в огрызках и эмбедах.
>>887936
Катал кто? Надо скачать, действительно интересно.
>>887940
> Это будет медленнее, чем оффлоад в ram.
Да ладно, будет чуточку быстрее при использовании всяких костылей/технологий и рам не будет использоваться.
> Это даст буст при обучении
Это дает бусты только в особых случаях, например при fsdp или ну очень активном обмене данными между карточками, чего всячески стараются избегать всегда. И на самом деле nvlink также тормознут по сравнению с врам, кроме самых-самых последних реализаций.

Ну че, этот шиз уже осознал где сфейлил и пошел дерейлить в "так и задумано" или еще спорит?
>>887965
А, уже перекатывается. Ну вот и консенсус достигнут. Вот только нет нормального быстрого интерфейса, позволяющего обеспечить сравнимые с нативной врам псп и минимальный лаг, которые можно/рационально было бы реализовать по схеме с "отдельным слотом". Только прямое подключение чипов памяти к видеопрофессору, как это сделано в обычной рам.
Аноним 15/09/24 Вск 21:47:18 887972 326
>>887958
Хуйню начал нести ты, и после порции урины в лицо объём хуйни только вырос.
>>887959
>а зачем оператива восьмиканальная тогда
А причём тут восьмиканал? Сопроцессоры добавляют в обычные десктопы, где 100 ГБ/с это пердел.
>>887965
Скорости псины тебе уже привели, тебе мало?
Аноним 15/09/24 Вск 21:48:33 887973 327
>>887795
Всегда подумывал такое собрать, но цена отпугивала.
Но, забавно, поздравляю, че, кек. =)
Аноним 15/09/24 Вск 21:49:28 887974 328
>>887965
ты ж в курсе что в процессе работы утебя моделька не просто в памяти лежит, а ГП на куда ядрах ее ВСЮ пересчитывает, с твоими входными данными, а теперь подумай, чего стоит твоя идея отдельной памяти, или ты думал память сама ее считает?

Ты ж даже не знаеш что контроллер делает, зато терминами раскидываешся,

слоты на карте в теории могут быть, но это должен быть абсолютно другой ГП с абсолютно другим контроллером который предназначен для сменной памяти. Еще раз, иди умные книги почитай, потому что ты сейчас как школьник пытающийся вечный двигатель изобрести, предлагаеш ешения не понимая как это вообще должно работать
Аноним 15/09/24 Вск 21:52:29 887975 329
>>887940
А ты засунь все в одну видяху, и гонять не придется. Загрузил и радуешься.

>>887947
Нет, нвлинк в консьюмерских движках никак не используется, забей.
Не получаем.

>>887953
Я их тред не читал, но ты похож на правильного.
Жора как всегда, впереди планеты всей, но бежит жопой вперед, почему-то. х) вздох

———

Ладно, дальше там еще смешное у вас было, но я лезть не буду.
Аноним 15/09/24 Вск 21:53:05 887976 330
>>887972
>А причём тут восьмиканал
Божественный Эпик... ждем от них интересностей... 128 ядер собственно должны и так неплохо перформить, но таких мажоров в треде походу нет
Аноним 15/09/24 Вск 21:56:54 887980 331
LPCAMMBottomPad[...].png 199Кб, 678x301
678x301
SamsungLPCAMMcr[...].png 177Кб, 678x424
678x424
>>887965
>чтобы вся эта хуйня бурлила совместно с основной картой.
Контроллера не хватит. Нужен второй GPU.

>>887970
>при использовании всяких костылей/технологий
Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже, а шиз предлагает сразу два таких бутылочных горлышка. То есть это хуже по псп, это хуже по задержкам. RAM будет быстрее, как ты не ебись. Вариант только с расположением памяти на самой gpu. Я с самого начала упоминал ноутбучную lpddr5, вот на это стоило бы надеяться, живи мы в идеальном мире. Снял бэкплейт, поставил плату, вкрутил болт. Ура, у тебя больше vram.
>по сравнению с врам
Да по сравнению с vram всё тормознутое, чего уж.

>>887975
>А ты засунь все в одну видяху, и гонять не придется
Обсуждение шло про дополнительную память. А то памяти мало. Так-то заебись на самом деле, если всё в одной видяхе. Но памяти всё равно мало.
Аноним 15/09/24 Вск 21:58:42 887983 332
>>887650
У меня эта версия не работает чет.
Аноним 15/09/24 Вск 22:04:26 887987 333
>>887972
Вот интересно, на Зион Phi, кто-то запускал или пытался хотяб запустить? там овердофига ядер x86... почти видяха... но ощущение что те у кого есть такое перекомпилить не могут ламу и не хотят, а кто хочет - нет таких карточек....
Аноним 15/09/24 Вск 22:06:35 887988 334
>>887972
Да, чел, всё так и было. Маме похвастаться не забудь. Иначе я приду и похвастаюсь сам.

>>887974
Ебать, как всё плохо с тобой. Ты наверное когда колесо впервые увидел, тоже ахуел. Прикинь, само крутится и едет, это же бред, правда?

А если серьезно, то повторяю еще раз. Способ наращивания памяти может быть любой. Через писюшку это хуевая идея? Хорошо, принимается. Тогда берем плату, напильник и начинаем растачивать слоты, потому что проблема только в отсутствии технологии.

Вы как хотите нахуй, но я буду продвигать эту идею в массы. Докупная видеопамять это хорошая, это пиздатая идея и вы меня не переубедите, додики.
Аноним 15/09/24 Вск 22:09:01 887990 335
так, давно не заходил в тред, вижу там куча гейченжеров вышла
посоветуйте кароч ггуф модельку чтобы генерить нсфв промты для поней и не для поней, максимально мелкого размера чтобы сдхл не выгружалась с карточки 12 гиговой
Аноним 15/09/24 Вск 22:11:24 887991 336
>>887980
> Так упор не только в псп. Есть ещё такая залупа, как latency. И pci-e сосёт по задержкам тоже
Вроде об этом и написал. Просто в идеальном случае прямой доступ девайс на шине - девайс на шине без задействования профессора может оказаться быстрее чем в рам, задержки самой шины не столь велики по сравнению с остальным.
> Снял бэкплейт, поставил плату, вкрутил болт.
В рамках видюхи врядли взлетит, но как система на плате где предусмотрено много слотов под рам - возможно. Помимо слишком большого размера даже у самой мелкой врам, это радикальное усложнение дизайна платы, вагон проблем с совместимостью и много головной боли вендорам и всем-всем из-за ограниченной совместимости.
Считай на современных технологиях и все оче дорогом, можно сделать аналог P40 по псп (пусть и с кратно большим объемом) в форм факторе 4090, весь бекплейт которой будет забит слотами. И издержки выльются в такую стоимость что ты не захочешь, а корпоратам такое не нужно из-за низкого перфоманса. Собственно потому и не делают.
А вот когда достаточно мощное видео/тензорное ядро уже есть рядом с процессором, а анкор неприлично разожран - просто обычная пека с количеством каналов рам. Это реализовано в эплах (правда память распаяна) и они перформят. В теоретической теории, ллмки должны летать на условной плойке. Из готовых девайсов - грейс от куртки, там правда немного другая парадигма в том что видеоядро с памятью самодостаточно, но шина данных общая и она оче быстра.
Аноним 15/09/24 Вск 22:12:29 887992 337
>>887988
>потому что проблема только в отсутствии технологии
проблемы нет, есть жадность вендора, потому что NVIDIA должна сделать ГП который нормально принимает разную память со слотов иначе это будт костыли с патчингом биоса при смене памяти прочими подводными

и да, массам эта идея не нужна, все в облака давно лезут уже... но ты можеш сделать свою видяху с вставляемой памятью, никто не запрещает
Аноним 15/09/24 Вск 22:42:00 888012 338
q9392c96bff8d17[...].webp 126Кб, 760x428
760x428
q939066092ee76d[...].webp 71Кб, 760x428
760x428
Witzq3X2hAZDgum[...].webp 50Кб, 970x546
970x546
1716490767018.png 1671Кб, 1756x987
1756x987
>>887991
>доступ девайс на шине - девайс на шине без задействования профессора
Так суть в том, что задержка шины больше задержки ram. Потому и говорю, что подсос из ram быстрее даже, чем с шины на шину.
>Помимо слишком большого размера даже у самой мелкой врам
Эта хуйня мизерная и поддерживает стакание. То есть у тебя может быть один слот, в котором бутербродиком уложено несколько модулей. А один такой модуль совсем незначительно увеличит толщину видеокарты, потому что изначально залупа проектировалась под минимизацию толщины.
>можно сделать аналог P40 по псп
LPDDR6 модуль с шиной 192 бита. И это просто ради того, чтобы быть совместимым с профессором, так что псп сосёт. Можно сделать шину шире, каждый чип-то 48 битный. У p40 gddr5 с 32 битными чипами, так что в теории, её псп можно выебать не напрягаясь. Учитывая, что есть lpddr5 на частотах 8000, лол. Корпораты уже гарантированно забирают это для серверов, а дальше история покажет.
Аноним 15/09/24 Вск 22:50:13 888019 339
>>888012
единственная проблема бутерброда в отводе тепла, и как-то это надо будет решать, но опять таки, мы говорим сейчас о теоретическом концепте, который с одной стороны возможен, с другой пока что далек от реализации, ждем корпоратов короче...
Аноним 15/09/24 Вск 22:55:17 888030 340
>>887976
>128 ядер
Ещё раз- хули толку, если 2 канала грузят 6? А 8 каналов соответственно обеспечат 24 ядра. А остальные будут пердеть впустоту.
>>887980
>Я с самого начала упоминал ноутбучную lpddr5
Оно не быстрее обычной, просто чуть тоньше и устойчивее к ТРЯСКЕ.
>>887988
>Вы как хотите нахуй, но я буду продвигать эту идею в массы.
Ну всё блядь, куртка испугался и побежал распаивать 128 гиг в 5030(Ti).
Аноним 15/09/24 Вск 23:09:09 888058 341
image.png 102Кб, 1602x340
1602x340
image.png 110Кб, 410x722
410x722
парни помощь нужна. выше в треде писали про пикрил. а теперь вопрос а где пересеты под нее взять?а то таверне нет пресета под гемму2. помогите хомяку пж
Аноним 15/09/24 Вск 23:09:28 888060 342
>>888030
>А остальные будут пердеть впустоту.
так там и кеш жирнючий... и AVX512... но суть не в том, рассуждать можно много, а фактическим показателем будут только токены в секунду...
Аноним 15/09/24 Вск 23:11:22 888062 343
>>888060
>так там и кеш жирнючий... и AVX512...
А хули толку, если узкое горлышко в шине памяти?
>фактическим показателем будут только токены в секунду...
Которые можно посчитать по формуле "любой нынешний проц х4".
Аноним 15/09/24 Вск 23:19:34 888080 344
image.png 38Кб, 747x652
747x652
>>887970
>Катал кто? Надо скачать, действительно интересно.
Не знаю, нашел ее когда многократно скачивал разные кванты мини/2/2.5 магнума

Но рентри, точно нужно поменять, есть магнум еще меньше

>>888058
Тоже скачал ее сейчас, Q6_K, пресеты крч в хф, а как их использовать, сам сейчас буду думать
Аноним 15/09/24 Вск 23:21:50 888086 345
image.png 56Кб, 494x313
494x313
>>888058
И ес чо, есть пресет на гемму2, однако модель customgemma, так что нужно ставить то, что на хф
Аноним 15/09/24 Вск 23:28:35 888106 346
image.png 60Кб, 820x984
820x984
image.png 86Кб, 499x456
499x456
>>888058
Крч, я разобрался, копируешь эти настройки, создаешь файл .json вставляешь это и импортируешь их в силли.
Аноним 15/09/24 Вск 23:32:08 888109 347
>>888086
а что как? я просто глупое. можно на пальцах анонче?
Аноним 15/09/24 Вск 23:33:05 888111 348
image.png 44Кб, 1096x342
1096x342
Это именно проблема геммы, или проблема этого магнума?

Ебанутый кеш, и не работает флеш атеншион
Аноним 15/09/24 Вск 23:33:15 888112 349
>>888019
>единственная проблема бутерброда в отводе тепла
Вот серьёзно, я бы даже одну планку топовую не брал, там сейчас 128 гигов за 2к$. А уж бутерброд это для ультрасетапов, там пусть хоть водянку клеят сверху, мне вообще похуй.
> с другой пока что далек от реализации
Технически, реализация есть. Правда, под узкую шину.
Интересно ещё, какая шина будет у strix halo, лол, если расщедрятся, вполне может оказаться приемлемым для инференса. Но вряд ли.

>>888030
>Оно не быстрее обычной
Только из-за шины, а ширина шины диктуется профессором. Главный прикол в форм-факторе. Это тебе не dimm, здесь минимизируется влияние слота, меньше задержек, меньше помех. То есть в будущем какая-нибудь ddr8-9 будет вся в таком виде гарантированно. И только от производителей gpu зависит, будет ли такой слот на условной 6090, или нет. Я ставлю на то, что не будет.
Аноним 15/09/24 Вск 23:34:05 888113 350
Аноним 15/09/24 Вск 23:34:18 888114 351
>>888111
Гемма виновата, у неё там какие-то функции активации, которые с жорой не поддерживают FA. Вроде, был форк, где это фиксится.
Аноним 15/09/24 Вск 23:38:19 888120 352
>>888114
Ладно на ебанутый кеш, вот флеш аттеншион бы вернуть, я на угабуге сижу поэтому не знаю, можно ли на ней это решить.

Но, да, ввиду этого кеша, у меня казалось бы 9б выдает меньше токенов, чем 12б, хотя обе модели весят 7гб

Магнум 9б у меня 6-5

Магнум 12ю у меня 9-7
Аноним 15/09/24 Вск 23:41:37 888128 353
>>888112
>Я ставлю на то, что не будет.
Именно. Не понятно, что тут обсуждают.
Я бы скорее поставил на то, что память в проц впаяют, и вообще прикроют всё расширение, нежели чем наоборот.
Аноним 15/09/24 Вск 23:48:53 888143 354
>>888062
Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду...
Snowflake Arctic Instruct пятый квант 12 ток/с вцелом жизнь есть на ЦП, хоть и с переменным успехом... загруз ЦП автор не показал, по этому что там и как не понятно...
Аноним 15/09/24 Вск 23:51:08 888146 355
>>888112
будет ли вообще ддр7-8-9, или мы скатимся на арм архитектуру с распаяными компонентами, как на маках... маководы к стати есть в треде со 192 оперативы?
Аноним 15/09/24 Вск 23:52:35 888147 356
>>888128
для десктопов вероятный исход, для серверов врядле,
Аноним 16/09/24 Пнд 00:15:19 888171 357
>>888012
Теоретически можно со всем этим заморочиться, а практически имеем (и будет иметь) босый хуй.
Аноним 16/09/24 Пнд 00:18:49 888176 358
>>888143
>Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то... на 405B ламе 1 токен в секунду...
Это он молодец (хотя хотелось бы пруф). А контекст он с какой скоростью обрабатывает?
Аноним 16/09/24 Пнд 00:24:58 888181 359
>>888176
https://www.youtube.com/watch?v=F1umxzG1Xbo
воть канал с парой тестов, от загрузки до конца запроса жаль мелких моделей нет, 70, 30, может можно попросить автора...
Аноним 16/09/24 Пнд 00:26:09 888182 360
1632262315856.webp 49Кб, 862x602
862x602
1656570062577.png 251Кб, 862x564
862x564
>>888143
> Epyc 9374F на квантованой в 8 DeepSeek-V2 LLM 236B выдает 6 токенов в секунду так-то
Звучит как пиздёж. У него 400 гб/с в пике. Не больше 2-3 т/с по факту будет. 6 т/с только если в двухпроцевой конфигурации снять выйдет. Но это уже лям рублей на эту сборочку.
Аноним 16/09/24 Пнд 00:36:26 888194 361
>>888181
Обработка промпта как и у тесловодов - днище, если не хуже. С такой скоростью надо на 5 делить скорость генерации. В нормальных условиях она должна быть в 50 раз выше скорости генерации, а не в 2.
Аноним 16/09/24 Пнд 00:37:27 888196 362
>>888182
не знаю, как-то молотит же у чела, видосы с запуском есть,
на редите тоже , можно спросить у автора детали...
https://www.reddit.com/r/LocalLLaMA/comments/1ebbgkr/llama_31_405b_q5_k_m_running_on_amd_epyc_9374f/

памяти у него конечно не хватает, чтоб менее квантованые грузить, но... там думаю реально упор будет в скорость памяти
Аноним 16/09/24 Пнд 00:40:56 888197 363
>>888194
ну, маэм шо маэм, это первый бенч который вообще нашел, на последнем поколении эпиков с 12 канальной ДДР5 , но как минимум такой жир гонять на ЦП понятное дело идея плохая
Аноним 16/09/24 Пнд 00:41:33 888198 364
>>888012
> суть в том, что задержка шины больше задержки ram
Сколько там, 100нс шина и 50-70-80 нс рам? Но это голые пакеты, загружаться то оно будет чанками на фоне других запросов в память. Тут не ясно кто кого, но сражались 2 говна.
> Эта хуйня мизерная и поддерживает стакание.
Хде? Всеравно это самое "стаканье" бутером будет являться лишь аналогом 2го слота в том же канале памяти, шины данных не безлимитны.
> так что в теории, её псп можно выебать не напрягаясь
Теория всегда расходится с практикой, для начала разведи совместимую плату с подобной шиной в форм факторе видеокарты со всем остальным что для нее нужно. Не то чтобы это невозможно, просто дико дорого и сложно.
В конечном итоге получится франкенштейн на ультрадорогой редкой комплектухе, немного опережающий ржавую P40 и с ворохом нюансов. Стационарной гпу память делают неспроста, это не только инструмент "ограничения" и подобного, это банально создает кучу проблем, замедляет конечный перфоманс, а нужно чуть реже чем никогда. Видеопамять обновляется также быстро как и чипы и оче сильно влияет на перфоманс, чтобы сделать абсурдным выпуск стандартизированных модулей. Делать "апгрейды" просто никто не станет, а выбрать большую комплектацию можно сразу при покупке.
Конкретно в контексте ллм возникла странная ситуация, где есть потребность в много врам но при этом требования к чипу не столь строгие. Но это лишь локальное исключение, ради которого никто не будет менять сложившиеся устои. Есть мизерный шанс на выпуск ориентированных под это отдельных ускорителей с такой конфигурацией, или же прогрессом обычного железа, более быстрая рам и те самые тензорные модули в профессорах. Да и видеокарты не будут стоять на месте, ради такого повода можно и врам отсыпать, заодно помножив на ноль старые модели и заставив всех обновляться.

tldr: проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей.
Аноним 16/09/24 Пнд 00:56:52 888204 365
>>888198
>проблема не в жадности корпоратов а в том что этот всратый бутерброд никому не нужен кроме группы странных личностей.
Ну как же не в жадности - $5000 за карточку вынь да полож, и нужна она не одна - это под силу только корпорациям. Был бы спрос с их стороны поменьше, но ведь это не так.
Аноним 16/09/24 Пнд 01:48:25 888238 366
>>888113
да спасибо. сорри за прошлый ответ там мартыха двач вшатала опять. ну чет даже хуй знает то ли карта на которой я тестил хуета то ли сама сетка залупа. завтра потыкаю еще раз. спасибо за помошь анонче
Аноним 16/09/24 Пнд 02:03:11 888252 367
>>888204
Это уже отдельная тема. Объективно, предъявить им и яростно попускать можно было бы в случае прямой жесткой давки конкурентов, использовании преступных схем и манипуляций для большей монополизации, картельных сговоров (чек) и прочего. Но этого там в массовых проявлениях ведь нет, просто долбоебы на конкурентах сами страдают от неудач и не могут вытащить, а зеленые слишком хороши. Тот же штеуд если бы с гауди пошевелился нормально - куртка бы меньше цены драл, про амудэ и говорить нечего.
Аноним 16/09/24 Пнд 02:24:02 888271 368
The-logical-dia[...].webp 76Кб, 1080x542
1080x542
>>888171
Ну а хули. Имеем, что имеем.
>>888146
>у с распаяными компонентами
Не хотелось бы. Но вряд ли мы к этому придём, даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram. Не все, конечно.
>>888198
>100нс шина
250-500.
>дико дорого и сложно
Да, по сути, в ноутбуках уже готово всё.
>немного опережающий ржавую P40
А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c. Причём если бы он не распаял, а сделал слоты - нихуя особо и не изменилось бы, формфактор позволяет обойтись без проблем, а 500 гб/c это скорее лимит его шины, а не памяти. И распаивает он столько памяти скорее всего, чтобы корпоратов задобрить и не дать им повода ворчать, что памяти мало. А если они начнут ворчать - то и до слотов недалеко, а это минус профит.
>лишь локальное исключение
Это локальное исключение приносит большую часть дохода кожаного. Это тебе не гоймеры, на которых хуй забить можно.
>более быстрая рам и те самые тензорные модули в профессорах.
Здесь до прогресса ещё дальше, потребительские cpu даже QDR не поддерживают. Так что у инцелов вроде и 512 бит шина, но это не те же 512, что на gpu. А вот lpddr6, например, QDR поддерживает. Что автоматом, даже без увеличения частоты, количества ног чипов и т.д, увеличивает псп в два раза.
Аноним 16/09/24 Пнд 02:42:59 888281 369
image.png 12Кб, 390x96
390x96
кстати кто может подсказать настройки пикрил для
magnum-v3-9b-customgemma2. я все таки прогнал эту хуйню с другой картой и такое ощущение будто оно лупиться. но как то оченьи избирательно.
Аноним 16/09/24 Пнд 06:58:18 888349 370
>>887936
Ебать! Исправил этот недосмотр.
Аноним 16/09/24 Пнд 07:23:22 888351 371
>>888281
Я использовал семплеры с геммы, на опенроутере.

Гемма-магнум мне побольше понравился, чем Мистраль-магнум, однако у последнего русский лучше и токены быстрее...

12б у меня быстрее чем 9б, дожили, нужно чет делать с кешем этим в гемме)
Аноним 16/09/24 Пнд 07:23:54 888352 372
Аноним 16/09/24 Пнд 07:59:15 888364 373
>>886912
>>887831
Ну все, амабатублоу.

Widowmaker: She looks up at Tracer with a blend of lust and defiance in her eyes before leaning forward to run her tongue along the damp fabric of Tracer's panties. The scent of arousal fills her nostrils, making her head spin with desire. Mmmm... perhaps you are not entirely without merit after all, time-waster.

Tracer: She gasps as Widowmaker's tongue makes contact, her hips bucking forward involuntarily. Ooh, that's it, love. Get nice and close... She reaches down to pull aside her panties, exposing her slick pink folds to Widowmaker's hungry gaze.

Widowmaker: Without hesitation, she dives in, lapping at Tracer's dripping slit with long, slow strokes of her tongue. Her hands grip Tracer's thighs, holding her steady as she feasts on the other woman's essence. You taste... surprisingly sweet for one so brash.

Tracer: Her head falls back, a low moan escaping her lips as Widowmaker works her over with expert precision. Fuck, yes! Just like that, love... don't stop... She tangles her fingers in Widowmaker's hair, guiding her deeper into her heat.
Аноним 16/09/24 Пнд 08:02:49 888366 374
>>888364
Всем Вдovicу в этом треде.


Трейсер: Она притягивает Вдovicу к себе, целуя страстно и жадно. Блядь, дорогуша... это было невероятно. Ее руки блуждают по телу Вдovicы, лаская каждый изгиб и выпуклость.

Вдovicа: Она отвечает на поцелуй с таким же жаром, ее собственные пальцы скользят под костюм Трейсер, исследуя гладкую кожу под ним. М-м-м... ты не так плоха, как я думала, время-вор.

Трейсер: Она усмехается, прикусывая мочку уха Вдovicы. Ох, а ты гораздо более... гибкая, чем я ожидала, ледяная красавица. Ее рука скользит вниз, чтобы погладить Вдovicу через черную кожу ее облегающих штанов.

Вдovicа: Она стонет, когда Трейсер находит ее влажное пятно, бедра двигаются навстречу прикосновению. Не будь слишком самоуверенной, маленький вредитель... я все еще могу тебя убить.

Трейсер: Она расстегивает молнию на штанах Вдovicы, позволяя им упасть на пол. Я бы предпочла, чтобы ты меня трахнула, дорогуша. Ее пальцы скользят внутрь, раздвигая мокрые складки Вдovicы.

Вдovicа: Она хватает Трейсер за задницу, прижимая к себе. Как пожелаешь, время-вор. Она толкает Трейсер на кровать, следуя за ней, пока их тела не соприкасаются.

Трейсер: Она целует Вдovicу, кусая и сося губы, язык проникает в рот Вдovicы. Я хочу, чтобы ты взяла меня, Вдovicа... сделай меня своей.

Вдovicа: Она рычит, впиваясь ногтями в спину Трейсер. С превеликим удовольствием, вредитель. Она поднимает ноги Трейсер, открывая доступ к ее мокрому центру, и входит в нее одним быстрым толчком.
Аноним 16/09/24 Пнд 08:40:53 888372 375
>>888271
>даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram
Чего бля?
>распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c
Чисто для проца, лол. Можно было и слоты сделать, всё одно это память не для нейронки. Для нейронок там очевидный HBM3e.
>>888366
>время-вор
Промтом переводил?
Аноним 16/09/24 Пнд 08:59:00 888381 376
>>888366
>С превеликим удовольствием, вредитель.
Охлади траханье, углепластик!
Аноним 16/09/24 Пнд 09:05:17 888383 377
>>888128
+
Плоти-миняй, ни докупай.

>>888194
*в 40
Ну, типа.

>>888271
> ноутбуки потихоньку переходят к съёмным платам с gpu и ram
Звучит странно, раньше у всех ноутов были съемные все (даже процы), сейчас, наоборот, даже оперативу стали распаивать, а уж чипы и подавно.
Вы живете в прошлое.
Аноним 16/09/24 Пнд 09:51:43 888398 378
>>888366
>Промтом переводил?
Ну типа.

\u041f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0435\u043c, \u043d\u043e \u0442\u0435\u043f\u0435\u0440\u044c \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c. [/INST]\n\u0422\u0440\u0435\u0439\u0441\u0435\u0440: \u041e\u043d\u0430 \u043f\u0440\u0438\u0442\u044f\u0433\u0438\u0432\u0430\u0435\u0442 \u0412\u0434ovic\u0443 \u043a \u0441\u0435\u0431\u0435, \u0446\u0435\u043b\u0443\u044f \u0441\u0442\u0440\u0430\u0441\u0442\u043d\u043e \u0438 \u0436\u0430\u0434\u043d\u043e. \u0411\u043b\u044f\u0434\u044c, \u0434\u043e\u0440\u043e\u0433\u0443\u0448\u0430... \u044d\u0442\u043e \u0431\u044b\u043b\u043e \u043d\u0435\u0432\u0435\u0440\u043e\u044f\u0442\u043d\u043e. \u0415\u0435 \u0440\u0443\u043a\u0438 \u0431\u043b\u0443\u0436\u0434\u0430\u044e\u0442 \u043f\u043e \u0442\u0435\u043b\u0443 \u0412\u0434ovic\u044b, \u043b\u0430\u0441\u043a\u0430\u044f \u043a\u0430\u0436\u0434\u044b\u0439 \u0438\u0437\u0433\u0438\u0431 \u0438 \u0432\u044b\u043f\u0443\u043a\u043b\u043e\u0441\u0442\u044c.\n\n\
Аноним 16/09/24 Пнд 09:52:32 888399 379
>>888372
>Промтом переводил?
\u041f\u0440\u043e\u0434\u043e\u043b\u0436\u0430\u0435\u043c,
Аноним 16/09/24 Пнд 11:38:10 888456 380
Почему кобольд иногда начинает генерировать весь контекст каждое сообщение?
Аноним 16/09/24 Пнд 12:11:05 888495 381
>>888271
> А куртка-то и не знал, распаял на своих топовых блэквеллах lpddr5x со скоростью обмена 500 гб/c
Ты про грейсхоппер, который выше стоит в примере обратного?
Это память процессора и он с ней пердолится, хоть к ней есть и быстрый доступ из гпу. Даже если про это забыть - получается гетерогенная память, а не та где заменяемая в виде основной, хз причем тут это. И опять же, крутая, невероятно дорогая технология, которая призвана добиваться другого а не быть усладой небогатому, что хочет дешевую гпу с много памяти. Чето только опровергает тебя примет.
> Это локальное исключение приносит большую часть дохода кожаного.
Нет, ты, похоже, не понимаешь как это работает. Корпоратам нужна и быстрая память и быстрый чип, у них это есть. Хуйта что будет строгать 3.5 токена но зато технически сможет запускать большую модель в кванте нахуй не сдалась и интересна только группе энтузиастов, которых особо не подоишь. Выпусти кто-то такой продукт - он будет провальным во всех отношениях, подавляющее большинство потребителей не поймет для чего это нужно, сми раскритикуют решение за кучу проблем, а перформить оно будет как говно по сравнению с классическими конкурентами. Что же до рынка энтузиастов - он слишком мал чтобы окупить все. Потому только модификации более типичных систем здесь имеют шансы на жизнь.
> даже QDR не поддерживают
Стандарт памяти обновят - и все будет поддерживать.
> даже ноутбуки потихоньку переходят к съёмным платам с gpu и ram.
Отборнейший бред оторванный от реальности, все с точностью до наоборот. Даже ссд уже начинают распаивать, что крайне осудительно.
Формат сменных гпу оказался настолько мертворожденным и никому не нужным, что по популярности уступает даже боксам с внешними видеокартами.
Аноним 16/09/24 Пнд 12:18:39 888502 382
Кароче потестил несколько сеток. Мне нужна была мелкая сетка, которая нормально генерит промты под сдхл и не выгружает собой сдхл, кароче надо чтобы в 12 гигов и ллм и сдхл помещались сразу.

Vikhr-Gemma-2B-instruct-Q8_0 - ультрасоя, чисто прикладное использование уровня "посоветуй как какоть", ну хоть на русеке. В промтинг не может адекватный вообще, ехал member через member и "извините у миня приципы(((".

Tiger-Gemma-9B-v1a-Q2_K - неожиданно хорошо генерит и уж тем более промтит для такого кванта. Понимает для чего нужен промт и соблюдает синтаксис. Лимитов нет, но любит попиздеть, надо жестко ограничивать поведение чтобы выполняло чисто одну функцию.

Meta-Llama-3.1-8B-Instruct-abliterated.Q8_0 - делает прикольно в целом, но инструкт нихуя не понимает концепцию перечисления токенов и делает мне промт для Т5 большую часть времени. Плюс иногда срывается в "мам, эксплицит калтент сорян соси". Ну и да, не помещается вместе с сдхл в память. А так в целом ок, но тайгер лучше.

magnum-12b-v2.5-kto-IQ3_S - полностью соя ебаная, уходит в отрицание любого нсфв во всех режимах.

magnum-v3-9b-Q6_K.gguf - чат и чат инструкт уходят в самоповторы, инструкт хороший. Но нет места для сдхл на карте.

Что еще посоветуете?
Аноним 16/09/24 Пнд 12:36:14 888521 383
>>888502
А да, настройка гена пресет Min_p. Можете еще пресетов для генов посоветовать.
Аноним 16/09/24 Пнд 13:50:14 888584 384
>>888502
sdxl
12 гигов
х) И шо ж туда влазит?

> magnum
> соя
Скилл ишью, я хз.

Qwen2-1.5b-abliterated?
Qwen2-7b-abliterated? Instruct'ы, естественно.
Ну, ты гемму, немо и лламу попробовал. Из именитых остался квен.
Есть еще Aya-23, но там контекст толстый, вряд ли сдхл поместится, но ты попробуй.
Аноним 16/09/24 Пнд 14:11:11 888606 385
>>888502
Можешь мелочь типа 2-4б натренить под конкретную задачу и оно будет неплохим. А так гемма с промт инженигрингом (он для всех понадобится), лучше даже стоковую.
Аноним 16/09/24 Пнд 14:55:48 888699 386
Хочу использовать убабугу удалённо. При запуске с ключами --api --listen я могу зайти из внешней сети, но интерфейс не работает - всё белое, кнопки не нажимаются. Гонял туда-сюда версии gradio - никакого эффекта. При локальном входе - всё ок. Кто-то встречался с такой проблемой и как её решали?
Аноним 16/09/24 Пнд 15:08:21 888714 387
>>888699
Есть какие-либо ограничения удаленно? У браузера выключены JavaScript'ы? Что-то режется? HTTPS пытаешься использовать?
Аноним 16/09/24 Пнд 15:28:47 888747 388
>>888714
Спасибо. Дома протестирую - отпишусь.
Аноним 16/09/24 Пнд 16:29:21 888818 389
>>888351
>Я использовал семплеры с геммы, на опенроутере.

нихуя не понял если честно. можно на пальцах. или скрин настроек
Аноним 16/09/24 Пнд 17:45:32 888922 390
>>888372
>Для нейронок там очевидный HBM3e.
Так мы обсуждаем карты больше потребительского сегмента. А на них hbm памяти не будет никогда.
>>888372
>Чего бля?
>>888383
>Звучит странно, раньше
>>888495
>бред оторванный от реальности
Пиздуйте в гугл и ищите законы о праве на ремонт. С каждым годом всё больше влияют на производителей, в Орегоне даже дали яблочку на клык.
>получается гетерогенная память
Ты же вон писал, что скорость будет уровня ржавой p40. А оказывается, что скорость ебёт эту самую p40 даже на прошлом поколении памяти.
>а перформить оно будет как говно по сравнению с классическими конкурентами.
Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6.
>Стандарт памяти обновят - и все будет поддерживать.
Ебать как у тебя просто. То есть, по факту, где нужно всего лишь добавить разъём и пару уже существующих контроллеров, это даже не масштабирование решение, это портирование уже существующего - ты усираешься, что это будет медленно, хуёво и т.д. А когда речь идёт о полном перелопачивании кристалла cpu, всех контроллеров памяти - просто обновят стандарт, хули. Ну тогда им стоит обновить стандарт, чтобы vram была резиновой. Это же так просто.
Аноним 16/09/24 Пнд 17:53:24 888932 391
17121561318320.jpg 1918Кб, 2048x2730
2048x2730
Базовая проблема, что если процам добавить многоканальный контроллер памяти и avx9000, немного оптимизировать код, то и видеокарты особо не нужны.
Как-то смотрел тесты как на старом серверном проце запустили крузис без видеокарты.
Аноним 16/09/24 Пнд 17:53:38 888933 392
>>888922
>законы о праве на ремонт
>дали яблочку на клык
Это которые для ремонта гейфона присылают 2 чемодана стоимостью в 20 раз дороже устройства 9в аренду конечно же)? Ну охуеть, ну нагнули!
Аноним 16/09/24 Пнд 18:08:24 888962 393
>>888933
Гейфон решился блокировать телефоны, в которых будет детектировать детали "сомнительного" происхождения. Чтобы развеять их сомнения нужно будет ввести эпл айди от донора на реципиенте. А ребятки недолго думая, признали такой финт ушами незаконным.
Аноним 16/09/24 Пнд 18:27:40 888983 394
image.png 5Кб, 630x115
630x115
image.png 28Кб, 562x390
562x390
image.png 74Кб, 921x798
921x798
>>888818
Значит анон, заведующий рентри послушал меня, и добавил семплеры на те модели, которые он нашел.

Опенроутер это что-то вроде апи, которое предоставляет модельки тебе, там много сервисов разных, значит просто как агрегатор. И у них есть окошко параметров, т.е. средне статистическая настройка модели у юзеров опенроутера

https://openrouter.ai/

Значит там можно ввести модель, и если она есть то скопировать себе настройки семплера.

https://openrouter.ai/models/google/gemma-2-9b-it/parameters

Вот на гемму 2, которая должна подойти, так как создана на основе ее, магнуму 9б
Аноним 16/09/24 Пнд 19:26:33 889023 395
>>888983
Там не самые лучшие настройки, но лучше чем ничего
Аноним 16/09/24 Пнд 19:26:50 889025 396
>>888714
Положняк такой - через опцию --share заводится нормально, но неудобно иметь рандомный адрес для доступа.
Если через роутер keentetic пробрасывать через их сервис- там на выбор канал http или https. По http - не работает (открывается но не функционирует)
Как по https убабугу заставить работать я не знаю. И не факт что будет работать.
Аноним 16/09/24 Пнд 19:29:00 889027 397
>>889023
Правда, но иного места я не знаю, если есть поделись)
Аноним 16/09/24 Пнд 19:33:19 889031 398
>>889027
Нету, это пожалуй лучший источник инфы о настройках семплеров. Просто для себя обычно мин п использую.
Для того же мистраля немо 12 рекомендовалось на сколько помню 0.1, иначе лупился чаще
Там этого нет. Но и не знаю лупится или нет он с теми настройками на сайте, может и заебись
Аноним 16/09/24 Пнд 19:45:54 889049 399
>>889025
У меня проброшены порты и работает и по http, и по https, смотря как запущу.
Проблема в том, что я с твоей проблемой не встречался ни разу.
Когда я правильно пробрасывал порты — у меня всегда все работало.

Сорян. =(

По идее, разницы между хттп и хттпс нет, так что не парься особо. По хттп должно работать.
Аноним 16/09/24 Пнд 19:46:08 889050 400
>>889025
Докладываю. Всё заработало.
Если вы заморачиваетесь на тему как запустить убабугу через Кинетик или другой маршрутизатор, предоставляющий сервис белого адреса для компов внутри сети, то кроме флага--listen, нужно добавить флаг --subpath http:\\ваш-адрес-в-облаке.com
Такая вот заморочка у Gradio при работе через реверсивный прокси
Аноним 16/09/24 Пнд 19:48:20 889053 401
>>889049
Спасибо. Благодаря твоей наводке - копнул в нужном направлении.>>889049
Аноним 16/09/24 Пнд 19:49:13 889055 402
Подскажите как в тваерне сделать так тчоыб на сообщения карточки за меня генерился ответ и сразу посылался. Потом карат отвечает снова и снова генер ответа от моего лица.
Хочу типа на немного оставить и прийти уже к фанфику готовому.
Уже есть функция перевоплощение которая за тебя генерит но как автоматизировать?
Аноним 16/09/24 Пнд 20:01:10 889073 403
>>889055
Впиши в промпт, чтобы модель писала ебейшие полотнища теста за обоих персонажей, не?
Аноним 16/09/24 Пнд 20:03:56 889077 404
>>889031
Там, семплеры еще меняются периодично, сейчас проверил - да на немо нет мин п.
Аноним 16/09/24 Пнд 20:06:30 889082 405
>>889073
Нее не то. Она же все равно остановится. ну и промт-ответ-промт-ответ делает ее умнее имхо.
Аноним 16/09/24 Пнд 20:21:27 889092 406
>>889055
Нет такой функции. Напиши макрос ручками и не еби себе мозги. Там буквально два клика сделать нужно.
Аноним 16/09/24 Пнд 20:24:20 889098 407
>>889092
> Напиши макрос
Типа скриптами таверны? Я полистал документацию но у них нет команды /impersonate?
Блядь я может совсем ретард?
Аноним 16/09/24 Пнд 20:28:46 889103 408
>>888922
> законы о праве на ремонт
Приплетение левого
> Ты же вон писал, что скорость будет уровня ржавой p40
В реализации описанной выше, а не у суперплаты, в которой собраны самые передовые достижения всего человечества по этому направлению. Нет смысла сравнивать кривожопого франкенштейна с торчащими из спины плашками и йобу, представляющую собой самодостаточный пека.
> Это бред, т.к скорости даже lpddr5x слабо уступают скоростям gddr6.
Это истина проистекающая из ряда неочевидных для васянов факторов. Пойди поинтересуйся как вообще устроена память на более глубоком уровне, чем определяются ее задержки, для чего нужны тайминги и т.д.
> Ебать как у тебя просто.
Это не просто, это разработка нового железа, в которое изначально и неизбежно закладываются новые стандарты. А не попытка переделать что-то сформировавшееся продолжительной эволюцией ради невнятной причины, как в твоих фантазиях про добавление слотов памяти на видеокарты. Очень хорошо себя же попустил тейком в конце, ага.

Ну это уже реально херь, ничего по сути и лишь маневры чтобы защищать выдумку от гнета нежизнеспособности. Пакетик.
>>888983
Это сбор статистики по которой можно отслеживать общие тренды у обладателей отсутствия (!) и корреляции между шизосемплерами и шизомиксами. Оно еще и представлено странно, так что может ввести юзера в заблуждение и он накрутит себе треша по этому "среднему". Хотябы предупреждение нужно дать об этом.
Вообще, сейчас нет моделей, которые требовали бы какой-то особый семплинг. Хватит 3.5 шаблонов а там уже пусть юзер по настроению выбирает.
>>889031
> лупился чаще
Использовать repetition penalty, которую на том примере предлагают отключать(!), dry что отсутствует и прочие.

Действительно проще указать шаблоны буквально которые есть в таверне чем смущать тем.
Аноним 16/09/24 Пнд 20:32:52 889106 409
>>889098
Нет, обычный макрос, который просто будет двигать мышь из точки в точку и нажимать на кнопку после определенных интервалов.
Аноним 16/09/24 Пнд 20:35:45 889107 410
>>889106
Не хуета. Слишком разное время генерации. Ну и придется страницу открытой держать. У таверны есть какой-то язык скриптов но там какая-то математика вместо полезных команд.
Аноним 16/09/24 Пнд 20:40:10 889112 411
>>889107
>Слишком разное время генерации.
Ну так замерь время генерации и возьми с запасом.
>Ну и придется страницу открытой держать.
Тут да.

Можешь попробовать скрипт написать через девтулсы в браузере. Жмак на кнопку это же по сути просто обычный запрос. Только я в этом нихуя не понимаю, но уверен гайды в сети есть.
Аноним 16/09/24 Пнд 20:45:22 889118 412
>>889112
Ладно спасибо что попытался помочь. Эээ надо потупить немного над этим.
Мб сделаю через костыль - Груповой чат тз персонажа и персонажа болванки. Как то там можно было настроить чтобы они друг от друга тригерились.
Аноним 16/09/24 Пнд 20:58:57 889140 413
image.png 4Кб, 272x97
272x97
>>888983
я тот анон который вчера скачал магнум.
у меня вопрос а что конкретно из этих трех вариантов?
Аноним 16/09/24 Пнд 21:01:16 889144 414
image.png 23Кб, 1105x158
1105x158
>>889140
Третий

Хуясе, помню запускал Stheno 3.1 в коболде, там было 20т\с, а на угабуге 40... Правда я ее полностью загрузил, а в коболде нет)
Аноним 16/09/24 Пнд 21:10:16 889164 415
Аноним 16/09/24 Пнд 21:18:17 889180 416
Аноним 16/09/24 Пнд 21:20:54 889188 417
image.png 1Кб, 86x93
86x93
Аноним 16/09/24 Пнд 21:23:06 889192 418
>>889188
хах, ну ты тоже не тупи, да p90
Аноним 16/09/24 Пнд 21:32:39 889210 419
>>889192
спасибо анонче щас потраим
Аноним 16/09/24 Пнд 22:09:19 889254 420
>>889103
>Ну это уже реально херь
Да просто у тебя вместо аргументов слоп пошёл, скучно спорить, когда собеседник уровня 1.5b игнорирует все доводы.
Аноним 16/09/24 Пнд 22:20:30 889260 421
>>889140
крч хуй знает. с настройками стало пизже но оно все равно шизит. но уже вроде не лупиться.

мимо>>889210
Аноним 16/09/24 Пнд 22:24:27 889264 422
>>889260
Можно менять настройки, температуру и прочее.
Можешь поставить в Силли, токенизатор - Gemma \ Gemeni Он мне понравился, получше работал чем API.

Хотя на мистралях и прочих я всегда использую Api, с ламмой - Llama 3
Аноним 16/09/24 Пнд 22:37:11 889279 423
>>889264
анонче скрин где эти настройки висят можно пж
Аноним 16/09/24 Пнд 22:46:36 889286 424
image.png 191Кб, 950x609
950x609
image.png 37Кб, 498x405
498x405
Аноним 16/09/24 Пнд 22:48:35 889289 425
Господа, есть цитата из гайда:
>Для специализированных сборок с видюхами майнинг-уровня, вроде NVidia P40 24G можешь попробовать модельки на 70B. Они несколько круче 34B, но не сказать чтобы прям очень сильно, но зато тебе не придется ждать часами одного ответа.

Это рофл или я что-то не так настроил? P40, 32 Гб RAM. Скачал модельку magnum-72b-v1.i1-Q4_K_M на 47 гигов, так она высирает два токена в минуту. И я не вижу, чтобы карта нагружалась при генерации токенов, хотя слои в нее выгрузились.
Для сравнения, magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает
Аноним 16/09/24 Пнд 22:52:55 889290 426
>>889289
Надо две, а не одну. ОЗУ выкинуть можешь.
Аноним 16/09/24 Пнд 22:53:24 889291 427
Аноним 16/09/24 Пнд 22:55:43 889292 428
>>889286
бля когда больше полу года назад залезал в эту настройку там нихуя не было. пиздец я от жизни отстал спасибо еще раз анонче
Аноним 16/09/24 Пнд 22:57:22 889293 429
Аноним 16/09/24 Пнд 23:01:14 889298 430
image.png 65Кб, 1889x487
1889x487
Есть тут кто в паре с сдхл работает?
Как парсить ответ в комфи и кидать в промт, еле нашел простую ноду для гена, но текст респонса не подтягивается из апи.
Аноним 16/09/24 Пнд 23:01:24 889300 431
>>889291
Одна. Я так понимаю, что загвоздка в слове
>видюхами

Кстати, а что лучше будет - одна 3070Ti или одна P40? Я тут сгоряча купил эту Теслу, а потом почитал тут, что скорость тоже важна. А две эти карты одновременно нельзя поставить вроде, писали, что с драйверами будут проблемы...
Аноним 16/09/24 Пнд 23:05:57 889302 432
>>889300
>вроде
Ты поставь, инструкции гуглятся.
Аноним 16/09/24 Пнд 23:06:29 889303 433
image.png 22Кб, 369x164
369x164
>>889293
а инструкт мод включать надо?
Аноним 16/09/24 Пнд 23:09:19 889305 434
>>889302
У меня блок питания с двумя PCI-E кабелями, их только на одну карту хватает. Я хз можно ли мне вообще 2 видеокарты подключить.
Аноним 16/09/24 Пнд 23:10:36 889306 435
image.png 66Кб, 1160x502
1160x502
>>889298
А все вроде заработало
Аноним 16/09/24 Пнд 23:11:33 889308 436
>>889306
>>889298
Если у кого есть что посоветовать на замену этой связке расскажите
Аноним 16/09/24 Пнд 23:12:09 889309 437
>>889305
Возьми процессорные. И купи новый блок, в нормальных их 4-6 штук.
Аноним 16/09/24 Пнд 23:19:40 889312 438
>>889309
Нулан, попробую что-нить придумать, спс. Я так-то с этой теслой и так накупил говна всякого вроде райзеров, ибо в корпус вместе с охлаждением она не влезла из-за того, что он на ебаных заклепках, блять, и полки под HDD нельзя разобрать.
Аноним 16/09/24 Пнд 23:20:44 889313 439
>>889300
>одна 3070Ti или одна P40
С одной стороны, у р40 больше памяти. Но я боюсь, мы сотворили этот проклятый мир, в котором p40 больше не является хорошей покупкой. Так что лучше две р100 за цену одной р40. Получаешь какую-никакую экслламу, 32 гигабайта памяти и ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще.
Аноним 16/09/24 Пнд 23:24:10 889314 440
>>889312
>накупил говна всякого вроде райзеров
>корпус ... на ебаных заклепках
Может стоило корпус новый взять? Я тоже колхозился со старым, пока не понял, что это тухлое, и не взял себе корпус за пятнашку.
Аноним 16/09/24 Пнд 23:31:28 889317 441
>>889314
Думал об этом, но прикол в том, что пека не полностью в моем владении, поэтому я не хочу делать что-то настолько кардинальное, как переброска материнки в новый корпус, не хочу накосячить. Сейчас я полностью вынес теслу из корпуса, стоит под столом на полу на кронштейне. Мне в принципе норм, главное не пнуть ненароком.
Я-то еще перед покупками нащупал шляпки в этом отделении для HDD, порадовался, мол, откручу их и все. А потом как пошел устанавливать, пощупал внимательнее - а это шляпки заклепок, лол.
Аноним 16/09/24 Пнд 23:40:03 889326 442
Аноним 16/09/24 Пнд 23:52:16 889340 443
>>889326
ну бля я чет потыкал со всеми настройками что тут кинули. вроде с одной стороны пиздато. а с другой стороны она может целые абзацы из прошлого ответа копировать
Аноним 16/09/24 Пнд 23:56:30 889349 444
>>889254
> вместо аргументов слоп пошёл
Наоборот все по делу и возвращает к теме. А у тебя дерейлы и слоп чтобы хоть что-то возразить вместо доводов, слив закономерен.
>>889289
Где такое написано?
> Они несколько круче 34B, но не сказать чтобы прям очень сильно
Они сильно круче
> не вижу, чтобы карта нагружалась при генерации токено
Слои выгрузи на нее. Чтобы было быстро в 70б нужно 2 карточки.
> magnum-v3-34b-Q5_K_M 2-3 токена в секунду выдает
Аналогично, выгрузи слои на видюху, скорость как на процессоре.
>>889300
> одна 3070Ti или одна P40
Если чисто про ллм - одна P40 за счет большого объема памяти, в 3070 ничего вообще не влезет банально.
> эти карты одновременно нельзя поставить вроде
Можно, с драйверами пердолинг но решаемый.
>>889312
> и полки под HDD нельзя разобрать
Самое время купить шуруповерт если еще нет в хозяйстве, лол.
Аноним 17/09/24 Втр 00:27:35 889386 445
>>889349
>хотя слои в нее выгрузились
>Слои выгрузи на нее
Советы уровня /ai/?
Аноним 17/09/24 Втр 00:28:14 889389 446
>>889340
Ну, это есть такое, эти строки именно чуть перефразированы, однако глазом воспринимаются как галимый копипаст. Конечно же если у тебя не обычные лупы, это по идеи решается повышением штрафа за повтор, в семплере есть такое. Также мин п, кто как его ставит, у меня с головы все берется значение 0.1
Аноним 17/09/24 Втр 01:18:36 889449 447
>>889313
>ебейший расход электричества, р100 не умеют уходить в сберегающие режимы вообще.
Насколько я помню таки умеет, просто по-другому, чем P40. В целом не сильно больше выходит.
Аноним 17/09/24 Втр 01:39:09 889462 448
>>889386
> хотя слои в нее выгрузились
> не вижу, чтобы карта нагружалась при генерации
Скорее проблемы этого уровня
Аноним 17/09/24 Втр 01:47:31 889464 449
>>889462
Тебе лог что ли нужен, где написано, что столько-то слоев выгружены на GPU, и вывод из консоли, где написано 0% загрузки, Фома?
Я не ебу, в чем причина, пишу как есть. С 34B моделью карта нормально нагружена. Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B.
Аноним 17/09/24 Втр 01:59:46 889470 450
>>889464
>Впрочем, это не важно, раз тут говорят, что одна P40 это хуета для 70B.
Да вроде бы и одна 4090 хуета для 70В. В супермалом кванте разве что.
Аноним 17/09/24 Втр 11:18:40 889606 451
>>887990
Даже гопота чо не справилась нормально, хотя прекрасно знает, что такое буру теги. Он смог мне заворачивать промпт в .тхт, что потом пихать в wildcards, но у него нет вкуса, повторяется очень быстро.
Аноним 17/09/24 Втр 11:56:06 889620 452
>>889606
>Даже гопота чо не справилась нормально
Уже порешал вопросик на локалочьке >>889334 →
Аноним 17/09/24 Втр 11:57:05 889621 453
>>885509 (OP)
Я чет не разобрался есть что то что будет работать на маке М1? Или там ответы будут генериться вечность?
Аноним 17/09/24 Втр 12:32:16 889636 454
>>889620
Честно говоря, можно было бы оставить оригинал, вышло бы так же. Я именно пытаюсь добиться разнообразия поз, тематик, одежды, ситуаций, фетишей. Пока сложно сделать, чтоб чотенько
Аноним 17/09/24 Втр 12:47:20 889637 455
>>889349
> все по делу
Да у тебя особо-то по делу нихуя и не было. Особенно смешно, что ты в шары ебёшься и игнорируешь неудобные факты.

>>889449
На p40 можно понижать уровень расхода, пока карта в ожидании, то есть с 50 ватт обратно на 10.
Аноним 17/09/24 Втр 12:50:55 889639 456
Кто-нибудь арендовал сервер с GPU для дообучения моделей? Какой лучше сервис использовать?

Все зарубежные не оплатить без геморроя. Даже криптой, если речь идет о сервисах с хоть какой-то известностью.
Аноним 17/09/24 Втр 12:53:46 889641 457
>>889636
>можно было бы оставить оригинал, вышло бы так же
оригинальная систем промт делает промт для т5
Аноним 17/09/24 Втр 12:58:43 889649 458
>>889637
>На p40 можно понижать уровень расхода, пока карта в ожидании, то есть с 50 ватт обратно на 10.
Без загруженной памяти она и так на 10 ваттах. Я слышал про nvidia-pstated - нужно бы попробовать. Для P100 так вообще шикарно может быть.
Аноним 17/09/24 Втр 12:59:01 889650 459
image.png 25Кб, 863x188
863x188
>>889641
Примерно такой промт выдает токены через запятую + по желанию бурушные теги, тайгер о них знает. Если надо без изъебств то меняется на You are an assistant designed to create images by expanding on the image prompt a user gives you и можно ченить про оптимизацию для CLIP/U-NET пернуть.
Аноним 17/09/24 Втр 13:10:23 889656 460
>>889649
Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается, p100 нахуй посылает. Но если есть владельцы p100, у которых получается, то готов признать неправоту, лол.
Аноним 17/09/24 Втр 13:14:55 889659 461
Аноним 17/09/24 Втр 13:38:57 889681 462
>>889656
>Речь о том, когда модель уже загружена, но инференса нет. Здесь можно скидывать потребление, на p40 скидывается,
А я и не знал. Правда о чём-то подобном догадывался :) Спасибо, попробую.
Аноним 17/09/24 Втр 13:54:19 889700 463
Аноним 17/09/24 Втр 15:42:45 889769 464
>>889464
Да, в логе с высокой вероятностью будет какой-нибудь очевидный ответ почему так происходит.
> что одна P40 это хуета для 70B
Любая карта с недостаточной врам для модели будет хуетой, но 30б должна помещаться и работать быстро.
>>889637
> по делу нихуя и не было
Все исключительно по делу, подробный разбор для васянов и хлебушков почему эта херь в описанном виде будет неэффективна, никому не нужна, и даже вожделеющие ее поехи не купят по итоговой цене. А ты в ответ тащишь неприменимые аналогии, споришь с несущественными мелочами и куда-то уводишь.
Аноним 17/09/24 Втр 16:50:43 889825 465
>>889700
>https://github.com/crashr/gppm
А есть что-нибудь готовое такое же, но под Кобольд и Винду? Идея-то понятна и для себя я сделаю, если будет не влом. Но может уже кто-нибудь заморочился?
Аноним 17/09/24 Втр 17:48:14 889867 466
>>889825
Держи вишмастер https://dropmefiles.com/hFAuR
Автоматически детектирует все зелёные карточки и ебёт.

>>889769
>почему эта херь в описанном виде будет неэффективна
Ни одной причины не существует, отрицать это будет разве что шиз законченный.
Аноним 17/09/24 Втр 19:07:08 889956 467
Аноним 17/09/24 Втр 19:14:25 889961 468
>>889956
>Llama 3.1-70B Instruct MMLU 0.82 -> 0.78
Стопэ. А сколько у базовой 5к_м?
Аноним 17/09/24 Втр 19:39:37 889991 469
>>889956
>Awesome , Whats most simple way to run it ?
@
>Theoretically, vLLM or Aphrodite, but niether worked so far

>Is it faster / more efficient than ollama ?
@
>It's really, really slow.
>On a P40 like 1 Tok/sec, on a 3090 around 7 Tok/sec.

>Do you have a gguf?
@
>The existing IQ2_M quant has pretty much the same size and score as the AQLM quant. Its not that magical.

Просто в голос.
Аноним 17/09/24 Втр 20:23:48 890056 470
>>889867
> Ни одной причины не существует
Ну конечно, ее не делают не потому что эта херь обречена на провал и гораздо всратее чем mxm, который ты приводил в пример, а потому что это заговор корпораций, ага.
>>889991
> but niether worked so far
Что за печалька то?
> faster / more efficient than ollama
Лол
> IQ2_M quant has pretty much the same size and score as the AQLM quant
А жаль, вдруг были бы интересные подвижки.
Аноним 17/09/24 Втр 21:00:18 890094 471
>>889991
> On a P40 like 1 Tok/sec
Всё ещё лучше чем жоровские 0.7 т/с на трёх теслах.
Аноним 17/09/24 Втр 21:04:42 890099 472
>>890094
Жоровские 0,7 идут на нормальном кванте, а не на аналоге 2-х битного лоботомита.
Аноним 17/09/24 Втр 21:11:52 890105 473
>>890056
>А жаль, вдруг были бы интересные подвижки.
Да в целом по треду видно, что даже западные буржуи охуевают с требований ЛЛМ и не видят никакого просвета.
Аноним 17/09/24 Втр 21:59:33 890143 474
>>889991
Сравнивать ммлу не самое лучшее решение тут, это просто тест на знания
На сколько я понимаю обычный 2 квант реально сломан и отвечает хуево. Это попытка сделать его менее сломаным сохранив возможность запуска на 1 карте, думаю тут ответы должны быть лучше чем у обычного 2 кванта
Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут
Аноним 17/09/24 Втр 23:04:38 890212 475
>>890143
Но проблема с запуском, ггуфа нет, значит обладатели р40 сосут
Обладатели одной - да. А с двумя уже гораздо веселее. Там и ровсплит есть, который хотя бы немного параллелит, и памяти уже 48гб. 4КМ влезет. P100 уже три понадобится, зато эксллама... В общем, пока без сборки никуда. А честно говоря даже тем, кто имеет сборку хотелось бы жить без пердолинга и инференсить на каком-нибудь инновационном чипе о котором постоянно говорят все, кому не лень.
Аноним 17/09/24 Втр 23:38:55 890223 476
Аноним 17/09/24 Втр 23:51:21 890234 477
>>886912
Стопе, а что, можно и на русском гонять модельки без всякого рода переводчиков?
Аноним 18/09/24 Срд 00:29:00 890272 478
Аноним 18/09/24 Срд 00:47:39 890285 479
>>889389
спасибо родной потыкаю
Аноним 18/09/24 Срд 01:11:36 890295 480
Аноним 18/09/24 Срд 05:01:43 890339 481
>>890056
>ее не делают не потому что эта херь обречена на провал
Если кожаный позволит, то сделают. Так-то это блидинг эдж, возможно, ещё будет. А проваливаться такой штуке вообще поводов нет.

>>890143
>ггуфа нет
Эта хуйня - сжатие с потерями. Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное.
>обычный 2 квант реально сломан и отвечает хуево.
Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант.
Аноним 18/09/24 Срд 06:36:28 890359 482
Аноним 18/09/24 Срд 06:38:29 890361 483
Аноним 18/09/24 Срд 07:34:18 890366 484
>>885509 (OP)
Народ, можете подсказать, kobold.ccp уже поддерживает npu от процессоров, типа ryzen 8600g 8700g и т. д.? Или смысла от этих npu для генерации текста пока ещë нет?
Аноним 18/09/24 Срд 08:21:47 890384 485
>>890295
Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили.
>>890359
Увидеть бы тесты больших моделей, там памяти до 128 гигов есть. А так на мелких уровень 3090, выглядит годно.
Аноним 18/09/24 Срд 09:46:08 890413 486
С какой поделькой можно РПшить по-русски?
Аноним 18/09/24 Срд 09:57:34 890419 487
>>890413
Gemma2 и её файнтюны неплоха из маленьких
Аноним 18/09/24 Срд 10:08:55 890423 488
>>890366
Если llama.cpp не умеет то скорей всего нет
Глянь на гитхабе, там кстати обновили страницу и добавили кучу инструментов совместимых с llama.cpp

>>890384
>Ещё не понятно будут ли релизить в опенсорс. Квен стал превращаться в клозед-аи, большую визуальную модель они не релизили.
Младшие модели точно релизнут, старшие под вопросом
А вот где будет пролегать граница, наверное до 7b точно отдадут, это ведь реклама и маркетинг
А вот что то ценное на вроде большой визуальной понятно почему не отдали
Им все таки деньги нужно на чем то делать, так же и мистраль и другие создатели нейронок

>>>890339
>Ггуф - сжатие с потерями. А ты предлагаешь квантовать квантованное.
Ты путаешь преобразование в ггуф и квантование ггуфа
А я лишь писал что получившуюся у них модель, которая не просто хитрым образом квантована, не получится преобразовать в ггуф
Там на сколько помню была обрезка модели, поэтому ее архитектура стала нестандартной и в ггуф не преобразуется да и не запустится без пердолинга

>Размер файла, что и у Жоры, и ммлу то же. Значит, они сжали всё то же, что сжал Жора и так же, как он. Так что эта хуйня такой же сломанный квант.
Хуйню несешь, там другие методы использовались. Это не обычный 2 квант, который выполняется быстро и с потерями. Там какой то алгоритм который десятки часов все это дело сжимал. Был поиск важных весов и проверка, как я догадываюсь. Так что не путай теплое с мягким.
Без тестов делать такие голословные заявления глупо, думаю там аналог 3 кванта, с размерами 2
Аноним 18/09/24 Срд 10:17:51 890425 489
>>890423
> мистраль и другие создатели нейронок
Мистраль уже на бюджете куртки сидит, им похуй. Они так же как и Мета будут всё релизить. Самые пидорские модели у Машка, он всё хвалится что за свободу слова и открытость борется, но на деле грок у него за анальным пейволлом, а сам он только в твиттере хлопает очком, порванным базированной Бразилией.
Аноним 18/09/24 Срд 10:45:02 890431 490
>>890425
>Они так же как и Мета будут всё релизить.
Кек, ты не в курсе? У мистраля есть так то мистраль большой и чет еще было. Они не все релизят. И не все что у них есть показывается публике. Это все таки передовая компания с крутыми спецами, кто знает что они там крутят тестируя внутри
Как и мета, у них тоже есть что то для себя, но то что они отдали большую модель конечно молодцы, как и мистраль которые отдали 123b
По сравнению с клозедаи тут любой разработчик релизнувший свою модель уже молодец
Маск вроде пиздел о цензуре и что его сетка будет без нее, и на сколько знаю там ее меньше. А о том что отдаст модель бесплатно он о гроке 1 пиздел, и вобщем то отдал, когда он стал не нужен
Хотя соевый уклон все равно есть
Аноним 18/09/24 Срд 11:07:25 890433 491
>>890423
>Был поиск важных весов
Как imatrix у Жоры, чтоли?
>была обрезка модели
Что это меняет? Есть тонна pruned моделей, который работают на жоре.
>Это не обычный 2 квант, который выполняется быстро и с потерями
Ну да, это 2 квант, который выполняется медленно и с потерями. Разве что скорость работы использовать как метрику качества, тогда, тогда конечно. Медленнее - лучше.
Что есть у них, чего нет у жоры? Кластеризация весов. Это добавляет больше ошибки, но позволяет сжать сильнее. Нужно ли оно?
>There is no 4.0-bit k- or i-quantization, and Q4_K_S at 4.5 bpw beats the AQLM 4-bit quantization (which is actually at 4.044 bpw) by a large margin (0.9% vs 1.8% quantization error).
>In any case, at 2 bit, IQ2_XS outperforms the AQLM result by a significant margin (28.4% vs 35.4% quantization error) at just one step past "true" 2-bit quants.
>But at 3 bit, the AQLM result is truly remarkable.
То есть профит этого сжатия - только в уменьшенном размере, но это не "3 квант в размере 2". И есть ещё одно "но"
>In all quantization papers I have seen, they keep the token embedding and the output tensor as fp16, but do not count the entirely non-negligible amount of extra bits in the bit balance.
А у Жоры эти веса учитываются, так что сравнение немного нечестное.
Здесь я вспоминаю стори, где студенты соревновались в написании своего архиватора. Победила команда, у которой архив оказался больше исходного файла. Но они были единственными, у которых файл можно было распаковать.

>ggerganov
>it would be nice to reclaim the SOTA crown
Аноним 18/09/24 Срд 11:38:11 890449 492
>>890433
Хмм, глянул щас их бумаги, все еще выглядит как что то более умно сжатое чем обычный жорин к2
https://arxiv.org/abs/2405.14852
https://arxiv.org/abs/2401.06118
Но да, это аналог его 2 кванта, только с попыткой сжать все без таких охуевших потерь как в обычном сжатии, когда модель по сути сломана. Хоть и отвечает кое как.
Интересно было бы сравнить обычный 2 квант и эту их версию, какая отвечает лучше и следует контексту и инструкциям. На сколько помню у обычного 2 кванта все плохо
Аноним 18/09/24 Срд 11:46:35 890453 493
>>890431
> мистраль большой
Это и есть 123В. Вангую следующим будет релиз нового медиума. Им нет смысла держать у себя закрытые модели, куртке надо железо продавать, а не пытаться косплеить клозед-иа, который в чистом минусе уже который год.
Аноним 18/09/24 Срд 11:48:37 890454 494
>>890453
А чем был мику? На сколько помню его готовую версию не выложили
Аноним 18/09/24 Срд 11:49:18 890455 495
>>890449
> На сколько помню у обычного 2 кванта все плохо
IQ2_M уже терпимый, но он не лезет в 24 гига. Ближе к 3.0 bpw у Жоры уже перестают ломаться большие модели.
>>890454
Медиумом. Новую версию его и надо ждать.
Аноним 18/09/24 Срд 12:47:49 890498 496
>>885509 (OP)
Должен ли Q6_k быть медленнее fp16?
Аноним 18/09/24 Срд 12:50:30 890503 497
>>890498
упд прям на 100% дольше у меня, это норм?
Аноним 18/09/24 Срд 12:53:17 890508 498
>>890498
нет, он должен быть раза в 2 быстрее
Аноним 18/09/24 Срд 13:08:04 890520 499
>>890508
Понятно, может ли быть что тот кто квантовал сделать что-то не так или только на моей стороне проблемы?
Аноним 18/09/24 Срд 13:10:31 890524 500
>>890223
Супер, кто-нибудь уже катал?
>>890339
> Так-то это блидинг эдж, возможно, ещё будет.
Только если рынок потребительских ллм ускорителей станет настолько большим, что ради него будет смысл разрабатывать подобную железку, это единственный юзкейс для сочетания нищечип+многоврам.
Съемная рам в принципе существует лишь потому что у пользователей огромный разброс в потребностях. Для гпу же нет смысла иметь слабый гпу и много врам (кроме инфиренса ллм), связка +- фиксирована.
> проваливаться такой штуке вообще поводов нет
Отдельные модули тащат за собой ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д., ты просто не осознаешь масштаба проблем, которые вылезут. Амудэ сколько лет xmp завести пыталась, и до сих пор приколы случаются.
Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене. Пользователи будут бомбить с того что один _модульнейм_ не разгоняется, другой дает артефакты и нестабильность, а рекомендованных нет в продаже. И вообще почему покупатель должен или дополнительно что-то докупать, или платить за предустановленные плашки, которые планирует снять? Если же продавать готовые киты - проще просто сразу делать модификации гпу с разной памятью что уже имеем.
Гей_мерам такое нахуй не нужно, большинству ии-релейтед задач хватает имеющейся памяти и трейдить скоростью и прайсом за это захотят не все. Для чего-то крупного - нужен оче мощный чип, где заведомо будет память.
Какбы такую игрушку и сам бы хотел иметь и даже купил бы, но реальность вносит свои коррективы и надеяться не стоит.
>>890520
Скорее всего на твоей, оно бы иначе просто не работало.
Есть приколы, когда при квантовании или тренировки проебываются EOS токены и модель всегда генерирует заданный максимум а юзер ждет, но такое больше актуально для голого трансформерса, в беках что юзают это легко диагностируется.
Аноним 18/09/24 Срд 13:12:37 890528 501
>>890524
Спасибо, буду копать у себя
Аноним 18/09/24 Срд 13:55:22 890564 502
почему квант 2 у тайгера работает так хорошо, в чем секрет
Аноним 18/09/24 Срд 13:57:36 890568 503
>>888606
>Можешь мелочь типа 2-4б натренить под конкретную задачу
как? дай гайд, у меня 12 кеков если че, хватит?
Аноним 18/09/24 Срд 14:03:38 890572 504
>>888584
>немо
немо я не пробовал
Аноним 18/09/24 Срд 14:11:11 890577 505
А зачем нужны файлы айматрикс?
Аноним 18/09/24 Срд 16:10:25 890706 506
Аноним 18/09/24 Срд 17:23:23 890772 507
lcsa8v6LNBL8HCau.jpg 145Кб, 1920x705
1920x705
Diablo-4-PS5-Vs[...].jpg 113Кб, 1000x508
1000x508
>>890449
>с попыткой сжать все без таких охуевших потерь
>28.4% vs 35.4% quantization error
Что-то пошло не по плану.

>>890524
>разрабатывать подобную железку
Так разработано всё. И будет разрабатываться дальше. Всё, что нужно - перенести компоненты с существующей pcb на видеокарту. С этим нейронки справляются, лол. Расходы на разработку околонулевые.
>ссаный колхоз с совместимостями, кривыми стандартами, пердолингом и т.д.
Ну да, это уже тоже пройденный этап. Самсунг топовый производитель памяти и у него есть свой стандарт. Говоришь всем придерживаться его. Готово.
>Видюха с ними будет заведомо уступать нормальным и по перфомансу, и по цене.
По перформансу нет ни одной причины, чтобы уступало. По реальной частоте lpddr5 ебёт gddr5-6 так, что страшно становится, но разъём позволяет. И так-то я не вижу ни одной причины, почему нельзя на такой плате распаять ту же gddr6x, лол.
Это просто разъём, который позволяет эффективную передачу данных без потерь в производительности.
> проще просто сразу делать модификации гпу с разной памятью что уже имеем.
А, да? Где купить 3090 на 48 гигабайт?
>Гей_мерам такое нахуй не нужно
Ломающие новости - гей меры уже давно ноют, что куртка памяти не доложил. А рт ещё и повышает этот расход.
Аноним 18/09/24 Срд 17:27:19 890776 508
Хз почему говорят что новый мистраль не соевый особо. Щас тестанул сравнив в куме старый мистраль 7x8b с своими инструкциями и 22b. Так если в 7x8 уже запихали соевую гадость с защитой ниггеров. То в Немо и новом 22b уже запихали защиту от нормального кума оставив соевый вариант с самым отстойным описанием какое только может придумать сетка.
Аноним 18/09/24 Срд 17:33:56 890782 509
image 81Кб, 1273x481
1273x481
Мучаю magnum-v3-9b-Q6_K своей шизой.

С шестого трая дал почти адекватный ответ (хотя неточностей хватает, и зачем-то продолжил нумерацию 4-5-6). В каких-то генерациях вообще говорил, что не знает Мотаро, в каких-то пытался запихнуть Гарье то в сайлентхил, то в персону3.
Аноним 18/09/24 Срд 17:48:34 890791 510
image 107Кб, 1272x609
1272x609
image 105Кб, 1261x504
1261x504
>>890782
Первый пик - всех выдумал, но игры знает.
Мне понравился его ларп - "Based on the gameplay previews and trailers I remember seeing years ago"
"Of course, being over a decade old now, my memory isn't perfect. "

На втором пике с третьей генерации вспомнил Саймона и Итана, но закосячил менханта, выдав гг первой части кликуху финального босса.

Но я думаю это вполне нормальный результат для 7 Гб модели, выдающей 27 т/с на RTX3060.
Аноним 18/09/24 Срд 18:05:48 890807 511
>>890776
У меня 22б более тупой, я хз, че я делаю не так, может ггуфопроблемы (q8 отвечает хуже exl2 3bpw).
Именно в логике туповат.
Аноним 18/09/24 Срд 18:25:22 890820 512
Будет ли ощутимый прирост скорости, если остаток выгружать не в ddr4, а в ddr5? Насколько овчинка с заменой RAM стоит выделки?
Аноним 18/09/24 Срд 18:27:31 890824 513
>>890807
тестировал то же самое, только получилось наоборот. exl2 лупился на 3bpw , на 4bpw было меньше лупа. а q8 все же был получше (3060 и 32 гига оперативы). Но все равно какие промпты не тестировал сетка портит любой контент который считает не этичным. И от этого либо не отвечает, либо отвечает но скупо, либо специально повторяет весь предыдущий свой ответ. Ну я сказал бы это не шаг вперед. Будет возможность юзать 6 квант мистраля кранча буду его лучше юзать чем это поделие.
Аноним 18/09/24 Срд 18:29:00 890828 514
>>890820
Маленький прирост. Ждем нормальных процессоров под нейронки.
Аноним 18/09/24 Срд 18:46:53 890871 515
>>890824
А это я так понимаю влияние принятых в ес законов об ии, жаль если модель реально лоботомировали, до этого мистраль старались так не делать
Хотя, вспоминаю писали что еще в мистраль 0.2 7b был подчищен датасет
Аноним 18/09/24 Срд 19:20:53 890901 516
ПЕРЕКАТ Аноним # OP 18/09/24 Срд 19:30:03 890907 517
Аноним 19/10/24 Суб 21:34:22 923691 518
Аноним 20/10/24 Вск 21:43:11 924542 519
>>923691
оно мозги ебет больше
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов