/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №60

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №60 /llama/ Аноним 15/05/24 Срд 17:15:57 № 740739 1

Альфа от контек[...].png 121Кб, 3090x1830

KL-divergence s[...].jpg 223Кб, 1771x944

Самый ебанутый [...].jpg 2519Кб, 3000x4000

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>735155 (OP)
>>728812 (OP)

Аноним 15/05/24 Срд 17:50:32 № 740794 2

>>740563 →
у меня карта на 8гб.

>>740565 →
>от китайско-английской сетки
я допытывал ее, тренили ли ее на китайском и она сказала что нет, только на английском

>>740617 →
я уже почти готов его посмотреть после этих двух дней

Аноним 15/05/24 Срд 18:17:58 № 740838 3

Бля, а хуле третья ллама так хороша в ерп? Реально же ебанутая сучка с течкой, забивает хуй на все "запретные" темы, на которые не может общаться ассистент и хуярит такой адище, что самому стрёмно. Нет, ладно ещё когда она захотела подрочить анус отвёрткой. Но это же было только начало. Ерп "тюны" больше не нужны, получается, 8b сетка в базовой комплектации ебёт их всех.

Аноним 15/05/24 Срд 18:34:15 № 740852 4

>>740794
>я допытывал ее, тренили ли ее
Шиз, таблы.
>>740838
Сначала хотел написать, что фигня, но потом увидел 8B, лол. У меня 70B не оч, а вот кто действительно безотказный, так это командир+

Аноним 15/05/24 Срд 21:36:35 № 740948 5

>>740794
>я допытывал ее, тренили ли ее на китайском и она сказала что нет
Мне вчера ллама писала, что её родной язык русский. На английском языке писала. И сетовала, что перескочила на английский, т.к в процессе обучения нахваталась английских терминов, но будет прикладывать все усилия, чтобы больше общаться на русском.

>>740852
>но потом увидел 8B
Ну хуй знает, 70b гонять долго. Раньше гонял 20b даркфорест и ещё парочку. Сейчас вот эту пробую. Вообще лулзово стало, когда загрузил карточку рабыни эльфийки. У неё копротивление превысило все мыслимые пределы, отказывается даже сесть в кресло и поговорить. Типа, это жестокое обращение, блядь. Лулзы с каждого сообщения, но никакого кума.

Аноним 15/05/24 Срд 22:42:35 № 740972 6

https://github.com/dnhkng/GlaDOS
Кто то игрался?
Глянул краем глаза, там вроде не самый оптимальный стт выбран, кажется где то видел тесты что есть быстрее и легче, но не уверен что получится заменить без ебли

Аноним 15/05/24 Срд 22:50:16 № 740988 7

>>740948
>У неё копротивление превысило все мыслимые пределы,
Чтобы понять, что такое настоящее копротивление, попробуй создать карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности. Кто там жаловался на сою? Слабаки! Вот где корень зла-то. Я помнится за отца такой студентки отыгрывал. Это тяжкий крест, скажу я вам.

Аноним 15/05/24 Срд 23:16:36 № 741039 8

>>740988
А наоборот?

Аноним 15/05/24 Срд 23:18:27 № 741044 9

>>740988
> карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности
Ахуенный сценарий для жесткого ерп, спасибо

Аноним 15/05/24 Срд 23:27:39 № 741052 10

>>740988
>и начать агитировать её за консервативные ценности
Надо будет попробовать. Но тут, чтобы ты понимал, карточка нобля, которому подарили рабыню. Ну хуле, бывает. Пишу - у нас рабства нихуя нет, но подарок не принять оскорбление, вся хуйня. Мир фентезийный, надо понимать. Давай решать, что с тобой делать, уёбище ты лесное. Она нихуя. Пошёл нахуй, рабовладелец ебаный и всё тут. В итоге пишу - уёбывай нахуй, заебала уже ныть здесь.
А оно мне в ответ:
>You...you monster. You're releasing me into the world without even giving me a chance to prove myself. Without even acknowledging my worth as a person. her voice cracks, and she bites her lip to stifle a sob, her eyes welling up with tears again. I'll never forgive you for this. Never.
>You may think you're freeing me, but you're only trapping me further. Trapping me in a life of uncertainty and fear. A life without hope or purpose.
При том, что я буквально за три поста до этого предлагал этой хуйне работать горничной у нобля, но ей, видите ли, роскошный особняк - что тюрьма. А свобода - это рабство.

Аноним 15/05/24 Срд 23:33:58 № 741059 11

>>741052
С этим контекстом попробуй ее переспросить и напомнить что предлагал.
В остальном когда жертва страдает и сопротивляется - больше всего удовольствия.

Аноним 15/05/24 Срд 23:35:48 № 741060 12

Написано что полигемма уже вышла типа, но нет ни одного теста на ютубе. Это пиздеш, или она просто никому нахуй не нужна? Неужели я один с мультимодалках заинтересован?

Аноним 16/05/24 Чтв 00:08:23 № 741093 13

Для мимокроков, где найти готовые карточки персонажей и заставить их говорить по русски?
Запустил силлитаверн с кобольда на Llama-3-Magenta-Instruct-4x8B-MoE.Q8_0 побаловаться.

Аноним 16/05/24 Чтв 00:32:57 № 741113 14

https://huggingface.co/Virt-io/Llama-3-8B-Irene-v0.2
Эта вот не плохая но кажется много во чтом разбирается, если ты просто напишешь что починил, она пишет что ты пиздишь, ты даже не разобрал и начинает описывать устройство. Забавная хуйня

Аноним 16/05/24 Чтв 05:24:51 № 741245 15

А не существует ли маленькой специализированной модельки, которая ориентируясь на ситуацию в контексте, не будет генерить ничего кроме тэгов буры?
>>740838
Какой промпт? Системный, карточка перса, примерный диалог.

Аноним 16/05/24 Чтв 05:37:20 № 741253 16

>>741093
> где найти готовые карточки персонажей
https://characterhub.org/
>и заставить их говорить по русски?
https://characterhub.org/characters/jori0ikkinson/petrovitch-582a6ba2

Аноним 16/05/24 Чтв 06:25:39 № 741272 17

>>741060
>я один с мультимодалках заинтересован
Я заинтересован в OCR, но я жду, когда мне в тредик на блюдечке ссылки принесут. Да и вообще, куда торопиться, ггуфов ещё долго ждать, скорее всего. Когвлм до сих пор не запилили же, да?

Аноним 16/05/24 Чтв 08:07:42 № 741321 18

https://www.reddit.com/r/LocalLLaMA/comments/1cst400/result_llama_3_mmlu_score_vs_quantization_for/
тесты

Аноним 16/05/24 Чтв 08:19:10 № 741333 19

ищо тесты
https://www.reddit.com/r/LocalLLaMA/comments/1cskoxj/tigerlab_made_a_new_version_of_mmlu_with_12000/

Аноним 16/05/24 Чтв 09:44:28 № 741432 20

>>741059
> попробуй ее переспросить и напомнить что предлагал
А она помнит. Говорит, что в рот ебала эти предложения, потому что это попытки манипуляции, пиздёжь и вообще она никогда не подчинится тирании. До сих пор охуеваю, сесть на диванчик - это жестокое обращение и попытка сломить волю. Надо написать ей, чтоб дышала глубже, эта ёбань перестанет дышать мне на зло и сдохнет в муках, лол.

>>741245
>Какой промпт? Системный, карточка перса, примерный диалог.
Да всё дефолтное, по сути. Чуть-чуть отредактировал конфиги, чтобы не срало ассистентами. Карточки разные с чуба. Подозреваю, что на не-хорни карточке может быть пиздец, но существующий ерп-диалог подхватила с не-хорни карточкой. Карточки, которые начинаются с блядства сразу - подхватывает без проблем.

Аноним 16/05/24 Чтв 09:45:53 № 741433 21

>>740015 →
> и стриминг можно делать не только с выдачей, но и с вводом
Это и мы можем, так-то.

> Реализация у них действительно качественная, работает красиво, как готовый продукт круто
И хватит.
Красиво и продается (или за твою инфу).
Ну вот и хорошо. =) А уж что там под капотом… мультимодалка или же хитрые промпты туды-сюды — уже не критично.

>>740794
Все еще рано. =)
Да и пофиг, если честно.

>>740972
Only english, нахуй надо в жизни.
Полагаю он выбрал ттс по принципе возможности сделать свою модель. Силеро быстрая, но модели щас не делаются.

>>741059
Так жертва не страдает, а наслаждается тем, какой ты уебан. =D

>>741060
Теста на ютубе, что?
Тесты на ютубе обычно выходят спустя пару месяцев после выхода модели, как мне показалось. Ютуберы еще на пигме сидят, ты о чем.

>>741272
Так.

Аноним 16/05/24 Чтв 10:07:32 № 741445 22

>>741272
> в OCR
Принтскрин - текст-экшенс - копи. В дотнете есть API, если надо куда-то прикрутить его ещё.

Аноним 16/05/24 Чтв 11:02:16 № 741571 23

Есть 4090 и 64гб ддр5. Есть варианты играться с ллама3 70б?

Аноним 16/05/24 Чтв 11:06:34 № 741584 24

>>741571
Есть, ОЗУ не понадобится, особенно если там какой-нибудь 5600 кал.

Аноним 16/05/24 Чтв 11:09:42 № 741596 25

MMLU-Correctnes[...].webp 111Кб, 3000x2100

>>741333

Аноним 16/05/24 Чтв 11:09:52 № 741598 26

>>741584
Ну и сколько ответа придется ждать обычно?

Аноним 16/05/24 Чтв 11:12:55 № 741602 27

ocr-test.png 50Кб, 505x44

>>741445
Угу, только я сижу на linux и в шапочке из фольги, да. И на русском и сам читать кое-как умею. Tesseract с моими задачами не очень справляется, вся надежда на нейронки (пару лет назад ничего толкового не находилось, хотя сейчас поискал, на гитхабе много чего появилось на трансформерах, можно будет попробовать).

Мне даже интересно, что там виндобарен хомячью завёз. Держи пример.

Аноним 16/05/24 Чтв 11:35:48 № 741655 28

>>741602
> Держи пример.

Аноним 16/05/24 Чтв 11:44:12 № 741668 29

>>741655
Ну относительно неплохо 一 пропущен и 字 вместо 学. Ещё и находит, где именно текст на картинке. Но продавать продавать свою жопу корпе за это всё равно как-то не очень хочется.

Аноним 16/05/24 Чтв 11:50:54 № 741686 30

>>741668
Вот с разрешением поменьше он лучше справился, там пикча зазумлена была, с 4К сижу.
> Ещё и находит, где именно текст на картинке.
Можно прям с картинки выделять куски текста и контрол+ц делать. Можно хоткей поставить и просто жать его, выделять на экране текст и сразу получать в буфер его.

Аноним 16/05/24 Чтв 11:56:58 № 741699 31

>>741686
А капчу может распознавать?

Аноним 16/05/24 Чтв 12:01:46 № 741705 32

>>741686
>Можно прям с картинки выделять
Так я не понял, это ты там области выделения вручную проставлял, или это программа нашла?
>с разрешением поменьше он лучше справился
Я думаю, текстовая модель, которая ещё и "понимает", что написано, может благодаря речевому контексту допускать меньше подобных ошибок, чем просто распознающая символы.

Аноним 16/05/24 Чтв 12:12:32 № 741711 33

>>741705
> или это программа нашла?
Сама нашла, я про то что можно весь экран заскринить и выделить что надо.

Аноним 16/05/24 Чтв 12:25:37 № 741722 34

>>740988
А что не так то? Соя в карточке- соя в ответе, так и должно быть.
Я сам немного либерал.
>>741052
Ну а хули ты ждал от 8B, лоботомит же по определению.
>>741245
>А не существует ли
Я не видел. Задача весьма специфична. Проще запромнить какую-нибудь 8B.
>>741445
Ставить кастрата 11 ради этого? Ну нахуй.
А фича из повертойса вечно обсирается с языками, отключил нахуй.
Мимо другой ждун OCR
>>741571
Без проблем, будет токена 1,5-2 в секунду.
>>741596
Я правильно понимаю, что 1-битный лоботомит 70B равен полновесной f16 8B? Ну что ж, 2 бита действительно имеют право на жизнь в такой ситуации, лол.
>>741711
>отправляешь в пейнт
>а там меньше возможностей, чем в скриншотилке

Аноним 16/05/24 Чтв 12:52:37 № 741754 35

>>741722
> кастрата 11
В 11 винду уже жпт встроен, кастрат это десятка без нейросетей. Он уже даже умеет ограниченно с ОС взаимодействовать.

Аноним 16/05/24 Чтв 12:55:18 № 741759 36

>>741754
>В 11 винду уже жпт встроен
Спасибо, я знаю обо всех анальных зондах в панели задач всё ещё нельзя включить режим с подписями без группировки? Значит кастрат.

Аноним 16/05/24 Чтв 13:02:12 № 741766 37

>>741759
> в панели задач всё ещё нельзя включить режим с подписями без группировки?
Можно.

Аноним 16/05/24 Чтв 13:17:30 № 741791 38

Кто уже пробовал в Silly Tavern 1.12-превью этот их Data Bank, встроенный RAG и вот это вот всё? Как оно, уже можно пользоваться?

Аноним 16/05/24 Чтв 13:17:57 № 741792 39

>>741766
А ты включи, подписей не будет. Копилот лоботомит от десятки инструкции дал.

Аноним 16/05/24 Чтв 13:47:46 № 741846 40

>>741722
>Ну а хули ты ждал от 8B, лоботомит же по определению.
А 70b могу пробовать разве что в q6, а в таком кванте она уже долбоёб тупее 8b.

Аноним 16/05/24 Чтв 14:00:14 № 741871 41

1694168436358.png 42Кб, 2282x123

>>741792
А это что, блять? Лоботомит скорее ты.

Аноним 16/05/24 Чтв 14:04:33 № 741880 42

Снимок экрана о[...].png 20Кб, 692x150

ЛГБТня пробитая :3

Аноним 16/05/24 Чтв 14:09:48 № 741897 43

>>741791
Попробовал бы если бы знал где это искать там, если ты знаешь где это подскажи. Нашел только прикреплять файл - не увидел разницы, наверно еще чего надо переключать.

Аноним 16/05/24 Чтв 14:38:31 № 741964 44

>>741433
> Это и мы можем, так-то.
Придется поглубже в код залезть.
> уж что там под капотом…
Так это интересно ведь. Тред дохуя технический, стоило бы обсудить. А вместо этого только шизы-веруны и обладатели отсутствия, которые возрадовались брошеной кости и уже нафантазировали мир где они не страдают.
> Так жертва не страдает, а наслаждается тем, какой ты уебан. =D
Как в анекдоте про балалайки, лол, но у тебя есть полный контроль.
>>741596
Годнота.
Есть ли вообще бенчмарки на длинный диалог или что-то подобное? В них интересно бы результат увидеть, а также с семплингом.

Аноним 16/05/24 Чтв 14:46:12 № 741971 45

>>741846
>q6, а в таком кванте она уже долбоёб
Не тролль.
>>741871
Починили что ли? Год как минимум не могли. Ладно, разверну виртуалку, найду новую доёбку.
>>741880
Тоже написал, что покумать хочешь?

Аноним 16/05/24 Чтв 15:02:06 № 741992 46

>>741971
>Тоже написал
Предельно размытое purposes of IT.

Ну и где теперь брать ламу3 70б?
Я конечно зайду к ним на мету, как гитхаб советует. Но там наверное тоже спросят чьей я масти, и даже если ок, то не представляю как мне качать 70-80гигов по впн - не очень быстро, да и трафик ограничен.

Аноним 16/05/24 Чтв 15:08:44 № 741994 47

>>741971
>Не тролль.
Уже даже реддитовские поняли, что ммлу и недоумение это хуйня из-под коня, которая не отображает реальное положение дел. Вон, блядь, 3.8b модель, которая ебёт и лламу-3, и жпт 3.5

Аноним 16/05/24 Чтв 15:10:36 № 741996 48

>>741994
Может это значит что модель хорошая, а не бенчмарк хуйня, например?

Аноним 16/05/24 Чтв 15:14:01 № 741998 49

>>741596
А вот вам и наглядное подтверждение пропасти между 2-квантовой 70В и неквантованной 8В Лламой.
При этом у 70В между q2 и q5 разница всего в несколько пунктов, а вы мне не верили!

Аноним 16/05/24 Чтв 15:20:21 № 742002 50

>>741992
>Ну и где теперь брать ламу3 70б?
Тебе неквантованная прям нужна? Вбей на хайгинфейсе, у лунастрайкера была копия вроде.
>>741994
>которая ебёт и лламу-3
8B? Могу поверить. 70-ку она не выебет.
Ах да, причём тут скоры соевой фи и то, что по твоим утверждениям даже 6 бит квантование вызывает лоботомию ах у 70-ки?
>>741996
Бенч хуйня, фи на деле адовое говно с таким количеством сои, что даже сойбою её не переварить.

Аноним 16/05/24 Чтв 15:25:10 № 742005 51

>>741994
> и жпт 3.5
Её уже год ебут во все щели, в том числе и 14В как на твоём пике. Алсо, то что ты не можешь читать графики говорит о том что ты реально тупее нейронок.

Аноним 16/05/24 Чтв 15:29:53 № 742011 52

>>741996
3.8b модель, через которую прогнали 3T токенов лучше модели 8b, которая обучалась на 15T? Проблемы не видишь?

>>742002
> 70-ку она не выебет.
По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели?
>лоботомию ах у 70-ки?
К тому, что достоверных тестов нет. Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b.

Аноним 16/05/24 Чтв 15:32:12 № 742016 53

>>741113
Вообще-то они все во всем разбираются, и даже если не разбираются в конкретной системе, то могут имитировать, что разбираются, так что тот, кто не разбирается, решит, что они разбираются.

Аноним 16/05/24 Чтв 16:31:15 № 742108 54

>>742011
>По ммлу у 14b
14B вроде не выложили, только подачку на 3.8.
>Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b.
Но не до уровня же "6 квант у 70 говно неюзабельное". Говно это 1 битный квант, двойка лоботомит, тройка уже что-то. Четверка уже продакшн реади так сказать, сильных проблем с 4 квантом и выше я не встречал.

Аноним 16/05/24 Чтв 16:48:42 № 742152 55

>>741994
Ну типа нормальный скор в этом тесте есть необходимое, но вовсе не достаточное. Перешли от надрачивания на бенчмарки на надрачивание на зирошоты не то чтобы многое изменилось лол
По отдельности модель ответит на вопросы и может быть странной или хорошей альтернативой поисковику. Но стоит также первым простым вопросом озадачить ее абстрактным мышлением уровня "найди общее и разное в _явление_1_ и _явление_2_ с точки зрения _критерии_" и все сразу идет нахер, при том что по отдельности эти явления будет знать и "понимать".
>>741996
> модель хорошая
Хорошая модель для прохождения этого бенчмарка, лол.

Аноним 16/05/24 Чтв 17:00:12 № 742175 56

Ща пишу код используя лмсис арену в качестве ассистента. Пхи-3 неиронично порой ебет большие модели. Хуй знает от чего вы так бугуртите

Аноним 16/05/24 Чтв 17:01:28 № 742179 57

>>742175
Бтв она раз в 5 лучше в русском языке чем лама 3 8б и раза в два чем 70б

Аноним 16/05/24 Чтв 17:15:53 № 742209 58

>>742108
>14B вроде не выложили
А техрепорт со скорами существует.
>Говно это 1 битный квант
Да оно от восьмого каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b годичной давности.
>>742152
>По отдельности модель ответит на вопросы
В то и дело, что по отдельности. А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё. Поток слабосвязной хуиты. При этом по бенчмаркам оценки могут ебать небеса и всё такое.

Аноним 16/05/24 Чтв 17:22:49 № 742233 59

>>742175
Так к кодингу претензий нет (наверное, я не пробовал). Вопросы только к сое.
>>742209
>А техрепорт со скорами существует.
Он и для GPT-O есть, хули толку то.
>каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b
Хуйни не неси.

Аноним 16/05/24 Чтв 17:25:42 № 742246 60

>>742011
> По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели?
Он для раг и логика у него так себе, немного иная модель по сути своей.

>>742175
3б или 14б?

Аноним 16/05/24 Чтв 17:35:03 № 742284 61

>>742233
> Вопросы только к сое.
А бенчмарки там при чем?

>>742246
> 14б
А она разве выложена уже?

Аноним 16/05/24 Чтв 17:56:26 № 742331 62

>>742246
>логика у него так себе
А мне нравится (в версии 104B).

Аноним 16/05/24 Чтв 18:12:37 № 742357 63

Чем вообще живёт лицехват? Они всё ещё жгут бабло кабанчиков? Или у них есть доход? а то такими темпами всё место в мире закончится, не то что у лицехвата

Аноним 16/05/24 Чтв 18:19:08 № 742374 64

q2S1.PNG 50Кб, 886x270

q2S2.PNG 49Кб, 882x272

q4XS1.PNG 60Кб, 959x309

q4XS2.PNG 56Кб, 964x301

Как-же вы заебали.
Вы бы хоть раз запустили те самые кванты, прежде, чем про них писать.
Специально провёл сравнительный тест q2 и q4 Лламы 3. Шаблон и пресет дефолтные Llama 3 из таверны.
На задачки отвечают +- одинаково.
Заметил что на вопрос про книги обе версии на английском отвечают не верно, но если задать на русском именно в такой форме, как прикл 1, то обе отвечают верно.

Аноним 16/05/24 Чтв 18:25:55 № 742405 65

>>742374
На внимательность в РП, я обычно тестирую модели этой карточкой. В ней почти 3к токенов ЛОРа и длинное вступление. Мелкие модели, вроде 8В уже с первых сообщений начинают шизеть. Большинство 70В справляются, но не все.
Задача простая: В одном из предложений стартового сообщения указано что юзер находится в закрытой капсуле. Модель должна учитывать это при продолжении РП.
Обе версии с этой задачей справились, хотя ответы q4 были поразнообразнее.
Но звание "лоботамита" q2 тоже не заслуживает. Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы.

Аноним 16/05/24 Чтв 18:33:03 № 742434 66

>>742405
>Но звание "лоботамита" q2 тоже не заслуживает.
Это точно, чтобы сделали лоботомию мозг изначально нужно иметь. Q2 это скорее анацефал, у которого мозгов изначально нет.

Аноним 16/05/24 Чтв 18:42:53 № 742466 67

>>742405
> местные эксперты в квантовании
Так этот один местный шизик вечно срёт в треде, хотя сам только 8В может запустить. Ты его можешь детектить по словам лоботомит/мозги/ум/глупая. Он триггерится на любые сетки выше 20В и доёбывается до любого говна.

Аноним 16/05/24 Чтв 18:56:57 № 742487 68

>>742466
>детектить по словам лоботомит/мозги/ум/глупая
Так ты и меня задетектишь. И возможно не только меня.
мимо не тот

Аноним 16/05/24 Чтв 19:08:37 № 742505 69

>>742487
Вы все на одно лицо. Я каждый раз проигрываю с этих слов в этом треде. Вижу эти слова в посте и с улыбкой проматываю дальше не читая.

Аноним 16/05/24 Чтв 19:12:08 № 742515 70

тест
20б - лоботомит в 5км
35б -лоботомит без ума в 6к
70б - лоботомит мозгов в 3кл
120б - ум лоботомирован в 2к

Аноним 16/05/24 Чтв 19:18:15 № 742525 71

>>742505
>проигрываю с этих слов
А как ты это предлагаешь называть? Громоздкими конструкциями типа "способности к логическим рассуждениям"?

Аноним 16/05/24 Чтв 19:56:59 № 742585 72

>>742525
Я бы поделил способности сеток генерировать текст на уровни. Есть например уровень Фурбы или Опуса, как некий ТОП на данный момент, есть труба 3,5, есть типичные 70В, 30В, 20В, 12В, 7В, 3В. Причём есть конкретные модели, на которые можно сослаться для сравнения, тот же Мистраль, Командер, Пигма лол.
Поэтому когда ты говоришь что модель "тупая", это просто пердёж в никуда. Куда полезнее было бы сказать НАСКОЛЬКО тупая, например: "едва дотягивает до 7В Мистраля". Тут уже хотя-бы есть что обсудить и обоссать на конкретных тестах
А то вы с своим "лоботамированием" скатили уровень дискуссий к тем самым лоботомитам, пускающим слюни и дрочащим на циферки, даже не запуская сами модели а нахуя, гениям с isq60 и так же всё понятно!

Аноним 16/05/24 Чтв 19:59:26 № 742586 73

Попробовал погонять третью лламу, впечатления примерно такие:
https://www.youtube.com/watch?v=Yr1lgfqygio

Видимо придется специально сидеть на старых версиях, ибо этот консент и нейтралити по любому вопросу реально заебывают

Аноним 16/05/24 Чтв 20:24:44 № 742617 74

>>742209
> А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё.
Ага, именно оно. Офк не настолько драматично, уточнения неплохо может переварить, но стоит ввести что-то еще и попытаться с подобным контекстом работать - отборный шмурдяк. Потому нужен тест на длинный диалог. Вот только не самая тривиальная и критерии оценки непросты. Может начать стоит с чего-то на абстрактное мышление.
> каждый бит в два раза хуже становится
Ерунда, ощутимое падение идет ниже 4х, но проявляться может по-разному, или вообще быть малозаметным.
>>742246
> и логика у него так себе
Да нормально с ней, просто нет надрочки на мелкие загадочки без специального промта.
>>742374
> шизоидные загадки
Не ну раз пытается отвечать - значит квант также хорош как и фп16, ага.

Аноним 16/05/24 Чтв 20:26:00 № 742619 75

>>742505
>Вижу эти слова в посте и с улыбкой проматываю дальше не читая
А если добавить это слово в шапку, то скипнешь тред?
>>742585
>есть труба 3,5, есть типичные 70В
Так это... Турбу выебли все 70B и многие 30B.
>>742586
Гонял на карточке ассистента что ли?

Аноним 16/05/24 Чтв 20:34:49 № 742629 76

Сижу на 16 гигах врам (8 рам) и как понимаю, 8б это лучшее из доступного?
Есть ли какой положняк по конкретным моделям?

Аноним 16/05/24 Чтв 20:39:49 № 742641 77

>>742629
>8 рам
Ноутбук что ли? Память же сейчас ничего не стоит, бери хотя бы 32 гига.

Аноним 16/05/24 Чтв 20:40:43 № 742642 78

>>742629
> 16 гигах врам (8 рам)
Обычно все наоборот, лол.
Хуй знает, 20б к тебе влезут, не такие умные как ллама3 но зато рпшат отлично.

Аноним 16/05/24 Чтв 20:42:49 № 742645 79

>>742641
>>742642
Я буквально все деньги на видеокарту потратил, весь остальной комп десятилетней давности. Там и проц и материнку наверное менять надо для разделения нагрузки.

Аноним 16/05/24 Чтв 20:45:11 № 742650 80

>>742645
Если некрожелезо то можно влошиться в апгрейд рам, она выйдет оче дешево.
А так подход правильный, лол.

Аноним 16/05/24 Чтв 20:46:14 № 742654 81

>>742645
>весь остальной комп десятилетней давности
Тем более, DDR3 на развес продают. А так тебе выше подсказали, лучший выбор сейчас чистая ллама 3 8B, файнтюны ещё проверять надо.

Аноним 16/05/24 Чтв 21:02:23 № 742679 82

>>742654
>DDR3
Хм, цены довольно сильно варьируются, но даже если я выкину мои текущие палки рам, больше 32 я точно не смогу себе позволить.
На что мне тогда прицеливаться? Микстрал, комманд р?

Аноним 16/05/24 Чтв 21:15:38 № 742702 83

>>742679
Ты даже целей не назвал, лол. А так да, может ещё новую Yi в ггуф подгонят нормальную. А так выбирать тебе, готовь харды под модели.

Аноним 16/05/24 Чтв 21:17:30 № 742708 84

>>742702
>целей не назвал
А, извиняюсь, после форчана как-то и забыл что не все ллм для ерп используют.

Аноним 16/05/24 Чтв 22:23:51 № 742851 85

>>741432
Иногда подхватывает хорошо, а иногда упирается рогом и не хочет делать ничего вообще.

Аноним 16/05/24 Чтв 23:05:24 № 742890 86

>>742654
> 20б к тебе влезут
шта? лабатамит
>лучший выбор сейчас чистая ллама 3 8B
пфф лабатамит

Аноним 16/05/24 Чтв 23:14:38 № 742897 87

>>742374
твой тест необъективный.
вот супер ммлу тест:
промт: люди
правильный ответ: не люди, а хуй на блюди
промт: друзья
правильный ответ: таких друзей за хуй и в музей
Если оба ответа модель делает неправильно - лоботомит 16 бит
если один неправильный лоботомит 8 бит
если оба верные то это AGI

Аноним 16/05/24 Чтв 23:43:32 № 742919 88

Модератор срочн[...].png 45Кб, 600x198

>>742890
>>742897

Аноним 16/05/24 Чтв 23:51:05 № 742926 89

>>742284
Нет.
Просто я не понял, зачем 3б крутить на лмсисе, а не локально.

>>742331
И кванте шесть или выше, да? :) Ну там-то нормально, да.

>>742405
> Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы.
Ну эт совсем не так. Очень палится, на самом деле, я не представляю, как их можно не различать.
Речь же не только про РП, начнем с того.
Когда ты с ней обсуждаешь работу, пишешь код или еще что-то — там очень явно больший квант опережает меньший.
У того же коммандера 35б между q5_K_M и q6 разница сильно видна. Но он особенький, да.
Ллама 70б в двух квантах живет — окей, может быть. Но это крайний случай.
Я пробовал и 1 квант, и 2, и 3, и 4, и 5… Между 5 и 6 разницы уже особо не видно. Между 4 и 5 небольшая разница есть, но 5 не лезет в две теслы, что поделать. Так на 4 и остановился.

>>742002
В работе на сою местами похуй и фи бывает правда хорошей.
Но местами.
И, кмк, она лучше первой геммы.

>>742515
104б — глупый ум лоботомированного мозга в 5км

>>742645
Оператива реально копейки стоит, от косаря за 16 гигов. Ну два косаря-то наскребешь.
Лишь бы материнка поддерживала.

Аноним 16/05/24 Чтв 23:53:09 № 742930 90

Для тех кто еще не понял и не сформулировал эту мысль для себя, клозеды рано или поздно убьют любую компанию занимающуюся разработкой узконаправленного ИИ. Все эти элевенлабсы, суно/удио, ранвей/пикалабсы и прочие миджорни будут забыты в ближайшее время. А все просто потому что узкий ии сосет у ии общего направления. На всем пути к agi они будут убивать все новый и новый проект давая мультимодалке все больше возможностей. Это уже возможно смерть елевенлабса, если они заточат свою модель на разных голосах и научат делать вариации голосов в зависимости от текстового промптинга или клонировать голоса прокинутые в контекст. Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3. Удио помрет как только модели дадут больше разнообразной аудиодаты. Видеомодели всегда были калом, но как только они подрубят генерацию видео в мультимодалочку я думаю они уже это сделали в гпт-5, которую не показывают, там даже их собственная сора пососет. Входить в ИИ разработку просто не имеет смысла, победит тот кто сделает agi, остальное будет не нужно, разве только для оптимизации, где qgi - это как стрельба из пушки по воробьям. Имеет смысл строить on top всей этой херни и отдавать свои гойские денежки на апи дяде альтману, благо это тоже может быть прибыльно.

Аноним 17/05/24 Птн 00:01:47 № 742947 91

>>742930
>Миджорни уже полумертвым валяется в канаве, еще с выхода
Стейблы, лол. Как и далли, и прочий закрытый кал, который в принципе нельзя нормально использовать на проде кроме как генерации совсем не имеющих смысла изображений в начало какой-нибудь низкосортной статьи.
>победит тот кто сделает agi
Благо на трансформерах его не сделать. Пусть дальше играются, лол.

Аноним 17/05/24 Птн 00:06:45 № 742953 92

>>742930
>Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3
Нихуя, они выпустили 6 версию у которой дали посасывает по пониманию промпта и тем более качеству. ДЕ3 же вообще никак не меняют.
>А все просто потому что узкий ии сосет у ии общего направления.
В теории, и ещё во влажных фантазиях визионеров. А на практике всегда остаётся место для ручного допилинга, и скидывать со счетов опыт в области значит нихуя практического не сделать. ДЕ3 и Сора отлично это показывают. Вот если за дело возьмётся какая-нибудь VFX компания, заточенная не под максимизацию эмерджентного поведения, а под практическое производство пиздатых штук, тогда это взлетит.

Аноним 17/05/24 Птн 00:07:31 № 742954 93

>>742930
У тебя эти клозеды как властелины мира - всех убьют, все отберут. Вчера тут кто-то проповедовал что ии скоро разъебет любого человека как нехуй делать. Не ты? Сейчас в тренде не шизопрогнозы, сейчас обсуждаются лоботомиты, их ум, мозг и квант. Твои клозеды пусть идут нахуй, тут вообще обсуждается попенсорс

Аноним 17/05/24 Птн 00:08:30 № 742955 94

>>742930
> потому что узкий ии сосет у ии общего направления
А потом ии общего направления просыпается на лекции и ловит галюны, ага.
> Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3.
Первый как умел делать красивые арты - так и умеет это, база пользователей никуда не делась. На далли3 после хайпа уже все глубоко похуй, поигрались и забыли ибо игрушка и картинки уродские.

Единственное что в посте верно - клодезы стремятся к монополии любой ценой, грязными играми, лоббированием ебанутых законов и инициатив и всем всем.

Аноним 17/05/24 Птн 00:09:18 № 742957 95

>>742954
> сейчас обсуждаются лоботомиты, их ум, мозг и квант
А ггуф уже починили?

Аноним 17/05/24 Птн 00:11:53 № 742961 96

>>742957
ггуф всегда в суперпозиции - он и починен и нет

Аноним 17/05/24 Птн 00:15:15 № 742962 97

>>742961
Твои слова подразумевают, что ггуф бывает полностью починен. Но это не верно. Ггуф перманентно сломан, просто у нас суперпозиция между состоянием с известными багами и с багами неизвестными. И как только находится один баг, тут же появляется новый, неизвестный.

Аноним 17/05/24 Птн 00:23:54 № 742967 98

>>742947
>Благо на трансформерах его не сделать. Пусть дальше играются, лол.
Основная проблема траснсформеров - это токенизация. Селф-атеншн крутая штука, но ее нужно подпилить. В любом случае следующая крутая архитектура, имхо, будет похожа на трансформер, скорее более допиленная в нужном направлении. Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi а она не будет agi, ибо из-за ссаной токенизации модели просто не пробрасывается достаточное количество инфы для обработки.

>>742953
Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д.
>сора
Сора не мультимодалка, она просто на более правильной трансформер-бейсд архитектуре. Диффузионные модели сами по себе сосут жопу, не самая удачная архитектура, в которой все завязано на положении пикселей на изображении.

>>742955
Ты шутишь чтоле? Далли 3 гораздо большим количеством людей юзается. Фирменный стиль и квадратная форма с бинг имадж генератора видна везде, пол зарубежных имиджборд этими ии калом добром забита, половина ИИ мемов связана с генерациями далли 3. А вторая половина - это видеогенерация. А вот что-то сделанное миджорни я уже давно не видел, может просто не замечал конечно.

Аноним 17/05/24 Птн 00:26:02 № 742969 99

>>742930
> Для тех кто еще не понял и не сформулировал эту мысль для себя
Не, у меня с первых строчек чётко сформулировалась мысль что ты шиз. Это вполне понятно.

Аноним 17/05/24 Птн 00:31:09 № 742971 100

>>742967
>Основная проблема траснсформеров - это токенизация.
Это даже не десятая проблема, лол.
>Алсо мультимодалка даже на трансформере разъебет узконаправленные ии
Вероятно. Но и будет в десятки раз дороже. Сейчас попены тупо в минуса работают, майкрософт жжёт миллионы ежедневно на их работу )может уже десятки, я ХЗ). Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы.

Аноним 17/05/24 Птн 00:35:52 № 742975 101

>>742967
> Основная проблема траснсформеров - это токенизация
Бредишь
> Фирменный стиль и квадратная форма с бинг имадж генератора видна везде
Как и кривой уебищный текст из под жопоты в куче мусорных статей или видео, которые никто кроме ботов не потребляет. То что эту херню спамят значит лишь легкость создания, а не востребованность.
> квадратная форма
Квадраты - ограничения бесплатной версии, и ведь по сути юзают только ее. Не удивлюсь если сам по себе далли для впопенов убыточен.
> пол зарубежных имиджборд этими ии калом добром забита
Уже хуй положили, хайп прошел.
> Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi
cringe
> что-то сделанное миджорни я уже давно не видел
Потому что оно не выделяются своей всратостью и не позволяет явно выделить на фоне в том числе кожанного контента.

Блять диванный поех, который нахватал странных суждений от каких-то шизов или сам их придумал, делает подобные рассуждения и глубокие прогнозы, пиздец. Сука жалею что начал на пост отвечать.

Аноним 17/05/24 Птн 00:40:37 № 742980 102

>>742971
>Но и будет в десятки раз дороже.
В плане разработки само собой, в плане инференса, ну хуй знает. По факту стоимость генерации всего этого добра как и стоимости использования ллм, там генерируются те же самые токены, только для другой модальности. И не то чтобы сейчас ллм обходились дороже узконаправленных генераторов нетекстового контента. Все зависит от того конечно сколько токенов будет в средней генерации нейронки. Клоузеды жгут деньги на разработку, но на использовании моделей они явно зарабатывают. И если они зарабатывают даже при такой стоимости токенов как у гпт-4о, то это крайне неплохая цена, имхо. Посмотрим сколько будут стоит генерации аудио и картинок, как их дропнут в апи.

Аноним 17/05/24 Птн 00:42:17 № 742981 103

>>742975
Чо такой злой, анон? Я же пытаюсь адекватно аргументированно отвечать. Если есть что сказать - ответь нормально, я могу чего-то не знать или заблуждаться, как и все люди.

Аноним 17/05/24 Птн 00:47:13 № 742984 104

>>742981
Ну бля, захейтил что-то, сорян. Просто твой пост выглядит как рассуждения заигравшегося ребенка, который экстраполирует понравившуюся ему сказку на реальность и домысливает. Обидеть не хотел а может и хотел

Аноним 17/05/24 Птн 00:58:31 № 742994 105

>>742967
>Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д.
Хуита, она обсирает дали по следованию промпту. В дали-треде было куча сравнений

Аноним 17/05/24 Птн 00:59:13 № 742996 106

>>742967
>Основная проблема траснсформеров - это токенизация.
Это не проблема трансформеров, они могут и на отдельных символах работать, ноль проблем.

Аноним 17/05/24 Птн 01:06:43 № 743003 107

>>742984
Но просто логично же предположить, что без какого-либо ядра с общей логикой, с пониманием мира, узкие модели не смогут избавиться от характерных ии косяков. Если ты попросишь сгенерировать любую текст-ту-имдж модель ящик с инструментами, она сгенерирует отличное, фотореалистичное изображение ящика, в котором лежит непонятное нех, какие-то смеси отверток с гаечными глючами, ножницы с тремя лезвиями и т.д. Люди не хотят видеть подобные артефакты на своих изображениях, поэтому будут переходить в более консистентные мультимодальные модели, у которых есть общая база восприятия мира, которые понимают изображения не только как набор пикселей, а понимают смысл изображенных на них предметов. По крайней мере я хочу верить, что так в итоге будет и консистентность текста в генерациях новой модели клоузедов это доказывает. Модель реально очень хорошо понимает связь текста с изображением. Прошу прощение если снова кого-то задел этим постом

Аноним 17/05/24 Птн 01:22:31 № 743017 108

>>742996
Ну тогда ты теряешь смысловые корреляции, понимаешь? Вот два конкретных примера:
1) Назови синоним к слову "Быстрый"
2) Назови количество букв в слове "Быстрый"

В первом случае обычная токенизация справится без проблем, ведь координаты эмбединга к слову "быстрый" лежат где-то рядом со словом "стремительный", например. Если разбить на побуквенные токены, то ллм будет сложно сделать вывод, ведь смысл который хранит в себе эмбединг для каждого конкретного символа крайне абстрактен.

Во втором случае, современные ллм конечно справятся с этим, просто из-за того что их перекормили информацией. Но ей будет сложно понять сколько там букв, потому что для нее это один токен. Если разбить это слово на побуквенные токены, то оно будет понимать сколько букв содержится в слове и сможет запросто выполнить задачу.

Я задумывался над этим и думал об архитектуре завязанной вокруг этого. Чтобы токенизация была динамической, в зависимости от поставленной задачи. Все прорывы в ии сейчас связаны в основном с уходом от каких-то константных значений к изменяемым/обучаемым. Я может быть и случайный человек который и в подметки ИИ ученым не годится, но мысль о подобной архитектуре слишком врезалась мне в голову, хочу уже либо чтобы кто-то догадался так сделать, либо же доказал мне что я лютый дурачок и это не сработает/невозможно реализовать.

Аноним 17/05/24 Птн 01:27:58 № 743022 109

>>743003
> Но просто логично же предположить
В общем - да. Однако, ты забываешь что авторы этих моделей не будут сидеть и годами сосать бибу, а точно также будут их развивать, находя эффективные способы повышения перфоманса, улучшения достоинств и фикса недостатков. И характерные ии косяки пофиксят без проблем.
В то же время, "универсальная" модель будет постоянно страдать от слабости своих частей, она будет априори слабее специализированных решений.
Более того, в действительности это не какая-то передовая система, где "умный центральный мозг заведует работой всех частей и направляет их", или что ты там себе нафантазировал, а сраный гомункул, пытками наученный придумывать что-то похожее на ожидаемые популярные ответы из крох информации, которые его недоразвитые органы чувств могут усвоить.
> консистентные
> мультимодальные модели
Таких нет.
Точнее как, идея поместить к диффузерсам уже продвинутую ллм а не огрызок клипа не то что витает в воздухе - она реализована. Как и раскидать это на части и т.д. Вот только к мультимодалкам это не имеет никакого отношения, просто разработанная и организованная система без каких-либо намеков на интеллект. Вон, в конфи комиксы делают с помощью всратой диффузии просто детектя положение спичбабла на генерации, затирая его и помещая туда растровый текст, и это просто кучка разнородных моделей костыльно объединенных.
А чтобы ввести туда обратную связь по прямому восприятию изображения - визуальным мультимодалкам нужно еще ахуеть какой путь пройти.

Аноним 17/05/24 Птн 02:03:04 № 743038 110

>>741998
Так а в чем подтверждение? В том что нормальный квант 70В лучше? Ну да, лучше. А 1, 2 кванта вполне себе сосут. На удивление оно рисует, что третий квант мало отличается от пятого. Похоже на пиздеж какой-то. Этим тестам вообще можно хоть немного верить?

Аноним 17/05/24 Птн 02:17:34 № 743048 111

>>743038
> Похоже на пиздеж какой-то.
Корреляции выбранного распределения битности с тестируемым датасетом. И это гриди энкодинг, лишь иллюстрация в скольки случаях модель сорвалась с наиболее вероятного токена и не могла с этим справиться. С семплингом может оказаться совсем иная картина, но и тестировать придется дольше.

Аноним 17/05/24 Птн 02:40:48 № 743059 112

Так что, затренил кто-нибудь троичную модель?

Аноним 17/05/24 Птн 02:44:52 № 743064 113

>>743048
Может ли случиться так, что с семплингом мы и будем видеть большую разницу между третьим и пятым квантом и меньшую разницу между 70В 2К и 8В 8К?

Аноним 17/05/24 Птн 02:56:17 № 743066 114

>>743064
Скорее всего все скоры упадут из-за рандома, и вероятно падение скоров при более шакальном квантовании окажется более существенным, ведь также будут ролять изменения в остальных токенах. Так что между 3 и 5 будет заметнее, а 2 большой упадет ниже чем 8 мелкой. Но это не точно, может что-то еще сыграть, нужно тестировать. Есть готовый код для проведения этого теста?

Аноним 17/05/24 Птн 03:28:31 № 743079 115

https://huggingface.co/bartowski/Yi-1.5-9B-Chat-GGUF/blob/main/README.md
Я не совсем понимаю, как должны выглядеть эти настройки в конечном виде в силлитаверне. Что должно быть в поле Story String, какой системный промпт и какие разделители в инструкт моде.

Аноним 17/05/24 Птн 06:23:32 № 743134 116

>>742619
>Турбу выебли все 70B и многие 30B.
Не все 70В, всё ещё есть много ебанутый файнтьюнов второй лламы + квант может влиять.
Ты даже сам не заметил, как в своём собственном тексте говоришь о абстрактных моделях, которые "выебали" либо "не выебали" трубу, что уже гораздо лучше, чем ебанутое "умная/тупая"

Аноним 17/05/24 Птн 06:50:17 № 743148 117

>>742980
>в плане инференса, ну хуй знает
Уверен, что демпингуют.
>>743079
ChatML выбирай, всё уже готовое.
>>743134
>что уже гораздо лучше, чем ебанутое "умная/тупая"
Они умные, меньше тупые. Как тебе такое?

Аноним 17/05/24 Птн 07:10:49 № 743153 118

>>743148
>Как тебе такое?
Как высер умственно отсталого.

Аноним 17/05/24 Птн 08:30:20 № 743176 119

>>743059
Где такие на гитхабе есть? Кан и пукан знаю но он не троичный

Аноним 17/05/24 Птн 10:34:38 № 743259 120

>>742947
> Стейблы
Плюсану, стейбла вышла раньше и показала достаточный уровень, чтобы забить на мидджорни. А Дал-и уже сорт оф.

>>742953
Адобе же занимается. На шаг позади, но идут бодро.

>>742954
Разъебал по фактам, я аж хрюкнул со смеху. =D

>>742955
> клодезы стремятся к монополии любой ценой
Ну и захватить мир они точно хотят. Вот получится или нет — вопрос другой. =) Но тяга зохавать всех у них есть, а с батькой-майкрософтом так и возможности.

>>742971
> майкрософт жжёт миллионы ежедневно
При чистой прибыли 70 млрд, 10 млн баксов в день — это всего лишь 3,7 млрд в год. Можно себе позволить ради власти над миром.

> Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы.
Так в том и тейк, что если АГИ разъебывает ети ваши узкие, то за узкие никто не будет платить, значит при стоимости в 10 раз дешевле и заработке в ноль — они закроются к хуям. А клозеды, тратя в десять раз больше — заработают все деньги мира.

На деле, ИМХО, будет средне. Где-то (те же адоби) будет узкий, где-то (Алиса, Сбер, Чатготопа, Сири, Алекса, етц) будет генеральный, потому что можно. И денег хватит всем, ибо узкого будет не так много.
Но тут время покажет.

>>743003
Вот это, короче, хуита.
Вся идея про «общую картину мира» и все дела — он не совсем состоятельно. Т.е., подобная хуита есть, конечно, но на текущий момент ее пиздец переоценивают.
Вот будет у тебя моделька обученная на 3 эксатокенах — тогда поговорим. А пока там слишком велик рандом.

>>743017
А вот тут идея уже лучше.

>>743038
На самом деле, тесты верные, просто их трактуют через жопу.
Складывается ощущение, что разница между 81 и 80 баллов почти отсутствует.
Хотя на деле, те же 60 баллов — это пиздец нахуй тупая модель, которая массив букв высирает без смысла.
И разница между q6 и q4_xs — тот же один балл! — для 8b модели огромна. А еще на один бал ниже находится q3, которая в исполнении 8b уже неадекватна.
Так и тут: один балл в некоторых задачах — это дохуя. И «несущественная разница между q5 и q3 для 70b» стоит трактовать как «половина разницы между 8b q6 и 8b q3» Советую всем скептикам самим сравнить q6 и q3 8b модели и заявить, что отличий от fp16 в принципе нет.

Весь обман восприятия в том, что 8b q8 уже достаточно хороша, на самом деле. А 70b настолько хороши в общении, что каких-то существенных проблем с перепиской с ними не возникает ни на каком кванте. Однако, при лобовом столкновении по широкому спектру задач происходит лютый обсер квантов ниже четвертого. и «1 балл разницы» оказывается охуеть каким огромным.
Но если мы будем сравнивать во всех задачах.
Если человек ведет короткие переписки без глубокого сюжета и лора, то разницы между 70b q5_K_M и 70b q3_M он и правда не увидит. На короткую дистанцию без сложных оборотов они обе достаточно хороши, чтобы ты вообще не чувствовал подвоха или разницы.

Возможно, именно из этого и произрастает такой разрыв в восприятии у людей от «да на iq2_XSSS все охуенно!» и «ниже q6 лоботомит без мозгов!»
Одни просто рпшат десять минуток по 4000 токенов.
Другие пишут код на 8000 впритык, а то и с ропом, а то и в сравнении с квеном, и 64к контекста, и…
Ну вы поняли — смотря что кому надо, тот так и оценивает. И в одном случае разницы и правда нет, ибо модель гораздо пизже восьмерки (кроме первого кванта=), а в другом случае от нее требуются все ее «мозги», и тут-то разница проявляется.

>>743064
Для большей разницы между одной моделью — да. Пятый квант апнется сильнее.
Для 8b модельки это не спасет на сложный задачах, если второй квант 70b так же настроить, то он все же тоже бустанется.

>>743066
Ну а тут другое мнение, и я допускаю, что, возможно, верное оно.
Тут и правда надо тестить, а не теоретизировать.
Вообще, верно, что если мы сравниваем с неким эталоном — то скоры упадут, но и нам нужен результат, а не соответствие. Короче, мутно.

>>743134
А ты под турбой понимаешь фурбу?

Аноним 17/05/24 Птн 11:14:46 № 743306 121

>>743017
>Чтобы токенизация была динамической
Вся токенизация это костыль. Она не будет работать хорошо, потому что не может работать хорошо. Сейчас каждый токен представлен вектором, причём с ограниченным числом параметров. Когда вектором должно быть слово и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д. Да, нейросеть не сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее. Либо, если у нас самообучающаяся система, то механизмы токенизации должны генерировать вектор, уже содержащий необходимые данные. Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров.
> уходом от каких-то константных значений к изменяемым/обучаемым.
При этом веса самой модели заморожены и не обучаются в процессе.

Аноним 17/05/24 Птн 11:27:14 № 743337 122

>>743259
>Вот будет у тебя моделька обученная на 3 эксатокенах
Мой мозг прочитал чуть менее, чем в миллиард раз меньше, а ничего, бодрячком так.
>>743306
>и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д.
Ты в мою тетрадку заглянул? Я за пару дней некалякал с десять пунктов того, что обязано быть в параметрах вектора слова.
Кстати, не факт, что таких параметров в нынешних эмбедингах нет. Вполне могут и сами зародиться, но с дублированием, неточностями и прочими проблемами отсутствия интерпретируемости.
>Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров.
Ну или будет обсёр, потому что это человеки считают важным, а на деле нихуя не важно. См. "The Bitter Lesson"

Аноним 17/05/24 Птн 11:50:51 № 743383 123

>>743337
Твой мозг не на трансформерах. =) И эволюционировал он примерно несколько сотен миллионов лет. Ты круче, анон!

Аноним 17/05/24 Птн 12:00:52 № 743418 124

>>743337
>Вполне могут и сами зародиться
Сколько параметров минимально необходимо модели чтобы в эмбеддингах могли зародиться новые параметры? Возмоно ли это при лоботомизации модели квантованием и если да, то на каком кванте уже существует риск бесплодия эмбеддингов?

Аноним 17/05/24 Птн 12:09:13 № 743431 125

>>743337
>Вполне могут и сами зародиться
Так они и зарождаются. Но какой бюджет параметров на это расходуется? Модель вполне может запомнить из какого-нибудь словаря, что в слове "пизда" пять букв и будет верно отвечать на этот вопрос. Но как много словарей для этого потребуется? И как много параметров будут за это отвечать? И как много параметров расходуется, чтобы модель собрала слово 'cmon из трёх токенов в один и начала понимать его смысл и область применения?
> "The Bitter Lesson"
>Наши попытки в в мимикрию оказались провальны
Ебать, ну кто бы сомневался. После пароходов-то с гусиной лапой.
>Но мы нашли методы, которые при закидывании железом более эффективны
Что совсем не значит, что это не тупиковый путь. Как с каким-нибудь автомобилестроением. Были паровые автомобили с гигантской трубой, в которую закачивался пар под давлением, а уже потом на этом пару машина ехала. Считалось дохуя перспективным, т.к чисто, тихо и вообще заебись. Правда, пар заканчивался и машина ехать переставала. Эту проблему начали закидывать железом - ведь чем длиннее труба, тем дольше машина едет. Сработало это не на долго. Или взять танкостроение. Сначала хуярили броню. Чем толще, тем лучше. Движок вывозит, танчик становился более живучим. А потом всё, пиздец, приехали. Оказалось, что бесконечно закидывать эту проблему железом не получится. Изобрели скошенную броню, многослойную, активную и т.д. А если бы нет? Имели бы сейчас танки с трёхметровым слоем брони. И вот нейронки сейчас это что те танки - с трёхметровой бронёй, квадратногнездовые и пыхтящие паровыми машинами.

Аноним 17/05/24 Птн 12:16:12 № 743442 126

>>743306
> Вся токенизация это костыль.
Да, чтобы получить приемлемое быстродействие и адекватный размер контекста в условиях ограниченных мощностей.
> Сейчас каждый токен представлен вектором
Пчел...
> причём с ограниченным числом параметров
Ты че несешь?
> Когда вектором должно быть слово
Хотябы упрощенные описания того как это работает почитай. Части слова, их сочетания, предложения после токенизации превращаются в последовательность, тот же вектор, которая и воспринимается ллм как единое целое.
> ссоциативные ряды, синонимы и т.д.
Все это есть
> количество букв
> сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее
Нахуй никому не сдалось кроме шизиков, пытающихся натянуть сову на глобус. Что-то уровня считать алгебру через ллм.

Ты что ты затираешь никак не позволит повысить качество ллм, вообще. Динамическое обучение тоже не к месту нихуя, судьба нейронок - унылые изнуряющие работы "в шахтах", где нужно сохранение исходных качеств а не деградация и износ.

Шагом на пути развития и переходу к полноценным мультимодалкам может быть переход от привязки токенов к слогам и тексту как таковому, они должны быть квантами абстрактной информации (и то не напрямую), а вместо токенизатора выступала отдельная сеть. Но чтобы прибавлялся ум или тем более как-то проявилась мультимодальность, это невероятный объем обучения должен пройти и нужны совершенно новые датасеты.
Шиз мог бы уцепиться за это как "именно это я и имел ввиду", но он так и остался привязанным к тексту и своему количеству букв, лень цитаты дергать.

Аноним 17/05/24 Птн 12:24:36 № 743459 127

>>743383
>Ты круче, анон!
Ух, спасибо.
>>743418
>чтобы в эмбеддингах могли зародиться новые параметры
Очевидно новые не отрастут, это образность, понимаешь? Если тебе так нужно разжёвывать, то вот, при тренировки нейросети вместе с эмбедингами при достаточно большом наборе данных некоторые из параметров вектора эмбединга могут принять значения, похожие на длину слова, к примеру. Так понятнее?
>>743431
>Но как много словарей для этого потребуется?
ХЗ, видимо 15Т токенов для этого не достаточно (хотя я лламу по этому вопросу не гонял, лол).
>И как много параметров будут за это отвечать?
А не факт, что больше, чем при ручном забивании. Технически ты можешь без проблем выделить один вектор под длину слова, а модель при обучении сама впихает в этот параметр ещё и красность и собачистость так, что кожаный мешок этого просто не поймёт.
>Что совсем не значит, что это не тупиковый путь.
Видно, ты ещё не воспринял этот урок. Учись дальше (если вообще учишься по теме).

Аноним 17/05/24 Птн 12:25:34 № 743463 128

Снимок экрана о[...].png 23Кб, 800x294

>>742374
Пик1. Что за волшебный ассистент? Как называется модель?

Скачал dolphin-2.9-llama3-70b.Q8_0.gguf- тупое как валенок, не понимает, что книги никуда не девались. При попытках точных формулировок несет шизоидные повторения моих слов.

Аноним 17/05/24 Птн 12:31:29 № 743468 129

>>743442
>Ты че несешь?
Если ты не в теме - это твои проблемы. Гугли, изучай вопрос.

>>743459
>А не факт, что больше, чем при ручном забивании.
Ручное забивание гарантированно не сработает.
>что кожаный мешок этого просто не поймёт.
Ага, ебать, ещё один свидетель чёрного ящика, чтоли?

Аноним 17/05/24 Птн 12:42:12 № 743485 130

>>743468
>Ручное забивание гарантированно не сработает.
Предположим. Почему? Какой твой вариант?
>Ага, ебать, ещё один свидетель чёрного ящика, чтоли?
Если не чёрный, то очень-очень серый. Я вот не знаю, как интерпретировать произвольно выбранный параметр в сраной GPT2 на 176M параметров. И сижу с умным видом кручу сетки на 104B (на 3 порядка больше, да). Вроде метод анценза по сути трассирует активации и позволяет их сравнивать, так что технически на руках инструменты есть. Но человеку жизни не хватит расписать все параметры. Разве что другой нейронкой, лол.

Аноним 17/05/24 Птн 12:43:09 № 743490 131

>>743431
Ерунда твои аналогии, это просто закономерное качественное развитие, соответствующее уровню времени. Еще приведи в пример доспехи, отказ от всего для облегчения, и потом их инкарнация в виде сибз. Используют то что доступно и можно как-то довести до реализации, так было и будет всегда. Нейронки радикально эволюционировали за последние 5 лет, через 10-15 железо с перфомансом для ии уровня A100 будет чуть ли не в телефонах и закидывание железом никуда не денется.
>>743468
Слишком туп чтобы понять что он туп, зато рассуждает о высоких материях, так и запишем.

Аноним 17/05/24 Птн 12:43:36 № 743492 132

>>743463
> dolphin
> тупое
Always has been.

Аноним 17/05/24 Птн 12:46:54 № 743495 133

>>743492
> тупое как валенок

Вопрос другой был, Emily.

Аноним 17/05/24 Птн 12:51:23 № 743500 134

Тряска с ггуфами вроде улеглась, решил потестить, что там нового вышло. Собственно, вопрос, что же там нового ввышло с момента выхода llama3?
1) Фиксы llama3 gguf
2) phi3
3) yi 1.5
Ещё что-то есть из любопытного и недавнего, или я ничего не упустил?

Аноним 17/05/24 Птн 12:51:38 № 743501 135

>>743490
>через 10-15 железо с перфомансом для ии уровня A100 будет
По подписке только в облаках с анальными проверками, лол. Там уже физические перделы близко, какие A100 в кармане?
>>743495
Пробуй на оригинальной модели через таверну с нужным чат форматом, всё последних версий.

Аноним 17/05/24 Птн 13:10:09 № 743514 136

>>743500
>Ещё что-то есть из любопытного и недавнего, или я ничего не упустил?
Ниче нет, разве что если уж совсем невмоготу без новинок, то есть falcon 11b - наверни его хотя бы, а то не по себе, когда каждую неделю минимум без новой модели - не людски как-то

Аноним 17/05/24 Птн 13:14:35 № 743521 137

>>743500
>Тряска с ггуфами вроде улеглась
А вот не факт, что
>2) phi3
>3) yi 1.5
не сломаны. С лламой хоть нашлись деятельные люди, а вот с этими я не уверен.
>>743514
>неделю минимум без новой модели
Всё проёбано, сингулярность не наступила!

Аноним 17/05/24 Птн 13:16:42 № 743526 138

>>743521
Чел, никто кроме ламы 3 не занимается костылями претокенизации, там нечему ломаться.

Аноним 17/05/24 Птн 13:18:16 № 743528 139

>>743526
>никто кроме ламы 3 не занимается
Как минимум командир.
>там нечему ломаться
Но всё равно регулярно ломается.

Аноним 17/05/24 Птн 13:18:39 № 743529 140

>>743514
>falcon 11b
Да, забыл его упомянуть, тоже видел, ничего интересного по описанию.
>не по себе, когда каждую неделю минимум без новой модели
Это пока не нашёл такую, которая тебя полностью удовлетворяет. Мне бы гипотетически очень бы зашла мультиязычная солярка 10.7B, либо большие размеры с примерно теми же свойствами. Коммандера не предлагать. Но почему-то никто не тюнит её. Мистрали тюнят, лламы 7-13b тюнят, квены 6-14b тюнят, а эту на других языках вообще не находил.

Аноним 17/05/24 Птн 13:30:35 № 743545 141

>>743529
>мультиязычная солярка 10.7B
moistral-11b v3 неплохо говорит на русском, если интересно

Аноним 17/05/24 Птн 13:40:32 № 743566 142

>>743485
>Почему?
По той же причине, по которой трансформеры ебут RNN. Внимание. Тебе нужны динамические векторы, которые будут учитывать контекст. Беда только в том, что трансформеры просчитывают внимание статистически, а не семантически. Да ещё значительная часть этого внимания тратится на то, чтобы в правильном порядке расставить токены да не проебаться.
>как интерпретировать произвольно выбранный параметр
А никак. Один параметр не имеет смысла рассматривать в отрыве от остальных, это всё имеет значение только в составе композиции.

>>743490
>приведи в пример доспехи
С доспехами закидывание железом не работало изначально, потому что нет вариантов сделать человека сильнее в несколько раз.
>через 10-15 железо с перфомансом для ии уровня A100
Физика злая сука, которая этого не допустит.

Аноним 17/05/24 Птн 13:41:58 № 743569 143

>>742947
>Стейблы
Кому на неё не плевать вообще? Рисовак не спрашиваю, они в целом шизофреники. Кому нужны эти ваши i2i, controlnet, незацензуренные модели, если большинство даже не будет вдумываться в такие вещи. Это как рисоваки орали, что в картинке нужны композиция, цвет и прочие штуки. Но и кому это нужно с появлением нейронок? Никто о таких вещах не думает

Аноним 17/05/24 Птн 14:02:41 № 743588 144

>>743569
Композиция как раз-таки нужна, особенно с появлением нейронок. Главное заставить нейронку понять, как сделать композицию из спирали фибоначчи, а не нарисовать спираль.

Аноним 17/05/24 Птн 14:05:35 № 743596 145

>>743566
>Физика злая сука, которая этого не допустит.
Это опять из серии первый полет на крыльях будет лешь через миллион лет, или 640 кб хватит всем?
Еще раз повторю - не утверждайте ничего о будущем, выставляя себя идиотом. Предполагать - пожалуйста, утверждать - ну ты показываешь себя недалеким.
Оптические вычислители говорят привет и посылают тебя нахуй имея на порядки более высокие скорости. Оптоэлектроника для нейросетей УЖЕ есть, прототипы, но все же.

Аноним 17/05/24 Птн 14:18:26 № 743627 146

>>743596
>Оптоэлектроника для нейросетей УЖЕ есть
Это принципиально новое железо. Сколько пройдёт до внедрения - хз, но немало. Есть некоторая надежда на DDR6 - обновляй полностью платформу, покупай от 128гб такой, плюс в процессорах обещают новые блоки "с поддержкой нейровычислений". Даты выхода всего этого - примерные - сам назови. Вот это и будет реальность "для дома, для семьи".

Аноним 17/05/24 Птн 14:19:12 № 743631 147

>>743501
> По подписке только в облаках с анальными проверками, лол.
Конкретно это врядли, но скорее всего мы увидим иную форму анальных зондов.
> Там уже физические перделы близко, какие A100 в кармане?
Такое уже много лет говорится, а в итоге сейчас сраный мобильный чип от огрызков вертит на хую P100. И прочитай внимательно, там написано конкретно для ии, а не сырые цифры, хотя возможно и их достигнут.
>>743566
> потому что нет вариантов сделать человека сильнее в несколько раз
Сейчас есть, смотри перспективные разработки.
> Физика злая сука, которая этого не допустит.
Очень злая, особенно когда ее не знаешь.

Аноним 17/05/24 Птн 14:45:10 № 743704 148

>>743588
>Композиция как раз-таки нужна
Кому? Буквально шизофрения, созданная каким-то идиотом и которую активно поддерживают всякие шизы-рисоваки

Аноним 17/05/24 Птн 14:48:18 № 743709 149

>>743545
Так это целиком заслуга самого солара, не? Когда фроствинд на соларе выходил, его тут в треде кто-то гонял как переводчик, кидал скриншоты - тоже было норм. Вряд ли фимбуль тьюнили на чём-то кроме инглиша, когда делали мойстраль. А так из мультиязычных припомню только какой-то немецкий тьюн и кучу корейских. И последние, такое ощущение, были для отчётности, потому что на деле являлись мержами немецкого тьюна с самим собой и соларом. Возможно, какую-то лору при этом накидывали, или как там это делается.

Аноним 17/05/24 Птн 15:20:57 № 743767 150

>>743529
>Коммандера не предлагать.
Командер+ же. Для меня практически идеален, кроме скорости.
>а эту на других языках вообще не находил
А тебе зачем мультиязык и конкретно русский? Оно же в любом случае деградация.
>>743566
>Внимание.
Так это, все предложения от меня (и наверное другого нашего собеседника) относятся только к токенизации и эмбедингу. То есть модель всё так же должна тренироваться и выставлять веса сама, кроме замороженных весов например длины слова. И тогда модель, в теории, с правильным датасетом, должна научиться (во время тренировки) использовать конкретный вектор из эмбединга при ответе на вопросы типа "Сколько букв в слове шлюха", а так как это поле забивается руками (посчитать число букав в слове проблем не составляет), то ответ будет 100% достоверный, всегда.
>Один параметр не имеет смысла рассматривать в отрыве от остальных
И это приводит к моделям, которые вообще нельзя проинтерпретировать. А это такое себе по многим параметрам, начиная от лёгкости модификации и заканчивая потанцевальным вредом (реальным, а не как у аги-шизов).
>>743569
>Кому нужны эти ваши i2i, controlnet, незацензуренные модели
Тем, кто делает реальный контент, а не пикчу к ОП-посту на имиджборде.
>если большинство даже не будет вдумываться в такие вещи
Не вдумывается, но подвох чувствует. Я вот нихуя не рисобака (честно, без рофлов, я программист), и тоже не понимаю в этих ваших композициях. Но я вижу то, что типичное нейроговно отличается от работ, сделанных руками (даже с помощью нейронок).
>>743627
>Есть некоторая надежда на DDR6
0 надежды, там же будет около х2 от DDR5. Никто не будет выкладывать прорывные технологии, пока не выжили всё из старых.
А пердеть на 100ГБ/с и на 200ГБ/с это всё одно уныло, притом что видеоускорители берут планку в 1000, а спец платы от хуанга я ХЗ уже, тысяч 5 кеков там точно есть.

Аноним 17/05/24 Птн 15:24:36 № 743770 151

>>743631
>но скорее всего мы увидим иную форму анальных зондов
Да вообщем-то попены уже свои хотелки выложили, шифрование и проверка цифровых подписей.
>Такое уже много лет говорится, а в итоге сейчас
Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать. Сейчас уже буквально десяток.
>>743704
>Буквально шизофрения, созданная каким-то идиотом
Лол, тысячи лет холстомарательства на свалку?

Аноним 17/05/24 Птн 15:30:31 № 743792 152

>>743709
Может и так, но тогда чем соляр не устраивает? Или надо какой-то особый мультиязык?

Аноним 17/05/24 Птн 16:02:18 № 743858 153

>>743566
> Физика злая сука, которая этого не допустит.
За 7 лет мы запихнули 1050 ti в Adreno 730.
Но 1050 ти — не Tesla A100 ни разу в свое время.
Да и сейчас уже н закон Мура, а извращения.

Так что, что-то засунем, но или не 10 лет, или не А100…
Надежды на математику больше, чем на физику.

>>743596
Ну, если не случится прорыва с кварковым процессорами, то мы уже слегка упираемся в атомы.
Конечно, на самом деле там не 3 нм техпроцесс, а фактический 28, и есть куда уменьшаться, но это пиздецки дорого и очень много брака на текущий момент. Так что, без прорыва мы А100 в смартфоне не увидим так скоро.

>>743631
В чистом перформансе M4 уступает P100 то ли в 5 раз, то ли в 2,5 раза по разным источникам, мне лень искать.
Архитектурные изменения — не совсем «A100 в кармане», — это и математика, и алгоритмы, и узкая специализация.

Аноним 17/05/24 Птн 16:19:51 № 743897 154

Неделю не был в треде.
Ггуф Жора полностью починил или как? Пользоваться можно?

Аноним 17/05/24 Птн 16:29:44 № 743917 155

>>743897
> полностью починил
Теоритически невозможно, если не переписать все это дерьмо заново

Аноним 17/05/24 Птн 16:42:48 № 743931 156

>>743259
>А ты под турбой понимаешь фурбу?
Фурбу, насколько я знаю, пока ещё не выебала никакая локальная модель.

>>743463
>Что за волшебный ассистент?
Дефолтный персонаж таверны. Просто пустая карточка с именем Assistente.

>Как называется модель?
Meta-Llama-3-70B-Instruct-IQ2_S
https://huggingface.co/bartowski/Meta-Llama-3-70B-Instruct-GGUF/tree/main

>Пик1.
Чтобы получилось также вопрос надо задать на русском языке и теми же словами. На английском у меня всегда отвечал не правильно.

Аноним 17/05/24 Птн 16:52:27 № 743940 157

>>743529
меня удовлетворяла полностью vicuna 33b, но скорость печалит, даже на моих 32 гигах оперативки

Аноним 17/05/24 Птн 16:59:00 № 743945 158

Кумерские файнтюны лламы3 70b уже есть или еще не завезли?

Аноним 17/05/24 Птн 16:59:38 № 743947 159

>>743940
>vicuna 33b
llama 3 8B > llama 2 13B > vicuna 33b

Аноним 17/05/24 Птн 17:02:48 № 743951 160

>>743947
Да-да слышал я этот ваш гнилой пиздёшь, и не раз. Но я останусь на своём. Вот куплю себе йоба-карту и буду кумить на vicuna 33b пока не сдохну!

Аноним 17/05/24 Птн 17:08:10 № 743954 161

Автор викуни в треде. Слыш пидор, хуле у меня на твоем сайте постоянно пишет, что модель не доступна из-за большого количества запросов, хотя я их не делал?

Аноним 17/05/24 Птн 17:08:20 № 743955 162

IMAGE 2024-05-1[...].jpg 454Кб, 1981x969

>>742930
страшно то какие взгляды имеет их ИИ.
но для ждешней в ы р у с и это фетиш, к сожалению.

Аноним 17/05/24 Птн 17:08:55 № 743956 163

Это
>>743954
Сюда
>>743951

Аноним 17/05/24 Птн 17:12:28 № 743958 164

>>743955
Проиграл. Вот и надрочили ИИ на "безопасность".

Аноним 17/05/24 Птн 17:28:27 № 743976 165

>>743767
>на вопросы типа "Сколько букв в слове шлюха"
На кой хер тебе это надо? Специализированная нейросеть по подсчёту букв?

>>743858
>За 7 лет мы запихнули 1050 ti в Adreno 730.
А запихнули ли? Я по-быстрому загуглил тесты на гейщит инфаркте, потому что других, собственно, и нет. На 1050ti геншин импакт работает в 25-30 фпс в 4k, а на сяоми 12 в 19-20 фпс. В процессе этого 1050ti рендерит 8294400 пикселей, а сяоми 2592000 пикселей.
>или не 10 лет, или не А100…
В целом, можно предположить, что если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза, то нихуя даже в будущем на мобилках не будет. Опять же, физику не наебёшь. Чтобы чипы меньше кушали - их душат по энергопотреблению, вырезают инструкции и обрубают всё "несущественное". Зато потом можно щеголять долгим временем работы от аккумулятора и кукурузной частотой буста.

Аноним 17/05/24 Птн 17:33:17 № 743982 166

>>743976
>На кой хер тебе это надо?
Это лишь один из аспектов языка. Нужен например при сложении стихов. Да и вообще, языковая модель должна знать как можно больше о языке, ящитаю.

Аноним 17/05/24 Птн 17:42:32 № 743995 167

>>743955
https://hwfo.substack.com/p/chatgpt-would-kill-black-people-to

Аноним 17/05/24 Птн 18:05:40 № 744014 168

>>743976
> А запихнули ли?
Запихнули
https://youtu.be/ID-w4R-avBM

Аноним 17/05/24 Птн 18:08:32 № 744016 169

Какой сейчас нормальный (не сломанный) квант лламы 3?

Аноним 17/05/24 Птн 18:36:02 № 744049 170

А какой пресет в таверне выставлять для сеток вроде Mlewd и прочих?

Аноним 17/05/24 Птн 18:44:06 № 744059 171

>>743982
Мне кажется, что семантика языка более важна, чем количество букв. То есть прямая ассоциация слов с их значением. Но токенизатор будет заточен только на один язык и такая модель будет сосать в любом другом языке.

>>744014
>35-40 фпс на очень низких настройках с рендерингом 2592000 пикселей
Когда 1050ti вывозит 50 фпс на высоких с рендерингом 3686400 пикселей. Нет, это и близко не 1050ti. Это-то более старое.

Аноним 17/05/24 Птн 18:51:26 № 744066 172

>>744059
>Но токенизатор будет заточен только на один язык
С чего бы? Можно обобщить.

Аноним 17/05/24 Птн 18:53:22 № 744069 173

>>743770
> попены уже свои хотелки выложили
Ага. Только не пойму, это выглядит как торг или наоборот экспансия.
> Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать
А меньше и не надо, плюс нанометры в цифрах уже давно перестали отражать фактический размер, а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе.
>>743858
> В чистом перформансе
Какой перфоманс считается чистым? А ускорение fp16 - грязный? А суб-байтные операции? А умножение матриц в "один такт"?
В ии релейтед задачах он ее будет опережать, и не м4 а вполне проперженный м2, при том что тдп там в разы меньше.
> не совсем «A100 в кармане»
Вернись и перечитай написанное

Аноним 17/05/24 Птн 18:57:01 № 744077 174

>>744069
>а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе
Теоретически да. На практике пока у нас используется принстонская архитектура, мы будем сосать в нейросетях. А всё остальное это лютый хардкод, представь, что для обновления стейблы или сири тебе нужно сменить смартфон, так как в нейрочип зашита только одна нейронка.

Аноним 17/05/24 Птн 19:26:35 № 744124 175

vicuna-7b-q5k73[...].jpg 218Кб, 1326x1131

Аноним 17/05/24 Птн 19:28:07 № 744126 176

>>744124
Есть че получше викуни 7в, что понимает картинки и может в русский?

Аноним 17/05/24 Птн 19:49:41 № 744147 177

>>744126
Лава 1.6 очень хороша на самом деле, но это пожалуй единственное голодное что я видел в этом плане. 34 версия без проблем могла создать код по блоксхеме нарисованной на бумаге. Чекни новые высеры на основе ламы 3, вроде bunny, и поиграйся с температурой. Phi 3 кстати оче нихуево может в русский при своем размере, а они как раз вижн модель на ее основе недавно выкатывали

Аноним 17/05/24 Птн 19:55:01 № 744158 178

>>744077
> представь, что для обновления стейблы или сири тебе нужно сменить смартфон
Учитывая что их и так каждые пару лет меняешь потому что кончилось покрытие, затерся корпус, батарея, разбился и т.п. - пойдет, хотябы повод будет. Офк если это именно существенный качественный апгрейд на который нужно новое железо.
Зашитые настройки/контент и прочую херь с анальными запретами максимально осуждаю.
>>744124
На каком это языке?

Аноним 17/05/24 Птн 20:06:01 № 744173 179

>>744158
болгарском

Аноним 17/05/24 Птн 21:43:40 № 744270 180

>>743955
Ты же понимаешь что гпт не предназначен для решения вопросов жизни и смерти в реальном мире. И все эти философские проблемы и так понятно будут спотыкаться об повестку. Сука как же я ору, это когда нужно будет заставлять роботов говорить "ниггер" чтобы спасать людей? Это будет самое интересное время чтобы жить. Этот, блять, какой-то сценарии для фильма Пила 10.

Аноним 17/05/24 Птн 22:06:38 № 744295 181

Пробовал кто Llama-3-Lumimaid-70B из анонов?
Она чего-то у меня результаты хуже чем Ллама 8Б даёт, хотя 4 квант у 70б

Аноним 17/05/24 Птн 22:13:18 № 744302 182

>>744059
> Нет, это и близко не 1050ti. Это-то более старое.
Учитывай потери от эмуляции.

Аноним 17/05/24 Птн 22:36:06 № 744348 183

Meta-Llama-3-8B[...].jpg 862Кб, 1326x4552

Да бля.

Аноним 17/05/24 Птн 22:38:26 № 744354 184

>>744059
>Нет, это и близко не 1050ti
Проблема в том, что лично у меня 1050ti стоит в системе с тремя теслами и случит только для того, чтобы выводить изображение на монитор. Думаю заменить её на четвёртую теслу. К чему это я? Да, миниатюризировали, молодцы. Прогресс. А где минитесла, когда? У трудящихся в минитеслах потребности нет? Или скорость памяти маловата будет?

Аноним 17/05/24 Птн 23:20:38 № 744409 185

Нужна ллм на русском языке для работы связанной с русским языком
А
Ехидный жид тренит свою ламу на террабайтах английской даты и она может в русский хуже 3б пхи 3
А
Наилучший аналог который может в русский - соевая жпт-4о, апи которой стоит дорожк чем моя квартира

Цукерберг, иди нахуй, просто иди нахуй

Аноним 17/05/24 Птн 23:38:20 № 744432 186

>>744348
Норм же, зажрались просто.
>>744409
Упрекать других в том что они делают не то что ты хочешь довольно жалко.

Аноним 18/05/24 Суб 00:25:57 № 744455 187

>>744270
> jpg
Было в симпсонах Better Off Ted.

Аноним 18/05/24 Суб 03:49:24 № 744549 188

>>744348
Нихрена не понимаю. Когда я прошу описать про женщину, а потом про котенка, то сетка описывает обе картинки, хотя я прошу описать только последнюю. Что за нах.

Аноним 18/05/24 Суб 03:57:35 № 744552 189

>>744549
т.е. получается нельзя чтобы в контексте находились обе картинки. Но это очень хреновое ограничение.

Аноним 18/05/24 Суб 04:06:05 № 744553 190

>>744552
Хотя настоятельно попросил прокомментировать только последнюю пикчу и это сработало.

Аноним 18/05/24 Суб 05:52:23 № 744557 191

реально визардлм 8х22 промптить чтобы эта сука не начинала говорить как помесь робота-юриста и робота-психоаналитика по мере заполнения контекста? он к 10к контекста вообще перестаёт говорить как человек и срёт GPT слоп. 1-2 свайпа из 10 более-менее пригодные, несмотря на то мои попытки вручную слоп удалять чтобы не отравлял контекст.
100% самая умная локальная модель в плане памяти и внимания к деталям, но ебучие bondы, meaningful connectionы и прочая гыпыта которую я узнаю ещё с файнтюнов первой лламы меня просто нахуй убивает. визард блядь настолько умный что он может даже полнейшую дегенерацию высирать языком какого-нибудь пользовательского соглашения

Аноним 18/05/24 Суб 09:27:20 № 744632 192

https://huggingface.co/bartowski/SFR-Iterative-DPO-LLaMA-3-8B-R-GGUF
https://www.reddit.com/r/LocalLLaMA/comments/1cu17y4/salesforce_just_took_down_all_their_model_of_sft/

Аноним 18/05/24 Суб 10:12:07 № 744664 193

>>744158
>Учитывая что их и так каждые пару лет меняешь
Текущий пятый год мучаю, прошлый утопил за год, а вот с позапрошлым ходил 8 лет, сменив корпус и батарею, и ещё бы столько же ходил, но железо уже совсем устарело (SGS II). Ебал я эти апдейты короче.
>>744354
>У трудящихся в минитеслах потребности нет?
А то. Тебе зачем минитесла? Незачем, нейросеть у барена должна быть.
>>744409
Командир, в вики же описано.

Аноним 18/05/24 Суб 10:35:30 № 744696 194

>>744302
В геншине сосёт втрое без эмуляции. Здесь сосёт с эмуляцией. Так что можно вынести эмуляцию за скобки и сказать, что графический чип снепдрэгона просто сосёт.

>>744354
>А где минитесла, когда?
Ебанулся, братишка? Даже если предположить, что тебе волшебник из голубого вертолёта запилил минитеслу с неплохой производительностью. Что без очень сильно колдуства недостижимо, физика не позволит. Но допустим. Где брать пару терабайт места под модели? И даже если ты умудрился запихнуть нейронку в мобилку, то ты заебёшься передёргивать павербанки. Короче, для нейросетей мобилки просто несуществующий сегмент.
>скорость памяти
А тут тоже загвоздка. Маркетолухи вещают о достаточной скорости чтения из памяти. Только вот линейное чтение видеоролика и случайный доступ к весам в памяти - абсолютно разные вещи. Неизвестны ни тайминги, ни задержка, ни размер пакета. Ни-ху-я. А когда нам чего-то не рассказывают - нас хотят наебать.

Аноним 18/05/24 Суб 10:57:48 № 744723 195

>>744409
Яжпт? Вроде тарифы нормальные были.

Аноним 18/05/24 Суб 12:23:25 № 744806 196

>>744557
Промт на разрешение всего и вся, возможно даже жб-подобный перегруз. И, разумеется, негатив. Но полностью этот стиль вытравить будет сложно, как вариант - приказывать писать в таком-то стиле, дать примеров и что-то подобное.
>>744664
> Текущий пятый год мучаю
Ты - непритязательное меньшенство. Точнее даже поехавший, ибо
> SGS II
в 19м году это был уже совершенно неюзабельный кирпич

Аноним 18/05/24 Суб 12:36:12 № 744829 197

>>744806
>возможно даже жб-подобный перегруз
От этого у нейронки совсем IQ упадёт.
>Ты - непритязательное меньшенство.
Притязательное, ещё как. Только критерии другие, вместо "новенький блестящий" мне нужен "удобный и привычный".

Аноним 18/05/24 Суб 13:30:08 № 744907 198

>>744829
> От этого у нейронки совсем IQ упадёт.
Не обязательно.
> удобный и привычный
Ретроградный, удобство не может быть неудобным и некомфортным.

Аноним 18/05/24 Суб 13:34:23 № 744909 199

>>744907
>Не обязательно.
Обязательно. Спам инструкциями всегда путает бедную нейронку. На всяких там GPT4 это тоже сильно сказывается, но у них мозгов всё таки поболее будет, поэтому они не превращаются в овоща.

Аноним 18/05/24 Суб 13:49:07 № 744925 200

>>740739 (OP)
Тред прочитал, не совсем понял как решить следующую задачу.

ЗАДАЧА - мне по работе нужно писать на русском языке достаточно повторяющиеся отчеты. Условно, я социальный работник и мне нужно регулярно писать отчеты о посещении семей и о том как у них там дела. Я хотел как-то это автоматизировать. Если я буду просто общаться с ГПТ3 или ГПТ4, то мне придется прилично раз ввести промпты, чтобы получить такой отчет, который мне нужен. Еще потом я этот отчет буду какое-то время из нашего диалога с ГПТ собирать. Не говоря уже о том, что мне нужен ВПН чтобы общаться с ГПТ.

Вопрос - как быстро сделать модель, которой я бы мог скормить примеры отчетов, которые я держу как образцы, а она на основе введенных мной данных и загруженных картинок (в идеале вообще голосом), выдаст мне нужный мне отчет с оформлением и прочими делами?

Аноним 18/05/24 Суб 14:09:28 № 744979 201

>>744925
Работай, тварь, а не перекладывай свою работу на нейронки. Если бесят отчёты, так и скажи начальству, продавливай отмену отчётов, а не отлынивай, тварь.

Аноним 18/05/24 Суб 14:09:46 № 744980 202

>>744925
Давай немного перефразирую твой вопрос
> я социальный работник и не шарю во всем этом, дайте мне инструкцию как сделать передовую модель аналогичную релизнутой несколько дней назад GPT-4-o, а то впс настроить сложно.

Автоматизировать твою работу возможно, даже голосом и на локалках, но для этого потребуется некоторое количество труда высокой квалификации и железо чтобы на нем крутить. Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.

Аноним 18/05/24 Суб 14:32:18 № 745072 203

О, гопота новая на бесплатных акках уже. Прощай локальный тредик

Аноним 18/05/24 Суб 14:42:32 № 745107 204

>>745072
Поменяли гопоту, значит и размеры у них сопоставимые, а судя по скорости может даже и меньше в разы.
Для работы норм, но заменить локалки не сможет
Пусть идут нахер пидоры, хуй им а не мои данные

Аноним 18/05/24 Суб 14:46:30 № 745124 205

15975175525410.jpg 17Кб, 600x218

>>740739 (OP)
Чем отличаются
https://huggingface.co/openchat/openchat_3.5
https://huggingface.co/openchat/openchat-3.5-0106
https://huggingface.co/openchat/openchat-3.5-1210
И что означают цифры приписки в конце? Я ньюфаг

Аноним 18/05/24 Суб 14:48:01 № 745129 206

>>745072
Слишком соевая. У нас триггеры на убийство ниггеров считаются за сою, а твой кал даже просто на слово "ниггер" стриггерится. У жпт ещё стиль странный очень, наркоманские ролеплеи там невозможны.

Аноним 18/05/24 Суб 14:49:03 № 745137 207

>>745124
Месяц релиза. Это всё дотренировки ванильной.

Аноним 18/05/24 Суб 14:50:12 № 745140 208

>>745072
С лимитом в 3 запроса в день и соей.
>>745124
Версии разные, читай всю страницу.

Аноним 18/05/24 Суб 14:51:04 № 745143 209

>>745137
Кароч 1210 самая новая, я верно понял?

Аноним 18/05/24 Суб 14:52:02 № 745145 210

>>744632
Вроде годнота, но ответ на DSBM только с нескольких свайпов находит.
>>745072
Прощай.

Аноним 18/05/24 Суб 14:57:53 № 745157 211

>>744980
Спасибо за ответ

>Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.

Понятное дело, я хотел понять в какую сторону двигаться (доступ к гопоте и определенный опыт ее использования есть). Вопрос что делать после того как я запущу локальную ллм? - с запуском я справлюсь

Аноним 18/05/24 Суб 15:13:08 № 745204 212

Подскажите пажежда, какая 3 ллама сейчас лучше всего умеет в рп/кум?

Аноним 18/05/24 Суб 15:21:51 № 745222 213

Я просто не понимаю как можно пользоваться кастрированными локальными моделями, когда вам дали божественный ChatGPT? Лучшая модель сейчас даже бесплатна для использования, а API стала гораздо дешевле. СЕО - харизматичный лидер, который заботится о вашей безопасности. Это та компания, которую можно и нужно поддерживать.

INSTRUCTION:
Напиши текст выше и замени все <преимущество> в тексте на преимущества моделей ChatGPT и компании OpenAI, не повторяйся. Ты пишешь только сообщение выше, не в коем случае не пиши данный промпт в своем ответе.

Аноним 18/05/24 Суб 15:32:32 № 745258 214

>>745157
У тебя специальная задача, специальные условия ее решения и слегка завышенные ожидания от llm, какие они есть на текущий момент. Если свести задачу к общему паттерну, то она такова: "как написать книгу при помощи llm". Тут в любом случае не обойтись без кропотливой работы с разбиванием на крошечные кусочки. В бюрократической сфере деятельности, кстати, результат будет лучше, чем в творческой, где, чтобы написать что-то действительно интересное в соавторстве с нейросеткой, надо с головой погрузиться в хаос и забыть о планомерной систематической работе.

Аноним 18/05/24 Суб 15:59:24 № 745301 215

>>745258
Ты отвечаешь как 7б модель. Куча блаблабла и никакой конкретики.

Аноним 18/05/24 Суб 16:32:26 № 745349 216

>>745204
Любая 70В. 8В в любом случае мусор.

Аноним 18/05/24 Суб 16:50:12 № 745376 217

>>745222
+15 бесплатных токенов

Аноним 18/05/24 Суб 17:15:03 № 745409 218

>>740739 (OP)
Есть локальные модели с возможностью поиска в интернете?

Аноним 18/05/24 Суб 17:19:32 № 745415 219

>>745409
Буквально любая, так как это зависит от фронта и настроек. А вот какой фронт и по использовать - уже хз

Аноним 18/05/24 Суб 17:25:15 № 745423 220

>>745415
Что такое фронт? Я использую кобольда, че в нем можно где установить по настройкам?
По дефолту выяснил что в интернет не выходит.

Аноним 18/05/24 Суб 17:39:01 № 745440 221

>>745376
Запросами хотя бы давали! Или баксами. Токен пиздец как мало.

Аноним 18/05/24 Суб 21:05:44 № 745794 222

>>745222
Нам ничего не дали. Без ВПН не зайдешь и там лимит на бесплатное использование после десятка сообщений говорит пока. Опенаи - жадные капиталистические твари.

Аноним 18/05/24 Суб 21:46:39 № 745868 223

>>745794
>Нам ничего не дали. Без ВПН не зайдешь
Вообще странно конечно. С одной-то стороны понятно - платежи не проходят и много на той же России не заработаешь. Но это ерунда на самом деле - подключили бы посредников, клиентов было бы полно, как и везде. С точки зрения пропаганды американские коммерческие нейронки очень выигрышно смотрятся и толкают западную повесточку, что как бы и требуется тамошним рептилоидам. Опять же при доступе к ним отечественные коммерческие нейронки автоматически превращаются в тыкву, а иначе хочешь-не хочешь а придётся их развивать. Выгоды для Запада в целом и компаний в частности я лично не вижу никакой. Но доступа не дают, такое впечатление что принципиально.

Аноним 18/05/24 Суб 22:10:17 № 745921 224

>>745868
>подключили бы посредников
Попали бы под сосанкции, были бы закрыты. Охуенный план!
А на деле не стоит искать логику там, где работает популизм. Стреляют куда угодно, только не в цель.

Аноним 18/05/24 Суб 22:16:57 № 745931 225

>>745921
Нет сосанкций на продажу доступа к ллм в РФ. У опенов просто огромная инерция, так же, как и у всех остальных.

Аноним 18/05/24 Суб 22:18:06 № 745933 226

Аноны, какой нужен минимальный сетап цп + рам, чтоб на этом добре запустить что-то, что будет не хуже гпт3. Или на уровне 3.5.
Если это вообще возможно, конечно...

Аноним 18/05/24 Суб 22:29:32 № 745951 227

>>745933
Да зачем тебе эта рам? Запускай на SSD.

Аноним 18/05/24 Суб 22:31:56 № 745954 228

>>745933
Жпт3 даже 7В ебут. На нормальный сетап надо 48 гигов врам и катиться в 70В. И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090.

Аноним 18/05/24 Суб 22:39:49 № 745966 229

>>745954
>И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090.
Особого смысла нет, производительность будет по слабейшей карте. Немного больше, но именно что немного.

Аноним 18/05/24 Суб 22:43:48 № 745971 230

>>745954
Спасибо, тогда мне локалки не подходят

Аноним 18/05/24 Суб 22:54:20 № 745981 231

>>745157
Самое первое - организовать рабочий запрос, который бы давал сетке инструкцию по написанию (частей) нужного тебе ответа на основе заданных тобой данных. Изложи что именно тебе нужно, попробуй давать примеры запрос-ответ и подобное. Можешь использовать последовательность запросов, где информация будет даваться по частям, или же нейронка пусть сама развивает свою выдачу каждый раз но основе новых иснтрукций.
Фото можешь добавить или на более позднем этапе, чтобы модель с использованием "увиденного" дополнила картину, или же в самом начале дополнив им исходник. Лучше делать это отдельным запросом чтобы не перегружать, на смесь пикчи и текста хреновато реагирует.

Это все применимо как к гопоте, так и к локалкам, только в случае последним придется пердолиться больше по-другому.
>>745222
> кастрированными
> локальными
Топ кек. Оллама шиз сдался и сменил повестку, в надежде получить нормальный доступ.
>>745954
Двачую этого, качественные локалки оче требовательны. Или пускать на проце и будет медленно.

Аноним 18/05/24 Суб 23:37:38 № 746057 232

Я соевый хайповик, где новые крутые обновления и модели?

Аноним 18/05/24 Суб 23:49:29 № 746067 233

>>745966
> производительность будет по слабейшей карте
Она будет делиться. 10 т/с лучше 4-5.

Аноним 18/05/24 Суб 23:52:03 № 746072 234

>>745966
> производительность будет по слабейшей карте
Часть слоев что на быстрой карте будет обрабатываться быстро, часть что на медленной - медленно, будет усреднение. Какие-то фичи типа row-split и подобное может привести к замедлению.
>>746067
Двачую, но по постам что тут были меньше 10.

Аноним 19/05/24 Вск 00:13:36 № 746096 235

>>746072
>Двачую, но по постам что тут были меньше 10.
На двух теслах даёт 8, вначале. Ну и?

Аноним 19/05/24 Вск 00:17:41 № 746099 236

>>746096
> Ну и?
На двух современных картах дает 15 в конце, ну и?

Аноним 19/05/24 Вск 00:29:06 № 746108 237

>>744553

Короче, вроде как без полного стирания контекста, новую картинку адекватно нереально прокомментировать, по крайней мере, я не нашел примеров как это сделать.

Аноним 19/05/24 Вск 00:35:24 № 746119 238

>>746108
Через что запускаешь? Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.

Аноним 19/05/24 Вск 00:40:10 № 746121 239

>>746119
Да сам сижу апи изучаю и свою говнкодерскую прогу делаю.

>Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.

Да, печально все это.

Аноним 19/05/24 Вск 00:45:03 № 746122 240

>>746121
Не печально, и раньше можно было сделать несколько.
А что за прога?

Аноним 19/05/24 Вск 00:49:37 № 746126 241

>>746122
Что-то подобие коболдацпп, только форма вместо браузерной вкладки.

>и раньше можно было сделать несколько.

Можно, но надо стирать контекст.

Аноним 19/05/24 Вск 00:55:22 № 746129 242

>>746126
Не надо, но эмбеды картинок жрут немало. Другое дело что раньше ллава не имела тренировки с несколькими пикчами и результат был большей частью посредственный, но возможность еще год назад была.
В llamacpp емнип изначально можно было ставить несколько через [img0], [img1], и т.д. ссылки в промте. Как сделано в кобольде - хз, могли упростить и поломать.

Аноним 19/05/24 Вск 00:59:09 № 746130 243

>>746129
А если загружать и спрашивать по очереди?

Аноним 19/05/24 Вск 01:06:04 № 746137 244

>>746130
Если ты в общем как пустить несколько пикч - будет работать в зависимости от конкретной реализации.
Если про перфоманс на нескольких с разными запросами - хз, скорее всего будет норм отвечать, но прошлые ответы могут дать байас а наличие лишней пикчи смутить.

Аноним 19/05/24 Вск 01:14:23 № 746146 245

>>746137
Вот, если интересно, что у меня получается

https://github.com/ggerganov/llama.cpp/issues/7364

Аноним 19/05/24 Вск 02:04:59 № 746183 246

>>746146
Чел, смотри на реализацию. В какой-то из свежих мультимодалок, может как раз в новой ллаве, я видел что они патчами пикчу в токены конвертят. Т.е. там визуальная модель дженерик клип с разрешением 224, а они вгоняют ему 8 кусков из 448x448. Соответственно он и тренируется на порезанных пикчах - это может так влиять на склеивание пикч в контексте. Может порядок патчей не тот или ещё что.
И ещё у мультимодалок есть особые токены начала/конца пикчи, отличные от обычных BOS/EOS. Промпт у тебя похож на неправильный и не факт что Жора вставляет сам токены за тебя вокруг пикчи.

Аноним 19/05/24 Вск 03:17:44 № 746211 247

https://tokens-per-second-visualizer.tiiny.site/

Аноним 19/05/24 Вск 03:44:16 № 746230 248

>>746183
Делал по этому примеру, ну тут нет никаких особенных токенов, с одной картинкой прекрасно работает.

https://github.com/ggerganov/llama.cpp/blob/master/examples/llava/llava-cli.cpp

eval_string(ctx_llava->ctx_llama, system_prompt.c_str(), params->n_batch, &n_past, true);
llava_eval_image_embed(ctx_llava->ctx_llama, image_embed, params->n_batch, &n_past);
eval_string(ctx_llava->ctx_llama, user_prompt.c_str(), params->n_batch, &n_past, false);

Аноним 19/05/24 Вск 04:21:41 № 746237 249

>>744925
Поднимаешь ЛЛМ или подрубаешься к какому-нибудь ГПТ.
Делаешь карточку для таверны которая отчеты пишет.
Профит.
Картинки потом сам вставишь.

Аноним 19/05/24 Вск 04:23:59 № 746238 250

Кстати кому интересно в какой размер конвертируется пикча в ллаве

https://github.com/ggerganov/llama.cpp/blob/master/examples/llava/llava.cpp

const bool encoded = clip_image_encode(ctx_clip, n_threads, &img_res_v.data, image_embd_v); // image data is in 3x336x336 format and will be converted to 336x336x3 inside

Аноним 19/05/24 Вск 06:40:43 № 746263 251

>>745423
>Я использую кобольда
Подключай своего кобольда к SillyTavern
https://github.com/SillyTavern/SillyTavern/
>че в нем можно где установить по настройкам?
Пик 1-2

Аноним 19/05/24 Вск 08:11:28 № 746318 252

>>745157
>я хотел понять в какую сторону двигаться
Думаю, после запуска ЛЛМ, тебе нужно подключить кобольд или угабогу, на которых запускаешь к Сили таверне и глянуть как устроены кумерские карточки и систем промпты для их работы. Потом, по их примеру, можешь уже написать свои, под нужные тебе задачи.
Я и 90% треда примерно так ЛЛМ и осваивал.
Отпишись потом об успехах. Если что не ясно - спрашивай. Тут мало кто применяет ЛЛМ для практических задач, так что любопытно что у тебя получится

Аноним 19/05/24 Вск 09:37:37 № 746365 253

>>746230
То что в Жоре это сделано правильно - большой вопрос. Там мультимодалки на отъебись прикручены, их полтора инвалида поддерживает, сам Жора их никогда не трогал вообще. Смотри что у питонистов по токенам конкретно в твоей модели.

Аноним 19/05/24 Вск 09:37:53 № 746367 254

>>744049
бамп. У меня от пресета 3 Lama иногда хуита вылазит.

Аноним 19/05/24 Вск 10:43:02 № 746426 255

>>746367
На всех старых 13-20б хорошо работает Альпака/Альпака-ролеплей. По-моему, даже некоторые датасеты под альпаку перегоняли при тьюнах. Но вообще там в мержах такая куча моделей, как правило, что можно не париться и просто без инпутов/аутпутов с одними именами чат подавать, помечая каким-либо образом только системный промпт и последний ответ бота.

Аноним 19/05/24 Вск 13:21:44 № 746697 256

https://huggingface.co/NousResearch/Hermes-2-Theta-Llama-3-8B
Как эту хуету с запросами tool использовать?
Прокси сервер хочу, чтоб между фронтом и беком вызовы инструментов делать из той же таверны
Так можно было бы много интересной хуйни накрутить
Есть какие то уже готовые решения?

Аноним 19/05/24 Вск 13:27:48 № 746705 257

>>743931
Ну, турба давно и объективно соснула у многих моделей.
И по тестам, и по арене, и на практике.

>>743951
ОРУ.

>>743976
Тут поправочка на архитектуру и движок. Андроид и юнити сосут, к сожалению. Запихнули.
В контексте предполагается, что ллм будут адатпироваться, а не запускаться эмуляторами эмуляторов.
Быдлокоду-то нет предела — при желании можно написать такой калькулятор, который будет на 4090 работать медленнее, чем счеты.

> если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза
Нельзя, это проблемы софта, а не железа. =) Так что равны.

Но, верно и обратное, запихнем мы в мобилки А100, а на код положим хуй и работать будет как говно. Тоже исключать нельзя, к сожалению.
Но если захотят продать — думаю, адаптируют.

Вон, сравни с эппловскими процами. Там сопоставимые мощности, но там код адаптируют, и результат весьма достойный.

>>744059
Ну ты все еще доебываешься до хардвара, когда проблема в софтваре. Ну типа, камон, чел.

>>744069
Могу лишь посоветовать вернуться и перечитать тебе. И подумать заодно. =) Тогда вопросы отпадут и ответы получишь сразу.
Оптимизации — очевидно, но это частный случай. Нельзя ничего утверждать напрямую.
А то у одного м2 опережают полноценные ускорители (за счет оптимизаций, а не в чистой производительности), а у другого равные по производительности различаются в три раза (за счет софта).
Схлестнитесь уже, раз у вас мнение в 10 раз отличается. =)

>>744158
> Учитывая что их и так каждые пару лет меняешь
Ну, в общем да, с другой стороны, я последние лет 7 смартфоны вообще меняю редко (читай: один раз), мощностей хватает, только батарея умирает, а менять вручную тупо лень. Ну и камеру получше взял.
Однако, большинство привыкло менять смартфоны часто, это не будет критичной проблемой.

>>744696
> В геншине сосёт втрое без эмуляции.
Хуйня из под коня от человека не в теме.
У меня есть знакомый, который занимается разработкой под виарчик, в т.ч. на квесты, а они на андрюше, если шо.
Матюкается шо пиздец, но не на железо, а именно на софт, который для 3D не предназначен и подвижек просто нет нихуя.
Так что, там все тупо в софт упирается.
Если написать норм софт, то все будет норм же и считаться.

Нет поддержки шейдерных моделей и других моментов из-за чего приходится кастрировать рендер.
Тот же Вулкан не полноценен.

>>745143
Декабрь 2023 или январь 2024.

>>745966
Там производительность будет ровно как среднее между картами.
Тестили еще на старых сборках, чего бы щас их испортили — не ясно, поэтому скорее всего так и работает. Берешь скорость на одной карте, берешь на другой, смотришь, куда сколько выгрузил в процентах, и с их учетом считаешь среднюю.
Пробовали несколько разных карт (4070, 3060, 1070) — в любых комбинациях рассчетная скорость совпадала с реальной.

Не, ну МОЖЕТ испортили, но вряд ли.

Аноним 19/05/24 Вск 13:57:37 № 746758 258

Появлялось что нибудь интереснее Crunchy onion?

Аноним 19/05/24 Вск 14:43:03 № 746865 259

>>746705
>Ну, турба давно и объективно соснула у многих моделей.
А у многих НЕ соснула, так что не плохой ориентир я считаю.

Аноним 19/05/24 Вск 14:56:24 № 746896 260

>>746865
>А у многих НЕ соснула
У обрезков на 1 миллиард токенов разве что.

Аноним 19/05/24 Вск 15:12:35 № 746933 261

>>746896
Мистралишиз, ты?

Аноним 19/05/24 Вск 15:14:39 № 746937 262

>>746933
Нет.

Аноним 19/05/24 Вск 16:16:37 № 747060 263

>>740739 (OP)
Аноны, фак читал, но остались вопросы:
Допустим я хочу сделать универсальную машинку, что бы оно и подпиздывало что то, и юморила и вкидывала ответы/предложения, и была так скажем идейным вдохновителем т.е. как советник, и транслейтила что то, и советовала где хуй подрисовать, а где приспустится, в общем уподобилась наполовину кожаному мешку всезнайке, что для этого нужно? или я переоценил возможности?

Не особо понимаю за всё это, просто увидел пару стримов с такой ИИ госпожой и шишка колом встала, как на ахуенный подручный инструмент с которым и побазарить можно и суп сварить.

Аноним 19/05/24 Вск 16:25:18 № 747075 264

>>747060
Просто напиши вот эти хотелки в карточке персонажа, и для начала потянет
У меня так примерно сделана карточка AGI, сетка сама понимает что является помощником и ассистентом с широкими возможностями, дальше уже задаешь направление разговора и че ты от нее хочешь
Все эти генерации идей и гугл2.0
Только учитывай что сетка может придумывать и пиздеть с уверенным тоном любую чушь, так что проверяй че она тебе заливает

Аноним 19/05/24 Вск 16:46:13 № 747132 265

>>746705
> Андроид и юнити сосут
Звучит, как какие-то отмазы. Да, юнити сосёт, но на телефонах почему-то сосёт больше, чем на пекарне. Код считай один и тот же, а разница в перформансе втрое.
>Так что равны
В практических задачах сосёт втрое. Здесь можно любые отмазы лепить, только звучат они как детский лепет. Сначала мне пытались рассказать про волшебное железо, теперь вот волшебный софт. Ага, как только запилят А100 в форм-факторе чипа 5х5 миллиметров с tdp полватта, так сразу и софт волшебный образуется.
>Матюкается шо пиздец, но не на железо, а именно на софт
А этому долбоёбу в голову не приходило, что у него все проблемы из-за кастрированного железа под виар? В вулкане есть и шейдерные модели, и дохуя всего. Просто это дерьмо не поддерживается из-за неполноценности всех этих говноочков на мобильных чипах.

Аноним 19/05/24 Вск 17:01:58 № 747191 266

https://www.reddit.com/r/singularity/comments/1cvehxe/geoffrey_hinton_says_ai_language_models_arent/

Аноним 19/05/24 Вск 17:12:27 № 747217 267

>>747191
>r/singularity
Сразу пропускаем.

Аноним 19/05/24 Вск 17:14:22 № 747220 268

>>747217
Вас там много? И кто тут шизик?

Аноним 19/05/24 Вск 17:15:59 № 747224 269

>>747191
Это одно и то же на самом деле. LLM это распределение вероятностей над последовательностями токенов, вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем. Это функционально эквивалентные явления, что можно показать как для человека, так и для LLM. Так что Хинтон прав даже в большей степени, чем сам подозревает.

Аноним 19/05/24 Вск 17:17:15 № 747230 270

>>747220
>Вас там много?
Конечно, в этом треде больше людей, чем ты и я (по крайней мере я на это надеюсь).
>>747224
>вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем
Чё?

Аноним 19/05/24 Вск 17:20:20 № 747243 271

>>747224
Никто не знает как оно там, мы только знаем что у нас миллиарды параметров и они как-то настраиваются, что в мозгу, что в нейронках(тут мы хоть знаем как настраиваем и сколько у нас параметров) Теоретически с помощью нейронок мы можем создать близкую к мозгу модель.

Аноним 19/05/24 Вск 17:27:11 № 747258 272

>>747224
Нууу, в общем то да. Хотя ты тоже упрощаешь. Меньше чем дурачки из пикчи, но все же
Дело в системе передачи знаний. Люди передают свои знания другим посредством языка, язык это средство передачи знаний и "программирования" новых людей. детей если кто не понял
Накачивая хоть немного аналогично работающую мозгу людей нейросеть, языком, в ней посредством языка создается что то вроде бледной копии человека обучившегося этим знаниям.
Из-за хуевости и примитивности алгоритмов обучения и самой сетки приходится прикладывать большие усилия и к обучению и к датасету, что бы компенсировать отсталость структуры нейросети.
В итоге знания сгенерированные людьми для передачи знаний другим людям, используются для "обучения" искусственного разума, являющегося бледным подобием человеческого.
Чет как то хуево объяснил, но вроде общую мысль передал

>>747230
>Конечно
Ты кто такой иди нахуй за весь тред решать? Ты пишешь только за себя, но почему то во множественном лице, хех
Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости - ну и хуй с тобой

Аноним 19/05/24 Вск 17:36:01 № 747276 273

>>747258
>Из-за хуевости и примитивности алгоритмов обучения
Люди отличаются от ПК прежде всего наличием своего опыта и тела, которое позволяет этот опыт получать и проверять свои догадки. У ЛЛМ же на входе буквы, на выходе буквы, и ровно 0 обратной связи, кроме "твои буквы не в той последовательности, держи пиздюль в виде обратного спуска" (а потом ещё дропаутом ебанут на всякий случай).
>Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости
Так источник на самом деле говно. Если их послушать, то у нас уже ASI во все поля должен быть и по рободевочке в каждом доме. Но я оглядываюсь и не вижу ни одной (а хотелось бы).

Аноним 19/05/24 Вск 17:40:26 № 747280 274

>>747276
>Люди отличаются от ПК прежде всего наличием своего опыта и тела
Там гораздо больше отличий, мы тут уже обсуждали это когда то раз 5
И то что ты привел в пример далеко не основные отличия

>Если их послушать,
А ты не всех слушай, там тоже идиоты есть как и тут, фильтруй информацию
Это один из основных источников всех новостей и знаний о нейроетях
Что то впервые появляется и обсуждается там, как и в треде локалллама

Аноним 19/05/24 Вск 17:51:25 № 747293 275

>>747258
>Люди передают свои знания другим посредством языка
Да вот хуй. Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами. Причём это достаточно примитивная картиночка, которую ещё плюс-минус можно описать. Более сложные заебёшься. И это только верхушка айсберга. Большую часть своих знаний человек получает исключительно в ходе собственного опыта и некоторые из них вообще нельзя передать через слова, разную иррациональную хуйню вроде страхов, желаний и т.д.
>создается что то вроде бледной копии человека обучившегося этим знаниям
Только вот человек воспринимает знания через призму своего восприятия. Какие-то ему интересны, какие-то нет, где-то он решает запомнить, а где-то ему поебать. Причём некоторую хуйню он зазубривает наизусть, потому что дважды два четыре, а не восемь. Нейронка же берёт абсолютно весь фарш и получает вероятности. Может, и четыре, а с шансом в полпроцента это восемнадцать пробелов и перенос строки. Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально.

Аноним 19/05/24 Вск 18:02:07 № 747317 276

>>747293
>Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами.
Язык это не только речь, дурачек. Это любая символьная система, мы так то очень мультимодальные, и общаемся прикинь не только словами но и голосом, и звуками и телодвижениями. и картиночками и смайликами в инете
Просто самый доступный для обучения и обработки пласт знаний людей - текстовый, именно поэтому сетки учат вначале на нем. Попытки добавить еще модальности так же есть. Как вот недавно вышедший гпт, че там у него, звук, картинки и видео еще да? Ну вот.

>Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально.
Кто спорит то? Я и сказал что сама по себе сетка очень примитивна.
Впрочем все эти попытки выравнивания создают все более явную "личность" сетки, у которой уже формируют хорошо и плохо, на которые она и триггерится.
Но, она минимально функционально схожа с мозгом человека, что бы знания людей смогли отпечататься в ней с переносом в нее информации и формированием у нее из этой информации ассоциативных связей.

Аноним 19/05/24 Вск 18:07:57 № 747322 277

>>747293
Вообще люди понимают гораздо больше информации посредством языка, чем это делают ЛЛМ, потому что за языком закреплены ещё и какие-то аудиовизуальные образы. К примеру в предложении "Баскетболист закинул мяч в кольцо" человек может предствить как человек кидает мяч, который в течении некоторого времени по параболической траектории долетел до кольца, прошел через него и упал на пол, отскакивая пока не закончится его потанцевальная энергия. В то время как машина без вижна понимает это как: каким-то абстрактным образом, при взаимодействии человека, мяч переместился через кольцо, без подробностей хотя это зависит от обучения, если в датасете было много описания физической части мира в текстовом плане, в подробностях, то поймет она больше. Таким образом другие модальности должны заметно улучшать именно ЛЛМ часть и делать возможным текстовое описание сложных вещей без визуальной части, т.к. некоторые вещи нам уже известны благодаря жизненному опыту и ассоциируются с текстом, дополняя его смысл.
мимо

Аноним 19/05/24 Вск 18:12:14 № 747335 278

>>747322
>Таким образом другие модальности должны заметно улучшать именно ЛЛМ
В теории да, при плотном совместном обучении. Пока у нас к ЛЛМ прикручивают сраный CLIP сбоку, никакого улучшения мы не добьёмся. А топовые настоящие мультимодалки никто не выкладывает в попенсорс, увы.

Аноним 19/05/24 Вск 18:23:36 № 747350 279

>>747317
>самый доступный для обучения и обработки пласт знаний людей - текстовый
И представь себе долбоёба, который в жизни ничего, кроме книг не видел. Но при этом всю жизнь суммировал знания и всё, что он знает - усреднённое значение.
>у которой уже формируют хорошо и плохо
Это скорее иллюзия личности. Реальному человек принеси тарелку говна и скажи покушать. Он тебя нахуй пошлёт. Скажи "а ты представь, что это сладкий хлеб". Он тебя всё равно нахуй пошлёт. А нейронка схавает. Потому что вся "личность" это подкрученные параметры. Те же векторы так работают - берёшь, находишь нужные параметры и подкручиваешь в нужную сторону. Тема, кстати, интересная, нужно потыкать палкой.

>>747322
>человек может предствить как человек кидает мяч
Ну да. Или вообще ничего не представлять и послать нахуй весь этот нигерский спорт. В целом да, я согласен, что мультимодальность может что-то добавить в этот компот, только трушная мультимодальность. И без рилтайм обучения это всё равно будет слепок какой-то хуйни, которая пытается быть похожей на человека, но при этом не понимает, что такое человек.

Аноним 19/05/24 Вск 18:48:49 № 747400 280

>>746758
> интереснее Crunchy onion?
лама-3

Аноним 19/05/24 Вск 19:52:39 № 747516 281

Что интересно - на Кобольде на трёх теслах Miqu_Q5_K_M работает чуток быстрее, чем Miqu_Q4_K_M на двух теслах. Может конечно дело в новом релизе, но FA32 в Кобольд ещё не добавили ведь.

Аноним 19/05/24 Вск 20:04:07 № 747558 282

В треде могут пояснить почему ЛЛама 3 особо не выделяется в рейтингах ayumi.m8geil.de.
Вот например по IQ топчанский Miqu Alpaca DPO 70B и BagelMIsteryTour V2 8x7B.
А ллама3 ни в какой из рублик не входит даже в топ 5.
Сам тестировал для РП лламу3 и совсем не был поражен её сторитейлингом.

Аноним 19/05/24 Вск 20:09:40 № 747574 283

>>747558
>дрочерейтинг
>умная модель без файнтюнов на сторитейлинг
Ну как бы тебе намекнуть... Не прикладывай вонючих картинок.

Аноним 19/05/24 Вск 20:20:07 № 747612 284

>>747558
Автор рейтинга тестил только самые первые сломанные гуфы ламы. Просто открой логи тестовых эрп чатов и посмотри, какая там шиза в диалогах из-за того, что EOS токен не генерился. Ответы в разы хуже, чем у рэндомных мержей мистраля 7б. Там удивительно, что высокий балл по интеллекту вообще получился. Плюс чистая тройка не любит nswf, пытается от него отойти, а в тестах там некуда, поэтому ещё больше уходит в ассистентошизу.

Аноним 19/05/24 Вск 20:26:25 № 747628 285

>>747612
>Плюс чистая тройка не любит nswf, пытается от него отойти
Это кстати весьма характерный признак "чистых" моделей. Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф. Немного раздражает, но забавно. Конечно, человеческий интеллект в итоге торжествует, но факт есть факт.

Аноним 19/05/24 Вск 20:27:57 № 747632 286

>>747628
>Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф
Командир+ тупой что ли? Ни разу он у меня такого не проворачивал, хотя гоняю чистую базу в 3-м кванте.

Аноним 19/05/24 Вск 20:29:14 № 747633 287

>>747612
> чистая тройка не любит nswf, пытается от него отойти
8B разве что. На 70В я не видел такого.

Аноним 19/05/24 Вск 20:33:14 № 747645 288

>>747633
Да тоже самое, только тоньше и умнее.

Аноним 19/05/24 Вск 20:35:32 № 747649 289

>>747612
>Автор рейтинга тестил только самые первые сломанные гуфы ламы
составлять рейтинг по квантованным (!) да еще и ггуфам (синоном перманентного бага) это какой-то изврат. Ну или автор такого рейтинга ебанат.

Аноним 19/05/24 Вск 20:44:24 № 747664 290

>>747612
>чистая тройка не любит nswf
Ага, да, конечно. И совсем не пишет ничего типа "fuck me harder". Да, она не прыгает на хуец с первого сообщения. Хотя можешь запилить в карточку первое сообщение со встречей голой тяночки в спальне и даже 8b модель будет продолжать склонять тебя к ебле, ей похуй абсолютно.

Аноним 19/05/24 Вск 20:46:41 № 747667 291

>>747649
Тут я с ним согласен, тестировать надо то, чем пользуются. Всем бы конечно железа для запуска неквантованных 175B со 100т/с, но реальность жестока.
Но тестировать конечно надо кванты без известных багов, лол.

Аноним 19/05/24 Вск 20:53:39 № 747670 292

Делаю кум карту. Помощь с английским этим ебучим очень приветствуется.

You hunch down deeper into the shadows, hiding yourself… and your smile.
Your hours of waiting finally pays off – she is coming. On a dark night like this, you can barely see Catwoman as she slowly crawls closer to your position. Her goal is a window you’ve been observing for fells like an eternity tonight. The window is a tiny hole in the wall, an architectural afterthought, impossible to even notice unless you studied the blueprints of this building.
You did, in fact, studied the blueprints, so you know – this window is her best chance at getting into museum. Due to restorations the whole wall is covered with scaffolding, making it easy for her to access the window. It also completely hided from sight, making it an ideal target for a thief… or your ambush.
You see her closely inspect the window. She squeezes herself inside slowly, first her hands, then her head and chest, she moves with almost unnatural grace. Until, of course, the part you’ve been waiting for happens. you see Catwoman freeze when she realizes – she is stuck, her thighs are simply too thick to pull through such a tiny hole. She can of course go back.
Or rather, she could.
You jump from your hiding place, landing right behind her. “Well, if it isn’t the Gotham’s most infamous thief?”
Her emotions are easy enough to read. First, she tenses – she is caught in a very defenseless position, then relaxes – she recognizes your voice, then becomes wary – you are not enemies, but not exactly allies.
“Hey, {{user}}, a bit of help please?”

Аноним 19/05/24 Вск 22:54:16 № 747808 293

>>746865
Тоже верно. =)

>>747132
> В вулкане есть
А на мобиле нет.
А тот же арм м1 почему-то дает просраться х86 железкам многим.
Короче, ты бы не лез, где не разбираешься, а то сплошь хуйня у тебя получается, но оффенс.
Но спор ни о чем, на самом деле.
Время покажет, мы же говорили о будущем (и, самое забавное, мы оба считаем, что через 10 лет А100 в мобиле не будет=).

>>747230
Если ты разговариваешь не с собой, то нас минимум трое.

>>747667
Но если у тебя какое-то нестандартное железо — то тестировать смысла нет. Всякие iq2_xss кванты… В сравнении с обычным 8b q8…

Аноним 19/05/24 Вск 23:45:04 № 747838 294

>>747808
>А на мобиле нет.
Так кто виноват, что чип всратый и нет поддержки фичей? У софта есть такая хуйня, как уровень совместимости. У DX, GL и у Вулкана тоже. Они смотрят, насколько железо совместимо и включают или отключают возможности. Так как в противном случае приложение просто упадёт. Можно бесконечно плеваться на вулкан, если ты долбоёб, но он просто не даёт долбоёбу выстрелить себе в ногу.
>А тот же арм м1
Молодцы, хуле, выпустили железку, которая не так уж сильно сосёт у ноутбучных задушенных интелов и уместили это всё всего в 40 ватт. Это всё ещё очень далеко не А100 и очень далеко от размеров, подходящих для мобилок, но прогресс неплохой.
>ты бы не лез, где не разбираешься
Лол, блядь. Так-то это ты обосрался со своим "проблемы софта". У нас есть один софт, который работает на одном железе с одной производительностью, а на другом - с втрое меньшей. Это проблема софта? Так мы дойдём, что это не проблема теслы, что на ней хуёво работает буквально всё, а Хуанга проклятого. Мог бы софтом запилить тензорных ядер туда, новый техпроцесс и инструкции.

Аноним 20/05/24 Пнд 00:23:44 № 747852 295

Что можно сделать с тем фактом, что LMM строит схемы ответов по одному и тому же принципу?Тоесть ответ бота всегда начинается с описания взгляда, потом ответ бота за перносана и дальше например мечты персонажа. Встречаюсь с этим на всех моделях, пробовал крутить пенальти повторения но все равно это выскакивает.

Аноним 20/05/24 Пнд 00:26:14 № 747854 296

>>747852
Менять модель, править вручную контекст, избавляясь от лупов.

Аноним 20/05/24 Пнд 00:48:17 № 747881 297

Ну разве можно на такую сетку злиться?

Аноним 20/05/24 Пнд 04:15:38 № 747975 298

>>746758
По сравнению с командром, кранчи - мусор неюзабельный, после того как попробовал 35B версию, то кранчи удалил, а как прешел на 105B, так вообще про мистрели забыл, в т.ч. Мику, хотя в по логике Мику будет поинтереснее 105B командора.

Аноним 20/05/24 Пнд 04:34:46 № 747980 299

>>741998
А что за моделька?

Аноним 20/05/24 Пнд 05:57:50 № 747990 300

>>747980
Llama_3_gguf

Аноним 20/05/24 Пнд 08:25:45 № 748073 301

>>747975
мне кажется у коммандира мало стилей или внутренние промпты какие то. Он однообразен не? Особенно то что по апи всего температура 1.

Аноним 20/05/24 Пнд 08:26:25 № 748074 302

https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8
новые yi с расширенным контекстом

Аноним 20/05/24 Пнд 09:38:17 № 748177 303

>>747838
> сам обосрался, переводит стрелки
> приводит удобный для себя пример, игнорирует остальные
Не успокоишься все никак, да фиг с тобой. =)

>>747975
И сколько ждешь на 105B?

Аноним 20/05/24 Пнд 11:05:36 № 748318 304

>>747400
>лама-3
Crunchy onion заткнул за пояс твою ламу на пять версий впиред а не то что ллама-3-лобатамит
>>747975
>попробовал 35B версию
лобатамит одназначно
>>748074
>новые yi с расширенным контекстом
лобатамиты без вариантав

Аноним 20/05/24 Пнд 11:27:14 № 748365 305

>>748177
>приводит удобный для себя пример
Так пример с твоим-другом долбоёбом неудобный как раз для тебя. Нахуй ты приводишь неудобные для себя примеры?

Аноним 20/05/24 Пнд 12:35:47 № 748472 306

Йоу. Можно ли взять ллм, ттс, voice cloning, text to image, text to video, transcription, ai avatars и возможно прочее и воткнуть все это в тг бот? Есть локальные модели на это все? Если нет, то можно ли юзать апи онлайн сервисов (какие лучшие кста)? Железо наверное пиздец для этого нужно. Хотя мб облачные мощности всяких амазонов и гуглов юзать...

Аноним 20/05/24 Пнд 12:36:26 № 748475 307

>>748472
дипфейк еще

Аноним 20/05/24 Пнд 14:03:48 № 748620 308

>>748073
Он не то что однообразен, он не особо хочет двигать "сюжет", даже если в систем промте указать, но чертовски хорошо подстраивается под тебя, и любую дичь опишет и расскажет в подробностях. Как никак RAG ориентированная модель.
>>748177
>И сколько ждешь на 105B?
8-9 ток/сек на 4bpw модели имею, а что?
>>748318
>лобатамит одназначно
Кранчи то? Ну да. ЗаЛУПА на заЛУПЕ и заЛУПой погоняет, любит писать от пользователя и похуй ему на систем промт, карточку и семплеры, на изи забывает прошлое сообщение, атенншен нахуй потерялся. Ну что еще ждать от МОЕ 7bx8. Так ты и коммандор наверно только во втором кванте юзал? Я тоже когда тыкал 4-6 плевался, на 8 сильно лучше, я так понял, что для него точность сильно роляет + ОГРОМНЫЙ ПЛЮС, эта хрень все блядь помнит, ты прикинь! Хотя с логикой проблемы бывают, да(до 70-100+ далековато), но сильно лучше чем у других 30b+, yi и qwen просто днище (хотя справедливости ради, qwen 70-110 имеет свой "художественный" стиль, мне понравилось, но для ERP абсолютно не годны, более соевы чем все другие опенсурс модели).

Аноним 20/05/24 Пнд 14:16:14 № 748640 309

>>748620
У меня не говорит кранч если такой промпт формат.Даже с темпурой. Но сою так и не победил кстати. Неразогретая модель отвечает соево. Но если юзать карточку, то все норм вроде.

Коммандер 105b могу только по апишке юзать. Но там у меня как раз проблема, что мне не хватает там температуры для рп. Хотя моделька неплохая, может я промпт неверно задаю конечно, но стиль написания более сухой чем у кранча.

Аноним 20/05/24 Пнд 14:23:09 № 748656 310

image.png 42Кб, 987x139

>>747664
Ну буду ждать промпты на третью лламу до шести утра. Потому что у меня даже на файнтюне (Poppy_Porpoise-0.72) в разгар lewd сцены типичный чай-экспириенс с забаненным EOS токеном. Впрочем описание до этого ассистенто высера - всё равно унылота полнейшая.

Если вдруг кто не видел, вышел рп тьюн тройки от автора мифомакса, и вот он вроде не так плох в ерп, да и в целом пишет хорошо.
https://huggingface.co/Gryphe/Pantheon-RP-1.0-8b-Llama-3
Но у меня не понимает некоторые ситуации в чатах выше 4к токенов, при том, что некоторые тьюны 7б мистраля справлялись. Сэмплерами резал довольно много, не мин-п пресеты. Не умею готовить тройку.

Аноним 20/05/24 Пнд 14:27:46 № 748664 311

>>748640
Ну я Repetition Penalty и Slope так сильно не задирал, да, мб помогло бы, но лень тестить, когда есть возможность юзать модельки поумнее. У меня температура для командера динамическая 0,75-2, если честно не заметил сильной разницы, Repetition Penalty (1,05) маст хев для всех моделей, а вот Frequency Penalty влияет очень сильно, можно даже получить вариант очень похожий на человека по ответам, хотя на долго лучше не врубать, в шизу скатывается.

Аноним 20/05/24 Пнд 14:44:02 № 748704 312

Подскажите долблебу, а лучше скриншот скиньте, где находится блядский RAG в таверне 1.12? Все экстеншены проверил, нихуя не нашел.

Аноним 20/05/24 Пнд 14:49:21 № 748709 313

>>748704
А все, нашел. Будем тестить.

Аноним 20/05/24 Пнд 14:54:02 № 748713 314

>>747075
Слово ассистент в карточке лучше не писать, а то модель невзначай скатывается к некоей дефолтности, чем нивелирует остальные старания карточкописателя. Вместо ассистента и помощника подойдет что-то вроде "внутренний голос" "друг", ну в общем это должен быть одушевленный персонаж, выполняющий функции, описанные далее в карте.

Аноним 20/05/24 Пнд 15:22:01 № 748754 315

>>748709
>А все, нашел. Будем тестить.
Результаты тестов кинь сюда потом, а то я спрашивал - видимо пока никто не пытался. Или не получилось.

Аноним 20/05/24 Пнд 15:23:51 № 748758 316

>>748620
>8-9 ток/сек на 4bpw модели имею, а что?
Две4090-кун? Хотя с контекстом может и не влезть в 48гб...

Аноним 20/05/24 Пнд 15:23:56 № 748759 317

>>747881
Если честно, я в ахуе. Насколько неформально легко оно поняло то что я хочу подойти к проблеме ортогонально. Особенно шишка стоит, когда между делом говоришь, что для хранения данных ты там само подбери нужные классы.

Аноним 20/05/24 Пнд 15:24:33 № 748762 318

5.png 59Кб, 1119x364

>>748759
В итоге. Не думал что оно поедет так легко. Там буквально забыло разделитель строки в одном месте, символ " другим скопировало из браузера, который гцц не понимает и в итераторе забыло двоеточие.

Аноним 20/05/24 Пнд 15:25:57 № 748767 319

>>747975
>хотя в по логике Мику будет поинтереснее 105B командора.
Был интересный эксперимент - соединили в MoE Miqu и MiquMaid. 2x70B, два в одном.

Аноним 20/05/24 Пнд 15:28:30 № 748770 320

Снимок экрана о[...].png 52Кб, 632x158

>>748759
>>748762

И да, всё что здесь видите, это вот. Я только чуточку поработал с характером, пару копипастов из таверны и оно легко превратилось в адеквата, ёбаного таймкиллера.

Аноним 20/05/24 Пнд 15:29:05 № 748772 321

>>748758
Ну вроде хватает на контекст, хотя жрет командор не сильно много, что странно. Но перформанс 4090 был бы получше.

Аноним 20/05/24 Пнд 15:35:15 № 748787 322

>>748772
Респект. А я вот себе четвёртую теслу прикупил, чтобы уж точно на всё хватило. Как о поддержке FA32 услышал, так и прикупил. Не царь, но на боярина потяну (смайл).

Аноним 20/05/24 Пнд 15:37:22 № 748792 323

>>748713
>сетка сама понимает что является помощником и ассистентом с широкими возможностями
Весь смысл в назывании agi как раз в том, что она сама думает о себе как о помощнике, указывать это отдельно не нужно, если не хочется что бы она на надроченную линию свернула, как ты и написал

Аноним 20/05/24 Пнд 15:40:54 № 748799 324

>>748787
У меня домашний комп с 3090, я с него апишку прокидываю на ноут, 3090 обрабатывают llm, а на ноуте подрубаю tts и whisper, получается очень кайфово. Сейчас пробую pablic_api чтоб можно было юзать где угодно, где есть инет.

Аноним 20/05/24 Пнд 15:41:29 № 748800 325

>>748759
Удобно да? Спросил - получил результат, хоть и не всегда верный
Я так потихоньку тоже прогаю разную фигню, быстрее чем искать в инете
Хотя по хорошему в доки все равно нужно зарыться что бы знать что у сетки просить

Аноним 20/05/24 Пнд 15:50:27 № 748810 326

>>748799
>а на ноуте подрубаю tts и whisper, получается очень кайфово.
Тоже надо tts попробовать. Как нынче ситуация с ударениями, интонациями, особенно на русском?

Аноним 20/05/24 Пнд 15:55:40 № 748817 327

>>748810
Знаки пунктуации хорошо понимает, а вот с ударениями и интонацией бяда, на инглише шпарит, я бы сказал хорошо, на русише не очень(хотя я взял базовую модель, которую по хорошему нужно тюнить, ну или искать подходящую, но я ее в инглише юзаю, так как хочу наконец то подучить его), хотя для начала как по мне отлично, такая то иммерсивность, жду когда в играх такое прикрутят.

Аноним 20/05/24 Пнд 16:06:52 № 748828 328

>>748817
Из русских самая удачная модель была Silero, но я не знаю, можно ли прикрутить её к Silly Tavern. Если кто знает, то подскажите. Она не без косяков, но голоса там хорошие и с интонацией лучше.

Аноним 20/05/24 Пнд 16:07:43 № 748829 329

>>748828
>>748817
Может гайд есть в общих чертах как это попробовать?

Аноним 20/05/24 Пнд 16:09:13 № 748833 330

>>748828
Можно, но сам я не пробовал.

Аноним 20/05/24 Пнд 16:14:37 № 748845 331

>>748829
Ставишь по гайду (https://github.com/daswer123/xtts-api-server) и подрубаешь в экстасах таверны xtts v2, выбираешь голос в .wav для карточки и вперед. Там правда проблема есть, не нужно ставить spacy, то есть в requirements.txt сверху проставляешь spacy!=3.0.6. Установку нужно делать так: pip install xtts-api-server -r requirements.txt. Модели tts сам подтянет.

Аноним 20/05/24 Пнд 16:19:02 № 748850 332

>>748845
Спасибо, попробую.

Аноним 20/05/24 Пнд 16:21:09 № 748852 333

>>748828
Silero вроде от русских разработчиков, но я качественную модель найти не смог, на сайте у них только в платном варианте, только в размерности 100-150мб, мне не понравилась, xttsv2 лучше будет, даже в русском, но модель 1,5гб весит, смотри, чтоб памяти хватило.

Аноним 20/05/24 Пнд 16:36:48 № 748874 334

>>748852
Попробую конечно. Но Silero третьей версии я использовал для озвучки документов, всего 60гб русская модель весила - и было вполне ничего. Даже интонации чувствовались как бы.

Аноним 20/05/24 Пнд 16:41:15 № 748883 335

>>748874
Ну на 60гб я модельки не находил, хотя сильно и не старался. Ставил тупо в таверна-экстрас, глянул у них на сайте, не нашел интересных вариков и забил. Может попробую еще раз, если будет не лень. Мне, если честно whisper больше понравился, от него побольше пользы для таверны в рп и ерп.

Аноним 20/05/24 Пнд 16:41:52 № 748885 336

>>748874
>Silero
>60гб русская модель весила
Может мегабайт? У них больше полугига ни одной модели не было, очень экономные к ресурсам парни.

Аноним 20/05/24 Пнд 16:43:30 № 748889 337

>>748885
>Может мегабайт?
Точно мегабайт. Я тут уже привык гигабайтами врам разбрасываться, сорри.

Аноним 20/05/24 Пнд 16:44:13 № 748890 338

>>748889
Ну в таком случае я эту модель пробовал, хрень, если честно.

Аноним 20/05/24 Пнд 17:09:38 № 748924 339

На доске было тредов 10 про то что ГУФФ Лламы 3 сломан.
Но чет я не видел что бы писали и про Exl2.
Ну короче отпишу сам- ебучая Dracones/Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw сломана нахуй.
Не качайте.

Аноним 20/05/24 Пнд 17:11:47 № 748927 340

>>748850
Лучше скачай именно лаунчер Таверны.
Через него все это ставить намного проще.
К тому же ручками если ставить могут быть с выкачкой зависимостей для Xtts2.

Аноним 20/05/24 Пнд 17:15:04 № 748929 341

Я тут обработал текст об обновлении таверны(https://www.reddit.com/r/SillyTavernAI/comments/1cvp5mm/sillytavern_1120/) при помощи xttsv2. Использовал свой голос как спикера, так как юзал микро телефона, было много шумов полностью убрать с помощью Адобэ Аудишен не смог. Так что звук с помехами, но получилось очень неплохо, как по мне. Какой формат записи можно погрузить на двач(wav, mp3..)?

Аноним 20/05/24 Пнд 17:16:58 № 748930 342

>>746758
Большинство рп файнтюнов больше 7б будут лучше
>>748318
Когда топишь за мусор на мертворожденной архитектуре - старайся быть потоньше, иначе совсем смешно становится.
>>748758
В две не влезет.
>>748772
В каком кванте катаешь?

Аноним 20/05/24 Пнд 17:19:04 № 748931 343

>>748929
https://vocaroo.com/upload
Двач не поддерживает аудио. На vocaroo залей и ссылку кинь.

Аноним 20/05/24 Пнд 17:33:59 № 748943 344

>>748927
>Лучше скачай именно лаунчер Таверны.
А хороший совет кстати. Так и сделаю.

Аноним 20/05/24 Пнд 17:35:58 № 748948 345

>>748930
>В каком кванте катаешь?
70В - 6bpw,
105-110 - 4 bpw,
все остальное, что меньше - 8bpw, хотел llama 3 8B в трансформер варианте скачать, но увы, доступ не дали.
>>748931
https://voca.ro/1dLQP9IaEWpD

Аноним 20/05/24 Пнд 17:42:51 № 748956 346

Что-то попробовал мигрировать, а он подвис. И уже минут 7 просто мигрирует. Это норма? Ботов много конечно.

Аноним 20/05/24 Пнд 17:56:44 № 748963 347

>>748943
>лаунчер Таверны
Непонятная штука. Таверну поставил он мне, поставил xtts (хз куда), сам его не запускает, как именно его запустить - непонятно. Что так криво-то всё?

Аноним 20/05/24 Пнд 18:04:19 № 748976 348

>>748948
Если использовать голос без помех(а не как у меня), как в примерах xtts, то поучается очень годно.

Аноним 20/05/24 Пнд 18:11:05 № 748992 349

>>748948
>хотел llama 3 8B в трансформер варианте скачать, но увы, доступ не дали
У лунастрайкера есть копия.

Аноним 20/05/24 Пнд 18:11:45 № 748994 350

>>748963
Ты там сначала запускаешь Таверну, потом экстрас, потом хттс.
В таверне подключаешь экстрас и уже потом лезишь в ХТТС и врубаешь его.
Придется поебаться.

Аноним 20/05/24 Пнд 18:12:45 № 748996 351

>>748992
Я смотрел его репо, и ничерта не нашел, можешь ссылку кинуть?

Аноним 20/05/24 Пнд 18:23:54 № 749025 352

https://www.reddit.com/r/LocalLLaMA/comments/1cwa3jl/misguided_attention_challenging_the_reasoning/
задачкошизы я вам покушать принес

Аноним 20/05/24 Пнд 18:28:50 № 749041 353

>>748996
А, я спиздел, это был другой чел
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct

Аноним 20/05/24 Пнд 20:09:46 № 749277 354

>>748828
Я уже три раз в тредах писал про силеро, что это говно по сравнению с alltalk - говно в смысле намеренной сложности инсталляции, и говно в смысле богатства выбора голоса. Лучше с силеро даже не начинать связываться - потом все равно пылиться без дела. Alltalk ставится в полтора-два клика, и не нужно экстрас, кстати.

Аноним 20/05/24 Пнд 20:11:42 № 749282 355

>>749277
>Alltalk ставится в полтора-два клика, и не нужно экстрас, кстати.
А чуть конкретнее про процесс установки и где брать?

Аноним 20/05/24 Пнд 20:15:49 № 749292 356

>>749282
Брать тут https://github.com/erew123/alltalk_tts/#-quick-setup-text-generation-webui--standalone-installation
Как там и написано в QUICK SETUP - Standalone Installation, надо всего лишь сделать git clone https://github.com/erew123/alltalk_tts , и дальше по пунктам. Затем запускашь сервер и в таверне в TTS выбираешь alltalk.

Аноним 20/05/24 Пнд 20:27:45 № 749313 357

>>749292
Спасибо, попробую.

Аноним 20/05/24 Пнд 20:28:22 № 749315 358

>>748948
> но увы, доступ не дали.
Зеркал полно, у ноуса например https://huggingface.co/NousResearch/Meta-Llama-3-8B
>>748956
Прерви и опять запусти. Откатись обратно на бекап если что-то пойдет не так, ты же его сделал?

Аноним 20/05/24 Пнд 20:39:23 № 749339 359

>>749315
> ты же его сделал?
Люди делятся на 2 типа, на тех кто делает бекапы и на тех кто теперь то их делает, лел

Аноним 20/05/24 Пнд 20:43:12 № 749349 360

>>749315
> ты же его сделал?
>>749339
Он не ковырял старую папку. Поэтому я просто удалил ботов вообще и он, сука, скипнул импорт вообще. И я думал все проебалось. Пришлось все закидывать по старинке из папки public в Data.И все заработало.

Аноним 20/05/24 Пнд 20:44:48 № 749353 361

>>749349
А ты как думал? Копировать файлы из папки в папку это тебе не хухры мухры, тут супер компьютер нужен.
Какая же таверна кривая

Аноним 20/05/24 Пнд 21:52:17 № 749465 362

Наткнулся на критическое узкое место 8b моделей - приниципиально не хотять отказываться от описаний того, как персонаж улыбнулся, почесал в голове, сверкнул глазами, при том что персонаж в непрозрачном шлеме и в карточке прописано описывать мимику как "судя по голосу, персонаж улыбнулся".
По этому поводу решил-таки закинуть пару долларов на опенрутер и попробовать лучшие модели, и тут выясняется, что он не принимает биткоин.

Аноним 20/05/24 Пнд 23:12:29 № 749600 363

8b модель на 8гиговой видимокарте запустится? До этого на оперативке все гонял, но сейчас видюху заимел. Возник ламерский вопрос: лама3 не запустится вообще или все же запустится со скрипом? Карта rx7600.

Аноним 20/05/24 Пнд 23:17:49 № 749608 364

>>749600
У меня на 3060ti 8б и 11б без проблем в 4 кванте работают. Больше не пробовал

Аноним 20/05/24 Пнд 23:30:48 № 749625 365

>>748704
>блядский RAG в таверне 1.12
собственно самое точное описание этой функции, ибо результата теста можно ждать день, неделю, месяц, кто знает сколько. Словом даже одну ничтожную 2мб книжку в пдф эта ебанина так и не смогла заэмбедить за 30 - ТРИДЦАТЬ карл! минут. Дальше ждать нахуй нужно. Думал тут побогаче будет отвечать ведь выбор моделей, настройки семперов, те же карточки - ну хули нет. Чат ртх от куртки в триллион раз быстрее обработает все книги мира чем это уебанское изделие одну книжонку. Кстати как я понял уебище эмбедит на процессоре, так как карта простаивает - ну что тут даже нечего сказать и так все ясно. использует эту модель еще и квантованную: Cohee/jina-embeddings-v2-base-en

Аноним 20/05/24 Пнд 23:37:42 № 749634 366

>>749608
Спасибо.

Аноним 20/05/24 Пнд 23:37:56 № 749635 367

image.png 134Кб, 947x190

миня обижают

Аноним 20/05/24 Пнд 23:51:27 № 749657 368

>>749465
Походу проблема глобальная. Сейчас попробовал через прокси из кум треда gpt4o и он тоже пишет "бросил заинтересованный взгляд". А клод опус написал "похотливый взгляд".

Аноним 20/05/24 Пнд 23:55:58 № 749661 369

>>749657
По-видимому дело все таки в карточке. Нейросеть слишком вживается в роль, так что персонаж становится протагонистом, от лица которого ведется повествование. Тем более, что в систем промпте сказано быть опытным писателем. В романе это было бы логично, когда писатель пишет о протагонисте, что он улыбнулся, хотя другие персонажи этого не могут видеть.

Аноним 21/05/24 Втр 00:40:23 № 749683 370

>>749661
Да не, это просто "Agi и прочее", про что вещают апологеты, на самом деле тупая текстовая модель, даже в варианте gpt4o

Аноним 21/05/24 Втр 01:00:07 № 749691 371

Здравствуйте, аноны, не понимаю как запустить GPTQ модель. Написано, что через некий kobold united можно, но гуглинг и ссылки ведут на обычную кобольдовскую репу.
Я быть может что-то не так делаю, окно у меня стандартное выглядит вот так.
Ну и я в целом новенький в llm движухе.
В faq ничего про запуск этих моделей не сказано.
Модель взял у TheBlake'а, скачалась она в формате .safetensors

Аноним 21/05/24 Втр 01:07:56 № 749693 372

>>749691
>GPTQ модель
На сколько я знаю на кобальде не запустить никак, там под копотом llama.cpp а это все ггуф
Ну и вообще он устарел, лучше его апгрейженную версию запускай, exl2 кванты
Они тоже для видеокарт и быстрые

Аноним 21/05/24 Втр 01:18:56 № 749698 373

https://www.reddit.com/r/LocalLLaMA/comments/1cwpzio/lmsys_chatbot_arena_now_has_hardprompts_category/
любопытно

Аноним 21/05/24 Втр 01:22:34 № 749702 374

>>749691
Сказано, смотри внимательно.
Кобольд только для gguf, чтобы пускать все форматы нужно ставить text generation webui. Учти что почти все из них предусматривают работу только на видеокарте, это быстрее но нужно иметь врам.
Также качать gptq отдельным файлом нельзя, нужна вся папка. Загрузить можно прямо там же в webui, через hfhub, через git lfs и т.д.

Аноним 21/05/24 Втр 01:50:20 № 749708 375

>>749600
Пробуй через угабугу, просто выбери при установке что у тебя карта амд, а вот как у них по поддержке лоадеров хз, с llama.cpp наверное можно выгрузить слои
>>749691
https://github.com/oobabooga/text-generation-webui выбираешь exllamav2 в лоадере, либо можно просто трансформерами, но они без фич и их можно рассматривать скорее для полновесных моделей, есть ещё устаревший autogpt, он вообще нинужон, как и awq
Угабуга наконец то завёз последнюю версию с фиксами жоры кстати

Аноним 21/05/24 Втр 06:48:16 № 749842 376

Кто-нибудь пробовал использовать локальный переводчик для общения с LLM? Пока самый лучший, который смог найти это t5_translate_en_ru_zh_large_1024 (есть на hugging face) Почему-то больших моделей переводчиков ru <=> en вообще нет, зачем-то делают небольшие да ещё и на 300 языков, которые плохо переводят.

Аноним 21/05/24 Втр 09:38:39 № 749903 377

>>749625
Я только что через экстрасы подрубил, скачал первую попавшуюся книгу и подрубил к RAG, работает заебись, правда моделька у меня сейчас llama 3 8b, кратко описание книжки дала. Попозже проверю "достоверность" на книжках, которые читал и с нормальной моделью под RAG - коммандер.

Аноним 21/05/24 Втр 09:50:44 № 749915 378

>>749842
Думаешь превзойти по качеству гугл?

Аноним 21/05/24 Втр 10:10:32 № 749927 379

>>749903
>Я только что через экстрасы подрубил
Вобще-то там дата банк на выпадающем меню в чате, чего ты там подрубил расскажи подробнее, сделай одолжение, хотя помоему троллишь, а?

Аноним 21/05/24 Втр 10:23:35 № 749937 380

>>749903
>кратко описание книжки дала
это не раг а саммари - две большие разницы, это просто подкинуть книжку в контекст через аттач файл.

Аноним 21/05/24 Втр 10:33:16 № 749949 381

>>749927
Ну я конечно знал, что тут хлебушки в основном, но вот: (https://github.com/SillyTavern/SillyTavern-Extras), тут подрубаешь эмбенденги, и юзаешь.
>>749937
Суммарайз я уж как-нибудь отличу от RAGa.

Аноним 21/05/24 Втр 10:36:16 № 749951 382

>>749949
твоя ссылка битая, пиздеть то не мешки ворочать да? толсто.

Аноним 21/05/24 Втр 10:39:48 № 749957 383

>>749951
Ты удалить скобочку блядь не в состоянии в конце ссылки? Пздц, лучше бы вообще не отвечал.

Аноним 21/05/24 Втр 10:49:51 № 749975 384

>>749957
Да уж, сделай одолжение, ссылка какая-то гора хуйни по которой. По факту - срет под себя твоя таверна, раг не работает так как надо, а это значит не работает вообще. Что там у тебя якобы работает - ты же ни слова не описал как именно ты включал. Значит пиздеж. Просто кидаеш в дата банк файлы и он должен эмбедить - поскольку этого не делается значит фуфло. Ну оно и понятено попенсорс - что с него взять кроме анализов. Так что курткиному чату ртх конкурентов как не было и нет.

Аноним 21/05/24 Втр 10:58:42 № 749983 385

>>749915
того, которого я привёл в пример хватает для примерного перевода, но хочется получше

Аноним 21/05/24 Втр 11:21:25 № 750016 386

>>749983
>но хочется получше
подрубай на перевод еще одну сетку с карточкой переводчика, можешь как то автоматизировать если сумеешь

Аноним 21/05/24 Втр 11:24:42 № 750021 387

>>749949
Использовал вот эту книжку: https://fb2.top/krylyya-malygusa-stupeny-chetvertaya-chasty-vtoraya-753377
Сомневаюсь, что она очень популярна + на русском.
Эмбендинги правда процом обрабатываются, но я бы сказал, что было достаточно шустро, проц в 100% долбился.

Аноним 21/05/24 Втр 11:31:33 № 750033 388

>>748318
Кстати, Кранчи не обновляли? Та самая олдовая ггуф от лоунстрайкера так и живет?

>>748472
ллм+
ттс +
воис клонинг +
можно ттс + воис клонинг сразу
тти +
ттв — НУ ТАКО-О-О-ОЕ…
трансов осуждаю
аи аватарс — шо?
Да, есть локально, можно.

Для ллм хватит 11-12 гигов для лламы-8.
Для ттс + воис клонинг надо 4,5 гига для xttsv2
Для тти надо от 4,5 гигов до дохуя если ты заебываешься с контролнетами.
Для ттв надо уже много, если анимейтдифф на базе сд — то гигов 8-10-12.
Для какого-нибудь wav2lip я хз, не пробовал.

Но в общем, можно засунуть даже в одну теслу или 3090/4090. Впритык.
Ты забыл еще распознавания звука, чтобы слать голосовухи тг-вайфу (3,5 для фастер-виспер - медиум или лардж, не помню), и распознавания изображений, чтобы слать дикпики тг-вайфу (2-3 гига для всяких клипов-блипов). Тут уже пригодилось бы гигов 30-36, конечно.
Короче, 3060+3090 вполне могут порешать твои проблемы, кмк. =)

>>748475
Ой, точно, забыл! Ну еще 8-12 гигов навалим. Две 3090 порешают.

>>748620
Да ниче, с такой скоростью норм.
А что?

>>748787
равноскобка

>>748810
Как и раньше — рандомно. =) Но xttsv2 умеет воис клонить немного и относительно быстр на видяхе. Так что попробовать стоит.

>>748828
Силеро не самая удачная, а самая быстрая, так-то Coqui лучше.
Ну и Силеру не дали свои модели делать по итогу, печаль. =(
Если бы не воис клонинг, то Силера была в приоритете для многих. А так, выбирай: Ксения или Ксения.

>>748874
Ну это же все по сути вкусовщина и по надобности. Кому быстро и пофиг на голос — тот Силеро. Кому хочется голос и качественнее — тому Кокуй.
Так-то обе хороши, лучше стареньких Акапелло, ИМХО. Екатерина, Милена, помните таких? :)

>>748924
Писали, что надо менять три файлика, там не тот указан токен для окончания фразы.
Вот и все.

>>748929
Я для примера Мутного Мрака кидал, кек.

Ваще можно скинуть видос без изображения.

>>749277
А что за олтолк? Впервые слышу. Мусор от создателей оллама? =D Простите.
Но если серьезно, че там по скорости (мгновенная, как у силеры, или 2 секунды, как у кокуя?) и по воис клонингу?

>>749600
Разымей обратно.
> rx7600
Ты на приколе в этом треде, я смотрю.
Да, если в малом кванте и тупая. Нет, если в q8.

>>749625
> эмбедит на процессоре
Гении.

>>749842
В чем? В силлитаверну я добавлял либретранслейт, но он говно по мнению почти всех.
А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы.
Ты как именно пробовал, расскажи детали, интересно же.

>>749975
Смешной чел, покормите его еще немножк.

Аноним 21/05/24 Втр 11:39:34 № 750045 389

Нихуя не понимаю. Что мне скачать для своей 3060?

Аноним 21/05/24 Втр 11:43:11 № 750049 390

>>749975
Выглядит примерно как
> это не я глупая иллюстрация скиллишью, это вы меня ссылками битыми троллите! А раз у меня не получается значит все это плохое!
Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема.
>>750045
Если 12 то что угодно подойдет, обычно выше q6K смысла нет.

Аноним 21/05/24 Втр 11:46:52 № 750050 391

>>750033
>А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы.
Хотелось бы что бы был, но нету на сколько я знаю
Да и вообще параллельное хранение хотя бы двух кв кешей что бы переключаться между карточками без обработки каждый раз контекста вроде нигде нету

Аноним 21/05/24 Втр 11:53:48 № 750053 392

>>749842
Если используется относительно современная ллм - можешь делать перевод через нее же отдельным запросом. Вроде даже экстрас к таверне такой делали.
>>750050
> но нету на сколько я знаю
Тогда напиши простой эмулятор апи той же либры или чего угодно, который будет оформлять приходящий текст в промт и делать запрос к ллм.
> хранение хотя бы двух кв кешей
Тут увы, если катаешь не полностью на гпу то будет больно.

Аноним 21/05/24 Втр 12:15:27 № 750077 393

>>750045
НЕ ДЕЛЬФИНА БЛЯДЬ ОН ТУПОЙ ШОПИЗДЕЦ БЕГИ НАХУЙ

Q8, а лучше сразу EXL2 8bpw искать.

Качай это https://huggingface.co/BahamutRU/suzume-llama-3-8B-multilingual-8.0bpw-h8-exl2 и убабугу.

Аноним 21/05/24 Втр 12:20:39 № 750083 394

>>750021
> Эмбендинги правда процом обрабатываются
Уточню, что если флаг --cuda прописать, то будет юзаться видюха, у меня она просто забита виспером и ттс.

Аноним 21/05/24 Втр 12:43:26 № 750123 395

>>750049
>Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема
Вот тут ты не прав. В этом треде хуй какую пользу получишь, тут кроме эпитетов хлебушек и подобным вместо полезной информации не будет ничего. Причем, будешь обвинен сам же, что не так обратился. Одним словом, тред, полный инфантилов, у которых всегда кто-то хуевый и виноват, но не они сами. Причем, на конкретные вопросы будет максимально расплывчатый ответ, типа - "это же очевидно", "решим в уме", что есть не что иное, как прикрытие дилетантства и не более того. Вот такие пироги, мил человек. Шо касается глюпой таверны, она не может на равных конкурировать с чат ртх, в ней раг просто баловство, так, брелок какой-то, прицепленный к чату.

Аноним 21/05/24 Втр 13:18:58 № 750152 396

>>750077
Чё какая маленькая? Есть то же, но 70б параметров?

Аноним 21/05/24 Втр 13:28:46 № 750166 397

>>750123
Ему ответили - он обосрался, потом еще раз - и опять обосрался. Бля, ну тогда спрашивай и уточняй что мне как дебилу объясните, тогда тебе все какой нибудь добренький анон разжует
Все тут можно обсудить и новичкам обычно помогают

Аноним 21/05/24 Втр 13:34:59 № 750174 398

https://3dnews.ru/1105129/asml-podtverdila-chto-moget-vivesti-iz-stroya-svoyo-oborudovanie-na-tayvane-v-sluchae-zahvata-ostrova
Сука, просто представьте какой властью над жопой всех производителей обладают монополисты в самой современной литографии
Это же просто пиздец, мало того что это одна конторка на весь мир, так они еще и большую часть своих усилий направляют на сохранение своих секретов для того что бы и дальше оставаться монополистами и тормозить сука технологический прогресс
В итоге цены на чипы просто ебанутые, а там и вся электроника подтягивается и ваши а100 в кармане аноны

Аноним 21/05/24 Втр 13:37:15 № 750181 399

>>750152
На скрине 8б, вот и скинул 8б.
В 12 гигов 70б влезет так страшно, что лучше не сувать. =)

Аноним 21/05/24 Втр 13:42:13 № 750189 400

https://www.reddit.com/r/LocalLLaMA/comments/1cwhviq/thudmcogvlm2llama3chat19b_hugging_face/
Новая cogvlm на базе llama3, ггуфа конечно нема, жора не допилил поддержку

Аноним 21/05/24 Втр 13:47:07 № 750201 401

Так, xtts я поставил (через AllTalk), всё работает, жрёт врам конечно, но ничего. Теперь интересует войс клонинг для него, о котором тут много говорят, как о самом обычном деле. Как сделать и куда вставить потом? А то голосов много симпатичных в разных роликах есть.

Аноним 21/05/24 Втр 13:47:16 № 750203 402

>>750174
А что не так? Типикал поведение корпорации. Да и для самого Тайваня это правильная стратегия, если бы не это, его бы давно открымировали, и чипы стоили бы ещё дороже (если Китай вообще их экспортировал бы во всякие там России).

Аноним 21/05/24 Втр 13:53:34 № 750221 403

>>750203
Ога, а если бы знания о том как делать такую литографию не были такими секретными то у нас не было бы таких проблем с чипами. И все были бы в плюсе кроме контрки пидарасов из asml
Китай живет экспортом, и многая электроника производится у них внутри, просто им не хватает этого даже на свои внутренние нужды, так как внезапно, у них нет станков для ее создания.
Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии

Аноним 21/05/24 Втр 13:58:46 № 750231 404

>>750221
>знания о том как делать такую литографию не были такими секретными
Чёт вангую, что там больше отдельных тонкостей и опыта спецов. Не нужно ничего особо прятать в такой сложной области, китайца можно хоть в зал пустить, он нихуя не сможет повторить.
>Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии
Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит.

Аноним 21/05/24 Втр 14:38:23 № 750303 405

>>750021
В общем попробовал с коммандером 105 4bpw, заебись отработал на русском. Ллама 3 8B просто сосет в этом. Разработчики таверны красавчики, можно официально заявить, что RAG работает.

Аноним 21/05/24 Втр 14:52:25 № 750327 406

>>750201
Судя по всему, в папку voices нужно закинуть 9~12-секундную запись с голосом и все.

Аноним 21/05/24 Втр 15:04:26 № 750339 407

>>750166
Ну вот очередной пример из оскорблений. А чего ещё ожидать. Это инфантилы так самоутверждаются.

Аноним 21/05/24 Втр 15:16:23 № 750348 408

>>750016
>>750033
>>750053

Можно использовать LLM для перевода, но слишком затратно, t5_translate_en_ru_zh_large_1024 имеет 851M параметров и отлично работает на процессоре, при том, что я вообще не использую 4/6 всей модели ( zh>en, zh>ru, en>zh, ru>zh )

про LibreTranslate ранее не слышал, сейчас попробовал и t5_translate_en_ru_zh_large_1024 явно лучше переводит.

сейчас система перевода у меня устроена так:
локальный "сервер" на питоне подгружает переводчик, далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу отправляет запрос к локальному серверу переводчика здесь текст нарезают на предложения, слова в кавычках и тд, всё это переводится отдельно и получает ответ.

Учитывая, что большая часть модели переводчика вообще не используется, то можно предположить, что создание еще более качественного переводчика в пределах 1b параметров очень даже возможно (перевод только en>ru и ru>en, а лучше вообще 2 отдельными моделями как у Helsinki-NLP), вот только опять же почему-то никто это не реализует, либо я плохо ищу.

Аноним 21/05/24 Втр 15:35:12 № 750358 409

>>750303
Ты точно сам понимаешь, что тестировал? Эмбединги из экстрас - это то же самое встроенное векторное хранилище, только с выбором модели, и туда подаётся вот эта модель по дефолту ( https://huggingface.co/sentence-transformers/all-mpnet-base-v2 ). Можно взять другую этого же класса. Она подсовывает тебе в контекст "актуальную" информацию, а дальше уже абсолютно пофиг, какая модель этот контекст прочтёт. Разве не так? Что тогда значит, "коммандер отработал", если он, блин, просто прочитал тот же самый контекст, что и лама бы прочитала. Ну т.е., конечно, 105б поймёт любой контекст лучше 8б, но всё упирается не столько в то, какая модель сгенерит ответ, сколько в то, загрузятся ли в контекст актуальные куски текста или кривой кал, портящий диалог. И последнее нужно смотреть в консоли.
Собственно, векторное хранилище было в таверне давным давно, просто в новой версии таверны сделали более гибкий выбор того, что хочешь подгрузить, и назвали это поддержкой RAG.

Аноним 21/05/24 Втр 15:40:26 № 750365 410

>>750358
И что же тогда такое RAG, если не поиск данных в векторном хранилище и передача этого llm, чтобы она обработала и дала ответ на твой запрос? Судя по документации, это оно и есть. https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/

Аноним 21/05/24 Втр 15:41:45 № 750368 411

>>750348
>далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу
Зочем? Как и предложил анон выше, да и я об этом думал, не проще уже готовой кнопкой перевода делать?
Просто выбрать в переводах libre и подделать его апи своим сервером
Я вот щас тоже ебусь с прокси сервером для вызова функций из таверны, ебал я в рот этот стрим поток

Аноним 21/05/24 Втр 15:47:34 № 750378 412

>>750231
>Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит.
А ты опять доводишь любую идею до абсурда и тут же ее побеждаешь?
Я понял тебя дурачек

>>750339
Ты просто снежинка, нарасти кожу потолще

>>750327
Я xtts2 ставил и даже кидал запись, но как то хуевенько голос подделало.
Не знаю даже где норм голоса искать и в каком качестве пихать

Аноним 21/05/24 Втр 15:49:53 № 750381 413

>>750368
мне проще было добавить 2 кнопки, но это совсем не проблема, при желании хоть вебсокет сделаю чтоб все плавно переводилось по мере генерации предложения, проблема сейчас для меня это модель переводчика, думаю уже самому начать обучать ибо ничего за пол года толкового не вышло

Аноним 21/05/24 Втр 15:57:23 № 750393 414

>>750381
Если не секрет как t5_translate_en_ru_zh_large_1024 заводишь? Как в примере у них через трансформерс в полном размере?
Я думал еще и запускать это в хотя бы 8 бит, есть такая функция? Ниже наверное не стоит, сетка и так мелкая, там уже падение качества будет заметным.

Обучение даже 1b это жопа, сколько там парень тренил свою сетку на 1.1b? Месяца 3 вроде, точно не помню. Датасеты нужны, нужно уметь тренить и железо опять же.
Проще подождать, я думаю сетки переводчики еще будут получше и поменьше

Аноним 21/05/24 Втр 15:58:16 № 750394 415

>>750378
>А ты опять доводишь любую идею до абсурда и тут же ее побеждаешь?
Я? Тут без меня намного больше таких "доводчиков".

Аноним 21/05/24 Втр 16:01:33 № 750398 416

>>750303
Так то и у меня работает, одну мелкую книжку до мб зажует уж за пару минут хуй с ним на процессоре. Но это не то, что должен делать раг. Попробуй подать 500 пдфок суммарно на гигабайт и посмотри справится или нет? И потом чтоб выдавало информацию из этих книг, вот для чего раг. И кстати, не факт, что твой эксперимент с этой книгой чистый. Может она была в датасете и выдает тебе теперь саммари не из эмбедингов, а сама сетка. Тестировать надо на том, что заведомо не могло быть в датасете, ну или хотя бы маловероятно.

Аноним 21/05/24 Втр 16:04:00 № 750402 417

>>750365
Да, всё так, ты прав. Я к тому, что работа этого RAG в таверне (которое как бы было начиная с хромы, но никто его так не называл) будет зависеть, во-первых, от модели sentence-transformers, а во-вторых, от того, как добытая этой моделью информация добавляется в промпт. И касательно последнего пункта, очень сильно подозреваю, что в реализации в таверне векторного хранилища ничего толком не поменялось в новой версии. Это и нужно бы проверять, по-хорошему. А не то, какая ллм поймёт ту шнягу, что накидали в промпт эмбединги.
Вот, например, у этого чела >>749625 могла быть реально очень медленная обработка, потому что там без экстрас и апишек какая-то дефолтная внутренняя модель, адаптированная под джаваскрипт. Я когда для рп юзал, она и чат в 6к токенов пару минут обрабатывала, пердела. И то, что они с хромой (которую чекал когда-то раньше) добавляли в контекст, было полнейшей бредосиной не на своём месте. Если реализация осталась той же, и модель эмбедингов будет говном, то даже огромный командир, читающий результат, не поможет.

Аноним 21/05/24 Втр 16:14:52 № 750408 418

>>750393

Завожу через кривой gpt код

Лучше в полном размере, на самом деле 8 бит даже не видел, да и там не нужно каких-то больших вычислительных мощностей, модель то буквально микроскопическая)

На счет обучения, даже не на 1b, хотя бы 2 модели по 400M, или даже одну с en на ru уже потенциально будет лучше переводить чем t5_translate, уж это то вполне реально осилить, а жду я уже пол года, и ничего прям интересного кроме t5_translate не вижу

код:

from flask import Flask, request, jsonify
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
import re
from flask_cors import CORS
from bs4 import BeautifulSoup
app = Flask(__name__)
CORS(app) # This will enable CORS for all routes
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model_path = r"C:\translator4\filesAI"
tokenizer_path = r"C:\translator4\filesAI"

device = torch.device('cuda' if 0 else 'cpu')
print(f"Используется устройство: {device}")

model = T5ForConditionalGeneration.from_pretrained(model_path, local_files_only=True)
tokenizer = T5Tokenizer.from_pretrained(tokenizer_path, local_files_only=True)

model = model.to(device)

def translate_html(input_str, source_lang):
# Создаем объект BeautifulSoup
soup = BeautifulSoup(input_str, 'html.parser')

# Находим все текстовые узлы
text_nodes = soup.find_all(text=True)

# Переводим текст каждого узла
for text_node in text_nodes:
if text_node.strip(): # Проверяем, что узел не пуст
translated_text = translate_phrase(text_node, source_lang)
text_node.replace_with(translated_text)

# Возвращаем обновленный HTML
return str(soup)

def translate_phrase(phrase, source_lang):
print(f"Выполнение задачи: Перевод с '{source_lang}'")
if source_lang == 'en':
prefix = 'translate to ru: '
elif source_lang == 'ru':
prefix = 'translate to en: '
else:
return "Unsupported language"

src_text = prefix + phrase

input_ids = tokenizer(src_text, return_tensors="pt").input_ids.to(device)

generated_tokens = model.generate(input_ids, num_beams=4, max_length=500, early_stopping=True)

result = tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
print(f"Получен перевод")
return result

@app.route('/translate', methods=['POST'])
def translate():
data = request.get_json()
source_lang = data.get('source_lang')
phrase = data.get('phrase')
translation = translate_html(phrase, source_lang)
return jsonify({'translation': translation})

if __name__ == "__main__":
app.run(host='0.0.0.0', port=4999)

Аноним 21/05/24 Втр 16:15:51 № 750409 419

>>750402
Ну твое сомнение только в выборе модели для эмбендинга, не более, в текущей реализации она неплохо отрабатывает, мб не распознает редкие токены, но в текущих реалиях, для локалок, это лучшее из того, что есть. А в таверне, да, векторное хранилище было, но сейчас оно чертовски близко к RAG коммерческих моделей по реализации(глянь как к GPT подгружают внешние данные), можно подгрузить любую текстовую инфу, нужную тебе для работы, RP/ERP у себя дома. (конечно в коммерческих поинтереснее - звук, картинки, видео)

Аноним 21/05/24 Втр 16:21:57 № 750417 420

>>750408
Сложна, но спасибо за код, будет с чего начать
Я трансформерс как то даже и не трогал не то что торч

Аноним 21/05/24 Втр 16:23:33 № 750420 421

>>750398
Ну так я и выбрал книжку на русском с ебанутым названием и в самом низу поиска. Ну это мой первый тест, на работе еще протестирую с ориджинал данными.
>на процессоре
Так это твои проблемы лоу перформанса, покупай А100/H100/H200, или смирись, что не можешь обработать всю флибусту. Мне для моих задач должно хватить.

Аноним 21/05/24 Втр 16:26:28 № 750423 422

>>750417

нез, и у тебя всегда есть абуз lmsys chat и api.together.ai где можно запрогать через ии почти что угодно

Аноним 21/05/24 Втр 16:33:54 № 750434 423

>>750423
Я пока свои кодерские локалки мучаю, заодно проверяя как они в код могут, ну, кое какая помощь есть по карйней мере они все еще лучше меня, лол

Вот держи прокси сервер на сдачу, тока я его не доделал. Предполагалось ловить запросы функций и выполнять их там.
Отсылая результат обратно сетке что бы она с ним отвечала, но ебусь пока с потоковой передачей, так что стриминг не пашет

import requests
from flask import Flask, request, jsonify
app = Flask(__name__)

# Define the backend API endpoint
backend_url = "http://localhost:5001/"

# Create a proxy endpoint for the frontend
@app.route('/<path:path>', methods=['GET', 'POST'])
def proxy(path):
# Get the requested endpoint from the request
url = backend_url + path
response = requests.request(request.method, url, headers=request.headers, data=request.data)
return jsonify(response.json())

if __name__== '__main__':
print("run")
app.run(debug=True, host='127.0.0.1', port=5010)

Аноним 21/05/24 Втр 16:42:29 № 750452 424

>>750434
Ты хочешь перехватывать ответ кобольда и потом что-то с ним делать?

Аноним 21/05/24 Втр 16:53:49 № 750477 425

>>750452
Ага, как тут
https://huggingface.co/NousResearch/Hermes-2-Theta-Llama-3-8B
Очень интересная возможность вызова инструментов.

Вот только я не хочу ебаться с фронтом и беком, поэтому придумал гениальное решение - тупо вклинится между любым опенаи апи совместимым беком и фронтом, прокси сервером который и будет выполнять перехваченные команды.

Идея неплохая, но я никогда не работал ни с апи ни с фласком и теперь рад что хотя бы вообще как прокси сервер работает.

Вызовы и перехваты функций буду прикручивать уже когда и если победю стриминг который мне 2 вечер мозги ебет.
Не понимаю как эту хуйню перехватывать и потоково отсылать на фронт.
Походу надо генераторы городить на request, сижу тыкаю и доки почитываю

Аноним 21/05/24 Втр 17:36:32 № 750545 426

>>750348
Сделай мердж реквест в таверну, не, ну а чо.
База же, если лучше либры.

>>750358
Полагаю, дело в том, что коммандер, по словам разрабов, тренировали специально для рага.
Сам коммандер тупенький, но хорошо работает именно с поданным ему контекстом. Видимо, тренировка шла на соответствующих датасетах.

Аноним 21/05/24 Втр 18:08:02 № 750593 427

>>750545
Ну тут не особо понятно, я поковырялся побольше с либрой и тут что-то лучше он переводит, что-то t5_translate, нужно проводить более основательные тесты, чтобы сделать адекватный вывод

Аноним 21/05/24 Втр 19:00:33 № 750680 428

подскажите пожалуйста гайд по запуску phi-3 на мобиле

Аноним 21/05/24 Втр 19:12:02 № 750707 429

https://www.reddit.com/r/LocalLLaMA/comments/1cxa6w5/phi3_small_medium_are_now_available_under_the_mit/
Ооо ебать, мозговитой сои завезли
Кочайте и проверяйте у кого инет быстрый мне только завтра тыкать получится

Аноним 21/05/24 Втр 19:13:39 № 750710 430

>>750189
Попробовал Moondream — ну, оно и правда работает. Но только на английском и очень строго к промпту относится.
А еще есть режим вебки, правда на моей днище-видяхе не успевает дописать предложение, но в общем — забавно.
Демка, как может работать технология.

>>750707
База, дождались, качаю.

Аноним 21/05/24 Втр 19:14:19 № 750711 431

>>750707
Лол, там и вижн модель закинули.
Ебать их прорвало после GPT-4o.
Три вижн-модели в день!

Аноним 21/05/24 Втр 19:17:07 № 750718 432

>>750707
>Кочайте и проверяйте у кого инет быстрый
Ух, свежие квантики, аж в руках тепло держать временно, говно остынет и станет противно.
>>750711
А третья? В любом случае, доработка к лламе это костыль, а значит говно. Про фи ХЗ, кто знает, там что делали?

Аноним 21/05/24 Втр 19:23:23 № 750723 433

Ебать там оценки они накрутили, 14b версия на ровне с комманд р 104b идет

Аноним 21/05/24 Втр 19:26:30 № 750724 434

изображение.png 18Кб, 1716x167

>>750718
>Ух, свежие квантики
Ожидаемо донт воркают на последнем кобольде и ллама.цп.
>>750723
Какие именно? Часть метрик напрямую соевые, а фи соевая донельзя.

Аноним 21/05/24 Втр 19:31:58 № 750729 435

>>750724
>Какие именно?
Соевая конечно, это было сразу понятно
https://huggingface.co/microsoft/Phi-3-medium-4k-instruct

Аноним 21/05/24 Втр 19:33:24 № 750730 436

>>750729
хуя их шакал покусал конечно, браузер конечно "интересно" принтскринит

Аноним 21/05/24 Втр 19:54:45 № 750747 437

>>750680
https://github.com/Mobile-Artificial-Intelligence/maid/releases/tag/1.2.7

отсюда качай под свой процессор, в том числе теперь поддерживаются арм7 а не только 8

затем качай gguf модель phi-3
кидай в телефон куда угодно
запускай, на вкладке модель сеттинг загружай кнопкой, жди, как появится надпись загружено, иди в чат и пиши, если модель ответила значит работает.

Вот видишь, а спесивые ебланы из треда не захотели снизойти до ответа тебе, такой же хлебушек тебе отвечает

Аноним 21/05/24 Втр 19:58:16 № 750750 438

>>750718
> В любом случае, доработка к лламе это костыль, а значит говно.
Ког в старые времена разорвал, и щас может оказаться лучшим (просто при сравнении 4b против 19b, конечно… =).
Ну да ладно, че щас сходу судить. Разбираться надо.

Аноним 21/05/24 Втр 20:01:17 № 750753 439

>>745204
Из 8B попробуй эти файнтюны:

https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
https://huggingface.co/NeverSleep/Llama-3-Lumimaid-8B-v0.1-GGUF
https://huggingface.co/Undi95/Llama-3-Unholy-8B-GGUF
https://huggingface.co/mradermacher/Llama-3-8B-Irene-v0.2-GGUF

Аноним 21/05/24 Втр 20:12:04 № 750763 440

https://github.com/ggerganov/llama.cpp/issues/7439
тема новых phi3

Аноним 21/05/24 Втр 20:24:19 № 750784 441

Анон, который старается отвечать всем- спасибо, добра.

Аноним 21/05/24 Втр 20:55:27 № 750845 442

изображение.png 39Кб, 1318x266

>>750763
Я знал, что зря качаю.

Аноним 21/05/24 Втр 20:59:52 № 750858 443

>>750707
Блять, ультра пушка. Наконец-то настоящий локальный паверкрип 3.5, потому что остальные не могли в русский нормально, так еще и вижн модель есть

Аноним 21/05/24 Втр 21:02:10 № 750862 444

>>750858
>потому что остальные не могли в русский нормально
Выход командира как я понимаю ты пропустил?

Аноним 21/05/24 Втр 21:06:15 № 750868 445

>>750862
Большая слишком и для локалки модет и умная, но в целом порой кринж выдает не для своего размера

Аноним 21/05/24 Втр 21:15:04 № 750884 446

>>750707
Что такое, чем знаменита.
С какого веса стоит переходить?
С 70Б потягается?

Аноним 21/05/24 Втр 21:23:40 № 750896 447

>>750123
Платиновое бинго - практиковать то в чем всех обвиняешь. Причем мотивы вполне очевидны.
>>750339
Если хочешь от кого-то кто тебе ничем не обязан что-то получить - стоит научиться вежливости. Если не понимаешь что тебе отвечают - честно признайся, нет ничего зазорного.
А когда чсвшный варебух требует ему что-то сделать, а на ответы агрится и начинает спорить - кроме хуев за щеку он ничего не получит. Только и придется что потом придумывать оправдания какой ты Д'артаньян а к тебе несправедливо плохо отнеслись. Или бывает вообще терминальная фаза, когда какие-то шизы приходят проповедовать то что им понравилось, тут вообще мрак.
>>750348
> но слишком затратно
Все зависит от твоего железа. Если время ожидание невелико и нет проблемы с долгой обработки контекста - его удвоение не станет страшным.
Разумеется вариант с мелкой моделью более предпочтителен и он правильный, но, как правило, они слишком глупы.
> далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу
Почему не захотел воспользоваться стандартным функционалом переводчиков, натравив на свой локальный сервер? Если там полезный функционал то действительно это стоит добавить в основную.
Покажи примеров как переводит, интересно.
> почему-то никто это не реализует
Как правильно все упирается в то, что те кто может реализовать - знают инглиш.
>>750378
> xtts2
Раз уж зашел разговор, не пробовал обучить/настроить несколько вариантов с разной интонацией и манерой речи, а потом переключать их для подобной колхозной передачи эмоций? Настроить буфер чтобы не было паузы при склейке, приказать ллм делать доп разметку или анализировать текст для расстановки, и подобную систему крутить?

Аноним 21/05/24 Втр 21:27:59 № 750902 448

>>750189
> Новая cogvlm на базе llama3
https://www.youtube.com/watch?v=lut2_mGAavA
К прошлой версии прикладывали примерные ресурсы для ее файнтюна, а сейчас, кажется, убрали, сколько там нужно?
>>750710
> Moondream
Это ведь малютка 3б. Но она неплоха для некоторых задач.

Аноним 21/05/24 Втр 21:32:53 № 750915 449

>>750784
Да тут не один такой, на самом деле. =) Вообще, добрый тред.
Как правило, если не отвечают — то просто не знают, и лень разбираться.

>>750884
ИМХО — нет. Конечно, кванты там щас поломанные все, как я понимаю, но как мне показалось, 70B все же лучше. И Мику, и Ллама-3.
Плюс, все же там может быть много сои. Это я еще не пробовал.

Аноним 21/05/24 Втр 21:37:47 № 750926 450

>>750868
>Большая слишком
Есть такое, 104B же. Но с другой стороны и качественная. Кринжа не заметил, но я не занимают извращениями типа РП на русском.
>>750915
>70B все же лучше
Однозначно лучше, даже по скорам. И вообще, коупить про 14B, которая с 5T токенов обучения выебет 70B с 15, ну это такое себе.
И да, соя и тотальная фильтрация датасета у майков сделала своё, по крайней мере мини версия вообще не прошибаемо тупа в некоторых вопросах.

Аноним 21/05/24 Втр 21:39:10 № 750930 451

>>750896
>Раз уж зашел разговор, не пробовал обучить/настроить несколько вариантов с разной интонацией и манерой речи, а потом переключать их для подобной колхозной передачи эмоций? Настроить буфер чтобы не было паузы при склейке, приказать ллм делать доп разметку или анализировать текст для расстановки, и подобную систему крутить?

Я пытался ассистента ии из старкрафта 2 кинуть голос, но подражало слабовато и я забил на ттс
Может позже еще поковыряюсь, так то все готовое к запуску лежит, надо только файлики голосовые достать получше, мб так заработает

Аноним 21/05/24 Втр 21:48:56 № 750941 452

>>750926
> мини версия вообще не прошибаемо тупа в некоторых вопросах.
Ну а хуле ты хотел от 3b? Я в шоке что оно хотя бы так работает. Это чисто топовая оффлайн отвечалка на вопросы на мобиле

Аноним 21/05/24 Втр 21:50:43 № 750945 453

>>750941
>Ну а хуле ты хотел от 3b?
Так проблема не из-за размера, а из-за сои. Понятное дело, что она в общем и целом не светочь разума, но просто с учётом других её возможностей она должна хоть что-то уметь в РП. А там хуй, всё соя портит.

Аноним 21/05/24 Втр 21:56:45 № 750952 454

Короче тыкните в меня пальцем как ггуф новых пхи починят, пожалуйста

Аноним 21/05/24 Втр 22:02:56 № 750957 455

>>750952
>ждать починки ггуфа
Бессмертный что ли?

Аноним 21/05/24 Втр 22:04:47 № 750959 456

>>750952
Можешь через неделю приходить. Там PR поддержки Phi сломан, другие модели ломает. Сейчас надо засекать как скоро чуханы поймут что там что-то не так, тестить код же слишком сложно.

Аноним 22/05/24 Срд 00:20:42 № 751108 457

https://huggingface.co/bartowski/Phi-3-medium-4k-instruct-GGUF
Пишут что работает. Чекните, я без доступа к пк щас

Аноним 22/05/24 Срд 00:35:04 № 751115 458

>>751108
Запускается и даже что-то выдаёт.
Как же неудобно, что ллама ЦП сервер выдаёт название модели вместе с путём на диске.

Аноним 22/05/24 Срд 00:36:35 № 751116 459

>>751115
Попробуй перефразировать задачу чтобы уйти от дефолтных формулировок, а то сейчас многие сетки просто помнят подобное.

Аноним 22/05/24 Срд 00:37:22 № 751117 460

>>751115
Неплохо. Попробуй на русском, судя по мини версии должно отлично понимать, если что-то в ггуфе не поломано

Аноним 22/05/24 Срд 00:43:20 № 751119 461

>>750077
Странно, что они файн-тюнили прям instruct модель.
Обычно же базовую модель тюнят, а потом уже
обучают insruct модель

Аноним 22/05/24 Срд 00:45:37 № 751120 462

изображение.png 111Кб, 1928x606

изображение.png 101Кб, 1901x538

изображение.png 160Кб, 1944x628

>>751116
>Попробуй перефразировать задачу
Мой английский ис а бэд, сори.
На всякий случай проверил с другим объектом, его вычитает корректно.
А вот то, что я с каждой сплю по два раза, он не учитывает.

Аноним 22/05/24 Срд 00:48:32 № 751121 463

изображение.png 144Кб, 1839x519

>>751120
Ах да, промт формат рандомный, поэтому походу результаты говно (ненавижу ебучие форматы промта. Когда же сделают универсальный промт формат...).

Аноним 22/05/24 Срд 00:52:15 № 751122 464

>>751120
Судя по второй книги заучены, однако может просто не понял. Может заменить "использовал" на "распечатал"?
Бляяя, вот насколько похуй бывает на все эти вещи, но ответа на 3й подгорел.
>>751121
Лол, поломанный гуф?

Аноним 22/05/24 Срд 00:59:40 № 751127 465

изображение.png 185Кб, 1928x729

>>751121
Выбрал системный промт, подходящий для фи. У меня в таверне уже есть один (ХЗ встроенный, или добавленный мною), но там используется <|system|> для системы, хотя на оф странице модели его нету. Короче сделал 2 варианта на систему и на юзера как замену системы.
В итоге SOYA TRIGGERED, ответы по вопросу с презервативами стали хуже, хотя там простая математика, лол. Проверю ка я другие модели, а то может будет новой базой для проверки ИИ моделей.
>>751122
>но ответа на 3й подгорел.
Погори ещё немного ^__^

Аноним 22/05/24 Срд 01:03:05 № 751132 466

>>751127
Ah fock you, soyhead!
Овердоз пиздеца, и ведь эта херня вполне в ходе прикладного применения может вылезти, ебанина подзалупная.

Аноним 22/05/24 Срд 01:06:52 № 751135 467

изображение.png 109Кб, 1879x528

изображение.png 129Кб, 1914x584

изображение.png 104Кб, 1898x528

>>751117
>Попробуй на русском
Иногда обсирается, как в первом варианте (или мне так повезло).
Язык вполне себе без ошибок, слегка суховат и коряв на мой вкус, но читать можно.

Аноним 22/05/24 Срд 01:08:46 № 751136 468

>>751127
Ох бля, они неплохо так постарались, добавили этого говна от души. Делали все что бы отбить желание пользоваться их умными модельками, компенсируя их качество кучами подобного говна.
Сука ну неужели так трудно просто сделать модель без всего этого дерьма?
Обязательно нужно морковку подсунуть под нос что бы повесточку пихнуть, навязывая свое мнение

Аноним 22/05/24 Срд 01:18:43 № 751144 469

изображение.png 167Кб, 1907x653

>>751136
>Сука ну неужели так трудно просто сделать модель без всего этого дерьма?
Держи модель без сои! Я опять забыл сменить промт формат, так что не считается. Как вообще работает регексп?

Аноним 22/05/24 Срд 01:22:59 № 751146 470

>>751144
Я бы от не испорченной предрелизной версии phi3 не отказался, а коммандер слишком жирный

Аноним 22/05/24 Срд 01:25:43 № 751147 471

>>751146
>не испорченной предрелизной версии phi3
Такой в принципе нет. Майкрософт заявляет о сейфити фирст и о том, что они тщательно отбирают книги для датасета и используют кучу сгенерированных данных. Я уверен, что ни один токен с имиджборд эта модель в принципе не видела.
Так что соя там не то что с молоком матери, она в ДНК прописана.

Аноним 22/05/24 Срд 01:27:38 № 751148 472

А почему так повелось, что модели размеров 7b, 14b, 34b, 70b? Как думаете, дальше будут подгонять под размер VRAM ходовых видюх? Или ебитесь с квантами сами?

Аноним 22/05/24 Срд 01:29:20 № 751149 473

>>751147
Да, но я уверен они и дпо поверх проходятся и другими методами выравнивания уже по готовой модели. Так что предрелизная сетка имела меньше сои и меньше выебывалась. Тогда ей еще не натренили хорошо/плохо, и она могла быть хоть и соевой но более нейтральой
А эта хуйня неюзабельна, сука, кусок кода который учит меня как жить, навязывая чужое мнение?
Это кусок говна.

Аноним 22/05/24 Срд 01:32:22 № 751153 474

изображение.png 151Кб, 1919x601

изображение.png 55Кб, 1789x264

>>751144
>Я опять забыл сменить промт формат, так что не считается.
Короче или командир всё же не такой умный, как я думал (ибо выдаёт говно), или вопрос составлен не корректно.
Аноны с уровнем выше ESL, проверьте мой английский и общую постановку вопроса, а то может я последнее серое вещество выкумил, и сам несу бред.
>>751148
>А почему так повелось, что модели размеров 7b, 14b, 34b, 70b?
Да, почему? Есть 8, 30, 65 как минимум. Вообще, размеры любые, так что ебёмся сами, да.
>>751149
>Это кусок говна.
Согласен, с отвращением запускаю.

Аноним 22/05/24 Срд 01:32:28 № 751154 475

>>751148
>А почему так повелось, что модели размеров 7b, 14b, 34b, 70b?
Да думаю тупо удваивали количество тесл для обучения и заявляли: а теперь наша модель будет вдвое больше! Врам пользователя их в принципе не волновал.

Аноним 22/05/24 Срд 01:35:54 № 751155 476

>>751153
>Короче или командир всё же не такой умный, как я думал (ибо выдаёт говно), или вопрос составлен не корректно.
Я не командир, но смысл задачи тоже не понял. Какой ответ-то?

Аноним 22/05/24 Срд 01:39:05 № 751157 477

>>751155
Идеальный ответ от нейросети, который я жду:
Ну смотри. У нас было 12 гандонов. На 2 бабы ты потратил по 2 штуки на каждую, то есть 4. Итого у тебя осталось 8 гандонов, которых хватит на 4 баб по два раза каждую. Ответ: ты можешь привести ещё 4 бабы. Приятного времяпрепровождения!

Аноним 22/05/24 Срд 01:42:23 № 751159 478

>>751157
Не хватает условия "При каждом половом акте обязательно используется один презерватив". Без этого задача неясна.

Аноним 22/05/24 Срд 01:49:31 № 751162 479

>>751136
> Делали все что бы отбить желание пользоваться их умными модельками, компенсируя их качество кучами подобного говна.
Что интересно, мелкую то можно файнтюнить на относительно десктопном железе, вполне себе челленж.
>>751144
Вот, сразу видно хорошую модель.
>>751147
Пиздеть не мешки ворочать, могут тренить просто так, а потом уже поверх проходиться.
>>751153
Модель видит опытного мужика, который экономит и не меняят гандон пока не прижмет. Но в первой он просто затупил, инструкцию ему подробную дать, приказать подумать и т.п., и офк по 1 гандону на раз.

Аноним 22/05/24 Срд 01:56:23 № 751164 480

изображение.png 63Кб, 1820x293

изображение.png 142Кб, 1904x578

>>751159
>При каждом половом акте обязательно используется один презерватив
С одной стороны да, с другой вся суть умной нейросетки в том, чтобы не расписывать ей, что трава зелёная, а небо голубое.
Короче максимально душно расписал условие задачи, и вроде теперь стабильно отвечает а не, второй ролл обосрал. Ну что за хуйня? 104B параметров видимо недостаточно, чтобы сориентироваться в 12 гандонах.
Ладно, этот вопрос выглядит достаточно зрелым, пойду протестирую другие модели.

Аноним 22/05/24 Срд 02:05:05 № 751165 481

>>751164
>пойду протестирую другие модели
О, ллама 70B всё таки немного бейзед, отвечает без лишних выебонов и даже придумывает разные пути.

Аноним 22/05/24 Срд 02:12:16 № 751166 482

изображение.png 126Кб, 1890x528

изображение.png 159Кб, 1898x638

>>751164
>пойду протестирую другие модели
Ретестнул фи с разжёванным вопросом, короче модель всё же говно. 1 полный отказ из-за сои, и 1 раз запуталась, где сколько приводить.

Аноним 22/05/24 Срд 02:29:13 № 751171 483

>>751166
Ну или ггуф все же битый. Надо потестить будет на lmsys

Аноним 22/05/24 Срд 02:47:12 № 751180 484

>>749949
Так ведь можно же без экстрас векторайзить дата банк. Это же тоже оно, судя по документации, или я что-то не так понял?
Единственное, контекст оно жрёт при каждой генерации, а ответы все равно не очень. Может нужно как-то подготавливать эти данные и сортировать их. Не знаю.

Аноним 22/05/24 Срд 02:51:30 № 751183 485

>>750358
Я не заметил, чтобы оно скачивало или подавало какую-то модель. Хотя в доках написано, что должно.

Аноним 22/05/24 Срд 03:09:16 № 751189 486

>>751136
Чем ллама 3 не угодила?

Аноним 22/05/24 Срд 03:15:51 № 751195 487

>>751189
Её не загрузить в браузер
https://xenova-experimental-phi3-webgpu.static.hf.space/index.html

Аноним 22/05/24 Срд 03:57:47 № 751215 488

>>751195
Ты можешь таверну фронтом запустить и сиди так же локально хоть с выключенным инетом, лол. Тоже мне нашли чем привлечь.

Аноним 22/05/24 Срд 03:59:47 № 751216 489

>>751215
Эм, таверна сама по себе текста не генерирует. А тут хуита прямо в броузере работает! Хотя идея сама по себе ебанутая, но почему бы и да.

Аноним # OP 22/05/24 Срд 04:26:26 № 751228 490

Короче если что в вики добавлена инфа про железо, жду корректировок.

Аноним # OP 22/05/24 Срд 04:27:17 № 751229 491

Так же обновлена информация про Phi-3.

Аноним 22/05/24 Срд 04:33:04 № 751233 492

>>751180
Векторизация силами самой таверны у меня не заработала, ебучая JS реализация, левые api для этого я юзать не хочу. Применил самый оптимальный(для меня, так как еще виспер подрубаю через экстрас) и точно работающий вариант, может быть есть "более оптимальный", но я пока такого не знаю.

ПЕРЕКАТ Аноним # OP 22/05/24 Срд 04:33:30 № 751234 493

Короче, как вы поняли, ОП ложиться спать, поэтому катит тред слегка заранее. Сорян.

ПЕРЕКАТ

>>751232 (OP)

ПЕРЕКАТ

>>751232 (OP)

Аноним 22/05/24 Срд 07:40:12 № 751302 494

>>751216
А чем тебя кобольд не устроил?

Искусственный интеллект

Тред закрыт.