/ai/ - А знаете какая одна из самых больших проблем современного МЛ в плане концепции, а именно архитектуры

А знаете какая одна из самых больших проблем современного МЛ в плане концепции, а именно архитектуры Аноним 03/04/25 Чтв 01:57:28 № 1127685 1

final8397364281[...].png 1680Кб, 1024x1536

А знаете какая одна из самых больших проблем современного МЛ в плане концепции, а именно архитектуры систем и подхода к трейну? По сути все современных большие модели представляют собой гигантского масштаба монолит, в который просто с одного маху запихивается сразу огромная куча разнородных данных в надежде, что модель как-то на этой куче мале чему-то научится и выдаст какой-то осмысленный результат. И вроде бы на первый взгляд модель в итоге выдает что-то осмысленное, может решать какие-то примитивные задачи или те которые часто встречались в трейне. Но шаг влево и шаг вправо за пределы каких-то банальных, стандартных, распространенных задач - все модели разом делают гигантский пук и начинают г а л л ю ц и н и р о в а т ь. И никто нихуя не знает, почему она это делает и как исправить конкретно то место, которое ведет к тому, что девять оказывается больше одиннадцати. Потому что модель - это можно сказать возведение в некий предельный абсолют того самого написанного индусами 10-15 лет назад гигантского монолита на жаве. Потому что это просто миллиардный набор цифр, которые невозможно интерпретировать. Вот и приходится изобретать всякие костыли поверх модели вроде ризонинга, рагов, которые решают проблему в итоге только частично.

Но ведь давным давно уже в кодинге придумали микросервисы. И вместо того чтобы end-to-end обучать гигантский монолит, можно же просто выделить большой сет микро-тасок и стандартных вентилей (как мультиплексоры, сумматоры, счетчики в схемотехнике). И под каждую такую микро-таску обучить мини-нейросеть. В контексте NLP такой микротаской может быть, разделение слова на морфемы, определение части речи, определение роли слова такой-то части речи в предложении и так далее... Также можно придумать стандартный набор каких-то стандартных гейтов с определенными задачами, например, гейт суммаризации (из длинного набора абстрактных токенов получить более короткий набор токенов, суммаризирующих вход), гейт сопоставления (на вход идут разные последовательности токенов, на выходе идуи некий веса 0...1, которык показывает некую величину комплиментарности между парами входных последовательностей), гейт обобщения (из какого-то n входных последовательностей токенов, получется одна новая последовательность токенов, которая описывает общее между входными последовательностями) и другие подобные, которые могут потенциально переиспользоваться в разных узлах одной системы или даже в других системах из той же области. Далее мы итеративно собираем эти блоки в более крупные и опционально мы можем файнтюнить (файтюн можно производить обучением некоей модели оркестратора, например, или обучением моделей которые вычисляют дельты к выходам субмоделей в схеме) их на более сложные и комбинированные задачи, которые как бы совмещают все подзадачи входящих в него блоков. И так мы инкрементально поднимаемся от мелких и узких задач к более абстрактным и масштабным.

Можно использовать даже какие-то unsupervised методы для выделения оптимальных подзадач и блоков, например создать эдакую модификацию метода конечных элементов для машин лернинга, где мы разбиваем пространство выходных параметров на какие-то подпространства по некому стандартному алгоритму оптимального разбиения, и для каждого подпространства обучаем свою отдельную апроксимирующую функцию.

И потенциально подобный "микросервисный подход" в ИИ системах может убить аж трех зайцев:
1) и обобщающая способность моделей повысится, что значит более эффективное решение менее стандартных задач, которые изначально широко в лерне не были представлены и требуют большего числа логических шагов
2) и проблема интерпретируемости решена, проблемый узел теперь возможно отследить и пофиксить
3) и во много раз расширяется поддерживаемость и масштабируемость системы, теперь для улучшения возможно не надо перетренивать всю модель целиком, а лишь перетренить, заменить, добавить какие-то ее отдельные блоки, не трогая все остальное.

Да, это ведет к большому росту системной сложности, само выделение "микросервисов" будет огромной нетривальной архитектурной и инженерной задачей. Но в то же время такой подход потенциально может дать существенный качественный толчок в ИИ системах.

Аноним 03/04/25 Чтв 23:55:44 № 1129714 2

Да. Но всем похуй, пока работают трансформеры, и все проблемы можно закидывать компьютом.

Аноним 04/04/25 Птн 12:55:07 № 1130146 3

>>1129714
Подобной модульностью можно же и компьют на трейн снизить, можно не строить огромные кластеры и не кормить монополию куртки. Потенциально, к слову подобный подход может быть возможностью даже для российских бигтехов выдвинуть чтот не радикально сильно отстающее от топ мировых моделей.

Аноним 04/04/25 Птн 15:57:01 № 1130471 4

>>1130146
Ну условно, если сейчас условный яндекс делает 7B модельки на уровне o4-mini, то если попробовать упороться в "модели-микросервисы", тот же яндекс мог бы уже выдать что-то на уровне по крайней мере средненькой 70B мистрали-лламы, что уже был бы значительный прогресс

Аноним 04/04/25 Птн 21:54:51 № 1131198 5

Кажется кто-то так и не усвоил горький урок
http://www.incompleteideas.net/IncIdeas/BitterLesson.html

Аноним 04/04/25 Птн 23:23:14 № 1131395 6

>>1131198
Ну это скорее ставит проблему, что ручная декомпозиция может быть далеко не всегда оптимальна. Но в то же время, строго говоря, какого-то формального математического доказательства, что именно монолиты находят предельно эффективную декомпозицию не существует. Тут скорее суть в том, что монолиты, поскольку пропагейтятся совместно, просто эффективно находят очень хорошее сжатое представление трейна, то есть отлично решают задачу интерполяции, потому они хорошо пишут круды, которых написали очень много, и хорошо выдают какой-то типа осмысленный текст. Но проблема в том, что экстраполируют модели при этом очень хреново, как я уже упоминал, шаг влево или шаг вправо за пределы крудов или студенческих курсачей по общеобразовательным темам, материалов по которым и в гугле достаточно много — галлюцинации.

И поскольку ручные декомпозиции могут быть далеки от оптимальных, потому я и пишу о том, чтобы исследовать какие-то алгоритмические unsupervised методы разбиения тасок, которые бы заранее находили какое-то более-менее оптимальное разбиение заранее, не делегируя это на пропагейт монолита, тем самым вынуждая кормить куртку, и внося при этом и регляризацию и повышая интерпретируемость.

Аноним 04/04/25 Птн 23:45:53 № 1131419 7

Например, сейчас кучу исследований, где обучают целые модели, которые эффективно компонуют схемы для ГПУ или квантовых компов. Почему бы не сделать какой-то похожий метод мета-обучения для моделей, который находит оптимальную схему подзадач

Аноним 04/04/25 Птн 23:56:07 № 1131432 8

>>1131395
>НЕ вынуждая кормить куртку
Фикс

Аноним 05/04/25 Суб 00:43:53 № 1131469 9

>>1131395
>Ну это скорее ставит проблему, что ручная декомпозиция может быть далеко не всегда оптимальна.
"Далеко не всегда" следует читать как "уже почти всегда". Ибо примеров обратного у нас нет. Как только люди отходят от концепции "а давайте вложим свои знания в структуру", и вместо этого закидывают компутом, тут же прёт результат (при наличии достаточного компута).
>Но проблема в том, что экстраполируют модели при этом очень хреново, как я уже упоминал, шаг влево или шаг вправо за пределы крудов или студенческих курсачей по общеобразовательным темам, материалов по которым и в гугле достаточно много — галлюцинации.
А написанное тобой галюны не выдаёт? У тебя ведь есть пример кода и модели, которая берёт 100% в бенчах хотя бы по математике?
>>1131432
А чем тебе куртка мешает? Коммунист что ли?

Аноним 05/04/25 Суб 01:04:12 № 1131495 10

>>1127685 (OP)
>И вместо того чтобы end-to-end обучать гигантский монолит, можно же просто выделить большой сет микро-тасок и стандартных вентилей (как мультиплексоры, сумматоры, счетчики в схемотехнике). И под каждую такую микро-таску обучить мини-нейросеть.

Я, конечно, не эксперт, но разве не так сделали китайцы со своим Дик Кит? Обучили сеть экспертов в разных областях, активируются они группами в зависимости от тематики запроса. И это не какой-то завалящий стартап от смузихлебов, там ее уже национальным достоянием объявили, так что, архитектура будет жить дальше.

Аноним 05/04/25 Суб 19:24:22 № 1132591 11

>>1131469
Но как я уже сказал, это все еще не означает, что закидывание компутом - единственный и безальтернативный путь.

>>1131495
Ну это называетcя красивой аббревиатурой MoE. И это к слову не ново для дик пика. Внезапно, но 4o-mini тоже на самом деле MoE. Но там все равно эксперты и взвешиватель пропагейтятся вместе одним монолитом, разделение экспертов разрешается все тем же накидыванием компьюта.

Аноним 09/04/25 Срд 08:40:14 № 1140309 12

>>1131198
А ничего что закон Мура к концу уже несколько лет как подошел? А этот старпер все рассуждает, будто в 90х застрял, и скоро ему новые пентиумы подвезут, можно надеяться дальше что новые чипы все порешают.

Аноним 09/04/25 Срд 18:53:08 № 1141762 13

>>1132591
>Но как я уже сказал, это все еще не означает, что закидывание компутом - единственный и безальтернативный путь.
Единственно доказано рабочий на данный момент.
>>1140309
>А ничего что закон Мура к концу уже несколько лет как подошел?
Ваще похую. И да, выебоны с ростом размера чипа/квантизацией/ростом числа чипов в стойках пока ещё работают. А жор датацентров в 5 гигаватт это мелкие побочные эффекты.