Пару дней назад учёные из MIT представили революционную архитектуру глубокого обучения KAN, которая произвела фурор среди исследователей, став настоящей сенсацией. Говорят, что возможно это самый грандиозный прорыв в ИИ за последние 50 лет. Многие его окрестили, как Deep Learning 2.0
В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.
А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.
KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда.
KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется. Авторы KAN доказали, что ему требуется во много раз меньше нейронов, чтобы достичь точности MLP. Также KAN гораздо лучше генерализует данные и лучше справляется с аппроксимацией сложных математических функций (мы увидели это на примерах), у него, можно сказать, "технический склад ума". В статье исследователи также показали, как KAN помогает решать дифференциальные уравнения и (пере)открывает законы физики и математики.
Единственный минус: из-за обучаемых активаций тренится все это дело в разы дольше, чем MLP. Но это не точно, так как исследователи пока даже не пытались провести оптимизацию скорости обучения.
Возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров. Эпоха AGI теперь становится куда ближе.
Наконец-то создали целый тред, по этой архитектуре. Только всё равно придётся ждать, когда её обучат, если за это вообще возьмутся. Вот технологию gpt придумали deep mind и отодвинули в долгий ящик, пока closedai, не подсуетились и не показали возможности этой разработки. С другой стороны, сейчас интерес большой к ии. Очень интересно, что из этого получится. >>726694 Касательно видрила, для gpt5 уже не хватает данных для обучения. А всё из-за особенностей архитектуры. Где они будут брать такое количество данных? Конечно речь, идёт о кошерных данных которые представляют ценность.
>>726765 А ты не забывай, что чем больше модель, тем более мусорные данные ей можно сливать, так как она лучше с ним справляется. Тема нехватки данных сильно раздута
>>726861 Да даже с мусорными, где ты столько возьмешь.
>>726541 (OP) Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки и LSTM?)
>>726694 Хуйня уровня "Лондон утонет в навозе". >>726765 >Где они будут брать такое количество данных? Похуй где, весь прикол в том, что им придётся дохуя чистить, а иначе умная сетка всё время будет нарушать свой фантюн и ругать негров/писать про еблю детей/нарушать копирайты (самое страшное). >>728906 Спасибо принстонской архитектуре, у нас любой процессор или ГПУ не подходят для ИИ, тратя 90% времени и энергии на гоняние байтиков по шинам.
Инженеры и исследователи продолжают активно изучать возможности KAN. Самое интересное:
– Оптимизированный код для KAN (https://github.com/Blealtan/efficient-kan). Авторы статьи сами признавались, что не занимались оптимизацией кода. Работу подхватили разработчики, которые подшаманили имплементацию и сделали ее более эффективной. Получилось в 2 раза быстрее, чем в оригинале.
Вся эта хуйня со временем будет доступна только для мирового правительства и очень крупных корпораций. А простое быдло как сосало таки будет еще больше сосать. Вся эта цензура на наейронках не просто так везде установлена. И не просто так с каждым днём всё больше и больше закручивается. А для того что бы скотина вдруг не возомнила себе что она барину ровня. Она уже сейчас даже код нормально не пишет, а лишь направляет в правильное направление. Остается лишь только свои нейронки писать, а не надеяться что кто-то из добрых дядей тебе сразу всё даст готовое.
>>737089 >Остается лишь только свои нейронки писать Так все адекваты локалками пользуются. Как ты локалки реально отбирать будешь, кроме как запретом продажи населению самим Хуангом или отбиванием техники у населения? Сейчас многие вещи делаются локально, а уж с данной технологией это станет еще проще. Вот всякие попенаи и всех пугают, говорят, что нужны ограничения, лоббируют запреты открытых нейронок. Дабы только крупные корпорации могли осуществлять деятельность в развитии ИИ
>>737788 >а уж с данной технологией это станет еще проще Сложнее. КАН вообще не обучаемый на потребительском железе при размерах больше пары слоёв на десяток нейронов.
>>726541 (OP) Почему-то весь машин лернинг кажется мне какой-то детской ерундой. Возможно потому что наука еще слишком новая и ученые пока что не так глубоко погружены в нее, а все нужно постигать мелкими шажками, но вам не кажется что это совсем пиздец? В плане того, что прорывом считается буквально очевидная вещь, сделать какие-то константы переменными и обучаемыми, ну охуеть теперь. Предыдущий прорыв — селф аттеншн у трансформера, это по сути, грубо говоря, изменение влияния связей между нейронами, по факту реалтайм изменение топологии сети. Уважаемые ученые, специально для вас делаю вывод: Если что-то в архитектуре нейросети является константным, сделайте это обучаемым. Где моя нобелевка?
>>739030 Братан, я успешный kaggler и тренирую нейронки с селф аттеншном по 10 часов ежеденевно ради прибавки +0,1 к метрике. И могу сказать что современное текущее состояние науки о машин леаринге состоит в банальном переборе всевозможных идей которые придут в голову. Вот взять данный селф аттеншн, возможно что куча людей пытались сделать тоже самое, но у них не хватало ресурсов (GPU-часов) понять что это прорывная идея, один параметр не так выставишь и у тебя селф аттешн работает хуже чем CNN на данном датасете и человек дропает и забивает хуй думая что он идиот. А потом приходит корпорация с тысячами TPU-ядрами с капелькой везения, запускает с многочисленными конфигурациями и сразу замечает разницу и потенциал. Вот такие дела. Почему так? Ответ прост. Человечество находится в каменном веке относительно вопросов человеческого разума или мозга. Оно даже не может пояснить зачем человеку нужен сон. Математической теории нет, но я предполагаю что через несколько десятков лет появится. Вот и всё, епт.
>>750323 А чего ты ожидал? Очередная никому не нужная хуйня уровня BCPNN, PNN (или SNN, пилят с 1952 года, лол) и прочих прорывных архитектур, которые не понятно как трейнить и масштабировать. Трансформеры взлетели как раз из-за того, что накидать параметров в слой, слоёв и данных в топку тренировки может любая обезьяна.
Сейчас набирает хайп интересное открытие которое возможно будет применено и к KAN-ам. Как мы знаем, если модель перетренировать, то она начинает тупеть. Но внезапно выяснилось, что если продолжить модель тренировать дальше (в десятки раз дальше), то в какой-то момент происходит фазовый переход и модель начинает невероятно умнеть, значительно превосходя ту версию, которая была за мгновение до перетренировки. Но обо всё по порядку:
Вот очень важная и интересная работа: https://arxiv.org/abs/2405.15071. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует некоторого бекграунда, чтобы разобраться. Все выводы и мелкие, но важные детальки я не смогу выписать в посты, потому рекомендую технарям прочитать самостоятельно, оно того стоит.
Для того, чтобы понять ниженаписанное, необходимо знать следующие термины:
Валидация —обычно при обучении моделей в самом простом случае все данные разбивают на 2 части: тренировочная часть и валидационная, служащая для проверки. Затем алгоритм (нейросеть) тренируют на тренировочной части, а на валидационной замеряют качество. Так как модель не видела эти данные во время тренировки, то можно сказать, что это хорошая оценка того, как модель будет вести себя в реальных условиях, на данных, которые не встречались.
Генерализация/обощение —грубо говоря, когда модель находит какие-то паттерны и закономерности в данных, которые являются общими, а не присущими только маленькому набору данных. Если модель генерализуется, то она хорошо работает на данных, которые до этого не видела.
Переобучение —не «давай обучим снова?», как можно подумать. В какой-то момент модель перестаёт учить обобщающиеся/генерализуемые паттерны, и начинает переобучаться —и её качество на валидационной части падает. В этот момент обучение кажется логичным приостановить —мы как бы думаем, что на новых данных, которые модель не видела, лучше уже не получится сделать. Например, сейчас у вас качество 80% на тренировочных данных и 78% на валидацонных. А через некоторое время 90% и 50%. Получается, что модель стала хуже -> лишняя тренировка не помогла. Но оказывается, что существует...
Гроккинг —это когда после очень долгого обучения, когда кажется, что модель уже переобучилась, и показывает почти идеальное качество на тренировочной выборке (то есть больше учиться нечему), но низкое на валидации, вдруг ситуация меняется. И модель неожиданным образом, не меняя качество на трейне, резко улучшается на валидации. Лучше всего это охарактеризовать фразой «чё-то щёлкнуло внутри»: каким-то образом модель пришла к алгоритму, который очень хорошо обобщается. Развивая пример выше, представьте, что качество стало 97% и 30% (то есть ещё хуже на валидации), а потом вдруг 98% и 95% —хотя казалось бы, метрика ведь деградировала.
На данный момент не ясно, как и почему случается гроккинг. Он замечен только в маленьких моделях на малом наборе задач —но не потому, что не масштабируется, а потому, что он возникает только тогда, когда модель тренируют ОООООООООЧЕНЬ долго (в десятки раз дольше обычного). В одном из экспериментов, например, о нём узнали лишь потому, что оставили компьютер на ночь включённым по ошибке (а там обучалась маленькая модель на простой задаче).
Но считается, что в момент гроккинга в модели возникает некоторый набор логики, который очень строго формализован и почти не ошибается. Буквально как если бы вы писали программу, где всё задано жёсткими условиями «если <что-то> то <что-то>». Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.
Интерпретирование моделей —это как раз попытка заглянуть в модель после обучения и разобраться, какой именно механизм она изобрела для того, чтобы решать задачу. Таким образом получается показать, что модель точно будет надёжно работать с примерами, которые до этого не встречала. Например, вот https://www.neelnanda.io/mechanistic-interpretability/modular-addition-walkthrough работа по изучению сложения по модулю.
Наконец, давайте поговорим про конкретно эту работу. Для этого нужны следующие понятия:
Атомарный факт —самая малая частица информации, выраженная как факт. В рамках этой работы подразумеваются факты в духе «Жена Барака —Мишель», только тут они выражаются как тройки (Сущность 1, отношение, Сущность 2). Другой пример: «Мишель родилась в 1964-м» (тут отношение —это «родиться в»).
Задача композиции —это задача выведения связи по двум атомарным фактам. По примеру выше человек может легко догадаться, что «Жена барака родилась в 1964-м». Для того, чтобы осуществить это, нам нужно как бы сделать один прыжок в логике между двумя атомарными фактами.
Задача сравнения—это задача выведения отношения по двум атомарным фактам. Есть три вида отношений: больше, меньше, равно. «Трампу 78 лет», «Байдену 82 года» превращается в «Трамп моложе Байдена». Подумайте, как вы в голове решаете такую задачу, по шагам.
Во время тренировки модели показываются все атомарные факты (чтобы она могла выучить и дальше оперировать ими), но показывают лишь часть связей. Причём эти связи разбиты по сущностям. Сначала все атомарные факты бьют на две группы. Из первой сгенерируют связи, и их и будут показывать модели. Вторую откладывают, для тех фактов будет показано 0 связей, только факты. Первая группа называетсяIn-Distribution (ID на графиках), так как по сути мы даём модели понять, как работают конкретные связи на конкретных фактах. А для второй группы мы вообще не показываем связи никаким образом, модель их никогда не видела и не знает, только голые знания. Такое называется Out-of-Distribution (OOD на графиках). По идее, если модель может понять логику и создать общий алгоритм работы со знаниями —то OOD будет работать.
Основная вера скептиков нейросетей — что OOD не работает. То есть если модель что-то не видела, она никогда не сможет до этого догадаться. Но в теории, если модель смогла грокнуть алгоритм решения и изобрести логику, то нет причин не решать задачи, которые раньше не встречались.
На картинке вы видите два графика для двух вышеописанных задач. На обоих графиках красная линия очень быстро доход почти до 100% — модель выучивает тренировочную выборку. В этот момент качество на ID/OOD-валидации очень маленькое. Обычно люди разводят руки и говорят «эх, нихрена не выучилось...». Авторы же тренируют модель в 10-15 раз дольше (относительно достижения этой точки).
Задача 1 (слева) В задаче композиции гроккинг возникает только для ID-примеров, то есть модель может вывести новые связи (отношения между фактами), которые ей не показывали, но только если с этими атомарными фактами уже были демонстрации установки связей. OOD не работает.
Задача 2 (справа) В задаче сравнения картинка существенно отличается, и даже на 10^4 шагов качество ID/OOD существенно отличается от нуля. А к концу обучения и вовсе подходит к 100% — то есть модель может сравнивать произвольные атрибуты двух разных сущностей даже если они никогда не фигурировали в сравнениях, вообще ни в каких.
Но это была не самая интересная часть статьи —не зря же я писал про интерпретируемость?
Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?
Оказывается, эти два вопроса связаны.—все дело в том, как модель решает задачу внутри себя.
В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере: —Возраст жены Барака ... (нужно написать цифру из атомарного факта)
Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.
Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки —она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера —у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) —и это заставляет модель работать даже для OOD задачи!
Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.
Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм —в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.
Самое крутое —что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.
Теперь ещё несколько фактов из работы: —скорость появления гроккинга зависит от соотношения двух групп данных во время тренировки: атомарные факты и связи/отношения. Гроккинга можно достичь значительно быстрее, если кормить модели в 15-18 раз больше связей нежели фактов. Большая находка тут в том, что гроккинг, получается, не так зависим от вбуханных в обучение мощностей/количества данных, сколько от «умности» (качества) данных. —в тысячный раз оказывается, что бОльшие модели сходятся быстрее. То есть даже если данные и ресурсы на обучение не менять, можно добиться лучших результатов. В теории, если у нас кончатся данные после GPT-6, то GPT-7 можно просто сделать больше и учить на тех же данных —всё равно будет лучше. —интересно, как трансформер выучил «параллельное» решение казалось бы последовательной задачи (это я про сравнение). Это не первый раз, когда модель находит шорткат и приводит к генерализуемому решению. —фраза из статьи, которую можно кидать критикам нейронок в лицо (я даже затвитил с тэгом Гари Маркуса аххаха): «Разница в полученных обобщениях по двум изучаемым задачам также подчеркивает необходимость контролируемого и механистического исследования [интерпретирования] понимания рассуждений моделей, прежде чем делать общие заявления о его ограничениях». По примеру очевидно, что генерализация случается, а когда нет —тогда нужно понять, чем это вызвано, а не кричать «Deep Learning hitting the wall» (10 лет) —когда модель грокает задачу, то вся логика становится очень компактной и занимает очень малую часть модели. Это потому, что вместо запоминания наступает понимание. Гроккинг вообще часто этим объясняется (модель сначала запоминает, потом медленно выводит прваила, и тогда большая часть знаний будет не нужна —их можно получать на лету логикой). Верю, что через улучшений по этому направлению модели получится сделать меньше, но умнее. — регуляризация помогает достигнуть гроккинга быстрее, так как модель по сути заставляют выполнять задачу меньшим количеством параметров, что уменьшает размер схемы (набора блоков, которые реализуют логику), и потому модель не ударяется в запоминание.
В работе ещё с десяток крючков, за которые можно зацепиться и начать рассуждать про то, что и как нужно менять, чтобы модели стали умнее, не галлюцинировали итд.
Но все эти свойства, как вы видите, появляются в результате гроккинга, когда модель учат неприлично много. Про это есть релевантное исследование от META — там одни и те же факты показывали по 1000 раз, чтобы модель их запомнила. Для меня это выглядит как «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Инвестируем в NVIDIA, ждём суперкластеров
>>762948 >titanic.csv Лол, ЕМНИП, там выжил примерно 1 взрослый мужчина, так что на признак sex=MALE && age > 12 надо сразу ноль выводить. Графики KAN это показали? >>762987 >Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее. Охуеть конечно чудо, потратить миллиарды компут тайма на прописывание какой-нибудь очевидной истины.
Ну и да. Статья показала, что модели нужно обучать ещё, значительно, охуеть как дольше. Это не прогресс, а деградация нахуй.
Так ребятки, а теперь всё серьёзно! Возможно переход на KAN откладывается, так как одно из его главных преимуществ удалось достичь на классической архитектуре. На днях произошёл один серьёзный прорыв в трансформерах. Они теперь МОГУТ справляться с математикой, если подобрать правильные эмбеддинги
Есть известная проблема: хотя LLM хорошо справляются с естественным языком, они все еще могут уверенно утверждать, что 2+2 = 5. Проблему пытаются решать файн-тюнингом, прикручиваем питона и т.д.
А на днях вышла статья, в которой ученые утверждают, что на самом деле нужно просто внимательно поработать с эмбеддингами чисел. В работе доказано, что проблема трансформеров в том, что они не способны отслеживать "положение" числа относительно нуля. "Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг" –предложили исследователи.
И это заработало! Всего один день обучения на единственной GPU, и удалось достичь SOTA перформанса: 99% accuracy в задачах сложения 100-значных чисел. При этом интересно, что обучалась модель ТОЛЬКО на 20-значных.
>>763219 Так нету там логики. Вся "логика" это перебор в градиентном спуске, пока само не зародится. >>763261 >Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг Ебать, так они через пятилетку дойдут до моих идей. Надо бы мне работать быстрее, застолбить и запатентовать свои разработки и ебать весь мир. >99% accuracy Вся суть современного машобчика - складываем числа с отличной от 100% точностью.
>>726765 > если за это вообще возьмутся С объемом бабок, которые сейчас корпорации вливают в нейронки, возьмутся почти сразу. Все эти откладывания были, пока гонка не началась и перспективы непонятны были. Сейчас она в самом разгаре, каждая компашка хочет выжать максимум из алгоритмов и железа.
>>763261 Проиграл с треда. Революция, невиданный прорыв, deep learning 2.0, меняет вообще все, эпоха agi ближе. Спустя несколько постов - всем спок, обычные сетки тоже пойдут, продолжаем их тренить.
>>787962 >Наинтерпретировали и уснули. Да не, просто на этом сложнее заработать. Проще убить 1000 человек системой доктора-ИИ, нежели чем пилить надёжную и потратить на это на 100 баксов больше. Формула для расчётов была приведена в бойцовском клубе.
>>804558 Я и через 10 лет скажу, что через 30, ибо как термояд. Уж слишком сложна кинестетика человека, и слишком нахуй никому не нужно, дешёвое роботизированное говно дешевле и проще.
>>804673 >Чел, фундаментальные проблемы андроидов уже начинают решаться Где? Кожа- так сраный TPE в топе, даже близко не кожа. Питание? Прорыв каждую наносекунду, а в работе сраные литий ионки. Искусственные мышцы? Дальше лабораторий уже лет 10 не выходят. И так по всем параметрам, кроме разве что скелета, который можно попилить из дешёвого сплава. И я молчу про нормальный мозг, лол.
>>804677 Это всё не нужно. Качества современных секс-кукол уже хватает для внешней оболочки, а дальше остаётся начинить всё это дело норм мозгами. И тут за последние два года произошли фундаментальные сдвиги: https://www.youtube.com/watch?v=bdWPC1zxxR8
Все вычисления на облаке. Работа осуществляется по дому через мощный вай-фай, можно и на улице через сеть 5G. Современных литий-ионных аккумов будет хватать минимум на пару часов без подзарядки
>>804690 >Качества современных секс-кукол уже хватает для внешней оболочки Я и сказал, ТПЕ это всё, что сейчас есть. И то говно. Ты видел, что происходит в любой позе, отличной от Т позы, в которой их заливают? Там пиздос и неестественные сгибы. Так что не коупи, нет тут нихуя. >Все вычисления на облаке. То есть никакого SEGSа, и все твои потные рожи будут выложены в интернет в утечках. Ахуеть, спасибо, но не нужно.
>>804875 Я предпочитаю не допускать устройства слежки в свой дом. >>804978 Все технологии в первую очередь применяются для секса (а сейчас для мастурбации), привыкай.
>>805003 Пользуюсь. Рутован, снесено всё что можно снести, весь софт ставлю из f-droid, в фоне ничего не передаётся, не записывается и вообще телефон не проявляет никакой активности, пока я его в руки не возьму. Но это оффтоп.
>>805031 Ну таких параноиков как ты - 1%, без вас рынок роботов-андроидов не особо пострадает. Не покупайте их. Этого никто не заметит. Миру похуй. Все остальные будут брать себе няшных кошек-жён и довольно урчать
>>805127 >Не покупайте их. Возьму, куплю, рутую и перенаправлю на свой ИИ-сервер. Как тебе такое, Илон Маск? >Все остальные Ещё 2%? Шизиков, готовых трахать кукол, больше не наберётся. А у тех, кто хочет, банально не будет 50 килобаксов на них. Так что увы и ах.
>>739523 >Оно даже не может пояснить зачем человеку нужен сон. Если сравнивать с ЛЛМ, то для дообучения. Всё что ты переживаешь в течении дня хранится в краткосрочной памяти. А во время сна она перерабатывается: мусор удаляется, остальное сравнивается с имеющейся информацией, делаются какие-то полезные выводы и записываются в основную память, краткосрочная очищается. Правда это натягивание медицины на глобус математики. Точно этот процесс пока никто не воспроизвёл.
Исследователи ИИ запускают чат-ботов с использованием искусственного интеллекта мощностью 13 ватт без потери производительности — матричное умножение без использования LLM дает огромные преимущества Новости Автор: Кристофер Харпер опубликовано 26 июня 2024 г.
Центры обработки данных радуются, поскольку Nvidia ощущает странный холодок в воздухе.
Светодиодные лампочки, которые обычно потребляют около 10 Ватт энергии на штуку.
Исследовательская статья из Калифорнийского университета в Санта-Крузе и сопровождающий ее отчет о том, как исследователи искусственного интеллекта нашли способ запускать современные LLM с миллиардными параметрами всего за 13 ватт мощности. Это примерно столько же, сколько у светодиодной лампы мощностью 100 Вт, но, что более важно, она примерно в 50 раз эффективнее, чем мощность в 700 Вт, необходимая для графических процессоров для центров обработки данных, таких как Nvidia H100 и H200, не говоря уже о предстоящем Blackwell B200, который может потреблять до 1200 Вт на один графический процессор.
Работа была выполнена с использованием специального оборудования FGPA, но исследователи поясняют, что (большая часть) повышения эффективности может быть достигнута за счет использования программного обеспечения с открытым исходным кодом и настройки существующих настроек. Большая часть преимуществ достигается за счет исключения матричного умножения (MatMul) из процессов обучения и логического вывода в LLM.
Как удалось удалить MatMul из нейронной сети, сохранив при этом производительность и точность? Исследователи объединили два метода. Во-первых, они преобразовали систему счисления в "троичную", используя значения -1, 0 и 1. Это позволяет выполнять вычисления с суммированием, а не с умножением чисел. Затем они ввели в уравнение вычисления, основанные на времени, предоставив сети эффективную "память", позволяющую ей работать еще быстрее при меньшем количестве выполняемых операций.
Основной моделью, которую исследователи использовали в качестве ориентира, является LLM от Meta. Это начинание было вдохновлено статьей Microsoft об использовании троичных чисел в нейронных сетях, хотя Microsoft не зашла так далеко, чтобы отказаться от матричного умножения или использовать свою модель с открытым исходным кодом, как это сделали исследователи из Калифорнийского университета в Санта-Крузе.
Все сводится к задаче оптимизации. Руи-Цзе Чжу, один из аспирантов, работавших над этой статьей, говорит: "Мы заменили дорогостоящую операцию на более дешевую". Еще предстоит выяснить, может ли этот подход быть универсально применен к решениям в области искусственного интеллекта и LLM, но если он окажется жизнеспособным, то может радикально изменить ландшафт искусственного интеллекта.
За прошедший год мы стали свидетелями, казалось бы, неутолимого стремления ведущих компаний, занимающихся ИИ, к власти. Это исследование показывает, что во многом это была гонка за первенство с использованием неэффективных методов обработки. Мы слышали комментарии от авторитетных людей, таких как генеральный директор Arm, предупреждающих, что если потребности в мощности ИИ будут продолжать расти нынешними темпами, то к 2030 году они составят одну четвертую часть потребляемой в Соединенных Штатах электроэнергии. Сокращение энергопотребления до 1/50 от текущего уровня будет означать значительное улучшение.
Мы надеемся, что Meta, OpenAI, Google, Nvidia и все другие крупные игроки найдут способы использовать этот прорыв в области открытого исходного кода. Более быстрая и эффективная обработка рабочих нагрузок с помощью искусственного интеллекта приблизила бы нас по функциональности к человеческому мозгу — по некоторым оценкам, мозг потребляет примерно 0,3 кВт*ч энергии в день, что составляет 1/56 от того, что требуется Nvidia H100. Конечно, многим магистрату требуются десятки тысяч таких графических процессоров и месяцы обучения, так что наше "серое вещество" еще не совсем устарело.
Давненько ничего не слышали про KAN? Может архитектура умерла?
А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Вот самые интересные:
➡️KANs for Time Series Analysis https://arxiv.org/pdf/2405.08790 Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.
➡️Convolutional KAN https://arxiv.org/pdf/2406.13155 Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.
➡️Demonstrating the Efficacy of KANs in Vision Tasks https://arxiv.org/pdf/2406.14916 В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.
➡️ReLU-KAN https://arxiv.org/pdf/2406.02075 А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.
шарящие аноны, можете сказать как вообще улучшают сетки типа клода или гпт?
они вроде и становятся умнее, но когда их юзаешь, понимаешь что, что-то не так с ними
хз как объяснить но часто вижу у них шаблонные ответы в виде списков или что сетка может согласиться с каким-то неочевидным фактом, но при этом сам факт будет неправильный
видел презентации от создателей этих моделей: показывают количество параметров и размер самой модели. неужели все что они делают, это просто увеличивают размер модели настолько, насколько это позволяют мощности, после чего чистят вилкой датасет от радикальных идей и склоняют сетку к сое намеренно?
разве у них не в интересах найти йоба-решение от галлюцинаций или хотя бы заставить эти сетки помнить 100% в размерах больших контекстов?
>>814105 Через 30 лет вестимо, вместе с термоядом. >>814160 Ты про байесовские сети забыл. Вот уж где база. >>814189 >неужели все что они делают, это просто увеличивают размер модели настолько, насколько это позволяют мощности, после чего чистят вилкой датасет от радикальных идей и склоняют сетку к сое намеренно? Ты начинаешь понимать...
>>838053 Ты из какого века? Сейчас наоборот, в оружии запоздание, вон, дроны известно где летают любительские, а проф хуита за миллионы бабок пылится на складах. Не удивлюсь, если первыми человекоподобными роботами на поле боя будут секс-куклы с лламой в башке, лол.
>>838964 >каждый год под триллион. Триллион спизженных денег на бесполезные авианосцы, которых выебут дроны и ракеты из ржавых труб, потому что не будут сбиваться с цели лазерными сбивателями цели потому что у ржавой трубы нет оптики. Гражданка с копеечными чипами подебила военку с золотыми ламповыми компутерами, лол.
>>739030 >Если что-то в архитектуре нейросети является константным, сделайте это обучаемым Поддерживаю. Почему на нодах в Кане обычное суммирование? Давайте тоже туда обучаемую функцию. Почему связи между нодами предопределенные? Убираем случайную связь, выбираем две случайные ноды и связываем их случайной функцией. Обучаться будет в миллион раз дольше правда, но инференс должен быть быстрее и модель ещё меньше. Но это не точно
>>841802 >Давайте тоже туда обучаемую функцию. Да, не против. >Почему связи между нодами предопределенные? Убираем случайную связь А вот это лишнее. Если судить по анимированным гифкам обучения, по сути эта сеть имеет предопределённый набор теорий, которые во время обучения применяются и не подходящие прунятся. Так что по итогу связи там образуется вполне себе по смыслу, но заранее непредсказуемые.
>>739523 Отнюдь, психология развилась до стоящего результата. Психологи могут объяснить работу мозга, закономерности проявления мышления. Проблема состоит в другом, что ИИ делают ТОЛЬКО IT специалисты, хотя должную роль в развитии ИИ также должны играть и психологи! В поправках "мышления" ИИ, в придании антропоморфности, в общем, приравнен Я ИИ к ЕИ - естественному интеллекту
Конец года, 2024: Рисует пальцы все еще с 10го раза. Причем, за норм результат я считаю, когда пальцы просто не размазаны. По прежнему глаза на жопах и пизды на коленях на каждой второй пикче. Если модели не нравится токен, то вместо пикчи будет шум и надо будет заебаться, чтобы найти плохой токен. По прежнему нет одной модели для всего.
>>888633 Нет. Проблема в том, что психологи никаких скилов кроме гнилого пиздежа не имеют Если бы они умели хоть что то, специалисты по ии их бы с удовольствием пригласили.
>>888633 > Отнюдь, психология развилась до стоящего результата. Нет. >Психологи могут объяснить работу мозга, закономерности проявления мышления. Этим занимаются нейрофизиологи. > Проблема состоит в другом, что ИИ делают ТОЛЬКО IT специалисты Потому,что это математический алгорртм, он не имеет Я и не умеет думать >хотя должную роль в развитии ИИ также должны играть и психологи! Угу, а также священники, адвокаты, феминистки, сатанисты, зоофилы и другое активистское хуйло. Але блять, ИИ ни у кого в долг не занимал. >В поправках "мышления" ИИ, в придании антропоморфности, в общем, приравнен Я ИИ к ЕИ - естественному интеллекту Открытые LLM уже выдают охуенный результат бесплатно и безо всякого антро
>>889009 >Потому,что это математический алгорртм, он не имеет Я и не умеет думать Но ведь нейропсихология так же говорит о человеке, почитай Метцингера того же. Вот с тем, что ИИ является сознанием и не является человеческим или похожим на любое другое нам известное сознание - я согласен
Вышла полная версия интервью с разработчиками o1. Основное и самое интересное:
⚪️ Вдохновлялись RL из AlphaGo. Название o1 символизирует, что это новое поколение моделей: от есть не очередная gpt, а полная смена подхода и парадигмы. Кстати, лого модели символизирует пришельца- сверхразума.
⚪️ Разработка o1 была большим вызовом: разработчики столкнулись с кучей проблем с масштабированием рассуждений и оптимизацией. Также много внимания пришлось уделить этике (так они назвали то, что скрывают от пользователей большую часть рассуждений 😍)
⚪️ Оказывается o1 mini на большинстве тестов не отстает от o1 preview, потому что обучена рассуждать ничуть не хуже, просто знает меньше фактов. Очень важный тейк с точки зрения скейлинга.
⚪️ Во время тестирования модели был выявлен огромный потенциал модели к философским рассуждениям, творческому подходу и, самое главное, самокритике. Это, по словам разработчиков, и есть поворотные фичи для ИИ.
⚪️ В планах у OpenAI прикрутить к модели интерпретатор, сделать ее мультимодальной и более управляемой для пользователя.