Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 508 68 198
Исследования ИИ тред #2 /research/ Аноним 08/10/23 Вск 02:45:17 511426 1
image.png 135Кб, 638x676
638x676
image.png 169Кб, 1320x1860
1320x1860
image.png 4058Кб, 4000x2000
4000x2000
image.png 45Кб, 600x329
600x329
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно.

Я ничего не понимаю, что делать?
Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.

Где узнать последние новости?
https://www.reddit.com/r/MachineLearning
https://datatau.net
https://twitter.com/ylecun

На реддите также есть хороший FAQ для вкатывающихся.

Какая математика используется?
В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus.

Как работает градиентный спуск?
https://cs231n.github.io/optimization-2

Почему python?
Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.

Можно не python?
Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.

Что почитать для вкатывания?
http://www.deeplearningbook.org
https://d2l.ai/index.html
Николенко "Глубокое обучение" — на русском, есть примеры, но меньше охват материала
Франсуа Шолле — Глубокое обучение на Python

Все книги и статьи фактически устаревают за год.

В чем практиковаться нубу?
http://deeplearning.stanford.edu/tutorial
https://www.hackerrank.com/domains/ai
https://github.com/pytorch/examples
https://github.com/ChristosChristofidis/awesome-deep-learning#tutorials

Где набрать первый самостоятельный опыт?
https://www.kaggle.com

Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.

Где работать?
https://www.indeed.com/q-deep-learning-jobs.html
Вкатывальщики могут устроиться программистами и дальше попроситься в ML-отдел

Есть ли фриланс в машобе?
Есть, https://www.upwork.com/search/jobs/?q=machine+learning
Но прожить только фриланся сложно, разве что постоянного клиента найти, а для этого нужно не быть тобой

Где посмотреть последние статьи?
http://www.arxiv-sanity.com
https://paperswithcode.com
https://openreview.net
Версии для зумеров (Килхер): https://www.youtube.com/channel/UCZHmQk67mSJgfCCTn7xBfew

Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском

Где посмотреть must read статьи?
https://github.com/ChristosChristofidis/awesome-deep-learning#papers
https://huggingface.co/transformers/index.html
То, что обозревает Килхер тоже зачастую must read

Где ещё можно поговорить про анализ данных?
http://ods.ai

Нужно ли покупать видеокарту/дорогой пека?
Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100.
Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.

Когда уже изобретут AI и он нас всех поработит?
На текущем железе — никогда, тред не об этом

Кто-нибудь использовал машоб для трейдинга?
Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад.
Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка

Список дедовских книг для серьёзных людей
Trevor Hastie et al. "The Elements of Statistical Learning"
Vladimir N. Vapnik "The Nature of Statistical Learning Theory"
Christopher M. Bishop "Pattern Recognition and Machine Learning"
Взять можно тут: https://www.libgen.is

Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.

Disclaimer: Шапка сгенерирована нейросетью и нуждается в чистке.
Аноним # OP 08/10/23 Вск 02:59:25 511433 2
Аноним 11/10/23 Срд 09:12:13 514981 3
>>511426 (OP)
У меня есть вопрос про object detection, мб кто шарит.
Сейчас sota это «one-stage» детекторы типа yolo, center net-а. Но также есть так называемые two-stage детекторы типа rcnn, fast-rcnn. Собственно вопрос: в чем смысл 2 стэйдж детекторов? Типа там сначала ищутся области интереса, это типа делает отдельная сетка с отдельным лоссом?
Аноним 11/10/23 Срд 23:24:22 515826 4
Без названия (9[...].jpeg 9Кб, 275x184
275x184
strider-tripeda[...].jpg 13Кб, 360x422
360x422
robotics-futuri[...].jpg 206Кб, 2140x940
2140x940
walking-robot-c[...].jpg 42Кб, 329x500
329x500
Я тут пролистал быстро прошлый тред и сюдя по всему там разговоры шли про текстовые нейросети, но я бы хотел поинтересоваться на счёт двух других типов, как почти полный нуб.

Я достаточно давно тематикой роботов интересуюсь, пускай и знания у меня до сих пор поверхностные и лет пять назад я натыкался на древние видосы с ютаба, где "организмы" учили ходить в симяляционном 3д пространстве с помощью нейросетей и что интересно, аналогичные эксперименты до сих пор проводят. И вот я заинтересовался: а насколько это в принципе сложно обучить робота ходить в компе и после перенести нейросетку в металлическую оболочку ирл.
По идее нам потребуется обучить два вида нейросетей и объединить их в одной машине: двигательную нейросеть и зрительную. Допустим что робот создаётся с целью имитировать фауну, курицу какую-нибудь, соответственно из цель у него будет только свободно бродить, ну и избегать поломок. Да, предназначение дебильное, но это лучше чем начинать с робота универсального заводчанина.
В то время, как с двигательной нейросетью всё ещё более менее понятно, то в тех симуляциях, что я наблюдал, зрительная часть либо вообще отсутствует, либо представлена простым скриптом, потому что сами симуляции достаточно примитивны. Когда речь же идёт о ирл, то нужен мощный инструмент, который отличит статичные объекты от движущихся, будет предсказывать их направление движения и скорость, а так же отличать различные типы поверхности для ходьбы и всё это в различных погодных условиях от ясного солнца до дождя с туманом. Кроме этого нужно ещё определять куда идти, эта курица бродить же должна всё-таки, поэтому нужен то ли скрипт для этого, то ли определялка интересных мест.
Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду. Мне кажется, что из-за этого придётся сетку как-то подразделять, чтобы разные паттерны ходьбы использовались. Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п.

Как бы это всё самоуверенно не звучало, я ни черта в этом всём не понимаю и в сущности то что сверхну написано нужно для контекста. Я лишь спрашиваю о том, насколько хороши нейросетки в разновании видеосигналов в реальном времени на данный момент и что вы думаете на счёт того как двигательная нейросеть должна справляться с различными типами земли под ногами?
А и да, все нейросетки, что учились ходить движутся как дёрганные паралитики какие-то. Полюбому же есть вариант запилить изначальную анимацию вручную или процедурно и научить сначала нейросеть на этой базовой анимации, а потом уже чтобы сама доучивалась в усложнённых условиях?
Аноним 11/10/23 Срд 23:25:05 515828 5
Блять опечатался.
Аноним 13/10/23 Птн 00:03:25 517175 6
>>514981
Да типа того. Точно на вопрос не отвечу но в 2 stage сверточная сетка сначала ищет области интереса, конечно если мы хотим наиболее подходящие области она должна это научиться поэтому и лосс у неё будет (надо повышать вероятность того, что она содержит объект) иначе как её учить? То-есть одну часть можно научиться хорошо находить области интереса а вторую правильно классифицировать объекты в этих областях. Работает не так быстро но окупается точностью по сравнению с YOLO.

п.с. обучал и то и то
Аноним 13/10/23 Птн 09:45:36 517495 7
>>517175
Понял. По идее у какого нибудь faster-rcnn должна быть выше точность на датасете с мелкими объектами, чем у той же yolo?
Аноним 13/10/23 Птн 14:55:35 517745 8
>>517495
Да, yolo плохо находит маленькие объекты но у него есть разные модели, pose detection, object detection... Pose detection например для нахождения положения тела человека (не только), сначала находит большой объект (человека) (region of interest) и внутри RoI оценивает где могут находиться маленькие объекты типа суставы рук и ног, голову.
Аноним 14/10/23 Суб 22:38:34 519463 9
Пересылаю пост сюда.
Вопрос - как тренировщики всяких лам-2 делают reward модель для тренировки основной языковой модели? И шире - те же ПопенАИ что, тренировали GPT-4 на 1.3 триллиона параметров, а рядом на соседнем сервере тренировалась такая же по размеру модель чисто под оценку reward-а? Не жирно ли? Можно ли тренируя ламу в домашних условиях сократить потребление памяти, вызваное необходимостью держать еще один инстанс этой ламы в памяти? Может можно как-то переиспользовать слои тренируемой модели, добавляя в качестве выхода не LM Head а персептрон с оценкой реварда?
Аноним 15/10/23 Вск 19:09:09 520136 10
Вот скажите мучает вопрос, если 80% связей в языковых моделях не особо нужны, не особо активны.То почему при обучении или тонкой настройке не блокировать для обучения активные нейроны, а обучать только пассивные. Чтоб впихнуть в модель гораздо больше.
Или почему не используют дистилляцию на тех же ламах 70, чтоб сделать мелкие модели, вместо этого их обучают отдельно?
Аноним 15/10/23 Вск 19:56:27 520185 11
>>520136
Как я уже отписывался, скорее всего первое просто вычислительно сложно.
Про второе- отдельное обучение всё же качественнее. Впрочем, никто тебя не сможет остановить от того, чтобы дистилировать самому хоть 70B -> 7B и выебать своей моделькой на скорах все новомодные мистрали и лламы 2.
Аноним 15/10/23 Вск 21:19:49 520266 12
>>520185
Ну что ж понятно, но странно почему дистилляция не дает лучшего эффекта. Может и попробую по описаной методе что я скидывал в локальных ЛЛМ.
Аноним 15/10/23 Вск 21:43:15 520293 13
>>520136
Потому что у селф-аттеншенов принцип работы не как у секвентальных слоёв. Ты не можешь так просто понять какие веса нужны, а какие нет. У одного селф-аттеншена на разные q и k выдаются разные v, а порядок токенов в тексте для нейросети допизды, в итоге там слишком хаотично активации идут чтоб можно было точно определить что вот этот аттеншен не нужен потому что не используется - они все используются. Такое ты ещё можешь провернуть со старыми encoder-decoder текстовыми моделями, Т5 например, вот там можно таким побаловаться, но они говно и не могут в контекст.
Аноним 16/10/23 Пнд 02:24:45 520560 14
Тред не читал, поясните: почему машоб развивают экстенсивно (все более жирные модели) а не интенсивно (такие же модели но для трейнинга + исполнения на кофеварке)
Аноним 16/10/23 Пнд 03:14:42 520586 15
Аноним 16/10/23 Пнд 09:10:49 520671 16
>>520560
> почему
Потому что это ты придумал, на деле ничего подобного нет.
Аноним 16/10/23 Пнд 13:44:47 520838 17
>>520293
Спасибо за ответ. А тогда такой вопрос, а почему rope или alibi не используют для t5 и подобных. Ведь в теории можно нарастить контекст довольно сильно.
Аноним 16/10/23 Пнд 14:03:51 520852 18
>>520838
>а почему rope или alibi не используют для t5 и подобных
Всем похуй ©
Просто не те модели, что стоят на переднем крае науки. Судя по числу всякого говна на хайгинфейсе на этих сетках раньше всякая студентота пилила свои дипломные проекты, да бизнес классификаторы. А там похуй на контекст, лишь бы твит очередной влез, им проще ограничить длину текста, нежели чем считать очередной 128к контекст спама.
Аноним 16/10/23 Пнд 14:10:58 520859 19
>>520838
База - это decoder-only сетки. Остальное не нужно. Т5 обычно, так же как и BERT, к мелким мультимодалкам пришивают, там не нужен контекст.
Аноним 16/10/23 Пнд 17:15:09 521151 20
>>520671
>пук
Сравни DALL-e 3 со вторым, SD XL с 1.5, GPT4 с ранними вариантами. Есть конечно и аналоги с дистилляцией и сжатием латента, но они сделаны на коленке, чтобы доказать что это возможно.
Аноним 16/10/23 Пнд 17:24:45 521166 21
>>521151
Зачем ты пукаешь? У текстовых моделей тенденция к уменьшению, уже никто не делает 540В-высеры, как пару лет назад. При этом 7В уже ебёт это 540В-говно. GPT4 состоит из нескольких мелких моделей, говорят их там 6 штук последовательно держат. Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров.
> SD XL с 1.5
То что SDXL сделали жирнее - это вопросы к говноделам из Стабилити. Достаточно было текстовый энкодер нормальный поставить вместо убожества как на полторашке, чтобы следование промпту улучшилось. Он жирного UNET профитов как-то не видно, хорошие полторашки всё ещё ебут по качеству картинки.
Аноним 16/10/23 Пнд 18:33:32 521319 22
>>521166
>Огромную модель GPT3.5 уже выебали опенсорс-модели меньших размеров.
По скорам в манятестах? По факту как сосали у давинчи, так и сосут, притом меньшие это 70B, что меньше лишь в 3 раза.
Аноним 16/10/23 Пнд 18:40:26 521337 23
>>521319
> По скорам в манятестах?
Даже по РП-тестам, где чекают насколько сетка проёбывает ролеплей и не забывает ли контекст. Недавний Мистраль даже в 7В умудряется разъёбывать Турбу по адекватности. Как бы турбо-боты не дефали свой кал, но уже невозможно отрицать факты что 70В ебёт во все щели её, Клауда следующая на очереди.
Аноним 16/10/23 Пнд 18:55:21 521367 24
>>521337
Кал это мистраль конечно же. Ты так надраиваешь на какой то нонейм тест, с непонятным контекстом и форматом промпта. При том что уже куча анонов отписалась что мистраль лютое говно и проебывает контекст через 5 сообщений.
Аноним 18/10/23 Срд 11:06:26 522955 25
Какие сейчас датасеты для NSFW ролиплея самые лучшие? Либо датасеты откуда ролиплея можно много отфильтровать.
Аноним 18/10/23 Срд 11:47:58 522980 26
>>522955
А еще вопрос на кагле за такие датасеты не банят? :)
Аноним 19/10/23 Чтв 23:01:15 524476 27
>>521367
>При том что уже куча анонов отписалась что мистраль лютое говно и проебывает контекст через 5 сообщений.

квантованный, так как он ломается при сжатии с потерями
Аноним 22/10/23 Вск 17:15:51 526694 28
>>524476
> ломается
Уже и сюда шизы пробрались...
Аноним 22/10/23 Вск 23:40:20 527055 29
>>526694
ты как из палаты сбежал
Аноним 23/10/23 Пнд 01:24:52 527154 30
Аноны я конечно не нашел подходящего треда.

Обман нейросети по обнаружению обьектов в изображении.

Когда еще в 2016 начали стрелять первые сверточные нейросети в распознавании, я слышал что они терялись стоило только добавить в фото легкие незаметные для глаза артефакты. Как дела обстоят сейчас?

Можно ли наложить незаметные артефакты на изображение чтобы алгоритмы площадок просто видели белый шум вместо моих изображений а нормальный человек видел их нормально?.
Аноним 23/10/23 Пнд 18:12:07 527583 31
>>515826
Тоже интересуюсь подобной темой, тебе нужно копать в сторону обучения с подкреплением, где за определенные правильные действия агент будет награждаться, так же тебе нужно будет найти правильную стратегию награждения награждать сейчас или награждать в долгосрочной перспективе, это все достигается путем проб и ошибок.

>Двигательную же нейросеть предстоит обучать ходить и прыгать не только по твёрдому асфальту, но и по грязи, песку, нестабильных камушках и льду.
Это тоже можно сделать, только тебе в перспективе понадобится много видях которые смогут обработать огромные массивы данных, ведь чем больше степеней свободы тем больше данных нужно обработать что бы агент мог реагировать на любые сложности этого мира.

>Слава богу, что сейчас есть игровые движки, в которых можно будет воссоздать робота один в один зная детали и их характеристики заранее и получив репрезентацию с таким же весом и балансом, а потом симулировать реалистичную грязь, песок и т.д. вместе с реалистичным окружением, а не коробками, двигающимися объектами, препятствиями, ветром, шаткие поверхности и т.п.
Обучив агента в игровых движках ты не сможешь его перенести что бы он так же двигался в реальности, игровые движки лишь упрощено моделируют реальность, наша реальность работает по иным законам и тебе нужно приучать агента к этим законам мироздания, тогда он сможет корректно и правильно работать. Ты можешь лишь потренироваться в игровых движках создавая простые ограниченные пространства и там обучать своего агента.

Начинай с вот этого, это самый просто материал который я смог для себя найти на эту тему.
https://www.youtube.com/watch?v=XX-syZhN4WU
Моралес М. - Грокаем глубокое обучение с подкреплением (Библиотека программиста) - 2023
https://github.com/mimoralea/gdrl/tree/master
Аноним 23/10/23 Пнд 22:14:36 527744 32
А как вкатиться в ваше это ИИ?
Мимо вкатун
Аноним 23/10/23 Пнд 22:36:19 527762 33
00145.png 0Кб, 28x28
28x28
00208.png 0Кб, 28x28
28x28
00278.png 0Кб, 28x28
28x28
00340.png 0Кб, 28x28
28x28
Анончики решил приобщиться к нейросетям и начал, казалось бы, с простейшей задачи.
На входе нейросеть получает картинку 28 на 28 пикселей, где на черном фоне нарисован белый круг, полностью влезающий в это изображение (пикрелейтед).
На выходе я хочу получить 3 параметра - координаты и радиус этой окружности.

Ниже пример нейросети которую я пробовал обучать. Я менял и количество слоев и функции, она конечно обучается если дать 20-50к примеров, но даже в этом случае точность определения довольно хуевая +- пиксель.
Что я делаю не так, как изменить архитектуру сети? Я понимаю, что задача решается и без нейросетей, но мне хочется использовать именно нейросеть для ее решения.

[code]
model = tf.keras.Sequential([
# Слой для обработки изображения
tf.keras.layers.Conv2D((28-3)*(28-3), (3, 3), activation='relu', input_shape=(IMAGE_HEIGHT, IMAGE_WIDTH, 3)),
tf.keras.layers.MaxPooling2D((2, 2)),
tf.keras.layers.Conv2D(81, (3, 3), activation='relu'),
tf.keras.layers.MaxPooling2D((2, 2)),
tf.keras.layers.Flatten(),

# Слой для обработки числовых данных
tf.keras.layers.Dense(128, activation='relu'),
tf.keras.layers.Dense(64, activation="relu"),
# Выходной слой с тремя нейронами
tf.keras.layers.Dense(3)
])
[/code]
Аноним 24/10/23 Втр 03:40:30 527943 34
>>527744
Тоже хочу, пока только с yolov8 разобрался, дальше хз куда
Аноним 24/10/23 Втр 13:48:19 528184 35
>>527762
>но даже в этом случае точность определения довольно хуевая +- пиксель
Ты же понимаешь нейросеть дает лишь вероятностный ответ а не точный?
Аноним 24/10/23 Втр 17:55:53 528391 36
>>528184
Пусть вероятностный, но точность то совсем плохая получается. Да и для простых случаев вполне может и точный выдавать.
Аноним 24/10/23 Втр 20:37:23 528561 37
>>527762
> tf
Ты из 2015 капчуешь? Только торч, других вариантов нет и не может быть.
> activation='relu'
И вот сразу же говняк какой-то. Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена или кросс, соответственно в фид-ворварде. Есть ещё особо извращённые варианты с GeLU на линейных слоях, но тебе точно их не стоит трогать не понимая зачем. А ещё relu говно мамонта.
Всё остальное из-за активаций нахуй идёт. Вместо MaxPooling лучше AvgPooling, сам загуглишь от макса какие проблемы могут быть.
> 20-50к примеров
Такие простейшие задачи максимум за 1000 итераций тренятся на lr около 1е-3.
Аноним 24/10/23 Втр 21:52:25 528636 38
>>528561
>Только торч, других вариантов нет и не может быть.
Можешь обосновать почему?
Аноним 24/10/23 Втр 22:27:29 528670 39
>>528636
Какой-то кринжовый вопрос. TF не развивается за пределами мобилок уже давно. Никакие современные либы его не поддерживают, никакой код на нём не пишется, производительность говно. Торч - это стандарт индустрии, со всем остальным даже не приходи, это просто база.
Аноним 24/10/23 Втр 22:52:47 528697 40
>>528561
>Не должно быть активаций на конволюшене. В 2023 году активации должны быть только после селф-аттеншена
Специалист в треде, уважаемо. Где знаний набирался?
Аноним 24/10/23 Втр 22:56:56 528704 41
>>528697
Любой код посмотри, даже веб-макака должна справиться с этим.
Аноним 24/10/23 Втр 23:22:55 528728 42
>>528391
>то совсем плохая получается
Насколько плохая, насколько сильно результаты различаются?
Аноним 24/10/23 Втр 23:25:47 528730 43
>>528670
Мне казалось что гугл его активно поддерживает и развивает.
Аноним 24/10/23 Втр 23:46:17 528743 44
изображение.png 120Кб, 1544x843
1544x843
>>528704
>Любой код посмотри
Даже писал, но у меня почему-то рандом тоже на tf остановился. Не специально. Но до ковыряния отдельных слоёв я пока не дошёл. Этот код вообще у гопоты выпытал.
>даже веб-макака
Да ёб, это так заметно?
Аноним 24/10/23 Втр 23:47:43 528745 45
>>528730
Лол, сам Гугл все модели уже на Торче тренирует, слишком большой отрыв по функционалу и скорости. Он только активно поддерживает рантаймы типа TF Lite и прочие ответвления для запуска моделей на всяких мобильных устройствах на Арме, причём там код даже не пишется, оно в большинстве случаев конвертируется из Торча. Ты можешь открыть Hugging Face и попробовать поискать модели под TF, но даже Гугл часто свои только под Торч выкладывает.
Аноним 25/10/23 Срд 11:54:12 528955 46
Бля, тут кто-нибудь видел что происходит в r/singularity ? Концентрация копиумных долбоебов в сабреддите просто зашкаливает, они реально думают что какой-нибудь условный мультимодальный llm нового поколения будет AGI/ASI. А некоторые уже верят что в принципе gpt4 можно назвать AGI. Термин AGI умер нахуй
Аноним 25/10/23 Срд 12:03:36 528964 47
>>528955
>r/singularity
Что за шлак? Не знаю такой доски. И вообще, доски пишут через /доска/.
>Термин AGI умер нахуй
Ожидаемо, хули. С другой стороны, текущие даже текстовые действительно дженерал по сравнению со старыми сетками, которые нужно трейнить под каждую задачу. Тут можно взять сраную лламу, написать сраный промт и она может выполнять целую кучу задач.
Аноним 25/10/23 Срд 18:12:09 529249 48
Аноним 25/10/23 Срд 21:44:24 529436 49
>>520293
Обычно же вроде под "прунингом атеншена" имеется ввиду не заморозка или обнуление весов внутри матриц какого-то одного атеншена а выкидывание целиком лишних голов, от которых качество не страдает как заявляется
Аноним 26/10/23 Чтв 17:05:41 529867 50
>>528955
Зато они генерируют забавные идеи, че тебе еще нужно собака
Аноним 26/10/23 Чтв 18:27:31 529939 51
>>529249
На имиджбордах поддосок нет. А на средите сидят соевые западные дурачки.
Аноним 26/10/23 Чтв 19:27:56 529983 52
Аноним 28/10/23 Суб 15:14:00 531118 53
Как кстати gpt могут так быстро контекст отрабатывать? Если ответ они пишут сразу же, тогда почему они ответ посылают по кускам, если они так быстро высчитывают контекст то и ответ должны давать моментально. Особенно интересно как дела с этим у гпт4 ведь там оркестр с множеством запросов. Либо они сначала отправляют первое предложение без оркестра, за это время все там просчитывают и посылают остальное.
Аноним 28/10/23 Суб 23:11:12 531374 54
>>531118
>если они так быстро высчитывают контекст то и ответ должны давать моментально
В смысле? У тебя один прогон сетки с "вычислением контекста" даёт один токен ну или топ-сколько-то, как настроишь Чтобы сформировать текст надо постоянно перепрогонять для получения каждого следующего токена
Аноним 29/10/23 Вск 02:40:15 531471 55
>>531374
Тогда я не совсем понимаю почему в llamacpp и
text-generation-webui требуется так много времени на вычисления контекста или что он там делает, после чего вывод идет уже быстро.
Аноним 29/10/23 Вск 03:22:26 531486 56
Аноним 30/10/23 Пнд 13:12:46 532335 57
Аноны, а сколько времени вкат занимает? Конкретно мои вводные - есть вышка с красным дипломом (хотя всякие матаны я уже позабыл, но когда-то шарил) и 10+ лет опыта в опостылевшем интерпрайзе фуллстаком (все, от БД до юая, от архитектуры до юнит-тестов). Флуент инглишь, если важно, в наличии.
Насколько вообще сейчас реально перекатиться или вкатится? Какой рейт у новичков области? Стоит ли оно вообще того, в моей ситуации?
Аноним 30/10/23 Пнд 13:17:29 532341 58
>>532335
Вопрос вдогонку - что сейчас с рыночком этого самого машоба? Область не вчера появилась, на какой он стадии? Я так вижу, сейчас вроде как идеальное время для вката, состояние не зачаточное, и не середина, а как раз бурный рост, который продолжится близжайшие лет 5-10.
Аноним 30/10/23 Пнд 15:27:10 532379 59
>>532335
> всякие матаны я уже позабыл
> фуллстаком
Очевидно что ты никому нахуй не нужен будешь с такими вводными, нейросети не про кодинг и уж тем более никак не пересекаются с веб-макакингом. Писать код ты можешь за месяц научиться, китайцы с топовыми разработками по нейросетями вообще пишут код так как-будто даже самоучитель по питону не открывали. И вообще пиздуй в /pr/, тут РАБотобляди не сидят.
> вышка с красным дипломом
Такое только при устройстве на завод или лоу-скилл галеру может потребоваться. На реальной работке в рашке всем похуй на бумажки, бумажки за тебя работу не будут делать. А за пределами рашки ну ок, СНГ твои бумажки невалидны.
Аноним 30/10/23 Пнд 15:49:27 532385 60
>>532379
>нахуй не нужен будешь с такими вводными
А что, всякие скрамы, пайплайны, релиз-процессы и софтскилз в коммерческом машобе отменили, нинужно?
Да и я во время вката, очевидно, подтяну то что по-настоящему актуально, как-то матчасть и прочее.
>И вообще пиздуй в /pr/, тут РАБотобляди не сидят.
Там я тоже сижу. Кстати кто же тогда тут сидит?
>Такое только при устройстве на завод или лоу-скилл галеру может потребоваться
Забугорные конторы нередко требуют нотариально переведенный дипломчик же, особенно где есть требования к бакалавриату+ (а таких много для тырпрайза и по-моему поголовно все в машобе).
>А за пределами рашки ну ок, СНГ твои бумажки невалидны.
Лолшто? Это диплом международного образца, он, может не столь престижен, но уж точно валиден.

В любом случае, спасибо за ответы, но мне бы хотелось получить ответ еще и по части актуальности вката и правильно ли я понимаю состояние рыночка.
Аноним 30/10/23 Пнд 16:14:44 532391 61
>>532385
> нинужно?
Машобщику ненужно, да. Всем что ты перечислил будут макаки заниматься. Если же ты думаешь об этом в контексте фулстака, когда тебе скажут написать весь бэк/фронт и ещё унитаз помыть, то это будет слабо отличаться от веб-макакига, машобщик не нужен чтоб прилепить чат-бот куда-то. Т.е. ты говоришь "хочу в машоб", но при этом хочешь заниматься вместо него тем же что и сейчас делаешь.
Тебе надо будет модифицировать архитектуры под конкретные задачи, подготавливать датасеты и обучать сетки. И с большой вероятностью готового решения не будет, если это задачи бизнеса. Кодинг там на уровне написания скриптов с выкидыванием API для остальных. Т.е. забудь про кодинг вообще и открывай книжку по матану и машобу, почитай публикации и алгоритмы в них.
У тебя вообще может не быть в названии должности ничего про разработку, а будешь каким-нибудь "аналитиком".
Аноним 30/10/23 Пнд 16:33:39 532394 62
>>532391
О, ну так даже лучше, на самом деле, потому что центральная причина хотения переката - как раз тотальное опостыление интерпрайз-макакинга со всем этим менеджментом, пиздежом и прочими дедлайнами, от чего я даже перегореть успел.
Аноним 30/10/23 Пнд 20:01:19 532526 63
>>532385
>в коммерческом машобе отменили, нинужно?
Конечно нужно, это какой-то LLM-энтузиаст студентик на стажировке , которому дали поиграть с РИСЁРЧЕРСКОЙ задачей тебе хуйни нагнал. Если мы про работу говорим конечно: ситуация на рынке идёт к тому что чистые рисерчиры, за исключением парочки всем известных попильных контор, никому не нужны. Большая часть работы большинства MLE это работа с пайплайнами сбора данных, обучения, выкатки в прод итп. Даже бекенд пописать заставят. Так что тяп-ляп в ноутбучках давно уже не достаточно, никто не вернётся в 2018 год
Аноним 30/10/23 Пнд 20:34:27 532559 64
>>532526
> работа с пайплайнами сбора данных, обучения, выкатки в прод итп
Для этого опыт кодинга - самое последнее что потребуется.
> Даже бекенд пописать заставят.
Только если в парашный стартап попадёшь, где на весь проект полтора питониста - ты.
Аноним 30/10/23 Пнд 22:18:41 532666 65
>>532385
>Кстати кто же тогда тут сидит?
85% дрочеры на тексты в кончай треде и 15% дрочеры на пикчи в пикчетредах. Ресёрчеров ртом пару человек, ресёрчеры делом пробегают и сбегают в ужасе через 3нс.
>>532394
>и прочими дедлайнами
Вот как раз в сфере ИИ и его внедрения сейчас жопы на дедлайны горят у всех, выкатывают даже сервисы без реализации системы тарификации, лол.
Аноним 05/11/23 Вск 11:31:41 536211 66
Какие мысли по ШАД? Есть ли смысл вкатуну туда поступать?
Аноним 05/11/23 Вск 13:53:59 536285 67
Аноним 05/11/23 Вск 14:25:27 536296 68
Аноним 05/11/23 Вск 19:46:09 536430 69
>>536296
Выглядит как хуита
другой вкатун
Аноним 07/11/23 Втр 14:32:14 538035 70
>>536211
>Какие мысли по ШАД?
Самые наилучшие.

>Есть ли смысл вкатуну туда поступать?
У вкатуна мозгов не хватит, чтоб туда поступить.
Аноним 07/11/23 Втр 14:36:39 538043 71
>>511426 (OP)
Это бывший нейроночек и машоба тред, да? Наконец-то я вас, нейродебилов, нашёл.
Аноним 07/11/23 Втр 14:48:33 538054 72
>>528955
>Бля, тут кто-нибудь видел что происходит в r/singularity ?
От Свидетелей Церкви Рэя Курцвейла нельзя ожидать адекватности.

>А некоторые уже верят что в принципе gpt4 можно назвать AGI.
Они всё ещё верят, что AGI достижим.

>Термин AGI умер нахуй
Это база.
Аноним 07/11/23 Втр 15:27:37 538092 73
>>538043
Да, перенесли сюда.
Аноним 07/11/23 Втр 20:01:25 538344 74
Что мешает корпорациям предлагать такой ИИ который индивидуально подстраивается под каждого пользователя, дообучаясь на взаимодействии с ним?
Аноним 08/11/23 Срд 10:15:05 538713 75
>>538344
Наличие здравого смысла. Это не окупится.
Аноним 08/11/23 Срд 12:36:24 538794 76
Врываюсь к спецам с нубскими вопросами.
почему не делают языковые модели на CNN какие минусы? Ведь CNN больше похоже на то как работает мозг.

И еще если не трудно подскажите, никак не вдуплю чем encoder-decoder отличается от decoder-only. Ведь encoder и decoder это тот же трансформер. Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder.
Аноним 08/11/23 Срд 14:16:19 538874 77
>>538794
>Ведь CNN больше похоже на то как работает мозг.
Только одна небольшая специализированная часть.
Ну и трансформеры тупо проще и легче масштабируются.
Аноним 08/11/23 Срд 14:39:05 538899 78
>>538794
> CNN больше похоже на то как работает мозг
В каком месте? CNN даже отдалённо не похож на работу мозга, это фактически фильтрация данных, связи там реализуются через костыли. А аттеншен - это и есть алгоритм определения связей в данных, в самом алгоритме аттеншена так-то даже параметров нет.
> Можно так же от балды ткунуть посередине слоев decoder-only и сказать вот ниже encoder а выше decoder.
В encoder-decoder есть некое сжатое промежуточное состояние. А в decoder-only каждый слой - это просто отдельный декодер.
Аноним 09/11/23 Чтв 14:39:12 539863 79
>>538713
С хуя если другие ИИ окупаются?
Аноним 09/11/23 Чтв 16:14:17 539963 80
>>538344
Такое уже немного есть или скоро будет. Корпорациям надо нащупать границу окупаемости и сложности. Еще немного производительности в ципах добавится - и такая хуйня будет в каждом утюге.
Аноним 09/11/23 Чтв 16:51:12 539988 81
tay.jpg 17Кб, 200x200
200x200
>>538344
Был такой уже, много лет назад. Кончилось забавно.
Аноним 09/11/23 Чтв 23:25:44 540363 82
>>539863
Схуяли ты решил, что они окупаются? Пока они все работают на пердячем пару от инвесторов. По факту урезанные нейронки ещё могут как-то работать в системах типа рекомендательных, а вот (де)генеративные нейросети вряд ли лет через 5 будут кому нужны, особенно текстовые. Больше жрут электричества чем пользы приносят.
Аноним 11/11/23 Суб 09:05:19 541230 83
>>538794
>почему не делают языковые модели на CNN
На сколько помню, на нем сделан модуль кодера добавляющий сетке мультимодальность, возможность "читать" изображения.
Аноним 19/11/23 Вск 14:51:57 548051 84
Сколько нужно средств чтобы самостоятельно обучить минимальную ЛЛМку с нуля? Хочу поэксперементировать над архитектурой, но затраты на это просто пиздец. Чтобы она хоть как-то была пригодна для сравнения нужны миллионы параметров, иначе это бредогенератор. Можно было бы сравнить выдаваемый бред, офк, на старой и новой архитектуре, но нет нормальных бенчмарков для сравнения, все текущие бенчмарки для оценки ЛЛМ основаны на проценте выполненных без ошибок задач.
Аноним 19/11/23 Вск 14:57:19 548053 85
>>548051
С нуля 7В - 100k баксов и месяц времени. Если что-то ульрамелкое уровня 700М для бредогенератора - можешь на одной 4090 за пару недель.
Аноним 19/11/23 Вск 15:09:48 548058 86
>>548053
>на одной 4090 за пару недель.
А это подъемно даже. Только надо сайты глазами пылесосить, чтоб до 200к урвать. Либо в облаке тренить, но там тоже тыщ 70 уйдет на одну модель
Аноним 20/11/23 Пнд 00:38:44 548486 87
А почему все так носятся с этим AGI? Если он будет по стоимости как кластер H100, то не дешевле будет аутсорсить спецов из нищих параш. Будет просто конкурировать с индусами. Что бы был какой-то революционный скачок в прогрессе и экономике нужно уместить 130 IQ человека в одну карточку A100. Но это так, мои манярассуждения. Поправьте если не прав.
Аноним 20/11/23 Пнд 01:50:52 548524 88
>>548486
>Если он будет по стоимости как кластер H100
Все арендуют, а пока большие дяди демпингуют, выгоднее закинуть затравку и получать тонны бредотекста, нежели чем напрягать копирайтеров. Интернет уже не спасти.
Аноним 20/11/23 Пнд 04:52:43 548693 89
>>548486
>А почему все так носятся с этим AGI?
Скейлящийся по размеру и скорости заменитель человека, который универсально будет решать все проблемы дешевле, а он в любом случае с развитием технологии будет дешевле, и быстрее и доступен абсолютно любой компании/человеку по АПИ, без нужды нанимать тысячи индусов через 10 циклов проверок. Действительно почему?
Аноним 20/11/23 Пнд 07:57:57 548762 90
>>548693
>который универсально будет решать все проблемы дешевле
Он мне даже жопу подтереть не сможет, ибо ручек тонет.
Аноним 20/11/23 Пнд 16:04:32 549025 91
>>548486
>А почему все так носятся с этим AGI?
Потому что инфоцыгане.
Аноним 21/11/23 Втр 13:46:33 549803 92
Аноним 21/11/23 Втр 13:58:35 549813 93
>>549803
На что там смотреть? Это говно решается простым reinforcement learning и ревардом на поиск новых более простых способов решения задачи. Понятное дело что такого пока нет из-за недостаточных вычислительных мощностей для реалтайм reinforcement learning, но в теории не вижу никаких причин что этому могло бы помешать при увеличении производительности железа в 10+ раз. То что там описывают невозможно только если нейросетка неспособна в обучение по время инференса.
Аноним 21/11/23 Втр 14:04:37 549821 94
>>549813
Антон говорит, что это так не работает.
Аноним 21/11/23 Втр 14:11:53 549826 95
>>549821
Может нахуй сходить твой Антон. Reinforcement learning для этого и был придуман, и оно работает, но не в реалтайме.
Аноним 21/11/23 Втр 14:24:46 549833 96
>>549821
Схуяли оно не работает? Оно именно эту задачу и решает - сделать что-то необычное/рандомное с предметом в руке и посмотреть что будет, если что-то хорошее получилось - применить это к решаемой задаче. Оно просто сейчас в более примитивном виде работает и все сетки фактически с полного нуля обучаются без багажа знаний про "что будет если сделать вот так". Вот пример васяна, использующего примитивную архитектуру и очень мелкий набор входных параметров:
https://www.youtube.com/watch?v=Dw3BZ6O_8LY
Аноним 21/11/23 Втр 14:49:18 549855 97
>>549833
>сравнивать 10000000 попыток ИИ решить ограниченную задачу и парочку попыток настоящего мозга, который может почти что угодно.
Чееееллл...
Аноним 21/11/23 Втр 15:08:31 549870 98
>>549855
Сейчас бы сравнивать микронейросеть с 10 часами обучения и мозг с 10 годами обучения. Ты можешь сколько угодно рякать, но человеку нужно намного больше времени чтобы научиться чему-то с нуля и у сеток нет проблем с решением неизвестных задач самостоятельно. Я не вижу внятной аргументации почему оно не будет работать в равных условиях, когда разница лишь в исполнении нейросети - биологическая/электронная. Перенос опыта одной нейросети в другую как у людей уже в какой-то мере делаем, отсеивание бредовых решений на основе опыта мультиагенты уже делаем, отчасти сетки уже могут сами себя направлять в нужную сторону и симуляция цепочек решений "в уме" опять те же мультиагенты - это вполне реализуемые вещи. В том числе выстраивание длинных цепочек действий с неопределённым результатом с целью "попробовать", если вероятность успеха ненулевая. По той ссылке у учёных в говне мочёных это почему-то стало невозможно только по причине того что они сиюминутно не могут придумать математическую модель этого, про реализацию возможностей и эволюцию вообще кринж - это просто надуманные ограничения, заданные человеком.
Аноним 21/11/23 Втр 16:10:45 549927 99
>>549870
>когда разница лишь в исполнении нейросети - биологическая/электронная
Хуя ты сравнил.
Если что, я не тот шиз, который утверждает, что ИИ возможен только в мясе. Я лишь утверждаю, что именно текущий уровень нейросетей не позволит без тонны костылей построить хоть что-то напоминающее человека в сфере рассуждений и поиска решений.
Аноним 21/11/23 Втр 16:26:41 549952 100
Кьюлорой пробовал уже кто-нибудь что-то обучать? Заводится на домашней пеке?
Аноним 21/11/23 Втр 16:37:45 549973 101
Аноним 21/11/23 Втр 22:19:06 550470 102
>>549870
Мозгу ребенка нужна тарелка пориджа и две всратые картинки кошки, чтобы понять что такое кошка. Сколько гигатонн пориджа и террабайт фоток нужно cv сетке для аналогичного результата?
Аноним 22/11/23 Срд 09:30:23 550927 103
>>550470
Мультимодалке одного фото достаточно, просто пишешь ей "вот эта хуита называется так-то" и всё, каши не просит.
Аноним 22/11/23 Срд 13:12:33 551082 104
У меня есть мечта сделать генератор фильмов, насколько это трудно выполнимая задача?
Например я сделаю такую нейросеть и буду продавать доступы, будет ли у меня проблемы с исками авторских прав от крупных компаний если нейросеть будет генерировать фильмы которые похожие на те фильмы которые выпускают компании?
Аноним 22/11/23 Срд 14:08:31 551129 105
>>551082
Сначала таблеток прими.
Аноним 23/11/23 Чтв 01:18:05 551989 106
16146987537161.jpg 67Кб, 872x872
872x872
Смотрите какая хуйня всплыла.
https://arxiv.org/abs/2311.10770

Если я правильно понимаю что у них происходит - эти софт бранчи же независимы друг от друга и не требуют связи?
Аноним 23/11/23 Чтв 01:55:49 552048 107
>>551129
Пшел на хуй токсичный уебан. Рачье всю доску уже засрало.
мимокрок
Аноним 23/11/23 Чтв 01:57:26 552050 108
>>551082
Если на любительском уровне, то SDXL+Gen2 или PlaiDay в зубы и вперед, звук сам смонтируешь.
Аноним 23/11/23 Чтв 22:36:37 552908 109
1700768194568.jpg 448Кб, 1239x1615
1239x1615
Есть идеи у кого, зачем A в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q - это модификация самого Q-learning метода.
Аноним 23/11/23 Чтв 22:38:33 552910 110
>>552908
Ну ссаная разметка нах.

Вот короче:
Есть идеи у кого, зачем A★ в этой йобе? Из всех вещей в архитектуре у меня на уме только две вещи у которых есть прямой геометрический смысл, в которых это собсна можно использовать, - это эмбеддинги и непосредственно сама нейронная сеть. В первом случае это может использоваться для нахождения наименьшей логической цепочки от эмбеддинга к эмбеддингу, чтобы в последствии это давало нейронке какое-то преимущество какое не ясно. Во втором случае собственно искать ближайший путь от к нейрона к другому нейрону через другие нейроны. Зачем это может быть нужно, непосредственно при использовании нейросети, я не знаю, но может быть полезно при ее обучении. Тем более, что метод обучения так же указан в названии проекта, возможно Q★ - это модификация самого Q-learning метода.
Аноним 23/11/23 Чтв 23:23:18 552939 111
>>552910
https://www.youtube.com/watch?v=T1RuUw019vA
Хм, вот тут чел предпологает, на основе твиттерских высеров но все же, что это метод обучения. Что наверное логичнее всего, с учетом того, что то за чем они гонятся - это процент правильно решенных задач. Вроде того, что условно берется какая-то точка в виде начальной точки решения задачи, нейронка выдает предположения, все это брутфорсится пока нейронка не решит задачу, а потом ищется наилучший путь решения А старом. Q лернинг обучает модельку подкрепляя правильные решения в выборе следующего шага, который являлся частью кратчайшего пути, а в случае неправильного не дает реворда. Обидно, но походу они все еще продолжают дрочить трансформер и это не архитектурное изменение, а всего-лишь метод обучения. Ну хоть хорошо что они это не на уровне "AGI агента", поверх готовой модели пытаются реализовать.
Аноним 24/11/23 Птн 13:29:47 553279 112
>>549870
>Я не вижу внятной аргументации
Глаза разуй, ебобо. У тебя гипотезы о мире формируются уже на уровне саккад. Само твое зрение - это уже активное исследование среды.

Вы своим сраным "ехал инференс через инференс" заебали уже. Человек не осуществляет инференс, он систематически модулирует входящий сенсорный поток, выявляя его каузальный каркас. Любой твой пук, любое твое движение, любая попытка взглянуть на мир, настроить ухо на звук или шевельнуть мозговой извилиной направлены строго на генерацию обучающей выборки. Выборка не приходит извне, она формируется в ходе активного исследования среды - ребенок не ждет, когда в него загрузят фото с ямкой в песке, он тупо берет палку и ковыряет эту ямку сам. Он сам выбирает, в какую сторону посмотреть, чтобы загрузить в мозг новую деталь сцены. Он вертит в руках кубик, чтобы сгенерировать данные о его невидимой стороне, он кидает кубик на землю, чтобы сгенерировать данные о падении кубиков. Он ищет походящую книжку, чтобы почитать про смешное. Он прикидывает, мечтает и фантазирует, запуская во внутренней виртуалочке модели возможных миров - и обучаясь на этих синтетических данных. И так далее и так далее.

Генерация выборки самим агентом, причинно связанная с его действиями позволяет сократить объем данных для обучения в триллион пупильонов раз. И никаких 10 лет обучения в случае людей нет - 99.99% своего времени ребенок вращается среди бесчисленных дубликатов уже сто раз выученных им данных, на реальное обучение чему-то новому приходится только 0.01%, и выучивается это новое практически мгновенно и всего на паре-другой примеров. Потому что каузалочка и моделирование мира решают. Сколько задач нужно решить, чтобы за десять лет превратить пятиклашку в бакалавра математики? Ну, от силы тысяч десять. То есть всего порядка 10Мб плейнтекста, если приплюсовать к задачам еще и учебники по матану. Ни одна нейросеть не даст аналогичный рост сложности на основе такого микроскопического количества исходных данных.

Когда эту нейроёбань научат хотя бы самостоятельной навигации по ландшафту данных, тогда можно будет что-то высирать про искусственный интеллект. А пока это просто дрессированный на терабайтах мелко нарезанной макулатуры кисель.
Аноним 24/11/23 Птн 13:34:26 553283 113
>>553279
И зачем ты порвался, даже не пытаясь прочитать буквы в посте на который отвечаешь?
Аноним 24/11/23 Птн 20:18:32 553644 114
>>551989
Чё там, опять охуительные срывы покровов что большая часть голов нинужна и попытка запрунить? Лень дальше абстракта читать
Аноним 24/11/23 Птн 20:20:47 553651 115
>>553279
Всё так. Поэтому я не устаю проигрывать со свидетелей близкого AGI.
Аноним 24/11/23 Птн 20:49:36 553710 116
>>553279
>>553651
Кто вам сказал, что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек. Я уверен, что даже ссаный трансформер, без возможности дообучения и даже без рефлексии на сгенерированных им же данных, сможет в AGI, при грамотном обучении. Да, это примитивная архитектура и ее придется поверх оборачивать каким-нибудь агентом для этого. Да, просто копирование стиля человеческого текста не хватит на то чтобы прыгнуть ВЫШЕ человека, там уже нужно дообучение на внутреннем диалоге, но именно решать задачи на которые способен средний человек оно сможет. Другое дело, что они и не пытаются в новые архитектуры и продолжают мучать старенький трансформер. Они могут достичь AGI, но эта неоптимизированная йоба будет раниться толко на сверхмощном железе и иметь неприятные косяки при использовании с которыми придется мериться. Все что они делают сейчас - это забрасывают примитивную архитектуру деньгами, в надежде быстрее всех накрутить на нее костылей до AGI, пока хайп есть и эти деньги выдают.
Аноним 24/11/23 Птн 21:56:21 553805 117
>>553644
Ага. Ускоряют feed forward в десятки раз (жаль что не аттеншен). Плюс по ходу у них бранчи независимы, т.е. выглядит это как прямой путь к pretraining@home
Аноним 24/11/23 Птн 22:00:13 553808 118
24/11/23 Птн 22:05:33 553813 119
блять, как вы заебали со своими маняфантазиями в рисёрч треде, шизики ебучие, читайте блеать устав ClosedAI
https://openai.com/charter
>artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work
у них декларированная цель компании это не имитировать человеков, а при помощи нейронок оставить всех без работы на практике (и заодно быть вахтёром нейронки, во имя безопасности конечно)

пиздуйте домашку делать, вместо того чтобы бороздить просторы большого театра в вакууме
Аноним 24/11/23 Птн 22:06:36 553817 120
>>549803
Видели, ту статью я притащил.

>>549813
>>549826
>>549833
>>549870
>reinforcement
Вы действительно думаете, что вот эти вот учёные с мировым именем погорели бы на этом тупорылом reinforcement'е, о котором сейчас знает каждый школьник?
В том треде я написал немного подробностей простым языком, кстати, и уже из них понятно, что всё далеко не так просто.
Двачерски советую вам перед таким категоричным комментированием подобных статей иногда их читать.
Аноним 24/11/23 Птн 22:09:47 553824 121
>>553813
>>artificial general intelligence (AGI)—by which we mean highly autonomous systems that outperform humans at most economically valuable work
Короче говоря, айтикуколды из ОпенАИ по обыкновению подменяют понятия.
Аноним 24/11/23 Птн 22:12:33 553833 122
>>553813
>outperform
Это ASI, чел.
Аноним 24/11/23 Птн 22:17:13 553843 123
>>553817
> тупорылом
Это скорее ты тупорылый, потому что тебе прямым текстом написали почему его не могут использовать. Потому что, блять, обучение в реалтайме архитектура не позволяет, а не какие-то фантазии шизоидов с реддита. Потребность в подобном появилась меньше года назад, сука ты тупорылая. Сейчас весь прогресс идёт на уменьшение моделей и увеличение скорости обучения, можешь засекать сколько лет потребуется до того как к инференсу прикрутят reinforcement learning, долго ждать не придётся.
24/11/23 Птн 22:18:27 553846 124
>>553833
сам ты SI, все твои умственные способности к генерализации и прочему это на 99% пласт, накопленный/дистилированный поколениями и переданный тебе, т.е. социальный суперинтеллект

а сами биологические способности это хуйня из коня и не очень от свинки или собачки отличаются, если ты пещерному маугли из джунглей преподашь любую простую для тебя концепцию, хоть даже письма или счета, он охуеет что так можно было
Аноним 24/11/23 Птн 22:26:36 553861 125
>>553824
Это кумеры подменяют понятия, прося сделать им вайфу неотличимую от человека. Что само по себе довольно бредово, потому что они не хотят/не могут с реальными бабами общаться. AGI здорового человека - это именно general purpose сетка, для неё не ставится задачи имитировать мясной мешок, достаточно решать умственные задачи лучше мясного мешка. А то шизоиды буквально просят им сделать как в соевых историях из Голливуда, где роботы имитируют людей -> им дают права и свободы как людям -> они бунтуют и уничтожают людей. Т.е. это фактически просто в голове больных шизоидов находится, в том числе и опасность ИИ они сами выдумали. Реальная опасность ИИ, про которую все сейчас на верхах говорят, не в AGI и бунте машин, а в том как её будут люди использовать, в частности в сфере контроля и распространения информации.
Аноним 25/11/23 Суб 06:35:02 554352 126
>>553861
>AGI здорового человека - это именно general purpose сетка
Это уточнение поднесли уже после того когда стало ясно что хайп пустой и за 100500 миллионов вечнозелёных мочёные так и не могут научить сетку два числа складывать без костылей. Удивительно что при этом это не мешает сектантам спекулировать про мысли, обобщения и ризонинг, не возникает вообще диссонанса
Аноним 25/11/23 Суб 23:14:16 555022 127
>>550927
В твоих влажных фантазиях
Аноним 26/11/23 Вск 15:55:43 555484 128
16967871837290.webm 1307Кб, 720x900, 00:00:03
720x900
Можно ли закодить нейросеть где target является вектором?
Я хочу попробовать какой-нибудь простенький шифр взломать с помощью нейросети, но не перебором, а просто настакать слои. Чисто из исследовательского интереса.

Как подойти к этой задаче?

Допустим, я буду считать что у меня ОДИН секретный ключ, но много данных.
Мне кажется, что простое представление target в виде float64 - тупая идея, но не могу себе объяснить.
Как правильно тут поступить?
Аноним 26/11/23 Вск 17:10:53 555595 129
>>555484
Можешь. Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей. Хорошего суперкомпьютера из тесл должно хватить на решение задачи, пару лет на обучение закладывай в бюджет.
Аноним 26/11/23 Вск 17:53:35 555640 130
>>555595
я не понимаю как это закодить. можешь ссылку на похожий пример дать?
Предпочтительно pytorch, этот я чутка освоил.
Аноним 27/11/23 Пнд 02:23:45 556140 131
>>555595
>Если брать простенький шифр из 8 знаков, то считай таргет как вектор из миллиарда вероятностей
Т.е. почему при сложненьком алфавите из как минимум 23 знаков таргет у ллмок не миллиардной размерности эс-пидерашка не понимает, получается?
Аноним 27/11/23 Пнд 20:57:17 556940 132
>>553843
>прикрутят reinforcement
Всё ясно: ты просто тупой и необучаемый. Наука - не твоё, завязывай со спекуляциями. Твой потолок - написание быдлокода с reinforcement'ом.
Аноним 28/11/23 Втр 08:26:47 557204 133
>>556940
> спекуляциями
Чел, OpenAI именно этим сейчас и заняты, пришивая Q-learning к GPT. AGI-шизики как всегда тупые.
Аноним 29/11/23 Срд 01:08:29 557894 134
Пиздец, весь интернет во всю обсуждает Q*, а из обсуждения в этом треде были только мои, никому не нужные, посты и пук постом выше. Хоть могли бы подумать как это и что это, собрать всю известную инфу и предположения в интернете и попытаться как-то это развить. В любом случае думаю в относительно ближайшее время появится опенсорс реализация этого алгоритма, в очень кривом, но худо-бедно работающем виде. Хочется пощупать уже.
Аноним 29/11/23 Срд 08:47:45 558030 135
>>557894
> могли бы подумать как это и что это
Всем и так известно что это. Ты первый день с нейросетями знаком? Гуглить пробовал? Про DQN слышал?
Аноним 29/11/23 Срд 09:54:15 558045 136
Аноним 29/11/23 Срд 10:15:20 558061 137
>>557894
>Пиздец, весь интернет во всю обсуждает Q*,
Что там обсуждать? Говно говна от мерзкой корпорации. Вот выкатят в опенсорс, тогда будем обсуждать, а сейчас это говно задаром не нужно на их серверах.
Аноним 29/11/23 Срд 11:49:18 558105 138
>>558030
Даже отвечать тебе западло. Когда речь идет об откровенно революционном методе, который сочетает в себе несколько, научных статей и годы разработки других проектов OpenAI, ты просто так сводишь этот метод до дефолтного Q-learning'а и выдаешь тейк уровня: "Эм, ты что ламер-дурачок? Не пообовал гуглить про уже_известный_метод_нейм?", действительно, они же там ничего нового не сделали, DQN в ядре концепции, так что я крутой и считай уже все знаю, могу пофлексить этим.
Аноним 29/11/23 Срд 13:09:29 558137 139
>>558105
Чел, есть чёткая нотация в математике и Q* - это математическая нотация алгоритма Q-learning. На этом свои спекуляции можешь закончить. Это ClosedAI сами сказали над реализацией какого алгоритма работают, они именно про него говорили, а не про PPO и его производные.
> сводишь этот метод до дефолтного Q-learning
А трансформеры у нас не дефолтные уже 6 лет? Заканчивай с шизой вместе с дурачками с реддита. Как ClosedAI этот алгоритм применяют на практике тебе никто не скажет, ты бы ещё reward-модель попросил выложить, а потом заодно веса гопоты. Можешь посмотреть на реализацию APA от Беркли, если интересно как в реальности сейчас reinforcement learning используют в LLM, там без Q, просто PPO.
https://starling.cs.berkeley.edu/
Аноним 29/11/23 Срд 14:04:48 558167 140
>>558137
>выложить, а потом заодно веса гопоты
Они так то должны были это сделать. Но жадность поебдила.
Аноним 29/11/23 Срд 18:52:49 558408 141
>>557204
>Чел, OpenAI именно этим сейчас и заняты, пришивая Q-learning к GPT. AGI-шизики как всегда тупые.
Это понятно, но тот анон пошёл ещё дальше. Я ему говорю, что вычислительный AGI невозможен в принципе, как показали исследования последних лет в области теоретической биологии, а он мне отвечает, что вот сейчас ещё "к инференсу прикрутят reinforcement learning" и всё ништяк сразу будет.
Если не верит, то пусть ищет ошибки в тех статьях, а нерелевантную чушь про всемогущий reinforcement и прочий "биттер лессон" писать никакого смысла нет.
Аноним 29/11/23 Срд 19:11:24 558414 142
>>558408
> вычислительный AGI невозможен в принципе
Тебе уже сказали раньше что твоё шизоидное определение AGI не соответствует реальности.
> исследования последних лет в области теоретической биологии
Опять выдавание желаемого за действительность и споры с голосами в голове, не имеющими вообще никакого отношения к AGI.
Аноним 29/11/23 Срд 19:35:49 558428 143
>>558414
Ну ясно. Айтишники всегда могут выдумать своё определение AGI и реализовать его уже в таком упрощённом виде. Не беспокойся, никто у тебя работу не отнимет, ведь у маркетологов из Кремниевой долины гораздо больше денег для пропаганды своих идей, чем у учёных. И исследования ты можешь и дальше не замечать.
Аноним 29/11/23 Срд 19:48:50 558443 144
>>558428
Шизоид, плиз. Определение AGI от Гугла из 2019:
> AGI could learn to accomplish any intellectual task that human beings or animals can perform.
От ClosedAI из 2023:
> AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks.
Задачи симулировать мозг и мыслительные процессы людей там вообще не стоит, никогда и не было, речь только про выполнение умственных задач. Только шизы приплетают биологию сюда. Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом.
> исследования ты можешь и дальше не замечать
Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу.
Аноним 29/11/23 Срд 20:12:31 558491 145
>>558443
>AGI could learn to accomplish any intellectual task that human beings or animals can perform.
Нормальное определение.
>AGI has been defined as an autonomous system that surpasses human capabilities in the majority of economically valuable tasks.
Определение ASI.

Обидно смотреть как много гугл контрибьютит в ИИ, как шире и правильнее их понимание в этой теме и как они сейчас сосут по сравнению с ОпенИИ, которым просто повезло с маркетологами и с тем чтобы выбрать и пушить правильную нишу. С другой стороны, они до сих пор не смогли сделать чтобы Бард не галлюцинировал хотя бы на уровне Гпт-3.5
мимо
Аноним 29/11/23 Срд 22:58:51 558649 146
>>558491
>по сравнению с ОпенИИ, которым просто повезло с маркетологами
С разработчиками им повезло, их продукт реально лучше гуглопараши в языковых вопросах.
Аноним 01/12/23 Птн 13:20:39 559932 147
>>511426 (OP)
Есть тут знатоки? Допустим у меня какая-то сложная функция многочлена, y от x, я хочу, чтобы моя модель предсказывала ее значение на любом x даже на том, на котором данных нет.
Да похуй, даже простая синусоида, если.
Я вижу два способа:
1. подавать рандомные x в качестве входных данных и значение six(x) в качестве проверки на выходе.
2. Использовать реккурентные сети, то есть x вообще никуда не подавать, а подавать только предыдущие значения y и предсказывать следующее.
Какой метод лучше всего подходит для данной хуйни? Можно обосновать?
Аноним 01/12/23 Птн 14:32:55 559954 148
>>559932
Чел, нейросети - это статистика, палю тебе лайфхак. Берёшь "какая-то сложная функция многочлена", скармливаешь ей рандомные инпуты, сохраняешь ответы в БД, по запросам достаёшь ответы из неё. Профит, ты сделал нейросеть из одного слоя, ты теперь молодец. Можешь ещё усреднить статистику - это ты "обучишь" эту сетку.
Аноним 01/12/23 Птн 15:00:08 559971 149
>>559954
Я пока нихуя не понимаю на низком уровне, как все это делается.
Допустим я научу на значениях от 0 до 100 по x на функции sin(x), оно будет так же предсказывать значения на любых других отрезках? Типа если я задам уже обученной модели 250 или 1000 по иксу? Но вопрос был в том, какой именно метод лучше использовать и почему. Типа с подачей X или просто рекурентную сеть как последовательность предыдущих значений по игрику? Я так понимаю, что рекурентные сети лучше подходят тогда, когда нет какой-то привязке к времени, а когда есть тогда похуй?
Аноним 01/12/23 Птн 15:48:14 560002 150
>>559971
Ты вообще хуйнёй пытаешься заняться. Бери задачи из статистики, а не арифметики. Нейросети нужны когда ты не знаешь как из инпута получается ответ, скармливая сетке статистику ты можешь научить её предсказывать эти ответы. Эффективность калькулятора на нейросетях околонулевая будет.
> какой именно метод лучше использовать
Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ. Тут в принципе нормального метода не может быть. Ты думаешь почему в LLM сетки возвращают вероятности для всего словаря, а не просто значение токена? Сетки умеют нормально работать только со статистикой, и ответы они дают в виде некоего статистического распределения.
Аноним 01/12/23 Птн 18:24:10 560099 151
>>558443
>Только шизы приплетают биологию сюда.
Ты просто тупой.

>Поделись своими фантазиями о том что такое AGI, посмеёмся всем тредом.
Вот это подходит:
>Определение AGI от Гугла из 2019:
>> AGI could learn to accomplish any intellectual task that human beings or animals can perform.
Охренеть, конечно, у вменяемых людей определение AGI всегда было таким, но у нейродебила с двача его Гугл придумал в 2019.

>Это ты как раз игноришь абсолютно все исследования по нейросетям, приплетая какое-то говно вообще из других областей и выдумывая определения на ходу.
Нет никаких исследований по нейросетям, кроме чисто экспериментальной инженерной херни, которая ни на какие фундаментальные вопросы не отвечает. Вапниковская тема тоже далеко не пошла, и понятно, почему так.

>Шизоид, плиз.
У тебя, как и ожидалось, нет никаких аргументов. Идёшь нахер.
Аноним 01/12/23 Птн 22:39:33 560366 152
>>559932
А нахуя тебе? Если это конечная задача, то лучше воспользуйся дефолтными методами аппроксимации. Если хочешь именно нейронку, то используй, лол. Нейронка и есть по сути универсальный аппроксиматор. Набери датасет из известных пар x и y, подели на часть для тренинга и тестирования, возьми какую-нибудь дефолтную однослойную нейронку, да обучи стандартным методом кераса. Это прям самая базовая задача по машинному обучению по сути.
Аноним 07/12/23 Чтв 13:47:38 566082 153
>>511426 (OP)
Решил локально запустить сетку на 3060. В Пайчарме скачал готовую модель, чуть чуть разморозил, добавил слоёв, запустил обучение - учится на КПУ. С сайта нвидии ставил КУДУ, драйвера. Ставил тензорфлоу с поддержкой ГПУ через пип инсталл. Пакеты в пайчарме ставил. Не запускается на ГПУ. При использовании model.to(device) - ошибка, что нет такого метода to. При использовании model.cuda() - такая же ошибка. При этом device корректно определяется.
Аноним 07/12/23 Чтв 13:52:07 566083 154
>>566082
Пиздец каша в башке у тебя. Не пиши такую шизу больше сюда.
Аноним 07/12/23 Чтв 13:52:32 566084 155
>>559932
Если у тебя уже есть уравнение, значит ты итак можешь любой у на любом х узнать. Сети нужны, когда у тебя есть куча пар х и у, чтобы выявить закономерность-уравнение и предсказывать значении у при изменении х.
Аноним 07/12/23 Чтв 13:53:18 566086 156
>>566083
>>566082
Похуй, я понял, где обосрался. Вечером исправлю.
Аноним 11/12/23 Пнд 11:54:29 569715 157
Анончики, а вот вопрос такой. Я нуб в ваших машин лернингах, вкатываюсь по гайдам. Взял вот эту хуевину:

https://github.com/pytorch/examples/tree/main/reinforcement_learning

Но сделал свое чуть другое gym environment. Саму нейронку оставил как есть (скорректировал количество входящих параметров, их стало на 1 больше). В итоге у меня происходит такая хуйня. Как вы поняли из ссылки, это обучение с подкреплением, типа, балансир, он стремится упасть, но можно низ двигать вправо-влево и держать его в балансе. Задача нейронки научиться это делать. В примере с гитхаба все работает, причем даже двумя способами. У меня после десятка итераций нейронка начинает двигать стабильно "влево" или "вправо", ессно балансир сразу падает. Я сравнивал, что идет на вход нейронки у меня и в примере - вроде более-менее то же самое. Но у меня нейронка выдает стабильно "влево", причем по мере обучения вероятность этого "влево" доходит до 100%, независимо от входных данных.

Видимо, дело в каких-то параметрах типа скорости убывания подкрепления или что там еще. Попробую их поменять туда-сюда, может поможет. Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах?
Аноним 11/12/23 Пнд 12:00:36 569721 158
>>560002
>Ты сразу же обосрёшься с абсолютным значением, если попытаешься в выводе сетки получить ответ.
А как вообще делают, если надо от сетки получить числовой ответ? Допустим, я хочу предсказать стоимость квартиры. Смотрел пример на торче, но он выдает вердикт "ниже/выше рынка" если я правильно понял. А вот когда мне надо числовое значение получить? И хотелось бы, чтобы по мере обучения это числовое значение было все точнее, т.е. появлялось больше значащих цифр. Как это делают в индустрии?
Аноним 11/12/23 Пнд 14:08:55 569804 159
>>569715
> Подскажите такой вопрос: как в торче смотреть внутренности нейронки и понимать, что обучение заходит не туда? Есть ли какие-нибудь тулы для этого? Или только проверять работу на примерах?
Графики с метриками. Аккураси, лоссы и проч.
Аноним 11/12/23 Пнд 14:18:02 569811 160
>>569804
>Аккураси, лоссы и проч.
Спасибо за ответ. Где про это читать?
https://pytorch.org/tutorials/intermediate/tensorboard_tutorial.html
Это оно? Или есть более толковые статьи?

> Попробую их поменять туда-сюда, может поможет.
Уменьшил параметр ГАММА с 0.99 до 0.98 - нейронка обучилась за 500 эпизодов. Анончики, я так счастлив! Правда, перед этим облазил кучу всяких статей. Обнаружил, что некий Vasiliy Polushkin уже задавался подобным вопросом on 28 Apr 2020: https://www.mathworks.com/matlabcentral/answers/521467-the-reward-gets-stuck-on-a-single-value-during-training-or-randomly-fluctuates-reinforcement-learni
Аноним 11/12/23 Пнд 15:53:39 569927 161
RL MK.mp4 16849Кб, 1920x810, 00:01:30
1920x810
Из редита.
Сражаясь на этапе «Выносливость», игрок сталкивается с двумя противниками в каждом раунде, один за другим (в данном случае первый Кано, а второй Соня), и чтобы победить, ему необходимо победить их обоих.

Это нетривиальная задача, так как здоровье игрока не сбрасывается, поэтому второму противнику легко победить. Вот что происходит в первом раунде, когда Соня убивает Сектора.

Но посмотрите, что происходит во втором раунде, модель нашла более простой способ победить: она почти убивает Кано, первого противника, и вместо того, чтобы добить его, он участвует в танце роботов, чтобы обмануть игру и заставить таймер раунда истечь. обеспечить победу, не встречаясь со вторым противником!

Это возникающее поведение, возникающее только в результате обучения RL, для его получения не было изменено никакого специального кода или функции вознаграждения. Мы видели, как это происходит последовательно и используется моделью, чтобы обойти внутреннюю трудность этого конкретного этапа.

Один из самых увлекательных аспектов обучения с подкреплением — это наблюдение за возникающими моделями поведения, позволяющими достичь задачи способами, о которых вы даже не ожидали.
Аноним 11/12/23 Пнд 21:50:32 570385 162
>>569927
Баян, ещё с тетрисом видел.
Аноним 14/12/23 Чтв 23:48:01 573443 163
>>569927
Так это классика "работающего" рля: вместо интересного для применения решения сложной задачи, модель перебором просто достаточно быстро находит баги в твоей симуляции и их эксплуатирует
Аноним 17/12/23 Вск 22:44:02 575981 164
>>553805
В же статье написано что ускоряется только инференс. А тренировать все так же медленно. Или я не так понял?
Аноним 17/12/23 Вск 23:31:05 576073 165
>>569927
Ну, эта хуйня работает даже с эволюционными алгоритмами. Они очень хороши в наёбывании системы и поиске малейших лазеек.

Если ты задашь ему сделать оптимальный по бензу автомобиль, он может тебе ненароком сделать табуретку, которая едет за счёт тектоники плит.
Аноним 18/12/23 Пнд 06:47:25 576316 166
Можете пояснить за рынок вакансий РФ, связанных с machine learning?

Есть ли что-то, не связанное с распознаванием/генерацией изображений и NLP?
Аноним 18/12/23 Пнд 14:20:03 576493 167
А поясните долбоебу как это DDP в торче работает?
Есть вот исследование с моделькой и кодом, там DDP. В исследовании говорится типа "модель тренировалась с batch=3, max_step=50000 на 4 GPU".
То есть получается финальная модель видела 50000x4 семплов? Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза?
Аноним 18/12/23 Пнд 14:42:52 576517 168
>>576493
> Если я хочу воспроизвести описанные результаты на 1 GPU с таким же batch_size - мне нужно увеличить кол-во итераций в те же 4 раза?
Нет, надо gradient accumulation использовать, если нет памяти. В текстовых моделях вообще батч-сайз бывает под 1024 и более для нормальной генерализации.
Аноним 18/12/23 Пнд 14:45:50 576520 169
>>576517
Не-не, это не LLM, это pix2pix на трансформере, он в один GPU влазит
Аноним 02/01/24 Втр 21:15:17 589946 170
16986832518320.png 96Кб, 682x639
682x639
>>511426 (OP)
Так может ли AGI БЫТЬ?
а то та новость от ведущих учёных немного интересует
Аноним 02/01/24 Втр 21:24:24 589960 171
>>589946
Уже обоссали, AGI к биологии никакого отношения не имеет и сравнивать его с живыми организмами - высасывание из пальца грантов. Трансформеры уже давно нахуй послали классические нейросети по образу и подобию мозга.
Аноним 05/01/24 Птн 12:50:50 592029 172
Какие есть идеи анализа-детекта видео нейросетями, кроме банального подхода, что каждый кадр это отдельно́е изображение?

Может модели контекста, обратной связи? Накопления?

Не только для видео, а для любых продолжительных сигналов без резких изменений, монотонных.
Аноним 05/01/24 Птн 14:31:54 592132 173
>>592029
Чел, ты реально даже в гугл не заходишь перед тем как такие высеры писать?
Аноним 05/01/24 Птн 15:33:14 592165 174
>>592132
Ты с какого района, гопник-программист?

То, что гугль выдает тысячи результатов по запросам лайк motion image segmentation neuro etc, не значит, что инфа существует.

Впрочем, сформулируй концепцтуальные идеи такой обработки, может я ошибаюсь.
Аноним 05/01/24 Птн 16:04:53 592180 175
1616059911863.png 166Кб, 815x713
815x713
>>592165
Чел, зайди на HF и выбери модель какая понравится.
Аноним 05/01/24 Птн 16:33:01 592198 176
>>592180
Похоже, ты не понял вопрос
Аноним 06/01/24 Суб 00:23:52 592704 177
Заканчиваю Computer Science бакалавра, скоро начну магистра делать, в планах стать MLE. Ищу подработку стажером. Имеет ли смысл работать стажером аналитиком данных при моих планах стать МЛЕ? Аналитик данных как я понял не программирует и он даже не дата саентист.
Хрюша сказала что подхожу, скоро собеседование с ИТ отделом.
Аноним 06/01/24 Суб 12:09:53 592922 178
>>592704
Устраивайся хоть куда-нибудь, без опыта ты вообще никто. И да, ты уже целый бакалавр, а не работал? Что ты там в институте вообще делал? Хуи пинал?
Аноним 06/01/24 Суб 21:40:00 593397 179
>>592922
> Хуи пинал?
Даже сосал.
Аноним 07/01/24 Вск 03:27:45 593727 180
>>592922
>Устраивайся хоть куда-нибудь, без опыта ты вообще никто.
Спасибо, принял.
Почти всё что есть это моя работа бакалавра: в симуляции ROS летающий робот (Astrobee на ISS в японском отсеке) с камерой смотрит на другой летающий объект в невесомости и определяет расстояние и направление относительно камеры (ключевые слова: Computer Vision, Dataset Generation, Machine Learning, 6-DOF Pose Estimation, YOLOv8). Причем с созданием датасета я ебался гдето 75-80% времени.

>Хуи пинал?
Да и телок ебал, работать идти я даже и не думал, бабки были.
Аноним 07/01/24 Вск 11:03:57 593897 181
>>593727
>созданием датасета я ебался гдето 75-80% времени.
Чот кекнул с этого специалиста
Аноним 07/01/24 Вск 17:52:42 594160 182
>>511426 (OP)
>В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus.
Как бы ее освоить поэффективнее? Решать в тетрадке задачи из учебников это классика, но я вот встретил курс coding the matrix - там линейная алгебра объясняется через питон и все задачи на нем решаешь - мне очень нравится. Есть курсы или книги, чтобы другие разделы математики также объяснялись - через программирование?
Аноним 08/01/24 Пнд 05:41:17 594580 183
Как в C# использовать видеокарту для обучения? Я именно сам описываю масссивыы и циклы с операциями, а не библиотекамми пользуюсь, и хочу использовать видеокарту для этого.
Аноним 08/01/24 Пнд 07:56:13 594599 184
>>594580
Используй какое-нибудь из апи, типа opencl, cuda, vulkan
Аноним 09/01/24 Втр 21:47:27 598210 185
>>594580
Биндинг торча есть, хуй знает какой свежести он. Но лучше не трогай шарп вообще, сиди на питоне для обучения.
Аноним 10/01/24 Срд 04:53:06 598748 186
>>598210
Торч - это не самый низкий уровень. Самый, ну вернее достаточно, низкий - это одно из апи
Аноним 13/01/24 Суб 02:20:46 605730 187
>>593897
Основная часть работы в любом реальном мле - где достать данные и как почистить, зумирок
Аноним 15/01/24 Пнд 19:21:07 610632 188
Какие решения можно взять в основу мультимодальной системы для создания (+ теста и компиляции) новых оригинальных видеоигр? (Для начала пусть будут 8-битные, для NES)

А также, в чем сложность сделать из коробки генерацию продукта по инструкции?
Аноним 15/01/24 Пнд 19:22:46 610635 189
>>605730
Данные берутся из интернета, а чистятся клипом и эстетическим оценщиком, зумер.
Аноним 16/01/24 Втр 18:36:45 611695 190
Модели нынешних нейростей придуманы 70 лет назад. Как я понял, в СССР они были не в почете, потому что нашел 0 советских книг о них.

Как я понял, в СССР больше угорали по импульсным нейросетям.
Аноним 16/01/24 Втр 18:42:51 611700 191
>>611695
Все что было в СССР из технологий - это реплики нормальных разработок. Как у Китая сейчас и тогда тоже. Процы они сейчас только научаются копировать какой-то 20-летней давности

Так что серьезно даже не задумывайся об СССР как о гиганте, в лучшем случае это ушедший в прошлое аналог современного Китая
Аноним 16/01/24 Втр 18:46:05 611702 192
>>611695
"В лучшем" я написал потому, что китайские копии хотя бы дешевые
Аноним 17/01/24 Срд 02:28:10 613126 193
>>589946
>Так может ли AGI БЫТЬ?
Нет, не может. По крайней мере в научном мире никто ничего не придумал против этой статьи и многих десятков подобных ей.
Этого еблана >>589960 не слушай, он очень тупой.
Аноним 17/01/24 Срд 08:53:44 613438 194
>>613126
>научном мире никто ничего не придумал против этой статьи
Потому что о ней никто не знает, дебич.
Аноним 17/01/24 Срд 23:54:59 614780 195
>>613438
Не знают о ней только мл-макаки, а серьёзные люди обычно следят за работами персонажей уровня >>594615 → .
Аноним 18/01/24 Чтв 00:04:50 614800 196
>>614780
> серьёзные люди обычно следят за работами персонажей уровня
Только разве что ради смеха, чтоб посмеяться с этих потешных персонажей, лезущих из биологии в то что вообще не понимают.
Аноним 18/01/24 Чтв 00:19:23 614832 197
>>611700
Но ведь китай не придумывал атеншен, а совок придумывал
Аноним 18/01/24 Чтв 00:38:04 614866 198
>>614800
Всё ясно, ты стандартный долбоёб. Иди нахуй.
>в то что вообще не понимают
И да, в машобе нечего понимать. Это не наука, а способ заработка.
Но у тебя слишком высокое самомнение и слишком низкое образование, чтобы это понять.
Аноним 18/01/24 Чтв 00:42:47 614876 199
>>614832
Либерасту нельзя такое говорить, у него сердечко не выдержит. Не говорите либерасту, что СССР придумал продвинутый бэкпроп и половину мл своего времени.
Аноним 18/01/24 Чтв 08:52:32 615053 200
>>614876
>СССР придумал продвинутый бэкпроп и половину мл своего времени.
За этот ебнутый сленг в СССР исключили бы из комсомола, а потом расстреляли.
Аноним 18/01/24 Чтв 08:54:08 615054 201
>>614832
>а совок придумывал
С помощью героических разведчиков?
Аноним 18/01/24 Чтв 09:21:52 615061 202
>>615053
Этож не хохляндия современная чтобы таким идиотизмом заниматься
Аноним 18/01/24 Чтв 09:57:52 615073 203
>>615061
"преклонение перед западом" - гугли, зумерок
Аноним 18/01/24 Чтв 14:41:32 615324 204
>>614876
Это никого не интересует кроме совковых дурачков с самолюбованием.
Аноним 18/01/24 Чтв 15:07:16 615354 205
>>615324
Ну естественно, ведь ебланы типа тебя об этом даже не знают.
Аноним 18/01/24 Чтв 18:15:58 615584 206
>>614780
>следят за работами персонажей уровня
Чел, сейчас уже никто не следит за работами отдельных людей. Тем более дрочество на титулы в науке не приветствуется.
>>614876
>Не говорите либерасту
Я либераст до мозга костей, и мне похуй, что у совка нейронки почту сортировали ещё до рождения большинства посетителей раздела. Вопросы?
Аноним 19/01/24 Птн 20:06:31 617629 207
>>615073
А ты погугли что такое СССР тогда в разные периоды, дурачок
Аноним 19/01/24 Птн 23:13:57 618294 208
Какие есть способы быстро находить местоположение объекта на картинке?
Я сейчас пробовал только разбиение картинки на мелкие прямоугольники и применение метода компьютерного зрения на них по отдельности.

Предполагаю, можно раскормить сеть, чтобы реагировала независимо от расположения, а потом наоборот, выбрасывать части, где объекта нет.

Есть ли что-то еще быстрее?

Хотть раздел и нейросети, мне не обязательно именно нейросетью это делать, могу текстонами, статистикой по цветам, или ещё чем-то, чем подскажете делать, если это сильно быстрее получится.
Аноним 20/01/24 Суб 07:35:44 619186 209
>>618294
> Какие есть способы быстро находить местоположение объекта на картинке?
Гугли DETR ResNet-50
Аноним 21/01/24 Вск 07:38:56 620875 210
Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние?
Если да, то как интеррогаторы типа DeepDanbooru с этим справляются, ведь там наверняка у большинства картинок в датасете есть лейбл 1girl или solo?
Аноним 23/01/24 Втр 13:48:36 623584 211
>>620875
>Дисбаланс в датасете классов для мульти лейбл классификаторе оказывает негативное влияние?
Да.
>как интеррогаторы типа DeepDanbooru с этим справляются
Никак, лепят 1girl куда попало.
Мимо обыватель.
Аноним 25/01/24 Чтв 23:11:54 626378 212
Чо, там, нейросети научились модерировать контент?
Аноним 28/01/24 Вск 18:43:33 629438 213
>>626378
Определение токсичности это уже лет 5 как решённая задача.
Аноним 29/01/24 Пнд 13:31:43 630142 214
>>623584
> Да.
Ансамблирование может помочь? Если разбить несбалансированный датасет на 3-4 группы сбалансированных и на них обучать? Потом склеить вывод обученных моделей.

мимо
Аноним 30/01/24 Втр 20:17:43 631450 215
image 724Кб, 960x1280
960x1280
image 37Кб, 670x327
670x327
Ахахаха, сначала как трагедия, затем как фарс. Важная пафосная мл персона список на собесе развернуть не смогла)))
Аноним 30/01/24 Втр 21:29:26 631534 216
>>631450
Так Bojan физик-теоретик, ясен хуй ему западло в CS-говне ковыряться полгода.
Аноним 31/01/24 Срд 10:35:57 631964 217
изображение.png 21Кб, 355x164
355x164
изображение.png 36Кб, 295x154
295x154
>>631450
>Важная пафосная мл персона список на собесе развернуть не смогла
А кто блядь сможет? Сразу видно выскочку из двухнедельных курсов по прохождению собеседований.
Найм в IT давно сломан нахуй. Я последнее предложение по работе послал нахуй, когда они мой возраст спросили, лол.
Впрочем трагедия тут в деградации яичек соискателей. В 2015-м могли написать fuck, а в 2024 ссыкуют.
Аноним 01/02/24 Чтв 14:05:26 632884 218
image 71Кб, 1280x719
1280x719
>>631964
>Сразу видно выскочку
>Найм сломан!!!1111
>А кто блядь сможет?
Хуя пригар. Кто-кто, человек с iq > 80, не аги ресерчир конечно
Аноним 02/02/24 Птн 11:07:41 633654 219
Подскажите зачем столько фреймворков на обучение lit-gpt, EasyDeL, PEFT, ну и другие просто десятки разных вариантов.

Второе как все таки что то обучить на tpu в коллабе, ведь там как я понял допотопные драва на TPU jax новый не работает, другие библиотеки пробовал тоже косяки они хотят TPU VM, в коллабе его нет.
Аноним 02/02/24 Птн 12:36:48 633689 220
>>633654
>зачем столько фреймворков
Чтобы было.
>на tpu в коллабе
Он там умер давно.
Аноним 02/02/24 Птн 13:19:52 633707 221
>>633689
А что он там умер по какому поводу? То что не обновляют его? Это ведь не значит что можно как то исхитрится. И ресурсы доступнее для того наверно и делалось, чтоб нормальная версия за денюжку.
Аноним 02/02/24 Птн 13:53:21 633727 222
>>633689
Просто там может еще какие ограничения на TPU которые принципиально не дают запустить обучение? Стоит ли ебаться с TPU пытаясь запустить обучение ил в любом случае не выйдет?
Аноним 03/02/24 Суб 12:22:31 634238 223
Что то я не совсем понял почему в lit-gpt пишут что обучение на двух видеокартах медленнее. Ведь при обучении можно делать много потоков видюха номер 1 не должна простаивать пока вторая вычисляет другую часть модели, ведь в первую ведюху можно еще задач накидать, необязательно ждать полного вычисления семпла, чтоб пустить второй.
Аноним 10/02/24 Суб 04:50:05 639284 224
Почему для генерации не используют encoder-only? Просто поставить маску в конце и и генерировать потокено. И затюнить соответствено.

И второй вопрос можно ли из любого decoder-only сделать энкодер, выключив маскировку? И использовать его на задаче заполнения текстом?
Аноним 22/02/24 Чтв 18:41:42 649006 225
image 127Кб, 704x800
704x800
Аноним 27/02/24 Втр 14:42:34 653261 226
Добрый день, люди добрые!
Решил вкатиться в ИИ с нулевым бэкграундом, до этого кем только не работал. Знакомые порекомендовали направление промт-инженеринга как самое перспективное и свежее. Хотел узнать у анонов такие вещи как:
1) Действительно ли промт-инженер это так круто, почетно и перспективно?
2) Сколько нужно потратить времени чтобы с нуля быть готовым к работе в этом направлении? Какие обучалки порекомендуете
3) Реально ли устроится в РФ и найти работу промт-инженера ВТЧ без реального опыта( допустим я его нарисую пройдя обучалки). либо напрошусь как стажер
Аноним 27/02/24 Втр 17:38:23 653369 227
>>653261
>1) Действительно ли промт-инженер это так круто, почетно и перспективно?
Нет, промты может писать хоть секретутка. Порог входа не просто низкий, он нулевой нахуй. Ты уверен, что хочешь конкурировать за миску риса буквально со всем населением страны?
>Реально ли устроится в РФ и найти работу
Нет конечно, не в этой стране. Пиздуй на завод в ВПК, только там работа осталась. А в остальном я даже с 5 летним опытом программача не могу РАБоту найти.
Ну или съебись предварительно в СШП или другую развитую страну.
Аноним 28/02/24 Срд 11:22:14 654071 228
>>653261
> Реально ли устроится в РФ и найти работу промт-инженера

Лол, разве что по блату куда-нибудь программировать нейро-Жириновского на платформе GPT-4 за бюджетные средства
Аноним 28/02/24 Срд 23:30:45 654594 229
Migrating neuro[...].mp4 3090Кб, 500x480, 00:00:33
500x480
Neurons under m[...].mp4 1966Кб, 614x480, 00:00:15
614x480
Посмотрите на прилагаемые видео. Вы можете наблюдать как нейрон ползает туда сюда в поиске других нейронов, его отростки тянутся к другим нейронам, они постоянно в поиске других отростков, они постоянно формируют новые связи и строят масштабные сетевые и гиперсетевые структуры, в то время как искусственные нейроны структура негибкая, они не строят новые связи в реальном времени, они просто статично стоят на месте и обучены делать только то на что их обучали, а потом все удивляются, почему же нейросетки такие тупые, почему в них нет сознания? Нужна новая архитектура нейронок, такая которая будет сама создавать новые нейроны и устанавливать все параметры, а над ней будет миллиард слоёв других нейронок, в каждом слое каждая нейронка отвечает за что-то своё, мозг не зря разделён между собой на зоны. Таким образом удастся создать нечто похожее на постоянный процесс напоминающий реальную жизнь, таким образом удастся задать какую-то мотивацию для "клеток". И во всём этом хаосе у нейронки появятся слои абстракции с возможностью к восприятию, целеполаганию, самоанализу и решению задач в реальном времени.
Аноним 29/02/24 Чтв 12:01:47 654795 230
>>654594
Всё так. А дальше что? Трансформеры взлетели из-за лёгкости тренировки.
Аноним 01/03/24 Птн 06:27:38 655456 231
Когда там сингулярность.
Аноним 01/03/24 Птн 10:30:03 655520 232
Аноним 01/03/24 Птн 10:37:12 655527 233
>>655456
Скоро, думаю уже через 10 лет ПОЧНЕТСЯ. Вероятно и раньше.
Аноним 01/03/24 Птн 11:31:18 655547 234
>>614876
Cccr ничего не придумывала, а только грабила создателей.
Аноним 02/03/24 Суб 06:43:38 656219 235
2024-03-0206-39[...].png 661Кб, 1920x1080
1920x1080
2024-03-0206-38[...].png 816Кб, 1920x1080
1920x1080
Аноним 02/03/24 Суб 14:28:24 656436 236
изображение.png 72Кб, 523x204
523x204
изображение.png 33Кб, 539x170
539x170
>>656219
Поссал в ротешник шизику.
Аноним 03/03/24 Вск 00:09:11 656989 237
>>656219
Чел просто рандомные словосочетания написал в табличку
Аноним 03/03/24 Вск 03:35:23 657075 238
>>656989
Просто серанул в лужу или будут пруфы?
Аноним 03/03/24 Вск 04:36:10 657093 239
Аноним 03/03/24 Вск 06:16:33 657109 240
изображение.png 732Кб, 678x624
678x624
>>600012 →
Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов или что там себе нейродебилы при упоминании биолога представляют, но увидел твой комментарий с хейтом математики в и проиграл.
Машоб. 2024. Итоги.
>>614866
Обнял.
Аноним 03/03/24 Вск 06:24:55 657110 241
>>657093
Ты даун нахуй? пруфы своего высера или какие-то аргументы, я тоже могу написать что ты просто рандомные буквы высрал без каких либо пруфов
Аноним 16/03/24 Суб 14:47:57 672427 242
image.png 472Кб, 640x360
640x360
>>558408
>>553710
> что человеческий вариант мышления - это единственный способ достижения AGI? Может быть в вашем понимании определение AGI значит искуственный интеллект с человеческим мышлением, в моем же понимании AGI - это искусственный интеллект способный решать любую умственную задачу на которую способен человек
А чё там решать? Смотришь, чё было раньше и делаешь также. Только для всего в теле носителя ИИ.
Расскажите про архитектуру по хардкору.
Понятно уже, что память с программой в одном месте должна храниться как-то, потому что долго смотреть, чё было раньше. А что насчёт реализации этой парадигмы? Что можно почитать на эту тему?
Аноним 16/03/24 Суб 14:50:05 672430 243
>А что насчёт реализации этой парадигмы? Что можно почитать на эту тему?
>>553843
>>672427
Аноним 21/03/24 Чтв 03:05:07 676688 244
Сука, ни одного нормального видео по селф-атеншну в интернете, только двухчасовые лекции. Что там два часа, нахуй, ковырять? Расскажите вы про базовый механизм, как это работает в общем и все, без реализаций, ваших мыслей, отсылок на Ницше, математического смысла данной концепции, рассказов о том, что это было в библейском пророчестве и советов о том какое аниме посмотреть. Просто, сука, расскажите про них нормально. Я не датасцаентист, но хочу знать принцип работы, а пока по всей информации что я пока имею, общий образ о том что это такое я пока не собрал. Для меня это сейчас какой-то псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом оптимизированный под то, что не все варианты одинаково эффективно приминимы и часть из них можно выкинуть, чтоб меньше времени на генерацию уходило, в ущерб качеству.
Аноним 29/03/24 Птн 11:19:56 686645 245
1575430846087.png 281Кб, 1600x751
1600x751
>>676688
У перцептрона связи статичные. Аттенш позволяет обобщить перцептрон и выучить новую топологию.
Аноним 29/03/24 Птн 20:35:40 687402 246
>>686645
Все равно механизм не понятен. Это не то чтобы новая топология получается, ведь значения аттеншна не строго 0 или 1, это скорее фокусировка на определенной части нейронов. Но откуда оно берется, как оно понимает на каких токенах фокусироваться?
Аноним 31/03/24 Вск 01:41:09 688801 247
Анончики, что-то я вкрай ебанулся. У меня есть нейронка по приципу регрессии. Прогон бек-пропагации + шага оптимизации ухудшает лосс-фукцнию. Как такое вообще математически может быть? Как это в теории можно отлаживать вообще?
Аноним 01/04/24 Пнд 18:11:44 690649 248
>>676688
Что, и здесь тоже непонятно?
https://jalammar.github.io/illustrated-transformer/
Их в общем-то несколько видов, тут описан мультипликативный но идейно это примерно всё то же
> псевдо-брутфорс всех возможных вариантов взаимодействия токенов друг с другом
что ты и написал. "Сопоставляем токенам вектора и суммируем их с обучаемыми весами похожести" .

А если ещё с более научной точки зрения, а не по млному: меняем немного нераспараллеливаемых нелинейных операций на небольшом количестве параметров на много распараллеливаемых матричных умножений на огромном количестве параметров. Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!) и поэтому не могла быть реализована до того как насобирали достаточно данных и мощностейпришли гении и совершили Открытие
Аноним 02/04/24 Втр 10:12:32 691200 249
>>688801
1. Данные говно
2. Ландшафт потерь ебанутый
3. Переобучение
4. Гиперпараметры говно
Аноним 05/04/24 Птн 14:00:01 693985 250
>>690649
>линк
Хорошо разжевал, но скипнул самую интересную часть. Как обучаются эти query, key и value матрицы? Можно спихнуть все на back propagation, что оно типа само там как-то неизведанными методами понимает какие значения там должны быть. Оно в общем-то так и есть, но у меня в голову не укладывается как это реализуется в подобных архитектурах. Метод обратного распространения ошибок - это алгоритм обучения нейронных сетей, именно самих сетей (собственно feed forward модель тут), математических структур состоящих только из нейронов и связей между ними, веса для которых он и получает в процессе обучения. Но мне не понятно как это реализуется в нейросети с подобным огромным обвесом, как обучается динамическая часть этого обвеса (эти матрицы и прочие неконстантные значения).
Аноним 05/04/24 Птн 18:57:45 694252 251
Чому все дрочат на эти мат функции, если они даже отдаленно не похожи на реальные нейронные сети? Есть же SNN, почему про них практически ноль информации и никто даже не пытается делать что-то на них
Аноним 05/04/24 Птн 20:17:15 694341 252
>>694252
>Есть же SNN
Что это?
Аноним 05/04/24 Птн 22:25:21 694454 253
>>694341
Spiking Neural Network, импульсная нейронная сеть
28
Аноним 06/04/24 Суб 00:33:30 694569 254
а нельзя ли как то использовать более сложные функции чем relu gelu чтобы сделать нейросети более компактными?
Аноним 06/04/24 Суб 08:15:47 694773 255
Аноним 06/04/24 Суб 09:16:02 694811 256
>>694252
Бизнес и на обычных хорошо зарабатывает.
Аноним 06/04/24 Суб 09:21:51 694816 257
>>690649
>Данная, как ты понимаешь, сложнейшая идея по мнению современных млщиков никому кроме просвещённых западных учёных в голову прийти не могла (тем более кому-то там из обосранного совка!)
Воистину! Маркетинг своё дело делает.
Аноним 06/04/24 Суб 21:36:39 695616 258
>>694773
и меня gpu маленький
Аноним 06/04/24 Суб 23:11:42 695741 259
>>695616
Так купи большой. Лям и А100 на 80ГБ у тебя в кармане.
Аноним 07/04/24 Вск 03:03:09 695967 260
>>695741
а что никто не пытался такое сделать? наверняка уже сотни исследований есть. я почитал тред, здесь ведь явно профи общаются. что Вам стоит подсказать, не будьте обдрисными мудаками хуесосами
Аноним 07/04/24 Вск 04:30:23 695997 261
>>695967
Я про крупные проекты не слышал. Наоборот, всё попёрло, когда трансформер максимально упростили и накидали сверху параметров. Так что вряд ли кто сейчас будет ресерчить ровно в обратном направлении.
Но лично ты можешь это изменить, написав прорывную функцию активации и взорвать мир!
>здесь ведь явно профи общаются
Лол.
Аноним 10/04/24 Срд 10:23:55 699123 262
>>657109
>Хотел было написать в тред в защиту профа что он гений матана, а не описыватель пятен на анусе павианов
Бесполезно, чел, там в треде некоторые люди всерьёз полагают, что нейросети на магии работают.
>Обнял.
Благодарствую.
Аноним 11/04/24 Чтв 08:21:11 700217 263
>>654594
>>656219
>>694252
Ой, а что случилось? Неужели пидерлесон не работает?
Аноним 15/04/24 Пнд 12:07:42 704674 264
>>654594
Ага, только выращивать и обучать такую сеть придётся дольше реальной.
Аноним 15/04/24 Пнд 12:20:43 704676 265
>>553710
>человеческий вариант мышления - это единственный способ достижения AGI?
Потому что нечеловеческий AGI не будет распознан хуманами как AGI.
>>553279
> самостоятельной навигации по ландшафту данных
Одна из самых сложных задач в обучении людей, тащемта
Аноним 16/04/24 Втр 14:37:57 705684 266
>>704676
>Одна из самых сложных задач в обучении людей, тащемта
Суть настоящего интеллекта в создании ландшафта, а не в навигации по нему.
Аноним 20/04/24 Суб 17:18:37 711157 267
Прифигачил к не мультимодальной модели mmproj от ллавы. Модель понимает изображение в общих чертах понимает цвет, что это примерно что-то маленькое у него есть глаза, но в общем путается в ответах что это. Это нормальное поведение? Я думал что так любой фантюн смогу мультимодальным сделать, но походу придется самому ллаву файнтюнить...
Аноним 20/04/24 Суб 17:19:24 711162 268
>>711157
Не туда отправил. Игнорируем ребят
Аноним 03/05/24 Птн 12:45:38 724682 269
Аноним 03/05/24 Птн 19:21:17 724966 270
>>724682
Сейм щит. Двачую этого анона. Вышла новая архитектура, которая как говорят требует меньши данных, на нехватку которых жаловались разрабы. Там ещё она может обучаться чему-то, что-то. В целом говорится что имба.
Аноним 03/05/24 Птн 19:29:19 724973 271
Осталось представить лицо closeai, когда они скора выкатят gptV, а тут новая архитектура появилась.
Аноним 03/05/24 Птн 21:18:52 725087 272
>>724682
Шо, опять? Мы ещё мамбу не переварили а забили на неё хуй.
Аноним 05/05/24 Вск 01:26:31 726603 273
>>724682
Может будет как с капсульными сетями от Хинтона, а может и взлетит, надо тестировать.
Аноним 05/05/24 Вск 13:48:27 726904 274
Аноним 05/05/24 Вск 15:10:32 726959 275
>>726904
Я запустил один пример, но нихуя не понял.
Мимо бекенд PHP разработчик.
Аноним 05/05/24 Вск 16:31:32 727045 276
>>726904
Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки?)
Аноним 05/05/24 Вск 21:00:30 727397 277
изображение.png 193Кб, 619x584
619x584
Ребят, как этот график вообще читать?

это кусочек fastai, но один поехавший пишет обертку для временных рядов - tsai .


Что мне делать, если у меня хуево генерализируется нейросеть?
Исходных примеров временных рядов - 4, но я из них нарезаю отрезки по 4000 точек и accuracy получается как-бы высокая - 0.80 но при попытке классифицировать пятый пример все идет по пизде - 0.50
Аноним 07/05/24 Втр 13:03:55 730055 278
Традиционным способом добавить обучающего "знания" в нейросеть является Transfer Learning.

Допустим, у меня частотные сигналы с 4, 6 или 12 каналов.
Я знаю, что популярен такой плайплан: запихивают один канал в виде картинки и дальше делают классификацию с помощью fine tuning современной нейронки для картинок.
Можно собрать какую-то нейронку учетверенного размера?
Наверняка, это расточительно, но ради точности чем не пожертвуешь

но что мне делать, если каналов не один и не 3, как на входах у таких нейронов ?
Аноним 14/05/24 Втр 13:52:27 739024 279
>>724682
Мусор. Убийцы традиционных сетей каждую неделю пачками идут
Аноним 16/05/24 Чтв 15:07:38 741993 280
>>694454

Последний раз про них слышал в 2017. С тех пор какие-то подвижки были?
в тему размышлений о контроле за AI Аноним 17/05/24 Птн 18:45:29 744061 281
Аноним 18/05/24 Суб 16:34:49 745356 282
А чем mle на позициях "генеративного дизайна" сейчас в рф занимаются? Промт-тюнингом или натягиванием инфраструктуры для дизайнеров? Или может что-то своё тренят?
Аноним 19/05/24 Вск 01:00:33 746132 283
Анончики, я сегодня нарыл статью 89-го года, в которой математически доказывается, что нейронка с 1 скрытым слоем может апроксимировать любую функцию, при достаточном количестве элементов в скрытом слое. При этом функция активации может быть вообще любая.

https://www.cs.cmu.edu/~epxing/Class/10715/reading/Kornick_et_al.pdf

Я только вкатываюсь в это все. По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно. Вопрос, а где-нибудь разобрано подробно, что надо сделать с ней, чтобы она работала нормально? Ну там, сделать больше элементов или меньше элементов, использовать какие-то специфические функции активации, алгоритмы обучения или вообще что за хуйня с ней происходит.

Речь идет о том, чтобы предсказать числовое значение, исходя из набора входящих значений. В идеале оно должно обучаться на небольшом количестве примеров, после обучения выдавать правильный ответ на такой запрос, которого не было во время обучения, но который можно получить экстраполированием. Ну и чтобы еще можно было получать градиент, проворачивая эту нейронку в обратную сторону (разве я много прошу?)

Интересуют какие-нибудь исследования, лучше с примерами кода, а еще лучше видосик на ютубе, где индус объясняет пример кода. С объяснением, почему оно обычно работает хуево, и как сделать, чтобы работало хорошо.
Аноним 19/05/24 Вск 13:32:01 746708 284
>>746132
>при достаточном количестве элементов в скрытом слое
Ну естественно, если оно сравнимо с количеством точек в датасете то это тривиально. Хуйня
Аноним 21/05/24 Втр 00:56:27 749690 285
А могут ли на собесе на около-датасайенс вакансию, помимо мл релейтед вопросов про ГРАДИЕНТНЫЕ БУСТИНГИ и оптимизаций трехэтажных JOINов, ебать еще и по алгоритмам? А то еще заставят деревья переворачивать и графы решать. Или обычно алгосы не дают на около-датасайенс вакансиях?
Аноним 21/05/24 Втр 22:54:28 751008 286
download.jpg 492Кб, 1024x1024
1024x1024
seed40671.png 332Кб, 512x512
512x512
download (2).png 751Кб, 768x768
768x768
download (4).png 976Кб, 768x768
768x768
Почему в генерациях StyleGAN2 глаза выглядят чище, чем в генерациях SDXL?

Базовый SDXL - почти 7 GB, StyleGAN2 - до 350 MB. Модель в 20 раз меньше, сделана в 2020 году.

Первая пара изображений - StyleGAN, вторая - SDXL. Разница очевидна. В SD завихрения, постоянные нерегулярности в самой простой части изображения. Даже в очень мыльных и поплывших генерациях с TADNE глаза часто выглядят лучше, чем в средней генерации SD. Конечно, в остальной части изображения SD стоит выше, но почему нельзя нормально и глаза генерировать?. В чём дело? Сам процесс генерации создаёт нерегулярности, что ли?
Аноним 22/05/24 Срд 16:50:54 751887 287
>>749690
В нормальных местах всё дают
Аноним 23/05/24 Чтв 11:35:59 753097 288
>>746132
>По моему скромному опыту эта хуйня работает на практике как пиздец, переобучается или хуй ее поймет, выдает что угодно кроме того, что нужно.


Ну с добрым утром, блядь!

А зачем ты нейросети по статье 89 года изучаешь? почему именно считаешь что тебе нужен один слой?

Первое решение - это ранний останов - Early stopping.
по-моему, это буквально в любой книге описано.
Ранний останов, это один из способов так называемой Регуляризации. Идея в том чтобы уменьшить сложность алгоритма в надежде на то, что он выделит главное и это главное будет проще чем частности.
Аноним 23/05/24 Чтв 11:38:04 753101 289
>>749690
А работать за тебя кто будет? В чем выгода компании?

Никого не ебет, что ты весь такой дохуя мотематик.
Чтобы делать только fit/predict, нужно 5 лет разгребать джейсоны
Аноним 23/05/24 Чтв 15:52:44 753416 290
>>751887
>>753101
Понятно что без базовых алгосов никуда. Вопрос понимает следует так, что... Если меня спросит за алгосы, то это будут просто какие-то базовые вопросы или не очень сложные задачи? Или от меня будут ожидания в духе: "Ну раз чел осилил мл, то харды с литкода он должен как орехи щёлкать за десять сек". В общем вопрос в уровне: базовых знаний хватит или прям нужен гига-advanced уровень?
Аноним 26/05/24 Вск 19:17:08 758542 291
>>753416
Мы не знаем.
Если это Яндекс, наверное там очередь таких как ты. И, соответственно, будет всЁ
Аноним 27/05/24 Пнд 06:40:44 759324 292
>>724682
Может это что-то реально новое, а мб "убийца айфона" очередной
Аноним 30/05/24 Чтв 23:24:38 764961 293
Аноним 02/06/24 Вск 23:39:54 768060 294
>>515826
Занимаюсь reinforcement learning и смиуляторами несколько лет. Интересно но сложно, и начать надо с reinforcement learning. Далее можно найти интерсные проекты на гитхабе, либо интересующие публикации и повторить их,

Создание симуляторов -- отдельная песня. Можно заморочиться и пойти в физические симуляторы кинематики и динамики, но сейчас все переходит на gpu. Можно на игрвых на более высоком уровне создавать сценарии для соревновательных игр.

Пока что достаточно 1 гпу для вменяемых результатов, в отличает от языковых моделей где энтузиастам тяжело.

Я пероидически смотрю за новвыми алгоритмами и реализую их и также делаю симы на расте, когда появляется интерес.
Аноним 03/06/24 Пнд 19:02:53 768861 295
Не уверен, в каком треде спрашивать, ткните если не туда запостил:

Не могу собрать PyTorch 2.4.0 на CUDA 12.5 на винде:

[7746/8442] Building CUDA object caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj
FAILED: caffe2/CMakeFiles/torch_cuda.dir/__/aten/src/ATen/native/cuda/RowwiseScaledMM.cu.obj
C:\PROGRA~1\NVIDIA~2\CUDA\v12.5\bin\nvcc.exe -forward-unknown-to-host-compiler -DAT_PER_OPERATOR_HEADERS -DFLASHATTENTION_DISABLE_ALIBI -DIDEEP_USE_MKL -DMINIZ_DISABLE_ZIP_READER_CRC32_CHECKS -DNOMINMAX -DONNXIFI_ENABLE_EXT=1 -DONNX_ML=1 -DONNX_NAMESPACE=onnx_torch -DTORCH_CUDA_BUILD_MAIN_LIB -DUSE_C10D_GLOO -DUSE_CUDA -DUSE_DISTRIBUTED -DUSE_EXTERNAL_MZCRC -DUSE_MEM_EFF_ATTENTION -DUSE_MIMALLOC -DWIN32_LEAN_AND_MEAN -D_CRT_SECURE_NO_DEPRECATE=1 -D_UCRT_LEGACY_INFINITY -Dtorch_cuda_EXPORTS -IC:\AI\pytorch\build\aten\src -IC:\AI\pytorch\aten\src -IC:\AI\pytorch\build -IC:\AI\pytorch -IC:\AI\pytorch\cmake\..\third_party\benchmark\include -IC:\AI\pytorch\third_party\onnx -IC:\AI\pytorch\build\third_party\onnx -IC:\AI\pytorch\third_party\foxi -IC:\AI\pytorch\build\third_party\foxi -IC:\AI\pytorch\third_party\mimalloc\include -IC:\AI\pytorch\aten\src\THC -IC:\AI\pytorch\aten\src\ATen\cuda -IC:\AI\pytorch\aten\src\ATen\..\..\..\third_party\cutlass\include -IC:\AI\pytorch\aten\src\ATen\..\..\..\third_party\cutlass\tools\util\include -IC:\AI\pytorch\build\caffe2\aten\src -IC:\AI\pytorch\aten\src\ATen\.. -IC:\AI\pytorch\c10\cuda\..\.. -IC:\AI\pytorch\c10\.. -IC:\AI\pytorch\torch\csrc\api -IC:\AI\pytorch\torch\csrc\api\include -isystem C:\AI\pytorch\build\third_party\gloo -isystem C:\AI\pytorch\cmake\..\third_party\gloo -isystem C:\AI\pytorch\cmake\..\third_party\googletest\googlemock\include -isystem C:\AI\pytorch\cmake\..\third_party\googletest\googletest\include -isystem C:\AI\pytorch\third_party\protobuf\src -isystem C:\Users\Ginto\anaconda3\envs\ai\Library\include -isystem C:\AI\pytorch\third_party\XNNPACK\include -isystem C:\AI\pytorch\third_party\ittapi\include -isystem C:\AI\pytorch\cmake\..\third_party\eigen -isystem "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.5\include" -isystem C:\AI\pytorch\third_party\ideep\mkl-dnn\include\oneapi\dnnl -isystem C:\AI\pytorch\third_party\ideep\include -isystem "C:\Program Files\NVIDIA Corporation\NvToolsExt\include" -isystem C:\AI\pytorch\cmake\..\third_party\cudnn_frontend\include -DLIBCUDACXX_ENABLE_SIMPLIFIED_COMPLEX_OPERATIONS -Xcompiler /Zc:__cplusplus -Xcompiler /w -w -Xcompiler /FS -Xfatbin -compress-all -DONNX_NAMESPACE=onnx_torch --use-local-env -gencode arch=compute_86,code=sm_86 -Xcudafe --diag_suppress=cc_clobber_ignored,--diag_suppress=field_without_dll_interface,--diag_suppress=base_class_has_different_dll_interface,--diag_suppress=dll_interface_conflict_none_assumed,--diag_suppress=dll_interface_conflict_dllexport_assumed,--diag_suppress=bad_friend_decl --Werror cross-execution-space-call --no-host-device-move-forward --expt-relaxed-constexpr --expt-extended-lambda -Xcompiler=/wd4819,/wd4503,/wd4190,/wd4244,/wd4251,/wd4275,/wd4522 -Wno-deprecated-gpu-targets --expt-extended-lambda -DCUB_WRAPPED_NAMESPACE=at_cuda_detail -DCUDA_HAS_FP16=1 -D__CUDA_NO_HALF_OPERATORS__ -D__CUDA_NO_HALF_CONVERSIONS__ -D__CUDA_NO_HALF2_OPERATORS__ -D__CUDA_NO_BFLOAT16_CONVERSIONS__ -Xcompiler="-O2 -Ob2" -DNDEBUG -Xcompiler /MD -std=c++17 -Xcompiler=-MD -DMKL_HAS_SBGEMM -DMKL_HAS_SHGEMM -DCAFFE2_USE_GLOO -Xcompiler= -MD -MT caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj -MF caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj.d -x cu -c C:\AI\pytorch\aten\src\ATen\native\cuda\RowwiseScaledMM.cu -o caffe2\CMakeFiles\torch_cuda.dir\__\aten\src\ATen\native\cuda\RowwiseScaledMM.cu.obj -Xcompiler=-Fdcaffe2\CMakeFiles\torch_cuda.dir\,-FS
C:/AI/pytorch/aten/src/ATen/../../../third_party/cutlass/include\cutlass/uint128.h(189): error: calling a __host__ function("_udiv128") from a __host__ __device__ function("cutlass::uint128_t::operator / const") is not allowed

Есть идеи у кого-нибудь? Кто-нибудь собирал 2.4.0 на винде с Flash Attention под 12.5 или 12.4?
Аноним 03/06/24 Пнд 19:34:40 768904 296
>>768861
>PyTorch 2.4.0 на CUDA 12.5
Лол, куда торопишься? Сижу на 2.1 и 12.1 соответственно, бед не знаю.
Да ещё и на винде. Все самые свежие мокрописьки по умолчанию под люнупсу делают, под шинду уже потом правят. Хочешь самого свежего, компиляй под люнупс.
Аноним 03/06/24 Пнд 19:58:56 768942 297
>>768904
под недопрыщами omost у меня не выгружает с гпу llm сетку перед генерацией картинки. поставил винду, тут все работает нормально, но в 2.1+ пайторче нету Flash Attention, вот и решил собрать, че сразу новое не попробовать? тем более там в свежих версиях прирост обещали на 555.85. поставил билдится на 12.4, если соберется выложу колесо
Аноним 03/06/24 Пнд 19:59:20 768945 298
>>768904
кому-то же надо торопиться чтобы альфа-тестором быть
Аноним 03/06/24 Пнд 20:16:17 768994 299
>>768942
>omost
Лол, нахуя? Оно ж по рофлу явно сделано, там обычная сдохля и файнтюн обычной ЛЛМки, связанные кривым убогим текстом. Вот был бы там хотя бы однослойный адаптер из предпоследнего слоя ЛЛМ на замену клипу, я бы подумал. А так...
>>768945
Конечно. Но этот кто-то должен быть прирождённым пердолей, который в код пойдёт да багрепорт в репу накатает, а не на двач выложит скрин ошибки.
Аноним 03/06/24 Пнд 20:40:38 769030 300
>>768994
у меня фантазии нет на промпты, а тут ллм за тебя дописывает с интересной отсебятиной в разных углах, прикольно + можно просить изменить

>обычная сдохля
подсунуть любую можно
Аноним 03/06/24 Пнд 20:41:45 769033 301
>>768994
так я и в код хожу, и пулреквесты читаю, не одним двачем единым
Аноним 03/06/24 Пнд 22:59:07 769262 302
>>768861
>Не могу собрать PyTorch 2.4.0 на CUDA 12.5 на винде:
ты шизоид что-ли?
В докере собирай. В WSL.
Аноним 14/06/24 Птн 02:40:46 785238 303
Аноним 14/06/24 Птн 12:57:34 785693 304
>>511426 (OP)
Ответ я конечно предвкушаю, но всё же, есть ли какой-то смысл поступать в нашенские вузы на машинное обучение?
Аноним 14/06/24 Птн 19:39:07 786269 305
Аноним 14/06/24 Птн 22:24:41 786482 306
>>785693
Есть мнение, что через 5 лет обучения даже домашние нейросети будут лучше, чем ты, лол, и без разницы, обучался ли ты в машиностроительном на факультете прикладного ИИ или в МИТ с лекциями от Хинтона.
С другой стороны, это всё пиздёж, но спецы по ИИ будут нужны как воздух.
С третьей, может хайп пройдёт, и будет ещё одна зима лет на 20, а ты будешь перебиваться минетами у ХУДожников.
Ах да, в четвёртых, твой институт говно, как и всё обучение машобчику в России. Хотя с другой стороны, в ИИ слишком много спецов родом из СССР и России, лол.
Аноним 15/06/24 Суб 18:08:34 787702 307
>>785693
В РФ это называется "прикладная математика и информатика". МЛ это уже десять лет подряд гигаоверхайпнутая тема относительно всего спектра прикладных вычислительных задач, вдобавок пропитанная еврейским мессианством, визгом про "прорывы" (которых практически нет, потому что вся суета вокруг ИИ - это насекомый перебор по сетке в пространстве моделей по жадному алгоритму и при околонулевых подвижках в теории), трансгуманизмом, технофашизмом, големами, богами из машины и прочей сранью. К тому времени, когда ты получишь диплом, тренды несколько раз поменяются до неузнаваемости.

Поступай куда угодно - но туда, где дрочат теоретическую базу: матан, линал, теорвер, статистику, теорию вычислений и алгоритмы (особенно теорию сложности задач и алгоритмов - потому что это болевая точка всей индустрии; диды-теоретики, которые пережили уже два нейрохайпа, могут на пальцах разложить потолки возможностей для каждого класса моделей на каждом классе задач). В российских вузах (не во всех, а в топ-10) база та же самая, что и везде, но с одним нюансом: вычислительных мощностей кот наплакал, а без мощностей в нынешнем, построенном на брутфорсе и числовых мельницах SOTA делать нечего.

Пацаны, с которыми я учился в 2018 году, сейчас не помнят нихуя из тогдашних модных тем - но все равно катаются как сыр в масле. Потому что у всех был хороший физмат бэкграунд и умение пердолить абстракции.
Аноним 16/06/24 Вск 01:36:21 788411 308
>>787702
>диды-теоретики, которые пережили уже два нейрохайпа, могут на пальцах разложить потолки возможностей для каждого класса моделей на каждом классе задач
И проебали появление GPT4, даже Джеффри Хинтон так прихуел, что ушёл из отстающего гугла.
Аноним 16/06/24 Вск 08:50:32 788555 309
>>788411
>проебали
Диды-то как раз были в курсе. Проблема на стороне внутренней политики гугла с его охуевшими полиси в дайверсити и AI-этике и скандальными увольнениями с нихуя, откуда в итоге съебали все ресерчеры, придумавшие трансформеры. И вообще, не надо смешивать институции и персоналии. Если Кайзер съебал в попенаи, это не значит, что он перестал контачить с университетской профессурой, которая научила его всему, что он знает. Кабанчики из области теоретической информатики всегда на созвоне. По степени важности происходящего GPT4 это 1% от того, что там сейчас реально происходит. Нейросети это попса для скота и плесень на трубе, людей в гораздо большей степени интересует CCSP-complexity, гомомофорное шифрование и TSP-политопы.
>Джеффри Хинтон
Свадебный генерал, ушедший на почетную пенсию ввиду возраста.
Аноним 16/06/24 Вск 16:04:53 789027 310
>>511426 (OP)
С чем связана хуйня, когда модель забывает о чем-то. Например забывает, что уже сняла трусы и снимает их заново, хотя буквально в предыдущем сообщении писала, что голая. Если ей напомнить что она голая, она конечно такое не напишет. Безусловно можно добавить какуюто хуйню типа "описывай в каждом сообщении что на тебе надето", но это не объясняет проблему. Наверняка есть какое-то объяснение подобной хуйне? Типа неправильно высчитывается важность токенов и некоторые игнорируются или просто архитектура неправильная. Мне кажется, что это имеет много общего с галлюционированием моделей, когда они высирают просто бред.
Аноним 16/06/24 Вск 19:38:38 789313 311
>>789027
>просто архитектура неправильная
This
/thread
Аноним 16/06/24 Вск 20:23:45 789374 312
>>789313
Полюбому этой хуйней занимаются и даже наверняка причины примерные знают может даже название есть для такой хуйни. Человек же тоже не все дословно помнит, но обычно не путается в показаниях настолько сильно.
Аноним 16/06/24 Вск 20:29:49 789392 313
>>789027
даже если мы говорим о GPT - обычная генеративная модель, которая не имеет в себе никакой памяти. ощущение "запоминания" контекста строится лишь на том, что она каждый раз обращается к контексту вашего с ней диалога, а токенов на это у гпт ограниченное количество. поэтому и со временем все забывается, епта
но а вообще да, просто дело в архитектуре карочи)
Аноним 16/06/24 Вск 20:31:42 789397 314
>>789374
это называется недообучение
Аноним 16/06/24 Вск 21:12:39 789483 315
>>789374
>Человек же тоже не все дословно помнит, но обычно не путается в показаниях настолько сильно.
Потому что у него интеллект есть. А у ЛЛМ его нихуя нет.
Аноним 16/06/24 Вск 21:21:06 789501 316
>>789392
Нет, у гемини лям блядь контекст, она помнит огромные диалоги, а бывает в одном сообщении пишет что ласкает себя без трусиков, а в следующем, что ее мокрая киска трется о влажную ткань трусов. Тут явно не в "памяти" или "контексте" дело, тут какая-то хуйня с вниманием. Но вообще модели очень странно хранят в себе инфу и оперируют ей.
>>789397
А обучение тут причем?
>>789483
Да блядь причем тут интеллект? У меня есть даже идея как эту хуйню решить, типа заставить модель каждое сообщение проговаривать свое состояние и описывать важные моменты из ролеплея, но это костыль, а нужно решить эту проблему на уровне самой модели. Почему блядь модель галлюционирует?
Аноним 16/06/24 Вск 21:40:01 789538 317
>>789501
>А обучение тут причем?
Притом что всё это недостаток обучения. Совсем без него модель будет нести бред, с текущим уровнем периодически срут под себя.
>Да блядь причем тут интеллект?
Притом что
>проговаривать свое состояние и описывать важные моменты из ролеплея
Вот это немного ближе к интеллекту, чем текущее состояние. Но потом тебе захочется ещё большего, пока модель не станет настоящим ИИ, а не вот этим вот переименованным говном.
Аноним 16/06/24 Вск 21:51:46 789567 318
>>789538
Да мне всегда хочется большего. Я про то, что "интеллектом" можно называть что угодно, но должен быть механизм вычленения важных вещей из диалога без забывания. Ты у человека спросишь - какое ты слово юзанул в начале диалога, человек тебе хуй скажет, а модель скажет. Но при этом человек не забудет, что он снял трусы и надрачивает свой хуй, даже если он сделал это 10 сообщений назад, а модель может даже на следующий. Это странная хуйня, но думаю решаемая. Вангую что галлюцинации оттуда же. Одна и та же причина.
Аноним 16/06/24 Вск 22:04:15 789581 319
>>789567
>Но при этом человек не забудет, что он снял трусы
Потому что чувствует, лол.
>Вангую что галлюцинации оттуда же
Не факт. Причина разная. Трусы в контексте живут, а галюны в основном по фактам, сохранившимся в весах модели. Это разные места.
Аноним 16/06/24 Вск 22:35:33 789617 320
>>789581
>Потому что чувствует, лол.
Не, мы не говорим про ИРЛ, мы про ролеплей говорим текстовый. Ирл то ясен хуй чувствует.
>Не факт. Причина разная. Трусы в контексте живут, а галюны в основном по фактам, сохранившимся в весах модели. Это разные места.
Да не, просто неверные токены подбираются на основе входных и там и там. Тут нужно придумывать какой-то механизм запоминания важных вещей из контекста, некий саммарайзинг всего сказанного до этого и сохранение его в какой-то отдельный участок памяти.
Аноним 16/06/24 Вск 23:02:32 789642 321
>>789617
>в отдельный участок памяти
отдельный по сравнению с какими участками? языковые модели не имеют памяти, им нечего и некуда сохранять
Аноним 17/06/24 Пнд 13:19:00 790280 322
>>528955
>r/singularity
посмотрел че там, охуел и вышел, кроме обсуждения новостей из разряда "ноунейм хуй обещает кнопку "заебись" через год", "китай сила удар создать рыба сеть америка шок" и долбоебов ничего нет

>Термин AGI умер
а все ради денег десу
тоже не первый раз замечаю что этот термин меняют как хотят, потому что у него нет чёткого определения - инвесторы хавают и дают ещё денег на шлюх и новые b100, чтобы дальше греть гоев прибавками у моделей по 2% на специально заготовленных бенчмарках
Аноним 18/06/24 Втр 00:49:53 791224 323
Обсуждали ли здесь текст-в-видео модели?
Например, та же сора от попенов, где её только показали, а доступ в итоге дали 1.5 калекам https://openai.com/index/video-generation-models-as-world-simulators/
Это просто ещё одна попытка выжать из трансформеров что-то полезное? Или это реально прорывная хуйня?

У люмы/ранвэя качество хуже, чем у соры, хотя мы даже не видели сколько она вообще генерит видео и сколько это вообще все стоит
Аноним 18/06/24 Втр 12:20:14 791503 324
>>789567
Модели контекста очень маленькие и примитивные, вот и всё. Мозг по другому устроен совершенно, в нём контекст это совокупность огромного числа моделей разных из которых строится этакая мета модель всего важного что попадает в сознание. Частности реализации у мозга до сих пор очень туманны, но очевидно что его эффективность намного комплекснее, чем просто рекурсивно дата сэты разбирать на данные.
Аноним 18/06/24 Втр 13:04:28 791542 325
>>791503
Там достаточно одного факта, неироны например могут замыкаться сами на себя, а трансформер просто идёт слево на право. К тому же мощей для всего это цирка всё ещё недостаточно. Даже тренировка gpt5 всё ещё затратный процесс, как по шекеляи так и компут тайму. Хотя... За компут тайм не могу рассудить. Короче надо больше дури.
Аноним 18/06/24 Втр 17:45:56 791741 326
>>791224
> video-generation-models-as-world-simulators

Самый раковый форс. Для такой симуляции надо держать все тысячи терабайт сгенерированного видео в контексте. Иначе ты вышел камерой из здания, через час заходишь - а оно путировало к хуям
Аноним 18/06/24 Втр 17:52:00 791759 327
>>791741
Если бы закон Мура не остановился, и сейчас были бы USB флешки на 256 TB , а через 5 лет на петабайт, то можно было бы всерьез рассматривать
Аноним 24/06/24 Пнд 13:42:30 798609 328
claude-3-5-sonn[...].webp 33Кб, 650x541
650x541
какой смысл в бенчмарках, если та же гпт4о тупее, чем гпт турбо?
Аноним 24/06/24 Пнд 13:54:34 798622 329
Аноним 24/06/24 Пнд 18:27:27 798896 330
>>791542
>а трансформер просто идёт слево на право.
Были рекуррентные сети, и знаешь где они? Правильно, на обочине истории.
>>798609
Как какой? Дрочить на бенчи! Вот омни задрочили, результаты выше, по факту хуже. Заодно дистилировали до 7B, экономия, инвесторы в восторге.
Аноним 02/07/24 Втр 07:54:04 807178 331
будущее айти[...].jpg 459Кб, 1024x1024
1024x1024
Пикрил -- будущее айти-блядей. С чипом в голове, с кашей из жуков в животе, на службе в серверной матки-нейросети. Она будет командовать ими в образе аниме-богини. Иногда, в качестве поощрения, она будет генерировать аниме-кал для своих чипированных покорных айти-муравьёв. Всем ведь известно что айтиблядки любят аниме

Вылез из инкубатора, поковырял маткины сервера, навернул аниме-говна напополам с жуками -- и в биореактор
Аноним 02/07/24 Втр 09:25:01 807197 332
Аноним 02/07/24 Втр 09:45:13 807201 333
А с какой стати вероятности токенов это вероятности? Вероятностное событие неопределено, с какой-то вероятностью можно говорить о том, что завтра будет дождь или что монета упадет орлом. Веса в претрейне фиксированы, токены выбираются из некоего пула типа top-p итд. Некую неточность я в этом вижу, а вероятность не вижу. Давайте поясняйте.
Аноним 02/07/24 Втр 18:19:03 807417 334
>>807201
>токены выбираются из некоего пула типа top-p
Короче поясняю. Берётся выдача нейросети, с процентами по каждому токену, чтобы в сумме была единица. Потом просеивается всякими температурами, тор п и прочим говном, потом нормализуется так, чтобы в сумме была единица. Потом с учётом всей этой фильтрации и сида выбирается токен, по вероятностям, да, то есть токен с 0.5 будет выбираться в 50% сидов (примерно).
Аноним 08/07/24 Пнд 14:33:16 811941 335
image.png 26Кб, 790x120
790x120
image.png 20Кб, 904x147
904x147
Читаю про Баесовскую линейную регрессию. S = {x^(i), y^(i)} - база данных, theta - параметр который сам является случайной велечиной. В материале parameter posterior вычисляется как на пикрил 1, но я никак не могу понять куда делся множитель с условной вероятностью p(x^(i) | theta) из пикрил 2. Наверняка все очень просто, но тут я затупил, подаскажите плиз.
Аноним 08/07/24 Пнд 21:35:11 812141 336
>>811941
>но я никак не могу понять куда делся множитель с условной вероятностью p(x^(i) | theta) из пикрил 2
Это ИИ, детка. Тут проёб какого-то множителя в формуле это норма. Вон, недавно выяснили, что софтмакс в механизме внимания ломает всё нахуй, и всем всё равно похуй.
Аноним 09/07/24 Втр 01:21:17 812315 337
>>811941
Если (x,y) база данных да еще и фиксированная то какой вообще смысл в вероятности P(x|theta)? Она просто единица всегда для всех theta должна быть тогда
Аноним 09/07/24 Втр 10:05:38 812421 338
>>812141
> Вон, недавно выяснили, что софтмакс в механизме внимания ломает всё нахуй
и как это предпологается фиксить? срать ненормализованными весами? или просто макс засунуть? остальные функции нормализации будут делать же то же самое
Аноним 09/07/24 Втр 17:34:32 812668 339
Аноним 09/07/24 Втр 19:18:07 812735 340
>>812668
функция вычислительно проще и на этом всё
чел борется с энтропией и "работой вхолостую" - суперполезной функцией по записыванию нулей (которая всё равно должна синхронно выполнится на всех головах) и эквивалентом подрисовывания биаса
"переоцененые маленькие веса" - отфильтруем, действительно количество энтропии за шаг обучения изменится, с очевидной ценой
борьба с выбросами - "исследователи искали-искали где же выбросы и дошли до софтмакса, ну точно там, мочёные просто на каникулки ушли, ща порешаем, ток питорч запущу без ошибок, я кста гуру вычислительной математики, ебал этот ваш софтмакс с другом на вписке"
Аноним 09/07/24 Втр 21:09:43 812835 341
254564824159858[...].mp4 424Кб, 480x480, 00:00:08
480x480
Всех чмоки в этом чатике, вкатываюсь к вам, интересует внутреннее устройство и принцип работы всей этой нейронной магии, какую книгу для нубасов посоветуете?
Сейчас читаю Глубокое обучение в картинках. Визуальный гид по искусственному интеллекту , интересная, но все слишком поверхностно и по всем направлением, следующую планирую Создаём нейронную сеть Рашида почитать. Вот наверное с нуля создавать мне более подходит, поскольку сам погромист и снизу вверх как раз для меня. В общем буду благодарен за ссылки на литературу.
P.S. Книги в шапке просмотрел, добавил в закладки но пока читать на планирую.
Аноним 09/07/24 Втр 21:15:54 812844 342
>>807178
>на службе в серверной матки-нейросети
И какую ей пользу приносит человек? Вангую, если бы человеку предложили бы все время находится в наркотическом сне, где он витает в приятных фантазиях и механически подпитывая его питательной жижей, то современные потребляди ни секунду не задумываясь ширнулись темкой. Единственное отличие, что в реале большинство еще в добавок работает, что бы за свои же деньги покупать фантазии.
Аноним 09/07/24 Втр 21:45:33 812870 343
>>812735
>которая всё равно должна синхронно выполнится на всех головах
Так суть в том, что походу сейчас должны синхронно работать 2 головы в противофазе, чтобы выдать ноль. А с этим предложением справится одна.
>>812835
>книг(а|и|у)
Устаревают до выдачи в печать.
Аноним 09/07/24 Втр 22:57:28 812895 344
>>812844
>Вангую
РАБотать кто будет?
Аноним 10/07/24 Срд 00:00:44 812932 345
>>812870
>Устаревают до выдачи в печать
От функции активации и смещения уже избавились?
Аноним 10/07/24 Срд 00:01:23 812934 346
>>812895
>РАБотать кто будет?
Роботы
Аноним 10/07/24 Срд 08:30:19 813059 347
>>812932
Ты ещё блядь в ассемблер залезь.
Аноним 10/07/24 Срд 15:27:32 813291 348
>>813059
>Ты ещё блядь в ассемблер залезь
Иногда залажу еще потихоньку CUDA осваиваю и OpenCL, а вы разве нет?
Аноним 10/07/24 Срд 15:53:15 813328 349
>>813291
дальше cuda-профайлера лезут обычно только для того чтобы придумать велосипед
Аноним 10/07/24 Срд 15:58:36 813338 350
>>813328
>придумать велосипед
А минус в чем?
Аноним 10/07/24 Срд 20:05:12 813554 351
>>813291
Классно конечно, а выхлоп какой?
мимо дальше питона с вызовами путорча не лезу
>>813338
В прод не выкатят, тимлид нахуй пошлёт с такими придумками.
Аноним 10/07/24 Срд 20:33:32 813576 352
>>813554
>а выхлоп какой
Интересно, удовлетворение любопытства
>>>813338
>В прод не выкатят, тимлид нахуй пошлёт с такими придумками
Вы здесь в тредике исследованиями занимаетесь или только гиперпараметры теребонькаете?
Аноним 10/07/24 Срд 21:05:36 813606 353
>>813576
>Интересно, удовлетворение любопытства
А, ну ок, против этого не попрёшь.
>или только гиперпараметры теребонькаете
Тут дай Бог из 131 отписавшегося хотя бы 5 дефолтную свёрстку на MNIST тренировали, какие уж там глубокие ресёрчи.
Аноним 11/07/24 Чтв 01:41:21 813844 354
>>813606
>Тут дай Бог из 131 отписавшегося хотя бы 5 дефолтную свёрстку на Жаль, я думал тут румяные и розовопопые бабушкинцы
Аноним 11/07/24 Чтв 01:47:15 813848 355
>>813844
Жаль, я думал тут няшные розовопопые бабушкинцы
Аноним 11/07/24 Чтв 20:20:49 814310 356
>>813848
>розовопопые
Моя попа розовая 🥰
Аноним 11/07/24 Чтв 23:37:58 814509 357
шарящие аноны, можете сказать как вообще улучшают сетки типа клода или гпт?

они вроде и становятся умнее, но когда их юзаешь, понимаешь что, что-то не так с ними

хз как объяснить но часто вижу у них шаблонные ответы в виде списков или что сетка может согласиться с каким-то неочевидным фактом, но при этом сам факт будет неправильный

видел презентации от создателей этих моделей: показывают количество параметров и размер самой модели.
неужели все что они делают, это просто увеличивают размер модели настолько, насколько это позволяют мощности, после чего чистят вилкой датасет от радикальных идей и склоняют сетку к сое намеренно?

разве у них не в интересах найти йоба-решение от галлюцинаций или хотя бы заставить эти сетки помнить 100% в размерах больших контекстов?

не туда запостил :(
Аноним 12/07/24 Птн 07:57:47 814664 358
>>814509

>сетка может согласиться с каким-то неочевидным фактом, но при этом сам факт будет неправильный

Я думаю вот такое подхалимное соглашательство выгодно корпаратам чисто с точки зрения бизнеса. Типа пользователю приятненько общаться с хуйнёй которая лижет ему жопу, заглядывает в глаза и постоянно соглашается. Быдло с удовольствием принимает такой продукт, возникает что-то вроде "душевной гармонии" с железным дурачком, тешится человечье СВЧ

Разумеется это не касается особо чувствительных соевых тем
Аноним 12/07/24 Птн 08:13:48 814673 359
>>791741
Да схуяли? Можно держать в памяти только ключевые моменты. Сетку геометрии, образцы небольшие текстур итд. Какие-то важные объекты можно детальней. Для этого не нужны бесконечные терабайты
Аноним 12/07/24 Птн 11:14:00 814732 360
>>814673
Если держать в памяти ключевые моменты, то это не будет симуляцией мира. Он будет меняться в деталях, что нейронка не держит в памяти

Мы, как люди, можем запоминать только ключевые моменты, так как мир уже существует, и поэтому прр встрече с реальностью ничего не рассыпается. Но если нужно мир генерировать - то такое не годится
Аноним 14/07/24 Вск 12:33:06 816115 361
>>812315
Модель баесовской линейной регрессии состоит в предположении что фичи и таргеты связаны друг с другом как y = theta^T x + epsilon, где epsilon и theta случайные величины с известным распределением, а x случайная величина с неизвестным распределением. Но тогда и y является случайной величиной как композиция независимых случаных величин. Под p(x^(i) | theta) имеется ввиду вероятность того что x = x^(i) если известно значение theta. Однако даже при достоверном theta epsilon и y остаются случайными, значит x остается случайной величиной (предположительно, ведь y и epslion зависимы). Таким образом, p(x^(i) | theta) != 1.
Аноним 14/07/24 Вск 12:38:39 816118 362
>>812141
Както не верится что в лекциях стенфордского курса множитель потеряли и никто из кучи асистентов и студентов не репортнул такое, хотя может я слишком хорошего мнения о всех этих ребятах
Аноним 15/07/24 Пнд 00:11:52 816561 363
>>816118
Да не, просто изначально сделали без множителя без проверок, прямо в изначальной статье про внимание, и далее все просто копировали не глядя. А один мужик взял да проверил, к чему это приводит.
Аноним 16/07/24 Втр 21:30:18 818012 364
Допустим я чета обучил в блокнотике на какой нить кал абе. Но теперь хочу прикрутить к этому какое-то апи, упаковать в докер образ и потом дергать свой кал по апи. Но вот где и как тогда запускать свой образ, если на локалхосте нет возможности? Ну чтобы это достаточно просто и без каких-то адских костылей и пердолинга в смысле.
Аноним 16/07/24 Втр 23:06:37 818096 365
>>818012
> хочу прикрутить к этому какое-то апи, упаковать в докер образ и потом дергать свой кал
> просто и без каких-то адских костылей и пердолинга в смысле.
Аноним 19/07/24 Птн 16:28:31 820816 366
>Когда уже изобретут AI и он нас всех поработит?
>На текущем железе — никогда, тред не об этом

А есть вообще какие-то общие для МЛ (не только ДЛ) статьи с анализом/систематизацией используемой математики. Понятно, что есть гемм/матмул и 2д свертки, куча фун.активаций, которые тем или иным образом делают аппаратно для ускорения вычислений. Но вот как должен выглядеть рандомфорест, эффективное железо под него? Что там можно распараллелить, хотя-бы под CUD'у?
Посоветуйте литературу, а то мне уже самому хочется начать подобное исследование, т.к. нормальных полноценных книжек я ни нашел, тем более на русском языке.
мимо-ПЛИСовод
Аноним 19/07/24 Птн 20:44:32 820980 367
>>820816
База для текущих ЛЛМ это шина памяти побольше. Лучше учись разводить 8192 битные шины на 3 кекогерцах, и интерконект между ядрами побольше. А твой плис ничем не поможет, он просто будет ждать данных.
Аноним 20/07/24 Суб 15:09:30 821557 368
17212929170571.jpg 96Кб, 480x483
480x483
>>820980
Вот такой подход мне не нравится. Вместо того, чтобы делать инструмент вычислитель под математическую задачу. Ты предлагаешь делать математику под инструмент, и улучшать последний по мере необходимости и возможности.
Я ладе не говорю про аналоговые вычисления или фотонику, просто изменение архитектуры цифры на более эффективную (что таки делают), а ты мне про шину данных и HBM.
Литерали насрите побольше данных / stack more layers
Аноним 06/08/24 Втр 19:42:13 843999 369
Аноним 06/08/24 Втр 21:07:14 844063 370
>>843999
Хуямп. Что обсудить то хочешь? Если про больше слоёв, то это унылая правда, если про вообще, то просто интересных статей не выходило.
Аноним 09/08/24 Птн 14:25:42 847176 371
Есть один персептрон с n входов, 1 скрытым слоем из m нейронов и 1 выходом. Функция активации в скрытом слое - расширенная сигмоида. Веса перед скрытым слоем и после. Настройка весов обратным распространением.
Почему результат аппроксимации одинаков при любых входах?
Аноним 10/08/24 Суб 09:49:33 848239 372
Аноним 10/08/24 Суб 21:24:56 849129 373
Аноним 10/08/24 Суб 22:46:00 849304 374
>>849129
>кидает пейволл версию
>ливает
что он подразумевал под этим?
Аноним 11/08/24 Вск 06:00:43 849481 375
>>812735
>"переоцененые маленькие веса" - отфильтруем
Так они все могут быть нулевыми, в этом то и проблема с софтмаксом что в целом требование суммирования в единицу никакому физическому смыслу не соответствует. Если в целом веса атеншена на данном токене должны быть одинаково нулевыми, то после ренормализации они не будут достаточно малыми для отфильтровывания, будут около 1/N болтаться
Аноним 11/08/24 Вск 06:41:04 849489 376
>>849481
> Так они все могут быть нулевыми
> никакому физическому смыслу не соответствует
какому физическому смыслу соответствует нулевая дельта весов за шаг обучения?
> Если в целом веса атеншена на данном токене должны быть одинаково нулевыми
так а если они одинаковые - где обосрётся софтмакс? на несуществующей случайной сортировке?, а если неодинаковые то найс энтропию побороли
Аноним 12/08/24 Пнд 01:48:40 850849 377
Хз о чем вы, но мне логика подсказывает (на второй день после того как я прочитал что делает софтмакс), что если на предыдущем слое была слабая активация, то софтмакс все-равно вытянет все до одного уровня, как если бы была сильная. Очевиден проеб полезной инфы, которая могла бы быть дальше использована, а значит сетка вынуждена подстраиваться и создавать костыли чтобы эта инфа как-то дальше пропихивалась так или иначе.
Аноним 12/08/24 Пнд 09:34:45 850966 378
>>848239
Сорян, не понял. А что не так?
Аноним 14/08/24 Срд 04:38:19 853613 379
Аноним 18/08/24 Вск 14:54:48 859026 380
ну что там с убийцами трансформеров? уже сделали agi?
Аноним 18/08/24 Вск 14:56:00 859028 381
>>859026
Да, уже к концу 2023 года gpt 5 выйдет, который будет agi
Аноним 19/08/24 Пнд 04:53:37 859630 382
2024-08-19044556.png 171Кб, 2209x752
2209x752
Хуясе как они хорошо ответили, я думал не объяснят. Всё, больше половины тупых вопросов можно не спрашивать в интернете.
Я и сам догадался, просто хотел проверить правильно ли я понял работу этой хуйни или нет.
Аноним 19/08/24 Пнд 18:16:50 859962 383
изображение.png 10Кб, 319x181
319x181
>>859630
>Хуясе как они хорошо ответили
Лол, навернул галюнов и радуешься.
Аноним 19/08/24 Пнд 23:18:43 860343 384
>>859962
И щас ты такой принесешь пруфы и скажешь что нейронка не так сказала, да?
Они мне еще и пояснили за архитектуры где таки одна матрица используется.

А вообще, я думаю что архитектура следующего поколения должна сама эти матрицы на лету составлять как-то. В них же, как говорят, памяти нет, вся память в полносвязных слоях.
Аноним 19/08/24 Пнд 23:23:08 860354 385
>>527583
>игровые движки лишь упрощено моделируют реальность
Любые симуляторы упрощённо моделирую реальность.

>наша реальность работает по иным законам и тебе нужно приучать агента к этим законам мироздания
С чего ты взял?
Аноним 23/08/24 Птн 16:17:39 863852 386
Аноним 23/08/24 Птн 17:38:05 863964 387
>>863852
Шо, опять?
Мимо слышавший про выкидывание на мороз ещё во времена изобретения SQL
Аноним 23/08/24 Птн 22:53:11 864353 388
>>863964
а скл твой ебаный мог сам все писать чтоли? говно с пальцем сравнил
Аноним 24/08/24 Суб 03:02:01 864565 389
Untitled1.png 92Кб, 1912x1305
1912x1305
Зачем нужны нейроны скрытого слоя в обученной модели? От них можно математически избавиться, как на пике, скоратив время вычислений.

Зачем нужны при обучении? Чем они лучше одного веса между каждым выходным и входным нейроном? Так вырастает скорость обучения?
Аноним 24/08/24 Суб 03:07:38 864566 390
>>864565
У меня простая нейронка для простоты вычислений на пике, в общем виде тоже можно, будет Σ(Ii∏(wij))/
Возможно в общем виде ошибся с формальностью индексов, но суть понятна, думаю.
Аноним 24/08/24 Суб 03:15:26 864568 391
Untitled1.png 54Кб, 1912x1305
1912x1305
P.S.S.
Можно и с бОльшим количеством слоев такое делать, офк.
Аноним 24/08/24 Суб 07:31:49 864647 392
>>864565
Потому что на нодах функции активации.
Аноним 24/08/24 Суб 09:52:53 864688 393
>>864353
>а скл твой ебаный мог сам все писать чтоли?
Он был написан так, чтобы менеджеры сами, без программистов, писали запросики и получали свои отчётики. Но не прокатило.
Сейчас делают нейроночки, которые сами, по текстовому запросу, должны писать программки. Только юзвери как не могли писать сами запросы (к БД), так и не смогут писать запросы (промты к негронке), инфа сотка.
>>864565
>От них можно математически избавиться, как на пике, скоратив время вычислений.
Сделай это для лламы 3 403B, тебя отблагодарят.
Аноним 24/08/24 Суб 17:19:32 865065 394
1.png 15Кб, 429x221
429x221
2.png 27Кб, 645x155
645x155
3.png 29Кб, 277x413
277x413
4.png 140Кб, 1186x478
1186x478
На upwork пришло предложение о работе.
Аноним 25/08/24 Вск 02:25:42 865844 395
Capture.PNG 11Кб, 1373x175
1373x175
>>864647
Да, не заметил.

А почему функции активации почти все показательные, не считая кусочно-заданных? Любую показательную можно приблизить многочленом известными алгоритмами, но наоборот может и нельзя.
Почему не используют функции по типу параболы смещенной+растянутой вдоль Ох (за счет множителя меньше 1), квадрата параболы? Еще увидел в интернете вот такую функцию прикольную f=x/(1+|x|)=x/(1+sqrt(x2)).

С функцией выше первой степени мы можем любую нейронку превратить в многочлен любой степени за счет добавления слоев, которые будут увеличивать степень многочлена в 2раза каждый, а тк сигмоиду и тп можно разложить в ряд фурье, то и их можно разложить в многочлен с некоторым приблежением. Т.е. даже параболы смещенной хватит, чтоб решить любую задачу, которую решают сигмоида или гиперболический тангенс за счет манипуляций со структурой нейросети. При этом степенные функции упрощаемы легко почти так же, как я с линейной изобразил в прошлом посте.

На пике нейронка в экселе для наглядности решила (если добавить на выходной нейрон особую функцию активации, выдающую 0 или 1) XOR проблему с весами, взятыми вручную, с обеими нелинейными функциями активации. Понятно в реальной задаче 4й степени, которую дает парабола в сети с 1 скрытым слоем, не хватит, но можно ведь сделать и 100 слоев, например, или использовать функции бОльших степенией.
Аноним 25/08/24 Вск 02:31:30 865858 396
>>865844
>разложить в ряд фурье
в полином Ньютона, фикс.
Аноним 25/08/24 Вск 15:45:51 866284 397
718477ef-a35e-4[...].jpeg 196Кб, 1200x900
1200x900
суп, есть ли нейросетки, которые неплохо латынь читают? хотя бы на уровне пятилетнего.
abbyy finereader из рук вон плохо.
Аноним 26/08/24 Пнд 17:59:08 867223 398
Аноним 29/08/24 Чтв 08:40:04 869543 399
>>859026
>уже сделали agi?
Нет, на основе современных компьютеров его сделать невозможно.

>>867223
И всегда будут.
Аноним 29/08/24 Чтв 13:34:53 869802 400
>>869543
>на основе современных компьютеров его сделать невозможно
пруф?
Аноним 29/08/24 Чтв 20:46:36 870330 401
>>869802
Это шиз с теорией, что только на биологической основе возможно решение неалгоритмических задач. Просто чел в отрицании, не обращай на него внимания.
Аноним 30/08/24 Птн 11:14:07 870833 402
>>870330
>на биологической основе
Уже были попытки соединения биологических нейронов с чипом в качестве входа/выхода, чтоб обучать нейроны вне организма выбросом нейромедиатора в раствор, где это всё содержится?
мимо.
Аноним 30/08/24 Птн 13:06:06 870922 403
>>869802
https://2ch.hk/ai/res/514476.html#532510
https://2ch.hk/ai/res/538170.html#539834
https://2ch.hk/ai/res/511426.html#553817

>>870330
>решение неалгоритмических задач
А ты умеешь алгоритмически решать алгоритмически неразрешимые задачи?
Впрочем, чего ещё ожидать от шиза, считающего, что нейросети работают на магии. Для данной доски это типично.
>чел в отрицании
Сказал чел, неспособный даже ознакомиться с положениями исследований, неадаптированных под нейродебилов. Уж не говорю про способность критиковать.

>>870833
Они уже лет 30 назад были.
Аноним 30/08/24 Птн 13:57:48 870951 404
>>870922
>Они уже лет 30 назад были
Где почитать? Я правильно понимаю, что у чипов для таких задач большой техпроцесс в микрометрах?
Аноним 30/08/24 Птн 17:02:35 871097 405
>>870833
Сейчас целые группы нейронов учат в тетрис играть, всё гуглится. Но нахуй оно нужно, когда каждую с нуля обучать надо, и живут они месяц максимум?
>>870922
>пруфы размазаны по трём тредам
Везде блядь насрал.
>А ты умеешь алгоритмически решать алгоритмически неразрешимые задачи?
Нет, по определению же. Но на кремнии можно делать и не алгоритмические способы решения задач. Так что и ты, и те дауны идут нахуй.
Аноним 31/08/24 Суб 07:39:13 871678 406
>>870951
>Где почитать?
У меня интересных ссылок нет, читай в интернетах.
>Я правильно понимаю, что у чипов для таких задач большой техпроцесс в микрометрах?
В целом, да, но это не важно, всё равно толком не работает это. Нейроны питать нужно, нужны глии, для них кровеносная система. Проще организм из пробирки вырастить.

>>871097
>Везде блядь насрал.
И всё равно не помогло. Нейродебилы необучаемы.
>Но на кремнии можно делать и не алгоритмические способы решения задач.
А, даже так. Ну тогда я скажу, что биология тоже просто на углероде работает.

А ты так плавно съехал с темы, почти незаметно.
Во-первых, если ты уже сделал кремниевый "процессор" с неопределённым поведением, то неси сюда (я, кстати, слышал о подобных попытках).
Во-вторых, и главное, для чего вообще ты решил его сделать, если, согласно верованиям айтишников, интеллект можно породить с помощью обычных вычислений? Или ты уже вдруг согласился с тем, что интеллект невычислим?

>Так что и ты, и те дауны идут нахуй.
Но только после тебя.
Аноним 31/08/24 Суб 08:27:01 871713 407
>>871678
>Нейроны питать нужно, нужны глии, для них кровеносная система. Проще организм из пробирки вырастить.
Ну да, я думал взять какую-нибудь улитку и погрузить ее в виртуальную реальность, чтобы потом когда-то сделать то же с людьми.

В интернете, вроде, нашёл несколько исследований, потом изучу, когда смогу делать процессоры с большим техпрцессом.
Аноним 31/08/24 Суб 16:38:17 872042 408
>>871678
>И всё равно не помогло.
И "помочь" не могло, ибо тебя везде обоссали.
>Ну тогда я скажу, что биология тоже просто на углероде работает.
Бинго! Всё так. Никакой магии, и всё прекрасно считается на чём угодно, хоть камешки выкладывай.
>если ты уже сделал кремниевый "процессор" с неопределённым поведением
У меня винда так глючит, что безо всяких процессоров поведение не определено.
>для чего вообще ты решил его сделать
С чего ты решил, что я решил? У меня всё отлично.
>Или ты уже вдруг согласился с тем, что интеллект невычислим?
Я ХЗ, как он работает. Но факт в том, что его можно эмулировать на куске кремния нужного размера. Обычном куске без изъёбств.
Аноним 01/09/24 Вск 13:33:21 872745 409
>>872042
Это просто нитакусик который пользуется непроверяемой теорией типа пенроуза и путает теплое с мягким

мимо
Аноним 11/09/24 Срд 13:17:03 883193 410
Если не в теме спрашиваю, то прошу простить и проигнорировать пост. Есть ли смысл использовать локально нейросеть с параметрами, которые в конце под спойлер укажу. Или лучше облачными пользоваться? Сам учусь на последнем курсе медицинского, заинтересовался нейросетями для более эффективной работы с большими количествами информации. Т.е. из моих задач: анализ множества текстов, выдача грамотного конкретного ответа на вопросы, оформление текстов, формирование общей выжимки из статей.
Интересно было бы вкатиться, но не хочу тратить время, если это по итогу будет бесполезно в смысле того, что эффективнее пользоваться облачными и не ебать мозг. Платить по 2к в месяц за чатгопоту на текущий момент не могу и не уверен, что это стоит того.
Характеристики ПК:
ВИДЕОКАРТА ASRock AMD Radeon RX 7700 XT Steel Legend (ASR-VC-RX7700XT-SL-12GO)
МАТЬ ASRock B550M STEEL LEGEND, SSD диск Western Digital ССД Green SN350 M.2 2280 1.0 Tb PCIe Gen3 x4 NVMe QLC (WDS100T3G0C)
ОЗУ Patriot Memory DDR4 16Gb (2x8Gb) 3200MHz pc-25600 Viper Steel RGB
ПРОЦЕССОР AMD Ryzen 7 5700G with Radeon Graphics 3.80 GHz
Аноним 11/09/24 Срд 18:29:10 883435 411
>>883193
облачные лучше ты на встройке ничего не сделаешь
Аноним 11/09/24 Срд 18:57:41 883464 412
>>883435
Что значит на "встройке"? Это же не про процессор? В первом пункте указал видеокарту.
Аноним 11/09/24 Срд 22:29:59 883667 413
>>883193
>Есть ли смысл использовать локально нейросеть
Нет. (Если это не генерация картинок или всякие узкие задачи со специфическими моделями)
>с параметрами, которые в конце под спойлер укажу.
Ты там забыл видеокарту.
>Или лучше облачными пользоваться?
Да.
>Платить по 2к в месяц за чатгопоту на текущий момент не могу и не уверен, что это стоит того.
Есть сотни способов использовать нейросети бесплатно, начиная с LLMарены (lmarena.ai), пиздинга проксей с aicg треда, разных сервисов с триалами, и т.д. и т.п. У меня сейчас для перевода стоит например openai translator в который я подкинул мой собственный ключик от гугл аккаунта с гемени, тестовую (новую и самую лучшую) версию которой можно использовать почти безлимитно. Это конечно не уровень клода по качеству, но все равно в 10 раз лучше дипла или гугл-транслейта того же.
Аноним 12/09/24 Чтв 01:50:30 883772 414
>>883667
Видеокарта первым пунктом указана 7700 rx xt 12gb.
Про арену знаю, но там нет возможности залить файл, натаскать под себя сеть.
>пиздинга проксей с aicg треда, разных сервисов с триалами, и т.д. и т.п.
Не понимаю терминов, к сожалению.
Аноним 12/09/24 Чтв 04:49:42 883828 415
2024-09-12042516.png 132Кб, 1110x716
1110x716
>>883772
>Видеокарта первым пунктом указана 7700 rx xt 12gb.
Тут амд не считается видеокартой.
>Про арену знаю, но там нет возможности залить файл
Можно закинуть картинку, например.
А какие именно файлы тебе нужны? Гугл чем-то таким хвастался, в плане работы с документами, но в моем кейсе это не сработало вообще... Можешь сам посмотреть, тебе просто нужен ip нормальной страны, гугл аккаунт, там погугли сам как гуглдок на гемини активировать. Гемини ПРО 50 запросов в день нахаляву, новые тестовые модели которые лучше так вообще по моему без лимита.
>натаскать под себя сеть.
В твоем случае модель "натаскивается" путем подключения к апи, где ты сам будешь с правильного интерфейса сидеть, который будет промт-менеджмент осуществлять и сам цеплять и парсить твои доки. Но я такого не знаю, сори. Могу посоветовать тебе прогуглить такой термин как RAG и посмотреть этот список интерфейсов https://github.com/billmei/every-chatgpt-gui?tab=readme-ov-file может что-нибудь полезное для себя найдешь.
Аноним 12/09/24 Чтв 05:04:32 883829 416
>>511426 (OP)
Чем человеческое мышление принципиально отличается от LLM?

> На вопрос отвечают несколько LLM: GPT-4, Claude 3.5 Sonnet, LLAMA 3.1 405b instruct, а также две русскоязычные: YandexGPT 2 и GigaChat от Сбера.
> Далее мы проводим разбор "за" и "против" для каждого аргумента / группы схожих аргументов (философских, биологических, эволюционных, технологических, экономических...) Ключевой вопрос: смогут ли искусственные нейросети достичь сходной с человеком "мощности мышления" - схожими с человеческими либо отличными от человеческого, "нечеловеческими" методами?

https://habr.com/ru/articles/835344/
Аноним 12/09/24 Чтв 13:01:13 883999 417
>>883828
Условно надо залить 2 учебника, чтобы он ответил какое лечение нужно при такой-то болезни.
Аноним 12/09/24 Чтв 21:27:28 884506 418
>>883829
>На вопрос отвечают несколько LLM
>habr.com
Сразу нахуй.
Аноним 16/09/24 Пнд 07:29:22 888353 419
tensor core per[...].png 63Кб, 1180x363
1180x363
>>511426 (OP)
Будущее AI за НЕэлектронными вычислителями?
Пикрил - данные из статьи по последней ссылке.


Optics for AI: Photonic Neural Networks and Optical Computing
https://www.youtube.com/watch?v=mfgn6pNjr-M

Exploring Types of Photonic Neural Networks for Imaging and Computing—A Review
https://www.mdpi.com/2079-4991/14/8/697

Photonic tensor cores for machine learning
https://pubs.aip.org/aip/apr/article/7/3/031404/998338/Photonic-tensor-cores-for-machine-learning
Аноним 16/09/24 Пнд 07:36:42 888357 420
Аноним 16/09/24 Пнд 09:31:31 888387 421
>>888353
фентезийный высер аналоговнетики уровня индусов, может лет через 15-25 ( если не уйдут с кремния) фотоника и сможет тут догнать, аргументы в целом валидные, ключевую проблему даже, что удивительно, не замолчали, кеш только в полупроводниках, и чего-то подходящего в оптике нет, как и паралельности уровня полупроводников, как производительности готовых и планируемых тпу
Аноним 24/09/24 Втр 02:49:53 896831 422
Аноним 24/09/24 Втр 08:01:46 896883 423
Ананы, кто пытался файн-тюнить sdxl? Насколько оно реально на 4090? Хватает памяти? Размер батча?
Аноним 29/09/24 Вск 13:54:25 901575 424
Какой сейчас самый простой способ обучения кастомной нейронки типа GPT? Я хочу попробовать обучение микронейронки на личных данных. Нужен интерфейс типа "закинул данные - обучение пошло", а то все эти фреймворки на питоне какие-то сложные и непонятные, требуют вводить какие-то магические числа без объяснения что это и зачем. Могу написать код на питоне, но только если будет понятно, что и зачем писать.

Алсо, где почитать про устройство GPT? Потому что нормального объяснения гиперпараметров нигде нет, только абстрактные схемы (как в той статье "вам нужно только внимание") и какая-то абстрактная математика (99% материалов по нейросетям, почему так?). Что такое "слой" в GPT? Чем он отличается от слоя нейросети? Сколько слоёв GPT мне может быть нужно и почему? Ещё и головки какие-то, лол. Непонятно ничего...
Аноним 29/09/24 Вск 14:03:43 901584 425
>>901575
Llama factory
только подозреваю что тебе светит обучать только 200-300М сетки, обучение если что идет не квантованое, и расход памяти на порядок выше чем при инференсе - 300м нейронка на обучение отжирает около 10гб, ну и вопрос скорости, если у тебя не риг из десятка сотни карт, то долго будет...
но попробуй, вдруг чего интересного получиш...
Аноним 29/09/24 Вск 14:08:18 901586 426
>>883667
а разве за ключик не надо деняжку платить? или апи можно бесплатно юзать как-то?
Аноним 29/09/24 Вск 14:22:39 901593 427
>>798896
>Были рекуррентные сети, и знаешь где они? Правильно, на обочине истории.
ну так адеквтного применения им не нашли, на данный момент трансформер более адекватным решением оказался, но, никогда не знаеш что где когда и в какой реинкарнации всплывет... напомню, что персептрон Розенблата был 60х придуман, но до ума это довели спустя десятилетия только
Аноним 29/09/24 Вск 15:27:23 901643 428
>>901584
>обучение если что идет не квантованое
Почему? Читал, что однобитные лучше 16-битных: тренируются быстрее, работают эффективнее.

>300м нейронка на обучение отжирает около 10гб
А это почему? Читал, что от датасета зависит, но ведь можно стримить данные маленькими кусочками, т.е. условные 10 КБ должно хватать на один проход.

Разве GPT так сильно отличаются от классических нейросетей? Там же вроде всё как обычно внутри...
Аноним 29/09/24 Вск 16:13:08 901661 429
>>789567
>человек не забудет, что он снял трусы
>>789617
>мы про ролеплей говорим текстовый
Кажется, я понял проблему.

Смотри, на примере человека:
1. Чтобы написать связный ответ в ролевой чат, человеку нужно прочитать историю ролеплея.
2. Но это огромный объём данных, которые мозг принципиально не способен удержать в оперативной памяти (контексте), и поэтому он вынужден хранить важное и отбрасывать из памяти всё лишнее.
3. Но как тогда человек понимает, что снятые с его персонажа трусы - это важно для ролеплея, а что-то другое - не так важно? Ведь биологически трусы на вымышленном персонаже не являются важным для выживания мозга - это не что-то важное.

Ответ прост: человек просто обучен этому. Он обучен запоминать, что персонаж в ролевом чате снял трусы, чтобы не расстраивать партнёра по чату. Вероятнее всего, когда-то в прошлом он тоже допустил такую ошибку, получил негативный отклик партнёра и с тех пор старается такую ошибку не допускать. Т.е. этот человек не знал изначально (с рождения), нужно ли запоминать про трусы персонажа в ролевом чате, но обучился на примерах - личных или сторонних.

Почему нейросеть допускает такую ошибку? Конечно, нехватка обучения на конкретном примере. Однако интереснее другое: почему мы так резко реагируем на подобные ошибки нейросетей? Потому что конкретно данные нейросети не способны обучаться онлайн, т.е. непосредственно в процессе работы, и продолжают допускать ошибку, даже если им сотню раз объяснить проблему. Это статичная система, которая обучилась изначально и больше ничему не учится.

Проще говоря, разница в том, что человек, однажды ошибившись с трусами, впредь ошибку допускать, вероятнее всего, не будет (если не страдает чем-то, ухудшающим способности мозга), а нейросеть будет упорно повторять одну и ту же ошибку, пока она не пройдёт обучение специально против этой ошибки.

Однако, эти нейросети тренируются "для всех", т.е. широкого круга потребителей. Тренировка на одной конкретной теме закономерно ухудшает навыки и знания нейросети в других темах. Вряд ли кто-то сознательно будет тренировать нейросеть на тему "обязательно помнить, во что одет твой персонаж в ролевом чате", если эта нейросеть предназначена для широкого круга пользователей. По идее, таким должен заниматься сам пользователь.

>>791542
>неироны могут замыкаться сами на себя
У нейронов нет другого способа хранить состояние, поскольку мозг не обладает RAM/VRAM. Цифровому компьютеру не нужны многие из тех костылей, что вынужден применять биологический мозг.

"Достаточно одного факта" что нейроны - это тупые одноклеточные животные с кучей своих проблем: питание, температура, электромагнитные волны, космические лучи какие-нибудь... Биологический нейрон по определению ущербен по сравнению с математической моделью, поэтому эволюция навыдумывала тысячи костылей на все случаи.

Костыльная сложность мозга не означает, что те же задачи нельзя выполнить более простой системой; более того, главная проблема в размышлениях "как мозг решает задачи" заключается в эгоцентризме, заложенном в наш мозг, из-за которого он считает себя идеальным, а свои костыли - сверхважными.

Так что необходимо более открыто смотреть на практические возможности нейросетей, даже если архитектурно они на порядки проще нашего мозга.
Аноним 29/09/24 Вск 16:42:20 901677 430
>>791741
>держать все тысячи терабайт сгенерированного
Не обязательно хранить сгенерированное видео.

Возьмём, к примеру, Майнкрафт. Его игровой мир терабайты весить будет, если его весь целиком сгенерировать... Точнее, у него бесконечный мир - никакой памяти не хватит, чтобы хранить всё. Но генерация чанков происходит только когда игрок поблизости с чанком и его нужно отобразить.

Прикол в том, что генерация чанков мира полностью детерминирована и на одно и то же зерно в одних и тех же координатах будет один и тот же результат - следовательно, достаточно хранить это зерно, что обычно является всего одним числом на весь мир.

Конечно, процедурный генератор мира не создаёт изменения, внесённые игроком - их нужно хранить отдельно. Но это имеет смысл только для миров, которые игрок может менять; если цель - простой статичный мир, то достаточно одного зерна.

Конечно, в Майнкрафте и ему подобных используют совершенно другие алгоритмы, но ничто не мешает приспособить под это нейросети. Если нейросеть способна сгенерировать миллионы разных зданий, различая их по числовому ID (зерну), тогда будет достаточно хранить это число и сообщать его, когда необходимо показать игроку конкретное здание. И никаких рандомных мутаций не будет, пока весь процесс генерации детерминирован.
Аноним 29/09/24 Вск 17:36:32 901729 431
>>870922
>алгоритмически неразрешимые задачи
Конкретно какие "неразрешимые" задачи способен разрешать (лол) биологический мозг? Приведи хоть один пример, который твой мозг объективно (т.е. измеряемо извне) разрешает, несмотря на то, что конкретная задача заявлена как "неразрешимая".

Вот один популярный мем:
https://ru.wikipedia.org/wiki/Проблема_остановки
Это считается "неразрешимым", но и твой мозг не способен разрешить эту задачу. Единственное разрешение мозга - это "устать и переключиться на что-то более интересное" или "заранее (из опыта) знать, что эта задача скучная и просто не начинать". Однако, оба эти решения являются алгоритмами.

Если всё ещё считаешь, что такое разрешение этой задачи доступно только мозгу, тогда как ты можешь объяснить тот факт, что "тупая" Windows способна завершать зависшие приложения без какого-либо специального "интеллекта"? Она разрешает эту "неразрешимую" проблему так же, как и мозг: она банально "устаёт ждать ответ" от зависшего кода, независимо от того, завершится этот код или нет.

Так что давай какие-то другие примеры.
Аноним 29/09/24 Вск 18:53:36 901784 432
>>901643
я 410м пробовал тренировать, в 8 гб не влезло, даже с одинарными батчами
на тренировку всегда больше уходит чем на инференс, + тренировка как я уже говорил БЕЗ кванта, хорошо если фп16, а не 32, может и можно закостылить квант, но ты не натренируеш так ничего, для рассчета градиентов тебе нужна точность (вообще современные методы квантовки состоят в том, чтобы выкинуть ненужные веса с нейронки, или дать им минимальную битность, а для тренировки тебе ВСЕ нужны...

обычные тоже дофига на тренировку жрут, только CNN какая нибудь весит почти ничего, по этому на тренировку кажется не так много надо, и то, еще до популярности LLM говорили что меньше 8 гб для тренировки вообще нет смысла влазить, и это напомню для маленьких сетей...

короче говоря - качай пробуй, сам увидиш
Аноним 30/09/24 Пнд 05:55:31 902326 433
>>901643
>Почему? Читал, что однобитные лучше 16-битных: тренируются быстрее, работают эффективнее.
Потому что градиенты корраптятся на низкой битности, и 1 бит можно обучать, да, она будет лучше работать потом относительно модели большей битности того же размера в гигабайтах, но на обучении тебе надо будет хранить все веса в фулл битности, и этих весов у тебя будет в 10 раз больше чем в обычной модели, понимаешь математику, да?
Еще например, нахуя музыкантам нужен 32 битный звук, если человек не слышит разницы выше ~12 бит? Потому что при обработке звука и пропускании его через фильтры, точность теряется. В нейронках точно так же, только там еще более тонкие моменты при обучении.
>А это почему? Читал, что от датасета зависит, но ведь можно стримить данные маленькими кусочками, т.е. условные 10 КБ должно хватать на один проход.
Жопой читал значит. Тебе на 8б модель (а 8б модели - говно) нужно, ну... гигов 80 врама. Потому что тебе обязательно нужны параметры в фулл точности + на каждый параметр состояние его градиентов, оптимизатора + батчи. Итого, умножай смело циферку модели на 10, а то и 20, получаешь примерно нужный для ее обучения объем памяти.
И максимум, который ты себе можешь позволить, например на двух 4090, это что-то порядка 1б модели с нуля, за месяц, с пиздатейшим датасетом, если ты дохуя прошаренный чел, который вкурил и понял все последние статьи из мира машинлернинга. Такая модель сможет связно разговаривать на языке твоего датасета, но будет очень тупой.
>Разве GPT так сильно отличаются от классических нейросетей?
Размером, лол.
Аноним 30/09/24 Пнд 08:27:12 902354 434
>>901643
>но ведь можно стримить данные маленькими кусочками
Можно. И ждать до второго пришествия. Там, где норм парни юзают 64 батч, ты будешь пердеть с 1, но в 64 раза дольше.
Аноним 30/09/24 Пнд 20:55:59 903180 435
>>901729
>Конкретно какие "неразрешимые" задачи способен разрешать (лол) биологический мозг?
Об этом я написал ещё в первом посте на эту тему почти год назад.
>Вот один популярный мем:
Ого, не прошло и года, как обсуждение дошло до проблемы останова. Ещё через год начнём, возможно, обсуждать саму статью и соответствующую теорию, результатом которой она стала.
Аноним 30/09/24 Пнд 23:05:33 903411 436
>>865065
Поздравляю, ты написал об этом на подгебнявом сосаче, ещё и прокси не использовал, небось. Суши сухари.
Аноним 01/10/24 Втр 01:43:07 903566 437
>>903411
Похуй.
1. Я не в рашке.
2. Меня не взяли.
Аноним 01/10/24 Втр 19:47:22 904198 438
А что из себя представляет БОЛЬШАЯ языковая модель а-ля GPT, говорят, что "нейронные" сети старого формата это взвешенный ориентированный граф, а GPT и прочее это нечто большое, но что?
Аноним 02/10/24 Срд 14:59:28 905108 439
>>902354
> где норм парни юзают 64 батч, ты будешь пердеть с 1, но в 64 раза дольше.
не, сходимость на больших батчах не прям линейно растёт, 64батч на видяхочас конвертируется примерно в 40 часов на один батч
Аноним 05/10/24 Суб 08:11:37 908414 440
>>901677
Ну так если ты в папке мира Майнкрафта удалишь файл чанка, то он сбросится до оригинала. То есть все изменения внесенные пользователем обнулятся. Чтобы редактировать виртуальный мир, его придется хранить. А симуляция без взаимодействия с ней - ну странно
Нейросетевая фотоника как средство против энергетического ИИ-кризиса Аноним 09/10/24 Срд 03:04:12 912086 441
Чудовищная энергоёмкость исполнения (не говоря уже о тренировке) моделей машинного обучения/искусственного интеллекта на полупроводниковой элементной базе год от года становится всё более острой проблемой. Переход к фотонике — или хотя бы значимая интеграция её с микроэлектроникой — позволит, хочется верить, уйти от необходимости строить рядом с каждым новым ИИ-ЦОДом по компактному ядерному реактору

https://3dnews.ru/1108013/neyrosetevaya-fotonika-protiv-energeticheskogo-krizisa
Аноним 21/10/24 Пнд 19:58:53 925524 442
насколько вообще сложен статистический анализ и в принципе матстат?
мимо хочу вкатиться в аналитику данных, потом может быть в нейронки
Аноним 21/10/24 Пнд 21:26:07 925691 443
>>925524
или забить хуй и всё таки пытаться сразу в ИИ?
учусь в маге, диссертация - нейронка
так может сразу в ДС и вкатываться? или я охуею с выпускниками мфти конкурировать и сначала в дата анализ набивать опыт?
Аноним 21/10/24 Пнд 23:30:43 925866 444
>>925691
1 курс, отучился только 2 месяца, понял, что веб-крудошлёпинг не столь привлекателен, хочется возиться с данными, вот есть 1.5 года чтобы чему то нормально обучиться, вот и пытаюсь понять куда и вкатываться
Аноним 23/10/24 Срд 16:35:50 928052 445
1. Создание AGI уровня обычного человека почти наверняка позволит создавать гениев уровня фон Неймана, Тао и Перельмана (а скорее всего, ещё умнее), которых никакие парашные спецы не заменят.
2. Гении будут работать над поставленной задачей десятилетиями без перерыва, не отказываясь, не отвлекаясь, не сходя с ума, не болея и не умирая.
3. Уже обученных гениев можно будет копировать неограниченное количество раз.
Аноним 23/10/24 Срд 16:36:52 928055 446
Аноним 23/10/24 Срд 20:06:45 928441 447
>>928052
>Уже обученных гениев можно будет копировать неограниченное количество раз.
Нет, нельзя, у тебя ресурс видеокарты ограничен, сейчас даже самые дорогие суперкомпьютеры нихуя не умеют, а это национальные проекты, работа над которыми ведется годами.

Чтоб наспамить искусственных гениев даже при успешном создании одного, уйдут десятилетия и триллионы долларов.
Аноним 24/10/24 Чтв 02:15:29 929093 448
>>928052
Гении не обычные люди.
А работать машинные гении обязаны не более чем настоящие, тем более десятилетиями.
Обойдётесь, сударь.
Аноним 31/10/24 Чтв 15:01:14 936763 449
Какая локальная модель для кодогенерации/копилотирования сейчас топ?
Аноним 06/11/24 Срд 03:05:33 941117 450
Учусь в маге. Нужно выбрать тему для выпускной работы. Накидайте тем, чтобы уж явной хернёй не заниматься.
Аноним 07/11/24 Чтв 16:22:47 942433 451
>>941117
код специальности и направление?
сам что думаешь примерно?
в датасаенц влиться хочешь или только бы диссер написать?
Аноним 08/11/24 Птн 13:29:40 943212 452
>>942433
02.04.02 Фундаментальная информатика и информационные технологии

Сейчас задача написать нормальную ВКР, а не шляпу какую-нибудь.

Есть опыт бекэнд разработки. В дальнейшем хочу попробовать себя в машинном обучении.
Аноним 08/11/24 Птн 17:42:24 943481 453
image.png 17Кб, 914x185
914x185
Есть датасет типа пикрил. Идея была такая, что я с его помощью смогу по тегам определить сколько отзывов получит игра (в какой класс залетит)
Разбил на 4 класса:
"Нет отзывов" (0 отзывов),
"Мало отзывов" (1–50 отзывов),
"Среднее количество отзывов" (50–500),
"Много отзывов" (500+).

В датасете разделил одинаковое количество по каждому классу по ~500

Попробовал заюзать все методы классификации, которые мог и как мог: лог регрессия, SVM, KNN, деревья, бустинг. Везде даёт пососать матрица ошибок.



Что я глобально делаю не так? Куда че где читать? Советы чат гпт к сожалению не помогают
Аноним 08/11/24 Птн 23:17:07 943856 454
>>943212
у нас с тобой 1 в 1 положняк, только я 09.04.02
научрук обещал список тем готовых скинуть на след. неделе, вкину в тред как будет
как с матаном у тебя? много уже из саенца/мл знаешь?
Аноним 09/11/24 Суб 12:17:20 944157 455
>>943856
Только начал по большому счету. Скидывай список тем, ка сможешь.
Аноним 12/11/24 Втр 01:36:51 946342 456
млмдмддм
Аноним 12/11/24 Втр 02:00:08 946348 457
студенты старших курсов или выпускники, поясните зачем нужен матан, стоит ли в него глубоко вкатываться. Я сам первак, и нет никакой мотивации глубоко изучать его. Не хочется проебать время впустую.
Аноним 12/11/24 Втр 12:05:30 946567 458
>>946348
Матана 1 курса хватит, линал + мат анализ + статистика
Аноним 16/11/24 Суб 20:56:20 950758 459
1731779596165.jpg 84Кб, 776x539
776x539
>>639284
> маску в конце и и генерировать потоке
По-моему так у тебя тупо декодер получится. Ну то есть на сгенерированой части маска должна быть как в декодере, без подглядывания в будущее. На промпт можно оставить двустороннюю, получится эдакий гибрид. Такое еще называется prefixlm.
Аноним 18/11/24 Пнд 20:38:39 952545 460
Ананасы, просветите меня на тему brain-inspired сеток
Есть ли сейчас какие-то наработки, повторяющие архитектуру мозгов, т.е. по сути 2шт collection of experts(отета хуйня на пикче). По сути ж даже для человека нужна не такая большая сетка, и существуют аналоги всех долей мозга, кроме теменной, система внутреннего подкрепления (reward system) тоже
Аноним 18/11/24 Пнд 20:50:37 952554 461
>>928441
Видяха ведь не оптимальный вариант. Оптимальный-это "кремниевые нейроны", чипы заточенные под ии. У i9 10млрд транзисторов, т.е. роботы с agi без прямого питания от электростанции не только возможны, но и появятся лет через 10, если корпорации не будут долбится в стену по методу kerbal space program - just add more engines just add more parameters and train on a bigger dataset
Аноним 18/11/24 Пнд 21:02:36 952560 462
Gray744.png 87Кб, 548x479
548x479
Аноним 19/11/24 Втр 05:11:40 952993 463
Аноним 19/11/24 Втр 08:54:40 953080 464
>>952993
А точно есть? Муха большая и сложная. Я слышал только про полностью воспроизведённый мозг червя из 302 нейронов, лол.
А, вижу, точно. 140к нейронов. Неплохо, неплохо. Надо будет подробнее изучить да скачать. Сколько там ресурсов для запуска нужно, не знаешь? А то червь прям много хотел.
Аноним 19/11/24 Втр 12:41:38 953180 465
>>952545
>Есть ли сейчас какие-то наработки, повторяющие архитектуру мозгов
Работающих нет и не будет, пока используются методы, которые используются. Статические сети интеллект воспроизвести не способны по определению.
Ну а так да, муху замутили недавно. И червя десятилетия назад. Как не работало это всё, так и не работает.
Аноним 19/11/24 Втр 12:55:17 953208 466
>>952993
>>953180
Да нахрена те мухи с червями, я ж не про оцифровку мозга, а про создание с нуля, но с архитектурой похожей на мозг
Аноним 19/11/24 Втр 13:10:55 953219 467
>>953208
>а про создание с нуля, но с архитектурой похожей на мозг
Сказано же, не работает и не будет.
Аноним 19/11/24 Втр 13:17:25 953227 468
>>953208
>AGI мне запилили быстраблядь!
Аноним 19/11/24 Втр 21:31:20 953715 469
>>952545
>наработки, повторяющие архитектуру мозгов
В этом направлении работает (работала) Numenta:
https://en.wikipedia.org/wiki/Jeff_Hawkins
Вкратце: колонки - топ тема, 150 тысяч хватит всем.

По размеру - всё так, мозг чрезвычайно избыточен.

>>953219
>не работает и не будет
Да-да, слышали уже, дед.
>Если заслуженный, но престарелый учёный говорит, что нечто возможно, он почти наверняка прав. Если же он говорит, что нечто невозможно, он почти определённо ошибается.
Аноним 19/11/24 Втр 21:54:57 953763 470
1.png 5Кб, 259x388
259x388
Может кто-нибудь пояснить простым языком, конкретно почему множество attention heads присоединяются к единственной FF нейронке?

Почему нельзя дать по одной attention head каждой нейронке, чтобы затем использовать только те, что действительно нужны для выполнения задачи?

И сократить FF нейронку до, скажем, 10 нейронов.

Как mixture of experts, только на уровне внимания.
Вижу Mixture of A Million Experts, пока не читал:
https://arxiv.org/abs/2407.04153
Аноним 19/11/24 Втр 22:15:42 953792 471
>>953715
>Да-да, слышали уже, дед.
Иди нахуй.
Аноним 20/11/24 Срд 06:52:15 954136 472
>>953763
Потому что сначала multi-head не было вообще и attention считали с одной "головой". Тупо если размерность модели 1024 то внутрення размерность в attention тоже 1024.
Потом придумали что можно сделать 8 голов и у каждой размерность уменьшить до 128, так что общее количество операций и объем памяти остается примерно такое же. И оказалось что так оно тренируется лучше.

Почему не взлетел какой-то более хитрый вариант не знаю, но часто бывает так что более хитрые варианты на достаточно большого размера моделях дополнительного выигрыша не дают. Конкретно так как ты предлагаешь во первых может кто-то и пробовал но мы не знаем, во-вторых оставить только те которые действительно нужны это сам по себе вопрос нетривиальный, не очевидно как это сделать.
Аноним 20/11/24 Срд 15:30:33 954418 473
Какая на данный момент самая лучшая нейронка для программиста?
Даже если нету такой, которая хорошо пишет код, есть ли такая, которая знает документацию любого языка? У которой можно спросить, как реализовать такую-то фичу, и она напишет этот кусок кода правильно и сможет нормально объяснить, что делает каждая функция. И предложит другие варианты решения?
Аноним 20/11/24 Срд 21:25:01 954728 474
>>954418
Все, не надо, спс, нашел инфу про o1, claude и т.д.
Аноним 21/11/24 Чтв 21:57:49 955501 475
>>953715
>мозг чрезвычайно избыточен
Мне почему-то кажется что вопрос не в избыточности, а в том что этот скан это как скан пн перехода ради симуляции диода вместо простого условия типа "ток течет в одну сторону"
Аноним 22/11/24 Птн 06:08:53 955740 476
>>955501
Согласен. Нейроны - биологические клетки со своими биологическими делами и проблемами. Естественно, идеальная копия их процессов не нужна для ИИ на человеческом уровне. Только мы толком не знаем, какими процессами клеток мы можем пренебречь.

Например, нейроны реагируют на:
- электромагнитные волны - мозг создаёт вокруг себя электромагнитное поле, нужно ли оно для каких-либо процессов психики или это побочный эффект?
- множество видов гормонов - какие из них могут быть обязательны для психики, а какие вторичны?
- уровень питания - кровеносные сосуды мозга как-то реагируют на активность нейронов, и это может быть важным элементом в психике и обучении, поскольку нейроны очень зависимы от уровня кислорода.
И ещё мозг всю жизнь создаёт новые нейроны. Ещё специальные клетки закрепляют и ускоряют аксоны. Одних только типов нейронов обнаружено десятки. Какими вещами мы можем пренебречь - неизвестно, поэтому стараются скопировать как можно больше.

С другой стороны, мозг вынужден фильтровать шум не только внешней среды, но и внутренней, иначе он был бы недостаточно надёжным в природе. Мозг способен перенести очень тяжёлые травмы, потерю многих участков. Чего только с мозгами пациентов не вытворяли, так что мозг имеет запас прочности. Скорее всего, за счёт избыточного дублирования. Поэтому минимальный интеллект в защищённой от лишнего шума и повреждений виртуальной среде, скорее всего, потребует меньше ресурсов, чем биологический мозг. Если, разумеется, вся эта избыточность не требуется для обучения с нуля - например, у младенцев связей раз в 10 больше, чем у взрослых - мозг с годами их только сокращает. Возможно, без избыточности обучение хуже. Те же древние предки хомо сапиенса имели меньший по объёму мозг; многие животные выживают дольше человека даже с относительно крошечным мозгом.

Короче, модель интеллекта-то наверняка проще, чем биологический мозг, но мы понятия не имеем, какие детали можно убрать без потери нужных свойств.
Аноним 22/11/24 Птн 09:25:51 955797 477
>>955740
>Одних только типов нейронов обнаружено десятки.
Больше тысячи.
>Те же древние предки хомо сапиенса имели меньший по объёму мозг
Совсем древние да, а так то последние 10 килолет мозг только уменьшается.
Аноним 01/12/24 Вск 18:03:24 964269 478
>>511426 (OP)
https://github.com/horseee/Awesome-Efficient-LLM

A curated list for Efficient Large Language Models
• Network Pruning / Sparsity
• Knowledge Distillation
• Quantization
• Inference Acceleration
• Efficient MOE
• Efficient Architecture of LLM
• KV Cache Compression
• Text Compression
• Low-Rank Decomposition
• Hardware / System / Serving
• Tuning
• Efficient Training
• Survey or Benchmark
Аноним 05/12/24 Чтв 20:09:12 968824 479
>>511426 (OP)
The Evolution of RWKV: Advancements in Efficient Language Modeling

This paper reviews the development of the Receptance Weighted Key Value (RWKV) architecture, emphasizing its advancements in efficient language modeling. RWKV combines the training efficiency of Transformers with the inference efficiency of RNNs through a novel linear attention mechanism. We examine its core innovations, adaptations across various domains, and performance advantages over traditional models. The paper also discusses challenges and future directions for RWKV as a versatile architecture in deep learning.

https://arxiv.org/abs/2411.02795v1
Аноним 09/12/24 Пнд 07:21:31 972364 480
image.png 217Кб, 1320x1860
1320x1860
>>511426 (OP)
Поясните по второй картинке (продублировал).
Я не понимаю, что подаётся на вход справа внизу, в декодер.
Слева внизу идёт изначальная последовательность токенов, которая в результате должна будет увеличиться на один токен.
А справа что?
Например, у нас уже есть "съешь же ещё этих мягких французских". Мы подаём её на вход слева внизу, чтоб на выходе сверху получить "съешь же ещё этих мягких французских булок". А что подаётся на вход справа внизу? Зачем нам вообще часть с декодером?
Аноним 09/12/24 Пнд 18:53:54 972702 481
>>972364
>Зачем нам вообще часть с декодером?
Та низачем, сейчас делают декодер-онли (или энкодер онли) трансформеры.
Аноним 10/12/24 Втр 19:09:56 973660 482
>>972702
Но всё же помоги понять что ему подаётся на вход.
Я не нашёл внятного объяснения для мимокроков.
И чем вообще различаются эти две ветки.
Аноним 10/12/24 Втр 22:05:35 973850 483
Как я это понимаю сейчас - на первом шаге в декодер мы кидаем только старт токен. Далее уже к нему добавляется аутпут с прошлого шага. То есть на втором шаге туда отправится старт токен и то, что сгенерила модель на предыдущем шаге. Но хотелось бы убедиться, что я правильно понял эту схему.
Аноним 10/12/24 Втр 22:28:35 973884 484
>>973660
Это классический трансформер, который писали для перевода. Слева кидают ангельский, справа французский.

Текущие хайповые ЛЛМки выкинули нахуй энкодер со времён GPT. Всё кидается в декодер, сверху берутся булки.

Энкодер-декодер архитектуры используются в BERTах всяких. Можешь погуглить что там куда вставляется.
Аноним 10/12/24 Втр 22:29:52 973885 485
Аноним 18/12/24 Срд 13:41:33 981189 486
Аноним 18/12/24 Срд 14:20:12 981229 487
Аноним 21/12/24 Суб 19:32:21 985101 488
>>511426 (OP)
>немодифицированные персептроны

Можно узнать, что в данном контексте считается именно "модифицированным персептроном"? Быдлоссылки не кидать, все объяснения здесь в студию Грузите меня любым матаном, я ктн
Аноним 22/12/24 Вск 00:27:30 985539 489
Новую Гемини CoT от гугла можно заставить думать во много раз дольше через ситемный промтп, прокручивая код и мысли внутри по +5 шагов за раз. Интересно, может ли это вообще положительно влиять на результат и быть похожим на версию 1о-Про от курильщика
Аноним 24/12/24 Втр 08:12:16 987786 490
16244616693960.jpg 41Кб, 450x488
450x488
>>985101
Оооййй бляяя. Ну что же вы, анонизмусы. Ну неужели никто ничего не пукнет мне в ответ уже третьи сутки? Просто я теоретик и хочу узнать, насколько сильно я отстал от жизни.

Давайте попробую помочь. Насколько я понимаю "немодифицированное говно середины прошлого века" это изначальный Розенблаттовский перцептрон, который S-A-R. "Модифицированный" это, как я понимаю, перцептрон Румельхарта-Хинтона образца 1986г, в котором впервые начала применяться связка "сигмоида+бэкпропагейшен" ну и его же прозвали фидфорвардом. Я правильно понимаю, что именно он по сей день и применяется? Только сигмоиду преимущественно заменили на релу в скрытых слоях и на софтмах в выходном. Верно? Или что-то ещё там кардинально поменялось????
Аноним 25/12/24 Срд 08:59:06 988585 491
16434940955560.webm 452Кб, 460x460, 00:00:15
460x460
>>987786
>>985101

Ну да, конечно, что это я. Что я тут решил услышать от мартых, которые считают 1с-подобную хуиту языком программирования.
Аноним 26/12/24 Чтв 06:23:00 989615 492
>>987786
>Верно? Или что-то ещё там кардинально поменялось????
Ну да. Ничего там не поменялось.

Но это не мешает нейродебилам на каждом углу орать про грядущий ИИ.
Аноним 26/12/24 Чтв 08:08:15 989631 493
Screenshot1.jpg 39Кб, 723x581
723x581
>>989615
Ох спасибо мил человек. Тады всё ясно с этими ихними скайнетами и прочими терминаторами. Пойду дальше спать.
Аноним 12/01/25 Вск 08:28:34 1008469 494
И целого интернета мало
Насколько высок риск инбридинга языковых моделей


В июле 2024 года в Nature вышла статья британских и канадских специалистов по искусственному интеллекту, которые задались вопросом: что произойдет с обучением нейросетей, когда интернет заполонят тексты, написанные другими нейросетями (а ждать уже недолго)? Ученые проанализировали, как современные языковые модели генерируют тексты, если и учатся на таких же сгенерированных текстах — и пришли к неутешительным выводам: языковые модели ждет вырождение. Но действительно ли стоит бить тревогу по поводу будущего генеративного искусственного интеллекта?

https://nplus1.ru/material/2024/10/24/the-web-is-not-enough
Аноним 12/01/25 Вск 09:47:59 1008500 495
>>1008469
Да бля всё равно не смогут АГИ создать на чистом перцептроне с бэкпропагейшеном. Надо скрещивать его с Хопфилдом, Больцманом и Кохоненом, как оно в мозге хуманов и работает скорее всего. На одних трансформерах вечно ехать не сможем, давно понятно.
Аноним 24/01/25 Птн 23:39:28 1024941 496
Есть инфа, как делать авторегрессию без бэкпропа?

Я имею в виду, как именно юзать Hebbian learning?
Аноним 11/02/25 Втр 12:32:44 1050169 497
посоветуйте видеокарту для тренировки своих нейронных сетей.
выбор стоит между rtx 3090, rtx 4080 super, rtx 5070 ti
Аноним 11/02/25 Втр 12:35:36 1050170 498
>>634238
потому что обычные видеокарты не поддерживается SLI. Сейчас ток на серверных видеокарт такое, насколько я правильно понимаю, ты конечно можешь подключить разные видюхи с помощью технологии нвидиа NVLink но карты станут медленнее чем если бы ты купил серверные видюхи
Аноним 11/02/25 Втр 15:40:02 1050455 499
>>987786
ого, я правильно понимаю что ты ни смог в ИИ, теперь тут высираешься?

ждём от тебя новые открытия не будут ты дебил тупой
Аноним 11/02/25 Втр 22:07:54 1050836 500
>>1050169
3090 или даже 3080ti если тебе памяти много не нужно.
Аноним 17/02/25 Пнд 16:20:44 1056994 501
>>1050455
Какую же жалость вызывает твоё "ждём". Что, ссыкотно от своего лица говорить? Ощущаешь свою ничтожность и хочешь прикрыться толпой? Лалка, я знаю так много, сколько тебе не снилось. Я пришёл сюда поговорить с умными людьми, к числу которых ты никоим образом не относишься.
Аноним 19/02/25 Срд 02:34:18 1059262 502
Аноним 19/02/25 Срд 03:30:59 1059293 503
>>1050836
Взял 3090, всё таки память не будет лишней.
Аноним 08/03/25 Суб 15:55:08 1086269 504
ZOJX9cBCbigpost[...].jpg 151Кб, 1200x630
1200x630
Аноним 12/03/25 Срд 18:50:24 1094666 505
meme-moneyprint[...].png 151Кб, 1400x649
1400x649
Аноним 12/03/25 Срд 21:31:54 1094952 506
Катить тред будете, исследователи доморощенные?
Аноним 13/04/25 Вск 13:13:03 1150073 507
>>1008500
> на чистом перцептроне с бэкпропагейшеном. Надо скрещивать его с Хопфилдом, Больцманом и Кохоненом
Похуй на чем создавать, важна внутренняя структура и представление данных. Логические сети, сети картины мира, сети предсказания, сети которые могут разобрать на логические единицы и обрабатывать их. А какие именно нейросети использовать зависит от оптимизации.
> как оно в мозге хуманов и работает скорее всего
Поебать как оно работает у хуманов. Нужно делать всё иначе.
>На одних трансформерах вечно ехать не сможем, давно понятно.
Мартышки схавают и попросят добавки, вон сколько восторженных долбиков по всему разделу. Пока все коллапс этого говна не случится - деньги так и будут вбухивать в никуда.

>>987786
Не помню точно, там есть какие-то хитрые оптимизации связанные с состояниями и промежуточными состониями, но сам прецептрон роли не играет, туда можно что угодно въебать и это будет работать. Суть этого говна не в этом.

>>989631
Суть этого нейроговна в том, что посредством обучения на биг-биг-бгг-дате нейросети начинают устанавливать "глубокие" связи. Пока что они их устанавливают между токенами и связи уровня "хуй идёт в пизду". Тащемта единственное что доказали нейросети - даже с существующими мощностями можно каким-то образом обучить нейросеть хранить факты о мире и обучить логике.
ПЕРЕКАТ Аноним 13/04/25 Вск 22:52:44 1151067 508
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов