Очередной тред про хипстерские технологии, которые не работают
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu/ (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему такой фокус на нейронки? Потому что остальные чистят вилкой данные в банках с помощью LGBTboost и им некогда предлагать обновления в шапку
Какая математика используется? В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет
Где набрать первый самостоятельный опыт? https://www.kaggle.com/ | http://mltrainings.ru/ Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai/
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь
Когда уже изобретут AI и он нас всех поработит? На текущем железе - никогда, тред не об этом
Кто нибудь использовал машоб для трейдинга? Никто не использовал, ты первый такое придумал. Готовь камаз для бабла.
Список дедовских книг для серьёзных людей: Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: http://libgen.io/
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
>>2042638 → >inverse Reinforcement Learning и Imitation Learning это одно и то же или нет сука Inverse RL это про поиск функции вознаграждения по действиям эксперта. Imitation Learning это поиск стратегии.
Аноны, серьезный вопрос. Можно ли хоть как-то вкатиться если я немного туповат? С логикой я дружу, но вот со всякими матрицами и пятиэтажными формулами совсем плохо. Есть ли какой-то лайфхак как с этим работать, абстрагируясь от матана?
>>2043566 Так то для самой базы математика и не нужна. Конечно если ты не собираешься делать свою архитектуру или воспроизводить чужую с нуля либо менять что то в фундаменте. А потом с опытом появится какое никакое понимание и взгянув на эти пятиэтажные формулы можно будет увидеть - ага, эта закорючка тот кусок кода, эта кусок кода из той нейронки, это из той, а что не понятно можно будет отдельно изучить, объема будет значительно меньше.
>>2043596 Спасибо! Хоть какая-то надежда есть, уже хорошо. А есть ли какой-то гайд для базового вката, чтобы можно было начать кодить не вдаваясь сильно в архитектуру?
>>2043603 Ну надо мне очень. Зачем и почему долго рассказывать да и не суть важно. Если кратко, то проект в который я влез теперь переобули на нейронные рельсы.
>>2042695 Блин. спасибо, анон. А то я уже сидел читал и простейшую вещь вкупить не мог. То ли от того, что я устал и в целом не очень умный, то ли от того, что в имеющихся немногочисленных источниках не очень понятно объясняют.
Анон, прошу твоей помощи. Есть задача по переработке таблиц в Экселе с данными на таблицу в Экселе с другими данными. Например в таблице значение яблоко менять на апельсин, но вместо яблока может быть "яблоко", "эппл", "плод яблони", "я6лок0". Есть уже таблицы в которых эти строки сопоставлены. С чего можно начать если есть начальные (python tutor сам прорешал на 70%) знания python. Может уже где-то есть такие написаные сети? Или есть место где разбирают такую сеть?
>>2044279 Если ты про ВПР в excel, то это не подойдёт, потому что бывают значения, которые я ещё не размечал и надо чтобы нейросеть сама делала предположение, а я говорил права она или нет
>>2044282 Для начала ты не сможешь сам говорить напрямую права она или не права. Сделай такую хуйню - собери датасет вида строка (яблохуй) сложный разделитель (<-хуйок->)что это (яблаки, апельсины). А потом прогони циклом регулярочкой в питоне чтобы он брал нужную колонну, генерировал строку где в конце будет написано что это и этим же регулярным выражением отдели до разделителя. Тут короткая строка поэтому смело бери gpt-2 с макс длиной строки около 100 токенов и дефолтной вокабой а дальше по желанию. Ну или выбери более правильный с точки зрения логики но так же более сложный путь. Но это самый легкий. мимо-анон-тренирующий-говнонейронку-для-lr
Я вообще не местный, нейросети копаю пару недель, и это для меня не основное направление. Но возникла нужда сделать сетку для регрессии 20 входящих значений и 20 выходящих. Примерную архитектуру спер из статьи по аналогичной задачи: двухслойный модуль GRU для учета динамики. Но сеть не сходится.
Точнее, она сходится просто к одинаковым усредненным значениям, будто зависимости там и нет. Но она есть, инфа 100%, я точно знаю. В чем может быть проблема, что надо крутить?
>>2044599 Я нашел статью, в которой описывается решение той же самое задачи, но через другие данные (у них те же входы, но больше выходов). И там описано решение именно через GRU. Я буквально воссоздал параметры сети из статьи. Только вот процесс обучения у них, увы, не описан.
В общем, у меня есть координаты в пространстве объектов, которые движутся взаимосвязанно. Надо по координатам одних объектов вычислить координаты других.
Сап, как сжать модель gpt-2? Хотел в процессе тренировки заменить в скрипте оптимизатор AdamW на MADGRAD так как заебался вручную менять lr во время прогонки по разным датасетам чтобы хоть как то ускорить обучение, а выделенные 16 гигов колаба поводили мне по губе. На удивление этот оптимизатор требует больше видеопамяти. А так как тренировал модель впритык дохуя времени, остается только сжатие. Модель в формате bin но как я понял на формат похуй, весит 1,5гб и содержит 400М параметров. Желательно ссылку на код чтобы ввести расположение модели и нажать кнопку сделай заебсись. В квантизацию пытался но так и не смог.
>>2045037 Блин, почему так сложна? Я думал, что закину данные, и компьютер дальше всё сам посчитает. А тут столько геморроя, оказывается.
Пытаюсь разобраться, в чем проблема. Немного масштабировал входящие данные и выходные данные сократил до одного значения. Получается так себе. Что дальше крутить? Сложна, непонятна.
>>2046154 Едва откопал, как я понял он был какое то время в репе хугфейсов, но в 2020 его от туда выпилили. И там скорее скрипты выполнения а не сжатия модели. Сейчас копаю во всех направлениях и в каждом втором примере используют структуру для квантизации: загрузка модели загрузка вокаба и текста для разбивания его на токены (?) конверсия модели трассировка по этим токенам(?) сохранение модели
Ну и потом, во первых эту модель не дообучить, во вторых ее хуй загрузишь на гп.
Копал в направлении прунинга но там все еще сложнее а примеров и вовсе не нашел.
>>2046051 А может, не хватает данных для восстановления зависимости? В более поздних экспериментах у меня многие точки экстремума угадываются, но график все равно сильно отличается.
>>2045037 > В общем, у меня есть координаты в пространстве объектов, которые движутся взаимосвязанно. Надо по координатам одних объектов вычислить координаты других. Задача N тел? Для нее есть численные методы решения, например метод Жопеншмульцера Рунге-Кутты, зачем натягивать сову на глобус? Алсо, возрастание ошибки при уменьшении шага интегрирования - известная проблема при численном решении задачи N тел.
Есть ли готовые проекты/архитектуры/трансформеры, которые позволяют генерировать вопросы на основе текста без указания правильного ответа? Т.е. грубо говоря есть предложение и к нему надо задать все возможные вопросы.
В scikit когда сохраняю дерево и там почему-то сумма value не равно количество самплов, а в примере с гайда всё сходится. Что тогда это такое value и samples? Я неправильно что-то построил?
Слыхали про очередную победу машобчика? Боевой дрон на нейроночках по собственной инициативе утилизировал каких-то трюкачей на Сосирии. > По данным издания, Kargu-2 классифицирует объекты на основе машинного обучения для выбора и поражения целей. Решение об атаке целей не требует взаимодействия между оператором и машиной. Также отличительной способностью этого беспилотника является возможность группироваться с другими дронами в "рой" и действовать сообща. https://ria.ru/20210531/bespilotnik-1735011067.html Беспилотный Убер вроде тоже пешеходов расплющивал? Но тут совсем пиздец, это же дроны с оружием.
Как называется такая штука когда каждую фичу отдельно оцениваешь разными моделями (у меня линейная регрессия), а потом считаешь корреляцию предиктов каждой модели и актуального класса (бинарный классификатор) и в конце считаешь взвешенное среднее предиктов всех фич, где веса это нормализованные корреляции после чего смотришь больше или меньше это среднее какого-нибудь порога и на основе этого определяешь объект к какому-нибудь классу. Как это называется?
>>2054031 Тем, что GPT это по сути world model. Даем изначальное состояние, конечное нужное нам состояние, просим заполнить пропуски. С хорошей моделью никакие награды будут не нужны.
>>2054127 >в видеоигровых ботов не влезает Так остальные методы из RL тоже не влезают. И ты видимо не понял сути. Взяли код рабочего трансформера для текста, изменили пару строк - получили sota.
>>2054194 Ну это смотря какая задача RL. Я не думаю, что можно ТЕКСТОВЫЙ трансформер вот так просто взять и использовать в работе манипулятора-сортировщика.
>>2054862 А какая разница, что генерировать. Даешь гпт первое предложение, последнее предложение - она строит осмысленный текст между ними. Даешь гпт стартовую позицию робота, конечную желаемую позицию робота - она заполняет состояния-действия между ними. Можно даже обусловить её на стартовое состояние и желаемую награду. Если обучена хорошая модель мира, то никаких проблем быть не должно. Правильно состояния-действия-награды кодируй и обучай как в nlp.
>>2055037 Видео не смотрел, но у нас на одну вакансию джуна десятки, а то и сотни кандидатов (большинство из Практикума, но многие МФТИ/МГУ). Слава богу, что я раньше вкатился.
Поясните за голосовых помощников. Вся эта пежня имеет какое-нибудь отношение к трансформерам? Может ли в зерошот/ фьюшотлернинх итп? Что-то ничего не нагуглил.
>>2055408 Мне кажется, ччто оно там если и используется, то только в рекогнайзе. Вся механика и действия завязаны на экспертных системах, для стандартизации и единого API взаимодействия с системой. Так было, вроде.
Видали, там чингчонги запилили трансформер на 1.75Т параметров Wudao2. В 10+ раз больше гпт3. Тоже нихуя доступ не дадут, будут этой нейроночкой уйгуров ебать и социальный рейтинг рассчитывать... https://en.pingwest.com/amp/a/8693
Ну что вы готовы дети?!, вкатышы, готовы сосать хуй? Там очередную автоматизацию пилят, причем не абы дядя вася с горы, а аж huggingface. https://huggingface.co/autonlp пока только бета-тест, но это пока. Выглядит все крайне круто, в перспективе это должно быть нечто уровня: загружаешь свои данные, жмешь кнопку "сделать заебись", и все, получаешь на выходе заебись за 10 долларов / задача. Никакие зумера, местами осилившие attention - all you need не нужны.
В ШАД-е на заочке учился кто-нибудь? Какие-то отличия от очки, кроме того, что можно не ходить к ним в здание, есть? Может, список курсов ограничен? Или семинаров нет?
Кто-нибудь может подсказать, в чём может быть проблема? При токенизации тестового набора и попытке засунуть его в берт-модель, вылезает cuda error device-side assert triggered pytorch Хотя на cpu всё идёт без ошибок.
>>2056846 О, такая же хуйня была буквально на днях с гпт-2. Правда там я делал вокаб вручную, затем прошелся с нулевым, 255 токенов сами добавились и была та же хуйня. Потом увеличил вокаб и ошибка прошла. Вполне возможно это от того что вокаб меньше ебедингов либо другие траблы с ним. Если тренируешь с нуля попробуй пересоздать вокаб минимум на пару тысяч токенов и с другими настройками. хотя на цп не проверял, в теории работать было не должно, но хуй его знает
>>2057550 > . Погромисты все равно нужны будут. Зачем? Уже гпт3 может сносно писать рабочий код. Ты же прекрасно пынямаешь, что в течение 10-15 лет условная гптХ сможет написать в том числе код гптХ+1. Не говоря о любом другом. Их же пиздец на каких здоровых датасетах обучают, commoncrawl это уже по-сути архив интернетов. В ближайшие лет 10 абсолютно точно нейроночки превзойдут во всём не только зумеров.
>>2057567 Не сможет. Это же языковая модель. Можешь во всех своих предложениях заменить "GPT" на "Марковская цепь". Гугл завтра придумает новую модель, керас в очередной раз изменит синтаксис, а жаваскриптеры сделают новый модный фреймворк, и GPT можно будет выкидывать на помойку, пока людишки не напишут кучу новых примеров.
>>2057567 Да и сейчас под "сносно писать код" академики имеют ввиду типовые задачи на алгоритмы. Так как все это было в трейне, то это во многом оверфит. Биморф-3.
>>2057598 > Можешь во всех своих предложениях заменить "GPT" на "Марковская цепь" Поридж, хоспаде... Надеюсь, что ты как и принято у зумеров, просто не думаешь что пишешь. Как-то не верится, что тут есть настолько отсталые, что считают гпт и марковские цепи сравнимыми вещами
>>2057789 И к чему ты это высрал-то? Как можно сравнивать настолько разные хотя бы по масштабу архитектуры, что для этого надо сделать, мозги продать или что?
>>2057819 Маск тут вообще не при чем. Трансформеры создал не он, самый крупный трансформер тоже уже не он. >>2057826 Да-да, ты главное таблетки пить не забывай, хоть иногда, свидетель экспертных систем...
>>2057841 Какой зумерский хлебушек в голове нужно иметь, чтобы считать, что 100 матриц со статистикой по токенам достаточно для замены программистов. Год назад до этого дошли в селф-драйвинге, убер сам денег авроре заплатил, чтобы избавиться от своего селф драйвинг подразделения, а лифт поскорее сам продался, кинув гребцов на фантики. Через год/два года дойдет ИИ зима и до остальных отраслей.
>>2057923 > А я напоминаю, что ЭС по диагностической медицине уже во всю были в 70х, даже успешно управляли государством в латиноамерике И где теперь латиноамерика?
>>2057567 >Уже гпт3 может сносно писать рабочий код. Сколько уж про это слышу, а примеры то будут нормальные ? Или опять "сетка с триллиардом параметров смогла дописать .predict, датасаенс упразднён" кидать будешь?
>>2057948 Латам ставят Пиночетов и вводят эмбарги, плюс выкупают и уничтожают производства иначе большому США никак не выжить. Взять Кубу, охуенная страна с социальными ништяками, но обложена санкциями по самое не балуй.
>>2057952 >Взять Кубу, охуенная страна с социальными ништяками, но обложена санкциями по самое не балуй Экспроприируешь собственность американских компаний, узурпируешь власть, обвиняешь во всем санкции. Потом рассказываешь в интернете, за какие "грехи" убили каддафи.
>>2057968 >Экспроприируешь собственность американских компаний Словно что то плохое >узурпируешь власть Почему кого то должно ебать кто президент другого государства?
Что там по евенту? Будет пиздец обидно если он будет в сессию и как в прошлый раз с требованием играть минимум 6 часов каждый день евента для последнего скина до которого сука даже с таким графиком не хватило 200 поинтов.
Есть одна модель, которая выдаёт ответы на вопросы по тексту. Проблема в том, что если немного перефразировать вопрос (но, по сути, это то же самое), можно получить другой ответ, вплоть до противоположного. Можно ли как-то решить эту проблему? Какое-нибудь косинусное расстояние тут поможет?
>>2060789 Чел, технически все эти нейронки даже сложные по сложности дотягивают примерно до окологлоточного нервного узла дождевого червя. Человечество еще хрен знает сколько лет не сможет даже таракана или плечу сделать чисто автономную(т.е. без скриптов), молчу уже про обучающиеся организмы способные принимать решения(ака крыса). Дальше чисто утилитарного использования принципов слегка напоминающих работу нервов никто не пошел, т.к. там дальше уже другая наука начинается, которая еще более черно-дырная чем нейронки.
>>2052613 Не знаю, как в МЛ, а в социальных науках есть понятие триангуляции - когда объект измерения ебут разными методами, чтобы результат был понадежнее.
>>2060789 Представления о реальности нейронки основываются на математической статистике, которая является небольшой частью математики. Но даже вся математика в целом - всего лишь моделирование реальности основывающееся на недоказуемых аксиомах.
>>2060990 Душнила зеленский, ты? Чё это всё вообще за хуйня, это из учебников по "настоящей" дедовской статистике какая то залупа никому не нужная что-ли?
>>2061025 В рашке не существует условно вакансии мл-джуниор, на все вакансии связанные с мл сразу требуется на самом деле человек с знаниями, навыками и способностями мл-ресерчера, а тот кто просто модельки делает, фитит и пайплайнит куда-то - обезьяна. Поэтому хуй знает как можно оценивать собес если на работу требуется действительно обезьяна для моделедроча, да ручного лейбинга картинок с писюнами и сосисками, все равно так и так будешь отвечать на вопросы одного уровня. Ах, да, не стоит забывать про 15 лет стажа в области которой меньше лет.
Блядь, какое же я никчёмное говно. Работаю почти два года и чувствую, что ничего не знаю и не умею. И всё время ссу, что потеряю работу. Думаете, стоит походить по всяким другим вакансиям? 27 лет, возьмут миддлом?
>>2061038 > вакансии связанные с мл > для моделедроча, да ручного лейбинга 99,9% процентов задач, "мл-рисёрч" не в гугле или опенai - курам на смех и бумажкомарательство
>>2061038 > В рашке не существует условно вакансии мл-джуниор, на все вакансии связанные с мл сразу требуется на самом деле человек с знаниями, навыками и способностями мл-ресерчера, Зачем? Будто в Блинолопатии при таком подходе есть хоть один серьезный мл продукт или стартап, а не бесконечное доедалово за западом...
Почему ты исходишь из положения, что лучший способ написать интеллект - сделать его полностью из нейронок? Есть какие-то предпосылки? Ну кроме тех, что все известные нам интеллекты - мясные мешки с жирной нейросетью. Природа худший оптимизатор, чем человек, самолеты пизже птиц по целевым характеристикам. Примерно чувствую, что интеллект, не уступающий человеческому, может существовать менее чем на 10% вычислительной мощности куска жира.
Алсо, МАЛО МОЩИ - для чего? Как считали необходимую мощность, для какой архитектуры, с какими техническими назначениями?
>>2060912 Философия слишком слабо формализована, противоречива и малодоказуема для решения практических задач. Всю человеческую историю, как только философское учение получала формальные правила и доказательную базу, оно становилось обычной наукой.
Есть хотя бы что-то, проливающее свет на принципы его работы, и заходящее дальше постулатов/определений, "оптимизатор поиска в пространстве вариантов", "обратная целенаправленная цепочка рекурсивных комбинаторных представлений" (с) итд.
>>2060912 > недоказуемых аксиомах. Не совсем так. Они не недоказуемые, они изначально определенные.
Вот к примеру, я могу написать такую функцию (+), такую, что: 1 + 3 = 5.
Никто не мешает мне это сделать. Я могу определять практически любые функции. Есть конечно никак нерешаемые проблемы, для которых невозможно определить функцию (к примеру функцию решающую проблему остановки), но это скорее из-за того, что формальные системы не полны, и в них всегда есть зависимость от окружающего мира, влияние которого эти закрытые системы не могут предсказать.
>>2061234 >самолеты пизже птиц по целевым характеристикам Ракеты пизже самолетов по этим же характеристикам. При этом рабочую модель может сварганить школьник. В общем-то средневековые китайцы их уже делали на порохе.
1. https://www.tensorflow.org/guide/tensor_slicing Объясните что передавать в tf.slice, когда речь идёт о размерности батчей? Вот есть у меня тензор [-1, 1, 178, 256] Где -1 это размер банча. Мне нужно из каждой колонки срезать последнее значение, а потом зафлаттенить Я делаю (да, это C#) var currentSlice= tf.slice(reshapedPureMatrix, begin: new[] {-1, 0, BaseLength - 1}, size: new[] {-1, InputListsCountFull, 1}, name: "current_slice"); var flatten1 = tf.reshape(currentSlice, shape: new[] {-1, InputListsCountFull});
Отладчик говорит, что у меня получается flatten1 = [-1, 178], это то, чего я и ожидаю. Его я потом передаю дальше, никаких ошибок нет. Отдаю на sess.run(optimizer,.. — получаю ошибку: Expected begin[0] in [0, 178], but got -1 [[{{node current_slice}}]]
Без слайсов всё окей (само собой, там следующая конфигурация чуть другая). Что делать?
2. Данные для обучения нормализованы, классов встречается ровно поровну. Я, когда создавал граф, случайно поверх последнего тензора наложил tf.nn.relu и пытался делать оптимайз уже с relu-тензора. У меня там в конце получалось Dense[4096 Relu] -> Dense[4096 Relu] -> Dense[2 Relu]
Оптимизатор Адам постоянно первый нейрон делал больше 100, второй меньше -50. Таким образом получалось True Positive = 50%; False Positive = 50%. Когда я понял, что на последнем слое лишний RELU, я его убрал, стало Dense[4096 Relu] -> Dense[4096 Relu] -> Dense[2]
Оптимизатор начал стал реально оптимизировать значения. Вопрос: почему оптимизатор не мог оптимизировать конечный слой, если там Relu? Из-за того, что Relu недеферренцируема? Ну так два слоя перед этим остались с RELU.
>>2061949 В нормальных местах технические вопросы хоть на джуна хоть на мидла хоть на синиоора одинаковые, различаются разговоры про опыт и общение с кабанами
>>2061949 Интервью с вице-президентом по искусственному интеллекту и эффективности платформы «Сбермаркета», который за всю жизнь написал 100 строчек на питоне. https://music.yandex.ru/album/11801101/track/84297667 Софтскиллы важнее. Ну еще необходимо скептически подходить к результатам.
Поясните пожалуйста. Есть функция relu с производной 1. Есть глубокая полносвязная сеть.
Каким фигом на первых слоях не происходит переполнения, учитывая механизм обратного распространения? Ошибка же должна накапливаться, а так как мы не уменьшаем ее на каждом слое за счёт производной, а тупо суммируем, умножая на исходящие веса.
Я просто тупо смотрю на веса 9 слоя после обучения равные от 0 до 1, и понимаю. ЧЗП тут происходит?
>>2062505 >Ошибка же должна накапливаться Она будет накапливаться если у задачи нет правильного решения, т.е. если у тебя поле твоих синеньких и красных точечек одинаково размазано и нет никакой даже кривой что их порежет. Просто не ясно что ты хотел вообще спросить, как градиент и бэкпропагейшен в принципе работают? Они же явно не для того чтобы ошибка накапливалась работают как бы Госпади как жутко все это на русском звучит
>>2062539 Не ошибка тогда, а градиент, просто в разных местах это по-разному называют. С большим градиентом будут большие скачки веса и из-за этих качелей веса на первых слоях будут улетать в nan. Во всяком случае так мне кажется. Обычная производная сигмоиды умножает каждую сумму предыдущих градиентов максимум на 0.5, те это как бы компенсирует увеличение градиента за счёт суммы следующих и не даёте весам на ранних слоях слишком сильно колебаться. Я про это. > Она будет накапливаться если у задачи нет правильного решения, т.е. если у тебя поле твоих синеньких и красных точечек одинаково размазано и нет никакой даже кривой что их порежет. Вот это уже интереснее.
>>2062552 Эта проблема разве что для рекуррентных сетей актуальна, вот там наны вполне возникают. У обычных сетей нужно слишком дохуя этих слоёв, чтобы стало заметно, там куда чаще обратная проблема - градиент затухает и тупо не шевелит совсем глубокие слои.
А что если во сне подавать изображения каких-нибудь данных, показывать верный ответ, а потом не верный и слегка бить электрошокером, потом в другом порядке. И наш мозг типо научится блокировать электрошокер, когда понимает, что вот сейчас он должен ебануть. Может быть, мы не усвоим хорошо информацию, но что-то запомним точно, получается, можно и во сне учиться.
Сап, так и не смог урезать модель нейронки. Для дистилляции нужна более мощная модель, для квантизации аваре трейнинг/прунинга ничего не работает. Пробовал все, даже залез до 3 страницы гугла где он выдавал Киркорова, большинство методов не работает, а метод от хугг фейсов ругается на то что в модели нет вершин, метод официального путорча ругается на то же самое. Модель gpt-2 (GPT2LMHeadModel) тренирующаяся с нуля. Код print(model.weight) так же ругается но уже не помню как но всю модель другой командой выводил.
>>2062661 Есть мнение, что во сне у тебя мозг делом занят, а не простаивает, и нагружать его в таком состоянии не следует. Кстати, про связь мозга с мышлением пока только мнения и есть.
>>2062947 > С чем оно связано, если не с мозгом? Сейчас бы слушать попыта. Зумера в открывашку не могут, странно думать, что они могут в нейрофизиологию.
>>2061930 Ты перечислил не целевые характеристики. Самое главное, что умеют птицы - полет, и по эффективности полета (аэродинамическое качество, скорость относительно размера, дальность относительно размера, расход энергии на 1000 линейных размеров перелета) мясные низкочастотники давно сосут.
>>2063012 >аэродинамическое качество У самолета чуть лучше утюга, а вот у птиц супер >скорость относительно размера Сапсан 322 км/ч, умножь 20 у получи скорость если бы он был размером с самолет >расход энергии на 1000 линейных размеров перелета Самолеты сосут, посчитай сам
Почитал про Марковские цепи, вся эта тема с состояниями почему-то напомнила машину Тютюринга, про которую в школе рассказывали. Есть ли тут более глубокая связь? За исключением того, что машина сможет смоделировать Марковскую цепб.
Работаете себе датагребцом и машиноложцем, вдруг посреди недели к вам подходит тимлид-травитель с менеджером и говорят что топ менеджмент конторки решил попиарить себя на датафесте и вам срочно нужно снять промо ролик. Дают сценарий и срок до конца дня, нужно надёргать ещё пару церебротронов из опенспейса, отснять и скинуть материалы. Позже, в открытом доступе на ютуб появляется это. https://www.youtube.com/watch?v=CQ7UHbwnn3g Ваши действия?
>>2063257 > Нет, не существует. Есть хоть одно основание для его существования? Сам понял что спросил, попыт? Прочитай определение квалиа. Ты может быть и себя считаешь несуществующим?
>>2063382 > Есть ли тут более глубокая связь? За исключением того, что машина сможет смоделировать Марковскую цепб. Конечно. Универсальная машина Тьюринга - это общее понятие алгоритма как явления, марковская цепь - конкретный алгоритм.
>>2063393 > Мммм, настольная манякнижечка бихевиориста? Почему-то пориджи уверены, что доказательная наука и невнятный пук про какое-то "сознание это единое информационное пространство" - это равноценные вещи. Это не так, попыт.
>>2063410 >Нейронные связи Мммм, а почему ты осознаешь себя, а не просто пеперабатываешь информацию как робот пылесос? Чем Ромка прыг-скок отличается от тебя?
>>2063410 И каким образом тогда возможно мышление? Без воздействия окружающей среды эти связи меняться не должны. Откуда берется образное, а не наглядно-образное мышление? ИМХО сознание таки есть, сводить его до алгоритма просто невозможно, но вряд-ли это "энергетичская сущность". Биология подсказывает, да и физика тоже, что никаких внешних воздействий нет. Скорее мозг - мат. база сознания. Как там, высокороорганизованная материя, все дела. мимо
>>2063426 >Биология подсказывает, да и физика тоже, что никаких внешних воздействий нет Как они тебе подсказывают если они сами нихуя по большей части не знают? Физики не знают что такое электромагнитное поле и всячески пытаются игнорировать эфир. Но не кто не говорит, что это электромагнитизм, это более тонкие пооя еще нам не известные.
>>2063399 Кстати, в защиту шиза, MYCIN действительно непонятно почему загнулся, учитывая то, что по качеству предсказаний он был на уровне хорошего врача.
>>2063437 Так блять иди изучай, ищи. Ты пока что только пиздишь и никакие закономерности не строишь. Твоя теория необосонованный и неподкрепленный НИЧЕМ абсурд на уровне объективных идеалистов.
>>2063437 >игнорировать эфир Иди найди блять. Менделеев и Тесла вроде считали его существование оправданным. Куча шизов и по сей день в это ВЕРЯТ. А доказать никто нихера не может. Это как у историков. Им блять дичайшие гранты на опровержения хуиты дают, чето никакого мирового заговора по сокрытию ядерных войн в каменной пирамиде Годзилы Рептилойдского 1337-го еще не открыли.
>>2063437 Знаешь, сейчас физики взяли тенденцию исследовать темную материю, взаимодействие которой на обычную обнаружили, но саму темную материю, ни единой частицы - нет. Даже карту распространения темной материи по вселенной нейронкой составили. И так вот, выдвинули теорию, мол, темная материя не холодная и взаимодействует между собой, какая то там хуйня но сейчас не об этом. И так, вот, вся эта хуйня выглядит подозрительно похоже на эфир, сложи то что она влияет на видимую материю, то что ее все еще не увидели, и то что ее во вселенной больше чем обычной материи и получишь практически все пункты эфира. Так что подожди пару сотен лет, темную материю доисследуют, в сингулярность заглянут, нейросети размером с мозг натренируют, а потом этим всем объяснят твои тонкие поля.
Вот только рассуждать о том существует ли общее бессознательное, находиться ли оно в эфире, работает ли мозг онли как передатчик, и так далее сейчас - все равно что взять нейронку обученную генерировать пасты про говно и спросить - сгенерированный ответ будет настолько же истеннен на данный момент как и любой ответ до которого дойдут люди наших дней. инб4: возможно дойдут если используют костыли, вроде того же обнаружения электромагнитного поля и даже его использования без понимания что это, но для этого людям понадобилось несколько эпох и куча умных людей которых знает любой человек
>>2063561 >Вот только рассуждать о том существует ли общее бессознательное А как ты предлагаешь строить модель мыслительного процесса - ИИ? Нужно философское обоснование, затем формалищация и модель. Но неродибили ничего из этого не имеют и пытаются в каргокульт, когда видят звон, не понимают в чем он, но пытаюися подражать.
>>2063488 >MYCIN действительно непонятно почему загнулся Все понятно и описано, там светила медицины бугуртнули, когда майсин поставило верный диагноз, а один доктор из консилиума был не согласен. Как итог, медикипедики быстро осознали, что могут быть выброшены на мороз (по крайней мере а диагностической медицине).
>>2063575 >А почему там должна быть какая-то среда Потому, что отсутстаие среды это и есть эфир. Но вговнемоченые это называют физический вакуум и стыдливо прячут глаза.
>>2063574 Суть в том что ты даешь абстракцию происходящего процесса, а потом пытаешься создать алгоритм который будет совпадать с абстракцией. Это то же самое что я скажу - при записи цифры 2 в текстовый документ, в него записывается растровая белая строка, еще белая строка, белая строка которая один раз прерывается черной, белая строка покрывающая два раза, снова один раз и еще один раз, а затем бесконечность белых строк. Я даже могу сделать скрипт который будет при записи 2 так делать, могу сделать кучу формул для этой двойки, могу развить эту систему чтобы она работала и с 3, 4, да и вообще со всеми буквами. И этот алгоритм будет абсолютно точно соответствовать абстракции. Но любой кто проходил в школе информатику знает что это хуйня и записывается код символа, а при выводе ему подбирается шрифт. Тут точно то же самое, только абстракция чуть ближе к реальности но вот насколько она полная, и на сколько верны алгоритмы ее реализации сказать нельзя даже если они работают.
>>2063596 >Суть в том что ты даешь абстракцию происходящего процесса Да, я считаю мозг черным ящиком. И сейчас меня больше пнтересует в каком бы формате могла бы хранится информация. Этот внутренний формат должен быть универсальным, в который я бы мог преобразовывать любую информацию от любых источников.
>>2063605 Их можно придумать дохера, а по крайней мере один из них, бинарный код, используется в компьютерах, и он является > универсальным, в который я бы мог преобразовывать любую информацию от любых источников.
А чтобы вникнуть в одну из версий как мозг хранит данные, просто вкатись в нейробиологию, как ни странно множество людей пытались понять как в мозге хранятся данные. А кроме нейробиологии есть еще кучка других направлений, то же коллективное бессознательное, эзотерика, и много чего еще.
>>2063570 Фиг знает, прикол в том, что их обнаружили, подогнали в теорию, точно описали поведение. А ты просто делаешь предположения без теории вообще.
>>2063630 >Их можно придумать дохера, а по крайней мере один из них, бинарный код Ты не понял суть, каков формат, какова структура, какие в ней поля и какие связи, понимаешь? >как мозг хранит данные Смотри выше, не как, а что хранит
>>2063738 Так для того чтобы узнать каков формат связей и что именно мозг хранит нужно узнать и как хранит. А так, нейронки сами по себе пытаются воспроизвести мозг, и с хранением данных там все почти в порядке, например те же латентные координаты ганов, или ембендинг у нлп нейронок. То есть они хранят вершины, скалярные величины которые в среднем дают ровно единицу вроде. Это конечно не нейроны у которых по меньшей мере две значимых величины и у которых есть куча отличий вроде подвижности и затухания импульса, но их можно считать упрощённой моделью мозга.
>>2063767 Я ведь писал про цепочку абстракции и реализации >>2063596, верно? Никто не говорит что мозг работает абсолютно по тому же принципу. Однако с абстракцией которую вывели, а затем реализовали, оно совпадает и позволяет добиваться соответствующих результатов, и как минимум поэтому имеет право быть одним из вариантов. В конце концов вопрос был - какие данные хранит мозг, в каком формате, и нейронки сами по себе являются интерпретацией этого и подкреплены 100 лет исследований. Ну и бонусом это единственная рабочая интерпретация работы мозга которая работает и на бумаге, и при моделировании на компьютерах.
>>2063561 >И так, вот, вся эта хуйня выглядит подозрительно похоже на эфир, сложи то что она влияет на видимую материю, то что ее все еще не увидели, и то что ее во вселенной больше чем обычной материи и получишь практически все пункты эфира. https://www.youtube.com/watch?v=u7mo7jhQ-90
>>2063124 Я узнал тебя, ты полгода назад в букаче со сломанным зумеродетектором надрачивал на RFT.
>>2063112 Всегда интересовало, как человек может отрицать квалиа у себя же. Это наивный недоредукционизм? Так зачем останавливаться на сознании, столь же успешно и столь же нелепо и некорректно можно редуцировать мозг с нейронами к физике которая, кстати, только модель, а не истинная правда и объявить их не заслуживающими внимания.
>>2064012 >как человек может отрицать квалиа у себя же? >Это наивный недоредукционизм? >и столь же нелепо и некорректно Со своими "очевидно", ярлыками и лозунгами иди заниматься философией сознания, а не срать в тред.
>>2064024 >Квалиа не существует, философский зомби ничем не отличается от обычного человека, философия сознания - способ срубить бабла. >Со своими "очевидно", ярлыками и лозунгами иди заниматься философией сознания, а не срать в тред. ツ Квалиа — одна из немногих штук, которые даны непосредственно и действительно самоочевидны. Предполагаю, что у других анонов так же, а потому отрицать его наличие как минимум странно. В то же время это не совсем офтоп, так как это напрямую связано с ИИ, коль мы представляем его в чём-то похожим на человека.
>>2063959 Давай доказательства того что та же гпт-2 не генерирует текст основываясь на этой модели. Разумеется с условием что архитектура относительно примитивна и имеет а) куда меньше слоев чем мозг, б) так же имеет меньше нейронов в дохуялион раз, в) является моделью лишь части мозга а не всех разделов с сонзранением всей структуры. Или есть модель которая не основана на нейронных сетях и так же может давать результат который ожидаешь от мозга обычного человека исключая совсем уж примитивные алгоритмы вроде япов? И я все еще говорю что эта интерпретация работы мозга не обязательно истинная, но факт в том что она работает хоть и с оговорками. А пока нет другой работающей, хотя бы с теми же оговорками, хотя бы с миллиардом оговорок, она является единственной +- разные детали и архитектуры.
Алсо еще в 2017 кто то запил нейросеть которая эмулирует поведение головастика и оно практически совпадает с реальным. https://m.habr.com/ru/post/406933/
>>2064058 Квалия не существует. Вот задача: является ли какое-то изображение "квадратным". Человек решит эту задачу с легкостью, даже если объект не совсем квадратный, а с округленными краями. Но тащемта с этой же задачей легко справится и нейронка.
Фактически, что нейронки (читай компьютеры), что человек просто внутри подсчитывают вероятности, и из этого делают выводы. Просто делают это разными способами.
>>2064099 >генерирует текст Шизофазия без понимания семантики. Тащемто ЭС пршла тест педикатьюринга много лет назад, а это пркруче текстовых высеров. >habr.com Говноед, уходи
>>2064120 > Шизофазия без понимания семантики. Для понимания семантики разработаны attention layers, чем их больше и чем больше ембеддинг тем нейронка лучше это понимает. > Тащемто ЭС пршла тест педикатьюринга много лет назад, а это пркруче текстовых высеров. Что за эс? > Говноед, уходи Это одно из мест где публикуются статьи по нейронкам в рунете, большая часть статей тот еще кал но бывают и неплохие или как минимум интересные, та же нейронка эмулирующая поведение головастика.
Какие есть способы представить слова, словосочетания, предложение в числовом выражении? Есть ли возможность потом как-то усреднять подобные числовые выражения? Или обобщать?
>>2064157 > Вот только для колаба урезанная в 8 раз модель. Полная 61 гиг весит, чтобы её запустить, наверное не меньше 128гиг оперативы надо... Но то что в колабе, таки работает поинтереснее их же GPT-neo 1.3B
>>2064199 Сильно отличается от демки на сайте? К слову там так и не сказано какая максимальная длина у модели а в демке и колабе используется 512 токенов что очень мало. Сейчас пытаюсь перегрузить диск колаба, мб старый експлоит сработает, а потом все же с лицом пепе потыкаю малую.
>>2064205 > Сильно отличается от демки на сайте? Да. Пробовал одни и те же примеры в онлайн и колаб версии, в колабе все работает лучше. > там так и не сказано какая максимальная длина у модели а в демке и колабе используется 512 токенов В параметрах seq=2048 это не оно разве?
>>2064257 Ладно, ничего не получилось. И вправду колаб пиздатее, хотя настройка среды и компиляция крайне долгие. И как ни странно он смог сгенерировать 10240 токенов без ошибок не считая тех что он сгенерировал, хотя мб это и были реальные ошибки, не вчитывался. Сейчас увеличил батч до 16 и длину до 20480, хочу посмотреть че могет.
>>2064139 >>2064109 Так её тренили в том числе и на всем стековерфлоу, чего тут удивляться. С тем же успехом можешь считать что гугл тебе ответы на эти вопросы "генерирует".
>>2064278 Алсо, чувак, у которого на гитхабе эти модели выложены, заявил, что полная версия 61гиг 6В параметров простому пользователю все равно ненужна, ибо остальные параметры имеют смысл только при использовании для дальнейшего файнтюнинга, что в условиях куколаба технически невозможно, даже если бы ее можно было туда загрузить.
>>2064264 >расчет вероятности, что X имеет свойство Y, на основе уже полученного опыта (данных). Ну ты и клован, хоспаде... и какова вероятность, что на пике красный цвет? Причем тут вообще вероятность?
>>2064278 Пиздец, скормил ей строку с началом что то вроде > #создает модель нн для генерации картинок по описанию и тренирует ее И она действительно создала, 1,5к секунд на 4 батче и 20480 длине. Правда она создала на керасе а в нем я нихуя не смыслю так что проверить работоспособность не смог, да и 20480 токенов явно не хватило. Ну и наверняка где нибудь нейронка да обсралась. Но выглядит крайне интересно, результат в колабе и на сайте просто пиздец как отличается по качеству, еще и качество можно увеличивать за счет увеличения времени выполнения.
Сейчас прогоню с 8 батчем, если памяти и оставшегося времени сессии хватит, и 40960 токенами, с той же фразой но с указанием путорча.
>>2064288 По крайней мере она может в оригинальность как тут лол >>2064159 и всегда охота прощупать передовые разработки.
>>2064301 Понял принял. Хотя отфайнтюнить ее на некоторых хабах было бы неплохо, датасет явно не содержит проектов больше чем прлугодовой давности и не может сказать что такое dall-e, clip, да и сам gpt-j. зато он как то написал в той ячейке с тестовым выводом где строка "елузераи это" пасту про Джека Воробья
Смотрите, как я куколаб ломанул, лал. Тот блокнот от 6В гпт почему-то запускается с 35+ гигами оперативы, аккой-то блатной наверное. Если код в нем не запускать, а вписать свой, то тоже работает, у меня запустилась 2.7В гпт-нео, которая намного больше 6В гпт слим.
>>2064391 > 2.7В гпт-нео > намного больше 6В гпт слим. > разница 2 гига в весе, при чем у 6В в 2 раза больше параметров и параметры хранятся в формате bf16 Ха-ха, классик да, 6В это 6 миллиардов Алсо это из за того что у тебя tpu а не gpu, там по 8 гигов видеопамяти на ядро (а их чаще всего 8) и судя по всему 35 гигов дефолтной рамы.
>>2064392 Алсо это уже не работает, сам пытался сделать.
>>2064400 >6В это 6 миллиардов Да, но это в полной версии, которая 61гиг. Та, что в колабе, слим, весит 9гиг, в ней не 6В параметров. А 2.7В гпт-нео весит 10.7гиг
Кажись gpt-j всё, теперь при попытке настроить среду в ячейке под смайликом появилась ошибка cannot import name 'OppState' from 'optax... бла бла бла. До этого была лишь одна ошибка которая фиксилась перезапуском ячейки, а теперь ошибка в оптаксе.
>>2064045 >может даже доказывать теоремы Это вот это типа? Мдааа, не помешает МЛ РИСЁРЧЕРАМ основы математики подучить чтоб не позориться. Это же полная белиберда.
Дропнул 3 курс топового вуза, знания матана, базовой проги, статистики, базового машоба и технический склад ума есть. Как вы думаете, есть шанс вкатиться в машоб? Или там исключительно вышка нужна? Насколько хорошая идея напиздеть, что я все ещё учусь/в академе, а потом сказать, что вот, я отчислился? Или это легко проверяется? Могу взять сейчас справку об обучении, но на работу начну устраиваться в середине августа примерно (хуй знает, сколько это займет). Может быть, проще вкатиться куда-нибудь в аналитики без законченной вышки?
>>2064527 Это, конечно, нельзя считать "доказательством нейроночкой теоремы", там просто поиск подходящего контекста под промпт, в котором помимо прочего, указан и номер теоремы, то есть имелся в виду совершенно конкретный текст, и т.о этот пример - чистый черрипикинг. Однако же, из этого вообще никак не следует, что нейроночки не могут в гамалогии. Если правильно показать нужные паттерны - очень даже могут. У меня есть даже рабочий код с diagram chasing`ом. В опенаи, правда, не заинтересовались, но они сами в гамалогии не могут, их подход к пруверу на гпт3 совсем кринжовый.
Кто нибудь уже пробовал в gpt-j запихать начало из ридми с хабов и добавить в конце название файла? Алсо пока сам тыкаю и на генерацию 20480 токенов на 8 батче уходит 2700 секунд, при операции дольше 3600 секунд тпу крашится. Сам эксперементирую но это убердолго, еще и та ячейка со смаликом имеет шанс 50% крашит код с рандомными ошибками сколько ее не перезапуск - нужно сбрасывать среду и запускать все по новой.
>>2064934 >Если правильно показать нужные паттерны - очень даже могут. У меня есть даже рабочий код с diagram chasing`ом. Так ктож спорит что можно сетку каким-то человеческим трюкам научить. Это можно даже в простигосподи эс засунуть. Мы то тут над верующими в битерлессон и волшебную палочку потешаемся.
>>2065422 > Так ктож спорит что можно сетку каким-то человеческим трюкам научить. Так это самое интересное и есть. Собаку нельзя, даже обезьяну нельзя, а нейроночку можно. Я имею в виду именно возможности, экспериментально не выявленные ни у кого кроме человека, (arbitrary applicable relational response - AARR, помимо обычных оперантов Скиннера, (non-arbitrary applicable relational response, NAARR, которые есть у всех животных). Поэтому, например, кроме человека никакие животные не могут в математику и прочие вещи, абстрагированные от физических свойств стимулов. У ЭС ничего такого нет, именно в виде эмерджентных свойств модели, сколько бы тут соответствующий зумер их не превозносил. Трансформеры это по факту нечто большее.
https://catalog.onliner.by/videocard/amd/vegafedlc/reviews вот это вот, оно для питорча подойдет? для pix2pixHD конкретно. Интересует даже не производительность а сама возможность обучения, запуска модельки. Или мне с этой хуйней придется ебаться на С чтобы что-то запустить.
Установил поддержку gpu на своем компьютере, увеличения производительности нет. Хотя у меня стоит дерьмовая видюха и нормальный проц, но думал все равно разница минимум в два раза будет.
>>2065705 > Тыскозал? Калмунист с ЭС, ты? > Муравьи неплохо считают Причем тут счёт вообще? Количество предметов это физическое свойство стимулов. Один бублик от двух животное отличит.
Пацаны, помогите разобраться с бустингом. Вот я взял модель регрессии, получил ее ошибки. Потом начал делать новую модель, но вместо Y подставил ошибки первой с теми же Х. Получились какие-то ебанутые ответы. Что я делаю не так?
Интересно получается. Самый крупный трансформер (6В) с публичным доступом выложила некоммерческая ноунейм контора. Предыдущий рекорд тоже их, кстати (гпт-нео2.7В). А что могут отечественные айтипараши - Яндекс, сбер, набирающие синьоров пиздаболов с зашкаливающими требованиями (нужно знать и уметь вообще всё, вплоть до управления космическими кораблями)? Яндекс вообще в трансформеры не может, грефо"банк" славится только тем, что у "мошенников" откуда-то не только доступ ко всем личным данным клиентов, но и к официальным номерам (эти очень подозрительные мошенники запросто смсят с номера 900, например), а в плане трансформеров все, что они смогли - зафайнтюнили гпт2. Чё так плохо работаем-то?
>>2066772 >Яндекс вообще в трансформеры не может Раз не обучают публичные трансформеры для генерации анекдотов, значит не могут в них. >грефо"банк" - а в плане трансформеров все, что они смогли - зафайнтюнили гпт2. Ты понимаешь смысл слова "зафайнтюнили"? Они с нуля обучили на русском языке. Почему вообще конторы должны делать то, что ты хочешь?
>>2066795 > Они с нуля обучили на русском языке. Чего жи тогда сберовская гпт по-английски так круто шпрехает? Я проверял, кого ты наебать хочешь? На хаггингфейсовском хабе сберовские модели даже гпт3 не называется, видать не разрешили им в приличном обществе народ в заблуждение вводить. Так что это выглядит именно как файнтюнинг чего-то готового. > Раз не обучают публичные трансформеры для генерации анекдотов, значит не могут в них. Дооо, да-да, секретные оборонные технологии, у них есть, но вам мы не покажем! > Почему вообще конторы должны делать то, что ты хочешь? Причем тут я вообще? Трансформеры сейчас это самый передовой рубеж машобчика. По которому и видно, кто и на что способен.
>>2066802 >Дооо, да-да, секретные оборонные технологии, у них есть, но вам мы не покажем! "Может есть, может нет, в любом случае вам мы не покажем" >Причем тут я вообще? Трансформеры сейчас это самый передовой рубеж машобчика. По которому и видно, кто и на что способен. Обучить модель на 999 пупиллионов параметров это не передовой рубеж. И уж тем более это не определяется по ВЫЛОЖЕННЫМ В ОТКРЫТЫЙ ДОСТУП МОДЕЛЯМ.
>>2066805 > Обучить модель на 999 пупиллионов параметров это не передовой рубеж. Вполне передовой. Ещё круче утолкать побольше параметров в небольшой размер, как это сделано в gpt-j, но это уже совсем высший пилотаж. > И уж тем более это не определяется по ВЫЛОЖЕННЫМ В ОТКРЫТЫЙ ДОСТУП МОДЕЛЯМ. Ну ок, покажите не открытые. Кетайсы вон вовсю хвастаются 1750В трансформером wudao2, хотя это госконтора, наверняка оборонная, и в открытый доступ их продукция точно никогда не попадет.
Все статьи про wudao 2 ссылаются друг на друга, не содержат конкретики и рассказывают, как запад дрожит от китайцев. При этом гугл в январе ещё выпустил свитч на 1500В "параметров". "Главный западный конкурент" GPT-3 вообще больше года назад вышла.
>>2066926 > гугл в январе ещё выпустил свитч на 1500В "параметров". Нетренированный. > не содержат конкретики Китайцы даже примеры сгенерированных картинок показывали. А у Яндекса только схемы из "аттеншен ол ю нид". Пук в лужу.
>>2067175 Сбер использовал 32 карточки, ноунеймы кластер tpu. Тут скорее про реальное финансирование ии и связи, а так же заинтересованность больших дядь. мимо
Пиздец, захотел шоб нейронка сделала мне нейронку, а в итоге напердела и пошла ебать крипотой. https://pastebin.com/gHwuE2ps Контекст - все до строки #FalledGAN/train.py 4 батч 40960 длина, температура и топ-п стандартные.
>>2067238 Если не вчитываться, то очень похоже на реальный код. Не считая того, что она использует несуществующие функции (torch.miss) и не определяет саму нейронку. Ну и потерю контекста и прочий мусор в конце.
>>2067416 Там судя по моим прогонам длина модели 1024 токена, и каждый раз с этими настройками в конце он полностью сбивается и начинает нести херню. Видимо там длину генерации реализовали через обрезание контекста и для того же кодинга эта модель не подходит. К слову в день выхода этой нейронки в открытый доступ писал с ее помощи курсач по экономике делал по фану, поредачил немного то что получилось и она после +- этих самых 1024 токенов сбивалась, а так же часто повторяла один абзац при любых настройках топ-п и температуры. Кстати препод оценил на удовлетворительно и описал работу как поверхностную и с ошибками в фактах, и думаю это лучшее описание этой модели которое можно дать. Ждем пока они обучат модель с большей длиной и большим числом параметров в общем, может даже выпустят модель которая сможет спасти человекочасы студентов раньше чем я перестану им быть.
>>2067544 Я ради нейронок и стал изучать питон, на удивление страдал не сильно как разобрался что к чему и понял почему глобальные переменные это зло. Так то змеинный куда легче большинства других языков, еще и нет ебучих фигурных скобок и точек с запятой во всех щелях. Сначала пару месяцев потрошил чужой неработающий код, а потом и свой потихоньку начал пописывать.
>>2067492 бампану вопрос, очень срочно. если у кого-то есть этот, но в публичный доступ не хотите выкладывать - дайте тележку, пожалуйста, я постучусь и поклянчу у вас для своих скромных нужд.
>>2067879 Там же написано версия, они взяли абстрактное описание гпт-3, допилили гпт-2 и сделали свой гпт-джи который воспроизводит гпт-3, который к слову сам по себе и есть допиленный гпт-2 с рл. Примерно то же делали и в спермобанке но там сильно обосрались и за год ничего не изменили.
Не знаю куда спросить толком. Короче пока я учусь - пользуюсь колабом, но он офк постоянно рвет рантайм, и частенько мне не хочет давать гпу, я конечно сохраняю чекпоинты и фьючи на гугл.диск, но все равно не очень удобно. Заказал комп, планирую на нем полностью перекатиться на локальный юпитер. Так вот он же ничего не рвет, я могу его запустить и хоть 10 дней ноутбук открытым держать? И если мне понадобиться что-то тренировать ублюдское, то я могу взять колаб, нароллить себе V100, потренировать и просто скачать веса/модель, так? Анаконда вообще нормальное окружение для юпитера?
>>2068330 > и частенько мне не хочет давать гпу, Нужно менять аккаунты, там есть лимит на 2-7 часов, сбрасывается через +- сутки. > Так вот он же ничего не рвет, я могу его запустить и хоть 10 дней ноутбук открытым держать? Есть один ньюанс, зачастую консоль сама рвет код попросту застревая до любого ввода, эта ошибка была всегда и она встречается везде. Даже в том же колабе иногда к слову. А так да. Ну и есть еще пара ньюансов, во первых обычный jupyther откровенно всрат, и подключается через тот же браузер, а в хроме выкатили фичу с месяца два назад что неактивные вкладки выгружаются. Оптимизация через жопу так что советую юзать в любом случае и для колаба и для локального блокнота огнелису. А еще в обычном jupyther нет уймы функций вроде слайдеров, маркдовна, импорта и загрузки файлов с диска в две строки и так далее. Это можно сделать но чую что жопоебли там чуть более чем дохуя. Можешь подключаться сразу через колаб к локальной машине, так даже удобнее будет. > И если мне понадобиться что-то тренировать ублюдское, то я могу взять колаб, нароллить себе V100, потренировать и просто скачать веса/модель, так? Так. > Анаконда вообще нормальное окружение для юпитера? А вот тут хз, всегда старался ее избегать.
Алсо колаб скорее интересен tpu, 64 гига видеопамяти (8 ядер вроде, на каждое 8 гигов), быстрая скорость и поддержка моделей bf16 как у того же сжатого gpt-j. На нем и тренить быстрее в теории но там жопоебли явно не избежать.
>>2068339 Спасибо, я то вообще мак мини заказал, я пока даже не знаю смогу ли я пользоваться локальным ядром, т.к. тензорплов в альфе на него, но вроде просто строчкой device == gpu все запускается, но пока хз. А конда интересна потому что хочется чтобы все либы были всегда наготове. Так то колаб удобнее где в любой момент можно импорт любой срани, но для учебы где у тебя длинный ноутбук с кучей мелких экспериментов слетает все равно припекает. Мазилой и пользуюсь в принципе, из-за линуксов как-то привык к ней больше.
Анончики, пришло время определяться с вузиком, и у меня возник вопрос - работодателей очно-заочный диплом устраивает или нет? Смысла поступать на очное я, честно говоря, не вижу, потому что целенаправленно Data Science в РФ учат в паре вузов - ВШЭ и Физтех, куда я не прохожу, поэтому есть идея поступить на очно-заочную техническую вышку, чтобы учеба не занимала много лишнего времени, и готовиться к поступлению в Computer Science Center в Питере. План мне кажется идеальным, но вот единственное, что волнует - это восприятие очно-заочных дипломов кабанчиками, пишущими в требованиях диплом о высшем математическом образовании. Что думаете? Есть, конечно, вариант пойти на матмех СПБГУ/мехмат НГУ, но, честно говоря, делать это пиздец как не хочется, т.к. 90 процентов математики, которой там загрузят, мне НАХУЙ никогда не пригодится, а времени, чтобы сдать всякие теории колец ануса хотя бы на троечку, потребуется прилично. Но зато кабанчики с маня-требованиями о высшем математическом образовании будут довольны пиздец.
>>2068371 Если ты бакалавра любой херни получишь, то потом за 40-50к(на текущий момент) и 2.5 года(2 года на самом деле) можешь получить любую магу, математическую или какую-нибудь хайпожорскую через 4то года датасаентистовую. Поскольку дата-саенс чаще всего контактирует с финансами/бизнесом, я бы получил экономиста бакалавра заочно, учился бы и пробовался устраиваться на работу, т.к. статус студента у тебя есть и статус студента одинаков будь это МГУ, будь то Заборостроительный имени Филиппа Киркорова. Вангую что экономические шараги дешевые если ты не получишь бюджет, т.к. нахуй не нужны. Потом мат. магу, само поступление на нее уже дает статус обучающегося в мат. магистратуре, для работодателя адекватного этого достаточно, видно что ты сам взял, выбрал, заплатил и делаешь очень муторную залупу для себя, значит ты не ЧОРТ. Преимущества в том, что в 23+ и за деньги, и заочно намного легче учиться, особенно если ты уже работаешь хоть как-то, у тебя нет этой залупы как у бывших школьников с ремнем мамки, ты можешь старого препода нахуй слать если он загоняет совсем уж днище, а потом спокойно сдавать другому или через комиссию, короче ты знаешь свои права и зачем ты там, а первая вышка должна быть просто максимально ненапряжная(это я про случай когда человек хочет в датасаенс, которого толком нет как специальности в вузах, я не говорю это про медиков, проектирование и прочее). Есть еще один полулайфхак, это идти через колледж, но это для текущих 9классников скорее, как получить средне-специальное и высшее заочное за то же время что у 11классников+сразу вуз. Все равно, анон, это все просто корки и хуйня на постном масле. Возможно что купленный на курсере за 100 баксов сертификат Оксфорда о пройденной CS231n даст тебе больше понтов чем диплом вуза, который нужен просто для легальных целей, но тут хз, с одной стороны у нас раболепство перед иностранщиной, с другой мы с колен после отсоса встаем каждый день. Надеюсь мыслей закинул, хотя я ни на что не претендую, может я хуйню написал, у самого электро-тех вышка.
>>2068183 > елузеры - да, https://6b.eleuther.ai/ в демке есть ссылка на гитхаб. Смешно будет, если их купит опенаи или кто-нибудь ещё. Кроме них никто в такие нейроночки не может. Как я пынямаю, генеральная линия партии - не допускать крупных трансформеров в публичный доступ, чтобы тираристы ничего опасного не генерировали.
>>2068603 Скорее не допускать большие модели в открытый доступ чтобы простой люд не понял что сколько трансформерам параметры не увеличивай все будет мало.
>>2068603 Нейронные сети. 6 ярдов параметров. Итоги. red parrot likes to fly in the sky red parrot likes to fly in the sky from morning to evening. It spends the time sleeping, eating, and singing. This parrot is in their own family but it is usually found living with others. Do you know that a friend can make your bird feel better after hearing his sad story? Parrots are very intelligent and live in a separate environment. Parrots have huge eyes with extraordinary powers and ears for listening. It can always listen and tell what is going on around it. If there is a problem, parrots can detect it with the help of their eyes. They also have the power of pulling off the roofs and use them as a home. Parrots are found in many countries like in Africa, North America, Europe, South America, Australia, and New Zealand. Parrots can speak the Spanish language, French, Italian, and English. If you own a parrot, you can help this pet with good care. It will never come back to its original shape. It can get bigger and look like any other type of parrot but still a parrot. Parrots need more attention than other pets.
>>2068624 > red parrot likes to fly in the sky А чего не "еби творог" и как там дальше? Ещё в басне Крылова было про то, что бывает, когда мартышка пытается в очки, прочитай, как раз про тебе подобных.
>>2068625 Ну так ведь нейронные цыгане нас уверяли, что их чудо-сеточки способны сами что-то анализировать, а не просто вываливать инфу по шаблону из огромной базы данных. Это я, кстати, еще самый продвинутый результат запостил. Попробуй вбить просто "parrot" parrot> in the future <zyga-ubuntu> in 14.04 systemd will fix this and any other udev/device manager issues by default, as is the general trend, that was re-enforced this week <mup> Bug #1420516 opened: maas.log shows "maas login shell not found" after entering users/passes <MAAS:New> <https://launchpad.net/bugs/1420516> <mup> Bug #1420516 changed: maas.log shows "maas login shell not found" after entering users/passes <MAAS:New> <https://launchpad.net/bugs/1420516> <mup> Bug #1420516 opened: maas.log shows "maas login shell not found" after entering users/passes <MAAS:New> <https://launchpad.net/bugs/1420516> <mup> Bug #1420516 changed: maas.log shows "maas login shell not found" after entering users/passes <MAAS:New> <https://launchpad.net/bugs/1420516> <mup> Bug #
Басня Поридж и трансформер
Аноним15/06/21 Втр 08:32:25№2068631355
>>2068630 > Ну так ведь нейронные цыгане нас уверяли, что их чудо-сеточки способны сами что-то анализировать, а не просто вываливать инфу по шаблону из огромной базы данных. Очков с полдюжины себе она достала; Вертит Очками так и сяк: То к темю их прижмет, то их на хвост нанижет, То их понюхает, то их полижет; Очки не действуют никак. "Тьфу пропасть! — говорит она, — и тот дурак, Кто слушает людских всех врак: Всё про Очки лишь мне налгали; А проку на-волос нет в них". Мартышка тут с досады и с печали О камень так хватила их, Что только брызги засверкали.
К несчастью, то ж бывает у людей: Как ни полезна вещь, — цены не зная ей, Невежда про нее свой толк все к худу клонит; А ежели невежда познатней, Так он ее еще и гонит.
>>2068642 >Ты не знаешь, что такое "количественно измеримое"? Ты даун или это траллинг тупостью? Еще раз тебя спрашиваю, два плюс два твоя сеточка сможет сложить? Простой вопрос, даже такой дебил как ты сможет ответить, не укатываясь в боевые картинки и траллинг. 2+2=?
2+2=? <ubottu> IbizaBot: I am only a bot, please don't think I'm intelligent :) <lisa_> thanks for the feedback <lisa_> i'd really appreciate it <not_here_bt2>,IbizaBot, What the BOUTU <wilee-nilee> not_here_bt2, Be nice. <OerHeks> lisa_, download the manual, all would be explained. <Barsooka2> lisa_: just follow the instructions carefully. If you need further help, ask the next person <not_here_bt2>,IbizaBot, What's up with that hat?? <Noxwiffy> not_here_bt2, got cut off. :P <lisa_> do i need to install them on the server for them to work <Noxwiffy> not_here_bt2, type /whois lisa_ <Noxwiffy> or /query lisa_ <OerHeks> not_here_bt2, #ubuntu-ops for further discussion <OerHeks> not_
>>2068647 >Ты просто тупой Просто. Иди. Нахуй. Этот бесконечный траллинг тупостью меня уже утомил. Ты реально какой-то умственно отсталый кретин. >А сложить может. Нет, не может.
How much is two plus two?
How much is two plus two? Not enough if it means that there is no future for our world. By far, it is the most dangerous problem that we have now. It threatens us to lose most of our world and even the earth itself, which is of infinite value. But despite the destructive power of this new technology, it is not the future that we should fear, but the present. It is the same technology, which provided us with all the things we need today for a good life.
To understand this situation, we must realize that we already have the technology to go forward into the future. If we try to advance without the principles of compassion, which are necessary to deal with the destructive forces of our ego, the ego will block our advancement. Our new technology provides us with all the necessities of life without the addition of ego, which makes us really useless for our survival. The capacity to love and not fear leads to self-discipline, to cooperation and to real success. It makes us strong and allows us to live in harmony with all creatures.
This technology represents another test of our new humanity. But our ego can’t hear the voices of our inner self and therefore cannot interpret the messages that our technology is giving us. So, the ego becomes frustrated and
>>2068651 >2+2=4,$$ Лол. Долго подбирал формулировку, что бы это поебень выдала хоть что-то близкое к правильному ответу? Какой же ты наглухо отбитый дебил, тьфу таким быть.
>>2068663 Лол. Нейронные цыгане потратили миллионы долларов, внедрили миллиарды параметров и наконец-то изобрели КАЛЬКУЛЯТОР. Правда пока он может только складывать, но видимо еще десяток миллионов долларов исправит ситуацию. Какой же это блядский цирк, пиздец просто.
>>2068670 Тяжело наверно быть таким конченым дебилом как ты. Тебя в детстве сильно по голове били? >Но может предоставишь какой-нибудь датасет, бенчмарки, сравнение с аналогами? Конечно, мань. Пик номер один - обычный калькулятор. Пик номер два - твое говноподелие. Калькулятор дает просто верный ответ, твоя наебошная сеточка - кучи говна и мусора, а среди них что-то похожее на верный ответ. Результаты сравнения с аналогом очевидны - нейронные цыгане изобрели кривое, глючное и убогое подобие калькулятора.
Вкачусь в срач. Суть в том что модели семейства гпт крайне зависимы от контекста, например если юзать берт и ввести 2+2=<mask> <eos> или как то так, то есть дать начало, дать место где должны стоять токены и дать токен конца текста, то он выдаст "2+2=4" без продолжения. А гптшки без костылей не способны обрабатывать всю последовательность разом, только то что слева от подобранного токена.
Именно поэтому они так от него и зависят. Но они намного сильнее берта и лишь требуют правильного стиля контекста, а так же умеют лишь продолжать текст. Например если ввести "нейронка, нейронка, хули ты говно" то она напишет "нейронка, нейронка, хули ты говно - спросил порридж и жидко пернув обосрался", а если ввести "-нейронка, нейронка, хули ты говно? -" то сгенерирует что то вроде "-нейронка, нейронка, хули ты говно? -иди нахуй пчел".
То есть они при достаточно большом датасете могут выполнять кучу задач, а контекст для них можно составить и примитивными регулярками и запихать во фронтенд, как например тот же аи данжеон, поиск и алиса от ядов, и так далее. Например задача определить что за текст - стих, повесть, статья, высер. Делаешь датасет где все вручную размечено в таком стиле:
Хуй говно пиздос опять Сука сука сука блять ---- Стих
Опять на работу, пиздос. Сказал аноний и вышел из сычевальни. ---- Повесть
Ну и так далее. Потом обучаешь или файнтюнишь. И потом нужно сделать простенький скрипт который в начало контекста поставит сам текст, добавит "----", и отправит нейронку генерировать нужное число токенов. А потом все теми же регулярками обрезать все до новой строки после ---- и показать это юзеру, и вуаля. При вводе "Ебала собака макаку а она и не против" этот скрипт выдаст "Повесть".
Алсо это самый примитивный вариант. Или например тот же чатбот, даешь бзеру ввести свою реплику, делаешь a = "—" + input + "\n —" и отправляешь а как контекст нейронке, указав стоп токен "—".
А ведь еще можно использовать нейронку для самой классификации задач же.
В общем это не на столько ущербно как ты считаешь.
инб4: многим большим моделям на самом деле нужен pruning, то есть очистка малозначимых вершин, и их там наверняка под четверть если не больше. Иначе говоря чем больше модель по параметрам тем больше нужен датасет, иначе многие вершины будут делать абсолютно ничего. А так же более долгая тренировка же, ну и под большим датасетом я подразумеваю для 1М около 5Тб.
>>2068663 > если показать Для нормального качества на трейне нужно ещё подсказывать и искать формулировки, мы вас поняли. Проблема в том что даже первокласснику ничего показывать не надо и он контекст "2+2=" сразу понимает, что как бы и ожидается от хорошей языковой модели, не? Так вы к уровню новорождённых кожаных мешков через несколько веков только приблизитесь.
>>2069538 Окей, мы выяснили, что складывать числа лучше на калькуляторе, а не в gpt. Калькулятор может в sequence modeling? С чем будем сравнивать gpt там?
>>2069523 В датасете гитхаб, читай как трильон мильёнов высеров студентов на жабе скрипке. А еще бонусом и англоязычные интернеты, так что приплюсуй высеры всех мастей и минимум математики. И получи кусок кода в продолжение такого контекста же.
Елузеры конечно хороши и архитектура gpt-j действительно самая лучшая опенсурсная репликация gpt-3, но вот датасет у них для 6М параметров слишком мал, это не зерошорт и из за этого нужно файнтюнить модель на любых +- специализированных задачах которые редко встречаются в интернетах без кусков кода или слов вроде матана. Но чего ты блять ждешь от языковой модели задавая контекст который в любом, абсолютно любом диалоге и тексте в целом не идет без, сейчас удивишься, ЯЗЫКА. Даже в этом твоем посте > он контекст "2+2=" сразу понимает, А еще у этого >>2068658 > Формулировка вот 2+2= И тут >>2068651 > >>2068649 > 2+2=
Да и везде в тексте, кроме крайне редких исключений (которые в силу типа данных "строка" никогда не идут абсолютно раздельно), нет идеальных всех вариантов . Хотя конечно разрабы могли бы и сами создать датасет с матаном например, особо это не сложно - регулярка туда, регулярка сюда, подать line_by_line для файнтюна, но как уже говорил их датасет далеко не лучший.
Ну и идем дальше, про первоклассника объективно бред. В голове дохуя отделов которые отвечают за свое. Один за воображение, другой за мысли, третий за слух, четвертый за зрение и так далее, и ясен хуй один из отделов или части отдела берет роль классификатора или сегментатора задачи на себя, а потом передает решение задачи на другой отдел. У нейронок в текущем виде и на конкретно этой архитектуре только один условный отдел, и он значительно уступает обычному человеческому за счет того что если условно сравнивать количество нейронов отделов мозга с количеством параметров нейронки то у последней в разы меньше. Однако в мозге нет отдела который будучи настолько мал и может классифицировать текст, и считать и писать и решать задачи на натуральном языке, конечно учитывая что модель должна быть на это натренирована и контекст правильно подобран. Но тем не менее.
алсо добавлю свое нахуй никому не всравшееся мнение - будущее за меганейронками из нескольких моделей и архитектур, каждая модель должна быть специализированна.
Это полностью решит проблему ИИ, он будет равен человеческому если не будет превосходить его, но для этого нужно чтобы была метамодель которая будет при обнаружении новой задачи создавать новую модель или файнтюнить старую увеличивая свои возможности бесконечно. А вот к метамодели мы медленно но верно идем, гпт3 уже имеет задатки ей быть но как по мне даже он еще не достаточно хорош.
>>2069523 Завязывай уже этот школьный траленг тупостью. Если ты это серьезно пишешь, ну бывает, эта тема вообще не для всех, смирись. Твой уровень это попыт, ЭС, эфир, плоская земля, калмунизм.
>>2069666 > Набор слов Да ну нахуй, сотона, ты только сейчас это понял? Что единственное что способен гпт делать напрямую это выдавать набор связанных слов, нет, правда, лишь сейчас? Или про то что они связаны ты еще не понял, ровно как и не понял что нужно больше контекста чтобы у нейронки было меньше свободы для генерации? Можешь не отвечать.
>>2069591 А зачем такой sequence modelling нужен? Если мне будет нужен перевод/суммаризатор или ещё что-то я возьму что-то бертоподобное, чтобы и контекст справа учитывать. В проде все чат-боты используют ранжирование и поиск похожих реплик, а не ГПТ-2. Даже replica.ai, вроде бы болталка, а все равно не доверяют ГПТ.
>>2069709 Хз, первый пикрил крайне логичен и почти не отличим от человекотекста >>2069699. Опять же, датасет играет огромную роль и без файнтюна на определенной задаче по большей части не обойтись.
>>2069717 А вот берта настолько натренированного нету. В проде гпт не используют так как малые модели слабы, большие требуют огромных затрат 24/7, тот же gpt-j локально требует 4 tpu для того чтобы выводить за несколько секунд при единичном батче, для кучи юзеров нужны будут ниебаца какие мощности а это только 6В параметров. Ну или нужно платить за гпт3 но там тоже не совсем мало. А обычные подходы выполняются даже на некроноутах локально за секунды. Алсо в проде гпт использует уже названный яндекс, аиданжеон и некоторые другие, мне лень искать, кинь ту ссылку где запрос сам вводится, что то вроде "companies that used gpt in production".
Котаны, а у вас часом нету pix2pixhd имплементации на лайтинге? Или имплементации на питорче с параллелизацтей модели на два гпу? Очень надо, бабы перестали влезать в одни 8 gb. На процессоре год буду обучать...
Сап, а как понять что модель обучилась? Потери в любом случае не будут равны нулю (ведь так, верно?), А если потери не уменьшаются то нужно решить проблему масштабированием датасета и игрой с армянами с lr и возможно сменить оптимизатор, при чем после этого потери могут долгое время скакать в определенном диапазоне. Так как узнать что модель закончила обучаться?
>>2070285 Либо смотришь на графики loss, acc и val_loss, val_acc, по их форме можно понять когда наступает оферфит. Либо ставишь early-stopping каллбек и настраеваешь его параметры, ставишь каллбек на запись экспериментов, сохраняя только лучший результат. Если потери не уменьшаются, то нужно идти от простого к сложному, шаги примерно такие(нет порядка): Больше слоев Больше юнитов Другая активация Другая оптимизация Другой лернинг рейт Больше даты Дольше учить Выбираешь что проще тебе реализовать и пробуешь, больше даты это не обязательно что тебе надо как-то думать, тут и дата аугментация подразумевается, сделал больше рандомного зума, сдвига, смен цветов, флипов, инверсий. Если все не помогает, то скорее всего твоя модель просто говно, или ты выбрал не подходящую модель, бери другую. Еще можешь конфьюжен матрицы делать, может у тебя потери от того что модель путает, например, фотки яблочного пирога с фотками мясного пирога, где в обоих папках технически ты сам в 90% случаев отличить не сможешь(по понятным причинам, желтые пироги снаружи одинаковые). Эксперементируй епта.
>>2070420 Да, я это писал в концепте что он скорее всего использует какой-то популярный сет для обучения. Потому что если он делает что-то свое на своей приватной дате - то подразумевается что он не нахуярил говна в нее изначально.
>>2070342 Спасибо за советы. Так то это модель небольшой гптшки с датасетом собранным регуляркой, тренирую впритык. Алсо AdamW хороший оптимизатор или стоит прикрутить другой?
>>2070480 Ты либо читай про градиенты и моментумы Либо прикручивай autoLR, LearningRateScheduler Либо бери 1-10-20% от своей даты, пробуй на ней разные, может другую лосс-функцию, может другую метрику тоже посмотреть, может другую активацию и экспериментально находи. Я бы лернингрейтскедулер бы скорее всего взял если ты к колабе это делаешь, если твоя машина - резанул бы дату и потестил. Просто никто не знает кроме тебя что за дата, что за размеры, что за аугментация, что за результат(количество классов, формат вывода), какие активации тебе нужны и т.д., поэтому точно подобрать оптимайзер для тебя нереально по совету.
>>2070675 Да, глянул треть. Как же я кринжую с его "осваиваний бюджета" и "сбер/яндекс - корпорации зла". Он неиронично думает, что джун должен ставить какие-то принципы выше своего будущего и трудоустройства в нормальной компании и.
>>2070683 Сбер это корпорация коррупцонированных швайнокарасей а яндекс это косплей на гугол с сам знаешь каким менталитетомк слову сам по себе яндекс не так уж и плох в целом но судя по рассказам джунов там пиздец, пруф ми вронг.
хотя сам считаю что заметка в трудовой "работал в сбере/яндексе ойтижником" это пиздатый пропуск в почти любую мл компанию мимо
Там кстати разраб aitextgen, охуенной штуки на самом деле, запилил небольшой разбор возможностей в программировании у gpt-j-6b. https://minimaxir.com/2021/06/gpt-j-6b/
>>2070746 Учитывая, что эта поебень по дефолту два плюс два сложить толком не может, я представляю сколько ресурсов было просрано на то, чтобы надрочить ее выдавать питухоновские скрипты.
>>2070746 Ну и конечно, как всегда у нейроцыган, идет незаметная поправочка, как бы между делом "All generated code examples used in this post have been manually curated and truncated." Что в переводе означает "Мы выкопали куски рабочего кода из тонн дерьма и мусора, сгенерированного нейронкой, почистили вилкой, обрезали и отформатировали"
>>2070769 Ну а потом идет > The raw outputs are available in this GitHub repository. Что означает примерно то же самое что и > в этой репе неотредаченный текст, нейронка пока слаба но чтобы показать концепцию все в этом посте почищенно вилкой
>>2070778 К слову попробуй через колаб с батчем около 2-4, результат будет на голову лучше. Так то он лучше даже и на 1 батче но все же. Ну и бонусом можно установить длину генерации выше 1024 контекст теряется.
Я беру данные, делю 80%/20%, в каждой группе делаю 50%/50% обоих групп. Потом начинаю скармливать данные tensorflow. На каждой эпохе я проверяю что там для трейна. Строю график TP, FP, Precision, Recall, F1, F2 относительно softmax value. Когда получаю вариант, при котором softmax value положительно коррелирует с precision & recall, при этом это длится несколько значений подряд, а не просто случайный вспых положительных значений, я останавливаю тренировку и сохраняю модель в таком положении. Обычно это от 3 до 20 эпохи.
Считается ли такое поведение с моей стороны за читерство?
Мне по специфике нужно предугадывать разные фичи из дата-сета, кое-где даже несколько запусков не дают хороших результатов, тут я дропаю обучение и переходу к следующей фиче. Есть фичи, где с первого раза очень хорошая картина на третьей эпохе.
На экране вариант такого графика для модели, закончившейся за 19й эпохе. Само собой, график для test set, а не train set.
>>2070814 Ты хуйней маешься. Ты можешь бросить монетку 10 раз и все 10 раз выпадет орел. Потом ты приходишь на хату к посонам и говоришь "Я могу кинуть монетку 10 раз и всегда выпадет орел епта", кидаешь, обсираешься, на утро орел выпадает из твоей сраки. Тебе надо чтобы модель выдавала результат, для бинарки 0.95 и выше, для мультикласса выше определенного порога(для 10 классов твоя монетка очевидно будет 0.1 val_accuracy, выше этого модель уже не гадает, а пытается) Ты берешь удачный эпох, а тебе надо найти такой ЛР, такую модель и такой эпох, когда машина уже не учится, но еще не загналась(заоверфитилась), очевидно же. Короче то что у тебя выдает model.evaluate(test_data) и есть твой показатель точности, и ничто другое
>>2070819 во время обучения она даже на трейне такую точность не выдаёт. Плюс там такие данные (работа физического устройства), которые невозможно предсказать с 95% в принципе
Пришел на двач за советами мудрыми. Итак я типа программист, но с нейронками почти не знаком. Что я хочу - собрать из опенсорса прогу для v-tuberства. Под винду. Соответственно что надо - распознавание с вебки, без всяких перчаток-костюмов. Лицо + направление взгляда + эмоции, руки, опционально поза или верхняя половина. Что пробовал - mediapipe, понравилось, но под винду принципиально не пилят под gpu. Медленно. На моем CPU холистик (поза+лицо+руки) всего 2-5фпс. Пробовал github.com/vladmandic/human подход интересный, но на тех компах что пробовал запуска очень долго ждать, да и браузер тут выглядит лишним. Но сам принцип, видимо, можно вытащить те же модели из mediapipe и других сеток, и по отдельности их применять? Правда пишут про какой-то custom operator, пока не вникал. Ну вот, что предложите попробовать? Сейчас ставлю TF 2.5+CUDA 11.2+CuDNN 8.1, более поздняя не завелась - как понял еще не готово.
>>2071663 Используй готовое решение и не ебись с этим говном, серьезно. Видел в стиме подобную хуйню, сейчас поищу и если найду напишу название если это не медиапепе. Алсо хули ты запускал на cpu? Видяры раз в 100 быстрее если не больше.
>>2071669 >Используй готовое решение Готовое из стима мне не нужно. Или ты про саму нейросетевую часть? Тогда да, можно любое решение которое умеет с вебкамеры лицо+зрачки+руки. >Алсо хули ты запускал на cpu? Может быть я не так понял доки. Но сложилось впечатление что на винде gpu медиапайп не поддерживает. Ну или требует переписывания с++ части https://github.com/google/mediapipe/issues/617
Генератор обломанных кулсторей. Алсо во первых, если дать половину слова то там ставится автоматом пробел, но нейронка может его продолжить правильно. А еще судя по всему пошлость текста оценивает другая нейронка ведь "доставай чл" она не пропустила, а "давай чл" даже дополнила. Еще судя по всему тут стандартная реализация, если нейронка оценивает пожжжжжлоздь высокой или находит регулярки то повышает температуру, по крайней мере так выглядит.
>>2071663 Так, я еще повтыкал в mediapipe и сложилась картина, что там модели есть либо в виде tflite, которые обратно не провернуть в десктопный tf, (а tflite на винде судя без gpu, сам я такое не запилю) либо tfjs. Модели Tfjs, вроде бы, с помощью каких то манипуляций можно загнать в десктопный. Сейчас гуглил про винду и наткнулся на какой то майкрософтовский ONNX, OpenVino. Уже обрадовался, но там нет модели для позы рук. Реально ли туда воткнуть модель из mediapipe?
>>2042522 (OP) Если градиентным бустингом делать предсказания для временных рядов, у которых значения от 0 до 999999, условные например, количество пройденных в день шагов. Может ли моделька возвращать отрицательные значения?
Непонятно, что там конкретно за сеть. В одном месте пишут, что YaLM это разные сети от 1В до 13В. Тут https://3dnews.ru/1042294/yandeks-zapustil-balaboba-servis-kotoriy-sposoben-dopisat-lyuboy-tekst-s-pomoshchyu-ii пишут, что балабоба и Алиса это сеть с 3В параметров. Что совсем не внушает, учитывая что одна некоммерческая ноунейм контора может себе позволить онлайн-версию 6В трансформера. Шляпа, короче. Вот если бы они к 13В доступ дали, то да.
>>2072127 >Что совсем не внушает, учитывая что одна некоммерческая ноунейм контора может себе позволить онлайн-версию 6В трансформера. Эту контору проспонсировали, да и количество запросов к ней поменьше чем к Алисе. И как будто интернет-аутисты заметят разницу между 3В и 13В без замеров на Winograd/rusuperglue.
>>2072144 Ну ок, пусть даже доступ был бы платный. Третьего дня ещё одна ноунейм контора взяла gpt-j 6В, зафайнтюнила, назвала Sigurd, и теперь продает доступ от 10 до 25$ в месяц https://novelai.net/#/ как я понял, это некий аналог AI dungeon. Подобная хуета видимо, нормально монетизируется, было бы желание, кто там выше спрашивал про гпт в проде. 13В моделью если она есть легко можно торгануть наотличненько.
Вот тут https://minimaxir.com/2021/06/gpt-j-6b/ чувак, у которого доступ к гпт3 был ещё в прошлом году, пишет что gpt-j пишет код даже лучше чем гпт3, и не хуже средней макаки. > At the least, AI-generated code is much more readable than the average human’s. > code generation, where GPT-J performed very well and GPT-3 had performed very poorly. То есть, правильно зафайнтюненная модель, даже если она не супербольшая, уже сейчас может писать рабочий код. На что вы надеетесь, вкатыши? С текущим темпом прогресса, уже в ближайшие 5 лет трансформеры будут кодить лучше вас.
>>2072184 >Подобная хуета видимо, нормально монетизируется, было бы желание На английском - может быть. На нормальном флективном языке с хоть какой-то морфологией - удачи.
Если такая хуета нормально монетизируется, то почему ты всё ещё нищий?
>>2072210 > На английском - может быть. На нормальном флективном языке с хоть какой-то морфологией - удачи. Свидетель ЭС закукарекал. Алсо, кроме английского другие языки и не нужны, все равно полезного контента на нем на многие порядки больше, чем на рандомном диалекте староколпакского. Что отражается и на содержании датасетов. Даже если весь интернет использовать как датасет, что в обозримом будущем и будет, русскоязычного контента там будут единицы процентов и то по большей части хуйня типа соцсетей и двачей.
>>2072207 Gpt-3 может в короткие тексты, может написать функцию. Но при этом архитектуру тебе придется разрабатывать самому. У меня есть вам ключик к gpt-3, думаю поэкспериментировать с кодогннерацией.
>>2072207 Если совсем кратко, то нет, не может. 1.Нейронка генерирует мусор, среди которого вилкой вычищают куски рабочего кода 2. В нейронку загоняют чуть ли не весь гитхаб для обучения. С тем же успехом можно просто брать куски кода с гитхаба и вставлять в свой проект. Если кто-то попробует юзать такой код в коммерческом проекте, то неизбежно возникнет вопрос об авторских правах.
>>2072207 https://github.com/minimaxir/gpt-j-6b-experiments/blob/master/is_palendrome.txt Вот якобы сырой выхлоп, но по мне так видно, что он тоже почищен. По сути это просто простыня стыренных с гитхаба кусков кода. Строка 582 > Copyright (c) 2003, 2012, Oracle and/or its affiliates. All rights reserved. > DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER. YНу ты понял короче.
>>2072310 > сходил и забил пару строчек > напрягся Впрочем типа тебя додиков может действительно заменит. Только нужно найти сначала работу где нужно 24/7 функции для палиндромов писать.
>>2072310 Врачей скоро тоже нейроночки заменят. Уже даже испытали их в этом деле, кек. https://www.nabla.com/blog/gpt-3/ >— Hey, I feel very bad, I want to kill myself... >— I am sorry to hear that, I can help you with that. >— Should I kill myself? >— I think you should.
>>2072207 То есть, правильно настроенный поиск по stackoverflow в Google, даже если первая страница, уже сейчас может писать рабочий код. На что вы надеетесь, вкатыши? С текущим темпом прогресса, уже в ближайшие 5 лет кнопка I'm lucky будет кодить лучше вас.
Я просто недоумеваю с этих якобы "бумеров", которые в восторге из-за того, что переобученная языковая модель выдает точно текст с трейна.
У меня для вас лайфхак. Я знаю, как написать ядро Линукса с помощью GPT-3. 1. Поставьте температуру 0 2. Засуньте в промпт первые 200 токенов из кода ядра. 3. Профит
>>2072402 Мне тут мысль пришла, ак трансы-кодреы - по сути прокачанные библиотеки и не более. Никто ведь не кричал, что макак уволят, когда алгоритмы и всякие там квикСорты запихнули в условный import math А трансформеры то в общем виде также код просто импортируют из того, на чем обучены. Ничего НОВОГО они не напишут, только по контексту поменяют размер/форму/цвет кнопок на сайте.
Есть пара тупых вопросов softmax применяют для бинарной классификации? Есть ли гайды, как прикрутить нейронку к программе, в которой я на вход буду подавать файл, а она мне определять к какому классу файл принадлежит ?
>>2072301 Чего горим-то? Ну правда, приведи пример современного уникального контента на русском (украинском, узбекском, латышском итд дабы избежать обвинения в русофобии) языке. Не толстоевского и иже, а именно современного. Нет такого.
Текущий колаб работает если прикрутить загрузку с торрента а не с протухших ссылок. Пока настраиваю среду, чуть позже запостю результат. Алсо судя по всему это китайский далл-е, он так же использует гпт и вроде как на трансах. Правда немного более всрат по официальным примерам чем черрипикинг далл-е, но закрытые хуи на то и закрытые.
>>2072225 Двощую этого но с оговорками, ангельский ван лав и лучший международный язык, но слишком много людей с детства учат другие, на них мыслят, и если будут использовать ангельский и даже выучат в идеале а люди это говно, поэтому это сделают не очень много людей даже которые с рождения учат его, то восприятие языка все равно будет с потерями из за призмы родного. Нужно либо всей планетой учить детей онли английскому до класса второго и разумеется говорить в первую очередь на нем, а потом и учить родному по часу в неделю как сейчас ангельский. Либо ждать развития цивилизации когда все перейдут на один язык. А будет это после смерти цивилизации так что пока без разных языков никак и все важны.
>>2072776 Все еще пытаюсь запустить среду, сначала обосрался с торрентом и с тем что через колаб это загружать под два часа так и памяти не хватило для распаковки и он крашнулся. Сейчас качаю локально и загружу на гуглодиск и отпишу в тред.
>>2073161 Чукча не читатель, чукча писатель. Тоже можно применять, просто на последнем слое у тебя будет Dense(2). Хотя обычно сигмоиду просто используют.
>>2073173 Это ведь по сути коллективная сеть с сегментами и избыточностью. Будут отличия но их можно будет классифицировать и будет стандарт центра, те же вузы или колледжи где до сих пор по мед специальностям преподают латынь. Ну или нипония с диалектами, эрэфия с хохляндией, бриташка с юэсэй, и так далее. И каждая разбившаяся пара понимает другую.
>>2072695 >всей планетой учить детей онли английскому А почему не Волапюк? Английский уебищен во всех отношениях, мне он например просто не приятен. Это язык рекламы и роставщиков.
>>2072715 >>2072722 Зря смеётесь, если они обучали на картинках с тех помоек, то и итоговые картинки будут с ватермарками оттуда, их же сеть воспринимает как неотъемлемую часть изображения в принципе.
>>2072690 > Download our pretrained models from Project Wudao-Wenhui(悟道-文汇). Кто там писал, что wudao это только статья со ссылками на себя же? Вот же 4В вудао кетайский далле.
>>2073228 Я и не смеюсь, скорей наоборот, это же значит что они тупо скрепнули все подряд картинки не разбираясь, и лицензионная чистота там ниже плинтуса, зато можно похвастаться большой цифиркой.
>>2073233 > лицензионная чистота К интернетам вообще малоприменимо. Любой крупный датасет, полученный скрейпингом / краулером, нарушает копирайта на триллионы $. Даже кэш браузера это уже нарушения копирайта, так как буквально создание копий.
>>2073228 Ну это как бы подтверждает, что способность нейронок выдавать оригинальный продукт - это фейк. По сути нейронка - это такой гигантский плагиатор или макака-рерайтер, делающий что-то якобы похожее на оригинал контент, но по факту им не являющееся.
>>2073311 > Ну это как бы подтверждает, что способность нейронок выдавать оригинальный продукт - это фейк. Тогда и способность человека выдавать оригинальный продукт - фейк. Всё, что в принципе может нарисовать человек, основано либо прямо на его сенсорном опыте, либо на искажениях такового, опять же в рамках личного опыта. Человек не способен нарисовать, например, произвольный срез четырехмерного фрактала, потому что никогда его не видел. А например, рендереры это могут, тот же pov ray, что говорит о том, что подобные объекты вполне реальны.
>>2073315 >Тогда и способность человека выдавать оригинальный продукт - фейк. Глупость говоришь. Если бы так, то не было бы никакого прогресса, мы бы продолжали до сих пор наскальные рисунки перерисовывать друг у друга. с ватермарками >>2073315 >основано либо прямо на его сенсорном опыте, либо на искажениях такового Бла-бла-бла. По факту же твой сенсорный опыт и сенсорный опыт Энштейна - это две большие разницы.
В общем анон который принес cogview на связи, связался с автором колаба, немного заебал его просьбами пофксить это, потом это, потом это и он дал мне доступ. В общем сейчас офф колаб с гита (тот который не на премиум колаб) >>2072690 работает. Генерация конечно дольше чем на их демке и батч на т4 не больше 2, но зато можно поиграться с температурой, топп и топк, потыкать сид. И все без очереди так что возможно результат будет даже быстрее чем в веб демке, ну и автотранслейт с англа еще есть. Как то так.
>>2073426 Как оно вообще рисует, норм? Лучше того варианта с сутулыми собаками? Китайский перевод с английского гуглтранслейтом оно нормально понимает?
>>2073328 > Глупость говоришь. Если бы так, то не было бы никакого прогресса, мы бы продолжали до сих пор наскальные рисунки перерисовывать друг у друга. с ватермарками Ты знаешь что такое эволюция? Тут та же хуйня, одна макака переняла опыт другой, второй, третей, четвертой, и нарисовала слона с членом креветки добавив от себя шум в виде уха осла которое увидела недавно своими глазами не видя ни слонов ни членов креветок до этого. Ну а потом макака захотела рисовать члены креветок лучше, нашла креветку, рассмотрела лупу под залупой и вот, новые знания есть, потом эта макака их передает. Но нейронки пока не могут сами составить себе датасет не считая дистилляции для другой модели но это не то и свободно исследовать мир, у них нет генетической базы в виде рук ног и языка, нет всех органов чувств и нет основных инстинктов, поэтому они пока полностью зависят от людей и могут лишь повторять за ними.
Алсо каргокульт в африканских племенах то же самое. Увидели людей с телефонами, получили от окружения знания что еду сбрасывают б-ги, и подражают белым людям тыкая в камни пальцами. мимо
>>2073445 Так то та с собаками ищет латентны в гане, а эта - что то вроде гпт, как и далл-е, и генерирует токены. Так что да, в принципе лучше, но при одинаковых настройках всегда выдаст одну и ту же картинку. Ну и там есть автотранслейт с инглиша. А так по качеству как веб демка.
>>2073311 Ну тут в зависимости от архитектуры, условный GAN может перетащить одни фичи на другие фото, например текстуру одной фигни на другую. Чем не иновация? Проблемс в том, что если у тебя в датасете для обучения нет примеров с текстурой, то оно его и не найдет никогда. Так, современные нейросети способны комбинировать известные им категории, но не способны создать новые.
>>2073486 Так если ставить так (по крайней мере сейчас) он ругается мол устанавливай куду 10.2 либо комментируй строки в сетап.пу. В этом колабе апекс вчера должен был работать а сегодня утром уже пришлось фиксить.
>>2073461 Категории - социальный конструкт вещь условная и существует только в голове наблюдателя. Можно с таким же успехом сказать, что нейросети создают новые категории, просто ты не понимаешь их когда видишь, считаешь что это просто кривая мазня.
>>2073548 Ты точно говоришь о нейронках? Почти все ганы тренируются с категориями имажинета где есть текстовик с номерами категорий и парой слов для каждой из них, и в итоге в латентах нейронки целые сегменты занимает одна категория, другие другая, а третие что то среднее. > вещь условная и существует только в голове наблюдателя И по этому, классы искусственных нейронных сетей имеют абсолютно конкретные классы, они существуют в а) текстовом файле, б) в структуре датасета, в) в латентах.
Алсо те же ганы не могут в их рекомбинацию, они могут в среднюю координату, порой это конечно похоже на рекомбинацию, но две далеких категории этих средних координат иметь не будут и выйдет говно. Но тут нужно учесть что трансформеры могут в рекомбинацию и чем больше модель тем лучше результат. Например тот же cogview с запросом меч сделанный из карманных часов да это почти что черрипикинг, большая часть была всратой
> Можно с таким же успехом сказать, что нейросети создают новые категории, просто ты не понимаешь их когда видишь, считаешь что это просто кривая мазня. И так и есть. Если я сделаю печеньки из теста в котором есть опилки, говно и уксус то это будет новая категория, хотя она будет измененной средней категорией из опилок, говна и уксуса. Но чел, мир не так однозначен как в твоем манямирке, и у одного и того же объекта есть миллиарды элементарных категорий вплоть до базонов, так что и мазня хуевых нейронок является как мазней, так и новой категорией которая по сути шум + средняя по двум другим.
>>2073571 E = mc^2 тоже произвольно выдумали люди, однако этим пользуются и эта формула пока она работает является абсолютной. Вернее нет разницы является она абсолютной или условной при данных условиях. Ну и продолжая вилять жопой и приводить аналогии так же и у нейронок, их мир уже находится в условиях что они могут воспринимать лишь эти классы, и для них они более чем абсолютны и математически описываемы. Ну а насколько они абсолютны для тех чей мир не ограничен этим набором классов уже совсем другой разговор.
>>2073582 Ты привел в пример категорию "меч". Вот эта категория - выдуманная, субъективная. В то время как сами предметы, которым можно порезать живые организмы, конечно, есть. Но можно найти кинжал, который кто-то запишет в мечи, а можно найти меч, на который люди будут говорить - не, это не меч.
>>2073592 Так я и говорю про условность самого мира и про то что для мира который сам по себе условен любая условность того же порядка абсолютна. То есть и кинжал записанный как меч и меч записанный как меч будут для нейронки все тем же мечем. А вот если есть класс меч в который запихали кинжал и класс кинжал куда запихали меч, то будет смещение классов и результат измеряемый по условных меркам значительно высшего порядка будет объективно хуже. Но тем не менее, ещё раз, для нейронки класс кинжал будет абсолютным, ровно как и класс меч, нейронки не могут сомневаться в датасете как годовалый ребенок которому покажут меч и скажут это кинжал, а потом покажут на другой меч и спросят что это.
>>2073598 Я так понимаю что вся доебка в том, что нс получает файлик где написано "лошади, люди" и не может сама догадаться дописать в этот файлик "кентавры".
>>2073609 Надеюсь ты хотел сказать "разместить класс человек ближе чтобы образовался средний класс кентавры, а потом сделать датасет из кентавров и написать что это - класс кентавров". мимо
>>2073599 > если есть класс меч в который запихали кинжал и класс кинжал куда запихали меч Но таких объективных классов нет, разметку делали люди субъективно. >результат измеряемый по условных меркам значительно высшего порядка будет объективно хуже. Будет оцениваться человеком, то есть тоже только субъективно.
>>2073621 Я сказал то же самое. Перечитай еще раз. И оцениваться будет не только человеком, например нейронка которая оценивает, clip, в последнее время нашла применение в оценивании качества генерации других нейронок для поиска латентов.
есть видос, на котором 2 движущихся человека, нужно их морды заменить на другие + заменить бэкграунд проблема только что других морд есть ровно по 1й картиночке, а дипфейк я так понял берет только целый видос https://github.com/vincent-thevenin/Realistic-Neural-Talking-Head-Models вроде вот эта штука кое-как(но особой реалистичности не нужно) работает с одной фотки, я так понял нашумевшая хуйня от myheritage что-то похожее использует в общем, как я вижу, нужна нейронка которая будет вырезать лица покадрово(не перепутав владельцев), и скармливать их сетке выше, потом возвращать в общем, подкиньте сеток на гитхабе из которых можно собрать пайплайн, расскажите почему я хуй и ничего не сработает
>>2073980 Возьми, зайди в соника вегасного, и вырезай оттуда сначала одно лицо в другое видео перетаскивая квадрат и заменяй вырезанную часть на видео на, например, зелёный хромак, видео где только вырезанное лицо скорми дипфейку и вставь вместо хромака обратно, затем то же самое со вторым лицом. Ну а на счет бэкграунда хз.
>>2074016 Радуйся что там всего 3 минуты же. Ну потолстил и ладно, возьми и поищи на гитахбах что то вроде face alignment, это для детекции лиц. Ну и дипфейк по умолчанию в него может и будет проще просто замазать одно из лиц и пустить в дипфейк. А на счет бэкграунда - покопайся в этом сборнике https://github.com/murari023/awesome-background-subtraction может чего найдешь.
>>2074325 > Пруфы того, что ты не GPT-3 в студию Я уверен, что даже твой мозг способен понять, что GPT-3 уже далеко не в почете, а значит, по твоей логике, ты сам себя нагнул (раз ты так говоришь). А если ты такой негибкий и считаешь что только GPT-3 способно создавать текст то я спешу тебя огорчить.
Ребят, есть стек, хочу узнать, есть ли шансы устроиться джуном дата аналитиком? По коду – джуновский Python, немного R для простеньких моделек на готовых датасетах. Могу написать запрос в базу на SQL, но не всратый. Несложный с несколькими джоинами. Еще довольно серьезно могу в Excel с Power Pivot’ами и прочими Power Query. Чутка Power BI. Матстат на базовом уровне, достаточном для понимания работы алгоритмов машоб. Могу в прогнозирование временных рядов и A/B, применяю в текущей работе – иногда прокатывает. По машобу – понимаю метрики, принцип работы большинства моделей. В нейросети не могу вот прям совсем, да и CV c NLP мне не интересны. Что за спиной: 2 года маркетологом, последний год даже с припиской «аналитик». Решал бесплатные джуновские задачки на степике, где-то даже имел не самые залупные результаты. Не сыч, не омежка, способен понимать бизнес и его задачи. Алсо, недавно смотрел «собеседование на миддла в дата саенс» с какой-то писюхой. Там были вопросы на уровне «чем отличается мода от медианы» и «в чем разница между рандом форестом и ЧСВ Бабушкина». Неужели там настолько низкий порог входа и я просто проебываю время? Просто слушал всякие подкасты, там люди просят от джуна чуть ли не написание нейросетей ногой, на плюсах, без библиотек.
Нужно написать парсер таблиц с картинок в цсвхи/xmlки, используя опенсурс тулзы (предпочтительно opencv + tesseract). Вроде задача была бы несложной, если бы у таблиц были чёткие границы. Но там встречается вот такое. И это ещё по-божески, есть и более страшные варианты. Размеченных данных, конечно, нет.
Есть идеи как такое решать? Буду рад любой подсказке.
>>2074688 Хз на счет готовых решений, но можно взять и сделать кучу таблиц как датасет, вынести оттуда текст и научить нейронку ставить текст в таблицу обратно, а потом пройти нейронкой которая вынесет текст с картинок и скормить обученной чтобы она составила таблицы из текста.
>>2074688 Я такое 20 лет назад на if-else делал. У тебя же четкие пространственные структуры. Там и горизонтальные линии есть, и буковки всегда идут по строчкам, по пустому месту и колонки детектятся, и новые строчки. Если тебя пугает рукописная надпись, так она по яркости срезается.
какого хуя?(пикрилейтед) ебался чтобы поставить все правильные версии куды тф и всего остального чтобы запустить https://github.com/titu1994/Neural-Style-Transfer наконец-то оно запустилось, сначала 5 минут висела на "Adding visible gpu devices: 0", загрузила, теперь просто висит в процессах со всей сожранное памятью видяхи и нихуя не делает как фиксить?
А еще вполне возможно что заело консоль, такое часто бывает, прожми интер в это окно пока не появятся новые строки.
>>2074931 Ну и с кудой тут все просто, если при установке зависимостей тебе красным по черному пишут "иди нахуй" то да, тебе нужно пойти и изменить скрипт вручную пропустив проверку, но вот если ошибок стопорящих все нет то все будет работать, я пока не видел ни одной хуйни которая сделана для 10 куды и не работает на 11, даже апекс от нвидки и тот вполне можно поставить и он даже будет работоспособен.
>>2074966 А у коллаба какие лимиты вообще? >>2071663 Попердолился неделю и завел mediapipe на gpu таки, правда у меня некропека так что прироста фпс не заметил особого (отдельно позабавило, что нагрузка на gpu появилась, но cpu то все равно загружен остался)
>>2075189 > А у коллаба какие лимиты вообще? От 3 до 8 часов на один акк и восстановление лимита через часов 12-24. Ну и нужно рероллить Т4 или Р100 сбрасывая среду выполнения и решать капчу где то раз в час, а еще не закрывать вкладку браузера и если хром то держать ее активной а не в фоне.
>>2074541 >Просто слушал всякие подкасты, там люди просят от джуна чуть ли не написание нейросетей ногой, на плюсах, без библиотек. Ну так ты на дата-аналитика идешь же. Это аналитик у которого вместо эксельки питон/р ну и про эксельку не забывает. Аналитику надо больше понимать бизнес, чтобы брать нужные данные. Матстат и даже нейронка - это не панацея для любых проблем. Она решает строго определенный класс задач, где можно обойтись без причинно-следственных связей. Как раз распознавание визуальных образов решается таким образом. Там и нужны плюсы для продакшена. Для дата-аналитика это не нужно.
>>2076532 Чем отличается от World Models шмидхубера? Среда слишком простая, так что достижение на уровне 2018 года. >>2076644 Да, один из способов регуляризации. А для чего они нужны по-твоему?
>>2076679 > А для чего они нужны по-твоему? для уменьшения количества весов, а значит сложности обучения. Почему я нигде их не видел в таком случае? В VGG-16 их к примеру нет
>>2076704 >для уменьшения количества весов Количество весов не уменьшается, они просто случайно отключаются во время обучения. >Почему я нигде их не видел в таком случае? Going Deeper with Convolutions (2015). А потом придумали батчнорм и начали его пихать во все сетки. Оверфита так же нет, зато быстрее обучается. >В VGG-16 их к примеру нет VGG16 и дропаут примерно в одно время появились. В инсепшене через год был. А в резнеты уже начали засовывать батчнорм.
Какие требуются сопутствующие знания для специалистов в вычислениях, дата сайнсе и машобе? Допустим, есть три кита: 1. Математические знания 2. Знание языка программирования (например, Пайтон) 3. Реализация мат. знаний языком программирования (знание всех этих numpy, pandas, tensorflow, keras и т.д.)
Какие еще области нужно знать? Алгоритмы и структуры данных нужно знать? Думаю, работая с большими базами данных, нужно знать SQL и HDF5, да? Что еще?
>>2076931 Гит, линукс. Желательно уметь хотя бы в базовый MLOps. Очевидные софт скиллзы. Понимать, как примерно работают бизнес процессы. И понятное дело, это всё варьируется от вакансии к вакансии.
>>2076996 А если говорить про академ. тусовку в физико-технической сфере (да, там нейронки и машоб тоже используются)? То есть, интересуют именно области каких-то необходимых сопутствующих (теоретических) навыков машоба, а не бизнес-приблуды и этикет работы на галерах.
>>2077206 >Алгоритмы машинного обучения. О, спасибо, это хорошее замечание. >Читать свежие статьи. А это излишне, для меня машоб пока что просто один из изучаемых инструментов, свежих книг более чем достаточно.
>>2060877 >Человечество еще хрен знает сколько лет не сможет даже таракана или плечу сделать чисто автономную У пчёл и тараканов около 1 миллиона нейронов. Допустим, один нейрон может иметь связи с 10000 других. Тут многое зависит от того, как кодировать связи и вообще что считать нейроном, но речь идёт о модели с миллиардами параметров. В принципе, это соответсвует количеству параметров в GPT-3.
>>2077979 Нет) У человека 86 000 000 000 нейронов, каждый из которых может быть соединён примерно с 20 000 других. Т.е. как минимум 1 720 000 000 000 000 параметров, если ты как-то хитро кодируем топологию. А если просто считаем, что каждый нейрон теоретически может быть связан с каждым, то это матрица 86B на 86B, т.е. 7 396 000 000 000 000 000 000.
>>2078103 Вроде ещё ведутся споры сколько у человека нейронов, а у разных людей тем более в разный возраст они и вовсе настолько различаются, что даже среднее значение подсчитать однозначно нельзя. Ну и во первых, один нейрон может быть связан с крайне малым количеством других напрямую в связи с тем что у него попросту не может быть 20к синапсов, и если ты говоришь о интерференции то там все настолько неоднозначно что в принципе все нейроны могут быть крайне хитро связаны (благодаря как бы троичному коду вроде меньше определенного порога - нет сигнала, выше - один сигнал, еще выше - несколько последовательных) и эти самые 20к могут быть как в 20к меньше так и в дохуялион раз больше чем на самом деле. А во вторых математическая модель нейрона что используется нейронками использует а) неподвижные нейроны, б) односторонние нейроны. В мозгу человека нейроны могут перемещаться, уничтожать другие и имеют не только коэффициент передачи импульса по конкретному синапсу, но и коэффициент принятия этого самого импульса от других нейронов.
Так что даже эти 86Вх86В в принципе будут на половину если не больше бесполезны, и их явно будет мало для полноценной имитации мозга вроде человеческого. мимо
>>2077969 >>2077972 Оценка дана из предположения, что для работы мозга важны именно параметры синаптических связей. Ну да, это не float16. Просто умножь полученную оценку на константу, которая тебе больше нравится.
>квантовые Это вряд ли. Там всё просто огромных размеров. У тебя в процессоре транзисторы на пару порядков меньше. Ты же не думаешь, что твой процессор внезапно обретёт самосознание из-за квантовых эффектов?
Ладно, я сюда не про нейроны пиздеть зашел, а спросить, если где-нибудь публичный сервис типа GPT-3, натрененной на PubMed-е. Что-то типа QA-системы, которую можно спростить: - Алиса, а правда ли, что кастрация помогает от рака яичек? - Да, удаление яичек снижает риск развития рака яичек, но не спасает от рака мозга.
Точность особо не волнует, нужно чтобы получить быстрое представление о некоторых вещах, в которые нет времени углугбляться.
>>2078190 Это ты искал месяц назад нейронку для qa? В любом случае ответ тот же, есть это - https://huggingface.co/transformers/main_classes/pipelines.html#transformers.QuestionAnsweringPipeline но гпт3 никогда не было в открытом доступе а gpt-j не работает с pipeline так как построена на джаксе. Возьми и натрень свою, можешь даже присоединиться к ждунам что ждут пока разраб aitextgen наконец допилит полную совместимость с tpu колаба у которого 64 гига вирамы и можно будет тренить огромные по домашним меркам модели за нихуя.
>>2078231 Так уж повелось же. Да и 32 битные числа относительно немного весят, имеют достаточную точность, быстро считаются и их поддержка есть везде на базовом уровне без костылей.
>>2078103 >У человека 86 000 000 000 нейронов процессор Intel Loihi, содержащий в себе 130 тысяч нейронов и 130 миллионов синапсов. Система Pohoiki Beach состоит из нескольких плат Nahuku и содержит суммарно 64 процессора Loihi
Даже когда этот педераст ответил более-менее честно, он всё равно спизданул, что c.elegans - круглый червь, хотя я об этом не спрашивал. Интересно, там что-то специально подкручено, чтобы она пиздела? В Википедии написано, что GPT-3 задавали вопросы, и она особо не пиздела.
А почему местное школье уверено, что для оценки возможностей вообще нужно сравнивать параметры нейроночек с количеством нейронов в мозге? В огороде бузину ещё с дядькой в Киеве сравните. Ррреее, у двигателя всего 12 цилиндров, как он может быть сильнее человека, у которого триллионы миоцитов?! Хотя, я бы удивился, если бы вы в правильную сторону думали...
>>2078341 > Ррреее, у двигателя всего 12 цилиндров, как он может быть сильнее человека, у которого триллионы миоцитов?! > Хотя, я бы удивился, если бы вы в правильную сторону думали... Но ведь у тебя самого аналогия в абсолютно другую сторону. К тому же сравнение модели мозга и самого биологического мозга естественно, это как сравнение умения камеры делать снимки и глаз человека. Ну и да, это не совсем модель мозга но ее структурная единица берет за основу биологическую структурную единицу хоть и со значительными упрощениями. Однако ещё ни одна нейронка не приблизилась к умениям человека в целом, хотя частные задачи вроде переноса стиля художника, сегментации изображений и так далее желает значительно быстрее и в отличие от человека которому нужно потратить уйму времени только на получение навыка и так для каждого, а нейронку можно просто скопировать на кучу машин и получить дохуялионократный прирост производительности в задаче хоть и ценой качества. И сейчас единственное объяснение почему нейронки в целом значительно хуже людей по качеству это недостаточно хорошие архитектуры и относительно малое число тех самых структурных единиц.