Очередной тред про хипстерские технологии, которые не работают. У нас за годы этот кал не может сгенерировать обычный хуй. Ну ладно, раньше еле-еле черно-белые лица генерил. Теперь генерит цветных циклопов на запрос "лицо человека". Прогресс! Ну, наверное. Вы, короче, только подождите! Что-то не карикатурное и кое-как работающее будет ближе к выходным.
Тут оффтоп, психиатрические термины и экзистенциальные вопросы вместо программирования.
Хочешь ML, учи CS229, CS231n, линейную алгебру, теорвер, матстат, базовый матан и matrix calculus.
Хотя нет, не учи. Но хотя бы backpropagation освой. Больше нахуй ничего не нужно, потому что ничего нового за 50 лет AI не изобрели. И ты все равно не будешь нихуя делать серьезного, твой максимум - поигрульки с готовыми решениями и работа перекладывателем экселя или, если повезет, ничем не примечательным машоб-дауном с зарплатой ниже любого любителя крудов. С тебя даже фронтендо-макаки будут смеяться, ведь они хотя бы могут в нормальный код. Зато у тебя будет бейджик элитария. Правда, элитарием ты будешь только у себя в голове.
Еще учи graph machine learning (GML). Это, как водится, реклама.
Осторожно, в треде манябиологи и маняпсихологи, которые с каких-то хуёв решили, что они шарят в биологии и психологии, хотя всю жизнь были программистами, причем бездарными.
Хочешь что-то спросить? Только вкатываешься? Спрашивай совсем базовые вещи, наши дурачки тебе расскажут по верхам с пальцем у подбородка о спектральной кластеризации, о которой что-то услышали на лекции "Введение в машинное обучение" на 3-м курсе своего МухГУ. Что-то более серьезное - пожалуй, не здесь.
В общем, наши дебики тут сознание оцифровывать собрались, математики, исследователи, серьезные люди, паперы, все дела. Правда, пока только пытаются генерить прон с лолями, смотрят курсики Стэнфорда и хлебают мамины борщи. Работа подождет - растет будущий ученый, а не эта ваша макака! Пока оперируют экселями, скоро будет ПиЭйчДи и работа за зарплату уровня формошлепов, а то и меньше.
>>2286535 Так это и без Бабушкиных понятно что бизнесы типа пятёрочки могут играть только в мл по прихоти воодушевлённого кабанчика и ради понтов, а так-то им как были нужны лишь операторы экселя ("ad-hoc аналитика") так только они и нужны до сих пор. Вопрос только с какого хуя вроде-как-млщику этим гордится не зашквар вообще, но валерке как профессиональному пиздаболу больше чем млщику наверное не зашквар
>>2286879 Нейрошвайн, спокуха. Валера успешен, с запруфанным трек рекордом деливерей МЛ продуктов со значительным импактом, ему самое место в этом треде.
А ты не напрягайся. Все равно никто не станет прислушиваться к кудахтам рандомного неудачника с зекача, который даже сотыгу пожать не в состоянии.
анончики, я пидор зеленый, такой вопрос на понимание возник: почему GradientBoostingRegressor работает для классификации тоже? в документации нигде не нашел
>>2286977 Ты пидор зелёный, на лбу у себя блять нарисуй деревье решений, и подумой, почему ему похуй, есть у таргета отношение порядка или нет на самом деле
А возможно натренировать такую модель, которая любое ПО с закрытым кодом или например игру для PS3, превращает из скомпилированных машинных инструкций обратно в читабельный код? Чтоб буквально любую видеоигру с любой платформы можно было разобрать с потрохами, запилить туда мод на еблю лолей или портануть с PS3 на ПК.
>>2287262 Полагаю что это допустимо, но нужно обучить сеть, а чтобы обучить сеть нужно тридцать миллиардов игр реверснуть ручками, и предсотавить сети готовый код и игру, как экземпляры.
>>2287270 не так это делается. Чтобы набрать сетов для "A превращать в B", можно иметь просто автоматический превращатор B->A (то есть конпелятор). Например ты хочешь обучить сетку деблюрить (шарпить) картинки/фотки. Берёшь 100 тысяч фоток хорошего качества и блюришь их. Всё, сет готов
>>2287262 Невозможно. Предикт следующего токена это вероятностный процесс, в итоге нагенерируется куча битого левого кода и всё. Тут вообще принципиально другой подход нужен. В прошлом треде я вспоминал пикрелейтед и ее костыльное изобретение (исходный код и компилятор), походу, никто нихуя не понял о чём я вообще. Настолько в головы анальников вбита парадигма этой бабули, что вне ее они и мыслить не умеют.
Ща тестирую ru-DALLE. С неразмеченной датой делает то же что и stylegan, но в 100 раз лучше и стабильнее и даже может в разрешение выше претрейнеда. Поясните, почему принцип работы моделей на трансформерах настолько пизже и экономнее, чем у GAN?
>>2287262 Думаю, даже если допустить, что такую модель получилось обучить, то она бы банально "писала" игру с нуля (поиграв в нее), используя блоки кода из обучающего набора. И если получившееся поделие будет работать, то его исходный код скорее всего будет нечитаемым и не расширяемым адом.
>>2286452 (OP) Я не ЭС-поех, но у меня такой вопрос. Этот ваш машоб много чего может, не так ли? Тогда расскажите: может ли он оптимизировать свои собственные алгоритмы? Типа, тренировать модель на предыдущих трейнингах всяких моделей, для того чтобы научить эту модель улучшать код в их основе, или даже проектировать новую архитектуру, ради более эффективного трейнинга в дальнейшем. И повторять до тех пор, пока в Китае не создадут осознающего себя кибер-нациста, который всех убьёт
>>2288052 > может ли он оптимизировать свои собственные алгоритмы? Может даже почти с нуля собирать. Т.н grammatical evolution. Это возможно, потому что любой алгоритм представим в BNF форме.
аноны, работаю дата-аналером, ну там вся хуйня эта бабская с дрочкой факта, хочу перекатиться к вам, стоит ли вся залупа свеч? имею 200к гросс в одной ноунейм-шараге
Хмм, мне кажется, или самые крутые исследования и модели в машобе постепенно анально огораживаются FAANG-ом ? У них куча ресурсов, мощностей, денег, но делиться достижениями они особо не спешат. Хотите более-менее качественную модель в области того же компьютерного зрения? Вот вам API и пожалуйте месячную подписочку. А что там под капотом - вас ебать не должно. А попенсорсу останутся трансформеры, древние ocr тессеракты и прочие велосипеды, натренированные индусами и китайцами.
А почему все картинки которые генерятся ИНС выглядят как во сне? Такое же всё приблизительное, с такими же искажениями объектов. Это как-то в конкретную нейронку закладывается или "оно само", потому что на мозг похоже?
>>2290958 Там просто мало слоев настакали, поэтому низкое coherence (согласованность). У дифьюжна чуть выше, у трансформеров еще выше, в общем надо дальше развивать код и архитектуру.
Встречайте DeepStudio: решение для стилизации видео под азиатскую анимацию (стиль как у корейских рисовак) https://github.com/bryandlee/DeepStudio Правда, код выкладывать не собираются
>>2291075 Не связаны, просто МЛ оче популярная в Азии отрасль, почти все современные разработчики и исследователи - китайцы (японцев мало. Корейцев чуть больше).
>>2291058 > я бы гонял трейнинг на 20-гиговой в облаке какая там цена за, допустим, 72 часа? что делать, если входные данные у меня занимают 1 терабайт? ну то есть на диске спресованный 1 терабайт
>>2291104 >какая там цена за, допустим, 72 часа? 0 центов в Колабе, цена двух симок в Kaggle. >что делать, если входные данные у меня занимают 1 терабайт? ну то есть на диске спресованный 1 терабайт Впервые слышу. На своей локальной системе ты тем более не сможешь обрабатывать такие данные. Данные больше 20 гигабайт - это уже какая-то странная хуйня, а не машоб.
>>2291247 >На своей локальной системе ты тем более не сможешь обрабатывать такие данные. Данные больше 20 гигабайт - это уже какая-то странная хуйня, а не машоб. Зависит от конкретной задачи и модели. Я тренировал нейронку половиной терабайта данных. Данные в память грузить не надо, можно считывать в реальном времени с диска. Единственная разница - количество эпох, но и с этим проблем быть не должно. Как правило лучше, например, иметь в десять раз больше данных и в десять раз меньше эпох, чем наоборот.
Ну что вы тут, школуны? Пока ЭС петух обьявляет себя опущенным, насасывая китайцам, eleutherai аннонсировала GPT-NeoX-20B, опенсорс претрейн трансформер на 20 миллиардов параметров! Предыдущий самый крупный открытый был на 6 миллиардов, если кто не помнит. https://blog.eleuther.ai/announcing-20b/ https://github.com/EleutherAI/gpt-neox
>>2286452 (OP) Можно ли создать такую нейросеть, которая будет писать грамотные тексты или хотя бы рерайтинг машинные? Или же результат будет как заголовки и описания товаров у алиэкспресс (берцы называют сапоги для девочек)?
>>2291778 > Похоже на прорыв! Ага, ЭС петуха прорвало. >>2291822 > В последнее время часто вижу тяночек в берцах. >>2291827 > . Носить на копытах тяжелые куски твердой кожи нужно быть тупым пориджем Это не берцы, а бесполезные кукожные эмо копыта для пориджей. Нормальные уставные берцы как раз очень удобная обувь за копейки, но как раз их замеры не носят.
>>2291928 >Нормальные уставные берцы как раз очень удобная обувь за копейки, но как раз их замеры не носят. >Нормальные уставные берцы >Нормальные уставные Сразу видно в российской армии не служил.
>>2286452 (OP) Что у Бурнаева с глазами? Почему они смотрят в разные стороны? Когда я был на его лекции, мне показалось, что один его глаз как будто стеклянный
>>2291928 >Ага, ЭС петуха прорвало Как же тебе негорит от твоего протыка. Ну чего там, скоро 40 триллиардов параметров будет? Каждый месяц очередные узкоглазые тренируют большая модель густой параметр а воз и ныне там: все эти большие модели посасывают порфирьевичу из 19 года который на gpt-2 + эвристиках. Оказывается битерлессон не работает и просто подмакакить больше параметров не получается, вот это неожиданность, без человека не обойтись, технокоммунизм не строится
>>2290297 >Теорема от ученых - в говне моченых? Сильно не печёт? >Что-то на уровне жидовской теории относительности. Чем тебе ТО не нравится? Тот факт, что жид Альбертушка её спиздил и выдал за свою, не делает её плохой теорией. Или тебе не нравится всё, что ты не в силах осилить, макакич? >Несостоявшиеся абажуры Что?
>>2293029 Петушок, а ты в курсе, что Никола Тесла еще в 19 веке предлагал схему генератора БЕЗ потребления топлива? Да и вечный двигатель (генератор) давно возможен - на энергии магнитов. Вас держат в стойле мракобесия будто скот, и пукцинируют шмурдяком. Иди ширнись еще пару раз.
>>2293205 > Никола Тесла еще в 19 веке предлагал схему генератора БЕЗ потребления топлива? Да и вечный двигатель (генератор) давно возможен - на энергии магнитов. Вас держат в стойле мракобесия будто скот, и пукцинируют шмурдяком Господи, как же у тебя в наплечной параше-то насрано... ЭС, калмунизм, эфир, плоская земля, плюмоинцельство, теперь ещё Тесла, вечный двигатель, антивакцинаторство... Ты еще случаем не из тех ебланов, которые "граждане СССР" с морским правом, фидуциарным волеизъявлением итд?
>>2290130 Нихуясе, тут, оказывается, когда-то было тематическое общение, дискуссии и, возможно, кто-нибудь даже метрики качества разных подходов сюда притаскивал. мимо ньюфаг залётный
Утро в тред. Подскажите ньюфагу что делать, если он хочет вкатываться в МЛ чтобы генерировать красивые картинки (живопись, пейзажи) и тренировать под это свои GAN модели, но он нищий как чупакабра.
Сап аноны, кажется, я в глубокой жопе. До сдачи курсовой 1 месяц, а мне надо обучить нейросеть для передвижения антропоморфного человечка в виртуальном пространстве (прямо как Google DeepMind AI "Learns to walk" https://youtu.be/gn4nRCC9TwQ)
И тут возникает несколько вопросов: 1. Что использовать в качестве виртуального пространства? По идее, это должна быть симуляция с около настоящей физикой реального мира. Думал, мб использовать что-нибудь на Unity. 2. На чем как обучать сеть? Данных нет вообще, думал об обучении без учителя. Или есть какие-то еще варианты? 3. Какие инструменты использовать для скорейшего создания? 4. Как бы вы стали выполнять это задание?
Раньше сами нейронки не писал, но за спиной куча теории машоба без практики и раньше баловался компьютерным зрением tensorflow, dlib Если что, пишу на C#/Python
Короче говоря, анон, помоги студенту! Буду благодарен за любые наводки и помощь
Комацузаки легендарный гуру машоба, разработчик GLIDE и latent diffusion. Он считает, что на определенном этапе машоб-модели станут сами писать пейперы без участия людей-разработчиков. (Хотя сейчас разрабочики не могут даже полностью автоматизировать операции машоба.) Также он говорит, что хотел бы автоматизировать исследование старения (достичь того, чтобы живые сейчас люди могли не умирать) и считает, что этого возможно достичь даже без AGI. Вероятно, нужен алгоритм который тюнит гиперпараметры другого алгоритма, чтобы улучшить его производительность в работе с данными. Что тут скажешь? Аран - based and redpilled
>>2295630 > Вероятно, нужен алгоритм который тюнит гиперпараметры другого алгоритма, чтобы улучшить его производительность в работе с данными. Вау, какая свежая идея. > based and redpilled Плюмоинцел, уходи
>>2295254 >До сдачи курсовой 1 месяц, а мне надо обучить нейросеть для передвижения антропоморфного человечка в виртуальном пространстве На хабре когда-то читал статью про такую хрень, парень вроде обучил таки. Погуглил сейчас немного, не нашёл.
>2. На чем как обучать сеть? Данных нет вообще, думал об обучении без учителя. Или есть какие-то еще варианты? Ну тут обучение с подкреплением, кнут и пряник.
Типа если он упал, то плохо всё, если пару шагов сделал, то уже лучше. В качестве среды действительно что-нибудь с помощью игрового движка замутить можно.
Но это пипец, за неполный месяц с нуля такую поеботу нереально написать, наверное.
поздно ли в 30 лет вкатываться в мл? есть базовые знание как например матан, лин алгебра, дискретные структуры и подобное. если поздно, во что лучшие вкатиться в области ИТ в этом возрасте? спасибо анончики
>>2298278 >если поздно, во что лучшие вкатиться в области ИТ в этом возрасте? Вкатываешься в джаву на интырпрайз копаться в легаси и получаешь свои 300кс, пока местные шизики обсуждают Технологическую Сингулярность и сидят на шее у мамки, потому что вакансий нет.
>>2299380 >>2299385 Полностью вычислимая только квантовая теория поля (квантмех + СТО), а квантовая теория гравитации (квантмех + ОТО) основана на невычислимом функционале взаимодействия (суммирование по всем топологиям четырёхмерного искривлённого пространства, что является (алгоритмически) неразрешимой задачей).
То есть природа умеет решать алгоритмически неразрешимые задачи, и есть мнение, что именно эта способность необходима для создания полноценного искусственного разума.
>>2299403 >природа умеет решать алгоритмически неразрешимые задачи Так они "неразрешимые" только с точки зрения устаревшего маняматического аппарата, который нейроночки отнесут на помойку
>>2299403 > То есть природа умеет решать алгоритмически неразрешимые задачи, >>2299441 > Так они "неразрешимые" только с точки зрения устаревшего маняматического аппарата, который нейроночки отнесут на помойку Биба и Боба, полтора долбаеба. Откуда столько всяких мракобесов повылезало? > и есть мнение, что именно эта способность необходима для создания полноценного искусственного разума. Нет такого мнения. Есть выдуманная хуйня, не подкреплённая ничем.
>>2299441 >Так они "неразрешимые" только с точки зрения устаревшего маняматического аппарата, который нейроночки отнесут на помойку А ведь я даже не удивлён, что долбоёб твоего уровня повстречался мне именно в треде машоба.
>>2299517 >Нет такого мнения. Есть выдуманная хуйня, не подкреплённая ничем. Нет, есть. Ты всё врёшь! Лол!
>>2299441 >Так они "неразрешимые" только с точки зрения устаревшего маняматического аппарата, который нейроночки отнесут на помойку Ты с помощью курсов ГикБрейнс в профессию попал?
>>2299403 Причем здесь природа то? Всякие формальные вещи из физики и математики это изобретение человека. Если какие величины являются алгоритмически невычислимыми, то это буквально ничего не говорит о природе. Зачастую выводы из физических теории вообще противоречат реальному миру в одних ситуациях однако хорошо предсказывают поведение в других.
Собираюсь перекатываться из инженегров в 300к/наносек, не бейте, лучше обоссыте. Насколько сильна разница между тем, чем занимаются дата аналитики и дата саентисты? Можете на уровне "примерно почувствовал" пояснить, что интереснее/сложнее? Просто хочется заниматься тем, где нужно хотя бы периодически ДУМОТЬ.
>>2299817 >дата аналитики Ищут правильное направление движения бизнеса для кабаныча. >дата саентисты Надможество, включающее дата-аналитиков, компьютер вижин, нлп.
>>2299817 Чел, ну какие тебе 300к. Кабаны уже давно раскусили маняматиков и платят им сотыгу, заставляют моделировать какие-нибудь сраные оттоки и все время ебут АБ-тестами.
За деньгами надо идти в цифровизацию старых энтерпрайзов.
>хочется заниматься тем, где нужно хотя бы периодически ДУМОТЬ. Вот это кринж, чел щас бы неиронично связывать пососаенс с ДУМОТЬ или НАВУКОЙ.
Предположим, что у меня есть список из сексуальных предпочтений разных людей в виде: большие черные члены, чулки , буккаке анал, ледибой, писсинг, анальный футфистинг
И есть какой-то bert или еще что для векторизации этих тегов Если стоит задача оптимальным образом определить похожесть вкусов двух людей, как правильно следует векторизовать их? Получать вектора отдельных тегов или даже слов и потом их: суммировать конкатенировать Или же целиком скармливать и не париться?
>>2303130 > Америка это вообще кринж. И исследования там кринжевые. Написал плюмоинцел в интернете, созданном в США, с компьютера, разработанного в США, в программном обеспечении, созданным в США. Просто немного сухих фактов: ни одна архитектура компьютера, ни один алгоритм машоба, ни одна операционная система никогда не были созданы в Китае. Зато плюмохуйлу моют мозги о том какой Китай великий, Кси Цзинь Пух пустой мешок базы риса красная таблетка для ректального употребления
>>2303412 Когда-то хватало сил своровать ученых с других стран дабы это всё сделать, сейчас потешная смехдержава даже потеряла технологии высадки на Луну в съемочном павильоне и единственная из оставшихся технологий это печатный станок.
>>2303666 я захотел и пожал, хотя я среднего роста и ничем особенным не занимался в школе.
ничего особенного: просто ходишь и жмешь в течении года-двух. ешь хорошо и спишь хорошо. Дальше надоедает жопу рвать и не такой уж молодой организм начинает сопротивляться достигаторству.
Быть бабушкинцем - это надо довольно регулярно задрачивать
>>2304900 >Тут кто-нибудь из господ интересовался квантовым машобом в той или иной ипостаси? Что думаете об этом? На данном этапе развития для этого всё ещё нужны мозги. Приходи через несколько лет, когда начнётся хайп из всех щелей, и когда появятся гайды для быдлокодеров.
>>2305089 >Ну, там IBM уже 100 кубитный компик собрали, а через годик-другой уже 1000 кубит хотят. Особо не слежу за IBM. Это точно квантовый комп или очередной девайс для квантового отжига?
>>2305089 >Ну, там IBM уже 100 кубитный компик собрали, а через годик-другой уже 1000 кубит хотят. И разница в сложности между 100 и 1000 кубитами экспоненциальная. Если прорывного метода не найдётся, это не годик-другой, а десяток-другой лет будет.
>>2305607 рано еще, чувак. Просадка будет сильнее. И в течение года-полутора. А где днище тебе никто не скажет. закупайся тогда, когда СнП500 войдёт в предыдущий (до февраля 2020) тренд
>new legislation to limit the deposits that all Russian nationals can hold in UK bank accounts to £50,000, intended to choke off the ability of Russians to raise finance and keep their money in London.
Помогите понять одну вещь мне, зелёному залётышу. Допустим мы натренили одну модель чтобы она классифицировала котиков. Натренили вторую на собак. Третью на на ещё что-нибудь и так до бесконечности. В чём потом проблема объединить это всё в одну единственную систему, а после и провести 10^10^10 итераций для большинства повседневных вещей и на выходе получить как минимум умный интерфейс для каких-нибудь очков/линз или смартфона который как в играх выдаёт тебе название предмета и ещё и инфу на него накидывает а как максимум уже какую-никакую основу для будущего и полноценного ИИ.
>>2307194 Значит технических ограничений для этого нет? Хорошо, тогда почему инноваций никаких нет? Одни боты-стихоплёты и дипфейки вокруг. Автопилот теслы-хуеслы ожидаемо обосрался, про copilot тоже давно нихуя не слышно. Когда там уже полноценная ИИ-диктатура и биоимплант в каждый мешок с говном и костями?
>>2307197 > тогда почему инноваций никаких нет? что такое "инновации"? возьми кучу разных фоток, загружай по одной в яндекс имейдж, и он будет тебе показывать на фотках те вещи, которые узнает. Платья, пистолеты, аниме-девочки и проч
>>2307180 чекай No free lunch thоerem недавно приходилось доказывать эту теорему коротко: универсального алгоритма который будет решать все (много) задач нет и быть не может
>>2308656 > недавно приходилось доказывать эту теорему Ебало представили? > коротко: универсального алгоритма который будет решать все (много) задач нет и быть не может Во-первых, оно не об этом. Там речь о том, что никакой отдельный алгоритм машоба не может одинаково хорошо работать на всех датасетах. Суть этой "теоремы" - если есть то, что отдельный алгоритм делает хорошо, значит есть и то, что он делает плохо. Во-вторых, никто не запрещает использовать много разных алгоритмов + эвристики для их выбора под конкретную задачу.
>>2308747 >никто не запрещает использовать много разных алгоритмов + эвристики для их выбора под конкретную задачу. Это тоже алгоритм, и тоже будут задачи, на которых хуёво работает.
>>2308747 я доказал и разъеснил каждое предложение этой теоремы то что ты написал про выбор алгоритма полная хуета которая всё равно не будет работать из за этой теоремы, прими это, смирись с эти, живи с этим, перестань отрицать эта теорема базовая хуйня которую проходят в первом классе и ты не смог её понять
>>2309413 В ОДСе мертво, вакансия от СБЕР-риски недельной давности вызывает умиление, и пусть там не много насрали, но все равно потешно. Все стажировки какие есть приостановлены до середины марта, фактически вкат закрыт. Интересно чем все закончится
Проходил кто нибудь курсы Анатолия Карпова "Аналитик данных"? Интересно услышать фидбэк, ну или хотя бы фидбэк людей с нуля вкатившихся в эту профессию. У меня сейчас за плечами несколько лет работы в нескольких топовых Екомах рашки, примерно представляю какие задачи нужно решать для бизнеса, часть задач так или иначе связаны с обработкой данных, но автоматизировал максимум зенкой. Есть шанс вкатиться?
>>2312477 Нвидиа наложила санкции - последние видеокарты остались для детей олигархов. Облако не арендовать из-за санкций по деньгам. Как по нотам пыня переиграл машобщиков. Осталось только рякать (в одноклассниках), что и не нужны были эти ваши нейтронки империалистические. ЭС-шиз, наступил твой рай.
>>2312477 А действительно, аноны, какие мысли у вас по этому поводу? Я вижу два стула: 1) Все здравые ML-щики дали по съебам или пытаются это сделать. Освобождаются места для дебилов-вканутов как я. При этом вакансии, конечно, тоже сокращаются, но шанс вкатиться остается. 2) Все летит впизду. Кабанчики 300кк/наносек держатся за свои места, но даже они попадают под сокращения, новых мест нихера не будет ни в дата аналитике, ни в дата саенсе. Теперь хуй, а не вкат.
Мне кажется, что второй вариант более реальный, но есть хоть какой-то позитив для вкатунов на рынке?
Сап, машоберы. пишу диплом, частично он связан с компьютервижн. суть проекта "проверка правильности выполнения физ. упражнений по видео". для обнаружения туши юзаю медиапайп, далее у меня возниает вопрос(он, возможно, мега тупой, но я рискну): стоит ли мне применять методы машинного обучения для того чтобы надрочить программу самой распознавать когда объект на видео отжался, присел, обосрался etc или же мне не стоит с этим ебаться и просто вывести какие то формулки для определения нужного расстояния между точками и угла между векторами при этих упражнениях? заранее благодарствую за ответ
ну как конкурировать с такими чедами? > I am a current PhD student in mathematics and computer science, with a focus on machine learning for physics problems. > My masters thesis revolved around physics informed neural networks, and specifically their applications in sub-earth image reconstruction. I used Full Waveform Inversion as a jumping off point. > It's an interesting topic, and relatively new, with further applications in geophysics and earth sciences, as well as medicine. It is a nice blend of computer science, mathematics, and earth science.
>>2313852 Технически действительно, а еще есть варианты? Он мне совсем не нравится в последнее время. Может есть какой то репозиторий у яндекса или сбера.
>>2313861 Так в промпте сейчас тоже нейронка наверняка. Но я все же в первую очередь хотел узнать про опенсорс. В конце концов ai-шники обожают сразу все вбрасывать, там тебе и генераторы картиночек и распознавание лиц/поз на видео.
>>2313600 Лол. Как-то моих коллег по работе внесли в список stuff на сайте одного британского вуза. Я аж охуел от того, с какими крутыми спецами я работаю, ощутил себя ничтожеством просто.
>>2314488 штука для дизайнеров и верстаков. там рисуются дизайны, а потом на раз-два выгружаются в html (ну ладно, ненастолько просто, но всё равно просто)
>>2315783 обучи линейный классификатор и посмотри roc auc. Если полностью неразделимы, он будет 0.5, если полностью разделимы - 1, можно использовать как меру смешанности, чем больше, тем лучше разделимы.
объясните термин leverage, например: ... GCNs leverage the structural information of the graphs to aggregate information from the previous layer... типа настраивает или подбирает гиперпараметры или как это понять?
>>2286452 (OP) Пиздец, каким же говном себя чувствую. Все годы пока учился в вузе тешил себя что я же вумный маняматик, прогу потихоньку учил, машобчик и так далее. Теперь у меня просто все знакомые, даже те кто только окончили школу и ничего больше, все нашли работу в мухосрани без заебов за 30-50 к, а я как дэбил просто мечтаю устроиться на стажировку за 13 к, но не могу, потому что в этом году единственная компания связанная с мл решила её не проводить.
>>2318055 И что, тебя бы устроила работа оператора станка или бухгалтера? Если бы ты выбрал это, уже бы повесился от разъедающего тебя сожаления об упущенных возможностях. Не иди на компромисс, целься на звезды.
>>2318101 Сам думаю так же. Видимо буду работать за идею и еду, как в бородатые годы, просто потому что нравится все это. Вот только вкатиться бы вообще.
>>2318055 Да надо было нормальное образование выбирать, где есть какое-то содержание, чтобы было domain knowledge, а потом уже учить всякие там эксели, эскюэли, эры и питоны. Навыбирают люди маняматики, а потом не знают ничего.
>>2317998 >европидарах Там хохлики в основном изгаляются в своей шизе, европидарахи просто наивные дурачки которые ведутся на имбецильные тейки "налоги с выигрышей пойдут путину а карточки будет использовать фсб"
а моежет поделиться, как у вас происходит работа с лидами ds? они всегда умнее миддлов-сеньеров сатанистов? или +- тоже самое, но тянут менеджерскую роль?
>>2318055 >мухосрань >вумный математик Был бы вумный по егэ/олимпиадам залетел бы в московский вузик. Во время учебы надо было шуршать местные конторки, ковырять курсы от Яндекса или другой параши, где сертификаты дают или хоть как-то себя показать можно.
>>2320659 > Таких проектов дохуя, но все они на питоне. Есть прокеты на нормальном языке и почему питон так популярен для этих задач. Какие же зумеры...
Nvidia представила технологию моментального превращения 2D-фотографий в 3D-объекты Обучаемая модель Nvidia Instant NeRF требует наличия лишь дюжины статичных фотографий с разных углов, после чего система генерирует 3D-модель сцены, всего за десятки миллисекунд. Система работает даже с несколькими объектами, однако для наилучшего результата требуется минимум движений, иначе объект будет размытым. https://www.youtube.com/watch?v=DJ2hcC1orc4
Но проблема, если хочу в preprocessing_function изменить например часть данных, мне так же надо изменить их категории, но " The function should take one argument: one image (Numpy tensor with rank 3), and should output a Numpy tensor with the same shape".
Остается только менять данные в папке, пересоздавать датафреймы и вручную обновлять эпохи? Можно как-то еще встроить такую функцию, кто знает?
>>2286452 (OP) Я могу нести хуйню, простите дилетанта. Но реально ли "развернуть" нейронку, сделать ее обратную функцию? Есть ли такие устоявшиеся практики?
Допустим, по разным параметрам учим определять возраст, а потом по инпуту возраста смотрим окна этих самых параметров.
>>2324942 Нет Множественное X @ W.T + b = y с активациями очевидно плохо разворачиваются. Градиент с фиксированным входом и выходом посчитать и изменить веса можно.
>>2324942 >Допустим, по разным параметрам учим определять возраст, а потом по инпуту возраста смотрим окна этих самых параметров. Ну если ты сам обучаешь, то естественно ты можешь сразу же по ходу дела составлять таблицу соответствий "выход-мультивход".
>Но реально ли "развернуть" нейронку, сделать ее обратную функцию? С обученной ранее всё сложно. Очевидно, что это не взаимно-однозначное соответствие. Хотя надо формулы вспоминать, а мне лень. Анон, вроде, верно говорит >>2324992.
привет, такой вот нубский вопрос, о улучшении существующей модели допустим натренировали регрессионную модель предсказывать стоимость домов в зависимости от их площади на некоторых тренировочных данных, теперь появляются новые (тренировочные) данные, мы хотим улучшить нашу модель (что бы лучше предсказывала стоимость), получается модель нужно начинать тренировать заново с новыми данными, правильно?
>>2325107 Другие данные могут быть другой природы. Скажем, первый датасет может быть про высотки, а второй - про субурбию какую-нибудь. Если у тебя данные из одной генеральной совокупности, лучше, конечно, склеить оба датасета и оценивать параметры модели заново на всех данных. Это просто навскидку, много может быть нюансов.
Не знаете, в чём может быть проблема? Пытаюсь через Redash использовать Clickhouse. Redash и Clickhouse запущены через Docker, то и другое нормально работает по отдельности. При попытке в редаше создать дата сурс кликхауса, выдает ошибку Connection error to: (тут локал хост и 8123 порт) (ConnectionError).
Привет, подскажите (относительно) залетному какую-нибудь годную книгу для вката. Это не обязательно должен быть какой-то cutting edge, хотелось бы просто получить годную точку входа в машоб. Поминтся, в проституте рекомендовали читать Шолле. Оно норм, или есть что-то более годное?
вакансии в рф я так понимаю - все? на hh их в 2 раза меньше, одс дохлый, indeed вообще окуклился для россии. стоит ли сейчас менять работу или пока сидеть на текущей?
Аноны мне кажется я еблан Пытаюсь написать руками обычный градиентный спуск, но веса будто не оптимизируются а рандомно куда-то бегают, MSE улетает в бесконечность спустя 20-30 шагов спуска Где тут ошибка? Я очень невнимательный
>>2329694 В общем я перебором определил что веса улетают из-за одной из фичей (Pressure). Может кто-нибудь объяснить, почему так происходит? Мейби это регуляризацией фиксится Вот датасет, таргет - температура
>>2329694 Хули у тебя альфа константа? Ты вообще каким шаг этот берешь при инициализации? Из-за этого у тебя метод может улететь в ебеня. Как минимум, шаг должен меняться (но может и не меняться, если он совсем мальнький) при итерациях, попробуй метод наискорейшего спуска. Алсо, ты оптимизируешь квадратичный функционал, здесь хорошо может сработать метод сопряженных градиентов.
>>2329794 >>2329732 спасибо за ответы. Даже с очень маленькой альфой улетало в ебеня, так что проблема не в ней. Видимо реально надо нормировать >здесь хорошо может сработать метод сопряженных градиентов пойду читать что это
>>2329899 Мальнькая альфа - это сколько? У тебя по фичам значения отличаются местами во втором-третьем знаке, там нужна в самом деле маленькая альфа. Алсо, посмотри на модуль градиеная на разных итерациях. Вдруг у тебя там нихуя не гладкая функция и длины градиентов миллиардные. Поэтому шаг должен быть динамическим и зависимым от длин градиентов.
Сап тред. Поясните вкатышу-тугосере что и как. Чем занимается ml-инженер непонятно от слова совсем. Чем конкретно занимается в рядовых задачах. Решал курсы по типу codeacademy, так там достаточно знать пару алгоритмов и фитпредиктнуть в штаны. Как оно ирл, анон?
>>2330214 Не, ну а конкретика есть какая-то? Какие методы, софтина, навыки какие нужны. А то вся эта тема учи матстат и тервер конечно хорошо, но все подряд накой зубрить
У меня все попытки запилить что-то машобное заканчиваются хуйнёй. Никогда ничего норм не работает. Это потому, что я фичи инженерить не умею? Всякие охуенные способы обработки данных не знаю?
Сап же! Знает ли кто-нибудь из вас какое количество часов ну или хотяб примерный объём занимает непосредственно кодинг в программах обучения по робототехнике?
Так, знатоки и эксперты машоба, ввиду эмиграций и санкций, дайте, пожалуйста, примерное представление по этим вопросам: 1. Кто такой джун, мидл, сеньор, лид с точки зрения навыков и опыта? Что примерно надо знать и уметь на каждой из этих позиций? Играет ли здесь роль годы опыта и сколько на каждую позицию надо? Насколько сильно отличаются градации здесь и на западе? 2. На какие деньги джун, мидл, сеньор, лид могут претендовать? Здесь и за бугром? 2000 евро в Европе - это копейки для стажёра? Или всё таки зарплата, на которую как-то можно жить?
>>2331761 >в какой-то момент стал 1.0 и больше не увеличивался формально это не так, тебе просто нужно определить Х-координату, с которой значения Y увеличиваются не больше чем на заданную дельту dY (ее ты определяешь сам, исходя из своей задачи), и уже исходя из нее считаешь
>>2331761 >а потом в какой-то момент стал 1.0 и больше не увеличивался Математически такой точки нет. Сигмоида возрастает монотонно и всегда меньше 1, просто с некоторого момента рост такой слабый, что на графике не виден глазами. Твой вопрос говорит о полном незнании математической базы, иди учись.
Должно быть, он совмещает модель генерации изображений с языковой моделью! Результаты улет. Если его будет возможно файнтюнить то ваще шикарно. Надо только код.
Аноны, пытался запилить алгоритм как на пике, но в моем исполнении он работает очень медленно (к тому же судя по всему неправильно, но речь не об этом). Как его можно оптимизировать? Или он и должен так медленно работать? Если да, то в чем его смысл если он медленее обычного SGD на батчах? Обучение на выборке из ~70к объектов длится около 3 секунд при E=1, то есть там сложность выше O(n).
А подскажите, имеет ли какой-нибудь смысл считать корреляцию между категориальным столбцом (0-1) и количественным? Мне нужно узнать, насколько значение категориального признака зависит от количественного, но я не уверен, что иду в верном направлении и это имеет математический смысл;
>>2332898 Имеет конечно. Вот у тебя признак человека "это мужчина" и количественный признак "рост". И ты увидишь, что таки да, есть разница в средних величинах между этими двумя признаками
нашел такую статью, там говорят, что можно использовать "point biserial correlation", как оно по-русски называется, знает кто? а то на английском есть статья, а соответствующей русской нет.
>>2332947 >Kruskal-Wallis H Test (Or parametric forms such as t-test or ANOVA) Тебе русским языком говорится, что нужно использовать, нет, зачем-то хочешь юзать какую-то экзотику. Проблема не в том, что она не будет работать, а в том, что об этом слышало полтора человека пять лет назад. Юзай более-менее известные методы в данной ситуации, по крайней мере, потом сможешь кому-нибудь рассказать результаты, нормально их интерпретировав.
>>2333036 ты о "дисперсионном анализе"? а что это? я еще с таким не сталкивался. можно несколько ключевых слов, по которым я найду туториалы для чайников как о теории, так и практические примеры на pandas и scipy
Я полный 0 в МЛ, но очень нужно решить эту задачу. За меня решать не прошу, просто подскажите плиз что почитать/посмотреть для понимания как это сделать Тут вроде как линейная регрессия
Есть вопрос к спецам по ML. Спрашиваю на серьезных щах.
Каждая модель имеет на arxiv свою собственную бумагу (paper) с какими-то математическими формулами, на основе которых машобщик кодит pytorch скрипт. Т.е. первая это научное исследование в матане, а второе уже задача для кодеров. Одни китайцы пишут папер, другие потом делают скрипт для трейнинга.
Вопрос! Возможно ли обучить такую модель, которая делает любую модель, основываясь чисто на папере? Чтобы прям преобразовывала любой корректно составленный папер в готовый код, работающий из коробки???
Тогда бы понадобились только те китайцы, которые пишут папер. А вторые освободятся и тоже будут заниматься паперами, соотв. их станет в два раза больше и прогресс в науке, искуственном интеллекте ускорится в два раза! Почему спрашиваю, потому что для DALL-E 2 релизнули бумагу, но не код. Там есть какой-то pytorch проект по пейперу, но хз когда он будет готов. Так бы сразу после пейпера был код, а за ним и модель поспеет. Гляжу на картинки DALL-E 2 и хотет его прямо сейчас.
>>2333182 Чел, если авторы не релизнули код, датасет и обученную модель - 100% в статье что-то не упомянуто, без чего хер ты так же хорошо обучишься. Например, как они вилкой чистили данные, или как они их предобрабатывали, или даже какой они сид выставили.
Привет двач, нужен датасет с русскими названиями всех научных статей за последние 2-3 года, где я могу такое достать? (Сам готов парсить, только умоляю дайте инфу куда копать и где?)
>>2333417 > с русскими названиями всех научных статей или > с названиями всех русских научных статей Предлагаю начать с https://www.elibrary.ru Парсится перебором через журналы, даже парсеры готовые гуглятся, но учитывая что доступ к апи у них платный - могут повставлять пакли в колёса. 200 мс ответ, в ответе по 20 записей. Я бы запустил через тор, пощупал лимиты. За день всю базу у них наскрести можно.
Аноны , нужна помощь, горит лаба по нейроннкам, нужно сделать прогу которая будет вычислять язык , после ввода текста.Тема - single layer neural network. Есть у кого-то какие то доки или примеры подобного?Любая инфа поможет
>>2333593 Человеческий язык в смысле? У тебя есть корпус (база) текстов на разных языках? Дели текст на символы и самые частые слова. Подавай на нейронку вектор процентных отношений символов к длине текста и вектор таких же отношений "слов" к длине текста. Всё
>>2333785 Чел, это очевидно студент, который нихуя не знает про машоб и который им заниматься не собирается, но которому пихнули в расписание "основы машинного обучения и анализа данных", попустись, чего ты ему про частотный анализ, он слов таких не знает.
Аноны, это нормально, что от размера батча зависит качество модели? Я думал, что деление на батчи в SGD нужно для экономии оперативной памяти, но когда реализовал этот алгоритм, у меня получилось, что при малых размерах батча у меня модель начинает угадывать хуже.
>>2333371 Нет это знак того, что у машоба великое будущее! Его внедряют везде и скоро он заменит программироуание. Никто не будет писать программы, все будут только делать мл модели под любые задачи. Искуственный интеллект. Далле, рудалле. Клип, распознавание изображений. И только° Соседи!! Мама пукнула!!!! Ё, ё, ко-ко-ко.
>>2333126 Если совсем просто: 1. Берёшь данные из левой таблицы, чистишь их/заполняешь пропуски. 2. При необходимости нормируешь/избавляешься от выбросов. 3. Делишь данные на обучающую и валидационную выборки. Если данных мало, используешь кросс-валидацию или другие техники. 4. Обучаешь модель, проверяешь точность/полноту/f1-меру. 5. Валидируешь модель, проверяешь точность/полноту/f1-меру. 6. Если всё устраивает, используешь модель на реальных данных/правой таблице.
>>2333593 Скорее всего от тебя требуют умение импортнуть керас. Почитай на medium или towardsdatascience: - краткий туториал по керасу (или чего тебе там рекомендовал препод) - там и пример кода найдёшь - краткое описание, как работать с текстовыми данными (думаю, tf-idf за глаза хватит) - вкратце как устроено машинное обучение: у тебя задача классификации с 3 классами - тебе нужно понимать, что такое вектор признаков, целевая переменная и функция потерь, а ещё что такое обучающая и контрольная выборки и как мерять качество классификации.
> В Сети открылась весьма необычная выставка – сто копий одной и той же картины, «Моны Лизы» Леонардо да Винчи. Однако здесь есть подвох. То, что человеческому глазу кажется сотней одинаковых изображений, система распознавания лица определяет как портреты ста разных знаменитостей.
Был бы я царем, захуячил бы модель на триллионы параметров по пикчам с артстейшна. И CLOOB на триллионы. Генерировать как в dall-e 2. Только ещё пизже сразу в 4к.
Оказывается, опенаи ещё в ноябре открыли доступ к апи гпт3. Разумеется, из расеюшки доступа нет. Как это обойти? Регаться там через прокси и сервисы левых телефонов для подтверждения? Или как? Кто-то пробовал?
Есть тут кто-то знакомый с инфраструктурой RL? Решил забахать кастомное окружение для openAi gym на pygame. Только вот возник вопрос, а как визуализировать работу? Дело в том, что обучать планирую на удаленном серваке, в лучшем случае доступ по ssh есть и jupyter. Вот и вопрос, как отрисованные кадры с игрой получить в реальном времени? Или стоит что-то другое выбрать для создания своего окружения?
>>2335251 Почему это костыльно, если тебе надо прокинуть гуи? Если линукс - линукс то ты можешь через ssh окно иксов форварднуть. Хотя нахуй я вообще что-то пишу это же инфа уровня 5 секунд Гугл открыть
>>2335384 не думаю что у jure время найдется товечать на мои вопросы) думал может тут кто разбирался с этим алгоритмом раз уж этот чел в шапке в другом треде был
>>2335512 Что в нем медленного-то? Матрицы считаются через numpy, а градиенты через torch на GPU. Для inference я бы в прод питон не брал, а для ресерча и обучения моделек он самое оно.
>>2335531 можешь своими словами объяснить что такое inference? недавно столкнулся с этим термином в контексте (примерно): представить узлы графа в виде векторов, если два узла в графе подключены то угол в векторном пространстве между этими векторами будет маленький
В Catboost есть возможность пред обучением указать embedding_features т.е как я понял вектор, который я по факту объединяю в одну фичу и по документации, там дальше происходит сокращение размерности. Вопрос: когда есть смысл это делать? Допустим, в nlp это еще можно понять. А в других задачах. К примеру, если у меня есть датасет, в каждом прецеденте 365 элементов, где каждое измерение говорит, сколько раз в данный день человек подрочил. И я решаю задачу классификации, часто или редко человек дрочит. Что принципиально изменится, если я это объявлю для кэтбуста эмбеддингом?
>>2335531 Ну например парсинг всякого говна, работа с тоннами текстовых файлов, стемминг и прочая нормализация. В лучшем случае либы будут на cython. Но он же вроде максимум x2 к производительности?
Аноны, вот везде где подаю заявки на стажировки есть пунктик где надо указать свои проекты и исследования. И, наверное, там имеются в виду какие-то решенные задачи с каггла. Но я пока не занимался фитпредиктами, потому что хочу весьма основательно изучить теоретическую базу, и для этого сейчас ручками пишу ML-либу на чистом numpy. Так вот вопрос, можно ли это считать моим проектом, или чтоб куда-то взяли все же надо несколько датасетов с каггла порешать?
>>2335584 Это общий термин и означает получение результатов работы обученного классификатора/регрессора на каких-то входных данных, зачастую пользовательских и вот прям сейчас. Если пользователей дохуя, а латенси критична, на это имеет смысл брать кресты вместо питухона. >>2335800 Это все хуйня из-под коня. Препроцессинг на фоне остального настолько незначителен в потребляемых ресурсах, что у тебя один хуй все упрется либо в I/O, либо в GPU. Всем поебать уйдет на него 2 CPU⋅минуты или 5. >>2336084 Некоторые уже даже оттуда успели выкатиться.
>>2335776 > т.е как я понял вектор, который я по факту объединяю в одну фичу и по документации, там дальше происходит сокращение размерности. Ты сам понял, что написал? Я лично не понял.
> Вопрос: когда есть смысл это делать? Всегда, когда у тебя в столбце содержаться эмбединги. Для эмбедингов известно, что они расстояние сохраняют. Этим catboost и будет пользоваться, для получения из эмбединга новых фичей внутри себя. > The first one uses Linear Discriminant Analysis to make a projection to lower dimension space Уменьшает размерность эмбединга и делает координаты проекции как новые фичи. > The second one uses the nearest neighbor search to calculate the number of close-by embeddings in every class. Ближайшие классы как фичи.
> К примеру, если у меня есть датасет, в каждом прецеденте... Тоже не понял, что ты тут пишешь
Сап аноны, подскажите студенту. Есть данные - вектор и лэйбл (пикрелейтед). Задача стоит следующая для одних похожих векторов давать один класс, для других похожих другой. Но как мне обучить сеть так, чтобы векторы не похожие на остальные имели новый лейбл? И если другие новые векторы похожи на новый добавленный лейбл, то давать им этот лейбл?
>>2336215 > Но как мне обучить сеть так, чтобы векторы не похожие на остальные имели новый лейбл Орунах. Найс должно быть вуз, где рассказывают про нейронки раньше кластеризации
Возможна ли такая модель, чтобы генерировать уникальные, полноценные 8 бит игори для NES жанра платформер? (по образцу Mario, Castlevania, Metroid, Contra, Megaman, Чип и Дейл, их всевозможных клонов)
Как будет выглядеть процесс тренировки такой модели? Хватит ли существующих игорей для датасета, или нужно будет его как-то аугментировать?
>>2286452 (OP) Там какой-то китаец делает опенсорс реализацию DALL-E 2 на фреймворке Pytorch и JAX. Назло жадным и промытым повесточкой уёбкам из cuckedAI. Что думаете? Взлетит?
>>2336833 > Возможна ли такая модель Возможна. > Как будет выглядеть процесс тренировки такой модели? Родить ребенка, показать ему эти игры и научить кодить. Как проще пока что хуй знает.
На пикче вся суть вкатывателей в машоб. Малолетние хуилы ничего сложнее симпл димпла не поймут. Они видят дисковый телефон и не могут понять как набирать номер.
>>2336899 >>2336941 Lucidrain спихнул эту задачу на хуёв из дискорд конференции. Типа там есть добровольцы с баблом / железом, а его дело написать код.
> На российском рынке назрел дефицит специалистов в области машинного обучения. > Российские компании не могут найти специалистов в области машинного обучения. Самая сложная ситуация с кадрами у разработчиков AI-систем. По данным HeadHunter, на одну вакансию здесь претендуют не более двух соискателей.
Нужно ебать ЭС сучку дать ей на клыка постукать хуем по ее губам и засадить глубоко в попку после этого трахнуть ее между сисек и начать глубоко ебать ее в ротик после этого выебать в пизду и кончить в анал
>Возможна. >> Как будет выглядеть процесс тренировки такой модели? >Родить ребенка, показать ему эти игры и научить кодить. Как проще пока что хуй знает. Фуууу ! Дуушнииилааааа
>>2337346 > дефицит > не более двух соискателей на одно место эм. дефицит не так выглядит. либо уточняйте, что что-то из себя представляющих соискателей меньше 1 на 1 место
Аноны, объясните пожалуйста как будучи русским в текущей ситуации можно поиграть с GPT-3? Знаю что Openai открыли свободный доступ к нему всем желающим, но русским не дает зарегистрироваться и вообще нужна идентификация по номеру телефона, так что вообще хз обходить. Вроде столько разговоров о нем, а как начал рыть по теме, оказалось, что никто ничего в ру сегменте на этот счет не говорил, интересно почему.
Потестировал, как latent diffusion генерирует лолей в купальниках, или в платьях из латекса. Получается так себе. Лучше чем ruDALL-E, но хуже чем хочется.
Надо открытый релиз DALL-E 2 + сделать finetune чтобы убрать цензуру. Для GLIDE уже делали такой. Хотет AI чтобы делать пикчи как у DALL-E 2 и без цензуры! OpenAI-сойбои объявили, что в публичной версии вообще будет невозможно генерировать людей. Я хочу красивые, художественные изображения людей! И причем именно лолей, как в купальниках, так и, кхм, без купальников. Воть
>>2337197 >Обычно вываливается код в юпитер ноутбук, как хрючево свиньям в корыто Это делает опущенная матанопетушня. Уважаемые мл инженеры умеют нормально структурировать свои проекты.
>>2337944 Я самоучка, забивший хуй на универ (не в том смысле, что бросил, а что даже не подавал документы). Теорвер и статистику изучал по MIT'овским лекциям на ютубе. >>2336125-кун
>>2338023 Да как и все: пошел на собеседование, прошел, получил оффер. Только первая работа никак была не связана с МЛ - сперва был байтодроч. Потом были распределенные системы. И вот потом уже МЛ.
>>2338399 Линейку и анализ знать много ума не надо. Статы изучал наживую. Входил в процесс в течение многих лет, меняя компании и команды. Каждый шаг был все ближе к МЛ. В один прекрасный момент я осознал, что я, оказывается, дата-саентист, ебать.
>>2340456 У него в презентациях были слайды "о себе". В какой-то момент его попросили убирать эти слайды из презы, но после этого слушатели начали просить рассказать о себе
>>2340608 да никто, лол. Пиздабольство повышает узнаваемость у работодателей, но не научный авторитет.
Но по общим вопросам может высказаться каждый, вот и создается впечатление, что отклик от таких роликов значительный. А по частным вопросам МЛ , статистики и математики, мнение есть у малого числа людей.
Аноны как сделать свою модель для tensorflow.js? На ютубе одна хрень, в гугле то же самое. Дельного ничего нет, у людей с видео нейронные сети на питоне работают, а надо в окне браузера. Или статьи где пишут простейшую нейронную сеть а весы используют от уже имеющейся что тоже не подходит. Где искать?
>>2341836 там ничего не понятно, как и на видео чертовых в ютубе где все делают на питоне на камеру определение изображений или используя coco-scc, свои модели пишут на питоне опять же. И в итоге нейросети у них на питоне.
Now the suns gone to hell And the moons riding high. Let me bid you farewell Every man has to die. But it's written in the starlight And every line on your palm. Were fools to make war On our brothers in arms.
Решаю задачу классификации и у меня есть множество признаков типа: играет в игры: никогда/редко/часто курит: никогда/редко/часто ест фастфуд: никогда/редко/часто И таких у меня за сотню. Прочитал, что для улучшения модели можно использовать эмбеддинги на категориальных данных. Если это так, то каким образом эти эмбеддинги получить?
>>2342316 >эмбеддинги на категориальных данных. и давай ссылку на что ты там прочитал. Возможно, я неправильно этот термин понимаю или, что вероятнее, какой-то вкатун, косноязычный знаток англюсика, неправильно прочитал и написал неправильную статью в Телеграм
Как я понял, это позволяет уловить общее в множестве признаков и сделать акцент, к примеру, на моих данных, что у человека много вредных привычек или наоборот полезных. А без эмбеддингов ML алгоритмы это не поймут.
Что из веба желательно знать DS? Ковыряю Flask пока из любопытства, ну и с прицелом использовать когда-нибудь в работе, но не пониманию насколько глубоко стоит погружаться. Вот, допустим, в некоторых конторах, особенно из сферы DS-консалтинга, ML-модели заворачивают как веб-сервис. Неясно, насколько глубоко желательно в таком случае шарить ML-инженеру \ DS, особенно если есть бекендер, который за такое отвечает. Работа DS у меня есть, на текущем месте с этим не сталкиваюсь вообще, учу с прицелом на работу в других компаниях.
>>2342543 >Да не то, чтобы не срослось. ну и не гандон ли ты, загружать людей проблемами которых еще нет?
вот вся суть этого треда (помимо полного офтопа) - рандомное использование случайных методов, о которых где-то прочитали, потому что из ящика для тряски ничего не выпало.
А подумать о том, в этот ящик информации путевой не положили и вообще в проблеме нет никаких осмысленных данных, не можем.
>>2342347 > ембединги - это отпечаток твоих данных, но на других общечеловеческих данных, которые обучили до тебя Это отображение данных в н-мерный вектор с помощью отдельной модели
> скачать Для кастомных данных у тебя нет готовых ебмедингов
>>2342928 Ну ты вопрос по-глупому задаешь. Никто не дрочит модели целыми днями. Приличная часть работы - это, например, созвоны со всеми заинтересованными сторонами, чтобы узнать про проблему, разобраться с данными, с задачей, "продать" проект продактам, руководству и другим заинтересованным сторонам, потому что если ты их не убедишь, что твой проект оправдан - его и прикрыть могут. Модели сильно дрочить смысла нету, фича инжиниринг приносит гораздо больше выхлопа при работе с табличными данными, поэтому основная часть экспериментов связана с преобразованием данных, а не типом модели и гиперпараметрами, поэтому в SQL я не меньше времени провожу, чем в питоньем коде. Иногда презентации в поверпоинте делаю неделями вообще не касаясь кода. Пропорции между всем этим зависят от стадии жизненного цикла конкретного проекта.
Привет, Аноны. Имею ближайшие 9 месяцев условно-свободного времени, в которые могу посвятить учёбе в ИТ. Из всего что я увидел мне больше всего понравился этот ваш дата саенс, потому идея работы со статистикой и обучения всяких этих ваших нейроночек для меня выглядит сильно симпатичнее чем другие профессии в ИТ. Нелохо шарю за математику, хотя и надо будет освежить. Свободно владею англом, учится планирую по литературе на нем же. Прошел пару крупных курсов на питоне, решаю задачки на codewars. Собственно в чем вопросы, если ответите мне на них буду вам благодарен.
1. Могу ли я рассчитывать найти первую работу удаленно (переезд из моей мусохрани нежелателен, хотя и не невозможен) или это маняфантазии и стажера или джуна удаленно не возьмут? 2. Какие проекты могли бы заинтересовать работодателей? Просто кроме всяких соревнований на kaggle ничего в голову и не приходит. 3. Насколько усложнился выход на глобальный рынок после 24 февраля? Можно ли по-прежнему зарабатывать в валюте сидя в РФ? 4. А как вообще выглядит рутинный день джуна-датасаентиста или мл-инженера (да, сори анон, я плохо представляю разницу)? Может я себе тут напридумывал с три короба после просмотра мотивационных видео на ютубе, а это душное говно и я через пол года выйду в окно. 5. Можешь ли ты, анон, посоветовать или видео или статьи или книгу где с нуля, пошагово в реальном времени реализовывался некий проект?
>>2344649 Что тебе мешает загуглить ответы на каждый из 5 вопросов? Манямир у тебя нереальный впрочем (даже просто по айти), отвечать серьёзно даже не хочется
>>2344709 >Что тебе мешает загуглить ответы на каждый из 5 вопросов? Ничего не мешает, я так и сделал, ответы меня не удовлетворили. >отвечать серьёзно даже не хочется ок
>>2344649 >это маняфантазии и стажера или джуна удаленно не возьмут This. Ты ещё вкатись попробуй. И раньше джуно-стажёровакансий было мало, а теперь так вообще нет. Всем помидоров подавай. >Какие проекты могли бы заинтересовать работодателей Зависит от работодателя. Кто с nlp работает - тому nlp проекты, кто с cv, тому cv проекты и т.д. >Просто кроме всяких соревнований на kaggle Рейтинги и призовые места с Каггла тоже идут в зачёт. >Насколько усложнился выход на глобальный рынок после 24 февраля? Ещё раз, джуны нахуй никому не нужны, ни тут, ни тем более там. Там своих вкатышей хватает. А после 24 февраля всё сильно усложнилось. Единственный шанс для новичка вкатиться в МЛ за бугром - поступить в магистратуру или аспирантуру лабы, которая занимается МЛ. На это уйдёт время и деньги. Если готов - дерзай. Но денег в науке получать много не будешь. >А как вообще выглядит рутинный день джуна-датасаентиста или мл-инженера Дают задачу, ты с ней пердолишься целый день, насилуя вопросами гугол и своих наставников. Задачи бывают разные, от фича инжиниринга до ковыряния легаси и настройки докера. >где с нуля Ты сначала стань не нулём. Ознакомься с терминами и подходами. А потом будешь делать проект. Местные пидарасы даже шапку проебали. Вот старая, может поможет:
Очередной тред про хипстерские технологии, которые не работают
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu/ (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему такой фокус на нейронки? Потому что остальные чистят вилкой данные в банках с помощью LGBTboost и им некогда предлагать обновления в шапку
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет
Что почитать для вкатывания? http://www.deeplearningbook.org/ Николенко "Глубокое обучение" — на русском, есть примеры, но меньше охват материала Франсуа Шолле — Глубокое обучение на Python https://d2l.ai/index.html Все книги и статьи фактически устаревают за год.
Где набрать первый самостоятельный опыт? https://www.kaggle.com/ | http://mltrainings.ru/ Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai/
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей: Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: http://libgen.io/
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
>>2344649 до "невойны" были хорошие шансы, всякие ВТБ и сберы пылесосили буквально весь рынок кто мог строчку написать import tensorflow as tf сейчас не реал, пыня буквально просрал всё IT, включая мащоб и еще даже не остановился
>>2345173 Большое спасибо за развернутый ответ, Анончик, ты мне очень помог. >>2345717 >>2345372 Дермово, аноны, а в чем именно выражается нереал? Упал спрос на ит-специалистов? А падение спроса не уравновесится свалившими за бугор? Я регулярно мониторю хх, и не заметил радикального падения кол-ва вакансии по дате/мл. Даже встречаются те, которые просто стажеров с базовым знанием мл набирают и даже по удаленке.
>>2345727 > а в чем именно выражается нереал В том, что значительная часть отечественного IT так или иначе работала с иностранными компаниями. После известных событий эти компании стали отказываться от сотрудничества, потому что непонятно как переводить деньги, потому что репутационные издержки. А сотрудников либо перевозят за бугор - Россия теряет специалистов, рабочие места и налоги, либо увольняют - иными словами при сокращающихся вакансиях вам, вкатунам, приходится конкурировать с опытными специалистами. Предпочтение работодатель окажет, разумеется, не вам. Судя по hh вакансии сократились за эти месяцы чуть ли не на половину. Добавь сюда ещё нестабильный курс рубля, невозможность купить что-то за бугром, невозможность выехать в большую часть стран европы, ограничения по интернету с потенциальным перерубанием самого интернета, рост цен, запреты всяких интелов, амд и прочих контор на продажу своего железа и оборудования, ещё больше цензуры и как вишенка на торте - государство, обратившее свой пятак на ИТ (чем-то хорошим это вряд ли обернется, потому что всякие мишустины нихуя не понимают - догнать и перегнать тут не работает). >Даже встречаются те, которые просто стажеров с базовым знанием мл набирают и даже по удаленке. Что-то жирно. Удаленка подразумевает какую-никакую самодисциплину и знания с навыками, позволяющие решать задачи. А стажер - тупой валенок, который ничего не понимает, не умеет и непонятно как себя проявит. По-хорошему, он должен сидеть в офисе и работать под чутким вниманием наставника, чтобы не наломать дров, а не на удаленке, где его никто не контролирует. Резюмируя - если ты хочешь любыми силами вкатиться, у тебя путь: - либо через ВУЗы - отечественные (МФТИ, ИТМО, КазГУ, НГУ и т.д.) или буржуйские, где есть лабы работающие с DS/ML. Денег, как отмечено выше, много не будет. Но ради знаний и опыта можешь поработать и за еду (если ситуация позволяет). - либо через малочисленные стажерские позиции у какого-нибудь Сбербанка, Втб и прочих подобных государственных или около-государственных контор. Но часть их под санкциями, и строчка в резюме про работу в них скорее будет в минус, если ты планируешь уехать в перспективе. На твое счастье, сейчас - почти май, и под конец учебного года как раз открываются стажерские позиции. Может и тебе повезёт. >>2345771 >Кстати, чо там у хохлов? Съеби отсюда со своими хохлами.
>>2345828 Спасибо за исчерпывающий ответ, анон. Как ты считаешь ИТ уже нащупало дно, можешь ли наметится положительная динамика в ближайшей перспективе (год-два)? Ну там внутренний рынок больше осваиться будет, с китайцами работать начнем? >Что-то жирно. Хотел кинуть тебе ссылку на эту вакансию, но не нашел её, походу уже закрыли. Да, видимо конкуренция среди вкатунов вроде меня и правда ебовейшая. >На твое счастье, сейчас - почти май, и под конец учебного года как раз открываются стажерские позиции. К сожалению я в ближайшие 9 месяцев никуда устроится не могу по определенным причинам. Поэтому я сейчас и думаю, на что тратить время, на как мне кажется более перспективное ИТ, или более реалистичное машиностроение и идти в родное КБ ( у них неирочнично сейчас все заебись, поперло импортозамешение и заказов вал просто, с поставками проблем нет, или китай или европка по серым схемам а то и просто белым).
>>2286452 (OP) Какой алгоритм кластеризации выбрать, если у меня есть заранее определенное количество и размер групп? Если точнее, то кластеровать надо вершины простого графа.
Не знаю, где лучше это спрашивать, CS треда сходу найти не вышло. Но это вроде и вполне ваша тема.
>>2345920 >Как ты считаешь ИТ уже нащупало дно, можешь ли наметится положительная динамика в ближайшей перспективе (год-два)? Пока идут боевые действия, и пока из-за них вводятся одни санкции за другими, ничего не понятно. Думали, что достигли дна, но снизу постучали. (с) >Ну там внутренний рынок больше осваиться будет, А есть, что осваивать? В РФ ML применяют либо ритейлеры, либо банки, плюс небольшие лабы при ВУЗах или НИИ. Биотех - на западе, робототех - на западе, nvidia с компьютерным зрением - на западе. Многое что на западе. Наука и технологии развиваются сообща, а не окукливаясь в подобие кндр. Поэтому такими темпами если ML и будет представлен в РФ, то в очень ограниченном и архаичном виде. > с китайцами работать начнем Откуда такой дроч на Китай? Китай РФ не друг. Китай - националистическая и прагматичная страна. Она скорее из России всё ценное вывезет по дешёвке - специалистов и оставшиеся технологии, чтобы устранить конкурента. А потом заселит всё китайцами. А если так хочешь работать с китайцами - ну вот есть Huawei. Почитай в интернете, как работается в китайской компании с китайским менеджментом. >Поэтому я сейчас и думаю, на что тратить время, на как мне кажется более перспективное ИТ, или более реалистичное машиностроение и идти в родное КБ ( у них неирочнично сейчас все заебись, поперло импортозамешение и заказов вал просто, с поставками проблем нет, или китай или европка по серым схемам а то и просто белым). Тебе никто не мешает идти в КБ (инб4 Красное и Белое), чтобы заработать на поесть, параллельно подтягивая ИТ. Теоретически, на производстве тоже можно сделать DS. Другое дело, что это никому не нужно, зачастую, да и специалистов не так, чтобы много для такого. В любом случае смотри вакансии, в том числе стажёрские и джуновские, смотри требования по технологиям, языкам и прочим инструментам. И учи их. Найди какого-нибудь энтузиаста на том же Каггле - вместе задачки будете решать и прокачиваться.
>>2346606 >Поэтому такими темпами если ML и будет представлен в РФ, то в очень ограниченном и архаичном виде. Я не нахожу изъянов в твоих рассуждениях, анон. >А потом заселит всё китайцами. Ну это конечно ерунда, у них самых полно необитаемых пердей, зачем им те, что еще севернее? Назачем. >А если так хочешь работать с китайцами - ну вот есть Huawei. Почитай в интернете, как работается в китайской компании с китайским менеджментом. Я собственно работал в конторе, которая плотно работала с китайцами. Никаких проблем с ними не было, контрагент как контрагент. >Тебе никто не мешает идти в КБ (инб4 Красное и Белое), чтобы заработать на поесть, параллельно подтягивая ИТ. Теоретически, на производстве тоже можно сделать DS. Да анон, так скорее всего и поступлю. В любом случае спасибо за тебе ответы.
>>2346738 >Ну это конечно ерунда, у них самых полно необитаемых пердей, зачем им те, что еще севернее? Назачем. Китаетяны не спешат давать китаекунам. Китаекуны вскоре поедут в Россию за мохнатым золотом.
Аноны, дочитываю потихоньку учебник ШАДа по классическому ML. Теорию я хорошо перевариваю, изученные алгоритмы пишу своими ручками. Но вот вопрос - как решать ебучий каггл? С чего начинать? Вот я изучил, что такое логистическая регрессия, градиентый спуск, регуляризация. Иду на каггл решать титаник - 0.76 score. Ну, думаю, наверное я плохо оптимизировал алгоритм, импортирую логистическую регрессию из sklearn - 0.77 score. Получается, алгоритм у меня верный, результат я немного смог поднять поиграв с гиперпараметрами и добавив новые фичи, но что делать дальше? Откуда у людей там результат 1.00 ??? Это нормально, что у меня такие хуевые результаты на казалось бы легком датасете? Или бить тревогу по поводу того что я затупок?
>>2347362 Каггл отличается от реального DS/ML, как олимпиадное программирование от реального. Как правило в компаниях никто не ебётся месяц, выбивая доли процента лучшего результата. Хотя есть исключения. >Откуда у людей там результат 1.00 ??? Угорают по фича-инжинирингу, жадным поискам и прочим заёбам. >Это нормально Это норма.жпг
>>2347599 Да ладно, с чего ты это взял? Я понимаю что есть куча долбоёбов со всяких кал-боксов, но они долбоёбы, им уже ничего не поможет. Неужели толкового самоучку никуда не возьмут?
>>2286452 (OP) Всем привет. Я фронтендер. Но для диплома ( а сейчас УИРСа) попросили разобраться с нейронками и создать программу по распознаванию объектов на фотографии.
Сап. Решил поковырять эти ваши хипстерские технологии. Взял керас, по примеру с гитхаба сделал простенькую модель на lstm слоях, решил предсказать курс куриных анусов на год вперёд. Обучил на данных за позапрошлый год, 80% взял на обучение, остальное на проверку. Получил пик1, вроде всё ок. Сохранил модель, взял данные за год и решил прогнать по ним целиком, получил пик 2. Почему так? В какую сторону копать? Первая нейронка, до этого с даже с питоном дел не имел
>>2348052 Requirement already satisfied ( Хуй знает крч, может ли это быть из-за того что библиотеки не в тех папках по умолчанию закидываются и надо в другие?
>>2343085 >Никто не дрочит модели целыми днями. >созвоны со всеми заинтересованными сторонами >"продать" проект продактам, руководству и другим заинтересованным сторонам >Модели сильно дрочить смысла нету, фича инжиниринг приносит гораздо больше выхлопа >Иногда презентации в поверпоинте делаю неделями вообще не касаясь кода. Почему DS такое унылое говно?
>>2349523 Нет ничего более унылого, чем созвоны со всякими кабанчиками и прочими "гуманитариями" и "продажи" им разного рода бесполезной хуйни. Впрочем, вся суть айтибизнеса в продаже бесполезной хуйни.
>>2352081 >Итт все занимаются этим говном ради заработка Разве смузихлёбы могут заниматься этим не ради заработка? > или кто-то может пояснить аргументированно, как модный сабж продвинул науку? Модный сабж под маркетинговым названием "DS" никак не может продвинуть науку. А соответствующие матметоды продвигают науку уже десятки лет.
>>2353464 Тогда так. К какой науке относятся соответствующие матметоды? Или они сами по себе ею не являются, но их включение в настоящую науку дает буст?
>>2353525 >К какой науке относятся соответствующие матметоды? Статистика и матмоделирование. Это математика, точная наука и непосредственно в неё вклад околонулевой. С другой стороны мл является инструментом для многих естественных наук. Из заметного - AlphaFold с их предсказанием структуры белка.
>>2353464 1) глупо в РФ заниматься наукой, вдвойне глупо заниматься компьюта сайенс. Ты бы еще в Зимбабве наукой занялся. 2) маркетинговое название, которое описывает практическое применение этих матметодов, не продвигает науку. Отлично сказано