Очередной тред про хипстерские технологии, которые не работают.
Я ничего не понимаю, что делать? Вкатывальщики импортят slesarplow as sp по туториалам (хотя сейчас актуальнее pytorch) Толковые качают из репозитория awesome-XXXX на гитхабе проект какого-то китайца, меняют фамилию и получают $10M инвестиций как стартап. Умные смотрят prerequisites на https://see.stanford.edu/Course/CS229 и http://cs231n.stanford.edu/ Остальные сидят ИТТ
Какая математика используется? В основном линейная алгебра, теорвер, матстат, базовый матан и matrix calculus
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет
Что почитать для вкатывания? http://www.deeplearningbook.org/ Николенко "Глубокое обучение" - на русском, есть примеры, но меньше охват материала Франсуа Шолле - Глубокое обучение на Python
Где набрать первый самостоятельный опыт? https://www.kaggle.com/ | http://mltrainings.ru/ Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai/
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/ Заодно в майнкрафт на топовых настройках погоняешь На сентябрь 2020 ждем 30хх серию в магазинах и падение цен на 20xx на авито, /hw/ в помощь
Когда уже изобретут AI и он нас всех поработит? На текущем железе - никогда, тред не об этом
Кто нибудь использовал машоб для трейдинга? Никто не использовал, ты первый такое придумал. Готовь камаз для бабла.
Список дедовских книг для серьёзных людей: Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: http://libgen.io/
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
>>1832597 > Senior Director of Data Science X5 Retail Group > Engineering Manager ML RnD Yandex > Head of AI Lab Facebook > Рандомный зумер вкатывальщик без задач
> знаешь, что такое сигма и перевёрнутая А - джун > знаешь импорт слесарьплов - мидл > знаешь больше половины модных баззвордов - senior pizdabol na dvache
Есть тут аспиранты ВШЭ которые машинкой занимаются? Какую лабу/подразделение посоветуете? Что скажете насчёт НУЛ Методов машинного обучения в биоинформатике(там где Попцова главная)?
>>1832690 Если прям сильно завидуешь, напиши в лондонскую полицию, что он анаболики через границу везет. Слишком большой для работающего натурала. У него не должно оставаться много времени на качалку... Или он просто пиздаболит целый день, а потом идет на треньку?
>>1832619 → >Бангалорские негры что, вручную подбивали сделали 900 сабмитов, пока не достигли 1.0? Это прямо какой-то особый вид сексуальных девиаций. Не обязательно вручную, можно же вообще сервис краудсорсинговый написать. В каких-то соревнованиях по бинарной классификации без прайвата так и сделали вроде бы.
>>1832827 Да много чего можно придумать, скорее всего всё сложнее было, можно начинать не с нуля а с какого-то бейзслайна разумного например итд Другое дело зачем всё это надо, ты в машинлёрнинг хочешь научиться или рейтинг среди индусов задрочить?
>>1832730 > Слишком большой для работающего натурала. У него не должно оставаться много времени на качалку... У него и на три работы времени не должно было быть и на взятие кэгл мастера. Но такие топ тиер специалисты умеют в тайм менеджент. Шварценеггер успевал в колледж ходить, на стройке работать и в качалке сидеть каждый день.
ML.NET уже хорош, или еще очень юн? Сам шарпист со стажем, нужно вкатиться в ML/DL. Все гайды/туторы на керасе, пайторче и прочей питонщине. Ничего против питона не имею, но просто любопытно что матёрые эйайщики думают о ML.NET?
>>1833105 >новый Плохо ты данные обрабатываешь. Но вообще последнее время какой-то пиздец, у меня весь ютуб вместо привычных TOP 10 EMBARRASSING ANIME SCENES этим чертом завален.
>>1833060 > просто любопытно что матёрые эйайщики думают о ML.NET? 1. С чего ты взял что они тут матёрые? 2. С чего ты взял что совет матёрых практиков будет полезен тебе? Они в своем мире живут. Там нет млнет.
Кто-нибудь уже был на собеседовании на вакансию Дата Саентиста? Есть те, кто не из программистов перекатился в Data Science? Сам сколько занимаюсь этим, все больше понимаю, что вроде бы ничего сложного, но при этом ощущение, что я тупой именно в IT, и что я могу написать работающий алгоритм и обработать данные, но при этом если понадобиться написать какой-нибудь простой скрипт, не связанный непосредственно с данными, то сяду в лужу. Насколько критично? На сколько важно знать SQL и как долго/сложно его учить? Вообще, какая обстановка в таких отделах, например, в банках? Ебут и увольняют сразу если что-то не знаешь или как-то полояльнее? Новая же относительно специальность и по идее почти все в ней новички.
>>1833342 > Есть те, кто не из программистов перекатился в Data Science? > Сам сколько занимаюсь этим, все больше понимаю, что вроде бы ничего сложного, Сколько? Допустим, дадут тебе несложную работу чистить вилкой данные, но как ты будешь понимать конечную цель и процесс, чтобы почистить данные хорошо?
>>1833342 >не из программистов перекатился в Data Science Impossible. Либо на старших курсах идешь стажёром, либо уже опытным программистом перекатываешься на проект с датасаенсом.
>>1833354 >Сколько? С конца прошлого года >Допустим, дадут тебе несложную работу чистить вилкой данные, но как ты будешь понимать конечную цель и процесс, чтобы почистить данные хорошо? Допустим данные уже в формате csv. Сначала я посмотрю их размер, начало, конец, уберу всякую хуйню типа важных пояснений и тд. Затем методом из seaborn посмотрю где пропущенные значения и сколько их. Затем буду их заполнять(в зависимости от того какой признак, либо буду ставить среднее значение, либо моду, либо выведу в отдельный признак-столбец). Затем в принципе буду изучать, что за признаки и скорее всего поудаляю некоторые. Затем буду кодировать категориальные(словесные) признаки. Если значений всего два, то использую LabelEncoder, если больше двух, то OneHotEncoder, чтобы не создавать у алгоритма иллюзию, что это ряд чисел. Затем нормализую все остальные столбцы MinMaxSciler-ом, хотя последнее не всегда нужно. Затем приду и скажу "я сделаль"
Сколько готовы платить джуну в Data science? Ну в Сбербанке там каком-нибудь. Вот они расширяются и набирают еще долбоебов которые чего-то там на корсере прошли и способны чистить вилкой датасеты и отличают случайный лес от нейросети. Сколько будут платить? У кого есть такой опыт? Берут ли только из IT или если ты 30+ долбаеб, который преподавал математику или инженерил на заводе, но прошарился до уровня DS-макаки, то сойдет? Какая ситуация на рынке труда вообще?
>>1833370 >долбоебов которые чего-то там на корсере прошли и способны чистить вилкой датасеты такие сейчас никому не нужны >только из IT да, или топовые студенты норм вузов >30+ долбаеб отлетаешь на скрининге резюме >Какая ситуация на рынке труда Пизда рулю https://habr.com/ru/company/mailru/blog/511104/
>Затем буду их заполнять(в зависимости от того какой признак, либо буду ставить среднее значение, либо моду, либо выведу в отдельный признак-столбец). Так среднее или признак? Это зависит от модели.
> Затем в принципе буду изучать, что за признаки и скорее всего поудаляю некоторые. Какие? Это зависит от модели
>Затем буду кодировать категориальные(словесные) признаки. Если значений всего два, то использую LabelEncoder, если больше двух, то OneHotEncoder, чтобы не создавать у алгоритма иллюзию, что это ряд чисел. Не для этого. Если ты не понимаешь в нейронках, ты не знаешь почему он нужен
> Затем нормализую все остальные столбцы MinMaxSciler-ом, хотя последнее не всегда нужно. А когда нужно? Это зависит от модели .
> Затем приду и скажу "я сделаль" Ничего полезного не сделал.
Я так понял ты пару бесплатных заманух от skillbrain и тд посмотрел.
Да. Датасаентисты всем этим занимаются, но для модели. Осознанно.
>>1833368 Тебе скажут "мда ебать ты дебил канешн", сами сделают import lgbtclassifier и скормят ему csv-файл в две строки, выкинув ненужные признаки. Причем обработка категориальных признаков и пропущенных значений там уже будет лучше чем у тебя. Ну а потом такого гения посадят на месяц размечать данные.
>>1833368 >Если значений всего два, то использую LabelEncoder
LabelEncoder кстати не для обработки входных данных X предназначен, а для y. Если будешь в pipeline его встраивать для обработки X, то будет падать с ошибкой. Для X используют OrdinalEncoder.
>>1833536 >>1833421 >>1833412 >>1833373 >>1833371 Вот живу в мухосрани в миллионике. Работаю инженером-конструктором, самому 32 лвл. Зарплата 45к, мало. С конца прошлого года с перерывами занимаюсь Data Science. Думал, придрочусь немного, возьмут на джуна, и те же сраные 45к будут платить, зато перспектив куда больше. Теперь мне по специальности уже 60к предлагают, может даже на 65к получится. Для нашей мухосрани - ебать успех, однако это же скорее всего и потолок. Но меня гложит, что вот старался, занимался, вроде даже чего-то понимать стал, и уйти на 60к снова инженером - это как бы поражение признать. Да и заебали эти железяки не тянуло к ним никогда. Как Data Sientist я - полная макака, у меня несколько тетрадей с конспектами с корсеры и Леонардыча(Вадим Аббакумов, сам кстати из преподов ушел в Data Sience, хотя ему уже лет 60, но он дохуя математик ). Пишу код обложившись тетрадками и копирую куски кода из своих-же предыдущих работ, на память помню мало, голова на основной работе и так нагружена. Сам освоил numpy, pandas, matplotlib. Могу при помощи keras написать нейросеть прямого распространения. Сидел ковырял датасеты с кагла, пока самое большое, что смог наковырять - это 0,77 на Титанике. В целом математическая база хорошая, разбираюсь, в школе всякие олимпиады там выигрывал и тд. Сижу блять думаю, что делать. В нашей мухосрани есть вакансии от сбербанка. Мне кажется, даже если они меня поговорить пригласят, то прямо в отделе кадров и обоссут. А вдруг нет? Может примерно такого макака-уровня и ждут, их ведь нет толком этих дата саентистов с опытом. Сам не знаю ни SQL этот ваш, ни хадуп. Только питон для анализа данных и более-менее матан. Хуй знает куда повернуть. Хотя объективно никого не заинтересует даже мое резюме.
>>1833589 >Сижу блять думаю, что делать. В нашей мухосрани есть вакансии от сбербанка. Мне кажется, даже если они меня поговорить пригласят, то прямо в отделе кадров и обоссут.
тебе точно 32 года? встал и пошёл на собес! даже если нагнут тебя по полной, то будешь знать, что требуется. потом сможешь прийти к ним через годик. нарисуй красивое резюме, напиши о проектах, сопроводительное сделай. чо как маленький? всю жизнь, что ли, в одном месте проработал?
p.s. хотя наверняка у вас есть уже небольшая группка околостудентоты местной, которая уже давно в теме и занимается всем этим наряду с жирняками-коммерсами, которые пилят DS-решения и толкают тем же заводам. у меня в миллионнике так.
>>1833612 Он же на заводе каком-то работает или подобном болоте. Какой ему сбер. Тем более в мухосрани, лол, что там может быть, какой датасаенс, очнитесь.
>>1833331 Будучи уже профессиональным дотнетчиком, взял тему диплома, основой которого является ML, имея крайне поверхностное знание об оном и о питоне
>>1833332 >1. С чего ты взял что они тут матёрые? Ну не залетать же мне в тред с приветствием здарова пидарасы усосочные вы тут блядь все тут блядь шелуха нахуй блядь расскажите бате как вы на ML.NET дрочите и как он ваш хуетон и в def и в self ебёт
>>1833332 >2. С чего ты взял что совет матёрых практиков будет полезен тебе? Они в своем мире живут. Там нет млнет. Ну ёптыбля мне хоть для диплома осветить что вот выбирая пайторч я еще посмотрел на то это и ML.NET
>>1833373 >30+ долбаеб >отлетаешь на скрининге резюме Зумер, спок. У него математический бекграунд, который в датасаенсе очень ценится. Возраст тоже не проблема. Наоборот, до 25-30 тебя никто серьезно воспринимать не будет и дальше миддла ты по любому не продвинешься.
>>1833891 >инженер конструктор >математический бекграунд, который в датасаенсе очень ценится Лол >до 25-30 тебя никто серьезно воспринимать не будет Дружище... Сначала хотя бы джуном стань
>>1833893 >математический бекграунд, который в датасаенсе очень ценится >инженер конструктор В соседнем треде очередной вкатывальщик не может проверить, делится ли одно число на другое. Так что вполне себе математический.
>>1833373 >такие сейчас никому не нужны Чойта? Макакичи еще как нужны, причем их надо гораздо больше, чем топчик ДСеров-моделеплетов. Пока что их не получается заменить на нейроночки.
>>1833744 > знать Всё априорное знание типа гадания по размеру датасета это фуфло, повторяю. В реальной работе просто пробуют несколько вариантов и смотрят что лучше.
А вот к примеру, есть Табличка из Applied-predictive-modeling-max-kuhn-kjell-johnson.pdf Только этот Макс проебался при печати и нужны пояснения: СZ - centering and scaling NVZ - remove near zero predictors Corr - remove higly correlated predictors
>>1834196 >NVZ - remove near zero predictors Нихуя не понял, пошёл гуглить, и похоже, ты забыл слово Variance. Да и в целом непонятно, зачем удалять признаки с низкой дисперсией, если при этом они позволяют хорошо объяснять зависимую переменную. А если по табличке, то: >линейная регрессия не позволяет n < p Позволяет >Для нейронок нужно NZV и Corr Про сомнительность NZV уже написал, так никто не делает. И он всерьез предлагает препроцессить тот же мнист, где половина признаков не изменяется, а вторая половина жутко скоррелирована?
>>1834311 >зачем удалять признаки с низкой дисперсией Если у них дисперсия близка к нулю, то это почти константа, и оставлять их незачем - их уже моделирует bias term.
>>1834311 > И он всерьез предлагает препроцессить тот же мнист, где половина признаков не изменяется, а вторая половина жутко скоррелирована? ну не надо придираться. Это попытка обобщить
>Table A.1 shows a short summary of several characteristics of the models discussed here. These properties generally hold, but are not always true for every problem.
>>1834196 >Чем плоха? Ничем не плоха, шикарная табличка. Просто в 2020 году если у тебя 1. Нет ограничений на производительность по меркам нулевых годов 2. Не нужна интерпретабельность ты просто берешь как тебе выше написали lgbtclassifier (boosted trees в твоей табличке) и не ебешь мозг - и препроцессинг не нужен, и фичи отбирать не нужно, и к шуму оно устойчиво. Просто молоток, которым можно херачить датасеты, и дальше твоей работой будет чистить их вилкой.
>>1834353 >Если у них дисперсия близка к нулю, то это почти константа, и оставлять их незачем - их уже моделирует bias term. Предсказываем, умрет ли человек в течение года. Признак - есть ли у человек редкая болезнь жопеншмульца, от которой умирают в течение года. Болезнь встречается очень редко, поэтому дисперсия близка к нулю. Каким образом bias term будет моделировать этот признак?
>>1834368 Если у тебя хорошие априорные знания о распределении параметров модели (например, если ты точно знаешь, из функции какого вида надерганы данные), то у тебя в случае n < p всё не так уж плохо.
Сразу оговорюсь, я тут новичок. Закончил недавно курсы по DA на Яндексе. Теперь ищу работу в ДС2 - аналитиком или продактом. Хотя бы стажёром для начала. Знания после курсов конечно стремительно выветриваются из головы, поэтому нужна практика, новое что-то. Вот посоветуйте, чем проникаться, как и где лучше всего искать вакансии? Имею вышку (мухосранский государственный, дневное, очное) программиста, но кодить за 14 лет уже разучился (хотя основы конечно же знаю и помню), да и вуз в то время ничего практически ценного не давал, и даже скорее отбил желание углубляться в программирование. Поэтому около 15 лет работал сисадмином (больше виндовым), сейчас админство порядком подзаебало + последняя контора обанкротилась, а таких денег, как в ней, мне не светит (около 100 на руки).
В общем, сейчас нуждаюсь в неком элементе наставничества, состоящего из ваших советов, лайфхаков, смехуюточек, которые направят меня из состояния прокрастинации к профессиональным подвигам.
Если ошибся тредом, ёбните меня палкой и покажите правильный.
>>1834530 >Каким образом bias term будет моделировать этот признак? Никак, но и загнав в линейную регресиию его дело особо не поправится: из mse следует что вес у этого признака получится такой же милипиздрический как и bias.
>>1834551 >ну, во-первых, это не нулевые годы, а 2013. Эта толстая книга - некоторый итог машоба нулевых. Нулевые здесь как эпоха скорее, эпоха медленных компьютеров и еще более медленного эмбеддинг-железа. А потом появилась цифровизация всего и теперь даже у кабанчика среднего пошиба бизнес генерит довольно большие датасеты бесплатно. Соответственно подход изменился. Вообще исторический тренд понятен - в машобе всегда побеждают универсальные алгоритмы, пусть даже в ущерб производительности и точности. Потому что со временем датасеты растут, железо ускоряется, и в итоге все эти маня-оптимизации типа сделать-PCA-перед-обучением проигрывают тупым лобовым методам. Скорее всего в двадцатые нейросети-трансформеры или их потомки съедят нахуй вообще. >во-вторых, что мы теряем в этом вашем ЛБГТ? Я написал, что - интерпретируемость и перформанс. Но сейчас это вообще не проблема. Знать, конечно, надо все методы, чтобы не быть батхертом.
>>1834541 > из mse следует что вес у этого признака получится такой же милипиздрический как и bias. Падажжи, но ведь если фичу поделить на ее дисперсию, то подобной хуйни уже не будет. Они там реально не скейлят свои фичи?
>>1834758 ну погоди. Эт же книга меня учит, что No Free Lunch Theorem. Причем, теорема строго доказанная. Она начинается с этого утверждения и смысл книги в этом.
>>1834758 >Знать, конечно, надо все методы, чтобы не быть батхертом. блядь, спасити. Я больше не могу.... эта хуйня слишком объемная. Я лучше в дивопсы перекачусь.
Чего ты там повторил? Использовал готовую модель чтобы превратить картинку в эмбеддинг и найти похожие при помощи тривиальной метрики? Это делается ровно в столько же строчек на питоне, сколько у тебя элементов в кликере.
>>1834870 >Ни строчки бойлерплейт-кода не написано. Бойлерплейт это не самое большое зло.
Вот попросят тебя выкатить проект в прод, а у тебя либо не получается воспроизвести результаты, либо что-то работает не так как в кликере. Что делать будешь?
>>1834886 Это у тебя там таска. А я свободный исследователь.
Прочитал статью, что небольшие изменения в фото сбивают с толку классификатор при достаточно большом наборе и решил убедиться,что все именно так и работает.
>>1834899 >Это у тебя там таска. А я свободный исследователь. Даже если нет барина, то планировать работу при помощи тасков все равно нужно - для себя.
>>1834919 Выплатят, конечно, зря я в штате что ли числюсь? И если мне закажут 1001-й клон tower defense, я его реализую, это все равно пахнет лучше гребли на госконтору. Впрочем, если ты называешь заказчика барином, то выводы о твоем холопскои мышлении гапрашиваются сами собой.
>>1834798 >ну погоди. Эт же книга меня учит, что No Free Lunch Theorem. >Причем, теорема строго доказанная. Она говорит о том, что для любого алгоритма можно сконструировать искусственный датасет, на котором он соснет, а другой алгоритм соснет меньше. Практических выводов эта хуйня не несет, потому что 1. Датасеты не искусственные, они естественные. Под искусственным понимается какая-нибудь рандомная хуйня с рандомными лейблами. В реальности же господь бог дал нам вселенную, в которой все красиво и упорядоченно, даже график продаж хлеба в пятерочке 2. Она сфокусирована на машиночасах, а не человекочасах. Между двумя алгоритмами, один из которых требует больше человекочасов, а второй больше машиночасов - второй со временем становится всегда более предпочтительным из-за технического прогресса.
>>1835070 > Датасеты не искусственные, они естественные. Под искусственным понимается какая-нибудь рандомная хуйня с рандомными лейблами. В реальности же господь бог дал нам вселенную, в которой все красиво и упорядоченно, даже график продаж хлеба в пятерочке Да и действительно. Спасибо боженьке за то, что не существует некорректнопоставленных задач, а то что бы мы делали.
Господа, требуется ваша помощь. Хочу попробовать решить имеющуюся задачу с помощью нейросетей. Имеется ~100 тысяч пар вида "вход - правильный выход", соответственно требуется построить некую сеть, которая, будучи обученной на этом наборе, будет выдавать приемлемые результаты для новых входных данных.
Облако я куплю (если нужно, без проблем), с программированием всё в порядке. Но: 1. Я не планирую вкатываться в тему глубоко, читать тысячи книг и всё прочее. Мне нужно попробовать решить конкретную задачу. Если не выйдет - ну и фиг с ним. Соответственно мне нужно что-то, во что я смогу вкатиться максимально быстро. 2. У меня нет никакого опыта в этом вообще, не знаю даже, с какой стороны подойти к вопросу.
Кроме того, по первой же ссылке из гугла (на хабре) я прочитал, что "многослойный перцептрон", который вроде бы подходит под мои входные данные - не подходит для серьёзной работы.
В итоге созрело два вопроса: 1. Что мне взять с учётом имеющейся задачи и того, что ресурсы будут? 2. Есть ли туториалы, фокусирующиеся на практике, с которыми можно работать, имея знания программиста, без изучения сотен теоретической информации?
>>1835113 Я так понимаю, что это визуальная среда? Удобно, если можно гуй запускать на одной машине, а считать на другой. У меня как раз сейчас простаивает физический хост с 32c/64t и 256 гигов оперативы, я хотел начать с него, а облако докупать уже при необходимости.
>>1835124 Вход - звуковой файл, выход - переменное количество временных позиций в этом файле (в виде количества миллисекунд, прошедших с начала). Вообще я планировал разбить каждый звуковой файл на части (по частоте дискретизации), каждую часть пропустить через DFT, и полученные данные просто последовательно сдампить в бинарный файл, и этот файл уже использовать как вход. Не знаю, оправданно ли это в данном случае. Просто есть некоторый опыт программирования звука, и чисто эмпирически кажется, что так будет правильнее.
>>1835139 >Я так понимаю, что это визуальная среда? Удобно, если можно гуй запускать на одной машине, а считать на другой. У меня как раз сейчас простаивает физический хост с 32c/64t и 256 гигов оперативы, я хотел начать с него, а облако докупать уже при необходимости.
Так ты не пытайся натянуть возможности на задачу, а решай задачу. Сооруди прототип в Orange, а там видно будет. Среда в основном однопоточная, только лишь тестирование нескольких моделей параллельное.
>я прочитал, что "многослойный перцептрон", который вроде бы подходит под мои входные данные - не подходит для серьёзной работы. Вообще охуеть. Данные не изучал, на Хабре прочитал.
>>1835139 эх, но вообще в Orange есть специальный набор виджетов для звука, но это побочный проект, они не включены в дистрибутив и не работают. Вряд ли ты его починишь так с разбегу. Однако можешь украсть в этом коде выделение features (то, чем ты занимаешься планируя обработку)
И для рекуррентных нейронок нет вообще ничего. Только если ты действительно все признаки предобработаешь как описываешь. При таком уровне заебанности, встает вопрос имеет ли смысл разбираться в Orange. Это не быстрая победа. Но нейронку оно тебе слепит, конечно. Заодно попробуешь как на твой задаче классические алгоритмы работают.
>>1835139 >Вход - звуковой файл, выход - переменное количество временных позиций в этом файле (в виде количества миллисекунд, прошедших с начала). Это не будет работать, нейронки крайне хуево считают количества чего-либо. Тебе нужно поменять выход на набор векторов типа 00000100000010000100001 где 0 и 1 - это флоаты, 1 соответствует позиции в wav файле, которая соответствует нужному событию (если есть много разных типов событий, каждому должна соответствовать своя "выходная вавка"). То есть датасет должен выглядеть так: input [звук звук звук звук звук звук звук звук] event1 [0000000000100000000000000000000000] event2 [0001000000000000001000000001000000] Либо, если эвент протяженный по времени (что практически всегда правда и так будет лучше обучаться) event3 [0000000000111111000000000011110000]
Затем ты эти эвенты склеиваешь в один многомерный тензор с шейпом [число примеров; длительность вавки; число событий] После этого ты уже внешними по отношению к сетке методами соберешь, на какой миллилсекунде были единицы.
Бери https://github.com/f90/Wave-U-Net , сначала разберись с тем, как запустить тренировку их задачи, затем разберись с форматом датасета, адаптируй свои данные под этот датасет (лучше входные данные всячески попортить-пофильтровать, чтобы условные сто мегабайт превратить в пару гигабайт) и вперед. Обрати внимание на такой параметр, как receptive field у сетки, потому что если у тебя выходной пиксель не будет иметь достаточно информации на входе, он решение принять не сможет, сколько бы ты ни старался. Receptive field зависит от filter width в каждом слое.
>разбить каждый звуковой файл на части (по частоте дискретизации), каждую часть пропустить через DFT Ты изобретаешь STFT, ознакомься с библиотекой librosa Зависит от того, нужна ли тебе фазовая информация о сигнале. В целом, по моей ссылке есть как модели, работающие с сырым звуком, так и со спектрограммами
>>1835141 >>1835146 Спасибо, аноны. Orange я всё-таки возьму и поковыряю, посмотрю, что будет.
>>1835150 > Тебе нужно поменять выход на набор векторов типа > 00000100000010000100001 > где 0 и 1 - это флоаты, 1 соответствует позиции в wav файле, которая соответствует нужному событию (если есть много разных типов событий, каждому должна соответствовать своя "выходная вавка"). То есть датасет должен выглядеть так: > input [звук звук звук звук звук звук звук звук] > event1 [0000000000100000000000000000000000] > event2 [0001000000000000001000000001000000] > Либо, если эвент протяженный по времени (что практически всегда правда и так будет лучше обучаться) > event3 [0000000000111111000000000011110000] Понял, спасибо за подробное разъяснение. Трансформировать выходные данные проблем нет, в любой удобный вид.
> Бери https://github.com/f90/Wave-U-Net , сначала разберись с тем, как запустить тренировку их задачи, затем разберись с форматом датасета, адаптируй свои данные под этот датасет Вот это интересно выглядит, судя по описанию. Значит, буду ставить и пробовать.
> Ты изобретаешь STFT Так и знал, что у этого есть своё название.
Сохранил твой пост, анон! Большое спасибо за подробности.
>>1835191 > У тебя хоть звуки там или поебень в виде звуков? У меня вполне человеческие звуки - музыка всякая и песни.
---
Главное, что я понял - быстро не получится. Ну и ладно, для себя ведь делаю.
Вот скажите. Есть же нейросети, все дела. Почему боты в компах до сих пор тупые? Не берем в рассчет всякие шутаны, где на ботов зачастую похуй. От них не требуется быть дохуя умными. Но вот почему в стратегиях, где это очень важно боты до сих пор тупят . Возьмем 6 циву. Боты на высшем уровне сложности посасывают у +- шарящего человека. Нельзя подрубить нейросети и натренеровать ботов?
>>1835555 >Но вот почему в стратегиях, где это очень важно боты до сих пор тупят Рыночек порешал - зачем что-то делать, когда и так продается? Вдобавок, такая нейросеть будет потреблять ресурсов не меньше, чем сама игра.
>>1835555 >>1835556 >>1835596 >>1835599 Для ботов с которыми интересно играть может и не надо, зато удобно баланс править если будет rl решение из коробки.
> На сегодняшний день существует множество моделей и типов искусственных нейронных сетей, различных по своей структуре и функционалу [2]. Из всего многообразия архитектур особняком стоят сети Хопфилда, которые, наряду с алгоритмом Back Propagation, в 70-х годах возродили интерес в области искусственных нейронных сетей (ИНС) после многолетнего спада. Сети Хопфилда обладают свойством за конечное число тактов переходить из произвольного начального состояния в состояние устойчивого равновесия, называемого аттрактором или точкой равновесия. Точка равновесия соответствует одному из множества первоначально предъявленных сети образов и достигается при предъявлении на входы сети как идеальных, так и зашумленных объектов для распознавания. > > Целью работы является модернизация классической сети Хопфилда для увеличения её производительности на основе информационных свойств воды. > > Материалы и объекты исследования
>>1835609 Гоям пиздец обидно наверно сейчас жить, это шахматы так, лёгкое развлечение, а азиатов профессионалов чуть ли не с двух лет исключительно под игру в го растят.
>>1835608 Ну вот в доте правили баланс, опираясь на про-сцену. В итоге половина героев неиграбельна, потому что при игре со школьниками их потенциал не реализуется. А ты предлагаешь править баланс, опираясь на игроков со сверхчеловеческим уровнем. Да и сколько времени это все обучать придется. Проще взять тестеров (в 2020 - людей, купивших early access) и опираясь на статистику что-то подправлять.
>>1835615 серверы что ли? В них должна пройти любая карта с blower type охладом или даже водянкой. Тут скорее вопрос нужен ли тебе nvlink и объем памяти.
>>1835612 Лол. Читаю первый абзац: ну норм, челик поднял Хопфилда, старо но исследования еще есть, вон недавно было про аттеншн как сеть хопфилда. Второй абзац: х_х
>>1835686 Если 1. У тебя хэдлесс система вообще без мониторов 2. Либо система с монитором но ты хочешь контролировать вентиляторы через nvidia-settings, потому что стандартный драйвер склонен недокручивать обороты и эксплуатировать при 85 градусах (справедливо для бловеров как раз и мульти гпу, с нормальным геймерским охладом все и в стоке хорошо) 3. И у тебя несерверный бомжегпу, что нвидиа не одобряет в серверных решениях
Тебе нужно установить иксы, и в xorg.conf прописать виртуальные мониторы с минимальной герцовкой и разрешением Типа https://gist.github.com/ArrEssJay/0e126a56b0ee9f23551a98fb258414c6 Это съест пару мегабайт видеопамяти, что совершенно некритично. В целом для параллельной тренировки кучи моделей смысла покупать v100 вместо 2080ti или 3080/3090 ноль, за цену одной карты можно взять целый сервер.
Другой вопрос если ты хочешь nvlink между 4 гпу для быстрой тренировки одной модели на куче гпу. Тут уже нужно тратиться на серверные варианты, потому что на консьюмерских картах нвлинк есть максимум между 2 карточками - хотя если это 3090... И в таком формате облака выходят уже не особо и дорогими.
Короче, железо это отдельная специализация, нюансов там много.
>>1835612 А в чём проблема, метод же показал очевидную стабильность в работе сети как в синхронном, так и асинхронном режимах.
Серия экспериментов с чёрно-белыми объектами размером 40×60 пикселей (2,34 кБ), содержащими рисунок папиллярных узоров, показала, что сети типа TWaterNet уверенно запоминают и впоследствии распознают около 450 идеальных или 420 слабо искаженных (до 4 %) объектов, что составляет соответственно 17 % от общего числа нейронов сети, равного 2400.
Заключение
Предложенный способ реализации расчёта коэффициентов сети Хопфилда на основе введения дополнительных связей между нейронами сети по типу связей в молекуле воды на примере распознавания папиллярных рисунков показал очевидную стабильность в работе сети как в синхронном, так и асинхронном режимах. Успешные эксперименты с достаточно простым способом введения дополнительных связей позволяют сделать заключение о целесообразности разработки объектов класса TSnowNet и их дальнейшего исследования.
>>1835762 > расчёта коэффициентов сети Хопфилда на основе введения дополнительных связей между нейронами сети по типу связей в молекуле воды Орнул в голосяндру, чому они гравитационные волны и мю-мезоны еще не приплели?
>>1835918 >сеть Хопфилда Да хоть в дыру Хокинга, молекула воды то при чем в этой ахинеи? Чем другие дипольные молекулы не понравились, не так пафосно звучат?
>>1836011 >идеи информационных свойств воды, впервые описанных в [5] японским исследователем М. Трусонюхом Серьезно бля? И вот эту вот дичь на серьезных щах загоняют трясуны?
>>1836041 >Почитай сначала Думаю нужно в начале читать Коран, без него в машоб никак, ведь на все воля Аллаха. Намаз сделал, ящик трясанул и можно грант пилить.
Анончики, у меня вопрос. Я умею эксель (не VBA, но более-менее хуевертить таблицами и формулами могу), pandas и несколько штук из sklearn. Могу рассказать, как работают деревья. Также проходил курсы по R, но если сейчас посадить за пекарню и сказать «сверстай мне модель», я еще минут 20 буду ковыряться в документации. Знаю, что такое train_test_split и зачем он нужен, пару моделек даже грузил на каггл и закономерно пососал. На днях вот обнаружил catboost, но пока плотно не освоил. Нашел какой-то видос про него, а там писюха из яндекса полтора часа говорит какие-то сложные математические слова. Еще слушал лекции и делал задания по матстату на степике, вроде базу какую-то освоил, уже знаю, в какой фиче надо медиану, а в какой среднее и что такое р-значение. Но я не могу в матан вот прям совсем (заканчивал истфак, на первом курсе с легкостью решал задачки с матрицами, сейчас все забыл) У меня к этому и вопрос — есть ли смысл пока продолжать трясти коробку и подставлять разные параметры, особо не задумываясь, как она работает, осваивая все это по принципу "чтобы код сделал так, напиши вот это"? На каком этапе развития в сфере прогнозирования и машин лернинга мне понадобятся знания матана «на бумаге»?
>>1836184 > Могу рассказать, как работают деревья > На днях вот обнаружил catboost, но пока плотно не освоил. Нашел какой-то видос про него, а там писюха из яндекса полтора часа говорит какие-то сложные математические слова. Противоречия не видишь?
>>1836272 Я же говорю, плотно не освоил. Мне с ним сложнее, чем в деревьями из sklearn, а при попытке изучения все упирается не в энтропию, а в какую-то нех
>>1836184 >На каком этапе развития в сфере прогнозирования и машин лернинга мне понадобятся знания матана «на бумаге»? Матан - это не знания, а навыки. Посмотри любое видео Yannic Kilcher с разбором пейперов - он все время рисует какие-то стрелочки, углы между ними, сопоставляет им формулы и наоборот - это происходит у тебя в голове, когда ты "знаешь матан" на уровне прошедшего курс высшей математики. Записи на бумаге - это просто внешняя память для мозга. Все основное происходит в голове. Естественно, обезьяньи инструкции гуманитариям уровня "чтобы посчитать это - делай так", никакой математикой не являются. Поэтому у вас это из головы и вылетает. Вообще гуманитарное образование в 21 веке - это преступление. Это раньше в кого-то надо было загрузить информацию, как в гугл. Теперь - нет. Когда понадобятся - классе в шестом надо было олимпиадные задачки решать. Можешь попробовать начать с этого.
>Когда понадобятся - классе в шестом надо было олимпиадные задачки решать. Можешь попробовать начать с этого.
Ну я не настолько макака, не способная решить систему уравнений или найти производную. Я просто не понимаю, нахуй все это знать, если хардкодеры уже это запрогали в библиотеки до меня?
>>1836660 >Ну я не настолько макака, не способная решить систему уравнений или найти производную. Так поиск производной по табличке это очень макачья работа. Тут вопрос, можешь ли ты вывести, что (x^2)'=2x? Или что (f+g)'=f'+g'? Вообще, понимаешь ли ты правила, которым тебя как макаку обучили.
>Я просто не понимаю, нахуй все это знать, если хардкодеры уже это запрогали в библиотеки до меня? Ну вот скормил ты датасет коду, в лоссе вылезли NaN'ы. Если ты знаешь математику, ты понимаешь, что NaN - это где-то 0 делится на 0, далее при внимательном просмотре кода находишь в нем tf.sqrt(x) и меняешь это на tf.sqrt(x+1e-9). Код начинает работать. Это просто частный пример. NaN'ы могли вылезти из-за сингулярной матрицы, например, и там рецепт был бы совсем другим. Если же ты не знаешь, ты полежешь на гитхаб за другим кодом - в лучшем случае. Со временем, конечно, появляются утилиты совсем для макак. Но это и отличает - знающие математику всегда будут впереди тебя. Завтра появятся какие-нибудь квантовые нейронки, кто для них будет работать слесарем? Ну явно не ты. То есть на твой вопрос как говорит >>1836667 нет ответа. Я не могу "забыть математику". Ты не можешь ее знать. Я ее учил не потому что мне это пригодится, а потому что это охуенно, это язык современной науки.
>>1836633 >это происходит у тебя в голове, когда ты "знаешь матан" на уровне прошедшего курс высшей математики Нет. Курсы высшей математики дают кучу бесполезных неструктурированных знаний. Чтобы понимать математику для машоба, ее нужно целенаправленно учить, и досконально разбираться в десятках пейперов. Основные трудности будут даже не с математикой, а с языком и аннотациями. Петухи-ресерчеры крайне любят все усложнять, опуская при этом много важных деталей, в том числе и в формулах.
>>1836700 >Завтра появятся какие-нибудь квантовые нейронки, кто для них будет работать слесарем? Ну явно не ты ну и ок. ведь "вкатиться" подразумевает как заработать и делать довольно примитивные, в то же время, передовые для остального ИТ вещи.
>>1836706 >Чтобы понимать математику для машоба, ее нужно целенаправленно учить А чтобы ее учить, нужна база в виде высшей математики, которую дают на первых двух курсах.
>>1836731 > Совместно с коллегами из команды AGI NLP нам удалось собрать первую версию русскоязычного обучающего корпуса суммарным объёмом свыше 600 Гб. В него вошла огромная коллекция русской литературы, снапшоты русской и английской Википедии, коллекция снапшотов новостных и вопрос-ответных сайтов, публичные разделы Pikabu, Странно, что треды с этой помойки не использовали, было бы ещё смешнее.
Диалог между Лениным и Сталиным в 1924 на даче. Ленин: “Ваше предложение о создании в России партии для проведения революции я нахожу неприемлемым, ибо это естли не есть вредная ересь, то есть не есть революционный лозунг. Я считаю, чтоА.Г.Г. не только не может возглавить такую партию, но даже и не способе создать её. Я не могу понять, что Вы хотите сказать этими словами”. Сталин: “Вы прав, Ленин, но я не хочу быть Вас в чём-либо разубеждать, ибо Вы правы”. Ленин: “Это есть ересь, это есть революционный лозунг”. Сталин: “Нисколько. Я не могу понять, что Вы хотите сказать этим. Я не знаю, как В.И. Ленин не может понять, что он не может руководить партией, в которую не входит”»[418 - Цит. по: Бюллетень оппозиции. 1930. № 50. С. 8.].
Сталин не мог понять, что Ленин не может руководить партией, в которую не входит, потому что это есть революционный лозунг, а не революционный лозунг, которыи можно «подобрать» для революции. И потому он не стал разубеждать Ленина в этом, поскольку считал, что это есть ересь, не имеющая никакого отношения к революции.
В конце марта 1922 года, когда на Пленуме ЦК, который проходил в Москве, Троцкины выступили с критикой Ленина, Сталин, выступая в прениях, сказал: «Ленин был непра-вильен в отношении к нашей партии, когда он говорил: “Мы не можем, мы нэ можем, мы боимся”. Это есть ересь, это есть революционный лозунг, и Лениным, конечно, не может быть создана такая партия, которая не могла бы руководить страной. Это ест-ли не есть вредная ересь».
После пленума ЦК Сталин был исключён и из ЦК.
Сталин был не единственным человеком, который в те годы был не согласен с ленинскими идеями. В 1922 году Ленин, выступая на VIII Всероссийском съезде Советов, в частности, сказал: «Мы не можем быть споко-яны до тех пор, пока на свете будет существовать капиталистическое государство. Мы не можем быть споко-яны до тех пор, пока на свете будут существовать угнетатель-ные классы, и пока буде-те существовать классы угнетатель-ные. Поэтому мы должны, мы обязаны, мы должны быть беспоща-ны».
Сталин был согласен с Лениным в том, что «надо, конечно, быть споко-ены», но при этом он считал, что «надо быть и бдительным». «Надо быть бдительным к тем, кто стремится захватить власть, – говорил он, – надо быть бдительным к тем, кто стремится уничтожить нашу власть, и надо быть бдительны к тем, кто хочет нас поработить». «Мы должны быть бдительны к тем, кто хоче-т нас поработить. Надо быть бдительными к тем, кто хочет поработить нашу страну», – говорил Сталин.
Сталин был против создания в России коммунистической партии, которая бы руково-дила страной, но вместе с тем считал, что в такой партии, «конечно, не может быть создано революционное ядро, которое могло бы возглавить такую партию».
Сталин нёс полную ответственность за то, что в стране не сложилась революционная ситуация, которая позволила бы провести в жизнь ленинские идеи. «Это есть ересь, – говорил Сталин, – это есть революционный лозунг». «В этом смысле я с Лениным не согласен», – говори-л он.
После того как в 1924 году Сталин не поддержал идеи Ленина, он быль исключён из партии и исключён из Коминтерна. В 1930 году, выступая в прениях, Сталин сказал: «Это есть ересь, это есть революционный лозунг, и я нэ понимаю, чтоА.Г.Г. не может понять, чтоА.Г.Г. не может понять, что это есть ересь, что это ересь, чтоА.Г.Г. не может понять, чтоА.Г.Г. нэ может понять, чтоА.Г.Г. не может понять, что это есть револ. ек-тивный лозунг».
В конце 1920-х – начале 1930-х годов в СССР было много оппозиционых течений и групп. Среди них была и оппозиция в лице троцкистов.
С конца 1920-х годов троцкисты начали активно выступать с критикой Сталина, но при этом они не стали создавать в стране революционную ситуацию, которая могла бы привести к созданию в России революционной партии, способной возглавить страну.
>>1836845 >сам вывод, а не значение в табличке. Какой вывод? Меня как научили на алгебре в 10 классе производные считать, так я и делал. У нас никаких таблиц с ними не было
Анончики, у меня вопрос. Я умею эксель (не VBA, но более-менее хуевертить таблицами и формулами могу), pandas и несколько штук из sklearn. Могу рассказать, как работают деревья. Также проходил курсы по R, но если сейчас посадить за пекарню и сказать «сверстай мне модель», я еще минут 20 буду ковыряться в документации. Раритетные вещи. А что такое R? Нет, в общих чертах понимаю, что эталон. А о чем он? Да у меня одна на моем курсе вся была в нарукавниках. Я ее не раз просил: «Помоги, мне за тобой весь класс пеку!» Ну не могу я их звать по именам. Для меня это с детства — кафф. Я их назвал R и RR. А теперь они совершенно другие. Pandas — эталон, а Pandas — это про меня. То есть все, что я любл и делаю (смотрел-смотрел) — эталон. Все! Tania — эталон. Я — эталон! ABBA — эталон. Bombardier — эталон. Garruf — эталон. Steal — эталон. Kwik — эталон. А уж про мои саги и подвиги все знают. Просто не с кем так говорить, потому что никталопы в реале все читали.
На днях слышал: «Генри, почему в школе тебя так не любят?». Я им: «Это вы не понимаете. Я не знаю, кафф ли моя специальность. Да это было давно, когда у меня сабжей не было».
6.
11.
Так вот, я могу тебе продемонстрировать... Нет, я не могу тебе показать эталон. Да ты даже нэ знаешь, что он такое. Ну, не ругайся. Видишь, я даже не пытаюс-ся тебя уверить, что мы — одно.
Ну ладно, я тебе покажу. Я буду показывать эталон только тебе. Я покажу тебе максимум из того, что умею. Представь, что я тебе буду показывать твой эталон — как его может показать только один человек на свете. Мы станем общаться на одной странице.
У нас с тобой будет уникальна, сверхъестественная связь. Ты, я и эталон. У нас не будет общих эмоций, эмоций с кем угодно. У нас будет только одна эмоция — эталон.
Я буду показывать твой эталон. А ты будешь показывать эталон мне. Я его вижу пере. Раз. Другой. Третий. Так. Ну-ка, кафф, это что ? Эмпатия. Раз. Два. Три. Эмпатия. Пять. Унифицирована. Один на один эталон с объектом.
Не знаю, это такое, наверно, слово. Уникально.
Что в этом особенного? Мы будем общаться на одном фа. На одном языке. Друг для друга. Понимаешь? Я буду показывать тебе твой эталон. А ты мне свой. А потом я покажу тебе свой.
>Что в этом особенного? Мы будем общаться на одном фа. На одном языке. Друг для друга. Понимаешь? Я буду показывать тебе твой эталон. А ты мне свой. А потом я покажу тебе свой.
>>1836845 лол маняматик пытается самоутвердиться перед школярами-вкатунами выведи-ка мне на лету (f(g(x)))' = f'(g(x))g'(x) используя эпсилон/дельта определение предела
>>1836731 Вот она культурная разница. Вёрджины из open ai: пуууук ну очень реамлистично получаеца пууук это очень опамсно ну мы не будем вымкладывать Сбер чад: Товарищи лахтинцы, держите
>>1836896 Ну реально у опенэайного GPT-3 оно посасывает. Думаю, потому что размер датасета отличается на пару порядков (600 гб, а опенаи насколько я помню было что-то типа 20 тб)
>>1836865 >Какой вывод? Меня как научили на алгебре в 10 классе производные считать, так я и делал. У нас никаких таблиц с ними не было Ну а откуда взялось то, чему тебя научили, из определения производной через предел и применения свойств пределов. В школе и гуманитарных вузах все дается в таком режиме - вот тебе рецепт, примени его, применил? Вот тебе пять, иди нахуй. И по вопросам заметно, что люди так и думают, что математика - это набор рецептов, выучишь их - выучишь математику.
>>1836908 >В школе и гуманитарных вузах все дается в таком режиме - вот тебе рецепт, примени его, применил? Вот тебе пять, иди нахуй.
Нихуя, в школьной геометрии всё заебись - последовательно от аксиом про точку прямую отрезок вся геометрия.
Вот математика переходящая в алгебру там да, но иначе никак - пояснять личинусам арифметику через теорию множеств и введение алгебры операций будет такое себе.
>>1836914 В геометрии - да. Хотя на самом деле в самых-самых основах (например, признаках равенства треугольников) там читерят. >пояснять личинусам арифметику через теорию множеств и введение алгебры операций будет такое себе. Ты слишком хардкорно взял. Вот я о чем: https://www.youtube.com/watch?v=LeWkq6QIioo Вместо объяснения сути процесса просто дают какие-то механические правила по преобразованию символов.
>>1836875 Ну если ты не сможешь этого сделать для элементарных функций, то вообще нахуя ты нужен? Я лучше посажу бумера в кликере нейронки склеивать, он хотя бы за еду работать будет. Ну и вроде очевидно, что речь не про сложные функции, а про понимание того, откуда таблица производных берется.
Вот в оп посте говориться, что вкатунам стоит сначала стать девелоперами. Но что, если я математик? Начать таблички в экселе обезьянить?
С питоном пока играюсь на codewars. Прикольно. Довольно тешит чсв придумывание алгоритмов, работающих в несколько(например в 100) раз быстрее остальных решений.
Проиграл с подливой, причем с того что реально ирл есть женатый знакомый от которого его мясная дырка требует что бы тот синячил только сухое вино и только на донышке, лал.
>>1836965 Ок, я тебя понял. Но и я тоже сделал запрос на альтернативу этому варианту. И даже выдвинул свое предположение. Ну так может ли работа в эксельке(аналитиком?) быть ценным опытом в резюме для более серьезной вакансии? Или это трата времени?
>>1836975 Ныне под словом аналитик подразумевается что угодно - от воротилы экселем на уровне ВПР до ML-спеца и составителя ТЗ для разрабов в софтварных фирмах
>>1836975 Только как вариант попасть в корпорацию и тактически перекатиться. Внутри большой конторы это сделать сильно проще. К машобу это вообще не имеет отношения
Проиграл с подливой, причем с того что реально ирл есть женатый знакомый от которого его мясная дырка требует что бы тот синячил только сухое вино и только на донышке, лал. — Так. А ну ка, иди сюда. Я тебе сейчас кое-что покажy. И он начал доставать из сумки и раскладывать на столе перед нами различные приспособлениы и инструменты. Я, не понимая что происходит, наблюдал за этим и в то же время чувствоваал как у меня все тело начинает чесаться, но я не понимал откуда это. В это времи я обратил вн имание что на всех нас смотрят как на идиотов. — Что такое? — А ты сам посмотри. Я посмотрел на стол и обо что то споткнулся. — Ааааааааааааа! — заорал я, падая с кресла на пол. На столе лежал огромный и острый как нож нож. — Это что за херня? — А ты сам посмотри. — сказал он протягивая мне этот нож. Я встал и посмотрел на стол. И увидел чтож. На столе лежал огромный нож, который был похож на тот, который я видел на улице. — Ну ты как, нормально себя чувствуешь? — спросил меня он. Я посмотрел на него и сказал что нормально. — Это не тот нож. — сказал я. — Как не тот? — удивился он. — А вот так, — сказал я. — Ты же сам мне показал это и я видел его у него на руке, я видел что он с собой в сумке носит. — Ты что? — удивился он. — Да я не брал никакого ножа. Это что за бред? — Нет не бред, — сказал я. — Ты сам посмотри на него. Он же в сумку его не кладет. А ты же саишник. — Я не понимаю о чем ты говоришь. — Я нэ знаю, как тебе объяснить. — сказал я. — Да ты просто посмотри нннна него. — Ну я ннну, смотрю. — Таааак. — Это что? — сказал я. — Это ноу-хау. — ответил он. — Ты хочешь сказать, что у тебя есть это ноу-хау? — спросил я. — Ну ннну. — Ноу-хау? — А ты что думал. — усмехнулся он. — Ты хочешь сказать что ты это ннне ты? — Ну ннну. — Ты что? — Ннну. — Ты понимаешь о чем я говорю? — Конечно. Я же не говорю что это ты. Я говорю что это ноу-хау. — сказал он. — Ты что? — сказал я. — Ты понимаеш, что это ннне ты? — Ну ннну. — Тебя зовут не ты? — Нет нне я. — А ка кто? — спросил я. — Я нннне знаю. — ответи он. — Как это не знаешь? — Ну я не знаю. Я просто это нннне я. — А как это ннннне ты? — спросил я. — Ну ннну, как не знаю? — спросил он. — Ты что не понимаешь о чем я говорю? — спросил я. — Нет ннне понимаю. — сказал он. — Ты понимаешь, что ты говоришь? — спросил я. — Ты понимаешь, что ты говоришь? — спросил я. — Нет ннне понимаю. — сказал он. — Я говорю, что ннне знаю, кто я. — сказал он. — Я говорю, что нне знаю, кто я.
>>1836942 >Но что, если я математик? Кликер. Только не используй всякую новомодную ебатню, в гугле ты найдешь только русскую подделку Логином или облачную парашу.
>>1837045 чтобы поверхностно разобраться в процессе и алгоритмах, можешь потыкаться в программу для обучения машинному обучению Orange . Скачаешь готовые учебные датасеты и сделаешь учебных задач больше чем некоторые за годы.
На работу программистом тебя, конечно, с этими навыками не возьмут, но ты получишь какие-то результаты и поймешь что к чему.
И да, ты сможешь часть предобработки данных сделать на питоне.
>>1837054 Перепечатывать хеллоуворлд из туториалов это не писать код. Вопрос того же плана, что и "можешь ли ты рисовать". Просто водить карандашом по бумаге могут все, копировать картину тоже. Можешь ты рисовать сам? Вот и с кодом так же.
>>1837060 Ну из туториалов я код никогда не копировал, я лучше свой велосипед сделаю. Ну и код пока пишу только для задачек codewars, т.е. максимально не связанные с практическим применением и сторонними библиотеками. Но алгоритмы получаются довольно хорошие.
>>1837107 я чет не пойму, у тебя какие-то другие альтернативы есть? Хочешь вместо датасаенса 95% времени изучать документацию pandas - поебись с питоном. Мотематик хуев....
>>1836731 >Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ Но ведь у GPT-2 1.5 миллиарда параметров, а у самой большой GPT-3 - 175 миллиардов. В чем смысл этой модели?
>>1837215 >В том, что сам ты даже 700 миллионов параметров не обучишь. Чем эта GPT-3 лучше уже давно доступной GPT-2 с 1.5 миллиардами параметров? Я думал что "инновация" GPT-3 по сравнению с GPT-2 заключается только в количестве параметров.
>>1837209 Инноваций у GPT-3 две, увеличенное окно контекста (1024 vs 2048) и чередование sparse и dense слоев. Правда не понятно, почему они ruGPT2048 называют GPT-3, ведь там все слои dense, хотя и контекст 2048. Но medium модель формально GPT-3 medium, как описано в статье (если они не накосячили еще где-то).
Практический смысл в этом большой - можно файнтюнить на своем говне. Medium модель мне нравится. ruGPT2048 так и не заставил нормально генерировать, все время зацикливается.
>>1837225 А на каком уровне gpt работает? Почему-то казалось всегда, что там char-level, но судя по предсказаниям, предсказывает word-level. Да и странный параметр vocab_size в репозитории.
>>1837247 Что-то между, в более короткие токены превращаются популярные последовательности символов, а-ля архиватор, соответственно перед отправкой твой текст заменяется на набор токенов, а после декодируется по словарю назад. Это позволяет увеличить эффективный контекст в разы, но из-за этого даже the gpt3 всасывает на рифмах, если не разбивать буквы пробелами.
>>1836731 >Коллеги прочитав, переписку Бота я даже не поленился зарегистрироваться! Я напомню, что есть такой термин Олигофренизм и одна из стадий это Дебилизм. Это не оскорбление, это термин медицинский! Так вот Дебил это сущность которая понимает слова, но не понимает их сути! Так вот прочитав переписку Бота я вижу клинический диагноз. А теперь представьте, что свершится мечта Банка и такие Боты будут доступны всем, и что будет? — будет клиника у всех! Поэтому вы можете хвастаться искусственным интеллектом, но по факту это бесполезная, даже опасная вещь! На швабропараше один нормальные комент и то хомячье щаминусило.
>>1836731 Это ради кое-как обученной нейроночки с 3.5 параметров они пару лет назад по всей стране видюхи скупили? А чего крипту майнить прекратили? Сложность выросла, выхлоп уже не тот? Решили таки нейроночками заняться, доесть за западным барином? Лучше бы интерфейс онлайн банка написали не ногами, хуле оно после каждого пука грузится заново? Зато процент по вкладам в два раза меньше чем в ВТБ. (((Грефу))) денешки нужнее?
>>1837468 Ты в каком офисе карту открывал, туда и иди. Талончик в регистратуре не забудь взять на запись в электрическую очередь. Че ты сюда полез, старый? Ты хоть понял где находишься?
>>1837480 > Ты в каком офисе карту открывал, туда и иди. От этой хуйни вроде избавились. Недавно карту менял (срок закончился, а у меня там бабло оставалось), поменяли на новую в том офисе, куда обратился.
>>1837468 >Это ради кое-как обученной нейроночки с 3.5 параметров они пару лет назад по всей стране видюхи скупили? Что несешь, жидошизик, V100 нельзя скупить по всей стране, это товар другого уровня
>>1837494 V100 - не турбина для электростанции, ты ее в розницу можешь купить у рашкофирмы. На игровых картах подобные сетки не тренируются без большого ботлнека.
>>1837600 >Мань, но это же официальное заявление сберкассы Я в курсе, мань, а теперь пиздуй лечить дислексию, потому что твой пост никакого отношения к моему не имеет.
Драсьте, подскажите, вот у меня есть данные по некоторым местам в виде Широты и долготы. Я бы хотел что-нибудь поделать с ними интересное, но идей нет. Можно подкинуть идею? На самом деле я бы хотел что-то с вычислением "лишних объектов" или мест, где этих самых объектов не хватает.
>>1838972 Даёт неплохие представления для текстов. Может, можно будет использовать как часть пайплайна. Меня больше интересуют подвижки в вопросе перевода естественного языка в формальный, типа "по вопросу сгенерировать SQL-запрос".
>>1838972 Пока ты хочешь выебываться в твиттере результатами - может всё. Когда захочешь выкатить в прод - начнутся проблемы. При обучении случится mode collapsing, компания разорится из-за счетов за электричество, сетка начнет оправдывать геноциды, обучится к моменту тепловой смерти вселенной.
>>1832580 (OP) С чего начать изучение математики, если я с самого первого класса всегда отставал и доходило до того, что мамка мне решала домашку. А когда я стал чуть старше, то заставляла меня учить формулы и таблицу умножения как стихи. Ну и регулярно срывалась на мне и била по голове скалкой пока я кровью вперемешку со слезами и соплями не заливал школьные учебники.
>>1839265 Ничто не мешает из него выдрать получение эмбеддингов. Более того, оригинальный GPT для того и делали, это уже потом выдумали задавать вопросы языковой модели, чтобы она на них отвечала.
Анончики, подскажите, плиз, как расковырять внутренние слои в PyTorch? Задача, если вкратце, есть временной ряд с фичами y(t) X(t), хочу предиктить какой-нибудь RNN. Но следующее значение сильно зависит от предыдущих, поэтому хочу перед началом предсказания пропихнуть несколько известных X и y. Как мне вручную запихнуть в модель h_0[-1]? Как заставить пересчитать остальные h_0? Где об этом можно почитать, а то я даже не понимаю, как правильно сформулировать запрос для гугла?
>>1839520 >>1839595 >>1839615 Ну вы даёте, конечно... А чем по-вашему временной ряд отличается от не временного? Если временной ряд представить в виде матрицы Ганкеля и строки такой матрицы считать элементом датасета, чем это будет отличаться от любой другой матрицы как датасета?
>>1840034 Ну только ты уже фиксируешь ширину окна, так что далеко в прошлое смотреть алгоритм не сможет. Да и в алгоритмах никак не будет использоваться знание того, что у тебя данные одной природы в разных столбцах матрицы.
>>1840000 Тем что информация о просто n (которое кстати надо ещё выбрать) подряд идущих событиях не всегда полезна для того чтобы по ней что-то сказать, например если события у тебя происходят очень часто и между соседними мало что меняется алгоритм будет предсказывать не лучше чем просто по текущей точке. А количество всех возможных более сложных агрегаций истории можешь сам подсчитать. Тем что временные ряды часто многомерны, т.е. каждая точка это например вектор миллионной размерности. Короче всем тем же что и везде не повзволяет просто брать голые данные и скармливать их бустингу без предобработки.
>>1840044 >В этом состоит Датасаенс Да Потому что за это тебе заплатят 300К/сек и назовут самой сексуальной профессией 21 века а статистика и другая скучная хуйня - ты чо бухгалтер что ли((
https://sci-hub.do/10.1145/3316781.3317918 Хочу вот это попробовать повторить. Предсказывают смерть HDD на основе данных SMART . Дохуя практичная программа получилась бы! Тут в примере временные ряды и небольшое число признаков.
>>1839615 В 2020 есть два хороших подхода для одномерных данных, это CNN, если зависимости у тебя в основном локальные, и трансформеры, если зависимости сразу по всему окну. Считаешь ты пазишен энкодинг костылем или нет, он работает. RNN не нужны нигде, они всасывают у трансформеров во всем.
>>1840081 А как, кстати, реализуется длина окна? Вот пришла мне последовательность длиной миллион, и я не хочу квадратную матрицу миллион на миллион (KQ^T) считать для трансформера. Что в таком случае делают? Вручную нарезают?
>>1840081 >В 2020 есть два хороших подхода для одномерных данных аминь А в 21 ещё каую-нибудь новую хуйню придумают в гугл ресёрче, додики будут с новым ещё одним ЕДИНСТВЕННЫМ ПОДХОДОМ носиться.
>>1840174 >А как, кстати, реализуется длина окна? Через пазишен энкодинги как раз. У тебя к каждому токену приписано его положение в окне, например, с помощью бегущих синусоид рзаной частоты. Если ты тренировал сетку на окне с контекстом 2048 и имел соответствующие частоты синусоид, а возьмешь окно в миллион, сам трансформер-то скейлапнится, потому что ему похуй на длину последовательности, но с экондингами слушится жопка - потому что самые низкочастотные синусоиды начнут повторяться. Поэтому реальный вариант только один - бить строку длинной миллион на куски по 2048, возможно с перекрытием, и процессить.
>>1840212 Да все мы знаем, что есть классический подход, основанный на определителе жумпеля. Правда там качество не сильно лучше подбрасывания монетки, но главное, что зумеры не знают.
аноны, спрошу в этом треде, тк он наиболее релевантный, а заводить другой нет смысла - как правильно они редко приживаются вопрос такой: может у кого был опыт устройства на работу в яндекс в команду беспилотников? я просто пиздюк, только уник закончил (робототехника), а опыт (3года) скорее релевантет больше к классическому проганью, чем к slam/траекторным задачам. Требования там ебать какие, судя по сайту. Так вот, если пробовали устроиться в эту тиму, расскажите как оно. Может вообще тут из яндекса сидят (а он большой же, хули) расскажите плз, думаю не мне одному интересно будет И еще доп вопрос: похожая тематика вообще где-нибудь есть еще в мск? чтобы роботы там, сенсоры, ну в общем вся та хуйня, которую я упорно учил 6 гребаных лет спасибо, друзья
>>1840254 >а опыт (3года) скорее релевантет больше к классическому проганью, Ну и нахуй ты им нужен? Там таких как ты пруд пруди да еще и олимпиадники. датасаенс объявили sexies job в 2012 году - 8 лет назад. Ты что делал 6 последних лет?
>>1840280 там не только дата саентисты в команде есть прогеры, внезапно или ты, аналитический петух, копающийся в юпитере, прогером себя считаешь? мимо c++ разраб
>>1840292 шизик, разговор окончен интересно сможешь ли ты хоть в самую сратую контору пройти собес на чистого питониста, веб приложение о слепит из ноутбука
>>1840304 Ну да. При чем если висит сеньерская вакансия, потыкай в нее пальцем, поищи careers на сайте у фирмы или вообще напиши влоб. Кодер с профильной вышкой - это довольно сильно. Как правило таким проектам не хватает как раз нормальных кодеров, которые разбираются в предметной области. Маняматиков дохуя, а работать некому.
>>1840360 >>1840357 ну я вообще не сторонник радикальных взглядов: все профессии важны, как говорится. И математики делают какую-то пользу, и прогеры. Меня просто этот пидор бугуртнул >>1840280, сорян, никого из адекватных математиков оскорбить не хотел мимо тот же с++ разраб
>>1840254 В целом реалии яндекса таковы что хоть ты C++ прогер хоть МЛщик большую часть времени ты будешь перекладывать джсоны и запускать графы в нирване. Случай беспилотников может быть конечно особенный, но вообще когда меня года два назад дёрнуло поработать в этой параше полгодика, на ячане (внутренний двачик) вполне активно млщики оттуда спрашивали куда можно перейти, так что думай.
>>1840392 хм, интересно просто выглядит так, что у яндекса единсвтенных позиция "на передовой" в плане беспилотников (про сбер беспилотники молчу от части потому что не знаю как у них дела, от части потому что знаю как дела в лаборатории роботоетехники). Тк бюджет дай боже, машинки уже гоняют. Возможн я романтизирую, но мне кажется, что дела у них идут круто и задачи ок. НО опять же, не стоит забывать что я обосранный вчерашний студент
>>1840224 >Все выучили bitter lesson и хуйней не страдают Ты забываешь про нехватку данных. Использование domain knowledge и классических алгоритмов вкупе с нейронками позволяют достичь адекватных результатов при намного меньшем количестве данных.
>>1840404 Не, если ты студент и попадёшь в беспилотники яндекса это очень круто для резюме безусловно, попытаться стоит. У них бан на полгода вроде бы, если обосрёшься потом ещё можешь попробовать.
>>1840410 >Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation ... > 1) AI researchers have often tried to build knowledge into their agents, 2) this always helps in the short term, and is personally satisfying to the researcher > 3) in the long run it plateaus and even inhibits further progress
Мне особенно нравится вот это персоналли сатесфаинг. Оно реально так. Придумать костыль для данных - весело и вкусно, такой ходишь довольный, что на текущем железе выжал максимум. А на длинной дистанции нахуй оно не уперлось, твои хаки под датасеты. А что уперлось - это простые как валенок универсальные решения, типа UNet.
>>1840431 >такой ходишь довольны Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью, а не макакить слой за слоем.
>>1840450 >Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью, а не макакить слой за слоем. Макакинг слоев можно автоматизировать и отдыхать, пока трясется ящик, а для ресерча придется по-настоящему РАБотать.
>>1840450 >Тут дело не в том чтобы тешить чсв, а в том что ресёрчерам интереснее заниматься осмысленной деятельностью satisfying - это не про чсв, это как раз про интересно. Понятно, что ресерчерам интереснее решать интелелктуальные задачи типа решения судоку, только чтобы за это самое судоку еще платили деньги. Посмотрел немигающим взглядом в график, увидел, закодировал, решил головоломку. А приходится проектировать системы для тряски ящиков.
И хули ты хотел. Астрономы тоже вместо просмотра ночного неба в деревнской глуши трясут телескопы, в которых день работы стоит миллион долларов. Никакой романтики.
Спрашивал пару тредов назад как разобраться с voila - ХУЙ КТО ОТВЕТИЛ! ВЫ ЧЁ, ДЕБИЛЫ? Вы чё, ебанутые, что ли? Действи.. вы в натуре ебанутые? Эта сидит там, чешет юпитерблядь. Этот стоит, грит: "Я те щас тут dlib в докере скопмилирую "..
>>1840431 Придумать новую канализационную систему - весело и вкусно, такой ходишь довольный, что на текущем железе выжал максимум. А на длинной дистанции нахуй они не уперлись, твои фитинги. А что уперлось - это простые как валенок универсальные решения, как сантехникам копаться в этом говне
>>1840217 Да просто В какой-то момент силой мирового гения учоных додумались до гениального решения что можно применять несколько матриц из параметров ко входу и брать свёртки того что получится, тогда выходит нелинейная но распараллеливаемая зависимость. Это называется атеншен. Теперь если взять его поширше и застакать с обычными перцептронами поглубже, не забывая residual связей чтобы градиенты не кукожились и позишнл энкодингов чтобы гениальный механизм распознал что за чем следует, получится энкодер трансформера. Если взять то же самое, но теперь в атеншене сворачивать с тем что пришло из енкодера то получится декодер. Трансформер это энкодер плюс декодер плюс классический софтмакс поверх. Всё это великолепие в охулиард параметров теперь можно тренировать если у тебя есть дохуя бабок, времени и достаточное количество яйцеголовых чтобы пинать сиё элегантное решение в нужном направлении. Отдельные безумцы смущаясь говорят что если у тебя есть дохуя бабок, времени и яйцеголовых то можно взять хоть огромный двухслойный перцептрон, лотерейные билетики сделают хрусть-хрусть и всё будет работать не хуже; но ни у кого нет всего вышеперечисленного чтобы проверить. В целом этот процесс называется BigTech несёт прогресс.
>>1840224 > general methods that leverage computation are ultimately the most effective, and by a large margin Если у тебя дохуя бабок. Вообще забавно как очередная "освобождающая" технология становится просто ещё одним преимуществом искусственных монополий над малым/средним бизнесом. Такое будет случаться всё реже и реже по понятным причинам, смотрите, дети, на пролетающую комету, нескоро вы её ещё раз увидите.
>>1840655 >Если у тебя дохуя бабок. Наоборот, если у тебя мало бабок, то первым делом нужно думать о качестве своих вложений, и ни в коем случае не попадать в ловушку этих ad-hoc решений, которые живут несколько лет, а потом их смывает прогрессом.
Мне посоветовали тут задать вопрос. Подскажите, существуют ли сейчас нейросети, которые позволяют действительно качественно отреставрировать старые фильмы с использованием референсных моделей? Как пример - есть фильм 20-х годов, дошедший до наших дней в ужасном качестве. В фильме появляется человек, лицо которого на средних и дальних планах превращается из-за качества в кашу, однако в этом же фильме есть один близкий план, в котором черты лица и глаза видны довольно четко. Все, что я нашел существующего в данный момент, пытается либо восстанавливать картинку пофреймово, анализируя скопления пикселей, либо просто отрабатывает весь ролик по одним общим правилам, внося косметические изменения. Я же хочу задать области ролика, которые требуют особой обработки, подсунуть модели для каждой области, а для невыделенных областей применить общие правила.
>>1840691 Этот просто взял не самый плохой исходник и прогнал кадры через топаз гигапискель, так и я могу. Идешь нахуй ты со своими гнилыми понтами, совсем уже студентота оборзела.
Что спрашивают у вкатунов на собесах? Через неделю будет один, говорят, будут спрашивать про основы data science и ещё решать задачи по матстату. Чего примерно ждать?
>>1840224 >Давай, назови автора этого эссе зумером и сойбоем. Я назову его скорее довольно странным пафосным товарищем, который из пары распиаренных примеров успешного применения брутфорса, упрощая, выводит очередной единственно верный способ думать о всех проблемах вообще. Количество решений реальных бизнес проблем как раз использующих адхок на полную в то же время остаётся неизвестным по естественным причинам. Я думаю что единственный общий принцип есть только один: не существует волшебной палочки. По крайней мере мечты о оных никогда ещё не сбывались.
>>1841315 >Есть ли смысл искать джунопозицию на западе? Кому-то есть, кому-то нет. >Они удалёнку предлагают? Кто-то предлагает, кто-то нет. >Или только переезд и работа в офисе? Кто-то только переезд, а кто-то нет.
>>1841650 >Фриланс можешь поискать Предварительно раскошелившись на новый комп с нормальной видюхой и памятью, что при нынешнем курсе рубля выйдет в 50-100 тысяч деревяннных, а то и больше. И всё это чтобы зарабатывать копейки на фрилансе. Во всяком случае поначалу. План уровня /pr
>>1842009 Какой вообще фриланс может быть в датасаенсе? Фриланс это для мелкого бизнеса, вебсайты и наколенную автоматизацию делать. Откуда у них данные, деньги на машоб?
>>1842104 Все равно что стать звездой баскетбола или топ актером, или депутатом. Только еще сложнее, пожалуй, потому что в отличие от них, на кегле придется головой работать. А конкуренция там +- сравнимая. Еще с паблик ноутбуками этими вообще жестко получается. И, кстати, круг компаний которые очень ценят кагл сильно ограничен. Для большинства это как какой-то сертификат, что-ли, ну хорошая штука для последней строчки сиви. Если они вообще знакомы с каглом. А если ты положил жизнь на кагл, то тебе будет нечего написать в графе "опыт", и твое сиви полетит в корзину еще до того, как они дойдут до твоих призов.
>>1842104 >Попади в топ, Вангую в топ попадают те, кто может использовать рабочие мощности. А со своей пекарней ты никогда мегамощную сетку не запустишь.
>>1842128 почему бы не иметь возможность продемонстрировать примеры своего кода по какой-нибудь бесплатной никому не нужной проблеме с низкой конкуренцией? такие хоть есть на кагле?
>>1842077 >Фриланс это для мелкого бизнеса Да >вебсайты и наколенную автоматизацию делать. Откуда у них данные, деньги на машоб? Ты описываешь рашкореалии. В США мелкая контора с 10 сотрудниками должна делать $600к/год только для того, чтобы платить людям зарплату. Если объем фонда оплаты труда 50%, получается больше ляма оборота. На этом фоне нанять макак из третьего мира размечать датасеты и трясти нейронки стоит достаточно мало, чтобы был постоянный поток желающих рискнуть. В любом случае пробовать лучше, чем сидеть на дваче. Как будто у тебя большой выбор.
>>1842134 В реальности таких предложений на традиционных фриланс-площадках нет. Они, скорее всего, нанимают контракторов из специализированных контор, либо своих датаслесарей.
>>1842137 Да выбор вообще хуевое слово. Есть много разных лотерей, в которые нужно играть. Не дают первый проект на апрворке - дрочишь кагл. Не дрочится кагл - тренируешь стайлган на колабе. Хорошо натренируешь - внезапно получишь проект, а на пятом проекте - предложение поддерживать слепленное тобой говно. А не повезет - твой анус будет закален настолько, что на собеседовании будет что-то типа "а, йобанейм? знаю такое, работал, и с этим работал, и с этим работал".
>>1842146 Блять твой фриланс вот именно что ебаная лотерея. Сейчас работа есть, а завтра нет. И если в 20, когда ты у мамки на шее это ещё покатит, то в 30 уже не очень. А всем ОПЫТ подавай. Даже видел на стажёров. Вообще охуеть.
>>1842153 >А всем ОПЫТ подавай. Даже видел на стажёров. Когда у тебя очередь из 500 человек стоит на вакансию стажера, из которых многие с ПхД, статьями, петпроектами, то можно и даже нужно задирать планку до небес, чтобы отфильтровать поток.
>>1842161 >многие с ПхД, статьями, петпроектами Этой хуйне никто не верит, потому что полно жуликов, которые статьи имеют примкнувшись паровозиком, петпроекты - чисто для галочки, а если у человека ПхД и он идет на стажера - это вообще пиздец. А вот несколько успешных и внедренных проект на фрилансе - это другое дело. Это значит, что соискатель не аутист, который не может сформулировать задачу, не задрот, которому нравится решать судоку за деньги, а не бизнес-задачи, не ботаник, который 5 лет учил формулировку ЦПТ, но не знает, как написать докерфайл.
То есть реально, приходит вот такой ПхДшник, обвешанный статьями и натренировавший стайлган, просит 150к, потому что хули, он джун что ли какой-то, а после вопросов понятно, что ближайшие несколько месяцев ты будешь его учить писать докерфайлы. Ему перезванивают, а он, залупа пафосная, думает, что "бля, это если МЕНЯ не взяли, то кого же взяли тогда?".
>>1842159 Возможно. >>1842161 >Когда у тебя очередь из 500 человек стоит на вакансию стажера, А по факту многие вакансии висят месяцами, либо всё ищут того самого неповторимого, либо просто собирают базу кандидатов. Да и вообще 500 человек - жирновато, у нас тут не вротенд и не qa. Машобчик всё же требует базовых знаний математики, программирования и чего-нибудь ещё.
>>1842167 >ближайшие несколько месяцев ты будешь его учить писать докерфайл Макакен, всё в другую сторону работает: это ты, писатель докерфайлов, не сможешь быстро в настоящие вещи типа математики; а вот математик твою хуйню за полчаса максимум освоит. Именно поэтому математиков (тем более пхд) обычно набирают везде, от консалтинга до биоинформатики даже с нулевым знанием предметной области потому что типа сам освоит.
>>1842261 >Именно поэтому математиков (тем более пхд) обычно набирают везде Даже имея пхд по компьютер саенс, который ценится намного больше, ты пойдешь либо постдоком за еду, либо джуном-макакеном, либо, если попадешь в машоб, будешь перекладывать жсоны и чистить вилкой данные за ту же зарплату джуна.
Маняматики в рыночек вписались еще меньше. Без других навыков (как кодинг для машоба) они вообще никому не нужны. Получив пхд у тебя два варианта - либо всю жизнь работать за еду, либо переобучаться на другую специальность.
>>1842288 >пхд по компьютер саенс, который ценится намного больше Ха-ха, дед, 90е давно прошли, доброе утро. >Получив пхд у тебя два варианта - либо всю жизнь работать за еду, либо переобучаться на другую специальность Я тебе написал как в реальности с нормальными ресёрчерами дело обстоит. У тебя очевидно примеры "аспирантов" косящих от армии на мамкиной шее в твоём мухосранском заборостроительном.
>>1842313 >Я тебе написал как в реальности с нормальными ресёрчерами дело обстоит. Дай определение нормального ресерча, и в какой стране им занимаются. Ну и самое главное, чтобы зарплата была хотя бы на уровне кодомакаки с аналогичным опытом (сам по себе пхд считай за пять лет опыта). >У тебя очевидно примеры "аспирантов" косящих от армии на мамкиной шее в твоём мухосранском заборостроительном Найс проекции.
>>1841315 >джунопозицию на западе Там всё ещё хуже Qualifications:
BS degree in Science, Engineering, Business Administration or related field + 5-9 years' experience; 9 years' experience equivalent to any combination of education and experience Must possess acute reasoning/problem solving skills Ability to conduct sophisticated experiments and develop theories Ability to perform complex calculations and mathematical modeling Ability to use computer technology Ability to research and gather information, analyze and organize data, and prepare technical reports Must be thorough and pay attention to detail Excellent written, verbal and interpersonal communication skills Ability to obtain a U.S. DOD Security Clearance up to the Top Secret level if required. https://www.indeed.com/viewjob?jk=f6eafe2ae69a0bbc&tk=1elo1qhje3kff001&from=serp&vjs=3
>>1842347 >Junior Scientist >BS degree in Science, Engineering, Business Administration or related field + 5-9 years' experience; >9 years' experience equivalent to any combination of education and experience И при этом зарплата максимум как у джуна-фронтендера.
Нейронавты, есть вопрос. Задача - магистерская работа. Суть - "составление расписаний". Тип есть работа на заводе, ее делает рабочий, с помощью (не обязательно) механизмов (грубо говоря машины, которыми рабочий управляет) и (всякие гайки, болты, ведра с компрессией и тд). Работ может быть много, а рабочих мало. Цель - составить оптимальное расписание, чтоб никто за станком не помер и у предприятия был профит максимальный.
Какой подход применить? Нашел МАС - мультиагентные системы. Альтернативно - использовать что-то из более традиционной штук типа всякой математики для проблем а ля job shop.
Можно ли здесь как-то нейронки вместо всего этого использовать? Может уместно будет в агентаз МАС использовать?
В нейронках ноль, времени на все магистратура. Предварительно проект на с#, так как задача полурабочая, может пойти в готовый продукт.
>>1842167 >если у человека ПхД и он идет на стажера - это вообще пиздец А что делать, пчел? Не все такие звезды, что рекрутеры обрывают телефон и почтовый ящик. Стажировка/интерншип по машобу в гагле и сравнимых местах оче соревновательна. Они там вообще берут кого хотят. Недавно был скандал, что в индийском офисе гугла на интерншип взяли ТОЛЬКО молодых тяночек. Как тебе такое требование? Сможешь пройти такой фильтр со своими стайлганами?
>>1842382 > Работ может быть много, а рабочих мало. Цель - составить оптимальное расписание, чтоб никто за станком не помер и у предприятия был профит максимальный. Экстремум целевой функции. Зачем тебе ML, если люди матан придумали? ML для по-настоящему сложных, порой чисто символических, задач (NLP к примеру).
>>1842616 > >Зачем тебе ML, если люди матан придумали? > Это чтоб на собесах потом говорили "аааа извините, матан это прекраcно но нам нужен опыт в мл" ? Ну, это смотря куда идешь. Если работа непосредственно связана с ML, то ясное дело HR будет требовать опыт в ML. Однако в твоей задаче достаточно математической оптимизации. Можно и нейронками решить читай: нейронка почти универсальный метод оптимизации
ML нужен в задачах: - NLP - Обработка здравого смысла и логики (иногда может пересекаться с NLP) - Стратегий (к примеру, в играх) - Интеллектуальная обработка/синтез изображений - Синтез голоса и музыки, прочего аудио
Если надо решить задачу, но не понятно, как её решить, то нужно использовать NN.
>>1842636 Даже там соснешь, инфа сотка. Придет скучающий ГМ на неделю до конца, у которого пара DGX-2 на работе простаивают)) Или очередной раджикумар в погоне за ноутбучными медальками расшарит ноутбук с хорошим решением, и начнется blending frenzy, когда за час будешь на 100 мест вниз сползать. Или после открытия привата окажется, что сознатели накосячили немного)) и скоры рандомны.
Объясните как работают генеративные сети, когда у нас недостаточно пар для обучения? Вот те же зомби. У обучальщиков же не могло быть несколько тысяч фотографий одних и тех же людей в парах зомби<->не зомби. Тогда как?
>>1842709 Так в этом и суть. Нейроночка должна адекватно зомбифицировать еблишко, которое первый раз видит и которого 100% не было в обучающей выборке.
>>1842709 >как работают генеративные сети, когда у нас недостаточно пар для обучения? Когда данных недостаточно они не работают. Обычно mode collapsing случается и они одно и то же начинают генерировать. >У обучальщиков же не могло быть несколько тысяч фотографий одних и тех же людей в парах зомби<->не зомби. Пары уже года три как не нужны https://arxiv.org/abs/1703.10593
Как вам идея создания аналога куклоскрипта на основе NN? Это же профит. Просто скрываешь неприятные тебе посты и картинки, а NN учится классифицировать рандомный пост как неприятный. Можно автоматически скрывать толстоту, политоту, биопроблемы, при этом вероятность ошибки (в сравнении с топорным RegExp) понижается. То есть если в посте есть слово СССР это еще не значит что пост политический хотя определенно скатится в политоту, потому что боты стриггерятся на это слово.
>>1842773 Сентимент анализом я думаю, можно что-то подобное детектить, но как ты это к куклоскрипту прикрутишь? И как ты видишь детекцию толстоты? Разметить датасет на толстые посты и нет?
>>1842791 > но как ты это к куклоскрипту прикрутишь Создать аналог куклоскрипта. Только с блекджеком и нейронками. > как ты видишь детекцию толстоты Устанавливаешь расширение -> заходишь на двач -> хайдишь неприятные посты -> данные поста отправляются в датасет -> тренируем -> повторяем н-ое кол-во раз пока нейронка не сможет самостоятельно хайдить посты.
>>1843086 Скорость пораши - 1000 постов в час, это по 3.6 секунды на пост. Бабушкин утюг справится. Надо просто сделать сервис, который будет выдавать результат по номеру поста, а куклоскрипт уже пусть обрабатывает результат.
>>1843218 >Если делаешь в виде сервиса Я вообще ничего не делаю. Я всего лишь написал, что 1000 постов в час - это хуйня, но только при условии, что процесс работает в бэкграунде, а не анализирует каждый раз тред при клике на него. Остальное уже твои разоворы с воображаемым собеседником.
>>1843086 > Толстые модели будут долго жевать текст Можно делать не толстые. Да и датасет даже до 500 Мб никогда не вырастет. Если делать по схеме, что я описал выше. Делать все, конечно, нужно на локальном железе. Меня самого бесит, что ML уходит в облако.
К тому же есть шустрые алгоритмы классификации текста.
Погуглю эту тему, может реально создам свою интеллектуальную дашу
Microsoft выпустила бесплатный инструмент для обучения ИИ для тех, кто не умеет программировать.
Microsoft открыла всему миру доступ к программе Lobe, позволяющей за несколько минут создавать готовые модели машинного обучения для дальнейшего их использования в сторонних ПО и устройствах. Программа полностью бесплатна и исключает написание программного кода в процессе тренировки моделей – от пользователей нужно лишь загрузить в нее данные, а всю работу она выполнит сама.
>>1843407 >Microsoft выпустила бесплатный инструмент для обучения ИИ >Label an image based on its content. AVAILABLE NOW >Locate an object inside of an image. COMING SOON >Label data in a table based on its content. COMING SOON Ну точно ВСЕ.
>>1842288 Лол, а сейчас остались математики, не умеющие кодить? У меня даже деды в вузе этим занимаются, хотя с IT предметами они не связаны. мимо третьекурсник маняматик
>>1843417 >Лол, а сейчас остались математики, не умеющие кодить? Умения кодить недостаточно - нужно уметь в архитектуру приложений, знать паттерны, солид и прочее. Математики не только всего этого не знают, но и настолько привыкают писать говнокод, что их практически невозможно переучить.
>>1843424 >чтож ты делаешь макакен уймись Датасаенс это то же айти, только еще более динамичное. Поэтому архитектуре приложения тоже надо уделять внимание, чтобы при изменении спецификаций можно было максимально быстро адаптировать старый код. Говнокод очень быстро выльется в необходимость затратить намного больше времени, чем можно было затратить для построение нормальной архитектуры и избежания этих проблем.
Вдобавок, все преобразования данных должны быть автоматизированны, что важно для воспроизводимости. Каждый эксперимент должен быть привязан к коммиту в гите, чтобы в случае чего можно было откатить все назад.
>>1843407 Какое убожество. Целый один классификатор изображений. В Orange на коленке собирается. Это все что фирма с миллиардными оборотами смогла высрать? Кого они надеются этим вовлечь в датасаенс?
Меня к вам из питона-треда выгнали я нуб, в общем была такая мысль: >Сап народ не в теме машинного обучения но вопрос можно ли запилить тян-бота на основе переписки с тян в WhatsApp. Хз почему такая ебнутая мысль пришла. Если можно как мне от туда вытащить текстовые сообщения и поидее нужно отсортировать их на мои и её и какую лучше библиотеку брать? Tensorflow?
>>1843702 Бля зашёл спросить на двач называется пойду загуглю лучше, вы бесполезны.
Вопрос по созданию бота с ИИ
Аноним30/10/20 Птн 16:11:34№1843872435
Подскажите кто нибудь , как можно написать простого чат бота - виртуального собеседника который отвечает на вопросы своим мнением . Боты в месснеджерах не подойдут , нужно в отдельной программе . Немного знаю python
>>1843407 Так я не понял, это же тупо разметчик с какой-то моделькой искаробки. Если есть размеченные данные это более менее в 10 строчек и на керасе делается сейчас, проблемы возникают когда данные надо предобработать каким-то нетривиальным образом или качество модели нужно не среднеговённое.
>>1844173 В любом хорошем вузике математика (типа ТФКП) идет параллельно с ее применениями (типа теории управления или электротехники). Иначе голую математику ты не усвоишь, потому что в мозге не будет нужного количества зарубок о том, а где именно это нужно. Чем больше у тебя междисциплинарных ассоциаций, тем лучше. Иначе буквально будешь смотреть в книгу, делать упражнения, а по итогу все вылетит из твоей головы. Поэтому никаких роадмапов быть не должно, нужно брать одновременно по несколько дисциплин и ботать их, желательно завершая это дело пет-проектом, который объединяет все выученные скиллы.
>>1844266 >Ты как будешь доказывать сложность и корректность алгоритмов без математики? Сложность понимается интуитивно, а доказывать корректность в дасасаенсе нахуй не нужно.
>>1844302 Зачем придумывать. Программы топовых вузиков есть в открытом доступе, включая требования к разным курсам. И если мы обсуждаем картинку типа >>1844264 , то должно быть примерно так: 1 этап матан+линал+дискретка+основы питона+юникс шелл 2 этап матричный матан+базовый машоб+олимпиадки по информатике+математический питон+матплотлиб И так далее А ни в коем случае не последовательный путь, когда ты ты будешь месяц учить доказательства теорем через эпсилон-дельту и потом выяснишь, что тебе это потребуется через 5 лет при чтении пейпера Шмидхубера и Хохрайтера. Так не бывает. Мозг почуствует, что ты занимаешься какой-то хуйней, и врубит режим прокрастинации. Обучение должно быть вкусным.
Чем различается conv2d и conv2d_transpose с точки зрения вычисления весов? (Инб4 транспонированием) Иными словами, если решение надо применить для транспонированной свёртки https://github.com/joe-siyuan-qiao/WeightStandardization достаточно ли будет заменить conv2d на conv2d_transpose? Или надо копать глубже?
>>1844346 Так это получается надо учебники линала и матана на питон переписывать? Чёт не особо это представляется и где тут вкус появляется Где ж эти эпсилоны засунуть-то
И другие специальности я думал чето типа инженеры там в автокад учится или биотехнологии какие-то
>>1844346 А какие там связи-то? Допустим между матрицами, которые получаются по элементарным преобразованиям, ставится значок эквивалентности (тильда), что изучают на дискретной. А отношение в дискретной описывают матрицей. Что ещё есть эдакого
>>1844368 >Так это получается надо учебники линала и матана на питон переписывать? У меня на линале были лабы на питоне, так что можно считать, что уже.
>>1844357 Не используй транспонированную свертку. Делай upscale с помощью nearest neighbor interpolation (то есть фактически 1,2,3,4 => 1,1,2,2,3,3,4,4) и затем обыкновенную свертку, либо, если ресурсы прижимают, subpixel convolution с ICNR инициализацией. Транспонированная свертка страдает от алиасинга, который проявляется в виде сетчатых артефактов в самом начале обучения. Подавление этих артефактов не бесплатно. Сабпиксельная страдает чуть меньше. Апсейкл+conv2d не страдает вообще. Выбор очевиден. См. https://distill.pub/2016/deconv-checkerboard/ - тут заодно посмотришь, как оно отличается с точки зрения весов. https://arxiv.org/pdf/1707.02937.pdf
>достаточно ли будет заменить conv2d на conv2d_transpose? Вроде да
>>1844384 Спасибо за ответ. >и затем обыкновенную свертку А можно пояснить смысл свёрки после upscale? >Апсейкл+conv2d не страдает вообще И хотелось бы простейший пример для генератора генеративно-состязательно сети. Т.е. conv2d в данном вообще не будет менять размер получаемых изображений? А что насчёт skip connections? Как их в таком случае реализовать? Через conv2d?
>>1844393 >А можно пояснить смысл свёрки после upscale? А какой смысл у conv2d_transpose? У тебя задача сделать из 100х100х16 допустим 200х200х8, применив какую-то фильтрацию при этом. transposed_conv делает две этих операции одновременно - апсэмплит изображение и накладывает фильтр. Тем самым экономится какое-то количество флопсов. Вместо этого можно сначала апсэмплануть изображение (100x100x16 => 200x200x16) тупым апсэмплером без параметров, фактически тупо повторив каждый пиксель [A B; C D] => [A A B B; A A B B; C C D D; C C D D], а затем уже в увеличенном изображении наложить фильтр в виде conv2d. (200x200x16 -> 100x100x8). То есть везде, где у тебя есть conv2d_transpose, ты можешь сделать drop in replacement на upscale+conv2d. В tf1.0 это tf.image.resize_nearest_neighbor + conv2d. В tf2.0 это уже харам, нужно переходить на керас. Надо только не забыть увеличить filter_width в 2 раза, иначе мощность твоей сетки убавится. По первой ссылке есть пикрелейтед, где показывается, что conv2d_transpose эквивалентен upscale+conv2d с парой обнуленных параметров. Вот это обнуление выкидывает важную информацию, из-за которой они сосут. Вообще рекомендую почитать эту ссылку целиком. Минус у такого подхода один - слой начинает жрать в 2 раза больше флопсов и памяти. Зато остальное плюсы, потому что математически данная йоба намного удачнее. Между этими двумя подходами есть компромисс в виде subpixel convolution, но рекомендую не забивать себе голову этим ближайший год. >А что насчёт skip connections? Как их в таком случае реализовать? Все точно так же, ты просто везде где у тебя conv2d_transpose пишешь пару из upsample+conv2d.
>>1844346 >1 этап >матан+линал+дискретка Начинать нужно с изучения языка и практики. Иначе, если увязнешь в математике, через пару месяцев пропадет весь интерес. И вообще, математика для машоба не обязательна. Стекать слои и пиздить чужие модели можно и без математики, поэтому ее изучение лучше отложить до тех пор, пока ты не будешь четко понимать зачем она тебе нужна, и что конкретно нужно. Изучение математики вслепую - пустая трата времени.
>>1844346 У меня так примерно было. Это неплохо, но все равно во время обучения абстрактно очень, учиться лень. Пока нормально не научились всю эту базу загружать в голову с нуля. Со скрипом идет. Поэтому людей, которые имеют хорошую базу и применяют ее очень мало.
>>1843959 тут главное ПОНИЖЕНИЕ ПЛАНКИ. там на видео для даунов объясняется принцип. Показаны ложные срабатывания. Накодировано приложение для raspberry с камерой, чтобы это можно начать использовать.
А для адроида приложение в худших лучших традициях - 20 тыс строк
В гугле не нашел, поэтому спрошу здесь. Мне надо оценить плотность распределения событий во времени. Например, есть 7 дней и 7 событий. Они могут быть все в один день, могут быть по одному каждый день, могут быть 2 в первый день, 3 во второй и 2 в последний и так далее. Мне нужно получить значение такой плотности в виде числа как признак для обучения модели. Гуглил оценку распределения событий во времени, оценку плотности точек на прямой, но теорию под свою задачу не нашел.
>>1844901 Это я могу сделать, но что это даст? Мне нужно эти события превратить в фичу для модели. Но просто количество событий для фичи не подходит, потому что у одного человека этих событий много, потому что он давно участвует в активности, а у другого мало, потому что подключился недавно. Брать количество событий с начала участия человека в активности тоже не подходит, потому что он мог давно один раз подключиться, создать несколько событий, и больше никогда не подключаться. Вот я ищу метрику, которой лучше описать эту фичу. Пока придумал только что-то типа плотности этих событий, но пока не понял, как лучше их распределение превращать в число.
>>1844947 >количество событий с начала участия человека в активности тоже не подходит, потому что он мог давно один раз подключиться, создать несколько событий, и больше никогда не подключаться Количество событий за период T.
>>1844986 >Количество событий за период T. Тогда не учитывается, были 7 событий по 1 каждый день за 7 дней или все 7 событий в 1 день. Я считаю, это важно.
Хочу посмотреть на процесс покупки авто сквозь призму датасаенса. Где скачать датасет? или хотя бы какой сайтец попарсить?
это же круто, сделать какой-нибудь t-sne и понять какие еще машины, которые мне нравятся по характеристикам ( размерностям), но которые дешевле, стоит внимательно рассмотреть.
>>1844947 Посчитай гистограмму по 49 событиям (день, событие) Не подходит абсолютное количество возьми относительное В целом, к фичам нужно относится проще, потому что большинство из них всё равно окажутся бесполезны, добавь просто всё, а бустенг там разберётся, выкинешь лишнее потом Лучше конечно просто трансформер натравить на всю историю событий https://arxiv.org/pdf/1905.06874.pdf
>>1844947 Ты как ишак какой-то упертый. Тебе уже и так, и сяк, а тебе все не то. Все расписали уже, иди уже код пиши, че тебе надо еще? В кагле миллион соревнований было на эту тему, иди ноутбуки смотри. По-моему у тебя просто датасаенс-импотенция.
Не могли бы местные дата саентисты и машобщики рассказать о свлих трудностях во время становления, в самом широком смысле этого слова. Ну, например, проблемы с пониманием каких-то инструментов и принципов, или нехватка времени из-за попыток не сдохнуть с голоду. В общем, любые проблемы и, возможно, как с ними справлялись.
>>1845263 Трудно работать, не зная, сможешь ли ты достичь результата, и какого. Непонятно, удовлетворит ли точнось кабанчика, и что делать, если нет, а ты уперся в потолок.
>>1845635 Это недооцененная/невысказанная часть профессии ДС так-то. Многие ДС продают snake oil, а многие ходят по грани между реальной работой и snake oil sales. И софтскилы, включая особые умения вроде красивых презентаций и демо, в т.ч. даже такие вещи как дизайн привлекательных картинок, это очень важно для карьеры.
котаны, вкатываюсь немного в dnn и хочу сделать скрипт распознающий цифры на графике с помощью opencv, но не хочу использовать готовые жирные претрейн модели кто-нибудь может вкинуть внятный пример как создать и обучить сеточку на python в opencv? я не хочу ставить caffe (или другое), изучать её апи и генерить модель в ней, чтобы потом грузить в opencv, а хочу только используя opencv, т.к. в ней вроде как есть обвязка, но не могу найти внятный пример обучения, потыкавшись по классам нашел что есть, например, такие сущности: n = cv2.dnn_Net() m = cv2.dnn_ClassificationModel(n) ... l1 = cv2.dnn_Layer() ... cid, cfg = m.classify(...)
В результате: RuntimeError: output padding must be smaller than either stride or dilation, but got output_padding_height: 1 output_padding_width: 1 stride_height: 1 stride_width: 1 dilation_height: 1 dilation_width: 1
>>1847648 вообще-то у тебя кроме досок еще куча ебалы и шума. и чтобы выделить в них закономерности, нужны методы упорядочивания беспорядка. так что нужен.