Недавно столкнулся с необходимостью систематизировать ресурсы так или иначе связанные с областью моей деятельности. Результатами решил поделится с вами; обоссыте, дополните или оставьте отзывы. Есть как баяны, так и не очень. Если взлетит, то буду оформлять перекаты. Короче, тред полезных ссылок и вопросов по канпутер саенс и машобу го.Machine Learning 1011. Introduction to Statistical Learning, Casella ( http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf )Книга для нубов, очень хорошая. Все разжевано и положено в рот.2. Pattern Recognition and Machine Learning, Bishop.В начале пути пропустил эту книгу, так как Pattern Recognition мне казалось специализированной темой. Как выяснилось - зря, в книге также хорошо объяснены основы. Есть некоторые специальные темы (Sequential Data, Kernel Methods), объяснения которых мне показались лучшими среди когда-либо прочитанного.3. Bayesian Methods for Hackers ( http://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/ )Охуительное введение в байесовские методы. Если теорема Байеса и вероятности вызывают у вас лишь тухлые ассоциации с лекциями начальных курсов вашего ВУЗа, то вы серьезно ошибаетесь - байесовский подход гибок и широко используется для прогнозирования и оценок.4. http://neuralnetworksanddeeplearning.comВведение в нейронные сеточки для самых маленьких, с виджетами на JS - можно регулировать ползунки и смотреть на результаты. Написано все простым английским.5. https://vk.com/deeplearningЧувак обозревает статьи с архива и других ресурсов, удобно. Machine Learning Advanced1. Elements of Statistical Learning (http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf )Не рассчитывайте на легкую прогулку в пару недель. Чтение глав и выполнение заданий способно растянуться на год или больше. Оно стоит того. Уровень математической подготовки должен быть выше среднего.2. Learning with kernels. Регуляризация и SVM, вот это все.3. http://deeplearning.net/reading-list/Собраны все нужные ресурсы по DL, от альфы до омеги.Computer Science1. Intoduction to Algorithms, Corman2. The Art of Computer Programming, KnuthNuff said.3. https://gcc.gnu.org/wiki/ListOfCompilerBooksВ ВУЗе проектирование компиляторов мне казалось каким-то космическим, далеким от меня занятием. А потом мне пришлось дописывать компилятор Python.4. import astОпять про компиляторы. И я не шучу. Хотите начать в этом разбираться - зацените как устроен компилятор Python. AST - это абстрактные синтаксические деревья для разбора грамматик. В гугл, открываете доки и вперед!Programming1. Python Unlocked. Короткая книжка без соплей. В ней описаны метаклассы, дескрипторы, системы типов, шаблоны проектирования и TDD. Всего чуть больше 100 страниц концентрированной сути.2. Code Complete (2nd), McConnel.Неплохая книга. Не то чтобы обдрочиться, но в голове всякие фишки по структуризации кода и его проектированию остались.Misc1. Telegram: @techsparksПодкаст про всякие гик-штуки.2. Об интеллекте. http://archism.narod.ru/lib/bleiksli_sandra_ob_intellekte.pdfЕсли устанете от математики, то почитайте про подход айтишника к изучению сознания. Книга хороша, особенно в середине, где рассказ про мозги начинается.
Для начала вводную бы для простых смертных. Зачем оно нужно и какие задачи решает. Машинное обучение звучит круто, но неясно даже интересно оно мне или нет.
>>652481Мое личное определение такое: ML - это когда у тебя есть куча данных (тексты, картинки, таблицы) и тебе хочется ответить на какой-нибудь вопрос релевантный данным. Определять по картинкам кошка там или собака или по логам действий пользователя на сайте пытаться предсказать купит он что-нибудь или нет.
А я курс по машинлернингу проходил на курсере. Английский у меня хуевый, поэтому смотрел с русскими сабами, которые кончились примерно на нейросетях. Похуй, стал смотреть с английскими сабами - в принципе тоже норм. Но потом, когда пошли алгоритмы классификации, пошел адовый рассинхрон сабов и звука. А еще дедлайны по домашкам. Забил хуй сразу. Но воспоминания теплые остались. Теперь можно хвастаться ерохинам, что можешь написать программу, которая сможет рулить машиной.
>>652599Эээ, не, разве что теоретической игрушечной машинкой. Пока ты на курсерных яве/питоне будешь анализировать что за хуита у тебя на дороге уже 5-х человек собьёшь, если раньше свопы не начнутся.
Джва года ждал этот тред.
>>652612Ну я же не про гуглмобиль говорю.А там они просто взяли изображение с камеры на крыше 20*20, чистую черную дорогу на фоне зеленых лужаек, прихуячили к рулю привод и покатались минут 10, обучая. Потом уже машина сама рулила нормально. Никакого управления скоростью/тормозом не было. Реализовано было через 400 входных нейронов (по пикселю на каждый), двумя хайденлейрами и n-му числу выходов, соответствующих углам поворота рулевого колеса.
ЕНОТОВА-ТО УЖЕ НА KAGGLE ПЕРВЫЕ МЕСТА БЕРЕТ, СКОРО КАНДИДАТСКУЮ ПО ИЕРАРХИЧЕСКИМ МОДЕЛЯМ ЗАЩИТИТ, А ТЫ ВСЕ СИДИШЬ НА СОСАЧЕ КАК СИСАДМИН
>>652628А теперь приспустись-ка на землю с теоретических небес, и расскажи:а) Какая там железка, с тамошними ограничениями в электричестве;б) На чём это всё всё же реализовано (желательно с пруфами);Судя по тому что я нашёл - там кроме камеры ещё 2 десятка датчиков со всех сторон и расчёт пути происходит на сервере, а физическое железо просто перестраховка от людей/машин/кошек, что какбе не очень подходит под описание "самоуправляющегося" автомобиля.
>>652641Пикчи из гугла отвалились.
>>652641Ты думаешь, что я перед тобой начну щас оправдываться, дабы не прослыть петухом от мира машинлернинга? Я же сказал, что дропнул эту хуиту на середине. А про руление машинкой я сказал, потому что примерно понимаю как это говно работает. Плюс ко всему можно выебываться перед ерохинами, круг интересов которых ограничивается машинами и их ремонтом.
Оп, вижу ты в теме понимаешь, поясни одну вещь. Была такая тема, еще в совке - GMDH или МГУА - метод группового учета аргументов. Нечто вроде подхода к построению алгоритмов полиномиальной регрессии с постепенным усложнением и отбором лучшего варианта по критерию минимизации функции качества. Частный случай, н-р, полиномиальные нейросети. Годная же вроде тема, почему не взлетело?
Вроде взлетело.Вспомнил еще ШАДовские лекции: https://yandexdataschool.ru/edu-process/coursesЛекции Воронцова - вин. Правда без семинаров они не совсем полноценные, но теория изложена гладко и четкео.Все лекции ШАДа охуенны, надеюсь они скоро выкатят в паблик больше курсов.
>>652656Впервые про такой метод услышал. Прочитал на вики и осталось странное ощущение, будто это просто иное название для комбинации basis set expansion и индуктивного алгоритма обучения. Мне кажется, оно не "не взлетело", а перекочевало в разные алгоритмы и сейчас просто имеет другие названия.
>>652689>Мне кажется, оно не "не взлетело", а перекочевало в разные алгоритмы и сейчас просто имеет другие названия. Там довольно общая формулировка задачи, под которую подходит почти все что угодно вплоть до генетических алгоритмов. Но именно в изначальной форме оно по-моему, сейчас нигде не используется. Есть какая-то платная ебала с нереальными ценами https://www.gmdhshell.com/buy При том, что метод в свое время был достаточно разработан.
Хороший тред, сам сейчас хочу написать курсач/диплом по распознаванию лиц. С каких статей можно про это начать копать?
долбоёбы, хули тут ещё сказать. Систематизаторы, учёные блять доморощенные. Встретимся в макдональдсе за кассой
>>652732Пока понял что делать это нужно через применениеhttps://en.wikipedia.org/wiki/Principal_component_analysisА потом уже с небольшим количеством параметров применять какой-нибудь диплернинг или интерполяцию, верно?
>>652732уже миллион таких дипломов, статей, книг. Всё всё что можно было изучено, этой теме уже 80 лет.Нужны новые, прорывные вещи.
>>652746>>652738Статистикой, вариационным исчислением, дифференциальными уравнениями, да даже натуральными числами занимались со времен царя гороха и до сих пор занимаются. Покормил долбоеба.
>>652720Что там имеется ввиду под изначальной формой? Если я правильно понял, без эвристик в этом методе произойдет комбинаторный взрыв и жуткий оверфит уже на первых шагах. То есть per se его взять не получится. Ну а отсечение эвристиками приводит к уже известным под другими названиями методам. Тот же SVM RBF - это регрессия на полиномы бесконечной степени с регуляризацией, которая не дает произойти такому пиздецу как в чистом МГУА.>https://www.gmdhshell.com/buy Это что-то уровня C5.0/See5 - за гранью добра и зла.>>652732https://habrahabr.ru/company/synesis/blog/238129/
>>652767ОП
>>652767>Что там имеется ввиду под изначальной формой?Полный степенной полином. Он разбивается на частные, комбинации которых оцениваются.>без эвристик в этом методе произойдет комбинаторный взрыв и жуткий оверфит уже на первых шагах.Там нечто типа функции приспособленности в генетических алгоритмах. Причем, они составные, не только среднеквадратичная ошибка, но и другие критерии.
>>652789Ага, упустил этот момент, картинка годная.>комбинации которых оцениваютсяКоличество комбинаций будет неимоверно велико при количестве исходных переменных >~20.>Там нечто типа функции приспособленности в генетических алгоритмах. Причем, они составные, не только среднеквадратичная ошибка, но и другие критерии.Это плохо. Даже если чуть-чуть усложнить метрику ошибки и отойти от известных L1, L2, 0-1 или exp, то функция потерь перестает быть дифференцируемой и методы оптимизации перестают работать в принципе.
>>652833>Количество комбинаций будет неимоверно велико при количестве исходных переменных >~20.Нет, оно даже при 100 переменных работало нормально, причем еще на тех совковых ЭВМ. Там не полный перебор всех вариантов, а комбинаторика по некоторой схеме. Я вот сейчас думаю как нечто подобное на R сделать с помощью генетических алгоритмов, чтобы полиномы генерировались в виде таблицы, которая бы подкладывалась генетическому алгоритму в виде пространства поиска (в варианте permutation, на перестановку элементов таблицы), а функцию приспособленности задать как какой-нибудь критерий, обычный для МГУА. В R есть некий пакет "GMDH" https://cran.r-project.org/web/packages/GMDH/index.html но там хуйня хуйней, нечто вроде полиномиальной нейросети, причем нельзя даже получить коэффициенты модели я у автора спрашивал.
>>652876Тащем-та мне нечего добавить к вышесказанному. Применение эвристик так или иначе приближает МГУА к уже существующим методам.Попробуй, может выйдет что-нибудь годное. Вон китаец (https://github.com/dmlc/xgboost ) взял и написал пару лет назад градиентный бустинг на деревьях. Казалось бы - чему тут взлетать? В итоге это сейчас самая сильная библиотека с нелинейным методом для общих задач. Тоже всяких эвристик накрутил хоть жопой жуй - но работает же!
>>652876>Я вот сейчас думаю как нечто подобное на R сделать с помощью генетических алгоритмов, чтобы полиномы генерировались в виде таблицыИ да, посмотри вот это, может поможет чем-нибудь:http://topepo.github.io/caret/GA.html
>>652481ML have no tasks.USA university and researching groups use this shit (like they always do) and have some impressive results at recent years. All the geeks going crazy about that and start hyping: "It's a future technology, I'm going to be a new Bill Gates in ten years!!!". Coursera printed 100500 data science courses for making money on idiots. Thats all.All the real market is 10 vacancies a year in all Russia. And 8 of it requires doctor degree in math and be here 10 years ago (called "analytics").Sorry for English. I install Linux and now don't know how to change language. Shitty OS, I hope none of my brothers didn't die.
>>652940Вся суть /pr
>>652946Cheeseburger and big cola, please!
>>652940Да да, вместо того, чтобы зайти на транслит.ру ты решил выебнуться английским. Не удивительно, что у тебя работы нет.
>>652950I make 10 errors in every sentense, how it can be VIEBNUTSIA?
>>652940Как по мне, так ML вышел из застенок универов и является группой уже промышленных техник и технологий. Не совсем понятны слова про 10 вакансий в год. Если под вакансией в ML считать state-of-the-art в каких-нибудь нейронных сетях, то да, таких может быть десяток. Но обычно имеются ввиду навыки работы с данными и владения инструментами типа питонячих библиотек, Sparkов и прочих обвесов - таких вакансий валом.
>>652660Воронцов мудила, он студентов на ВМК гнобит.
оверхайпнутая параша
>>652940Твой английский это просто лолыч. Ты хоть документацию осиливаешь?
>>652738История из жизни: хотел я повесить недавно 100 табличек с номером телефона моего не айти бизнеса на столбах, спам такой что таджики срезают раз в сезон, быдлее быдлового, для речь не о том. Чуть голову не сломал гадая где их вешать что бы водители видели. А сейчас я бы просто попарсил пару недель Яндекс пробки и в хуй не дул.
>>653164>статистика>оверхайпнутая парашанайс история.
>>653055Это на ВМК студенты мудилы скорее.
>>653188Это два разных скилла. Я даже на слух английский понимаю относительно неплохо, а когда писать начинаю, получается чуть лучше, чем у него.
>>653380Такая же хуйня, не знаю как с этим бороться.
>>653380Двачую. Читаю и пишу хорошо, зато как рот открою, получается максимум: ГРЕЙТ БРИТАН ИС ЗЕ КЭПИТАЛ ОФ ЛАНДАН
>>652472 (OP)>Опять про компиляторы. И я не шучу. Хотите начать в этом разбираться - зацените как устроен компилятор Python. AST - это абстрактные синтаксические деревья для разбора грамматик. В гугл, открываете доки и вперед!Книгу бы дракона добавил, это же буквально библия!
>>652660>yandexdataschool.ru>504 Gateway Time-outПостоянно какая-то ошибка на их сайте.
>>653474>yandexdataschool.ruХз, может ширина канала узкая? Там на все глагне видео грузится. Попробуй сразу на https://yandexdataschool.ru/edu-process/courses перейти
>>653557Главную грузит, а другие нет.
>>653560Репортнул админам, не знаю кто в воскресение будет шевелиться, больше ничем не могу помочь. У меня наоборот, курсы грузятся, а главная нет.
>>652920>Вон китаец (https://github.com/dmlc/xgboost ) взял и написал пару лет назад градиентный бустинг на деревьях. Казалось бы - чему тут взлетать? В итоге это сейчас самая сильная библиотека с нелинейным методом для общих задач.А что это вообще, если в 3х словах? Пейперов уже накачал, обязательно почитаю, чувствую что какая-то годнота. Это случайно не типа МГУА?
Есть что-нибудь по гугловскому TensorFlow? Кроме ссылок на туторы с оффсайта естественно.
>>653649курс udacity по deeplearning
>>652660Мне в свое время Воронцов (он моим научником был) советовал курс на курсере от High Economic School.Курс оказался отвратительным :(
>>653741Этот?https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie
>>653746Да, он самый
>>653756Да, мне тоже не понравился, хотя другие их курсы вполне себе ничего.
В ML матешу нужно знать?
>>653746>>653756Странно, что ты написал "в свое время", хотя курс двухнедельной давности. На курсере есть такая проблема: сложность курсов ограничена сверху, причем сильно ограничена. Поэтому на ней выложены какие-то говеные остатки нормального курса. >>653639Если коротко, то это градиентный бустинг, написанный на крестах. Быстрый, с кучей оптимизаций. Кое-как паралеллится - редкое свойство для нелинейных моделей.Бустинг - это когда на шаге m мы имеем композицию из m-1 классификаторов, считаем ошибку этой композиции, строим m-ый классификатор на полученных ошибках и затем добавляем его в композицию классификаторов. Каждый следующий классификатор уменьшает ошибку всей композиции классификаторов. Слово градиентный в этом случае относится к способу построения композиции. Если не ссышься матана, то ступай в книгу EoSL, часть 10.2 (хотя имеет смысл всю главу прочитать). Ссылка на скачивание книжки в первом посте.>>653649Что-нибудь - это как-то жирно. Есть отдельные статьи по сверточным (всякие текстурные сети и прочее) и энкодерам-декодерам (word2vec). Сами мы как-то запускали все это говно на Кеплерах и даже получилось, правда на статью это не тянет. Но все вываливать я не готов, материала до пизды, спроси лучше конкретнее.
>>653776Метка отваливается постоянно, сука.
>>653768нее и так все чики-пуки)
>>653776>EoSL, часть 10.2 (хотя имеет смысл всю главу прочитать).Спасибо, обязательно гляну.
Тута tensorflow упомянули. Оно у вас вообще работает? Ставил по мануалу с сайта, запускаю пример оттуда же и пикрелейтед. Это можно считать нормальной работой? Всегда с подозрением относился к пистонопарашам, если честно.
>>652738Двачую.На программаче вообще странная субкультура сложилась. Реальных востребованных профессий (пхп, фронтенд, дотнет, 1С) все избегают и считают зашкваром. Вместо этого все отыгрывают гиков и ученых, учат датасаенс, функциональное программирование, С++, всякие новые никому не нужные языки.Наверное это потому что тут большинство не хотят стать реальными специалистами в реальном мире и вообще из дома выходить не хотят. Вместо этого мечтают и занимаются эскапизмом. Своего рода ММОРПГ для тех кому за 18. Только вместо левелапов - новые никому не нужные технологии и языки.Ну тащемта мне лучше. Меньше конкурентов - больше зарплата.Изучайте дальше свои хаскели и нейросети и мечтайте, что когда-нибудь вы станете востребованными специалистами. И смейтесь над пхп-шниками и 1С-никами, которых берут на работу уже после пары месяцев обучения. Они ведь - неудачники, а вы - элита, правильно?
>>653952ЯННП.>Оно у вас вообще работает?Да.>Это можно считать нормальной работой?Да. Что тебе не нравится?>Всегда с подозрением относился к пистонопарашам, если честно.Ну причем тут пистонопараша? Весь tf написан на крестах, а на питоне только удобная обвязка.>>653966Кесарю кесарево. В остальных тредах (пхп, фронтенд, дотнет, 1С) сидит куда больше народу, чем здесь. Субкультура какая-то, большинство - это о чем вообще. Мы пытаемся тут сабж обсуждать, вроде даже получается; какие проблемы, офицер?>Вместо этого все отыгрывают гиков и ученых, учат датасаенс, функциональное программирование, С++, всякие новые никому не нужные языки.Намешал в одну кучу и людей и коней.>реальными специалистами в реальном миреЛовко ты тут всех задетектировал. Расходимся, хиккари.
>>653966Подрастешь еще чуть-чуть, и перестанешь противопоставлять Спп с ФоПэ и фронтенды с вебыми, я гарантирую это.
>>653966>Ну тащемта мне лучше. Меньше конкурентов - больше зарплата.>Весь пост пытается обосрать ML.Манек, ты на ноль делишь. Тебе не лучше. У тебя пердак на ровном месте подгорел, среди всех нас тебе хуже всех сейчас. Очередные вопли маньки-неосилятора.
>>654087Это у него так сознание пытается защитить себя от батхерта, что выливается в маня-мирок. Лучше бы он голову в унитаз прятал.
>>653966Чумазый пиздёныш с громкой отрыжкой и отчаянным воплём ввалился в комнату, где господа почивали после сытного завтрака. Битордик ошарашенно вылупился на удивлённых сэров, за пазухой у него явно было что-то запрятано. Ну, что у тебя там, зассыха? - снисходительно промолвил самый молодой из господ. А-а-фоть - заикаясь промямлила замарашка и трясущейся рукой вывалила на дорогой персидский ковёр кучу смрадного свежего говна. Лица элитариев побагровели от такого неслыханного безобразия. Камёрдинера сюда, живо! - воскликнул опять же самый молодой и самый вспыльчивый из них. Оказия сия окончилась, как можно безошибочно предугадать который раз не в пользу плебса, оно и к лучшему, не место черни среди высшего общества.
>>654120Схоронил.
На мой взгляд, анализ данных это все-таки пока что чрезмерно популярная и распиаренная, а потому дурнопахнущая область знаний. Деньги там крутятся бешеные, вместо придумывания качественно новых методов обычно выгоднее привычным движением нахуярить random forest и дрочить коэффициенты до прихода к успеху. Из-за этого теоретическое развитие ее уныло и медленно, а большая часть научных работ отдает бревнологией. Пока это всех устраивает, такое положение вещей сохранится, и вкатываться в это дерьмо - не самая лучшая идея. Тем не менее, разумеется, это в любом случае гораздо лучше крудошлепства, а бугурт отметившегося выше холопа-1Сника - подтверждение тому.
Стоит ли начать обмазывание ML? Можно найти работу в этой области где-то кроме яндекса?
>>654132Частично не соглашусь. Да, есть хайп вокруг этой области. Но по мне, здесь уместно сравнение с вебом. Веб в нулевые переживал хайп, называемый сейчас бумом доткомов. Однако сама по себе технология была охуительна вне зависимости от хайпа, а после сдутия пузыря веб вошел во время сбора плодов - ровное, продуктивное развитие, давшее нам гуглы, фейсбуки и прочие амазоны.ML тоже уже готов дать в ближайшие годы решения для автопилотов, дизайна лекарств, вопросно-ответных систем, систематизации знаний. Поэтому вкатываться в это дерьмо стоит при условии серьезности подхода. Не стоит расчитывать прочитать одну книжку и сразу вкатиться. Идеально, если вы угораете по ИИ и мозгам, а также по статистике и программированию, тогда не стыдно и жизнь с этим связать.>а большая часть научных работ отдает бревнологиейЗависит от того, откуда ты берешь эту большую часть. Я периодически просматриваю arxiv и как раз таки работы по ML обычно отличаются неординарностью. Конечно, это не гравитационные волны, но новизна в них точно есть.>>654141В ДС можно найти. Яндекс, мейлру, касперский, несколько биоинформатических компаний (iBinom, можно еще blastim.ru поскролить на тему работы), билайн (они с НГ целое подразделение открыли под ML и биг дату), связной. Ну и западные аутсорсы, если готов рачить за валюту.А вот стоит ли начинать обмазывание себя лучше спроси. Порешай тестовые контесты с кегла, чтобы понять нравятся ли тебе прикладные задачи или нет.
>>654153Освятил.
>>653328две формы лжи, братишка
>>654157Две формы лжи в глазах смотрящих. Сама по себе статистика беспристрастна.
>>654157>триquckfix
>>653966маня, 99% работы в твоих "востребованных профессиях" это заунылейший однотипный дроч с пониженной интеллектуальной составляющей, сродни перекладывания бумажек в офиседа, ты не ослышался, пхпист, 1Сник, яваиндус, дуднечик = офисный клерксамое комичное ещё и то, что подобные языки максимум простые и тупые, оттого и средства программирования предоставляемые ими чрезвычайно убогие и говёные, не позволяющие прозрачно выражать свои мысли и нормально решать задачито есть какой нибудь пхпист - не просто клерк, он ещё и клерк в конторе с отсутствующей современной оргтехникой, средствами автоматизации и т.д, ну типа 45летней бухгалтерши тёти Груни из рашкинской мелкой госконторы с тысячами бумажек, папочек и т.д.
>>654153Походу какая-то рутина. А можно ли где-то связать жизнь с криптографией и алгебраической/алгеброгеометрической теорией кодирования?
>>654192Даже не столько рутина, сколько неинтересно мне. Не люблю я эту статистику и мозги. Мне нравится алгебра, криптография, ассемблер и эксплоиты.
>>653966нононо, я пхпшник меня даже после пары лет обучения не берут, так что завали варежку - лучше мачин лернинг буду изучать и работать продаваном, как все.
Оп, кидай сразу ссылки на бесплатные эти книги в сети.
>>654153Ты умничкаНет, правда
Кто нибудь читал? Есть отзывы?http://www.spbdk.ru/catalog/1058135.html
>>653966>востребованными специалистамиСамое забавное что корреляция между востребованностью и сложностью - вещь мифическая. Хуй угадаешь короче кому ты и чем можешь платно услужить, и если сегодня у тебя всё хорошо, то что будет завтра. Полагаю многие здесь целятся в гугл или хотя бы яндекс чтобы дяди дали нескончаемый поток задач приближенных к науке.
>>652646> Плюс ко всему можно выебываться перед ерохинамиНа этом месте перестал читать дауна
А вообще насколько полезно читать все эти книги? Вот я бишопа открыл, полез какой-то матан. Я к тому, что вот читаешь сидишь эти буковки, не продуктивнее ли тупо скачать какую-нибудь библиоетку под нейросети и сидеть ее ковыря? Т.е. то же время ты мог потратить на кодинг вместо разжевывания букв. Ну наверное их стоит читать только тем, кто уже итак кодит на коммерческой основе для разминки мозгов?
>>654153>Зависит от того, откуда ты берешь эту большую частьРазумеется, светлые головы есть всегда, я же не отрицаю. Но периодически листаю machinelearning.ru, слушаю посонов с ММП-кафедры и из вышки, ну ты понял. И складывается впечатление, что если в матлогику или, скажем, в какую-нибудь теоретическую физику идут люди действительно увлеченные, с горящими глазами, то тут положение прискорбное. Все валом валят в БИГДАТА, потому что модно, и вообще Ерохин уже на конференции ездит. Олдфаги нагружают молодняк неинтересными задачами, а те и не против, чувствуют себя приобщенными зато. И все это приправлено фантазиями об успешных стартапах, пиаром от Бобука, рекламой ШАДа на каждом заборе и толпой PhD с предсказанием цвета медвежьего кала по годам и географическим широтам в диссертации.
>>654153>ML тоже уже готов дать в ближайшие годы решения для автопилотов, дизайна лекарств, вопросно-ответных системЯ скептически смотрю на такие утверждения. На мой взгляд, сам подход, лежащий в основе ML, порочен. От детальной декомпозиции предметной области, понимания и воспроизведения всех деталей в модели, люди переходят к упрощенным моделям-черным ящикам.>Хайра рассказывал долго и сбивчиво. Саул подгонял и подправлял его. Дело, по-видимому, сводилось к тому, что местные власти пытались овладеть способом управления машинами. Методы при этом использовались чисто варварские. Преступников заставляли тыкать пальцами в отверстия, кнопки, клавиши, запускать руки в двигатели, и смотрели, что при этом происходит. Чаще всего не происходило ничего. Часто машины взрывались. Реже они начинали двигаться, давя и калеча всё вокруг. И совсем редко удавалось заставить машины двигаться упорядоченно. В процессе работы стражники садились подальше от испытываемой машины, а преступники бегали от них к машине и обратно, сообщая, в какую дыру или в какую кнопку будет сунут палец. Всё это тщательно заносилось на чертежи.Да, так легче, дешевле, во многих случаях продуктивнее. Но ты заметил, насколько чаще стали происходить подобные диалоги: "Ух ты, точность 97%, как ты это сделал?" - "А хуй его знает, коэффициенты удачно подобрал". Какой толк от создания искусственного интеллекта, если мы не будем понимать, как он работает?
>>654497Обычно чтобы мозг у ученика не взорвался, талантливый преподаватель придумывает плавную подачу материала. В итоге ученик осваивает предмет быстро, эффективно, без каши в голове и фрустрации. Быть сам себе преподавателем непросто, но этому тоже можно научиться.
>>654153Не прошел собеседование в Билайн как раз перед новым годом, спрашивайте ответы.
>>654728Может в формате кулстори расскажешь?
>>654729Каглохолоп-самоучка, в недавнем типа-кагл соревновании от билайна (проходило на хабре, если кто не в курсе) занял BRETTY GOOD :DDD место. Соответственно, связались, запросили код из соревнования, потом было кратенькое собеседование, где вскрылось, что у меня нет коммерческого опыта работы вообще. В связи с этим, дали еще одно маленькое задание, сделал, отправил только питоновский скрипт. Через почти три недели молчания сам с ними связался - оказалось, что еще нужно дослать что-то типа отчета с описанием основных шагов (с комментарием, мол, "xgboost мы и здесь запускать умеем", будто я не на джуна апплаился). К тому времени нашел работу в своем мухосранске (не связанную с датасаенс вообще никак), и забил. О чем теперь очень жалею.Надо сказать, что вообще весь процесс общения был очень затянут. Видимо, сказались запуск нового отдела (про который анон написал выше) и их школой.
>>654192>>654196Тут я не в теме, бро. Из коммерческого что-то похожее есть у вирологов в Касперском - ассемблер и эксплоиты плюс немного криптографии. Но туда отбор как в космонавты. Остальные места - это, скорее всего, лаборатории соответствующих кафедр. Я даже не знаю куда сегодня податься криптоаналитику в коммерции. Коммерсам, если надо, проще увеличить разрядность ключа в два раза, чем какие-то теоретические изыски проводить.>>654218Секрет Полишинеля: http://libgen.io>>654239Спасибо>>654497Здесь все так же как и в остальных областях. Хочешь программировать - программируй, а если хочешь писать языки программирования, то волей-неволей прийдется теорию подтягивать. Хочешь просто освоить полезные тулзы и уметь сваять какую-нибудь регрессию, чтобы все охуели как ты можешь - качай либы и тренируйся на https://www.kaggle.com/c/titanicА если ты угораешь по вещам, находящимися под капотом, то прийдется овладевать матаном.>>654505> Все валом валят в БИГДАТА, потому что модно, и вообще Ерохин уже на конференции ездит.Что-то такое есть. Но это не должно застилать глаза. ML не о кегле и толпах бигдатеров. КМК, ML - это про движение к слиянию человеческого и машинного.>>654540>От детальной декомпозиции предметной области, понимания и воспроизведения всех деталей в модели, люди переходят к упрощенным моделям-черным ящикам.Модель всегда является упрощением реальности и черным ящиком до некоторой степени. И не всегда детальная декомпозиция - это хорошо. Если попытаться детально декомпозировать задачи машинного зрения, то ты утонешь в деталях; в то время как сверточные сети и их обучение на задачах зрения делает декомпозицию такого уровня, которую мы еще можем понять своим мозгом. Другой пример - научные статьи. Каждая статья - попытка людей детально в чем-то разобраться. Способен ли один человек в мире или хотя бы группа людей разобраться во всех статьях, выходящих в печать сегодня? Думаю, нет. А способен ли систематизировать эти знания ИИ в скором времени? Думаю, да. Человек уже не может охватить всего и, так или иначе, нам прийдется полагаться на черные ящики.>Какой толк от создания искусственного интеллекта, если мы не будем понимать, как он работает?Люди не понимают как работает большинство из того, чем они успешно пользуются. А во-вторых - имхо, проще понять как работает существующий ИИ, чем интеллект человека.>>654728>>654749Тоже участвовал, лол. Хотя участием это тяжело назвать, в начале соревнования посмотрел на гистограмы, покрутил ручки у xgboost пару часов и забил, потому что не люблю это дело. Занял место в топ-10, потом звонили - не пошел, потому что работа есть уже.Можешь просто так подать им заявление, если жалеешь. Это нормально.P.S. Если дотянем до бамплимита и будет перекат, то поправлю шапку - добавлю инфу про кегл для тех, у кого руки чешутся, и про книгу дракона.
>>654774Традиционно освятил.
>>654087>>654109>>654132>>654120>Пытаешься помочь безработным эскапистам, ведущимся на хайп, принять правильное решение в выборе направления профессионального развития>Говорят, что тебе припеклоOkay>>654176> работы в твоих "востребованных профессиях" это заунылейший однотипный дроч с пониженной интеллектуальной составляющей, сродни перекладывания бумажек в офисе> пхпист, 1Сник, яваиндус, дуднечик = офисный клерк>подобные языки максимум простые и тупые, оттого и средства программирования предоставляемые ими чрезвычайно убогие и говёныеВот об этом я и говорил. Типичный представитель /pr . ЧСВ до облаков, всех реальных специалистов считает говном. Себя считает намного умнее и талантливее всех этих людей, поэтому из принципа не хочет заниматься тем, чем занимаются они.При этом игнорирует тот факт, что он живет на мамины деньги и его самого никто не возьмет на вакансию пхп-джуна (потому что он не осилил херову тучу веб-технологий и фреймворков).Эскапизм сферический в вакууме.>>654357>Самое забавное что корреляция между востребованностью и сложностью - вещь мифическая.Корреляция скорее обратная. Чем выше коэффициент эффективность/сложность, тем активнее область/технология развивается, вытесняя все конкурирующие области. Потенциально мощные, но неоправданно сложные технологии никогда не приживаются, ими занимаются единицы энтузиастов в качестве хобби, либо (если им очень сильно повезло) за деньги в топовых университетах и организациях уровня Гугла. И какой процент таких счастливчиков? Это то же самое, что сказать: "Шварценеггер накачался и стал успешным, значит мне тоже нужно качаться". При этом тот факт, что 99.9% накачавшихся никак свою жизнь не изменили и впустую потратили время - упрямо игнорируется.
>>653741Курс и правда плохой, интересно, много ли бросило
>>654774>Тоже участвовал, лол. Хотя участием это тяжело назвать, в начале соревнования посмотрел на гистограмы, покрутил ручки у xgboost пару часов и забил, потому что не люблю это дело. Занял место в топ-10, потом звонили - не пошел, потому что работа есть уже.Значит нас уже двое тут из топ-10, сидящих на зекаче. Какова вероятность? Если не секрет, что за работа? Пили стори. На кегле тоже не участвуешь? Не ради чесания рук, так ради денег Как я понял, с опытом проблем нет у тебя.
>>654023>Да. Что тебе не нравится?"Killed" в конце не понравилось. Но вроде и правда работает, пример с cifar10 пока не вывалмлся с ошибкой. А вот тут http://datareview.info/article/tensorflow-razocharovyivaet-glubokomu-obucheniyu-ot-google-ne-hvataet-glubinyi/ говорят, что свободная версия не поддерживает масштабируемости:>Кроме того, есть вопросы по поводу масштабируемости (а точнее, ее отсутствия). Название официальной публикации, посвященной TensorFlow, звучит следующим образом: «TensorFlow. Крупномасштабное машинное обучение в гетерогенных распределенных системах» (TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems). Однако версия с открытым исходным кодом выполняется только на одном узле.
недавно купил книжку бишопа, сижу по вечерам читаюдо этого читал "First Course in Machine Learning" и "Learning from Data" (половину где то, не особо понравилось)
>>653649>Есть что-нибудь по гугловскому TensorFlow? Кроме ссылок на туторы с оффсайта естественно. В марте обещают книжку http://www.tensorflowbook.org/ надеюсь бесплатно, а то когда еще на либгене будет
>>654853Интересно почему так. В ШАДе курс доставлял. То ли Воронцов скатился, то ли курсера упростила программу.>>654928>Если не секрет, что за работа? Пили стори.Не секрет, Я. Какие стори пилить не знаю. Да и нельзя особо растекаться.На кегле участвую только в чем-нибудь новом для меня, да и лишь когда время есть. Раньше чаще зависал. Руку набить помогает, но в десятый раз сидеть и перебирать параметры по сеточке уже надоедает, а некоторые контесты только так и решаются.>К тому времени нашел работу в своем мухосранске (не связанную с датасаенс вообще никак), и забил. О чем теперь очень жалею.Ну так и продолжи собеседоваться нахуй. Дошли что просили, сопроводи письмом. Они вроде до сих пор народ набирают.>>654997Killed пушто там демон поднимается под капотом, его SIGKILLом и вырубают после завершения действий.>свободная версия не поддерживает масштабируемостиИ да, и нет. У гугла есть сетевая версия, она действительно не в паблике. С другой стороны, масштабирование на GPU и на несколько процессоров запилено и работает.>>655991Охуенно же, правда никакой инфы в сети я не нашел. С другой стороны, у автора почти все принты в pdf выложены на личной странице. Хочется верить, что эта книга не будет исключением.
самый нормальнхый тред
>>652472 (OP)>компилятор Python>компилятор>Python(^:
>>657248А я-то думал, что тайной компиляции в x86 бинарник, помимо пропрьетарных жидокощеев, обладает только дедушка Столмэн и его верные адепты.
>>657248>компилятор PythonИсходник компилируется в байткод, что тебя так удивляет?
>>657254>>657257>>657248Да, то был llvm-фронтенд для Python с кусками из PyPy для оптимизаций.Это все было благой идеей, которая в дальнейшем столкнулась с реальностью в виде плохо переносимых numpy, scipy и всего того, за что мы любим Python.
>>656916>У гугла есть сетевая версия, она действительно не в паблике. С другой стороны, масштабирование на GPU и на несколько процессоров запилено и работает.То, что на нескольких процессорах локально работает, это понятно. Вот в этой http://download.tensorflow.org/paper/whitepaper2015.pdf статье пишут, что общий граф можно разбить на субграфы, которые могут выполняться на физически разных девайсах, и их взаимодействие реализовано через receive и send узлы, поддерживающие разные протоколы, в т.ч. ТСР. Так вот, эти узлы присутствуют в свободной версии?
>Programming>1. Python Unlocked.ОП, тебе правда нужна книга, чтобы кодить на питоне?Обсуждать сферический МЛ в вакууме скучно. Всю необходимую информацию можно найти за минуту в гугле. Новости все можно узнать из реддита. Лучше бы рассказал, что ты делаешь, или что тебе конкретно интересно.
>>657257То, что путон интерпретируемый язык, а не компилируемый?
>>657826Интерпретируемость - это как та или иная программа (компилятор или интерпретатор) работает с листингом кода, а не неотъемлемое свойство языка. Для того же C++ есть отличный интерпретатор Cint.>>657506>ОП, тебе правда нужна книга, чтобы кодить на питоне?Да, мне правда нужна книга, чтобы осознать некоторое мясо в питоне. Надеюсь понятно, что Python Unlocked не об основах языка. Например, в интернете на тот момент я не нашел ни одного внятного описания дескриптора и того, как это влияет на порядок обхода для извлечения атрибутов. Согласен, что в большинстве случаев нужно сесть и начать кодить, но в определенный момент времени есть риск выучить неэффективный подход и пропустить мимо эффективный. Либо ты можешь столкнуться с кодом, который невозможно понять без этих знаний.>Обсуждать сферический МЛ в вакууме скучно. Всю необходимую информацию можно найти за минуту в гугле.Так можно сказать про большинство тредов двача.>Лучше бы рассказал, что ты делаешь, или что тебе конкретно интересно.Так задавай вопросы мне и остальным, я с удовольствием расскажу что знаю.У меня большую часть времени занимает работа, про которую много и не могу говорить. Без конкретики - я защищаю сервисы Я и их пользователей от ботов. Кроме того, в свободное время пилю несколько побочных проектов разной степени тухлости и занимаюсь нейронными сетями для зрения. Один из проектов про автоматическое извлечение онтологий из текстовых данных: нужна универсальная тулза а-ля xgboost или vowpal на такой сорт задач. Второй - про сети добровольных вычислений, когда каждый участник сети все свободное процессорное время отдает в сеть, а взамен в любой момент времени может от сети потребовать большое количество процессорного времени на свои задачи. Иными словами, это про взятие вычислительных квантов в долг.>>657496Я еще раз проверил - в коде стоят заглушки на распаралеливание по физически разным девайсам. Выглядеть будет как with tf.device('/job:worker/...')Но кода еще нет, обещают выкатить, когда - неизвестно. Сегодня выкатили gRPC фронт для предсказаний под названием TensorFlow Serving. Тренировать пока все равно нельзя.Детали здесь: https://github.com/tensorflow/tensorflow/issues/23
>>658009>язык с неразрешимой грамматикой>отличный интерпретатор
>>658183>неразрешимая грамматика>Гугл 0 результатов, редирект на неоднозначную грамматику>пытается выебнуться, даже не понимая терминов>связывает качество интерпретатора с грамматикойНайс даун выполз.
>>657826>>658183Съеби уже, хуесос. Ты в каждом посте обсираешься.
> Нет, ML не оверхайпнутая парашамне припекло от этих молодых и смешливых
>>658408А почему это оверхайпнутая параша? Потому что так сказал какой-то онанимный долбоеб с подтирача?
>>658408шлюха с ласт пика руководитель отдела между прочим
>>658471НАСОСАЛА
>>658471Ты так удивлён, словно шлюха-руководитель отдела это пиздец какая редкость а не норма
Оп, а вот про это https://hama.apache.org/ что-нибудь знаешь? Вроде бы может в распределенную работу.
>>658009Ну вот про зрение расскажи, там же современные технологии используются. В чем суть, какие успехи. На гитхаб выкладываешь поделия?Использует ли яндекс глубокие НС в продакшене? Собирается ли? Если да, в каких системах?
>>658710дали блять спарк, нет будет дрочить хаму
Где по спарку можно почитать? Прям для дебилов от и до.
>>658408О, хуесос-Кантор уже тут. Уже заплатили 400 евро чтобы за 3 месяца стать СУПЕР ВАСТРЕБАВАННЫМ СПЕЦИАЛИЗЛОМ ДАТА СУЕНС ПРЕДСКАЗАТЕЛЕМ СТЕПЕНИ ТВЕРДОСТИ КАЛА ПО ОБУЧАЮЩЕЙ ВЫБОРКЕ РУЧНЫХ КУНИЦ???
>>654365Но ты почти дочитал.
>>659024>спарк,Хмм, не слышал про такое. Но там же нет deeplearning'a, только через сторонние библиотеки типа http://deepdist.com/ ?>>659236>Где по спарку можно почитать?Как-то так, наверное http://gen.lib.rus.ec/book/index.php?md5=7d95152846161d75c6937e058717ab83
А тем временем еще позавчера новый TensorFlow (0.7) зарелизили. Старые глюки исправили, добавили новые :3 Алсо, возможность распределенного выполнения пока жмутся вылаживать.https://github.com/tensorflow/tensorflow/releases Allow using any installed Cuda >= 7.0 and cuDNN >= R2, and add support for cuDNN R4 Added a contrib/ directory for unsupported or experimental features, including higher level layers module Added an easy way to add and dynamically load user-defined ops Built out a good suite of tests, things should break less! Added MetaGraphDef which makes it easier to save graphs with metadata Added assignments for "Deep Learning with TensorFlow" udacity courseКстати, под какой пистон его лучше ставить, под 2 или 3ий?
Есть еще такая тема - MXnet от того китайца, создателя xgboost. https://github.com/dmlc/mxnet Говорит, что круче TensorFlow и даже поддерживает мобильники, к тому же распределенная работа есть уже сейчас, а не потом когда Сирожа разрешит:>Comparing to other open-source ML systems, MXNet provides a superset programming interface to Torch7 [3], Theano [1], Chainer [5] and Caffe [7], and supports more systems such as GPU clusters. MXNet is close to TensorFlow [11] but can additionally embed imperative tensor operations. MXNet is lightweight, e.g. the prediction codes fit into a single 50K lines C++ source file with no other dependency, and has more languages supports. More detailed comparisons are shown in Table 2.
>>658009Ну так расскажи подробнее, какие прорывы?Вот на даггый момент я знаю, что буквы определять можно, причем разной степени сложности. Какое окружение используете, какие разработки?Просто все твое описание сейчас выглядит так:Я делаю нейросеть для определения текста - звучит скучновато, потому что это одна из непосредственных задач нейросетей.Ну и классика: хожишь на мит апы в М@ил.сру каждый год? Если да, то удалось подцепить оттуда что-нибудь годное: знания, связи?
>>658710Слышал, но не использовал. Судя по тому, что за 4 года они не зарелизили версию 1.0, развивается проект тухло. Spark доставляет гораздо больше, хотя меня до определенной версии очень заебывали постоянные эксепшены в лямбдах (Scala мы не юзали). Сейчас вроде все ок.>>659236https://www.youtube.com/watch?v=7k4yDKBYOcwhttps://www.youtube.com/watch?v=VWeWViFCzzgА вот про почитать не знаю.>>659463>Но там же нет deeplearning'a, только через сторонние библиотеки типа Глубокое обучение суть перемножение тензоров. Такое могут делать даже самые куцые системы. Другое дело в удобстве. И да, на Spark можно учить сетки, в mllib вроде собирались добавить такую возможность.>>659790И так и не влили коммит, врубающий GPU на маках. Аж трисет, уже два месяца как PR болтается с фиксами.>Алсо, возможность распределенного выполнения пока жмутся вылаживатьЕсть мнение, что они причесывают код и вычищают его от коммерческой тайны, это дело небыстрое.>Кстати, под какой пистон его лучше ставить, под 2 или 3ий?Ставь под третий, если не отягощен легаси.>>661127Буквы же были самой первой задачей, которую решили на сетях.>Ну и классика: хожишь на мит апы в М@ил.сру каждый год? Если да, то удалось подцепить оттуда что-нибудь годное: знания, связи?Нет, не хожу, мне внутрияшных событий хватает с головой. Связи как-то сами обретаются в процессе разработки, а с мейлом, ко всему прочему, есть отдельные контакты по линии противостояния ботнетам.И да, хорошо, я попробую рассказать про зрение в посте завтра или послезавтра. На это нужно время. На вопросы про работу не могу ответить. Могу разве уточнить что использовать глубокие нейронные сети в продакшене, если это не задачи зрения - оверкилл. Несложные куски типа натренированных энкодеров вероятно могут использоваться.
>>661336Освятил
>>661337Обоссал машинных гадателей.
>>661615Бампнул машинных богов
>>661336>Есть мнение, что они причесывают код и вычищают его от коммерческой тайны, это дело небыстрое.А что может быть коммерчески тайного в распределенном перемножении тензоров? Тайна полишинеля, лол. Вон >>661052 у некоторого китайца тоже распределенное выполнение, в т.ч. на мобильниках.
Посаны, а нужно ли учить кресты?
Такой вот вопрос - почему сейчас под "глубоким обучением" в основном понимаются сверточные сети? А как же стыкованные аутоенкодеры и машины Больцмана, вот это все? Уже не в моде?
>>664119Они проще. С аутоэнкодерами очень много возни, а результат неопределенный. К тому же когда стали использовать ReLU юниты вместо сигмоидов, оказалось что можно тренировать их с нуля, вместо инициализации с помощью аутоэнкодеров.
Уебывайте на свое Нибиру, рептилоиды аутоэнкодерные
Больше всего машинное обучение напрягает тем, что львиная доля прикладных применений - всякие античеловеческие проекты по превращению планеты в криптоантиутопию.
>>665396>античеловеческие проекты по превращению планеты в криптоантиутопиюДавно этого жду. А ты шел бы отсюда, петушок хипсторский.
>>665396>львиная доля прикладных применений - всякие античеловеческие проекты по превращению планеты в криптоантиутопию. Примеры? И почему это должно напрягать? Ты из этих что ли, "диды лаптем щи хлебали, чем мы хуже, нинужОн нам ваш инторнет"?
анон, подкинь инфы про Reinforcement learning
Может у ОПа, или у кого-нибудь еще есть мануалов по парсингу? Всплыла задача напарсить все ивеньы по заданной тематике по всей мурике на определенную дату. Обычные мануалы типа "распарсим кинопоиск 101" уже, получается, не подходят. Нужен какой-то более фундаментальный подход.
>>666245https://en.wikipedia.org/wiki/Web_scraping , не?
>>666224бамп
>>666245Selenium жи
Что-то совсем тред протух. Наброшу: сверточная сеть по-сути гибрид. Слои свертки и подвыборки это одна часть, полносвязная сеть для классификации - другая. Почему никто не догадался вместо полносвязной сети или enegrgy-based эвристик использовать что-то еще? Векторное квантование там, адаптивный резонанс, нечеткий вывод, вот это все?
>>668735Все что не дифференцируемо (а значит, не может в backpropagation ) - не нужно.
>>668895Но в бекпропагейшн очень много что может. В частности - все нечеткие модели.
>>668921Ну сделай, покажи результаты. Опубликуйся в архиве, выложи код под тензорфлоу на гитхаб, отрасти бороду и будешь почти своим в тусовке.
А в data science есть что-то типа вакансий джуниора? Вот я сейчас на 4 курсе, раньше какое-то время работал в энтерпрайзе и мне не особо понравилось. После универа надо идти работать, и я бы предпочел работу за еду в дата саенсе работе за нормальные деньги в энтерпрайзе. Но опыта у меня нет, только распознавал всякие цифры на kaggle и писал лабы в универе. Сейчас прохожу курс от шада на курсере. В матешу могу. В яндексы и гуглы меня, скорее всего, не возьмут, потому что я туповат и не особо задрот. Существуют ли не требующие неебического объема знаний вакансии в этой области?
>>670228Бамп вопросу от другого анона. Похожая ситуация, закончил бакалавриат, пошел в тыртырпрайз. Теперь понимаю как же это отсосно, все эти контроллеры, сервисы, вьюшки. Даже несмотря на заработок.
>>668921В нечеткой логике используется, как правило, какой-нибудь сигмоид, т.е. функция с насыщением, у которой градиенты на краях стремятся к нулю, это приводит к замедлению (вплоть до бесконечности). По этой причине перешли на ReLU, а ты хочешь вернуть сигмоиды.
>к замедлениюК замедлению обучения.
Ну чё, анончики, кто из вас уже сколько бабла поднял на этом дейта-саенсе?
>>670780Это такой же развод как и нейронные сети.
>>654749Буду очень благодарен, если расскажежешь кулстори как учился, какие материалы/курсы использовал.
>>670775Ок, сигмоиды в сверточных сетях и правда не нужны. Но вот там есть операция max-pooling, выбор максимального значения. Если там использовать не максимум, а какую-нибудь нечеткую параметризованную т-конорму?
>>671012Максимум очень быстрый на GPU (даже по сравнению с average pooling), а эффективность тут решает больше, чем йоба-алгоритмы. Хз, можешь попробовать, благо с theano это недолго, можешь и статейку напишешь.
Помогите дебилу пожалуйста. В машинном обучении я полный ноль, никогда не интересовался. Сейчас передо мной стоит практическая задача, которую нужно было сделать ещё вчера.Есть определенная функция - черный ящик, что внутри мне неизвестно, на вход принимает 5 чисел [-100, 100], на выходе единица или ноль. Есть огромная выборка данных для тренировки, требуется симулировать поведение этой функции на новых данных.Я не прошу решение, подскажите в какую сторону, по каким ключевым словам копать, желательно с примерами на java/python, любые библиотеки. Полностью погружаться в тему нет времени.
Подписался на тред. Только питоныч годен под эту сферу?
>>674794Делишь твою огромную выборку на 2 части - тренировочную и проверочную. На тренировочной тренируешь machine learning алгоритм классификации (их много, начни с SVM), а проверочной тестируешь, хорошо ли натренировалось. Питон? Начни отсюда - http://scikit-learn.org/stable/modules/svm.html
>>670957Кому нахуй моя кулстори нужна, если я даже работу еще не нашел?Все стандартно - случайно набрел на John Hopkins курс на курсере, потом сел на кагл. На кагле очень часто очень много инфы кидают на статейки. Изредка поглядываю другие курсы на курсере, обычно все сам гуглю. Пробел в знаниях размером океан. Оттого и не берут. Не будь как я, вкатывайся в шад какой-нибудь и зубри что дают.
>>675338Спасибо, что ответил. Я и не расчитывал на историю "из грязи в князи". Подумываю насчет вката из веб-разработки вот и интересно стало. Спасибо за совет.
>>674831>2016>SVMМожешь за этот алгоритм пояснить? Там какое-то сильное колдунство, я так и не въехал во все эти ПРОСТРАНСТВА ВАПНИКА-ЧЕРВОНЕНКИСА.
>>674812Нет, почти все есть под R.
>>675827Этот алгоритм хорош тем, что его можно рассматривать как черный ящик. Он очень прост в эксплуатации, даешь на вход классы, он выдает тебе оптимальную гиперплоскость, которая их разделяет. Все колдунство заключается в том, что такое оптимальная гиперплоскость и как ее построить (а также так называемый kernel trick который позвоялет вместо гиперплоскости использовать какую-то другую гиперповерхность). Посмотри как работает 2д случай для получения интуиции и сойдет.
Кто-то проходит на курсере "введение в машинное обучение" от вшэ? У меня там трабла. Нужно просто построить решающее дервео, которое будет предсказывать выживание на Титанике по признакам 'Pclass', 'Fare', 'Age', 'Sex' и сказать, какие признаки самые важные. Вот кодhttp://pastebin.com/0KNRxq8MНу я так понял, что самые важные признаки - это 'Fare' и 'Age'. При сабмите курсера не принимает и пишет> Обратите внимание как нумеруются признаки у feature_importances_.А как понять как они нумеруются? Нагуглить ниче не удалось. Я сделал предположение, что они нумеруются в таком порядке, в каком они были в оригинальном датафрейме, когда он только был загружен. Но так у меня тоже не принялось.
>>676044Успехов.
>>676116Не понял. Что из себя представляет dataobj? Почему у тебя такие значения feature_importances получились?Алсо, если я после своего кода допишу features.head(), то у меня там признаки в порядке Pclass Fare Age Sex.
>>676170Датасет надо чистить от nan потому что, dropna() функция такая есть. Вот такому значит порядку и соответствуют значения.
>>676170А dataobj это признаки как раз, коряво поименовал.
>>676195Так в коде, который я скинул, я все так и делаю.
>>676214посмотрел, неясно, отчего результат другой, наверно ты фартовый.)
>>676214Знаешь, что? Попробуй уже выделив из датасета целевой вектор и признаки делать дроп. Вот что. Только пусть они будут в одном подмножестве при этом, разделишь после.
>>675830Он уже на свалке истории.
>>676300Потому что ты так сказал? Очень весомо, да.
>>652472 (OP)ОП, спасибо за подборочку! Где учишься\работаешь?
Непроебамп
>>652481Матстат другими словами.
>>652472 (OP)Проиграл с пика. Машинное обучение ДЛЯ ХАЦКЕРОВ, лол.
>>652481Искусственный интеллект, самообучающиеся системы, rocket science. Чтобы двигать человечество вперед к светлому будущему и по ходу дела ссать на энтерпрайзных и веб-макак, ненужный биомусор и обслугу бизнеса.
>>679329И что смешного?
Каглогороховые мудилы просто заставляют умиляться https://www.kaggle.com/c/santander-customer-satisfaction Задача - классифицировать данные, 2 класса, матрица на 56 мб, триста с небольшим столбцов. Варианты, предложенные этими гейниями:- главные компоненты- мегагитлермодная китайская библиотека xgboost- диплернинг, ну куда же без него)))Рандом форест не заметил, но наверняка на втором-третьем месте после китайской параши. Все, что больше 2х лет назад появилось - нинужно и "на свалке истории". Ну кроме главных компонентов. Пиздец, деградантство.
>>679339Мда, пойду читать дискретку.
Видал аж целую одну вакансию на этом вашем машин лернинге, на жава. Тема интересная, но совершенно не коммерческая.
>>679412>Тема интересная, но совершенно не коммерческая. Дяде не продаться за копейки? Потеря потерь. На том же кегле соревнования от 25к, не рублей. Есть и 200к.
>>679420ну иди соревнуйся. только вот с реальным написанием самообучающихся структур это ничего общего не имеет. тема реально не финансируется. там нужны долгие годы самооубучения, которого у обычных крудоклепов нет, ибо доширак надо покупать на что-то.
>>679453>тема реально не финансируется.Ясно.
>>679462попил без результатов.
>>679462Это не количество AI проектов в Гугле, а количество проектов, использующий конкретный алгоритм.Раньше они, возможно, использовали другой алгоритм, например SVM.
>>679347Дипленинг появился больше 5 лет назад.
Простите, ребятки, что-то я обосрался с поддержкой треда. На скроллинг двачей времени вообще не остается. Я обещал подкидать инфы про зрение, но сейчас уже не буду точных сроков давать - сделаю как подразгружусь.>>663977Для исследований кресты не нужны, а вот пилить осязаемые системы - да, нужны. Мапредьюсы, аллокаторы памяти, йоба алгоритмы для оптимизаций в машинном обучении, etc.>>661747Это была внутренняя система гугла, с кучей говнокода и перекрестных ссылок с другими системами. Вычесать все это из кода есть расчистка авгиевых конюшен.>>670470У меня похожая ситуация была - работал в ява-говноэнтерпрайзе. Не в силах выдержать, сбежал оттуда, засел за книжки и через определенное время усердного задрачивания таки стал магом.Выше я кидал ссылки (CTRL+F связной), куда можно попробоваться тыкнуться на младшие позиции.
>>679990Расскажи сколько у тебя опыт работы программистом был, когда ты решил перекатиться, и сколько в деньгах потерял по сравнению с тем когда ушел из коммерческого программирования, и сумел ли по деньгам наверстать разницу и сколько примерно по времени это у тебя заняло.
ОП, ты охуенен, продолжай в том же духе. Подписался на тред.мимокрудошлеп
>>680026Если считать в говнерублях, то з/п выросла охуеть как сразу по переходу. В валюте же на 30-35% выросла, если сравнивать с последним рабочим местом. Плюс сейчас на работе социалка огромная, а на предыдущей она так себе была. Думаю, её можно рассматривать как +10-15% к з/п. Но есть пара моментов. Во-первых, я рачил на апворке и у друга-эмигранта по удаленке много времени. Все это позволило мне не стесняясь вписать себе стаж (кресты и питон) в резюме. Во-вторых - в промежуток между работами я успел бакалавриат закончить, может это еще как-то на з/п повлияло, хз.>>680247^.^
>>679347Деградантство это сидеть на свалке истории и в бессильной злобе потрясать тощими кулачонками в сторону уходящего вперед человечества. Ну то есть то что ты делаешь.
Этими вашими сетями можно раздеть одетую девушку? Почему еще никто не запилил?
>>684041Те кто могут это сделать не являются спермотоксикозными девственниками, а обычно снимают твою мамашу за даллары и ебут во все щели.
>>684585Хуйню спизданул. Любой человек хочет созерцать обнаженное тело, поскольку оно красиво. Погромизд нейронок не будет этого отрицать, поскольку он в большинстве атеист, а значит умеренный моралфаг. Еще такая сеть имеет коммерческий интерес.
>>684889Поэтому ему надо въебывать дохуя часов и сил чтобы получить то, из чего интернет итак состоит на 90%? Нахуй пошел, залетный даун.
>>684889Я не хочу, например. 99% тел уродливы, обвислые жопы, трясущиеся пузяки, всратые лица. На твоей вебмке ужасное лицо лупоглазое у тян, трясущийся ПУЗЯК и другие радости.О Т В Р А Т И Т Е Л Ь Н О
>>684916Да.>>684920А мне аниму отвратительна.
>>684931Мне и аниму отвратительна, щас бы нахуяченые на флэше мультики с одинаковыми плоскими персонажами но разными прическами посмотреть, эхх.Она все ещё отвратительна, если для тебя она ок, представляю какой ты всратый, кек
>>684041>Этими вашими сетями можно раздеть одетую девушку? Это и без сетей можно сделать. Тебе не дают != никому не дают.
>>684935Проиграл
>>684935Ты немного не понял. Есть такие тянки с которыми не светит ни тебе ни мне ну никак, а посмотреть на них хочется чисто в эстетических интересах.
>>685295А то ты там что-то уникальное увидишь.
Анончики, сейчас стартовали курсы на русском языке от МФТИ по теории графов, комбинаторике и теории вероятности. Ищите в списке курсов, есть поиск по универу https://openedu.ru/course/
>>687320А, ну и теория игр от них же, годная вещь для конструирования интеллектуальных агентов
На хаскелле есть чо?
Посаны, почему так? Я просто не представляю, с чем это может быть связано.http://pastebin.com/dGGLDSx7
>>688060Чудеса динамической типизации, наслаждайся гвидобейсиком.
>>658408Кто что скажет про этот курс и его инструкторов? Только по конструктиву, а не ТРАЛЕНК ТРАЛЕНК ))))))))
>>687320Фу, блядь, лектор колорадку носит.
>>688428Фу, блядь, живой хохол.
>>688441Не он, но русский и тоже называю это колорадкой. А лектору политические взгляды вообще не стоит демонстрировать.
>>689506У тебя двоемыслие какое-то.
>>689506Двачую.
>>689506Эта ленточка и была придумана в свое время, чтобы никаких политических взглядов не выражать. Если ты видишь тут политику, то ты хохол.
>>689533А в последнее время стала символом вполне определенных политических взглядов. Другой пример - свастика.
Ребзя! А как вы относитесь к етому петухану? http://blogs.barrons.com/techtraderdaily/2016/03/14/we-are-coming-for-you-tesla-and-you-too-google-says-hacker-hotz/Театральность таки привносит в ai. И правда, новый интернет наступает походу. Мне с дивана все видно
>>690207Его прога не строит аналитическую модель происходящего на дороге. Этим он здорово облегчил себе задачу, но доказать, что она знает и соблюдает все правила будет невозможно. Это тупиковая ветвь. Гугл сможет продолжать наращивать девятки в доле правильных решений, а он не сможет, потому что количество требуемого обучения будет рости экспоненциально, потребуется более мощный чип и т.д.Зато можно будет впечатлять инвесторов результатами и жаловаться на Маска, когда тот откажется признавать его поделие убийцей Теслы.Эта схема получения инвестиций давно отработана изобретателями вечных двигателей. Бегай себе вокруг прибора, рассказывай про неонку и про то, как тебя ущемляют проклятые учёные, да выпрашивай денег на новый специальный подшипник, с которым проклятое трение будет наконец побеждено.
На правах непроебампа, там некоторый китаец http://handong1587.github.io/deep_learning/2015/10/09/dl-frameworks.html запилил подборку ссылок на библиотеки и фреймворки для диплернинга.
>>688428Не гони на Савватеева, он няшка и хороший человек. Школьникам лекции по всей России читает (про группы). Пускай даже у него стольже экзотичные политические взгляды как у Вербицкого, только наоборот.
Есть кто помимо меня в данный момент участвует в blackbox соревновании ?
Зачем в нейронных сетях используется нелинейная передаточная функция ?В SVM ядро понятно, нелинейное преобразование пространства. В нейросетях такая же цель ?Или для условия дифференцируемости ? Или чтобы ограничить сверху ? Поясните плез.>>666224>Reinforcement learninghttps://github.com/junhyukoh/deep-reinforcement-learning-papers
>>700107Допустим она у тебя линейная.Первый слой, x0 вход, x1 выход, X0 - весаx1=X0x0Второй слой, x1 вход, x2 выход, X1- весаx2=X1x1Подставляем:x2=X1X0x0Т.е. "нейросеть" твоя оказывается тупым линейным классификатором, сколько бы у нее слоев не было.А теперь вводим нелинейность:x2=f(X1f(X0x0))Все, теперь уже так не получится.
>>652472 (OP)Не обращал внимание. У меня такие же пингвинчики есть)))
>>700142Первый слой является обычной линейной регрессией.Согласен.Дальше идёт линейная регрессия от каждого нейроная входного слоя и т.д.Это не объясняет почему используют функцию активации. Тот же ReLu это max(0,w), просто передаёт ноль если значение нейрона если он меньше нуля. Хотя если вставить просто линейную функцию, нихуя обучиться не получится. Где магия ?
Ида, ещё вопросЕсть способы с помощью нейросети обобщить функцию ?Допустим если мы предъявляем сети информацию которая не входила в диапазон обучения, то ясень красень поведение функции предсказать не получится. Можно ли как то это исправить, не преобразуя признак ? Рекуррентные сетки ?
>>700092Есть. Пробовал реализовать алгоритм deep Q-learning - не сходится, хотя это вроде его фишка, нужно много тюнить параметры, чтобы сошёлся. Хочу попробовать model-based подход, а у тебя какие успехи, анон?
Я вот нихуя не понимаю смысл этого машинного обучения. Скажем, имеется n точек (x, y) и по ним нужно найти неизвестную функцию. Каким образом решается что лучше, просто соединение точек линиями/линейная регрессия/нейронные сети/xgboost?
>>700364Аналогично, пробовал его, тоже не сходился (или сходился но слишком медленно, я так и не понял)Я думаю всё из-за того что в самом чёрном ящике интересная система вознаграждения. Там награда выдается не через каждый шаг, а за одно действие которое аккумулируют награду 4 предыдущих шагов, при том во время выбора действия во время этих 4 шагов награды получаешь ноль. (то-есть узнаешь правильный ли выбор через 4 шага)Тут возможно несколько решений. Добавить рекурентные связи, подавать на вход историю, или как то обобщать это всё. Я сейчас тоже пробую другим путём пойти, пока мучаю нейроэволюционные модели.
>>700367В курсе что любую функцию можно представить в виде ряда ? У этого ряда есть коэффициенты, если подобрать их так чтобы минимизировать ошибку, то и получится функция которая отражает данную зависимость.
>>700377Как раз сейчас пробую взять историю и предсказывать следующее состояние и награду, чтобы потом совместить с каким-нибудь поиском по дереву.Кстати, не пытался по-честному, без дизассемблирования, реверсить blackbox? Я пока только посмотрел на матрицу корреляции между компонентами вектора состояния и там явно есть сильно связанные пары. Ещё интересно ведёт себя 36-тая компонента, она изменяется от -1 до 1 и повышать её можно действием 1, а снижать 3.
>>700428Ну не реверсить, просто изучать (ибо не думаю что можно адекватно реверснуть, слишком много оверхеда питоновского)То что понял указал выше, ещё заметил что одно небольшое изменение может вызывать отклик среды на много шагов вперёд. Я думаю они за основу брали что то фрактало-подобное. Пробовал тоже предсказывать, но особо не получилось (как раз из-за этого пробела в отсутствии награды), думаю что нужно предсказывать на несколько шагов вперёд.
>>652481Для того, чтобы выбивать гранты, пиарить университеты и говнокурсы на моок платформах, ну и конечно же, сосать хуи без опыта реальной работы и за бесплатно решать задачи для богатых дядек на Кегеле, который организовал хитрый жид.
Тут есть ШАДовские аноны или те кто учился в ВШЭ не по видео-лекциям ?
>>700282Ты меня жопой прочитал.>Первый слой является обычной линейной регрессией.Неправильно. Линейная регрессия - это способ подобрать коэффициенты матрицы (X в x1=Xx0), а тебе здесь это не важно, важно другое, формула первого курса матричного умножения, что ABx=(AB)x. То есть любая твоя нейросеть без функции активации сведется к однослойной сети. Поэтому в многослойных сетях без функции активации нет никакого смысла - это та же самая формула x1=Xx0.>Где магия ?Магия в том, что линейный классификатор работает только с линейно разделимыми задачами, т.е. когда в твоем многомерном пространстве между классами можно провести гиперплоскость.Нейросеть же каким-то образом преобразует (т.е. растягивает, сжимает и т. п.) пространство, чтобы последнему слою уже достаталась линейно-разделимая задача. Вот этот блог http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/ прочитай блог целиком, он того стоит.В теории вид нелинейной функции особо не важен, но на практике есть ограничения, вызыванные способом обучения через backpropagation - насыщение вызывает проблему очень маленького градиента, слшком большие числа вызывают погрешности вычисления и т. п.
>>700750благодарю, да, действительно жопой прочиталблог кстати крутой воистину
>>700473Собираюсь поступать в этом году.Если смогу, лол
>>700473Что тебя интересует?
>>703447Как учат, какие видишь перспективы, ну и в целом пару комментариев.
blackboxchallenge.com/Пока что в конкурсе нет победителя. Ну что, макаки, сможете переиграть хотя бы бэйзлайн - линейную регрессию, идущую в составе стартового набора?я не смог
>>705979>пистонАтятяй. Спасибо, но нет. Пущай вылаживают что-то не привязанное к конкретной параше.
>>706042>вылаживают
>>706042Окстись, на данный момент весь МЛ в питоне происходит.Впрочем, если ты не в теме, тебе ничего не светит все равно.
>>705979Кто-нибудь MC-AIXI-CTW пробовал?
Котаны, а кто-нибудь промышленным Data Science здесь занимается? Интересуют технологии, используемые бизнесе и примеры решаемых задач.Сейчас занимаюсь статистикой и ML в университете, по пути изучая AGI.
>>706333R и Apache Spark(Spark MLib)Знакомый пилил подсчет клиентов по видеопотоку в одной конторе, рассказывал что в OpenCV есть немного machine learning.
>>706366Насколько сложные модели используете, кодите ли их вручную? Ебётесь ли с выводом формул для вывода в сложных моделях?Есть, можно по HOG'ам пытаться считать, да.
>>705979как они линейную регрессию обучили, есть идеи ?
Все эти конкурсы - хуита. Как и всё машинное обучение в трейдинге. Ну обучился ты на прошлой выборке. Это просто показывает, что получилось найти идеальные магические константы. А на следующей закономерно соснешь. Никакой пользы.
>>706456> А на следующей закономерно соснешьКак и в жизни.
>>706456если выборка достаточно хорошая, и ты смог правильно обучится, то и получится модель которая хорошо обобщает некую зависимостьВот видишь этот синус ? А это нихуя не синус, это просто точки, ты сам у себя в голове обобщил до синуса (считай гештальт образ)
>>706456а на счёт тредингаесть некие тренды, тренд не может длится вечно, рано или поздно он закончится в связи с достижением некой точки насыщения. Сама идея колеблющегося тренда уже некое обобщение. Осталось угадать на сколько долго будет идти тренд, чтобы сделать правлиьное действие. И на это тоже есть некоторые вероятностные эвристики. Те же обычные китайские свечи, они помогают выявить некие паттерны.
>>706467Лол
>>706468японские свечи, пардон
>>706318Это сугубо теоретическая вещь пока что.>>706445Вопрос если не на миллион долларов, то тысячи на четыре, лол. Если знать как они это сделали и подставить вместо регрессии более сильную модель, почти наверняка можно круто подняться. Судя по постам от админа, сейчас все в основном пытаются модифицировать регрессию.
>>706463В том-то и дело, что нет никаких зависимостей. Можно выиграть только на временном лаге, опередив остальных лошков с кухни. Или быть инициатором = иметь инсайд. Все стратегии не учитывают влияние самого бота на рынок. Тут явный эффект бабочки. Если и удается найти какую-то слабоплюсовую стратегию, весь профит сжирают: комиссии брокеру + зарплата прогерам/твое время + аренда вычислительного кластера.В общем, в трейдинге, как и в покере, всегда выигрывает только заведение. И немного хлеба перепадает верхушке самых быстрых и мощных.Впрочем, в других областях машинное обучение вполне легитно.
>>706476> В общем, в трейдинге, как и в покере, всегда выигрывает только заведение. И немного хлеба перепадает верхушке самых быстрых и мощных.>>706461
>>706476В чем твоя проблема? Не занимайся трейдингом.
>>706476>нет никаких зависимостейОчевидно есть. Тебе только нужно построить как можно более точный прогноз. И строить прогноз нужно не на одну сделку, а на месяц вперёд для управления рисками. Пример из фундаментального анализа. Представь что завтра вышла новость что билла гейтса застукали как он жёстко выдрал несовершеннолетнего тайского трапа и теперь ему грозит срок. Это как то бы отразилось на котировках мелкософта ?Или из технического анализа если тред пошёл вниз, то он на следующем шаге пойдет вверх ? нет! на то это и тренд. Просто чем дальше горизонт планирования, тем больше вероятность что ты обосрёшься (или сорвёшь куш), нужно искать оптимум исходя из рисков.>всегда выигрывает только заведениеочевидно тогда бы никто не торговал
>>706484Он совершенно прав, а ты слушай, что тебе умные люди говорят, и мотай на ус.>очевидно тогда бы никто не торговалОчевидно в лотерею никто не играет.
>>706488Да, хуле вы на трейдинге то зациклились?Есть же системы управления, которые сейчас очень тесно свзяна ы с RL, есть задачи CV, которые частично помогают автоматизировать проихводство. На Байесовски сетях вон обучаемые экспертные системы строят.
>>706489С такой точкой зрения можно вообще критиковать любые алгоритмы решения некоректных задач. Тогда как умение решать некоректные задачи отличает хорошего математика от зубрилки из второсортной шараги.
>>706488Он утверждает что нет зависимостей, я говорю что есть и указываю на них, так что я прав пока не доказано обратное.Я ещё могу согласится с тем что трейдинг это ещё один лохотрон по вытягиванию денег из людей. Игра с нулевой суммой, то да сё. Да, заведение оставляет себе некую фиксированную комиссию, но где остальные деньги ? Они перетекают от одного человека к другому.И кто то, кто считает себя ниибацца букмекером проебывает, а человек с алгоритмами и холодным расчётом постепенно копит у себя осадок.Это как торговля в реальной жизни. Ты можешь купить нечто заранее если считаешь что в скором времени цена на это подымется, а потом продать по завышенной цене, чем не ТРЕЙДИНГ ?
>>706495Двачую, читал статью на гиктаймсе про лабу, где чувак финансировал исследования, занимаясь трейдингом.
>>706484>Представь что завтра вышла новость что билла гейтса застукали как он жёстко выдрал несовершеннолетнего тайского трапа и теперь ему грозит срокВыиграют самые быстрые: журналюги, уборщицы гейтса, мамка трапа.Вот смотри. Каждый человек, принимает в своей жизни, допустим, 20 рисковых решений. Ну или за него их принимает среда. Мат. ожидание каждого - околонулевое. Для простоты пусть это будет система Double or nothing. Так вот среди всех людей найдется в среднем (7*10^9 / 2^20) = 6675 человек, которые выиграют все 20 выставлений. Представим, что при рождении человеку дают 100$. После череды удвоений они станут 104 857 600$. И это просто за то, что человек находится в верхней части распределения по удаче. Он тупо может пойти в казино, поставить 20 раз на красное и стать миллионером (не учитываем комиссию заведения, которое выигрывает с каждой ставки).Конечно, в покере и в трейдинге все менее драматично. Но невозможно точно сказать, что конкретно сейчас работает - твоя стратегия или твоя удача.У меня были очень плюсовые месяцы и очень минусовые. За 2 года игры в покер я так и не понял, умею ли я играть.В трейдинге дисперсия еще выше. Всегда будут те, кто сосет, и кто выигрывает 100% депо в месяц при абсолютно одинаковом скилле.
>>706495>Игра с нулевой суммой>Они перетекают от одного человека к другому
>>706500Поэтому я и упомянул про риски. Если ты в целом, за некий довольно долгий отрезок времени показываешь хороший профит, то значит используешь некую хорошую стратегию.Представь ты кидаешь обычную монетку и загадал (на основании некоторых данных) что он выпадет орлом, очевидно вероятность 50\50. Выпала орлом. Угадал ли ты ? вероятность 50\50. Загадываешь что выпадет решкой, выпала решкой, какова вероятность что ты угадал ? По теореме Баеса, 0.25. И так далее, ты угадываешь. Чем больше ты угадываешь, тем больше вероятность того что твоя гипотеза на основании который ты делаешь выбор работает. Она никогда не станет 100% верной, но будет к ней стремиться.
>>706513Согласен, не с нулевой (между участниками биржи). Но за обслуживание биржевого оборудования нужно платить.Твоя задача найти такую стратегию, которая приносила бы доход который покрывает это комиссию, всего лишь.
>>706514>какова вероятность что ты угадал ? По теореме Баеса, 0.25Если у тебя до этого уже выпал орел, то вероятность 0.5. У случайности нет памяти.Но я понял твою идею. Если человек постоянно в тебя блефует, с каждым его блефом у тебя все больше и больше оснований предполагать, что он блефует всегда.Но здесь это не действует. Жизнь человека - слишком маленький промежуток времени, чтобы выяснить, кто настоящая причина успеха - сам человек или это просто орел выпал 20 раз подряд.Трейдинг - очень конкурентная среда. Рынок сжирает одиночек. Если ты внезапно, сидя на диване, попевая чаек, нашел алгоритм, который делает 20% ROI в месяц, скорее всего, тебе повезло.
>>706523Ты не совсем понял.У тебя есть некая гипотеза на основании которой ты предсказываешь. И на каждом новом событии ты, то обновляешь вероятность того, что гипотеза работает.https://habrahabr.ru/post/232639/
>>706525Я понял твою мысль. Байес есть Байес, но прогноз есть прогноз. Пример.Ты абсолютно точно знаешь, что шанс выиграть - 1/3. Но коэффициент выигрыша - 2. То есть ставки всегда минусовые. Каким-то чудом тебя угораздило сделать 5 ставок. И ты все их выиграл. Будешь ли ты дальше продолжать ставить? Байес говорит, что да, но они не перестанут быть от этого минусовыми.А теперь представь, что ты не знаешь вероятности выигрыша. А кто-то другой знает. Вот это примерная модель реального мира.
>>706535Плез, пощади>Ты абсолютно точно знаешь, что шанс выиграть - 1/3Тогда тебе Байес тут не нужен, раз ты уже знаешь с какой точностью твоя стратегия работает при каждой попыткеПредставь такую ситуациюУ тебя есть гипотеза что если ты кинешь камень он упадёт на землю. Изначальная вероятность что твоя гипотеза работает 0.5. Как уточнить эту вероятность ? Сделать эксперимент. Ты кидаешь камни, они падают на землю, по теореме Байеса ты обновляешь вероятность того, что гипотеза объясняет поведение камня. Но тут прилетает Нибиру и твой камень перестаёт падать на землю, притягиваясь Нибиру. Вероятность того что твоя гипотеза работает начинает стремиться к нулю. Но тут нельзя говорить об общей вероятности, потому что поменялись внешние условия.
>>706547Другие игроки не дураки и видят, что прилетело Нибиру. Все начнут ставить против падения камня. В итоге образуется равновесный коэффициент. Только вот оказывается, что Нибиру кто-то управляет. Внезапно он делает крупную ставку на падение камня и отзывает Нибиру. Итог - все соснули.
>>706554Покупаешь большой запас зерна. На следующий год сжигаешь все поля с зерном, цены на зерно подлетают. Все сельские девчонки твои.
>>706560это я к чему. Когда ты можешь влиять на систему, влиять с большим откликом этой системы, да если ещё и с нелинейным откликом, то это уже совсем другая история. Но в среднем, когда все делают маленький небольшой вклад, руководствуясь одним и тем же правилом, поведение системы довольно хорошо прогнозируется. Даже есть направление науки которое такое изучает, динамический хаос.
За последние несколько месяцев отсобеседовали пару десятков кандидатов на позицию ML engineer. Большинство из них это макаки, потыкавшие пару либ на Питоне или Спарк и гордо мнящие себя большими специалистами. У многих отсутствует понимание сути применяемых методов, хотя это в большинстве простых случаев суть несложные вариации на тему матстата и методов оптимизации
>>706698На сколько участие (и если да, занимаемые места) на kaggle коррелирует с теоретической осведомлённостью в предмете ML?
>>703447Нужно ли для поступления в ШАД знать плюсы? Я на них писал только в универе и в асм участвовал. То есть кроме структур данных в STL ничего не знаю.
>>703785В целом, впечатления очень положительные. Жалею, что не пошел в ШАД во время физтеховской магистратуры (которая на мой взгляд довольно бесмыссленна), вместо чего хуи пинал.Теперь же, одновременная работа и учеба требует сильного напряжения. Хотя это можно воспринимать как тренировку в планировании дел и умении найти баланс.Не все курсы мне одинаково нравятся. Но, например, курсы Воронцова и Ширяева-Бурнаева невероятно толковые. В них видишь как прикладная математика решает вполне себе конкретные инженерные проблемы. Под "курсом", естественно, понимается не просто смотрение видюшек, а прежде всего решение заданий.Насчет перспектив, вижу, что выпускники находят себе интересную и хорошооплачиваемую работу как в стенах Яндекса, так и за пределами его и России в т.ч. Понятно, что они изначально были сильными ребятами, так что ШАД ли дал им такую возможность сразу не скажешь.Для себя же пока решаю вопрос, следует ли продавать душу большим корпорациям за большие деньги, довольствуясь результатом здесь и сейчас, или же продолжать пробовать решать научные задачи, рискуя и через пять лет не достигнуть результата.>>706810Ненужно. Требуется лишь хорошее знание математики уровня 2-3 курса (анализ, теорвер, линал).
>>706863>следует ли продавать душу большим корпорациям за большие деньги, довольствуясь результатом здесь и сейчаскакой уровень требуется для того, чтобы начать продавать душу?на хедхантере полторы вакансии, а реддит говорит, что для работы пхд требуется
>>707060Ну смотри, мои товарищи из этих самых больших корпораций не могут найти себе людей в команды по нескольку месяцев. Российский рынок светлых голов опустел, люди уезжают, никто не хочет сосать рублевый хуй в стране, над которой сгустились тучи, и жители которой ежечасно получают инъекции патриотизма.Зато! Приходят собеседоваться петушки, называющие себя "дата саентистами", а по факту запустившие несколько раз библиотечки из Спарка. Ну ладно, нет у тебя опыта это нормально. Но у них же аппетиты звериные, они же начинтались в интернете что телки им должны давать, а CEO бросаться в ноги.
>>707210смотри, я тебя и спрашиваю, какой нужно иметь уровень, чтобы не прослыть петушком с библиотечками.какой карьерный путь предполагается у дата саентиста в россии, к примеру, если даже на западе и в швятой надо быть пхд с опытом, как пишут на реддитеразве есть места, где можно получить коммерческий опыт в этой области, кроме как надрачивать кегели и хакатоны от пчелайна?то есть нет готового роадмапа, как к этому подступиться, да и на том же хх десяток вакансий и те с несколькими годами опытапроходить мооки и зубрить математику, чтобы потом сосать хуи без работы?
>>707216хуи сосать можно и не уча математику
>>707216>разве есть места, где можно получить коммерческий опыт в этой области, кроме как надрачивать кегели и хакатоны от пчелайна?Наивно полагать, что кегля и прочие конкурсы будут тебе засчитаны как коммерческий опыт. Коммерческий опыт - это опыт работы по этой теме в конторе, и он ценится на вес золота. Скачать датасет и прогнать его через хгбуст может уже каждая десятая макака, тут никаких нет секретов. А на настоящей работе тебе нужно будет создать этот самый датасет, после чего внедрить свое МЛ-решение. Это 99.9% работы, и опыт в этом мало у кого есть.
>>706863Такой еще вопрос. Нельзя ли для поступления в дс написать экзамен, скажем, в Екатеринбурге? Просто я живу не в дс, а в конце мая / начале июня у меня в вузе будет своя сессия. В итоге мне придется лететь в дс на пару дней. По бабкам не очень выгодно, да и экзамен какой-нибудь придется пропустить.
>>707216>какой карьерный путь предполагается у дата саентиста в россииНикакой, сейчас волна хайпа спадёт и пойдёшь обратно гостевухи писать.
>>707216>в россииПиз дуль.
Посоны, законил универ по специальности Математик (специализация - теорвер и матстат), прошел несколько базовых курсов на курсере и едх, прочел пару книжечек по теме, сделал несколько заданий на Кэггл, умею в программинг, английский.Откликался на и так мизерное количесво вакансий по дата саенс, машин лернинг, но хуй, всем нужен опыт и чуть ли не пхд. Какой дальше путь развития? А то мотивации дрочиться в этом все меньше и меньше.
>>707536PHP?
>>707617Ну раз не PhD, то PHP, лел.
>>707431Дам тебе бесплатный совет по жизни - не стесняйся отвественным людям писать и задавать вопросы. Use your words.Зачем ты спрашиваешь меня, анонима на анимешном форуме?На странице https://yandexdataschool.ru/admission указана почта, напиши, задай вопрос, дело же важное, взрослым будь.
>>706756Из всех кандидатов только двое что-то там тыкали на kaggle. Я лично больше ценю реальный опыт над реальными проектами, или какой-нибудь свободный код, чем задачки на каггле.Вакансия и компания очень жирные если что, в Лондоне, т.е. я не думаю, что это просто хорошие люди не идут. Скорее рыночек реально жиденький за пределами мегамонстров типа Google/FB.
>>708066А на kaggle по твоему выдуманные задачки ?Чем задачи на kaggle отличаются от "реальных" проектов ?
>>708066Откуда у кандидатов может взяться "реальный опыт с реальными проектами" в области, в которой 3.5 вакансии, требующие при этом докторскую степень? Это ж не гостевухи писать.
Закончил сегодня курс на курсере от воронцоваНу и говно. Задания в стиле «вызови функцию из skipy и напиши результат в файлик». Лекции вообще можно было не смотреть, никак не связаны с заданиями, кроме общей темы. Плюс стремное ебало воронцова на пол экрана.
>>708236>вызови функцию из skipy и напиши результат в файликА чем по-твоему дата сцаентисты занимаются?Алсо>skipyзначение знаешь?
>>708337ПИТОН
>>708337ЛЫЖНЫЙ ПИРОГ
>>706473>Судя по постам от админа, сейчас все в основном пытаются модифицировать регрессию. Вот я о чем говорю. Более 90% - долбаебы, в любом непонятном случае использующие регрессию и главные компоненты. Как будто не было десятилетий развития в этом направлении и нет никаких алгоритмов кроме главных компонент и придуманных за последние 2 года хгбустов. Мартышки невер чендж. Впрочем, на пистоне наверное и действительно нет ничего кроме вышеназванного. А все ж веруют, что кроме пистона все остальное на свалке истории.
>>708462Ну так давай, наверни алгоритмов и забери четыре тысячи, что же ты? А, да, ты же в пистон не смог.
>>708500слишокм просто, лучше пойду стартап доделывать
>>708222Откуда мне знать, это не моя проблема.
>>708081Тем что их решают в одиночку
>>708527по твоему ансамбль хуёвых аналитиков лучше чем один хороший специалист ?Можешь больше не отвечать, все поняли что ты хуй простой.
Байес вот этот ваш тоже. Который, к слову, не Байес, а Бейес. Давно показано, что то, что называется "формулой Байеса", как и вообще вся вероятность, тривиально сводится к множествам. Больше того, давно существует обобщенная нечеткая теорема Байеса. И что, где-то и кем-то все это используется? Или кто-то хотя бы знает об этом? Хуй там плавал.
>>708523в добрый путь! а мы пока поколупаем линейную регрессию))
>>707536> всем нужен опыт и чуть ли не пхдЛол, вот у нас ребята и сидят в аспирантуре со своим мл. При этом имеют оклад, позволяющий жить, занимаются там любимым делом.
>>708534Матерок при входе надо оставлять. ну и реальный опыт тоже неплохо бы нарабатывать - на дваче его не получишь
Охуеть, ребята, помогите советом идиоту!Пишу диплом на пайтоне, нужно определять тональность текста на русском языке (бинарная классификация). Какой классификатор лучше взять? Везде рекомендуют нативный байес.Есть ли смысл пердолить всякие стемминги, лемматизации и прочее? Есть ли готовый код, определяющий часть речи каждого слова в предложении? Я, блядь, смотрю на эту хуйню и охуеваю, глаза разбегаются. Что реально даст эффект - я так и не понял.Какую минимальную точность дадут базы для обучения в 110к отрицательных и 110к положительных отзывов с твиттера? Ну, примерно можете почувствовать?Просто сроки жмут, и времени ковырять это добро в свое удовольствие нет к сожалению + я мало кодил на своем веку лучшее, что писал - визуалочка для БД на sql, трудности с пайтоном (в основном, благодаря срокам).Алсо, адепты пайтона, подскажите, в чем можно без проблем собрать визуалочку под моё дерьмо? Надеюсь, я его-таки высру
>>709036Ты главное больше спойлеров пиши - так тебя точно все прочитают.
>>709038Пардон, мсье, не знал, что здесь это моветон. А по вопросам есть мнение?
>>709039Мое мнение такое, что диплом - это лучшее, что у тебя будет, чтобы поковыряться в R&D так как ты хочешь в ближайшие лет пять, поэтому отмазы по поводу отсутствия времени смешно слышать. Наверное, ты охуенно много работаешь и зарабатываешь много, да?Короче, пиздуешь на фриланс.ру и за 1000 рублей даешь задание спарсить яндекс.маркет отзывы с оценками. Затем берешь pymorphy и переводить все слова леммы (ну или говоришь это тому же кто спарсит за 500 рублей сверху).Получаешь табличку "оценка: куча слов". Далее берешь RedisBayes http://stackoverflow.com/questions/558219/bayesian-spam-filtering-library-for-python и смотришь на перформанс. Если нормальный - забиваешь, если плохой - берешь что помощнее, в этом сезоне моден xgboost.
>>709066Спасибо, посмотрю. Яндекс парсить смысла нет, есть готовая база с оценками, с твиттера. Только что ты такой злой, я ж нормально спросил?
>>709071Я не верю в базы из твиттера, потому что они собираются, как правило, с помощью тех же самых слов-маркеров, а значит смещены уже изначально. Но с базой тут работы на вечер - подключить pymorphy и поиграться с классификаторами.
>>709076Твоя правда, но, базу, вроде бы, руками кто-то шерстил после сбора. Буду надеятся.Поясни, пожалуйста ещё по байесам, методу опорных векторов, и т.д. Принципиальная разница в моем случае есть?
>>709082В интернете полно cheat sheet'ов типа http://dlib.net/ml_guide.svg , но в них особого смысла нет, потому что хороших методов не так много, и самые популярные можно просто перебрать.Принципиальная разница в том, что байесу ты можешь просто скормить все твои слова в виде 2-х множеств, good и bad, а SVM требует векторы фиксированной длины на входе, то есть нужны дополнительные телодвижения. То есть байес - самый простой, а если он самый простой и заработает, зачем усложнять.А так делишь базу на 2 части, тренируешь классификатор на первой (training set), проверяешь на второй (validation set), смотришь на перформанс в обоих случаях, если одинаковый и хороший, прекращаешь поиски (если, конечно, тебе не платят по часам - тогда ищи сколько влезет), если плохой даже training, меняй классификатор, если training хороший, а validation плохой - увеличивай размер базы (не обязательно физически парся больше текста, хотя это лучше всего, можно и искусственно что-либо придумать), а если все равно плохой - меняй классификатор. Как-то так.
>>709089Спасибо анон, добра тебе!
>>700282А еще ReLU усиливает разреженность. Цель же - уйти от линейности, анон все правильно пояснил.>>700355>то ясень красень поведение функции предсказать не получитсПредсказать вполне себе получится, если функции активации с ограниченной областью значений (сигмоида, например).>>703785Куча толковых курсов с годными преподавателями, программа не оторвана от реальности и математика переплетается с практическими задачами. ВШЭ - так себе. Сейчас вроде бы ФКН неплохо раскачивается, но когда я там учился (тогда это называлось ПМИ), было все плохо для тех, кто не умел сам вкалывать. Для сдачи на 4 (из 10 баллов, 4 - минимальный проходной) не нужно было знать практически нихуя.>>707245> А на настоящей работе тебе нужно будет создать этот самый датасет, после чего внедрить свое МЛ-решение.В яблочко.Ситуация, когда у тебя есть готовая табличка размера NxM и тебе нужно что-то там обучить - вообще редкость. Пример рабочей же ситуации такой - половина данных приходит в реалтайме, тебе их нужно по корзинам складывать, другую половину тебе нужно собирать в кучки и считать какие-нибудь статистики, потом из каких-нибудь далеких таблиц на ходу засасывать третью половину фичей, четвертую половину с разогретых счетчиков снимать. На написание этого уйдет 50% времени. С этим мясом ты пытаешься предсказать какую-нибудь йобу в реалтайме. Каждый божий день переобучиваешь модель или дообучиваешь ее, если она онлайновая, ретроспективно применяешь и все заново пересчитываешь.Обучение модельки занимает 1-2% времени. Остальное же время уходит на эксперименты, обсуждение и генерацию идей.А еще есть сорт задач (правда не все компании могут позволить себе их решать), которые требуют написания кастомных алгоритмов обучения под ситуацию.Так что кегли - это так себе показатель.>>707431Можно вроде + есть заочное обучение.ОП-проебщик
>>709755Ты интересуешься применением ML в сильном ИИ или тебе это все надо только по работе?
>>709797С трудом представляю себе ситуацию, когда ИИ и машобом занимаются не по интересу, а "по работе". Для достижения значимых результатов нужно заниматься, кодить и самообучаться постоянно, а не в течении 8 часов рабочего дня. В отсутствии интереса такое, имхо, невозможно.Моя работа переплетена с моими жизненными смыслами, в этом плане мне сильно повезло.
>>707210Ну, вот допустим, я с 2 курса ходил в ШАД, окончил и норм должно быть или нет?
>>709805Считаешь ли ты, что имеющихся на данный момент знаний по машобу достаточно для создания ИИ уровня человека? Или предстоит разработать что-то еще?Я вот думаю, что написать ИИ человеческого уровня это колоссальная работа вроде написания ОС на каком-нибудь новом ядре. И аналогия с ОС мне очень нравится, т.к. для сильного ИИ потребуется соединить в одно множество подходов, реализовать Hybrid intelligent system и все такое.
срач байес vs MLE го
>>709826да ещё пару лет и напишут
>>709826Для создания сильного ИИ достаточно теорий нечетких множеств и теории категорий.
>>710144Толсто.
>>710241Это один из шизофреников из /сци. Они там годами мусолили тему школоии. Лучше не разговаривай с ним, а то он зафлудит тред шизофазией.
>>710264Почему сразу шизофреники, школо и шизофазия? Хотелось бы полистать архивы тех тредов, интересно, что народ думает по ии.
>>710289Потому что это так. Это не "народ", а 2.5 абсолютно не разбирающихся в теме человека. Не знаю насчет архивов, просто пойди в /сци и создай "Оффициальный ИИ-тред", они тебе еще нагенерят.
>>710241>>710289Ничего толстого. 1) любые взаимодействия в любой системе сводятся к функциям в т.ч. многих аргументов.2) любая динамическая система представима в виде NARMAX-модели, считай матрицы Ганкеля.3) любая функция многих переменных представима в виде суперпозиций своих частных функций от двух аргументов, что для непрерывных функций доказали еще Колмогоров с Арнольдом, а Горбань обобщил на любые функции.4) универсальные аппроксимирующие свойства нечетких моделей доказаны Коско, им же предложен вариант стндартной аддитивной модели (SAM), к которой тривиально сводятся все классы нечетких моделей.5) формализмы теории категорий дают возможность задавать любую структуру из отдельных нечетких моделей, в т.ч. сколько угодно гибридную, адаптивную и т.д.
>>710379Толсто потому что когда говорят об сильном ИИ, имеют в виду непонятно что. Термин интеллект на самом деле плохо определён.
>>709826>Считаешь ли ты, что имеющихся на данный момент знаний по машобу достаточно для создания ИИ уровня человекаМне не очень нравится такая постановка вопроса. По машобу знаний у людей достаточно, а вот понимания сути ИИ уровня человека - нет. Да, есть недостаток мощностей, который уйдет с приходом новых архитектур, но это не главное препятствие.>>710144>>710379Очень интересно, но все эти теории и алгебры несколько оторваны от реальности, имхо. Те, кто создают промышленный ИИ, обычно имеют дело с более приземленными вещами и мне неизвестны работающие и широко используемые системы, написанные на таком уровне абстракции.
>>708222Прямо чувствуется обида дурачка, которые сидит на диване и не понимает, как же ему устроится на хорошую работу млинжиниром.мимо-за-последние-месяцы-отсобеседовал-два-десятка-ML-engineer-ов
>>710631Опиши идеального кандидата, няша. Вот чтобы прям обоссаться и нанять во время интервью.
>>710643btw, реально ли устроится в такую компанию за еду300$ и учиться этой ML там? Я в итоге все равно планирую этим заниматься, но текущий план предусматривает год изучения ML и параллельной работы на галерах. Реально это ускорить?
>>710643Недавно упустили такого.У чувака было почти 10 лет в академии, 7 лет в индустрии (в трёх конторах, чем только не занимался). Может объяснить любой применяемый алгоритм, не изолирован в своей работе ни в теоретическом плане, ни в плане кодирования (хотя конечно от них никто не ждёт умения деплоить) - я думаю из всех проблем мл-макак эти две всплывают чаще всего (если отсекать тех кто просто пиздит и не знает вообще ничего, обычно из-за отсутствия реального опыта).мы ему сделали оффер, но мелкософт купил его контору (Swiftkey), ему предложили более жирный контракт и он осталсяалсо, за одно интервью решение не принимается
>>710652Короче напиши мне список тем/вопросов/направлений, на которые я могу ориентироваться в будущем. Вот я сяду завтра учить это все, а через полгода-год прийду в вашу контору, покажу свой ML-проект, отвечу на вопросы и меня в итоге возьмут.Можешь такое написать?
>>710647Я не знаю что там в ML "изучать" целый год (почему не месяц? почему не пять лет?) А изучение в отрыве от реальности обычно тяжкое (менее эффективное и сложнее продаваемое потом в качестве навыка). Попробуй лучше запилить свой публичный проект по интересной теме. Иногда в сиви люди всерьёз пишут "Прошёл три курса на Coursera" - с такими общаться грустно, как показывает практика.- Как вы решите задачу X?- Ну, наверное возьму Y, или Z, вообще там много разных алгоритмов!- А как будете масштабироваться?- Возьму решение для масштабирования!- А как это повлияет на применимость Y по сравнению с Z?- ... ну я обычно прототипы писал ...
>>710657>Я не знаю что там в ML "изучать" целый год (почему не месяц? почему не пять лет?)Цифра от балды, на самом деле. Мне не известны ни объем, ни сложность материала. На данный момент мне просто хочется заниматься искусственным интеллектом.В какие сроки можно устроиться в контору занимающуюся ML, начиная с нуля? Зарплата особо не важна, лишь бы покрывала затраты на существование.
>>710656На своей последней работе, сколько вы занимались теорией, а сколько писали код для продакшена? Какое соотношение предпочтительнее?Опишите, какие алгоритмы вы применяли в своём проекте X, Y и Z.У вас есть сайт с видео. Постройте рекомендательную систему, чтобы предлагать посетителям видео, которые им могут быть интересны, после того как они посмотрят что-нибудь. Какие вам для этого нужны входные данные? Какие плюсы/минусы/альтернативы у подхода? Какой технологический стек возьмёте? Как изменится система, если нужно рекомендовать статьи, а не видео?У вас есть список из N новостей из интернета (стянутых с новостных сайтов, соцсетей и т.д.). Выстройте их в соответствии с предполагаемой способностью привлечь читателей. (остальные вопросы считай те же)Как бы вы построили систему для определения горячих тем в новостях/социальных медиа? (остальные вопросы те же)Пользуясь любыми технологиями, библиотеками и справочными материалами, за 1 час постройте систему классификации для базы рукописных образов MNIST, оцените качество решения, предложите, как его улучшить. кандидат приносит свой ноутбук, вайфай естьЭкспериментируя с ГПСЧ, которые выдаёт числа от 1 до 100, мы получаем последовательность 16, 8, 32, 2. Что вероятнее: генератор выдаёт чётные числа, либо генератор выдаёт степени двойки?Домашка на неделю - простенькая поисковая система (набор данных - 20 новостных групп, запросы: 1) бинарные с "и/или" в произвольных комбинациях; 2) N лучших результатов для слова по tf-idf). Минимум библиотек (построение предполагается выполнить с нуля). Оценка на основе: структур данных и алгоритмов, документации и структуры кода, умения объяснить применяемые техники, умения применить функциональный подход. Опубликуйте на гитхабе.(На сложный стемминг и нормализацию обычно не смотрим её обычно и не делают, обсуждение ведём скорее в сторону масштабирования индекса.)
>>710660> В какие сроки можно устроиться в контору занимающуюся ML, начиная с нуля?Я думаю, это сильно зависит от доступного тебе рынка рабочих мест.
>>710664И какую з\п будет получать принятый кандидат, если пройдет все это?
>>710660Ещё я вечно проигрываю с "искусственного интеллекта" и вообще 90% хайпа о "машинном обучении", но это скорее потому что нейронки в продакшене не юзал.
>>710667Ну эта вакансия объявлена с ценником до £80k, хотя за всё время был только один персонаж, реально тянувший на такие деньги. А так от £60k я думаю, если учитывать наш уровень требований.
>>710667Тут реально вопросов на пару недель почитать пейперы/либы. Технические вопросы - да, там нужен просто тупо инженерный опыт.
>>710665Если обсуждать знания, стоящие до 1500$, то на рынке работы в РФЕсли выше, то в любой стране. Английский у меня есть, с переездом компания поможет.
>>710672Я имею в виду, что если уровень подготовки высокий, то я могу успешно откликаться на вакансии по всему миру, ведь компании в таком случае не будут скупиться на оплату переезда и визы. А если учитывать некий минимальный набор, который позволит устроиться за еду, то, очевидно, речь идет про РФ.
>>710669>£60Это овер 450к дерева в месяц за то, чтобы подсовывать юзерам новости и видяшки? Почему так дохуя?
>>710675Наверное, потому что уже 2 месяца найти не могут, лол.
>>710680Ну на начало 2015 это былобы по курсу 200к дерева, так что я не учел этот момент и 200к это еще норм.
>>710675Айтишникам везде хорошо, а тут и область хайпнутая, и не перекачаная хорошими кадрами - я же писал выше
>>710680Ну кстати да
>>710675Овер 350к, в ГБ налоги треть. Зарплаты до налогов указывать принято.
Есть ли смысл перекатываться с джавы (знаю на уровне javarush 15 lvl) на питон, если планирую плотно заняться ML да и вообще алгоритмами, работающими с BigData? Изучая ml и ИНС постоянно натыкаюсь на php, вот думаю - может перекатиться, пока не поздно? Да и синтаксис больше нравится.PS Работодателю все равно, какой язык буду использовать.
>>710675Потому что за меньшее никто в эту дорогую помойку не поедет.
>>710692>phpна py конечно же
>>710692Забыл сказать, всё что меньше петабайта - это не BigData.Хватит говорить баззвордами.>>710703Зачем нужен Лондон, когда есть родной уютный диван?
>>710664>Пользуясь любыми технологиями, библиотеками и справочными материалами, за 1 час постройте систему классификации для базы рукописных образов MNIST, оцените качество решения, предложите, как его улучшить.А если я просто скачаю с гитхаба одну из сотни готовых решений для мниста, мне перезвонят?
>>710918Я не вижу в этом проблем, суть задания не в этом. Хотя так никто не делал.
>>707060> для работы пхд требуетсяСкорее только мешает
>>710664> Экспериментируя с ГПСЧ, которые выдаёт числа от 1 до 100, мы получаем последовательность 16, 8, 32, 2. Что вероятнее: генератор выдаёт чётные числа, либо генератор выдаёт степени двойки?Я ньюфаг, поясните за это. Мне почему-то кажется, что недостаточно данных, чтобы оценить вероятность.Пусть A - событие "получили последовательность 16, 8, 32, 2". По теореме Байеса получаемP(even | A) = P(even)P(A | even) / P(A)и P(pow2 | A) = P(pow2)P(A | pow2) / P(A).Получается, надо сравнить P(even)P(A | even) и P(pow2)P(A | pow2). Не зная P(even) и P(pow2) без учета того, что мы получили A, мы не можем их сравнить. То есть можно разные P(pow2) и P(even) брать и будет получаться разный ответ.
>>652472 (OP)> А потом мне пришлось дописывать компилятор Python.Поясни за это. Я думал, если нужно быстро запилить прототип, то пишут на питоне, а если нужно что-то серьезное, то, что будет быстро работать, пишут на плюсах. Зачем тебе понадобилось дописывать компилятор питона?
Является ли работа в энтерпрайзе пустой тратой времени? Или любой опыт разработчика является плюсом при устройстве на работу? Через пару месяцев заканчиваю бакалавриат, но мне еще далеко до того уровня, когда могут взять на работу в data science. Что лучше: работать в энтерпрайзе или подобной параше и после работы задрачивать ds или не работать и целыми днями задрачивать?
>>711012В датасаенс потом все равно джуном пойдешь. Если будет опыт дженерик кодинга, это будет плюсом: хоть понятно, что кодить умеешь.
>>710993> то пишут на питоне, а если нужно что-то серьезное, то, что будет быстро работать, пишут на плюсах. На чём основан такой вывод? Питон же используется как клей к быстрым либам.
>>710984Гугли тему model selection, это простейший его пример. Тут нужно посчитать вероятности генерации этой последовательности двумя генераторами. Считать не обязательно, ответ очевиден, но нужно его правильно обосновать.
>>711018> Тут нужно посчитать вероятности генерации этой последовательности двумя генераторамиДа, это правильный подход.
>>711018Чет ниче не понял про model selection.> Тут нужно посчитать вероятности генерации этой последовательности двумя генераторамиЕсли так, то вероятность генерации генератором, который генерит степени двойки, больше. Ну и че с того?
>>711047Ну и все, это и есть ответ на вопрос. Если тебе по Байесу надо разложить, то в твом анализе P(even) = P(pow2) = 0.5, априорная вероятность каждого из генераторов.
>>710532>все эти теории и алгебры несколько оторваны от реальности, имхо.Все перечисленное либо уже давно реализовано на канплюхтере, либо элементарно реализуется. Но вот именно гибридные распределенные структуры на этих принципах никто никогда не делал, во всяком случае в открытом доступе на эту тему нет ничего.
>>711069> P(even) = P(pow2) = 0.5, априорная вероятность каждого из генераторовНа чем вообще основано это предположение? Это вообще никак не следует из условия.
>>711384Метод максимального правдоподобия?
>>711485поясните за метод для тупых
>>711073Хорошо, мне не очень хочется спорить об этом. Когда я говорил о ненужности теории категорий, я имел ввиду факт того, что ее языком и абстракциями напрямую в ML не пользуются и она не на тех проблемах акцент делает. Никто не хочет умалить ее ценности, но все должно быть на своих местах.>>710993>Я думал, если нужно быстро запилить прототип, то пишут на питоне, а если нужно что-то серьезное, то, что будет быстро работать, пишут на плюсах. Это в идеальном мире, причем лишь в таких компаниях, где IT может управляться централизованно. Там, где мы занимались компилятором Python, создание продуктов и технологий напоминает скорее федерацию хаотических процессов и в проде может оказаться даже Аллах что угодно. Ну и во-вторых - Python зачастую используется в инфраструктуре и съедает нехило процессорного времени даже за вычетом числодробильных задач.>>711012Работал я как-то в энтерпрайзе, не рекомендую. Если есть возможность целыми днями задрачивать и не работать - идеально. Но более реальный вариант - устроиться младшими разработчиком куда-нибудь в ламповое место за небольшую з/п и набивать руку.
>>712143>задрачивать и не работать - идеальноАх тыж хитрый уебак, даешь вредные советы желторотикам, чтобы конкуренции не было?
>>712190Не выдумывай. Просто если нет необходимости зарабатывать, то лучше посвятить себя учебе.
>>712196До курса 4-го - да. Потом строго наоборот.Чувак, вопрошавший у тебя, явно близок к выпуску, а это значит, что если он сейчас бросит работу, то скорее всего будет саморазвиваться смотря аниме-тайлы, пока не прожрет все деньги.Так что, по мне, дрянной ты ему совет даешь.
>>712201>что если он сейчас бросит работу, то скорее всего будет саморазвиваться смотря аниме-тайлы, пока не прожрет все деньги.Какие-то крайности. Человек уже взрослый, наверное сам способен разобраться сможет ли он заниматься учебой, находясь дома или нет.А во-вторых - перечитай внимательно вопрос. Он был про "энтерпрайз-парашу", под которой я понимаю работу со вполне определенными задачами и стэком технологий. Ценность такого опыта очень низкая, если он потом собирается перекатиться в другую область.
Аспирант по МТРО (Мат теория распознавания образов) врывается в тхреад. Задавайте любые вопросы по МО, попытаюсь ответить.
И кстати, велкам ту зе рашка.http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1977F7873CB8D517CF52FE6FF75A9D83?doi=10.1.1.108.6653&rep=rep1&type=pdfУ нас какая-то спецолимпиада - написание статей без приведения ссылок на исходники? Воронцов написал о своём принципиально новом ⓒⓡ алгоритме и о результатах на датасетах. При этом у этого алгоритма туча гиперпараметров о которых он нигде не упомянул. Т.е результаты есть, а исходников или хотяб гиперпараметров конкретных он не дал. Угробил пару дней на реализацию его а оно не даёт такие крутые результаты, как и ожидалось, лол.
>>712237Да, да, а на швитом западе все так и рады поделиться интеллектуальной собственностью. Верь в это.
>>712263Ну раз уж написал статейку с обьяснением своего алгоритма и о том какой он крутой - пиши и какие гиперпараметры были для получения твоих результатов. А так ощущение будто он эти цифры от руки накидал.
>>712264Так и принято в научном мире, когда статья есть, а воспользоваться результатами без того, чтобы отвалить бабла исследователю, невозможно.
>>712107Задаются неинформативные приоры и максимизируется правдоподобие данных без учёта приоров?другой нуб
>>712237Эволюционные методы - вообще проклятая тема с постоянной подтасовкой результатов в виде публикации оверфиттинга. Реальность в том, что эволюционные алгоритмы плохо работают, и улучшить простейшие базовые результаты очень трудно. Вот народ и приспособился: нафигачат пятьдесят гиперпараметров, подберут их к задаче, вуаля - готовая статья. Этот ещё и замаскировался. Но все это прекрасно понимают и импакт этих "исследований" околонулевой.
>>712217Как встроить максимизацию взаимной информации в модель скрытых MRF?
>>712359Двачую этого.>>712286Порой нужно просто отчитаться за грант или финансирование, поэтому публикуется нечто, что трудно проверить и может в теории представлять ценность.
Дайте ссылочку на категорию в arxiv.org со статьями про machine learning, я вроде не новичёк, но так и не осилил категорию там найти, не понял интерфейс Да, я тупой
>>712547http://arxiv.org/list/stat.ML/recentВ твиторе есть пачка крутых аккаунтов от arxiv.org, подписавшись на которые можно смотреть новые публикации из твитора.https://twitter.com/StatMLPapers
>>712707Благодарю. Тут ещё говорили о каком-то блоге с обзорами годных статей. Просто хотелось бы фильтровать поток инфы, чтоб только относительно годное читать, времени маловато.
>>712717> 5. https://vk.com/deeplearningОП-пост няша, всё в оп-посте.
Меня тут приглашали в аспирантуру, продолжать исследования по ML и курсы читать/вести практику в федеральном вузе местного мухосранска. Могу совмещать это с работой, но какие профиты? ML я и так не плохо знаю, ну теоретическую часть и немного практики, но какие профиты можно из аспирантуры извлечь?
>>713344Статьи, финансирование и т.д.
>>713344Да и преподавание само по себе – тоже довольно интересный процесс.
bump
Я знаю, что большинство кодит ML, используя Python или R. Но передо мной сейчас стоит задача, где скорость достаточно критична, а достататочно мощной машинки нет.Собираюсь писать всё крестах. Кто какие крестовые библитоки ML испольует?
Есть циферки с сенсоров через фильтр, задача в том, чтобы привязать эти циферки к ML-алгоритму так, чтобы и-агент с поощрениями-подкреплениями адаптировался к оптимальному выполнению задачи, а не просто рандомно подбирал варианты функций методом тыка. Что читать ньюфагу?
>>715618reinforcement learning
>>715647Спасибо, а, может, есть по сабжу какие-нибудь годные ресурсы с примерами реализации, легкоусваемой инфой и все такое?
>>715232TensorFlow
>>715689http://lmgtfy.com/?q=reinforcement+learning+for+idiots
>>715689Лично я не ковырял.
>>715232>Кто какие крестовые библитоки ML испольует? MXNet на крестах, https://github.com/dmlc/mxnet от создателя xgboost. Есть врапперы для всего подряд, от пистона до Go.
>>715232Ты сначала прототип напиши и удостоверься что вообще всё работает как тебе надо, а потом уже думай над поиском более быстрых альтернатив.
Двач, с какой стороны вкатываться в NLP?
>>718801С правой.
>>718801Хуй знает. Поэтому держи:http://shop.oreilly.com/product/9780596516499.do
Анон, смотри, есть три таблицы связанные 2 внешними ключами (Продукты и их характеристики; Пользователи и их характеристики; Оценки которые пользователи поставили продуктам).Хочу забить это все в нейросеть, для начала в какой-нибудь SPSS/Statistica/Deductor, а потом готовую модель во что-то более прикладное размещения на вебе, может быть FANN, не знаю (посоветуйте кстати).Вопрос - какой пакет поддерживает применение в качестве исходных данных нескольких таблиц? Т.к. сводить 3 таблицы в одну (оценки с характеристиками пользователя и продукта) приведет к росту БД на порядки.
>>720382Задачу поставь нормально. Что хочешь получить на основе каких данных?
>>720459У меня задача скорее образовательная для себя. Я время от времени занимался дата майнингом для разных проектов, а нейронные сети открыл недавно, и хочу сопоставить одно с другим.Есть 3 набора данных:1. Продукт. Таблица с характеристиками продуктов (ну допустим вид, жиры, углеводы, белки, вкус, цвет)2. Пользователи. Возраст, пол, город и т.п.3. Оценки каким-то пользователем какого-то продукта (айдишники пользователя, айдишник продукта и оценка).Хочу все это забить в нейронную сеть и получить возможность рекомендовать для нового пользователя указавшего свои характеристики и предпочтения по нескольким продуктам продукт который может ему понравиться.
>>720548Тебя скорее интересуют ассоциативные правила, типичная задача анализа продуктовой корзины покупателей. И работать эту будет лучше твоей системы с оценками, потому что никто в здравом уме никакие оценки ставить не будет.мимостудент
>>720596Да интересно не знал про такую штуку, попробую конечно, но все-таки основная задача это нейронная сеть, а оценки у меня уже есть и ставить их будут. Продукты я привел в качестве примера более доступного.
>>720607> нейронная сетьМного данных или просто интересно поиграться?
>>720622Да, там в первых двух базах по сотни тысяч, оценок дохуя наверно будет, под сотню миллионов наверно.
http://www.nervanasys.com/demystifying-deep-reinforcement-learning/
Поясните все-таки за SVM, или посоветуйте что-нибудь понятное на тему. Ну это пиздец какой-то, обычно любой алгоритм понимаю хотя бы в общих чертах, а тут вообще никак не заходит. Какое-то натягивание совы на кернелы с последющим поиском седловой точки этой совы, пиздец каша. Помогите.
>>721071Либо нормально задавай вопросы, либо иди читать про метод множителей Лагранжа.
>>721071https://www.coursera.org/learn/machine-learning/home/welcome7 неделя
>>720548выглядит, как задача коллаборатиной фильтрации.
>>721785Упрощенно да.Но есть один нюанс.Система такой фильтрации одноуровневая, т.е. учитывает только лайки других пользователей. А мне надо чтобы учитывались еще и особенности самого продукта и пользователей. И если пользователей еще можно отфильтровать разными вариантами, то как учесть характеристики самого продукта (которые понятно могут быть общими у разных и влиять на выбор, например любят можно любить сладкое, но не калорийное) мне непонятно.
>>722092так по признакам продуктов как раз же и строятся классификаторы. Более того - насколько я помню из лекций Ng'a, он еще и сам тебе эти признаки подберет.
>>720753Классная статейка.А есть Марковские процессы принятия решений высоких порядков?
>>652472 (OP)>1. Introduction to Statistical Learning, Casella ( http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf )Statistical learning == machine learning?
>>722174Где почитать про этот алгоритм? Тот что я нашел строит только на основании лайков других и твоих.
>>722399Да.
>>722473Ему без разницы твои лайки или не твои, просто этот метод сжимает пространства оценок таким образом декомпозируется на вектора характеристик продуктов и вектора характеристик пользователей, скалярное произведение продукт x пользователь примерно равно оценке данной этим пользователем данного продукта. Если люди 2 человека оценивали многие продукты примерно одинаково - их вектора в уменьшенном пространстве тоже близки будут. Т.е найдя ближайший ты можешь рекомендовать.Не помню как называется, погугли типа SVD based recommendation system (Или matrix factorization based).
>>721466>иди читать про метод множителей Лагранжа. Уже лучше. А что конкретно читать? Зорича достаточно? Просто в гугле много всего, так просто не соориентируешься.
Есть ли хороший материал\лекции по нейронным сетям? По мимо Воронцова.
>>722624Наверное, нам в универе читали о нём. В SVM используется обобщение этого метода для оптимизации.
>>722969Хайкин.По Deep learning есть что-то типа методички:http://www.iro.umontreal.ca/~bengioy/papers/ftml_book.pdf
>>722969Алсо, в ОП-посте же всё есть:http://deeplearning.net/reading-list/
Это знак.http://www.amazon.com/Python-Machine-Learning-Sebastian-Raschka/dp/1783555130/>Себастьян Рашка
>>723139Не уверен, что хороший знак.
>>706863> Жалею, что не пошел в ШАД >Теперь же, одновременная работа и учеба требует сильного напряженияСколько тебе лет? Ну или скажи из старшего поколения учится кто в ШАД? Скажем в районе 30 лет? 28 лет, думаю пойти в ШАД
>>708545> не Байес, а Бейес.Не Цукерберг, а Закэбэрг.Не король Артур, а король Осэ.Иди нахуй, короче.
хуясе годный трендж какой затаился на зекаче
>>722624>>723113Ахуеваю, от того насколько вы смутно представляете, что вообще происходит.
>>724219ML-слесари, сэр.
>>724219>Ахуеваю, от того насколько вы смутно представляете, что вообще происходит.Ну так поясни, школоилитарий. Или проходи мимо, не задерживайся.
>>723222Да, учатся, и нельзя сказать, что они выглядят тупее.мимо-оп
Да мы на пике, пацаны. Все вкатываемся и делаем мульоны.
>>725222But then I
>>725223откуда графики?
>>725222Ебучие азиаты уже дают посасать.
>>722481Он тебя про гибридную систему (content-based + CF-based) спрашивает, а ты ему излагаешь чистую CF-based.
>>722478А не врешь?>Since that time, inspired by the advent of machine learning and otherdisciplines, statistical learning has emerged as a new subfield in statistics,focused on supervised and unsupervised modeling and prediction.
>>727804Обосрался с разметкой чутка.
>>652472 (OP)Поясните за машинное обучение. Есть ли какой-нибудь туториал по нему, чтобы можно было его использовать в своих прикладных целях, если я не математик?Чтобы всё чисто программистскими терминами разжёвывалось, используя библиотеку вроде https://spark.apache.org/docs/latest/mllib-guide.html
>>727810scikit-learn
>>727810Туториалов полно, но без понимания основ ты все равно будешь как шимпанзе перед компьютером, тыкать кнопку пока не загорится лампочка и не выпадет еда.
>>727891Ну вот мне основы и нужны, чтобы человеческим языком на примерах объясняли какие баззворды для чего используются, и что нужно взять для шахматного AI, разгадки капчей, чат-бота, классификации спама, поисковой выдачи и т.п.
>>728588Машинка больше и сложнее, чем кажется. Это вообще-то довольно серьёздная математика на стыке статистики, оптимизации, функционального анализа и ещё много чего.Если по делу, то смотри лекции Воронцова. Там он кое-где рассуждает о преимуществах и недостатках. Ещё есть user guide к sklearn. Будь готов к тому, что все выученные методы могут оказаться бесполезными в реальной жизни.
Пацаны!Мне нужно в кратчайшие сроки решить задачу классификации на таких данных:1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 81.0, 1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 2Все атрибуты бинарны.Не вдаваясь в тонкости машинного обучения, какой посоветуете классификатор из коробки sklearn'а?
>>729621from sklearn.ensemble import GradientBoostingClassifier с n_estimators от 9000 тысяч. Не благодари.
>>729683Братуха, от души. Если что, сток данных около 1000, а классов 10.
Вангую, что лет через пять в зекаче будет официальный тред по ML, где студенты будут объяснять друг друг лабы с лог.регрессией.
>>729621>>729683>бинарные данные, 7 значений в строке>классификация>градиентный бустингПиздец, цирк. Все как я и писал выше, кроме главных компонент, градиентного бустинга и ололо диплернинг вообще никаких идей.
>>729621RandomForest
>>730326Ну так посоветуй тогда сам, раз видишь, что тут народ темный.
>>730326давай ты вбросишь своё сиви, а мы посмеёмся
>>653952Я 2 дня с утра до вечера ебался со сборкой tensorflow с поддержкой старых GPU. Он очень сложно собирается. >>725778Google Trends.У меня такой вопрос. А нужен ли матан?Собственно, и Эндрю Ын говорил, что по большому счёту они не ученые, градиент десент писали не они, и бэкпроп он сам тоже не напишет. Там была картинка "1 Придумать гипотезу -> реализовать -> проверить -> goto 1".Выходит: алгоритмы есть. Дата саентисты должны выбрать алгоритм, оттюнинговать его, написать всю эту работу с бигдатой, и постепенно методом научного тыка выводятся новые способы, фишки, и так далее.
Вопрос по перцептронам. Поясните пожалуйста, какого хуя при обучении корректируется еще и W0*X0 (т.е. порог)?И еще: как узнать, что 2 класса элементов линейно разделимы?
>>730505Хз. Я как дата слесарь низшего разряда скажу, что ты описал меня.
>>730512Да ладно тебе. Бобук говорил, что он "маляр" (а не "художник"), и когда он рассказывал про свою SVM он говорил, что взял библиотеки, подружил, запилил за 30 часов. Никакой глубинный матан он не изучал.
>>730418Ах, да, в стандартный цирк еще входит рандом форест, ну как же я мог забыть. >>730427Задача типичная для векторного квантования, тем более, есть априорно заданные классы. Проще LVQ в данном случае сложно что-то придумать.
>>730514Ну хуй знает, это не так интересно. Вот влезать в матан в разы интереснее, чем тыкать по библиотечкам. Правда я теперь трачу почти всё время на затыкание дыр в образовании.А пыхопетухи и джава-ерохи в это время затыкают дыры бухгалтерш...
>>730538А как бы ты решал задачу про MNIST (дана в опроснике выше)?
>>718801Очевидно нужно начать с иерархии Хомского
>>730629>как бы ты решал задачу про MNIST (дана в опроснике выше)? 1) Загуглил бы. 2) Из выдачи выбрал бы пример попроще на основе того, с чем раньше уже сталкивался.Ибо зачем изобретать велосипед, когда пример классификатора мнист есть для каждой первой-второй библиотеки в качестве хелловорлда. Зачем про этот мнист на собеседовании спрашивать, непонятно. Задача абсолютно не творческая, "продай мне вот эту ручку" и то сложнее.
Этого не исключают маняэксперды, которые кокарекали что нефть будет по 16. Хуйня короче, оп свиносотенец.
>>731237Блять, не туда написал.
>>731206Ты похоже никогда не проводил собеседований. Разговор с потенциальными коллегами надо начинать с простого - для объёмных задач есть домашнее задание.> 1) Загуглил бы. Уже что-то. А если бы у тебя не было ключевого слова в виде названия набора данных?> классификатора мнистА вот тут стало грустно.
>>730514В машинном обучении матана никакого особо нет, это же не топология. Просто область хайпнутая, каждая макака отчитавшая минимум пейперов-книжек и потыкавшая пару либ начинает забываться и считать себя академиком, а не инженером.
>>731551Может быть. Но вот всякие вещи, типа вариационного вывода кажутся довольно сложными, для понимания которых неплохо было бы хорошо знать вариационное исчисление и теор.вер.
>>731551А что скажете за topological data analysis? Хуйня или актуальная область?
Аноны, я вот посмотрел пару лекций воронцова, и видос от малого шада про нейронки. Назрел вопрос, нахуя тогда вообще заёбы с алгоритмами и всей этой поеботой, если можно скормить нейронке побольше данных, и она сама всё посчитает?
>>731599Есть ещё категорный подход ко всей этой хуйне.
>>731706Потому что это не так, если у тебя нейронка в принципе не способна описать твою задачу, то сколько данных не будет, лучше не станет - это так же, как сколько линейному классификатору данных не давай, параболу он не опишет.
есть тут не кукаретики, знающие чем очный ШАД отличается от заочного?Судя по сайту это "В ШАД можно учиться заочно, смотря видеолекции и переписываясь с преподавателями московского отделения Школы по почте."Ну, т.е. с лекциями более-менее понятно, но что с семинарами? Они вообще в ШАД есть?
>>731713Но нейронка может описать что угодно.
>>731713опишет если подать на вход квадратичную функциюшах и мат
>>731706Не во всех задачах у тебя будет достаточно данных, чтобы нейронка смогла нормально обучиться (data augmentation не везде прокатит). Почитай для разнообразия какие решения выигрывают на kaggle.>>731978Заочка это полный пздц: иногда запись лекции выходит с почти недельным запозданием, а домашку нужно сдавать наравне со всеми. Ещё проблемы с мотивацией к концу семестра, когда уже наскрёб на трояк. Если ты имеешь ввиду семинары не в рамках какого-то предмета (типа тренировок по машинному обучению), то видеозаписей там нет.
>>732028кто может вкратце описать как проходит учеба в шад?5 дней в неделю с 18 до 21 лекции?+ домашние задания?+ экзамены в конце семестра ?как-то так?
>>652472 (OP)Хочу вкатиться в мл, но не выкатываясь из дотнета. Есть ли смысл что-то пилить на f#, или лучше сразу забить и дрочить пистон? Вроде как на фа диезе тож много разных крутых штук с мл, и литература как Ml project for dotNethttps://drive.google.com/file/d/0BxZ_ztf-wiDQd2tQNkI1WTVDb00/view?usp=sharing
>>731995А в числе пи содержится все, что угодно. И что? На практике это не применимо.
>>732171Дрочи литературу из оп-поста. Пиши на чём удобно т.е. R/Python.
>>732096Если есть желание, можешь ходить на всё подряд. А так у каждого отделения есть свою программа, которой ты должен придерживаться – обычно два курса обязательных и один на выбор. На некоторых курсах помимо домашних заданий проводят контрольные работы, а также всякие конкурсные задания. На каждом предмете свои требования, но в целом можно сделать 70% всей работы и получить заслуженный зачёт (это тройка). В конце семестра есть шанс доработать до зачёта по пройденным курсам, в противном случае, если не выполняешь программу своего отделения, идёшь на вылет. В среднем каждый семестр уходят по 15% всех учащихся; выпускается только половина из поступивших.
>>732201а когда идут занятия?реально каждый/почти каждый день с понедельника по пятницу с 18 до 21 часа? это так?
>>732202Да, ещё иногда бывают в субботу днём. Повторюсь, тебе необходимо посещать только три курса, и никто не накажет за низкую посещаемость (только не стоит пропускать контрольные). P.S. любые подобные вопросы можно задавать кураторам на почту, а не ждать, пока рандомный диван ответит.
>>732207ну т.е. работающему человеку на очке невозможно учиться
>>732213Я лично знаю людей работающих фултайм и обучающихся в магистратуре ВШЭ и в ШАДе (у них взаимозачет части курсов). Как говорится, было бы желание.
>>732232но как ты можешь на приехать на лекцию к 1800, если у тебя рабочий день заканчивается в 1800?
>>732233Не слышал про гибкий график?
>>732237> работающих фултайм> гибкий график
>>732362Проблемы?
>>732174Ты в манямирке живешь? На практике уже все на нейронках работает, даже гугл, даже фейсбук.
Ну, господа воннаби-академики, кто перекат пилить будет?
>>732400пусть нейронная сеточка и пилит
>>731995Нет. Даже для элементарных задач классификации нужны люди, которые определят правильный набор фич.Наглядно:http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle®Dataset=reg-plane&learningRate=0.03®ularizationRate=0&noise=0&networkShape=4,2&seed=0.90573&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification
Как выделять паттерны из текста? В какую сторону тут можно копать?
Единственное о чём мечтаю: вкатится в data analysis.Но не представляю как. С чего начать?Закончил универ программистом, но опыта работы нет.
>>732537Если нужно генерировать текст на основе другого, то Марковкие цепи.
>>732553Проходи онлайн курсы (их дохуя), пробуй участвовать в соревнованиях от Keggle.
>>732479Проблемы?
>>732362И что?
Посоны, что посоветуете по трекингу объектов на видео (не совсем МЛ, но рядом)? Нужно диплом слепить.
>>732678Тебе понадобится детектор этих твоих объектов на картинке. Дальше накладываешь фильтр Калмана на координаты по кадрам.
>>732587Курсы уже прохожу.Работу как находить?
>>652940> pr> даже не может сменить раскладкуКеккерель.
>>732738У него сеточка ещё не самообучилась!
>>732678MIL + State space
>>732678Дока к OpenCV 3+
>ШАДЯ как услышал на первой же лекции на Курсере что-то вроде "Здесь x проецируется на двумерную гиперплоскость" - я поседел. Да и вообще нить терял каждые 2 минуты на лекции. Хотя 2 курса матана у меня есть. Стуктуры данных и алгоритмы в универе понимал хорошоВы серьёзно осиливаете это? Мне в грузчики идти?
>>733043> Мне в грузчики идти?Можно сайтики делать и много других полезных вещей.
>>733043А ты не спеши, Бро. Тупишь - значит темп сбавь. Главное делай и поймёшь все. Это ж не соревнование.Мимо скриптомакак
>>733043>Вы серьёзно осиливаете это?Да.>Хотя 2 курса матана у меня есть.Гиперплоскости это про линал, у тебя он есть?
>>732678В нормальном дипломе у тебя должен быть обзор технологий трекинга с обоснованием, почему взял именно эту, так что парой рабочих методов не отделаешься. Так что лучше такие вещи лучше не на АИБ узнавать, а у своего научника - на то он и нужен, чтобы сказать, в какую сторону и что для твоего диплома изучать, чтобы ты его потом успешно защитил.Если тебе нужно просто реализовать трекинг по готовым и отлаженным алгоритмам - то тогда комбайн OpenCV для этого отлично подойдет. Есть хорошая книжка "Learning OpenCV", в которой сначала подробно дается теория, а потом то, как это с помощью библиотеки реализовывается.
Начинаю пилить перекатОП
>>733207Спасибо> Learning OpenCVЭта http://shop.oreilly.com/product/0636920044765.do ?
https://2ch.hk/pr/res/733276.htmlhttps://2ch.hk/pr/res/733276.htmlhttps://2ch.hk/pr/res/733276.htmlПЕРЕКАТПЕРЕКАТПЕРЕКАТ
>>733254У меня вот эта была, но она от 2008 года: http://shop.oreilly.com/product/9780596516130.doДля нее сделали какой-то перевод, он любительский, я не читал, про каченство ничего сказать не могу: https://vk.com/opencvТа, что ты скинул - новая, но, кажется, еще не закончена, хотя глава про трекинг там есть.
Охуенный тред. Спасибо, ребята.Мимопроходил
>>732600С этой задачей и не должно быть проблем.Ты попробуй последнюю (2ую во втором ряду).
>>652472 (OP)>Machine Learning 101>1. Introduction to Statistical Learning, Casella ( http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf )>Книга для нубов, очень хорошая. Все разжевано и положено в рот.Есть такое же, но про биг дату?
>>654540>порочен. От детальной декомпозиции предметной областиЗа всем стоит столь страшная и неприятная правда, что ложь и замалчивание среди руководителей, исполнителей и аналитиков привели к вымыванию осознанной деятельности, т. е. запрет познания сути, элементарного анализа и мышления постепенно привел к отказу от познания как такового в бизнесе, даже среди тех, кому было поручено думать. Остались зомби с высоким IQ, дебилы мастерски владеющие навыками решения задач, умеющие обращаться с алгоритмами и программистскими инструментами, но с мышлением успешного овоща. Способные к познанию и мышлению люди из этих дел выплыли сами, т. к. плавать в этом говне из чудовищной правды, служить лжи и при этом не объявлять этому войну — для думающего невозможно.Для нормального общества любая деятельность подразумевает системный подход и формализацию не только в анализе но и в действиях, созидании, планировании. Но т. к. общество глубоко ненормально, у него цели совсем иные, и всё это будет дорого, а во-вторых, как я писал выше — вредно и даже опасно. Многие думают, если там, что-то делают, так они там точно уме, но вот, к примеру, глобальный американский отдел маркетинга и рекламы ментально представляет собой в точности то же что под маркетингом и рекламой понимает русский.