Вкатывальщик в Дата сайнс/аналитику/автоматику хочет послушать советов мудрых (скорее всего хуйца сосну как обычно).
1. Зачем вообще нужны любые статистические библиотеки на питончик кроме Сайпай? Панды и прочая фигня? В сайпае есть все что я знаю, например, там только распределения Леви три функции.
2. Насколько на собесах будут ебать с собственно знанием синтаксиса Питона? Если я обосрусь и не вспомню с нуля как сортируется лист, а как словарь и скажу ХРу что посмотрю в документации - это прямо дико огромный минус к шансам, синтаксис должен от зубов отскакивать?
3. СТОИТ ЛИ ВЫУЧИТЬ ХОТЬ ПРИМЕРНО СИНТАКСИС КРЕСТОВ И ЯВЫ На этот вопрос почему-то никто не отвечает когда его задаю.
4. Стоит ли размахивать своим знанием английского как плюсом? Я несколько лет проработал переводчиков, в тч в сфере теории айти и новуки, но это не будет выглядеть как будто я с порога говорю что коммуникабельный, неконфликтный и прочую хуйню?
5. Самое главное. Как должен выглядеть мой пет-проджект на ДС? У веберов и пр понятно - сайт какой нить, а у меня? Прожку по рассчету многомерного матричного анализа сделать? Или что вообще? Это дело одного вечера, да и сейчас есть калькуляторы, которые чуть ли не отсасывают за 300 рублей, куды тама мне.
Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26? Софт скиллы если что норм, знание статистики норм, потому что математика искренне интересует, сил работать переводчиком нет уже, меня тошнит, это худшая наверное из требующих мозга работ, абсолютно не творческая и требующая постоянного напряжения. После 10 часов день заканчивается же факто, я выжат как лимон и ничего не хочу в жизни.
Да, дурак, погнался в 18 за лёгкими деньгами, благо родители дрочили с английским с 8 лет, но сейчас я уверен что не хочу нихуя переводить на заказ больше, или я кого-то убью нахуй скоро.
>>233122789 Мне это интерсно, в отличии от веба хуеба и геймдева, хотел даже в магу на автоматика поступить, но резко у родителей кончились деньги, пришлось дропать и работать.
А я довольно слоу кстати, не тупой прям, но слоу, и не могу одновременно учиться, работать и не выглядеть как труп, да при этом ещё и без личной жизни.
Ну камон, мне интересны в жизни философия, матан и психология. Психологом я быть не могу, долгая истрия, я ппофнепригоден, мне знанием Ницше, Аристотеля, Квайна и Карнапа зарабатывать?
>>233122650 (OP) Сам я тимлид, в команде есть один аналитик, так что отвечу на то, на что смогу
1. Тут хз 2. "Как сортировать" - это не синтаксис. На какие-то нетривиальные вещи обычно пофиг, но странно, если человек хотя бы с опытом в пет-проджектах путается в сортировке и обычном синтаксисе, потому что с практикой такое быстро запоминается. 3. Может стать плюсом. Наш аналитик не коммитит код на C++, но иногда ему бывает нужно внести какие-то изменения в наш код для проверок своих гипотез. Быстрее будет, если он сможет это сделать сам, а не привлекать кого-то ещё. 4. Размахивать вряд ли, просто указать, что уровень хороший - можно 5. Хз, извини
Если шарить будешь, то долго ходить не придётся. Не такой у тебя возраст, чтобы из-за него отказали. Если будет видно, что ты шаришь (с учётом того, сколько ты этим занимаешься), и есть перспектива, то на возраст относительно пофиг. Просто обычно ничем не уступающий тебе студент будет готов работать больше, и за меньшие деньги, ибо у него ни ипотеки, ни личинок, например.
>>233124019 2. Я чутка обосрался, дело в том, что сортировка листа и словаря производится очень похожими методами, ну грубо говоря, название функций отличается на 2 буквы.
Я не считаю нужным запоминать мелочь, я запоминаю типа "у листа и словаря есть сортировка, у словаря она сильно кастомная". И думаю что все другое посмотрю по делу. Это фейловая стратегия или норм?
3. Сяп. Я именно про кресты и думал.
4. Ну всм тащить с собой резюме и пр?
Спасибо, анончик. Можешь реувестировать чо нить, все равно бампать а ты время потратил.
Лист сортируется функцией Х.sorted(A), а дикс - sorted(X, A)
Я это прям так наизусть заранее не помню, как и сотни таких вещей, например я знаю что есть функция для вызова тест сьюта из описания функции, но в душе не ебу как она выглядит.
Вооот. И я нинаю это прям дикий косяк или нет? Если просят ирл то не напишу точно с ходу.
Алсо, подскажите задачник на ДС для тренировки. А то на кодварс надо кучу хуйни по типу "кавезных задач" по типу "отсортируй 0 и False" прорешать пока до серьёзных заданий доберёшься.
2. У листа есть метод `sort`, который его по месту сортирует. `sorted` - это свободная функция, которая принимает любой итерируемый объект, а возвращает список. Что понимается под сортировкой дикта, не оч понятно. В питоне 2 - это хешмап, в нём нет порядка, в питоне 3 стандартный dict аналогичен OrderedDict, в котором порядок есть, но какой-то отдельной сортировки для него нет. Ты можешь представить дикт как последовательность пар (ключ, значение), отсортировать их, а затем преобразовать в новый словарь. Это всё скорее базовые знания, чем мелочь, кмк.
4. Расписывать на целый абзац не надо, упомянуть стоит.
Язык учи, какой хочешь. Есть вакансии под си, большинство под питон. В питоне хорошо знать генераторы/декораторы/стандартные либы и важно (!) какой-то фреймворк: пайторч или тф.
Пандас нужен просто, чтобы вертеть данные. Огромную часть времени ты будешь рассматривать датасеты и чистить их, для этого он помогает.
Пет прожекты простые - возьми задачи классификации, кластеризации, генерации, регрессии, и реши лучшим способом, которым умеешь. Советую лгбуст, деревянные методы и нейронки. Это используется и работает.
На английский всем похуй. Ну в смысле, все должны владеть как-нибудь. Где-то б1 достаточно. Можешь вскользь упомянуть.
Вообще не ебу, что за распределение Леви) Учился на математика-статистика, не встречал.
>>233126519 Нет, для словаря есть сорт таки. Отдельно по аргументу сорта (который может апеллировать и к кею и к карго).
И я не знаком с П2. Think like a computer scientist книга говорит, что суть словря в том, что он не отсортрован, а поэтому быстрее листа. Я верно понял?
Та на целый абзац суть в том, что я по айти и работал. Меня собсна препод из вуза и подбил в статистику пойти.
Например, у меня есть готовый текст чем обычный кореллчционный метод хуже интегрального в анализе типа траффика. Такое да, но это ближе к теме, не?
>>233122650 (OP) >2. Насколько на собесах будут ебать с собственно знанием синтаксиса Питона? Если я обосрусь и не вспомню с нуля как сортируется лист, а как словарь и скажу ХРу что посмотрю в документации - это прямо дико огромный минус к шансам, синтаксис должен от зубов отскакивать? Если ты идёшь на джуна и не знаешь какой-то базовой хуйни или не сможешь на листочке написать, как обратить строку - скорее всего нахуй послан будешь. Но вообще от конторы зависит, мб и простят, если ты в каком-то другом домене покажешь знания, которые им нужны.
>3. СТОИТ ЛИ ВЫУЧИТЬ ХОТЬ ПРИМЕРНО СИНТАКСИС КРЕСТОВ И ЯВЫ На этот вопрос почему-то никто не отвечает когда его задаю. "Примерно выучить синтаксис" != уметь писать код энивей. Если позиция не требует - не понимаю, нахуя тебе это. Учи лучше те инструменты, которые нужны будут в работе.
>4. Стоит ли размахивать своим знанием английского как плюсом? Я несколько лет проработал переводчиков, в тч в сфере теории айти и новуки, но это не будет выглядеть как будто я с порога говорю что коммуникабельный, неконфликтный и прочую хуйню? Скорее всего, если не пойдёшь в говноконторы, которые на внутренний рынок работает, про английский у тебя спросят (а то и интервью проведут). Напиши в резюме уровень владения да и всё. А "я коммуникабельный и неконфликтный" говорить не надо, это пиздец кринж + появится впечатление, что у тебя по делу сказать нечего. Наличие софт скиллов подразумевается само собой, 2020-й на дворе.
>Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26? Как повезёт. Можешь найти стажёрскую позицию и на ней поработать за еду и опыт полгода. Может, возьмут джуном и в авральном режиме научишься. Хуёво, что 26, конечно.
>>233122650 (OP) > Панды и прочая фигня Панда - это скорее что-то больше похожее на работу с базами данных, а не с чистой статистикой. Удобнее обращаться с реальными данными, а не с числами. > собесах будут ебать с собственно знанием синтаксиса Питона Синтаксис питона можно неиронично выучить за пару дней. Лучше сделай это прямо сейчас, оно несложно. Стандартную либу неплохо бы знать, но никто в здравом уме не ожидает что ты будешь помнить сигнатуры функций наизусть. > Если я обосрусь и не вспомню с нуля как сортируется лист Это уже не синтаксис, а алгоритмы. Их лучше тоже знать, но вот их уже за пару дней не выучишь. > Стоит ли размахивать своим знанием английского как плюсом? Стоит об этом написать одно слово в резюме (Языки: Русский, Английский), размахивать этим не стоит. Сейчас знание английского переходит в разряд "опытного пользователя ПК". > 5. Самое главное. Как должен выглядеть мой пет-проджект на ДС? Суть пет проджектов не в том, чтобы написать о нем в резюме (можно и не писать), а в том, чтобы научиться пользоваться инструментами и вообще хоть что-то понимать в целевой области. Если сделал проект и понял, что ты теперь всё знаешь - то норм.
>>233122650 (OP) Пандас - маст хев, без него не могу представить как я бы работал с ебанной тучей спредшитов, которые на тебя клиент вываливает. Очень полезно для проверки качества данных, гипотез, зависимостей и т.д. Особенно важно что это дает возможность автоматизировать проверки, сделать тесты, а не кликать в экселе каждый раз.
Так же удобно делать аналитику по базе данных, если на sql сложно извернуться. Странно что ты SQL не упомянул, я бы ожидал это как обязательный скилл. Без супер опыта, но джойны, группировки, вложенные запросы - маст хев.
>>233126945 Суть скорости словаря по отношеню к листу в том, что в листе поиск идёт по перебору и занимает О(n), а в словаре доступ идёт сразу по ключу с использованием хеша и занимает O(1)
Мне офк больше нравится пайтон. Потому что я по натуре не айтшник, и ебаться с оптимизацией не мое. С другой стороны, я понимаю, что есть всякие переборы молекул в химии, которые очень сильно зависят от оптимизации, и заняться этим некому кроме таких как я. Кроме дико крупных фирм, где есть математик-оптимист на отдельной должности.
Ну просто зачем вертеть данные в какой-то примитивной базе, не лучше использовать хорошую базу для учёных сходу?
Ну это ты оче обще написал... Мб конкрктнее про пет чутка? Буду благодарен.
Распределением Леви называется вероятеостное распределение с толстым И тяжёлым хвостом, в своём максимуме сближающимся с экспоненциаоьным. Интерсно, если я дам такой ответ, это плюс или минус?
В книге как-то телега впереди лошади. В реализации использован hash-map, который предоставляет быстрый доступ (O(1)), но элементы в нём не упорядочены как следствие реализации. В OrderedDict / python 3 dict просто параллельно запоминается порядок, в котором ключи были вставлены.
>>233127428 Зайди на kaggle, возьми какой-нибудь датасет на интересующую тему, почисти данные, построй пайплайн, визуализируй данные, построй разные модельки, посравнивай, добавь комментариев с рассуждениями. Думаю, этого будет достаточно для начала
>>233127428 для молекул есть rdkit api под питон. сама библиотека на с++. много с чем так
про базы - так никогда не бывает. данные в 99% из говна, или не подходят под вход модели, или ещё что-то.
про пет я там добавил - зарешай kaggle, хотя бы учебный. там можно выбрать как классификацию, так и регрессию. предоставь jupyter notebook с решением задачи от и до: вот я верчу данные, вот я запускаю, вот я считаю метрики.
про распределение я посмотреть могу) ответ нормальный. я просто про то, что это какая-то нишевая вещь, может сложиться впечатление неадеквата, если будешь прям на неё напирать
общий совет - не парься сильно. если хочешь, то тебя возьмут в хорошее место. постарайся наладить контакт с интервьюером.
>>233127425 ну я про другие гипотезы, я больше аналитик чем дс. Клиент тебе дает данные в 20 спредшитах по 100т строк и надо проверять правильность отношений, зависимостей, 1:1, 1:n, n:m, уникальность и т.д. Искать скрытые зависимости (клиент забыл сказать)
>>233127768 зависит от того кем ты работать идешь. какой уровень позиции, какой уровень компании. в общем случае от тебя ожидается что ты владеещь инструментами и владеешь предметной областью. то есть а) какие есть методы решения тех задач, котороые тебе дадут б) как их применить на том стеке что у всех.
>>233127607 Да я хз какой ответ от тебя будут ждать, я собеседования не провожу, с потолка пример взял. Фейлить на собеседованиях тоже полезный опыт, кстати. Интервьюеры часто тебе разжёвывают вкратце то, на что ты не ответил или объясняют, чем плох твой ответ с их точки зрения. И это может помочь в следующий раз. А может и не помочь, лол.
Ещё слышал, что некоторые ребята гуглят список типовых вопросов на собедование на грейд_нейм ЯП_нейм и иногда попадаются такие вопросы.
>>233122650 (OP) 1. Дата саенс/аналитика в 2к20 без дип лернинга нахуй никому не нужна. 2. Что scipy, что pandas - тормознутое и неудобное говнище. Я не знаю какой дегенерат (кроме даунов-кеглеров) всерьез это юзает в продакшне. 3. УЧИ БЛЯТЬ КРЕСТЫ/ЯВУ/СИСЯРП - ЭТО ОХУЕННЫЙ ПЛЮС, простой порт какой-нибудь хуитки с поделия гвидона на нормальный язык может дать 10-100x ускорения (наблюдал много раз лично). Представляешь, как охуенно, если ты, дегенерат, сам это сделать не можешь.
>>233127575 Эзхх надо лезть в книгу. Если правда интерсно, то напиши ещё раз, я залезу и скопирую.
Книга очень специфическая, я, читая после неё, обнаружил там много элементом например из низкого уровня (понимание деревьев как хранилища для алгоритмов) и пр. Но хорошая мне кажется все равно.
>>233127673 Ох, спасибо. Нет, это не ниша, нам на парах про неё говорили. В зависимости от аргумента она даёт от нормального распределения до экспоненты.
Спасибо в общем. Ты няша.
Про базы имел в виду, что Сайпай содержит буквально все нужные функции что я знаю.
>>233128343 >2. Что scipy, что pandas - тормознутое и неудобное говнище. Я не знаю какой дегенерат (кроме даунов-кеглеров) всерьез это юзает в продакшне. >мимо-сеньор-нейросетевик-велосипедист
>>233128523 > 2к20 > фортран Ты щас рофлишь или ало? На дворе 2к21 почти, слышал такое слово КУДА блять? Откуда вы дегенераты лезете. Ну сделал ты лабу2 на кегле, и что теперь?
>>233128523 Лол, как будто это ему помогает. Про пандас я вообще молчу просто, как то раз один челик решил записать цсвшку на сто тыщ записей угадай сколько пандас по секундомеру показал?
>>233128693 Чел, пандас это херня для датафреймов, всё. Scipy это поделие, претендующее на умеющее все по матану. И умеет это всё оно одинаково хуёво по сравнению со спец либами заточенными под одну задачу. Как ты вообще сравниваешь БД и калькулятор, наркоман ебаный?
>>233128831 Не, ну если ты любишь передергивать по 10 раз на дню, то да, ты никуда не опаздываешь, дегенерат. потом такие жалуются, почему у них батарейка на телефоне садится за полчаса
>>233122650 (OP) >Ну и наконец, скок я буду ходить по собесам пока не возьмут на должность подай-принеси без опыта и профильного образования в 26? Чел блять, лучше не лезь.
>>233128916 Химики понятия не имею как оптимизировать. Это реальная, блять, проблема, у меня есть пара знакомых биологов протеины считают, которые спрашивают меня, как накодить так, чтобы оно считалось день, а не месяц, потому что у них некому. Пользоваться надо нормальными либами.
>>233128856 Анон, у меня ноль опыта и я работаю с задачками из учебника по статистике, у меня нет понятия что работает хорошо и что плохо, я не успел посмотреть все функции даже в панде, не говоря о том, что я понятия не имею что влияет на ароизводмтельность питона что нет (ну знаю базу что тупл быстрее листа в 10 раз).
>>233128916 Эммм. Работать может что угодно. Только некоторые методы работы будут работать миллионы лет. Совершенно верно и выдавая промежуточный результат.
Подскажите какие-нибудь книги/курсы/сайты с дата аналитикой и дата саенсом. Data science from scratch скачал, буду читать. Какие есть ещё новичковые ресурсы?
Такая это все хуйня, одно дело человек с детства интересуется и просто по жизни этим неспеша занимается, нарабатывает опыт, интересуется, находит таких же заинтересованных, т.е. все своим чередом, жизнь сказка. Но блять быть вкатывальщиком это такой ебаный в рот, за год учить то, что люди тренили 10тилетиями, все быстро быстро, куча инфы, нервные собеседования, опыта нихуя, реального интереса нихуя и все ради ебаного бабла. Нахуй так жить .....
>>233129416 Если честно, я не уверен, что ты занимаешься тем чем хотел "с детства", потому что у меня нет знакомых, кроме одной подруги, которые занимаются тем, чем хотели в детстве..
И то, эта подруга хотела стать энтомологом, а стала онкологом-теоретиком.
Человек развивается плюс минус к 20, и интерсы тоже.
>>233129492 Так это как раз то, что я написал. x.items() вернёт тебе итератор по парам (ключ, значение), именно их ты и сортируешь. А затем из них создаёшь новый дикт.
sorted здесь не иной формы, он ровно такой же, но вернёт он - отсортированный список пар. Чтобы сделать из него дикт, и нужна конструкция с in.
{k: v for k, v in [(0, 0), (2, 1), (1, 2), (4, 3), (3, 4)]}
>>233129620 Анон блин я говорил, прокатят ли меня на хуях если я скажу скажем что сортировка в листе это функция операнда аргумент а не операнда функция аргумент?