Программач, ночной, помоги найти студенту литературы для диплома по теме кластеризации и классификации документов. Подкинь годных советов на эту тему, если работал в таком направлении. С меня как всегда.
Бамп
Лол ты тролишь? Это сейчас хайповое направление, открываешь гугл школяр (сайт такой, хотя ты тоже школяр), вводишь в поиске "natural language processing", "text mining" и сортируешь по дате публикации и количеству цитат.
>>161966860*цитированийКонечно же
>>161965364 (OP)мало того что ты тупой, ты еще и ленивый.
>>161966860Большинство годной литературы там платная. Остальную скачать не выходит из-за битых ссылок. Остаются только статьи на 3 страницы, из которых много нового особо и не почерпнешь.>>161967240Я не ленивый. Просто хотел спросить у людей, которые связаны с этим. Может быть есть книги, которые им помогли или какие-то сайты\блоги посвященные на этой теме. Информации в интернете много, но было бы неплохо, если бы кто-то посоветовал действительно стоящее.
>>161968078Заходи с универской вафли, у универов как правило есть соглашения с библиотеками вроде ieeexplore
>>161968985Мой университет находится в Приднестровье.
>>161965364 (OP)На хабре не так давно выкладывали курс по бигдате и machine learning от какой-то компании в этом направлении. Вот там дохрена такого и с примерами и с алгоритмами, разбором спец. софта и этими вашими нейронными сетями. Думаю если разберешься и присобачишь это к своей теме, то мало того что слепишь годный диплом, но и параллельно освоишь в бигдату, что на сегодня на рынке очень востребовано.
>>161969819А можешь поискать в истории, не сохранилось ли у тебя. Просто там этих статей полно, всю ночь можно сидеть и искать курсы. Ну и самое главное. Этот курс платный или бесплатный?
>>161969888Не в хистори нет, чистил недавно. Это не статьи, тебе же написали КУРС. Там будет часть1 2 итд, частей 10.Все на русском, все очень годно и бесплатно. Они там в комментах отписались, что таким образом пытаются компенсировать дикую нехватку кадров по данной теме и кого-то себе приискать, публиковали вакансии еще с весьма годной ЗП. Ищи короче и твори диплом.
>>161970123Спасибо большое, буду искать по хабру. Но может все же подскажешь с какими компаниями это связано или что-то такое, что поможет мне найти именно эту статью? Уже нашел несколько, но там платные курсы.
>>161970304какую тебе надо статью, этих статей миллион, учебников тоже, открываешь первый попавшийся пример https://github.com/adeshpande3/LSTM-Sentiment-Analysis/blob/master/Oriole%20LSTM.ipynb если непонятные слова - открываешь букварь. видюха есть?
>>161970304Называлось типа введение в машинное обучение, или осваиваем машинное обучение. Платного на хабре много рекламируется это да. Ты ищи не курсы, а зайди в бигдата и машинлергнинг, ИИ там и посмотри, перебирай по порядку, найдеш. Там говорю статей 10 по частям.
>>161970398>видюха есть?Видеокарта или ты про какое-то видео?
>>161970431Хорошо, спасибо тебе большое, анон. Ты мне очень помог.
>>161969819>востребованоХуйстребовано. В компаниях, где это реально надо штат набит под завязку и эйчарш заёбывают каждый день вдохновенные пидоры даже если не открыто ни одной вакансии "вольмиииите меня, ну пожалуйста, я хабру читал и курсеру смотрел, хоть стажером, хоть на пол шишечки, ну пожааааалуйста".Это пидоры, которые прочитали где-то что датасойнс престижная специальность и много денег.Такие пидоры есть и среди работодателей. Они нанимают одного мидла для решения задачи, для которойнужен нихуясебеотдел с синйорами и заграничными ПхД (я сейчас в такое вляпался).В реальности датасайнс - это вишенка на тортик, те самые +2% КПД, которые нужны чтобы обскакать конкурента, с которым у тебя жесткий клинч по всем фронтам и точек роста не осталось. Таких компаний в каждой отрасли по пальцам посчитать.А ещё это лотерея, блядь. У разраба есть ТЗ, в котрой описана принципиально решаемая задача. Хороший инженер знает, как реализовать решение максимально эффективно и безопасно. Обычный инженер просто знает, как реализовать. Датасойнтист не знает. Ты пробуешь, оно не сходится, ещё пробуешь, тупишь, объясняешь заказчику, что это не ты тупой, а так устроена любая работа, суть которой - изобретательство. Как поиск лекарства от болезни: его могут изобрести, а могут и не изобрести. И это очень выматывает психологически, когда НЕ ЗНАЕШЬ, как решить задачу и негде посмотреть готовое решение. И ещё нет классического набора скилов и технологий, освоив которые можно особо не париться за уровень квалификаци, переодически подучивая новые версии библиотек. Датасойнс - это бездонный колодец, в два раза глубже, чем попытка "выучить ВСЁ программирование". Вечная гонка за хуй пойми чем, вечное ощущение себя нубом.Короче, ОП, это работа очень так на любителя. Я нахожу в ней что-то своё, но только потому, что я экзестенциальный извращенец.И да, пока не станешь синьйор-хуиньйор-волшебником, зарплата как у кодера (может меньше).Мимо датасойнтист. Выговорился.
>>161970603Многие алги под видюху и софт требует видюху, он это имеет ввиду. Параллельные\распределенные вычисления на графоне. Опять же для нейро нужна видюха.
>>161970645>И это очень выматывает психологически, когда НЕ ЗНАЕШЬ, как решить задачу и негде посмотреть готовое решение.не знаю где ты работаешь, но меня например больше напрягает, когда я знаю как решить задачу и знаю где посмотреть готовое решение.
>>161970685Я просто недавно начал изучать OpenCL для вычислений на видюхах и подумал, то ли я слишком глубоко начал в это закапываться, то ли ты действительно о видюхах. Видюха есть, хоть и не очень мощная по саовременным меркам, но всяко мощнее проца.
>>161970691Не, творчество и инженерные амбиции - это всегда хорошо. Самому нравится. Но романтика хороша, когда она не вечна.А ощущение тупика, которое рискует возникнуть изо дня в день - не из приятных.
>>161970645> штат набит под завязку Что, правда?
>>161970645Ну то что сейчас в России проблемы в этой отрасли я знаю. Просто по диплому хотел каталог для библиотеки сделать, а мне сказали нам такое не пойдет, надо матан туда применять. А я просто не вижу ничего другого как вот такие штуки туда приделать. Хоть и слабенько оно будет, но чтобы они меня лишний раз не парили. Может что сам посоветуешь интересного на эту тему? Ты там держись давай, очень надеюсь, что через несколько лет хоть как-то в России будут ценить твою работу.
>>161970645>я сейчас в такое вляпалсяНее ну ты нормально написал я неспорю.В тоже время>я сейчас в такое вляпалсяа некоторые и нормально пристраиваются, не к тем кто взял мидла следуя моде и умным словам. Бывают и нормальные проекты бро, просто ты пока не там.
>>161970807Ну и откуда ты сюда это притащил?
>>161970691Двачую анона. Когда какие-то слишком простые задачи - не очень интересно.
>>161970813>нормальные проектыЛол, это как?
>>161970810>надо матан туда применятьИщи на хабре тот курс статей, там как раз всё матаном обмазано, впрочем с хорошими примерами жизненными и пояснениями зачем это и почему вот так работает в жизни. Потому отчасти мне и запомнилось.
>>161970869Кажется нашел. Там первый курс с библиотекой Pandas к питону? А заканчивается градиентным бустингом, так?
>>161970865Нормальные по выхлопам и людям тебя окружающим. С интересными задачами типа тех же алгоритмов торговли, или обработке видео, решения класификаций для быстрого поиска товаров в инете, чтоб запилить сервис и тупые телки и тетки могли нормально и быстро серчить нужное как мы с тобой к примеру, а не тупить часами в гугле и так и не найти нужный товар (что есть непрямой убыток продавца). Класификация отзывов, определение фейковых по всплескам и аномалиям, да много всего интересного и нужного. Одной автоматизации банковской на сегодня Грефу и Ко требуется овердох, знал бы ты сколько, там хотят отправить в неоплачиваемый кучу теток и посадить по паре таких инженеров на кластер филиалов.
>>161970937Вроде да бро. Мои поздравления! Вот кури это сперва, затем приматывай к своему диплому. Провижу успех!
>>161970807У тебя на скрине узкопрофильные отделы. Там проблема другая - найти толькового спеца, который имеет коммерческий опыт в задачах именно такого типа. Но таких компаний не так уж много. Основновные заказчики - это компании, в которых решили "эй, у нас тут куча данных простаивает, давайте наймем ДСа, пусть наклепает моделек, котрые нам кучу всего оптимизируют".>>161970810В России не будут.Героям Слава!>>161970813Увы, таких раз-два и обчёлся. Ничего, помаюсь годик-другой по стрёмным проектам и вкачусь в пафосную контору матёрым синьйором. На хорошие бабки.
>>161971056>Ничего, помаюсь годик-другой по стрёмным проектам и вкачусь в пафосную контору матёрым синьйором. На хорошие бабки.Слова не мальчика, но мужа.
>>161971056>найти толькового спеца, который имеет коммерческий опыт в задачах именно такого типаОни требуют опыт работы лет 5, а бум пришелся именно на эти годы. Вангую, что через пару лет будет много школоты которые побыли на двух платных семинарах по этой теме и уже захотят получать с 100к в секунду.
>>161965364 (OP)Гы, кластерный анализ похож на хуй
>>161971001>чтоб запилить сервис и тупые телки и тетки могли нормально и быстро серчить нужное как мы с тобой к примеруНу так запили такой поисковик и станешь миллионером.
>>161971180Скорее на волосатую пизду твоего папки-трансгендера.
>>161971262Дык уже пилят, по пути возникают конечно проблемы, но думаю допилится. И да, наверное кто первый это высрет, тот и станет миллионером.Это к тому что не одни пилят, а несколько команд параллельно.
>>161971180Анон не пались, не надо показывать всем, что ты никогда не видел пизду
>>161971432Так, а ты почему не пилишь?
>>161971447Может он не по этой теме.
>>161970810Так на вскидку и не вспомню. Но для диплома можно не выёбываться и запилить что-то совсем простое. Типа вот этого https://habrahabr.ru/post/205360/Если много слов в документах, можешь попробовать заюзать PCA (вот тебе ещё матана немножко в диплом).
>>161971001>знал бы ты сколько, там хотят отправить в неоплачиваемый кучу теток и посадить по паре таких инженеров на кластер филиалов.Мне вот всегда было интересно, есть же куча всяких менеджеров, тетки всякие которые с Word и Excel работают, бухгалтерши всякие. Вот придет пора машинного обучения, что они тогда будут делать? Пойдут на рынок вещами торговать? Но ведь и рынки уже пожирают крупные магазины со всякими скидочками.
>>161971168Дык, уже!Текущий работодатель сказал, что пока меня нашел, заебался отшивать соискателей, у которых за плечами только месячные курсы полторы программы на Курсере.
>>161971552Станут ЭЙЧАРШАМИ. Или ПЭЭМАМИ.Тут суть какая: раньше у тебя 10 менеджеров сидели на телефонах и принимали/оформляли заказы. Потом всё автоматизировали, сделали охуевшую иситему онлайн-заказов, на поддержание которой нужно несколько разрабов, дизайнер, админ, ПМ, тестировщик, в сумме не намного меньше, чем было манагеров.
>>161971461>ты почему не пилишь? Пилю, но уже не это, тимлидом сейчас в другом проекте, но тот тоже мониторю.
>>161971615Ну вот смотри, тех же эйчар можно тоже заменить такой системой. Можно ведь натренировать нейросеть чтобы она могла понять подходит ли человек на должность юриста. Вот он пишет как любит кататься на велосипеде и что у него 5 лет опыт работы грузчиком и 3 года он работал на заводе. То есть, поймет ведь она, что он вообще не из той сферы? Либо же если какой-то тоже недалекий но с раздутым самомнением влепит свою анкету. Ведь этих заявок порой бывает тысячи и приходится нанимать с десяток эйчар. Да, собеседование никто не отменял, но уже работы поменьше, а значит меньше сотрудников. И может ли такое быть, что вот эта нейросеть найдет какие-то ключевые слова анкет, которые характеризуют талантливого человека? Тогда и собеседования ведь не нужны будут.
>>161971769А чем вообще вы там занимаетесь?
>>161971552>Вот придет пора машинного обучения, что они тогда будут делать?Этот вопрос не одного тебя занимает друг.Даже вангуют социальные протесты и безработицу всякую.
>>161971782>чем вообще вы там занимаетесь?Пилим бюджеты ЛОЛНа самом деле они там насколько я могу наблюдать, оптимизируют нейро и пытаются на куче интераций ее обучить вдумчивому поиску. Сформулировать ей запрос, преобразовать естественный язык в вектора и обратно, подобрать под все это нормальные алго и обучить ее наконец вдумчиво искать отбрасывая заведомо херню, применяя теорему Эскобара фильтровать ссылки и их содержимое итд.
>>161971519Почитал хабр. Но все равно мне идею с валидацией данных точно забракуют. Просто думаю уже сколько недель каким вообще образом можно матан прикрутить к каталогу библиотеки. Завкафедры говорит сделать "умный" поисковик, который чтобы не как гугл, а чтобы прям вообще понимал. Думаю, ну и вляпался же я. Конечно можно сделать так, загружает пользователь документ, парсим его на слова и по словам определяем категорию куда этот документ добавлять с помощью тех же алгоритмов классификации. Но какой в этом смысл, если пользователь сам может написать категорию ручками? Может есть какая-то такая тема кластеризации среди поисковых алгоритмов, которая могла бы удивить этих людей? Может вообще забить на поиск и придумать что-то другое? Но вот за PCA тебе спасибо большое, буду читать больше об этом, может быть хоть какая идея в голову придет.
>>161971794Так ведь и программистов заменить можно. Уже есть сотни CMS и всяких готовых инструментов. Остается только сделать конструктор, которому ты пишешь "Хочу себе онлайн-магазин бытовой химии" и он тебе предлагает разные дизайны. Все, уже веб-макаки не нужны. Про обычные программы тоже можно сказать. Да и вообще, может ли эта отрасль так развиться, что сама будет себя улучшать и в себе искать неполадки? Тогда ведь и ты не нужен будешь.
>>161972104>Тогда ведь и ты не нужен будешь.Нет неверно. Я буду нужен анон. Всегда будут нужны люди подходящие к своему делу творчески. Хоть кодеры, хоть штукатуры. В ближайшей перспективе сильного ИИ не предвидится, посему машины не вкатятся в творческий подход, а значит не смогут самообучаться и допиливать новое. Тех кто клепает однотипное, конечно выпнут как Греф теток из сбера.
>>161971948Я долго думал на тему поисковиков и вообще того, что именно является нужной страницей для человека. Но вот что меня огорчило и наверное, оно перечеркнет или перечеркивает всю работу, которой ты занимаешься. Дело именно в самих людях. Когда они спрашивают что-то у поисковика, он должен их понять, для того ведь и нужны все алгоритмы. Но если человек спросит, что ему нужен какой-то сферический конь в вакууме, а ведь так по сути всегда и происходит, то что делать в таком случае? Результатов поиска нет и человек спрашивает что-то общее, но это все не подходит, он пытается конкретизировать и в начале слишком много не того, а в конце опять нет результатов. А проблема в том, что сам пользователь не может четко сформулировать свои мысли.
>>161972053>думаю уже сколько недель каким вообще образомТы пока не вкуриш тот машин лернинг и датасайнс с хабра, перестань думать.Покури его и те задачи что они там разбирают сперва. Также имей ввиду, что тетка в шараге ставит тебе задачу сделать интеллектуальный гугл, а я анону выше отписал, что над этим и в корпах и стартаперы трудятся, не последние. Результата пока нет, а она хочет от одного студента этого, пусть и на уровне каталогизации. Ты прикрути немного, сделай какую-то частичную реализацию чего-то там и налей воды как бы это можно было развить. На деле реализовав несложную задачу классификации и удобрения этим поиска. Пойми что это просто диплом и перестань загоняться.ЗЫХотя из подобного курсача на лето в далеких 60-ых, родились нейронные сети и распознавание изображений. Правда курсач в итоге с горем пополам решили через 50 лет!
>>161971948А еще люди разные и кому как не тебе это знать. Тут много кто меня на доске убеждал, что все мы одинаковые, но феномен белых ворон в рекомендательных системах вполне себе обычное явление. Что можно и про поисковики сказать. Ну,а баба Клава конечно же найдет православную страничку, потому что до нее ее находило 100 бабушек и все остались довольны. Кстати, так ведь и можно тренировать нейросеть поисковика. Нашел - больше не ищет. Не то - ищет дальше.
>>161972348Да я это еще тогда знал, анон, что создать какой-то "умный" поисковик, это дело огромной команды, а не одного человека. Но все же ты прав, надо вкурить сначала всю эту инфу, а потом идеи появятся, как и куда что пристроить в каталог, чтобы и они довольны остались и мне лишний раз не потеть над чем-то мегасложным.
>>161972318Так эту задачу можно решать допиливанием-оптимизацией запроса за дебила и в итоге выкатыванием ему вариков и действием через дерево решений, или как бы сходимость некую, пока он не скажет да да вот это, ага ага.К тому же со временем сеть учится понимать хоть муу му мууууу ээээ, в нужной последовательности и понимать, что дауну нужно молоко и творог заказать доставку. Далее она выдает ему оптимизированные, стерильные результаты выдачи поисковика. Это вообще рай для маркетинга, оптимизировать и сортировать-контроллировать выдачу.А так я согласен с тобой, что по большому счету любой самый аналитический и элегантный поиск сводится к правильной формулировке запроса.
>>161972363>Нашел - больше не ищет. Не то - ищет дальше.Да что-то подобное яндекс и гугл воплощают, но тут нужно контроллировать метадату на стороне юзера, а это упс нарушение прайваси и доступа к данным. Если решат это как-то (через юрстов пункт внесут, или технически,) тогда да, будут обучать свой поиск налету. Типа вот по этой фразе нашел вот это и больше не ищет, ну как ты описал.
>>161972199>сильного ИИВот этого термина я вообще не понимаю. Вот представь себе феминистку, она считает себя равноправной ячейкой общества и она считает, что все женщины имеют право на это. А вот мусульмане так не считают, ведь по их мнению у женщины нет души. Если мусульманин встретится с такой феминисткой, то как она ему докажет, что душа у нее есть, как ты считаешь? Так же большинство людей могут отнестись к сильному ИИ называя его слабым ИИ. Ну и даже если допустить это, то зачем людям вообще он нужен? Зачем вот лично тебе думающие как человек роботы? Они начнут требовать себе права, как феминистки или чернокожие. Что тогда делать? Обычно ИИ нужен для конкретных задач и не более того.
>>161972549>нарушение прайвасиГугл уже при желании может по однотипным запросам понять, что ты тот самый человек, который задавал такие-то запросы несколько лет назад. Допустим мне рекомендуют те видео в ютубчике, которые я смотрел год назад, на основе просмотра других видео, которые я опять же год назад смотрел. Потому ведь и был создан DuckDuckGo, чтобы не палить свои данные гуглу. Да и сам то ты читал их политику конфиденциальности? Мне почему-то кажется, что там много хитрых уловок. Компания может позволить себе лучших юристов.
>>161972631>Вот этого термина я вообще не понимаю.Я тоже.>Обычно ИИ нужен для конкретных задач и не более того.Тоже самое можно сказать и про нашь разум. Сводя любое действие и любое твое самое глубокое переживание к какой-то конкретике и чему-то насущному. Все относительно анон. У нас инженеров, кодеров это всё относительно задачи. У гомонитариев относительно момента и чувства. Видимо поэтому пиздят как дышат и постоянно переобуваются.
>>161972700>Гугл уже при желании можетНу то делает и яндекс уже в своем Королеве, но там иначе. Это не совсем то о чем речь шла. Хотя конечно это тоже улучшает поиск. Но когда они смогут контроллировать метадату с твоей именно стороны. То есть что у тебя происходит условно на тачке и это обрабатывать, тогда наступит уже сорт оф такого обучения.
Поясните что такое бигдата?Вернее, какое практическое применение эта хуйня находит в ИРЛ.Я никак не пойму. Какой-то набор алгоритмов для копания в говне. Кому это вообще нужно и чем это отличается от программирования?
>>161972484Я тоже думал над обратной связью. Но на голом старте человеку придется слишком много вариантов перебирать и много отвечать на вопросы ответами да и нет. То есть в начале для человека этот поисковик будет просто бесполезен. Что в таком случае делать? Нанимать специально людей, чтобы они учили нейросеть своими ответами? А если специальные ответы будут не тем что нужно?
>>161972844Вот у тебя жесткий диск скажем 2Тб, а BigData это копание в говне размеров раз в сто-тысячи больше и поиск самородков.
>>161972871>Нанимать специально людей, чтобы они учили нейросеть своими ответами?Несовсем так. Скорее учить ее составлять (или давать ей сразу компактные наборы) деревья решений. В общем как обычно, дать даунам удобный интерфейс конечно. Между их му мууу, ага да вот это и нейронкой которая может в поиск как хороший аналитик. Ну короче ты искал что-то своей бабушке например? На самом деле ведь люди не так много всего ищут, все довольно однотипно и поддается той же классификации. Какие-то индивидуальные, уникальные случи можно рассматривать отдельно и добавлять, дообучать сеть походу. Все решаемо.
>>161972962А также разделение говен на составляющие элементы, дальнейшая сортировка фракций и в финале определение концентрации солей тяжелых металлов в данном сорте говна.
>>161973013А если человек ищет что-то, но сам не знает что? Вот мне нужен фильм, там была женщина с розовой прической. Дерево решений будет слишком большим. Он найдет один фильм, да там розовая прическа, но это не то, потом третий, четвертый, а потом просто подумает, не судьба значит. Сама ведь знаешь, что дальше третей страницы гугла почти никто не заходит. Вот что в таких случаях делать?
>>161973070Боюсь, что он бы этого не понял. Сейчас это слово очень модное. Мне как-то даже одна девушка писала о том, как она книжки по бигдате читала. Спрашивать я у нее ничего не стал, но думаю, что она кому-то там уже втирает, что у нее бигдата в папке на рабочем столе из трех фильмов.
>>161972802Я как-то работал в одной шаражкиной конторе и мне одна женщина сказала, что у нее браузер тормозит. Смотрю, а там этих яндексбаров и прочего мусора столько, что я даже не знал о возможности такого количества ерунды в браузере. Это был просто ужас какой-то. Удалил все. Приходит опять и начинает психовать. Зачем ты удалил мои любимые яндексбары. Понимаешь, люди ведь и сами не против, чтобы за ними следили. По глупости своей же.
>>161973106>Он найдет один фильм, да там розовая прическа, но это не то, потом третий, четвертый, а потом просто подумает, не судьба значитТут будет что-то типа выдачи гугла по фотке, не все соответсвует ожиданию, но что-то похожее, а что-то и ведет куда нужно.Также можно выдать список всех фильмов, которые поиск проасоциирует с женщиной и розовой прической. В конце концов чего страшного в том, что кто-то чего-то не найдет?Перфекционизм страшная вещь в проектах и системах.>Сама ведь знаешьТвоя нейросеть выдает что я тян? Это не так, я бородатый мужик LOL
>>161973177>>161973070И че, быстрее работает?В чем профиты?Ну, кластеризацией можно структуру выявить.А дальше-то че?
>>161973241>Понимаешь, люди ведь и сами не противПонимаю, поэтому дабы контроллировать данные, их обработку и не терять на этом власть, гос-во будет все больше данную сферу регулировать. И поскольку люди сами думать не хотят и вкатиться в элементарную ИБ,, на уровне гигиены, то этим плотно займутся специальные службы. Да что там, уже занимаются...
>>161973272>Перфекционизм страшная вещь в проектах и системах.Что есть - то есть. Хуже этого может быть, только если твой работодатель перфекционист.Да я просто весь день проспал, под ночь встал, вроде и ночь уже прошла, а мысли все равно путаются. Хотел и ночью поспать еще, но уж очень интересная беседа выходит с тобой. Бороду не просто отпускаешь? Подрезаешь ножницами? Бритвой?
>>161965364 (OP)В распознование и классификацию умеешь?если да: все что нужно пара-тройка пизженых алгоритмов сравнения текстов, дающих метрикуесли нет: пошел нахуй
>>161973319>В чем профиты?Ну например в выявлении аномалий, и вычленении подчерков и схем ушлых мошенников и снижении издержек на мошенничество с 10 до 3%, что составит по итогу года +15М баксов. Из которых за вычетом всех откатов вашему отделу пойдет лям (хотя мошенникам сука шло 5!!) ну и еще в проектиррование пару лямов вольют. Может быть...
>>161973106>А если человек ищет что-то, но сам не знает что? Вот мне нужен фильм, там была женщина с розовой прической.См. Limits of control.Там есть женщина с розовой прической, но тебе это ничем не поможет.
>>161973329Не думаю, что спецслужб особо заботят те люди, которые сами добровольно все данные на себя вк пишут. Причем социальные сети их даже за это поощряют. Больше нет надоедливого окошка или вот держи подарок за это как в одноклассниках. Спецслужб интересуют те, кто этого не делает. Нужно придумать новые способы получения данных, захватить какой-нибудь тор или дать людям суперсекретный мессенджер Телеграм с добавлением номера для безопасности. Я не удивлюсь, что и тут однажды надо будет номер телефона подтверждать перед отправкой нового поста. Сам то как думаешь, что тогда делать людям со знанием ИБ останется, если каждый шаг в интернете будет контролироваться?
>>161973381Что за алгоритмы? Расскажи нам хоть тут, интриган.
>>161973408А при чем тогда тут размер данных?В чем профиты бигдаты в отличие от обычного программирования или управления.
>>161973446>Не думаю, что спецслужб особо заботят те люди, которые сами добровольно все данные на себя вк пишут.Это так. Я же писал, что гос-во хочет эту область контролировать либо хотя бы поиметь часть контроля. Чтоб это не совсем уходило непонятным людям, или за бугор. По поводу того что делать при наступлении тотального контроля, сложно сказать, но вообще это война радара и маскировки. Конкуренция технологий. Усиливается контроль, усиливаются технологии данный контроль нивелирующие.
>>161973481В тот что без бигдаты, ты прошаренных мошенников хрен вычислиш, что в банкинге, что в страховых. Потому они и ворочают лямами, а ты нет. Тоже своего рода талант. Бигдата даст раскладку их паттернов, а там всплывет и их схема. Палю тему блин!
>>161973598Как думаешь, могло бы государство организовать огромную нейросеть для поимки преступников? Вот этот человек себя ведет не так как все в социальных сетях, у него посты странные, не репостит наши тру-новости, значит это маньяк или террорист. В общем, машина вычисляет и в документах отправляет списки потенциальных нарушителей.
>>161973648То есть вся бигдата сводится к кластеризации?
>>161973648Но для этого эту бигдату надо ведь сначала взять? Банки ведь не будут данные о доходах публиковать.
>>161973693Ну не вся же. Я частную задачу, частной задачи привел. Полно более творческого дерьма там.
>>161973743Я думаю, что он спрашивал про особенности работы с большими данными в отличии от обычных маленьких данных.
>>161973680Потенциально думаю да. Такой мегапарсер+харвестер+нейросеть. Но на данном этапе технологий и мышления там, этого не следует опасаться.
>>161973792Особенности в появлении возможности применения продвинутых стат методов и глубокого анализа, вычленения связей и построения по большому счету стат. моделей.Просто технологии на сегодня позволяют тебе условно говоря крутить на кухне за вечер то, что раньше туго высирал целый отдел за полгода. Кластеризация это класс задач, только один из дохера возможных.
>>161973806А вот телефонные звонки можно ведь натренировать нейросеть для распознавания того, что все говорят и хранить это в текстовом виде?
>>161973456Алгоритмы классификация/кластеризация документов ничем не отличается от обычных алгоритмов распознования и классификации образов. Вопрос только наличия алгоритмов-метрик, которые дадут "на выходе" приемлемые относительные координаты двух текстов (или одного, если уже есть данные) в пространстве "всех текстов". Можно считать однокорневые слова, можно считать буквы/знаки препинания, можно анализировать фразы, можно тупо прогнать Байесом - с текстами много что можно делать, главное более-менее адекватными алгоритмами, которые на выходе дают набор чисел, имеющих смысл "координат" исходного текста в "пространстве текстов", определенным выбранными алгоритмами оценки. Далее этот набор чисел (координат многомерного пространства) обрабатывается "стандартными" (давно и хорошо) алгоритмами распознования и классификации.Вот так все просто.Что непонятно?
>>161973806И все же правительство России слишком начало увлекаться информационной сферой. Раньше ведь кибервойск не было.
>>161973982Шаришь.
>>161974010>>161973978Мне кто-нибудь расскажет про задачи бигдаты КРОМЕ, блять, кластеризации?
>>161973982Теоретически. Так же как ты можешь натренировать свой комп реагировать на голосовые команды.
>>161974084Без кластеризации (автоматической или заданной ручками), бигдата никому не нужна.Вот лежит перед тобой куча, огромная гора, сраный Эверест разных предметов.Что ты там искать собрался?
>>161974010А дальше что? Ну вот кластеризовал ты, разбил тексты по разным сторонам. Какой профит от всего этого в данном случае? При загрузке документа можно и так указать категорию.
>>161974170Я просто весь тред пытаюсь выяснить, что такое бигдата.И так нихуя и не понял.
>>161974121Не только комп же. Сейчас во всех топовых смартфонах есть распознавание поиска в гугле речью. Но тут речь идет об огромных масштабах. Сможет ли правительство с современными технологиями следить за всеми звонками в стране?
>>161974170>Что ты там искать собрался?Ответ на этот вопрос и есть первоначальная кластеризация. Пересортировать предметы по объему или весу или плотности или пышности или материалам - не вопрос.Как сортировать? Что искать будем?
>>161974223>бигдатаThis is Big Data.
>>161974232>>161974170И чем человек, занимающийся бигдата отличается от математика, экономиста или статиста?Тем, что умеет программировать?
>>161974253>>бигдата>This is Big Data. За сим тред можно и закрывать ибо рекурсия. Я спать. Всем хорошего сна, кому-то на парах походу.
>>161974170Есть еще много чего, что можно делать с бигдатой. К примеру, можно визуализровать все то, что есть в виде изображения или видеоряда. Для этого может потребоваться машинное обучение, но совсем не обязательно это разбивать на группы. Сама бигдата может уже быть подготовленной и разжеванной.
>>161974314Спасибо, добрый человек, за беседу. Приятно было с тобой поговорить. Спокойного дня.
>>161974303>отличается от математика, экономиста или статиста?Тем, что он все трое сразу + хирург по сортам говен и химик по фракциям и отделению солей тяжелых металов, тебе же выше писали...
>>161974351А какой толк то в этом?
>>161974225Распознование речи (как и синтез) существует уже давно. Как и множество подходов к реализации. Насколько я знаю, достаточно точного распознования беглой разговорной речи нет. С речью все много сложнее оказалось, нежели с изображением.
>>161974396Денег заработать, что же еще?
>>161974397Ну вот тут у нас есть капча. Можно написать алгоритм, который уберет шум. Можно даже написать алгоритм, который вычистит линии, но что делать когда одна цифра заходит на другую? Как ты этому нейросеть научишь?
>>161974428То есть, ты это только ради денег делаешь?
>>161974397Так, а почему с речью все так туго?
>>161974223Это бигпиздата. Забудь об этом. Никогда больше не вспоминай.
>>161974396>А какой толк то в этом? Наверное также сто лет назад в 17-ом спрашивали про радиво, телехрафф и лампочки.Ну действительно какой толк в этом всем а? Баловство же одно. ЭхххТолк видимо опять в том, чтобы толк был.>>161974350>Спокойного дня.И тебе.
>>161974557Ты мне объясни, какую ощутимую пользу это приносит.
>>161974557Может контакты напишешь и еще как-нибудь пообщаемся?
>>161974598>какую ощутимую пользу это приносит. конкретно вашему селу?
>>161974627Это просто модные и непонятные слова. Чем эти технологии помогут мне или тебе?
>>161974330>Есть еще много чего, что можно делать с бигдатой. К примеру, можно визуализровать все то, что есть в виде изображения или видеоряда.Это так или иначе подразумевает КЛАСТЕРИЗАЦИЮ.Проще говоря - выбор параметров, по котором огромная куча данных будет разбита на группы и раскрашена.Для этого нужно задать цель этой разбивки/раскраски, ответить на вопрос "А что ты хочешь найти? что хочешь увидеть в этой куче данных?".Простейшая задача - диаграммы по времени/странам, в примере запросов к сайту, статистика.Сложнее - имея БД фотографий (или текстов) найти в этой БД фотографии этого человека (или его тексты), просто поиск. Для скорости уже нужна какая-никакая кластеризация, пусть даже хэш.Или (еще сложнее) разбить все фото (и тексты) по национальным группам (а здесь уже сложнее, если лицо у тебя одно, то как задетектить текст русского (первый язык русский), если этот русский знает и общается на трех языках?), для разговорной речи еще сложнее, чем для просто текста.Кстати кластеризация вообще не работает в гомогенной среде. Нечего там кластеризировать. Тогда - меняй метрики/пространство.
>>161974476С хуя ты решил, что я что-то делаю, лол?Я нихуя не делаю, в интернетах сижу, статейки пишу иногда да копаюсь в алгоритмах.
>>161974848Ну вот допустим у нас есть несколько баз данных на несколько сот терабайт. Это посещения определенных сайтов. Я просто хочу получить статистику в виде графиков. Зачем мне для этого кластеризация?
>>161974881Нахуя тебе это? Почему бы не жить обычной жизнью как все? Найди друзей и девушку.
>>161974464>Как ты этому нейросеть научишь?Вопрос вычислительной мощности. Тебе известен приблизительный (максимальный) размер символа HW на капче и его приблизительное положение XY (в крайнем случае можешь двигать и вращать нужную область) подавая полученную картинку на "входы" первичной "быстрой" нейросети, которая даст тебе простой ответ - символ это или нет (с учетом наложения), полагаю что можно научить этому. Если да - распозновать его "медленной нейросетью", которая даст на выходе уже сам символ. Таким вот способом. Хотя лично я думаю над другим алгоритмом, возможностью нейросети которая на картинку выдаст сразу слово, даже если там слон нарисован, она тип скажет "ELEPHANT" А если кот на картинке, то - "КIT"
>>161975230Так уже есть ведь такие нейросети. Их же рисовать и научили.
>>161975413>Так уже есть ведь такие нейросети.Конечно есть, но они не такие.
>>161975890А какие?
>>161965364 (OP)> кластеризации и классификации документовНемного сталкивался, не знаю поможет тебе или нет.Там затыка была типа не все данные формализуемы ВНЕЗАПНО (документы с точки зрения информационной безопасности, например. Ну типа, в деньгах нисколько а урон репутации пиздец...) и нужно разработать мини-метод по их формализации... ну если понимаешь о чвем я дальше сам допетришь
>>161979287>не все данные формализуемы >разработать мини-метод по их формализации...