Ищем полтора анона работающих с сабжем, пилим прохладные как ебались с установкой в первый раз у мамки в гараже, меряемся письками чья конторка использует сабж максимально через задницу, уносим тред в бамплимит срачами.
https://www.amazon.com/Mastering-Hadoop-Sandeep-Karanth/dp/1783983647
https://www.amazon.com/Hadoop-MapReduce-v2-Cookbook-Second/dp/1783285478/ref=sr_1_2?s=books&ie=UTF8&qid=1470669328&sr=1-2&keywords=hadoop+cookbook
Лекции он mail.ru технострим https://www.youtube.com/watch?v=8tzCrau5JuE&list=PLrCZzMib1e9rPxMIgPri9YnOpvyDAL9HDМеня хватило на 3 лекции, лектор читает скучно и медленно, поэтому я купил "Hadoop. Подробное руководство" http://www.piter.com/product/hadoop-podrobnoe-rukovodstvo
>>816401По хадупу вообще не очень много годных материалов. Советую еше глянуть на книжку из первого бампа. Какой у тебя бекграунд?
анончик поясни вкратце, нахуй твой слоняра нормальным людям нужен то?
>>816692>вкратцеПойду героином вмажусь, сформулирую.
>>816692Слоняра нужен людям, у которых есть немножечко петабайт данных, (необязательно структурированных) которые:- можно неспешно вспахивать для анализа;- с одной стороны, не так критичны, чтобы хранить их на дорогом, быстром, фейловерном железе;- с другой стороны все-равно было бы впадлу их потерять.Хадуп ставится на большой кластер серваков, после чего в него можно сохранять файлы больших размеров. Очень больших.Сохраняясь в Хадуп, файл разбивается на куски, которые расходятся по сервакам максимально паралельно. Бекапы этих кусков прячутся других серваках. xzibit.jpgТаким образом, если в кластере падает сервак, ты не теряешь никаких данных, бекап каждого проёбанного куска файла лежит где-то на другом, еще рабочем, серваке.На этом этапе компания перестает тратить бабло на SAS-ы хуясы, RAID-ы и пр. дорогие железкиУ данных хранящихся таким пиздоватым способом появляется очевидное преимущество - их можно читать и анализировать паралельно. быстрееКогда маркетинг-петушкам нужно провести очередной очень важный ресерч клиентских данных за 100500 лет, укротители слоников пишут Map-Reduce программку, которая после запуска попадет на каждую ноду кластера, паралельно на каждом ноде соснет свою порцию данных, сделает с ними что там было нужно а потом смерджит MERGE результаты со всех нодов в одно место.
>>816819>Когда маркетинг-петушкам нужно провести очередной очень важный ресерч клиентских данных за 100500 лета нам креативным погромистам, двигающим ит прогресс , нахуй эта петушиная аналитика?
>>816819Map reduce уж слишком устаревший. В своей шараге используем tez как движок в sql интерпритатор для hive. В остальном только спарк.
>>816827Расскажи про спарк, анончик.Юзаете МЛ?
>>816825аналитика - один из примеров использования йобы.
>>816837Спарк такой же движок для обработки данных, помимо джавы поддерживает нативно питон и скалу. В целом он быстрее за счет того, что не сбрасывает на диск все промежуточные вычисления. А в остальном тоже самое, успешно аработает у нас по верх hdfs, используем его для агрегации сырых данных. МЛ не используем, ибо негде, только с корешем в своем небольшом проекте классифиируем картинки через cnn. Соре за сумбур
>>816846>Соре за сумбурТа заебись сказал жеЕсть смысл готовить вкат в спарк без знания скакалки?Пока не слышал чтобы ее без скалолазов юзали, а изучение скалы еще предстоит.