[Ответить в тред] Ответить в тред

15/10/15 - Набор в модераторы 15.10 по 17.10
27/09/15 - Двач API — Инструкция к применению
15/09/15 - Про пожертвования и ДДоС



[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 3 | 1 | 2
Назад Вниз Каталог Обновить

Найти и выкачать любой ценой Аноним 28/02/16 Вск 19:37:22  670160  
14566774430300.jpg (101Кб, 375x500)
Доброго времени суток.
Мне для исследования нужно 100 000+ сэмплов rtf файлов. Как понимаю выхода три - искать в интернетах через апи поисковых систем; парсить ебаные странички, полученные через прокси; лазить dc++-ом по разным сетям и выдирать файло оттуда. Второй и третий подходы мне не нравятся.
Пока смотрел:
1) Google: анальное ограничение на количество бесплатных запросов.
2) Bing: отдаёт пустой json после тысячного результата (хотя на фри акке можно сделать ажно 5к запросов)
3) Yahoo: не смог даже найти, как можно получить ключ к BOSS-у - везде меня преследовала страничка, что это апи перестанет работать 31-го марта. Возможно потому они и не выдают новые ключи.
4) Yandex: не умеет в дорк filetype

Пробовал также GoogleScraper, однако он отказался работать с проксями, падая...

Так вот - возможно знающий анон мне подскажет, как решить мою проблему. За дельный совет скину немного сатош.
Аноним 28/02/16 Вск 21:45:46  670326
>>670160 (OP)
Ты не написал самого главного - какая выборка тебе нужна. 100001 копия одного файла подойдёт? 100001 файл, сконвертированный из fb2, взятых из архива библиотеки?
Ну а ещё ты ленивый. Те средства, которые ты перечислил, позволяют с лёгкостью накачать 100000+ файлов за сутки.
Аноним 28/02/16 Вск 22:41:27  670425
>>670326
Таки ты прав. Понял, что тупой и просто стал искать бингом как "%some_random_word% filetype:rtf"
Работает нормально.
Аноним 28/02/16 Вск 22:49:40  670441
>>670425
Ну и "&count=50" не забудь.

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 3 | 1 | 2
Назад Вверх Каталог Обновить

Топ тредов