Доброго времени суток.Мне для исследования нужно 100 000+ сэмплов rtf файлов. Как понимаю выхода три - искать в интернетах через апи поисковых систем; парсить ебаные странички, полученные через прокси; лазить dc++-ом по разным сетям и выдирать файло оттуда. Второй и третий подходы мне не нравятся.Пока смотрел:1) Google: анальное ограничение на количество бесплатных запросов.2) Bing: отдаёт пустой json после тысячного результата (хотя на фри акке можно сделать ажно 5к запросов)3) Yahoo: не смог даже найти, как можно получить ключ к BOSS-у - везде меня преследовала страничка, что это апи перестанет работать 31-го марта. Возможно потому они и не выдают новые ключи.4) Yandex: не умеет в дорк filetypeПробовал также GoogleScraper, однако он отказался работать с проксями, падая...Так вот - возможно знающий анон мне подскажет, как решить мою проблему. За дельный совет скину немного сатош.
>>670160 (OP)Ты не написал самого главного - какая выборка тебе нужна. 100001 копия одного файла подойдёт? 100001 файл, сконвертированный из fb2, взятых из архива библиотеки?Ну а ещё ты ленивый. Те средства, которые ты перечислил, позволяют с лёгкостью накачать 100000+ файлов за сутки.
>>670326Таки ты прав. Понял, что тупой и просто стал искать бингом как "%some_random_word% filetype:rtf"Работает нормально.
>>670425Ну и "&count=50" не забудь.