Сап, многоуважаемые анонимусы.Такое дело, меня заинтересовал один вопрос касательно веб кравлера.Стоит задача, теоретически, сделать веб кравлер который бы вытаскивал осмысленное содержимое веб страницы.Первая мысль была сделать просто, ну ебана получили код хуе мое распарсил и вуаля.но затем пришла вторая мысль, сейчас же оче модно страницу жава скриптом генерить прям в бравзере, и простым парсингом текстового респонса я не получу релевантной информации.Или не так уж и модно?Как это делает гугл?И второй вопрос, где бы найти бибилотеку реализующую что-то вроде веб бравзера, но без визуальной составляющей, чтобы только dom дерево строил, чтобы жс на странице мог отработать.Прошу не бейте, лучше обоссыте.
Ясно.
>>910238 (OP)https://chromium.googlesource.com/v8/v8.git
Твой поисковой запрос в гугле "web crawler library" плюс добавляешь язык на котором собираешься писать. Из головы например - selenium и scrapyJS
>>910968Я дикоизвиняюсь за глупый вопрос, но v8 это разве не чисты жаваскрипт движок, без всякого html парсинга?
>>910238 (OP)> реализующую что-то вроде веб бравзера, но без визуальной составляющейони называются headless browserhttps://en.wikipedia.org/wiki/Headless_browser
>>911004О! Добра!
>>911004Опередилhttps://github.com/dhamaniasad/HeadlessBrowsers
>>910238 (OP)Phantom JS.
>>910238 (OP)PhantomJS как движок headless браузера и прикручивай свистоперделку к нему в виде какой либо библиотеки(CasperJS, например). Просто писать на голом фантоме удовольствие не из приятных, если тебе нужно описывать сложную логику, а вот с каспером описывать клики, ожидания и т.д. довольно неплохо, хотя иногда хочется уебать авторов за некоторую ебанутость архитектурную.