/pr/ - Web crawler ну тип.

Web crawler ну тип. Аноним 12/01/17 Чтв 05:18:48 №910238

14787785623320.webm (6500Кб, 640x360, 00:04:57)

Сап, многоуважаемые анонимусы.
Такое дело, меня заинтересовал один вопрос касательно веб кравлера.

Стоит задача, теоретически, сделать веб кравлер который бы вытаскивал осмысленное содержимое веб страницы.

Первая мысль была сделать просто, ну ебана получили код хуе мое распарсил и вуаля.

но затем пришла вторая мысль, сейчас же оче модно страницу жава скриптом генерить прям в бравзере, и простым парсингом текстового респонса я не получу релевантной информации.
Или не так уж и модно?

Как это делает гугл?

И второй вопрос, где бы найти бибилотеку реализующую что-то вроде веб бравзера, но без визуальной составляющей, чтобы только dom дерево строил, чтобы жс на странице мог отработать.

Прошу не бейте, лучше обоссыте.

Аноним 13/01/17 Птн 00:11:48 №910947

Ясно.

Аноним 13/01/17 Птн 00:33:47 №910968

>>910238 (OP)
https://chromium.googlesource.com/v8/v8.git

Аноним 13/01/17 Птн 00:53:16 №910984

Твой поисковой запрос в гугле "web crawler library" плюс добавляешь язык на котором собираешься писать. Из головы например - selenium и scrapyJS

Аноним 13/01/17 Птн 01:18:31 №910998

>>910968
Я дикоизвиняюсь за глупый вопрос, но v8 это разве не чисты жаваскрипт движок, без всякого html парсинга?

Аноним 13/01/17 Птн 01:28:06 №911004

>>910238 (OP)
> реализующую что-то вроде веб бравзера, но без визуальной составляющей
они называются headless browser
https://en.wikipedia.org/wiki/Headless_browser

Аноним 13/01/17 Птн 01:28:57 №911005

>>911004
О! Добра!

Аноним 13/01/17 Птн 01:29:06 №911006

>>911004
Опередил
https://github.com/dhamaniasad/HeadlessBrowsers

Аноним 19/01/17 Чтв 21:15:19 №915368

>>910238 (OP)
Phantom JS.

Аноним 21/01/17 Суб 00:58:13 №916053

>>910238 (OP)
PhantomJS как движок headless браузера и прикручивай свистоперделку к нему в виде какой либо библиотеки(CasperJS, например). Просто писать на голом фантоме удовольствие не из приятных, если тебе нужно описывать сложную логику, а вот с каспером описывать клики, ожидания и т.д. довольно неплохо, хотя иногда хочется уебать авторов за некоторую ебанутость архитектурную.

Опции
Имя
Тема
Пост	[S] 15000

	Sage Ватермарка Мод тег ОП треда
Файлы	Макс объем: 40Mб, макс кол-во файлов: 4 Кликни/Брось файл/ctrl-v
Captcha

Перед отправкой сообщения прочтите FAQ, FAQ раздела и правила раздела. vk.com/ru2ch - оФФициальная группа VK 2channel.hk - Пасскодач