[Ответить в тред] Ответить в тред

02/12/16 - Конкурс визуальных новелл доски /ruvn/
15/11/16 - **НОВЫЙ ФУНКЦИОНАЛ** - Стикеры
09/10/16 - Открыта доска /int/ - International, давайте расскажем о ней!

Check this out!


Новые доски: /2d/ - Аниме/Беседка • /wwe/ - WorldWide Wrestling Universe • /ch/ - Чатики и конфочки • /int/ - International • /ruvn/ - Российские визуальные новеллы • /math/ - Математика • Создай свою

[Назад][Обновить тред][Вниз][Каталог] [ Автообновление ] 9 | 3 | 7
Назад Вниз Каталог Обновить

Web crawler ну тип. Аноним 12/01/17 Чтв 05:18:48  910238  
14787785623320.webm (6500Кб, 640x360, 00:04:57)
Сап, многоуважаемые анонимусы.
Такое дело, меня заинтересовал один вопрос касательно веб кравлера.

Стоит задача, теоретически, сделать веб кравлер который бы вытаскивал осмысленное содержимое веб страницы.

Первая мысль была сделать просто, ну ебана получили код хуе мое распарсил и вуаля.

но затем пришла вторая мысль, сейчас же оче модно страницу жава скриптом генерить прям в бравзере, и простым парсингом текстового респонса я не получу релевантной информации.
Или не так уж и модно?

Как это делает гугл?


И второй вопрос, где бы найти бибилотеку реализующую что-то вроде веб бравзера, но без визуальной составляющей, чтобы только dom дерево строил, чтобы жс на странице мог отработать.

Прошу не бейте, лучше обоссыте.

Аноним 13/01/17 Птн 00:11:48  910947
14268742784702.jpg (184Кб, 1280x905)
Ясно.
Аноним 13/01/17 Птн 00:33:47  910968
>>910238 (OP)
https://chromium.googlesource.com/v8/v8.git
Аноним 13/01/17 Птн 00:53:16  910984
Твой поисковой запрос в гугле "web crawler library" плюс добавляешь язык на котором собираешься писать. Из головы например - selenium и scrapyJS
Аноним 13/01/17 Птн 01:18:31  910998
>>910968
Я дикоизвиняюсь за глупый вопрос, но v8 это разве не чисты жаваскрипт движок, без всякого html парсинга?
Аноним 13/01/17 Птн 01:28:06  911004
>>910238 (OP)
> реализующую что-то вроде веб бравзера, но без визуальной составляющей
они называются headless browser
https://en.wikipedia.org/wiki/Headless_browser
Аноним 13/01/17 Птн 01:28:57  911005
14780163359900.png (3608Кб, 1600x1921)
>>911004
О! Добра!
Аноним 13/01/17 Птн 01:29:06  911006
>>911004
Опередил
https://github.com/dhamaniasad/HeadlessBrowsers
Аноним 19/01/17 Чтв 21:15:19  915368
>>910238 (OP)
Phantom JS.
Аноним 21/01/17 Суб 00:58:13  916053
>>910238 (OP)
PhantomJS как движок headless браузера и прикручивай свистоперделку к нему в виде какой либо библиотеки(CasperJS, например). Просто писать на голом фантоме удовольствие не из приятных, если тебе нужно описывать сложную логику, а вот с каспером описывать клики, ожидания и т.д. довольно неплохо, хотя иногда хочется уебать авторов за некоторую ебанутость архитектурную.

[Назад][Обновить тред][Вверх][Каталог] [Реквест разбана] [Подписаться на тред] [ ] 9 | 3 | 7
Назад Вверх Каталог Обновить

Топ тредов
Избранное