/web/ - Не работает парсер

Не работает парсер Аноним # OP 18/09/22 Вск 13:08:44 № 136337 1

Решил научиться делать парсер, но столкнулся с такой проблемой как авторизация. На ютубе просмотрел кучу видео, но так и не нашёл решение для своей проблемы. Проблема в том что когда отправляю гет запрос, то приходит странный html код, хотя статус код 200. Когда пытаюсь найти любой тег, то суп его просто не видет или его нет. Пик 1 мой код и пик 2 html который я получаю. Хочу понять в чем проблема и как решить

Аноним 18/09/22 Вск 13:33:17 № 136338 2

бамп

Аноним 19/09/22 Пнд 02:30:09 № 136348 3

>>136337 (OP)
Просто обфусцированный js.
Остальная верстка вроде нормальная. (В любом случае начало.)

Аноним 19/09/22 Пнд 08:07:39 № 136354 4

>>136348
А как мне получить не js а html? На странице через инспектор кода вижу тег input, а когда применяю метод find() не находит ни тег input ни любой другой тег

Аноним 19/09/22 Пнд 16:23:39 № 136355 5

>>136354
Там скорее всего динамическая генерация хтмл на клиенте. Возможно какой-то фронтенд фреймворк юзается.

Аноним 19/09/22 Пнд 17:16:18 № 136356 6

>>136355
а делать то мне чё?

Аноним 27/09/22 Втр 20:09:10 № 136373 7

>>136356
На клиенте авторизация должна как-то закрепиться, например записью в куке. Даже если авторизация выполняется каждый раз при первом входе на ресурс - что-то да появится на клиенте, вроде токена, который нужно приклеивать к дальнейшим запросам.

Что же касается респонса на втором пике - возможно там и js как server-side-render, но тогда в теле ответа будет json с нужными тебе данными. Крч, парсить будешь не api, не html, а json, что пришел вместе с хуйней со второго пика.

Аноним 28/09/22 Срд 12:03:07 № 136374 8

>>136337 (OP)
Бля, если ты такие тупорылые вопросы задаешь, мол что мне делать с аутентификацией - то тебе beautiful soup противопоказан. Ты до него ещё не дорос. Возьми что попроще - puppeteer например или playwright. Или на худой конец селениум. Если ты не знаешь что такое csrf токен, то и нахуй ты лезешь в то, во что ты не понимаешь?

Аноним 12/10/22 Срд 01:27:47 № 136433 9

Оп, так как ты делаешь, в теории можно залогиниться, но это очень геморно
Я пришел к библиотеке selenium, но сука на сайтах с хорошей защитой селениум как то палится и программа не работает

Аноним 12/10/22 Срд 01:28:53 № 136434 10

В связи с чем вопрос
Мне нужно автоматизировать действия в браузере
Какую технологию для этого изучить, чтобы она не палилась одним крупным сайтом? Ткните носом плс

Аноним 12/10/22 Срд 01:34:41 № 136435 11

>>136434
Или как скрыть действие хромдрайвера? Я юзаю selenium-stealth, но рабочей машине почему то не подменяется web-gl, я думаю из за этого сайт меня палит.
Как вот подменить эту хуйню или более элегантно скрыть работу хромдрайвера?
Понимаю что мне вряд ли ответят, но я не опускаю руки. Просто я даже не знаю, где спросить. Может анон подкажет какой нибудь форум или чат, где я смогу поинтересоваться
мне очень интересно выполнить кое какую задачу, это в теории может принести бабки. я столько всего узнал за последние несколько недель в плане питона, селениума, фингерпринтов, вот этого всего. хотелось бы уже решить задачу залогина, как опу и писать программу дальше. дальше уже и обезьяна справится

Аноним 12/10/22 Срд 06:34:56 № 136436 12

>>136435
забей на селениум. юзай дефолтную либу запросов, парсить изи можно через регулярки \ хпат \ жсон (зависит от содержания ответа) . Если тебя на запросах палит сайт, то дело в составлении самих запросов \ проксях

Аноним 12/10/22 Срд 11:54:40 № 136437 13

>>136436
Мне нужно именно логиниться, нажимать на кнопки, короче мне нужно именно вводить данные, а не парсить. Автоматизировать надо другими словами
Разве можно с помощью реквестов это сделать?

Аноним 12/10/22 Срд 15:15:53 № 136439 14

>>136437
Конечно можно. Ты вообще понимаешь суть реквестов? Это отдельный протокол, в том же браузере ты аналогично делаешь кучу запросов при совершении любых действий на сайте. Создаешь сессию, чтоб куки сохранялись и делаешь логин, далее уже парси, что хочешь

Аноним 12/10/22 Срд 18:58:49 № 136440 15

>>136439
Дело в том, что реквестами надо отправлять всю форму, а это не просто логин и пароль, но и всякие токены, js скрипты, не понятно откуда это всё берется и как это подставлять в запрос
Мне нужно просто взять логин и пароль, вставить их в поле формы и нажать кнопку input

Аноним 12/10/22 Срд 21:55:05 № 136441 16

>>136440
Все там просто отправляется. Установи софт для снифа запросов, вроде барпа или фидлера. Настрой его и отснифай все что нужно. Потом, если в запросе на логин есть разные токены, то поищи их в других запросах. Как заполняется форма - чекай доки либы реквестов, там все изи, 3 типа контент тайпа

Аноним 12/10/22 Срд 21:58:23 № 136442 17

>>136440
И не забывай еще про сессию, заголовки в запросах и прокси. Это все решает

Аноним 12/10/22 Срд 23:05:41 № 136443 18

>>136441
>>136442
Рил?
А кнопки там можно тыкать?
И почему тогда селениум такой популярный?

Аноним 12/10/22 Срд 23:08:23 № 136444 19

И что, реквест не чекается антиботами на крупных сайтах?

Аноним 12/10/22 Срд 23:27:07 № 136445 20

>>136443
Популярная, т.к. это прямая эмуляция браузера. Обывателю проще по кнопкам с координатами тыкать, чем разбираться в работе хттп протокола (запросах)

Аноним 12/10/22 Срд 23:30:37 № 136446 21

>>136444
Дело не в чеке конкретной либы. Ты при работе с селениумом - тоже делаешь запросы, как и при посещении любого сайта через браузер или мобильной прилы. На запросах ты можешь регнуть акк на сайте, условно, за пару секунд и потратишь на это пару кб на прокси. На вебе ты буш регать акк секунд, допустим, 30 и потратишь мб 10 от прокси трафика. Все защиты обходятся.

Аноним 13/10/22 Чтв 00:46:35 № 136447 22

Понятно
Просто не хотелось бы потратить месяц на изучение реквеста, а его по итогу так же задетектит сайт
На самом деле изучать там очень много, особенно мне не понятна тема с токенами при логине

>Все защиты обходятся
Просто селен реально проще и если есть варик обойти защиту под селениум, то я бы с удовольствием обошел под селениумом
Мб ты знаешь куда копать?
а если нет, то придется учить реквест, ниче не остается

Аноним 13/10/22 Чтв 01:26:21 № 136448 23

>>136447
Не, не работал ни разу с селениумом. Онли запросы. Если тебя интересует автоматизация сайтов/ прил, то это нужно учить запросы. Да и учатся они точно не за месяц, гораздо быстрее. Короче, не трать время на селениум и подобные веб костыли, на запросах ты получишь скорость и точность.

Аноним 19/10/22 Срд 13:50:19 № 136461 24

>>136447
>На самом деле изучать там очень много
Чел, если ты не занимаешься разработкой в постоянку, а хочешь только спарсить какой-то сайт, то у меня для тебя плохие новости - ты угробишь 9000 своего времени на это всё с минимальным выхлопом. Заебёшься сам, заебешь анонов вопросами, заебёшь сайт своим детским парсингом.
Найди себе уже разраба и работайте с ним над этой проблемой. Если нет денег на разраба, то не еби мозги и найди себе нормальную работу - в инете без денег мало что можно.

Аноним 01/11/22 Втр 17:46:04 № 136757 25

>>136441
>вроде барпа
Блять, этот сайт понимает что я его снифаю и просто не грузится
Я ебал блять
Я не знаю уже че делать
Проблемы просто реально на каждом шагу

Аноним 04/11/22 Птн 15:00:00 № 136773 26

>>136757
Юзай Browser automation studio и не еби себе мозги. Там все уже за тебя продумали.

Аноним 04/11/22 Птн 15:38:00 № 136774 27

>>136773
Твоя хрень точно на таких же технологиях работает. Ничего не изменится.

Аноним 06/11/22 Вск 20:55:46 № 136786 28

>>136337 (OP)
Попробуй скопируй из браузера заголовки, ресурс не только по user-agent может определять действительно ли ты с браузера.
Плюс, для питона, я уверен на %146, уже есть готовые либы, которые помогают маскировать запросы под юзера, обмазывая нужными заголовками.
Плюс, контент твоего сайта можешь грузиться через js, в таком случае ты его не увидишь через обычный get запрос.

Аноним 07/11/22 Пнд 22:23:29 № 136790 29

>>136337 (OP)
>kijiji.ca

Судя по мусору в названиях классов в коде, этот сайт на реакте или ему подобном петушином JS-фреймворке сделан. Соответственно гет-запросом ты вытягиваешь JS, которым вся эта петушатня отрисовывается в браузере.

Посмотри есть ли он в кеше гугла. Если есть - значит используется пререндер и поисковым ботам отдается готовая статичная страница. В таком случае можно попробовать сменить юзер-агент на гуглбота и попробовать парсить статику.

Аноним 08/11/22 Втр 11:50:22 № 136791 30

image.png 18Кб, 725x84

>>136790
Судя по тому какую ты хуйню щас написал, от разработки ты далек, но пытаешься определять какие технологии петушиные а какие, что выдает недалёкого человека в принципе.
Обфусцированный реакт палится легко, а тут типичная дрисня из jquery+bootstrap из нулевых.

Аноним 08/11/22 Втр 19:00:38 № 136792 31

>>136791
/static/ и мусор в названиях классов ни на что не намекает? То, что сюда еще и бутстрап подключили не отменяет того, что работает все на каком-то новомодном JS-фреймворке для петушониксов.

Аноним 25/11/22 Птн 23:47:37 № 136839 32

>>136433
вроде там можно настроить, чтобы когда отправляешь запрос там не было инфы про то что запрос из селениума, а заменить на какой нибудь фаерфокс и версию указать, это можно легко найти у всех браузеров есть свои версии и они как то по особенному написаны, честно несколько лет уже не занимался этим и всё позабыл, хотя в своё время парсил/скрэпил очень много сайтов в том числе booking.com, запомнился потому что дрочево лютое было и заказчик сам не знал чего хотел, но были и другие сайты абсолюнто разные с разными защитами, обычно если защиты меньше то парсер пишется быстро и собирает инфу быстро, а если там какая то защита то всё становилось дольше, по моему селениум я использовал в крайних случаях, по сути он как бы открывает окно браузера и выполняет команды из кода, так ведь? а то забыл уже все названия, но вроде эта штука называлась селениум, грубо говоря браузер работающий из кода
Кстати там вроде есть возможность убрать так сказать графическую часть браузера, чтобы он выполнял свою функцию но на экране не отображался грубо говоря

так что бро там можно настроить тип браузера который запрашивает страницу сайта, поищи инфу

Аноним 19/08/24 Пнд 21:48:24 № 138902 33

>>136448
Селениум не нужен, учи запросы. Они быстрее и точнее.