|
|
Регистрация | << Правила форума >> | FAQ | Пользователи | Календарь | Поиск | Сообщения за сегодня | Все разделы прочитаны |
|
Опции темы | Поиск в этой теме | Опции просмотра |
#1
|
|||
|
|||
Сохранение страниц в web.archive.org
Программа по списку сохраняет страницы сайта cian.ru на ресурсе web.archive.org путем выполнения GET запроса:
http://web.archive.org/save/ссылка_н...яемую_страницу После n-ой страницы cian.ru предлагает ввести рекапчу. Капчу можно разгадать через сервис антикапчи. На cian.ru ответ на капчу нужно отправить POST запросом: https://www.cian.ru/captcha/?redirec...//www.cian.ru/ g-recaptcha-response=[расшифровка капчи]&redirect_url=https://www.cian.ru/ Вопрос в том как отправить расшифровку капчи на cian.ru через web.archive.org, чтобы программа могла дальше продолжить сохранение страниц? Спасибо! |
#2
|
||||
|
||||
Нужен алгоритм того, как это всё "ручками" делается, а во время выполнения ловится момент "После n-ой страницы" посредством парсинга ответов на запросы и по шаблону алгола делается всё остальное. Слишком общая задача, без конкретики, желательно разбить её на этапы
Я не понял Вашего вопроса, но всё же Вам на него отвечу! |
#3
|
|||
|
|||
Цитата:
Руками это сделать не получается, т.е. при появлении капчи cian возвращает HTTP 302... и web.archive.org переходит с требуемой страницы на страницу с капчей вот такого вида https://www.cian.ru/captcha/?redirec...//www.cian.ru/ но руками вести эту капчу когда она открывается через web.archive.org не получается т.к. она в этом случае отображается не корректно, вот так: http://web.archive.org/save/https://...//www.cian.ru/ Цитата:
Проблема в том что web.archive.org работает с сохраняемыми сайтами через GET запросы а капча отправляется на cian.ru POST запросом. Т.е. возможно есть способ искуственно передать POST запрос в GET запросе т.е. так чтобы cian.ru "поверил" что web.archive.org разгадал капчу Последний раз редактировалось NovaC, 16.11.2017 в 17:29. |