Для парсинга веб-сайтов на Python часто используют библиотеку BeautifulSoup (Bs4) или Selenium. Однако, если эти инструменты блокируют соединение к самому сайту, можно рассмотреть другие варианты.
1. Requests-html: Эта библиотека, основанная на Requests, предоставляет простой способ обработки JavaScript и рендеринга веб-страниц. Она использует подкапотную библиотеку Pyppeteer, что позволяет рендерить страницы через headless Chrome.
2. Scrapy: Это высокоуровневый фреймворк для парсинга веб-сайтов на Python. Он может работать с блокирующим JavaScript и обрабатывать AJAX запросы. Scrapy предоставляет мощные инструменты для извлечения и хранения данных с веб-страниц.
3. Splash: Это открытое программное обеспечение, предназначенное для обработки JavaScript и рендеринга веб-страниц на Python. С помощью Splash можно эмулировать работу браузера, что позволяет осуществлять парсинг страниц с блокирующим JavaScript.
Если использование другого языка программирования является опцией, то можно рассмотреть следующие варианты:
1. Puppeteer (Node.js): Это библиотека JavaScript, разработанная командой Google Chrome, которая может контролировать Chrome или Chromium браузер. Она позволяет рендерить и парсить веб-страницы с блокирующими JavaScript скриптами.
2. Scrapy + Splash (Python + Lua): Как упоминалось выше, Scrapy является мощным фреймворком для парсинга, а Splash обеспечивает возможность обработки JavaScript. Splash использует язык программирования Lua для написания скриптов, что может быть использовано вместе с Python.
В итоге, выбор инструмента зависит от ваших предпочтений и возможностей. Если блокировка соединения к самому сайту остается проблемой, стоит рассмотреть более сложные методы, такие как использование прокси-серверов или контролирование браузера с помощью веб-драйверов.