Как извлечь содержимое скрипта используя Python?

  • 7 августа 2023 г. 12:42
Ответы на вопрос 3
Можно использовать библиотеки, такие как `BeautifulSoup`, `requests` для запросов на сайты. Ниже пример, как можно извлечь содержимое скрипта с веб-страницы:

```python
from bs4 import BeautifulSoup
import requests

# Перейти по адресу URL
url = 'http://example.com'
response = requests.get(url)

# Преобразовать текст ответа в объект BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Найти все теги <script> на странице
scripts = soup.find_all('script')

# Выведите содержимое каждого скрипта
for script in scripts:
    print(script.string)
```

Обратите внимание, этот код выводит содержимое тегов `<script>`. Однако, если скрипт загружает содержимое динамически, то у вас не будет доступа к этим данным, поскольку `requests` и `BeautifulSoup` не могут выполнять JavaScript. В таких случаях вам может понадобиться использовать инструменты, такие как Selenium.

Кроме того, пожалуйста, всегда убедитесь, что вы уважаете политику сайта в отношении сбора данных, обращаясь к его файла robots.txt или условиями предоставления услуг.
import json

html = ''

# Получение JSON из HTML-кода без использования BeautifulSoup
start_index = html.find("// Здесь находится json") + len("// Здесь находится json")
end_index = html.find("")
raw_json = html[start_index:end_index].strip()

# Загрузка JSON-данных
data = json.loads(raw_json) 
 Но можно и без использования bs4)))
Похожие вопросы