Что делать, если при парсинге сайта вместо HTML отображаются кракозябры и непонятные символы?

Question

Дональд

html , программирование , веб-разработка , python

Что делать, если при парсинге сайта вместо HTML отображаются кракозябры и непонятные символы?

Как можно получить HTML код главной страницы для дальнейшего парсинга сайта? Когда я использую `response.text`, вижу кракозябры, а `response.content` возвращает байты. Обычно на выходе должен быть HTML код. Что я делаю не так? Вот мой код:

26 июля 2024 г. 11:03

Ответы на вопрос 2

Похожие вопросы

Answer 1

Это может происходить из-за неправильной кодировки текста. Для того чтобы получить HTML код главной страницы сайта, вам необходимо указать правильную кодировку при чтении ответа. 

Попробуйте использовать следующий код:

```python
import requests

url = 'https://www.example.com' # замените на URL сайта, который вы хотите спарсить

response = requests.get(url)
response.encoding = response.apparent_encoding # указываем кодировку

html_code = response.text
print(html_code)
```

Указав `response.apparent_encoding`, вы попытаетесь автоматически определить кодировку текста. Это должно помочь получить читаемый HTML код сайта для дальнейшего парсинга.

Answer 2

Сайт утверждает, что отдаёт <code>Content-Type: text/html;charset=utf-8</code> . <br/> Попробуй сохранить в файл и открыть тем же Notepad++.