Для парсинга списка ссылок на веб-сайты и извлечения email-адресов можно использовать библиотеки `requests` и `beautifulsoup4`.
Вот пример кода, который может вам помочь:
```python
import requests
from bs4 import BeautifulSoup
import re
# Функция для парсинга email-адресов из текста
def extract_emails(text):
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(pattern, text)
return emails
# Список ссылок на веб-сайты
websites = [
'http://example1.com',
'http://example2.com',
# Добавьте в список все нужные веб-сайты
]
# Проходим по каждой ссылке и извлекаем email-адреса
for website in websites:
response = requests.get(website)
soup = BeautifulSoup(response.text, 'html.parser')
text = soup.get_text()
emails = extract_emails(text)
print('Email-адреса на сайте', website)
for email in emails:
print(email)
```
В этом примере мы сначала импортируем необходимые библиотеки. Затем у нас есть функция `extract_emails`, которая использует регулярное выражение для извлечения email-адресов из предоставленного текста.
Мы затем создаем список `websites`, содержащий все ссылки на веб-сайты, с которых вы хотите извлечь email-адреса.
Далее мы проходим по каждой ссылке, отправляем GET-запрос с помощью `requests` и получаем HTML-код страницы. Затем мы используем `BeautifulSoup` для разбора HTML и получения только текстового содержимого страницы.
Далее мы передаем этот текст в функцию `extract_emails`, чтобы извлечь email-адреса. Затем мы просто выводим извлеченные email-адреса на экран.
Обратите внимание, что данный код приведен в качестве примера, и вам может потребоваться дополнительная обработка или настройка для работы с конкретными веб-сайтами.