Где можно найти и скачать полную базу данных commoncrawl?

Где можно найти полную базу ссылок/доменов от common crawl, содержащую все найденные ссылки, или нужно самостоятельно собирать её на основе их месячных баз?
  • 23 декабря 2023 г. 10:17
Ответы на вопрос 2
Полную базу данных Common Crawl можно найти на их официальном сайте по адресу https://commoncrawl.org/the-data/get-started/. Они предоставляют несколько вариантов доступа к данным. 

Если вам нужна полная база ссылок/доменов от Common Crawl, содержащая все найденные ссылки, то ее можно собрать на основе их месячных баз данных. Каждая месячная база содержит значительное количество данных, включая информацию о ссылках и доменах. Вы можете загружать эти базы данных и обрабатывать их, чтобы извлечь нужную информацию о ссылках и доменах. Обратите внимание, что обработка больших объемов данных может потребовать значительных вычислительных ресурсов и времени.
тут можно выбрать архивы с 2008-2009 года
Похожие вопросы