Как можно использовать функцию importxml для сбора данных?

Question

CosmicEnigma

парсинг , google-sheets

Как можно использовать функцию importxml для сбора данных?

В ячейке A1 находятся несколько ссылок в следующем формате:  
<a href="https://www.flashscore.com/match/IBDCixtJ/#/match-summary" rel="nofollow">https://www.flashscore.com/match/IBDCixtJ/#/match-...</a> <br/>  
<a href="https://www.flashscore.com/match/xz5mn87G/#/match-summary" rel="nofollow">https://www.flashscore.com/match/xz5mn87G/#/match-...</a> <br/>  
<a href="https://www.flashscore.com/match/rD5qmlhA/#/match-summary" rel="nofollow">https://www.flashscore.com/match/rD5qmlhA/#/match-...</a> <br/>  
<a href="https://www.flashscore.com/match/GQTIGlct/#/match-summary" rel="nofollow">https://www.flashscore.com/match/GQTIGlct/#/match-...</a> <br/>  
<a href="https://www.flashscore.com/match/EHsiLUlP/#/match-summary" rel="nofollow">https://www.flashscore.com/match/EHsiLUlP/#/match-...</a> <br/>  
<a href="https://www.flashscore.com/match/zDFvxTmO/#/match-summary" rel="nofollow">https://www.flashscore.com/match/zDFvxTmO/#/match-...</a> <br/>  

При вводе в ячейку формулы =IMPORTXML(A1; "//button[@class='wcl-tab_y-fEC' and @data-testid='wcl-tab']") получается результат n/a.  
Что именно я делаю неправильно, и есть ли какие-либо альтернативные способы решения данной проблемы?

29 января 2025 г. 8:14

Ответы на вопрос 2

Похожие вопросы

Answer 1

Функция `IMPORTXML` в Google Sheets используется для извлечения данных из веб-страниц на основе XPath-запросов, однако она подвержена ограничениям, что может привести к ошибке, такой как `#N/A`, если что-то идет не так. Есть несколько возможных причин, по которым ваша формула может не работать:

1. **Неправильный путь XPath**: Убедитесь, что указанный XPath правильный и действительно соответствует структуре загружаемой веб-страницы. Попробуйте использовать инструменты разработчика вашего браузера (обычно доступно через нажатие F12), чтобы найти элементы на странице и проверить правильность XPath.

2. **Динамическое содержимое**: Если данные, которые вы пытаетесь извлечь, подгружаются динамически с помощью JavaScript, то `IMPORTXML` не сможет их увидеть. В таком случае функция просто вернет ошибку.

3. **Сайты с защитой от парсинга**: Некоторые сайты запрещают автоматический сбор данных. Это может быть сделано с помощью различных средств блокировки, которые не позволяют `IMPORTXML` получать доступ к их содержимому.

4. **Правильный URL**: Убедитесь, что вы используете корректный URL и что он вьюится без проблем в браузере. Возможно, вам нужно убрать `#`, так как это может вызвать проблемы.

Для решения проблемы вы можете попробовать следующее:

### Альтернативные способы

1. **Google Apps Script**: Если `IMPORTXML` не работает, вы можете использовать Google Apps Script для написания собственного скрипта, который будет загружать страницу и извлекать данные.

Пример того, как это можно сделать:
```javascript
function fetchFromUrl(url) {
var response = UrlFetchApp.fetch(url);
var html = response.getContentText();
// Используйте регулярное выражение или XML парсер, чтобы извлечь нужные данные
return html; // Верните нужные данные
}
```

2. **Использование API**: Если сервис, с которого вы хотите извлечь данные, предлагает API, это будет лучшим и более надежным способом.

3. **Разбивка задач**: Если у вас есть несколько URL, вы можете разбить их на отдельные ячейки (например, A1, A2 и т.д.). Затем применить функцию для каждой отдельной ячейки, что может помочь вам прояснить, какие URL работают, а какие нет.

4. **Использование других инструментов**: Существуют другие инструменты для парсинга, такие как Python с библиотеками Beautiful Soup или Scrapy, которые могут более эффективно обрабатывать парсинг с динамическим контентом.

Попробуйте эти варианты, и они должны помочь вам справиться с задачей по извлечению данных.

Answer 2

Посмотрите что вообще сервер отдает. Возможно сайт грузится динамически. Вот мой старый код, должен помочь <br/> <pre><code class="javascript">/**
* Открывает URL и возвращает код страницы
* Telegram - @ProgrammerForever
*
* @param {string} URL URL который нужно открыть
* @param {boolean} isCut Указывакт, нужно ли обрезать страницу до 50000 символов по длине, по умолчанию false
* @param {boolean} noScript Указывакт, нужно ли удалять скрипты из кода
* @return Исходный код страницы
* @customfunction
*/
function getHTML(URL,isCut,noScript) {
  if ((URL === undefined)||(URL == "")) { return "#ОШИБКА Пустой URL";};
  if (isCut === undefined) {var isCut=true;};
  if (noScript === undefined) {var noScript=true;};
  if (URL.map){     //Если задан диапазон
    return URL.map(getHTML);
  }else{
    try {
      var payload = {
        'rand':(new Date()).getTime()
      };
      var headers={
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0',
        'Upgrade-Insecure-Requests': 1,
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
        'Accept-Encoding': 'gzip, deflate, br',
        'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7'
      };
      var options = {
        'method' : 'get',
        'headers' : headers,
        'payload': payload
      };
      
      var response = UrlFetchApp.fetch(URL,options);
      var charset=response.getAllHeaders["charset"];
      //var responseText=response.getContentText(charset?charset:"windows-1251");
      var responseText=response.getContentText(charset?charset:"UTF-8");
      if (noScript){ 
        responseText=responseText.replace(/&lt;script[^&gt;]*&gt;(?:(?!&lt;\/script&gt;)[^])*&lt;\/script&gt;/gmi,"");
        responseText=responseText.replace(/&lt;!--.*?--&gt;/gmi,"");
        responseText=responseText.replace(/&lt;link.*?\/&gt;/gmi,"");
        responseText=responseText.replace(/&lt;meta.*?\/&gt;/gmi,"");
        responseText=responseText.replace(/[\n\r\t]/gmi,"");
        
      };
      if (isCut&amp;&amp;(responseText.length&gt;50000)){return responseText.substring(0,50000);}else{return responseText;};
    } catch (err) {
      //return JSON.stringify(err);
      return "#ОШИБКА "+err.message;
    };
  };
};</code></pre>