Какие типы нейросетей используются для анализа информации на веб-страницах?

Как подготовить данные для анализа нейросетью, если страницы сайтов имеют слишком много символов для прямой подачи в сеть?
  • 20 апреля 2024 г. 12:40
Ответы на вопрос 2
Для анализа информации на веб-страницах чаще всего используются рекуррентные нейронные сети (RNN), сверточные нейронные сети (CNN) и комбинации различных типов нейронных сетей, такие как CNN-RNN.

Для подготовки данных для анализа нейросетью, если страницы сайтов имеют слишком много символов, можно использовать следующие методы:

1. Преобразование текста в векторное представление с помощью техник, таких как TF-IDF (Term Frequency-Inverse Document Frequency) или Word Embeddings (например, Word2Vec, GloVe).
2. Уменьшение размера текста путем удаления стоп-слов (местоимений, предлогов и т. д.) и пунктуации, а также проведение стемминга или лемматизации для уменьшения размера словаря.
3. Использование алгоритмов сжатия данных, таких как PCA (Principal Component Analysis) или t-SNE (t-Distributed Stochastic Neighbor Embedding), для уменьшения размерности данных.
4. Разбиение текста на более короткие сегменты или абзацы и подача их в сеть по частям.
5. Использование методов автоматической обработки текста для извлечения ключевой информации (Named Entity Recognition, Part-of-Speech Tagging и т. д.).

Кроме того, возможно использовать технологии обработки изображений для анализа визуальной информации на веб-страницах, например, сегментацию изображений и классификацию объектов на изображениях с помощью сверточных нейронных сетей.
Ни одна нейросеть на базе gpt не умеет напрямую работать со страницами в интернете. 

Нужна прослойка, которая, во первых, преобразует страницу в текст (это не так просто как кажется, нужно выделить на странице контент, точнее его группы (информационные блоки), понять где реклама, где навигация а где дизайнерский мусор, отличный пример - страница ozon, 90% экрана абсолютно бесполезный мусор, рекомендации (далекие от того что нужно покупателю), проплаченные карточки и т.п. найти среди этого хлама нужную информацию не просто. Плюс все это формируется в процессе, двигая элементы интерфейса туда сюда... работать с этим адом очень и очень не просто, особенно когда разработчики старательно сопротивляются любой автоматизации.

Мультимодальные сети (кстати, нормальных не существует, даже от openai слабовата, но она лучшая из универсальных) по уму должны уметь работать с веб-страницей как изображение, советую опробовать это самостоятельно на своих задачах, но не уверен что из этого можно получить что то стоящее. Такие сети могут получать изображения в качестве входа, а дальше позволяют вести текстовую беседу, учитывая их как часть контекста.

И главная проблема - ограничения на размер контекста. Большие объемы текста тупо не помещаются 4к..8к токенов это тот объем, в пределах которого сети работают хорошо, но чем больше размер контекста (даже если заявлены 16к или 32к) начинаются борьба компромисов, качества и стоимости. Может так получиться что вместо работы со всей информацией сразу, ее делят на части (еще одна проблема по анализу исходной страницы), а затем, набирая вопросы из текущего контекста (та еще задачка) задают их последовательно для каждой, собирая ответы в итоговый контекст и ее уже используют для дальнейшей беседы. Плюс есть еще алгоритмы саморизации. Плюс еще неплохо сюда multishot пристроить, с примерами.

На каждом этапе, возможно понадобится дообучать свои сети, а это значит собирать обучающую выборку с примерами, RLHF-ить на основе пользовательского опыта... и поддерживать это во времени, так как то что работает сегодня, завтра уже будет устаревшим.

В общем реализуете что то стоящее первыми, может даже озолотитесь, продавая готовое решение бизнесу.
Похожие вопросы