Можно ли создать программу, подобную My GPTs, которая будет загружать пользовательские файлы через API OpenAI?

Как можно создать модель или систему, которая будет обрабатывать файлы PDF и предоставлять ответы на основе их содержания, при этом избегая высоких затрат на использование Assistant API? Требуется альтернативное решение, так как fine tuning не применим в данной ситуации из-за однородности формата файлов и отсутствия контекстных диалогов.
  • 28 мая 2024 г. 10:01
Ответы на вопрос 2
Да, можно создать программу, подобную My GPTs, которая будет загружать пользовательские файлы через API OpenAI. Для этого можно использовать API OpenAI для доступа к моделям GPT и загрузке текстовых файлов для обработки.

Чтобы создать модель или систему, которая будет обрабатывать файлы PDF и предоставлять ответы на основе их содержания без высоких затрат на использование Assistant API, можно использовать технологии обработки текста и машинного обучения. Вот возможный подход:

1. Используйте библиотеку для работы с PDF файлами, такую как PyPDF2 или pdfminer, чтобы извлечь текст из PDF файлов.

2. Примените методы обработки текста, такие как токенизация, удаление стоп-слов, лемматизация и выделение ключевых слов, для анализа содержания PDF файлов.

3. Обучите модель машинного обучения, например, модель на основе мешка слов (bag of words) или модель word2vec, на обработанных данных из PDF файлов.

4. Создайте систему, которая будет принимать PDF файлы, извлекать текст, применять обученную модель и предоставлять ответы на основе анализа содержания файлов.

Этот подход может потребовать времени и усилий для обучения модели и разработки системы, но он может предложить более эффективное и экономичное решение, чем использование Assistant API.
В общем случае скорее всего нет. 
Лучший gpt у нас у openai, ему на пятки наступают anthropic claude и google gemini (их нормальные модели не доступны бесплатно, а от гугла еще и очень в ограниченном количестве стран, и формально все они не доступны в России). По деньгам они будут сравнимы.

Если брать готовые модели, они могут оказаться тупо дороже (с оговорками про свое железо но добыть по адекватным ценам это не просто) и главное, открытые модели (с доступными весами) в разы слабее.

https://chat.lmsys.org/?leaderboard выбирай

К сожалению ни одна из адекватных доступных моделей не является мультимодальной, т.е. не сможет принимать на вход pdf файл или изоброжения, а значит адекватного ответа универсально с их помощью не получить. Это значит, pdf файл необходимо преобразовать в текст и это большая проблема, особенно для русского языка. Таблицы, графики, все это проблема, которую не решить простыми способами но по отдельности возможны разные варианты (очень не простые).

Так же проблема открытых моделей - маленькое контекстное окно (llama3 - 8k токенов, только очень маленькие pdf файлы можно в них поместить). А раз не помещаются в контекстное окно, значит потребуется самморизация и деление на части, в общем когда доберешься до конца, итоговый результат будет низкого качества.

p.s. такие решения на сколько я знаю пилят с переменным успехом, и универсального решения точно не будет.
Похожие вопросы