Здравствуйте! <br/> <br/> Существует ли программа, подобная LM Studio для моделей GGUF или Alpaca Electron для GGML, которая позволяет запускать модели категории Document Question Answering на платформе Hugging Face (https://huggingface.co/models?pipeline_tag=document-question-answering)?
Да, существует такая возможность! Вы можете использовать AI-модель, созданную с помощью Hugging Face, для решения задачи Document Question Answering. Для этого вам нужно будет использовать API Hugging Face для подключения модели к вашему приложению или сервису. Чтобы начать использовать AI-модель Document Question Answering на платформе Hugging Face, вам необходимо выполнить следующие шаги: 1. Выберите подходящую модель из списка моделей Document Question Answering на сайте Hugging Face. 2. Используйте API Hugging Face для загрузки и использования выбранной модели в своем приложении или сервисе. 3. Подготовьте данные в виде документа и вопроса для модели. 4. Передайте эти данные модели через API Hugging Face и получите ответ на ваш вопрос на основе содержания документа. Таким образом, вы сможете использовать AI-модель Document Question Answering, созданную с помощью Hugging Face, для решения своих задач. Надеюсь, это поможет вам в работе!
Выбираешь модель, в описании ищешь code examples или documentation, вот тупо первая же модель по твоей ссылке naver-clova-ix/donut-base-finetuned-docvqa и тут же по ссылке пример кода использования
Обычно код, который выкладывают на huggingface заточен на его же использование, все максимально автоматизировано, при первом запуске будет скачана модель, и вся возня - это установка необходимых python зависимостей.
Если модель небольшая, считанные миллиарды параметров, то она будет без особых проблем запускаться на процессоре, если больше, то рекомендуется gpu от nvidia (с некоторыми не самыми слабыми amd реально но будет много возни).
Требования к RAM обычно 2х-4х от размера модели в параметрах (т.е. 7B будет требовать порядка 14Gb-24Gb ram), но в некоторых случаях есть методы квантизации (например gpt квантизуют с помощью bitsanbytes) в этом случае требования к ram падают до количества параметров (т.е. 7Gb-9Gb для 7B модели)
p.s. если повезет, возможно выбранная тобой модель может быть запущена с помощью llama.cpp (там и мультимодальные VA модели уже запускают), с ней есть шанс разместить часть весов в GPU а не все, т.е. это имеет смысл если оперативной памяти gpu чуть чуть не хватает.