Какие текстовые нейронные сети можно установить на компьютере?

Question

Ava

нейронные-сети , chatgpt

Какие текстовые нейронные сети можно установить на компьютере?

Какие текстовые нейросети можно установить локально сейчас? В прошлом клиент видел статью на Habr о клиенте, который предоставлял большинство открытых исходных кодов нейронных сетей с указанием системных требований. Может быть, кто-то знает название этого клиента?

15 апреля 2024 г. 21:29

Ответы на вопрос 2

Похожие вопросы

Answer 1

Можно установить различные текстовые нейронные сети на компьютере, например:

1. OpenAI GPT-3
2. BERT (Bidirectional Encoder Representations from Transformers)
3. Transformer-XL
4. ELMO (Embeddings from Language Models)

Что касается клиента, который предоставлял открытые исходные коды нейронных сетей с указанием системных требований, возможно, вы имеете в виду репозиторий на GitHub или платформу для обмена открытыми исходными кодами, такие как TensorFlow Hub, PyTorch Hub или Hugging Face Transformers. В этих репозиториях можно найти различные текстовые нейронные сети с подробными инструкциями по установке и использованию.

Answer 2

Если у тебя есть видеокарта (или несколько) nvidia с достаточным объемом gpu vram (обычно это 2х от количества параметров, но можно использовать квантизацию, 8битная не меняет значимо качество работы, если не нужно дообучать, т.е. количество параметров ~ размер памяти + чуть чуть, обычно гигабайт, на внутренние нужды сетки) то достаточно воспользоваться примерами python кода со страницы модели на huggingface. Самое главное, скрипт скачает модель автоматически. <br/> <br/> Если у тебя нет достаточного количества vram или вообще нет nvidia видеокарты, то запускай на процессоре с помощью проекта <a href="https://github.com/ggerganov/llama.cpp" rel="nofollow">llama.cpp</a> (тебе не нужно ничего сверх этого). Он использует модели, конвертированные в собственный формат (сейчас это .gguf но он меняется очень часто, за год раза 3 менялся без обратной совместимости), у этого формата и проекта есть бонус - загрузка модели в кеш операционной системы, т.е. повторный запуск приложения не будет тратить время на загрузку модели. Так же есть поддержка gpu (причем и amd тоже, но я не пробовал, формально даже intel дискретка заработает, хз на сколько хорошо), причем фича - можно разместить там только часть модели, а вот python huggingface вариант так не может, либо вся нейронка либо только на процессоре. Так же проект может автоматически раскидывать модель по нескольким gpu (кажется этим управлять пока нельзя), что не очень просто в других случаях. <br/> <br/> llama.cpp в поставке несет server, простенький веб интерфейс и api для работы в своих скриптах. Умеет режим chat (на самом деле не просто это запустить на huggingface примерах) и если покопаться в возможностях кода, есть мегафичи, например сохранение состояния. Особенность алгоритма работы llm такова что на входящие токены тратится время, но можно сохранить состояние в памяти, так работает чат режим, или на диске, и загрузить его по требованию и продолжить в режиме чата (например в контекст записываешь данные, сохраняешь состояние, а затем возвращая его, подсовываешь разные вопросы, загрузка состояния мгновенна, соответственно тратиться время будет только на вопрос и ответ, но не на повторную обработку данных, что актуально для нейронок с большим контекстом) <br/> <br/> Теперь объединяем фичи huggingface и llama.cpp, в поставке последнего идут утилиты конвертации модели из huggingface в .gguf, просто указав название модели, она будет загружена, конвертирована, квантизована, если актуально, в нужную битность (настоятельно рекомендую 8бит, ну если сильно надо, можно 5бит), и будет работать максимально эффективно соответственно твоему железу. <br/> <br/> ну и отвечаю на вопрос, какие нейронки хороши для дома - <b>openchat35</b> -7B (основан на mistral), <b>mixtral8x7b</b> - 56B (требует оперативку но по скорости работает как 7B), посмотри на <b>qwen1.5</b> (на любой вкус от 0.5B до 70B), cohere <b>command R</b> (35B нужно 64Гб ram), а при наличии очень большого количества памяти - <b>databrix</b> (порядка 256Гб при 8битной квантизации, но работает как 30B модель так как использованы идеи из mixtral) <br/> <br/> А вообще смотри чужие <a href="https://chat.lmsys.org/?leaderboard" rel="nofollow">бенчмарки</a> , они может не совсем адекватно показывают ситуацию (очень сложно сравнивать модели, когда в разных доменах знаний и задач они работают по разному) но альтернатива, сравнивать самому.