Требования оперативной памяти к GPT моделям примерно 2x байт от количества параметров (на самом деле сложнее и больше но но начинают говорить именно с этой оценки). Полистай сообщения этого <a href="https://huggingface.co/model-sizer-bot/activity/community" rel="nofollow">бота</a> на huggingface, вот пример для <a href="https://huggingface.co/TheBloke/Llama-2-70B-fp16/discussions/7#66137bb1188ff298b05df23e" rel="nofollow">llama2-70b</a> <br/> <pre><code>float32 256.29 GB
float16 128.15 GB
int8 64.07 GB квантизация
int4 32.04 GB квантизация</code></pre> <br/> <br/> Для использовании модели не для ее обучения и тюнинга, более чем достаточно 8битной квантизации, мало того, 6-ти и 5-битная квантизация понижает ее качество на считанные доли процентов (4-бит уже единицы процентов). Шум и галлюцинации слабых моделей значительно выше чем эти различия (например простое перефразирование системного текста или вопроса, без изменения его смысла, изменит результат значительнее). <br/> <br/> Если тебе нужно использовать модель на python с помощью tensorflow, бери код с офф страницы модели и используй bitsandbytes. Не подскажу по тому, как раскидать модель по нескольким видеокартам тут, проектов тьма, есть даже те что работают по сети (т.е. не в пределах одной машины) типа <a href="https://github.com/bigscience-workshop/petals" rel="nofollow">petals</a> . <br/> <br/> И у тебя есть альтернатива, используй проект llama.cpp, позволяет запускать модель на процессоре (значительно эффективнее чем реализация на tensorflow) и есть поддержка gpu, одновременно нескольких и разных, причем любой, не только nvidia, плюс если vram не хватает, можно оставить часть весов в памяти и досчитывать на процессоре, что все равно эффективнее. <br/> <br/> p.s. llama3-70b с помощью llama.cpp я запускал на процессоре с памятью 64Gb, с квантизацией 5bit, примерно 1.4токена в секунду, что все еще быстрее для англоязычных текстов чем пишет большинство людей.