Какую модель Llama лучше выбрать для использования в Telegram?

 Могут ли модели Llama принимать несколько запросов от пользователей и выдавать ответы аналогично chatgpt? Как интегрировать Llama в Telegram как бота и где найти информацию по настройке? Спасибо!
  • 10 мая 2024 г. 23:30
Ответы на вопрос 2
Для использования в Telegram лучше всего выбрать модель Llama 3, так как она обладает наиболее продвинутыми функциями и способна обрабатывать несколько запросов от пользователей одновременно.

Модели Llama могут принимать несколько запросов от пользователей и выдавать ответы аналогично chatgpt, но их возможности все же ограничены по сравнению с GPT-3.

Для интеграции Llama в Telegram как бота, необходимо использовать Telegram Bot API. Вы можете найти подробную информацию по настройке бота в Telegram на официальном сайте Telegram: https://core.telegram.org/bots

Также, для настройки и работы с моделью Llama вам понадобится работающий код на Python, так как Llama доступна через библиотеку Hugging Face Transformers. Инструкции по установке и использованию библиотеки можно найти на официальном сайте Hugging Face: https://huggingface.co/transformers/

Надеюсь, данная информация будет полезной для вас. Если у вас возникнут дополнительные вопросы, не стесняйтесь обратиться за помощью!
Какая? llama3-70b наилучшая из открытых (те что можно запустить у себя). Так же хорошие открытые модели основанные на mixtral (mixtral-8x22b). 

llama это модель, она ничего не может, это файл на диске.
Для того чтобы модель работала тебе нужна программа, например с гитхаба официальный пример на python (он очень простой, там буквально 5-10 строчек)

Не рекомендую прямо в боте telegram вставлять работу с gpt, т.е. это можно и даже будет работать но помятуя что у gpt высокие требования к железу (оперативная память) это будет не эффективно.

Готовый сервер идет в поставке с llama.cpp (запросы api по http), он же умеет обрабатывать одновременно несколько запросов (по умолчанию 10 одновременных потоков кажется) так же есть возможность самому собирать запросы в пакет и отправлять одним запросом в сервер, он все обработает и вернет, и по скорости это будет быстрее чем каждый по отдельности (особенно когда работа на gpu).

Программирование ботов gpt - это придумывание запросов на естественном языке, которые дополняются данными от пользователей или еще какими (например обычный запрос в классическую базу, вываливая в промп тупо текстом, к примеру csv форматом). У тебя ограниченное количество ресурсов, маленькое окно контекста (у llama это 8к токенов) и в попытке все туда уместить и приходится что то поверх городить. тупой пример - если ты будешь весь чат пихать в контекст, уже через 20-30 сообщений он переполнится, и нужно будет принимать решение что и как выкидывать.

А еще llama любит отвечать лишнее, т.е. ты ее просишь ответь числом, а оно отвечает - ваш ответ 3... вот эти 'ваш ответ' нужно как то выявлять. А еще модели лучше работают, если просить их по рассуждать, она тебе даст рассуждения, тебе они нафиг не нужны, как из них результат вычленить? Иногда можно отделить мусор от ответа, попросив его дать в каком то формате, например дай ответ в формате json, а так как запрос к gpt это часть беседы в форме чата, можно дать часть ответа прямо в промпте, например "...assitent: {" тогда у модели не останется варианта как сразу фигачить json.

У llama.cpp есть механизмы задания gramma формата ответа, какие токены предпочтительнее и в каком формате, говорят не идеально реализовано (например не получится задать варианты ответов списком слов типа отвечай только название цвета 'красный', 'зеленый', 'желтый', 'другое',..)
Похожие вопросы