С чего стоит начать обучение или чтение по интересующей теме?

Я ищу литературу или другие источники, которые помогут мне ответить на следующие вопросы: <br/> 1) Как нейросети устанавливают взаимосвязь между словами (или делают это вообще)? <br/> 2) Как большие языковые модели преобразуют слова в числовые значения, чтобы использовать их в качестве параметров? (Я не совсем уверен в формулировке второго вопроса, но понимаю, что большие языковые модели трансформируют текст в набор параметров, и хотел бы узнать, на каких принципах или методах основан этот процесс, особенно учитывая, что для обычных языковых моделей количество параметров составляет около 300).
  • 5 декабря 2024 г. 11:13
Ответы на вопрос 2
Для глубокого понимания работы нейросетей и языковых моделей, стоит рассмотреть несколько направлений в обучении и чтении. Вот некоторые рекомендации по источникам, которые помогут вам разобраться в ваших вопросах:

### 1. Основы нейросетей и машинного обучения
Начните с изучения основ нейросетей и машинного обучения. Рекомендуемые источники:

- **Книги:**
  - "Deep Learning" авторов Иэна Гудфеллоу, Йошуа Бенджио и Аарона Курвила — это считается одной из лучших книг по глубокому обучению и предоставляет хорошую теоретическую базу.
  - "Машинное обучение" Тома Митчелла — классическая книга, которая охватывает основные концепции в области машинного обучения.

- **Онлайн курсы:**
  - Курсы от Coursera (например, "Deep Learning Specialization" от Andrew Ng) или edX могут быть полезными для получения практических навыков.

### 2. Специфика работы с языковыми моделями
Для понимания того, как работают языковые модели, и как они обрабатывают текст, особенно в контексте трансформации текста в числовые представления:

- **Книги:**
  - "Natural Language Processing with Python" — это хорошее введение в обработку естественного языка с использованием Python и библиотек, таких как NLTK и SpaCy.
  - "Speech and Language Processing" Дэниела Юфе и Джеймса Палмера — охватывает множество аспектов обработки языка и может дать представление о современных подходах.

- **Статьи и пособия:**
  - Статьи о нейросетевых языковых моделях, особенно работы, такие как "Attention is All You Need" (Картинки, Вавилон, Нг и др.), предоставят глубокое понимание архитектуры трансформеров.

### 3. Понимание преобразования текста в числовые представления
Для получения представлений (векторов) слов (например, с помощью эмбеддингов):

- **Иммерсионный курс:**
  - Изучите термины и методы, такие как Word2Vec, GloVe, FastText, которые используют различные подходы для генерации векторных представлений слов. Вы можете найти много информации в статьях и ресурсах онлайн.

- **Программные библиотеки:**
  - Ознакомьтесь с библиотеками, такими как TensorFlow и PyTorch, которые помогут вам увидеть, как реализуются языковые модели и как они обрабатывают текст.

### 4. Исследование современных технологий
Следите за последними исследованиями в области языковых моделей. Существуют много ресурсов, где публикуются новейшие достижения в этой области:

- **Архивы препринтов:**
  - arXiv.org — платформа для размещения научных статей; здесь много статей по нейросетям и обработке языка.

- **Блоги и подкасты:**
  - Блоги известных исследователей и компаний, работающих в области AI, таких как OpenAI или Google AI, могут быть полезными для понимания трендов и новых технологий.

### Общие рекомендации
Не стесняйтесь задавать вопросы в онлайн-сообществах, таких как Stack Overflow или Reddit (например, r/MachineLearning). Общение с единомышленниками может помочь расширить ваши знания и лучше понять сложные темы.
Ищи все что связанно с transformers (архитектура deep learning). 

Взаимосвязь между словами это их тема и именно она позволила создать LLM, это именно, тогда был прорыв.

Связь между словами именуется контекст. До трансформеров было например так это дополнительно зависит от архитектурного решения, что считать токеном: слово, предложение и т.д. То есть например 'Мама мыла раму', 'Мне нужно новую раму на велосипед', или что-нибудь из подвортни 'Керя ты в раму въехал'. слово 'раму' будет иметь один и тот же эмбеддинг. Так было раньше.

Трансформеры это революция они процессируют токен паралельно, и на каждом своем слое потенциально возможно обновления эмбединга слова 'раму', как и других слов. Тем самым они начали понимать контекст, иными словами эмбеддинги базируется на контексте, а не на слове.

В общем это ответ на оба вопроса. Гугли читай статьи изучай и пробуй transformers.
Похожие вопросы