Кратко: чтобы быстро начать решать простые задачи ML, достаточно освоить базовую статистику + несколько прикладных приёмов (EDA, линейная/логистическая регрессия, валидация). Ниже — приоритетный план тем, почему они важны и как их практиковать.
1) Зачем статистика в ML
- Помогает понимать данные, выбирать модель, оценивать надёжность выводов и избегать ошибок (смещение/варианс, утечка данных, ложные совпадения).
2) С чего начать (порядок изучения и ключевые понятия)
1. Описательная статистика и EDA
- Среднее, медиана, мода, дисперсия/стандартное отклонение, квартиль, IQR.
- Визуализация: гистограммы, boxplot, scatterplot, heatmap корреляций.
- Практика: исследуйте набор Titanic/iris, найдите выбросы, пропуски, распределения.
2. Основы вероятности
- События, пространства, условная вероятность, независимость.
- Формула Байеса — важно для интерпретации моделей и наивного Байеса.
3. Случайные величины и основные распределения
- Бернулли, биномиал, пуассон, нормальное, экспоненциальное.
- Почему: многие тесты и предположения модели базируются на нормальности/дисперсиях.
4. Математическое ожидание и дисперсия; ЗБЧ и ЦПТ
- Понимать, почему среднее стабильно при большом объёме выборки и как оценивать погрешность.
5. Оценивание и доверительные интервалы
- Точечные оценки, стандартная ошибка, CI — как сообщать неопределённость.
6. Тесты гипотез и p-value (основы)
- t-тест, chi-square (когда используются), интерпретации p-value и ограничения (не «истина/ложь»).
7. Корреляция и ковариация
- Pearson vs Spearman, взаимосвязь ≠ причинность.
8. Линейная регрессия (OLS)
- Формула, интерпретация коэффициентов, R^2, предположения модели.
- Практика: реализовать регрессию через sklearn и statsmodels, интерпретировать.
9. Логистическая регрессия и основы классификации
- Логит-функция, кросс-энтропийная потеря, вероятность класса.
10. Функции потерь и оптимизация
- MSE, MAE, лог-лосс; градиентный спуск в общем виде (интуиция).
11. Оценка моделей и валидация
- Holdout, k-fold CV, confusion matrix, precision/recall/F1, ROC-AUC.
- Почему: чтобы не переоценивать качество моделей.
12. Смещение/дисперсия; регуляризация
- Overfitting vs underfitting, L1/L2 (Lasso/Ridge), кросс-валидация для подбора гиперпараметров.
13. Препроцессинг и фичеринжиниринг
- Масштабирование (StandardScaler, MinMax), кодирование категориальных (one-hot, target encoding), заполнение пропусков.
14. Ресемплинг: bootstrap и перестановочные тесты
- Оценка устойчивости метрик без сложной теории.
15. PCA и базовый unsupervised (k-means)
- Для сокращения размерности и визуализации.
16. Базовые представления Байесовского подхода (опционально)
- Приоритет/апостериорь — полезно для интерпретации неопределённости.
3) Практические навыки (инструменты)
- Python: numpy, pandas (EDA), matplotlib/seaborn (визуализация), scikit-learn (модели/валидация), statsmodels (статистические тесты, подробная регрессия).
- Умение читать требования задачи, делать pre-processing, строить модель, валидировать и интерпретировать результат.
4) Что изучать сначала на практике (не теория)
- Сделайте EDA на одном датасете (Titanic), постройте baseline (логистическая регрессия), оцените метрики, попробуйте простые фичи и регуляризацию.
- Затем попробуйте регрессию (например, набор с предсказанием цены/уровня), посмотрите на остатки и предположения OLS.
5) Короткий план на 1–2 месяца (при 6–10 часах в неделю)
- Неделя 1: EDA, описательная статистика, визуализация.
- Неделя 2: Вероятность, распределения, Bayes (интуиция).
- Неделя 3: Корреляция, простая линейная регрессия, оценка качества.
- Неделя 4: Логистическая регрессия, метрики классификации, confusion matrix.
- Неделя 5: Кросс-валидация, регуляризация (Ridge/Lasso).
- Неделя 6: Bootstrap, доверительные интервалы, базовые гипотезы.
- Неделя 7–8: Проект на Kaggle (Titanic/House Prices/iris) — полный pipeline.
6) Ресурсы (кратко)
- Книги: "An Introduction to Statistical Learning" (ISL) — отличный старт; "Practical Statistics for Data Scientists" — полезно для ML-ориентированных тем.
- Онлайн: Khan Academy (probability & stats), Coursera (статистика/ML курсы), StatQuest (YouTube) — объяснения интуиции.
- Практика: Kaggle (Titanic, House Prices), scikit-learn tutorials, ноутбуки на GitHub.
7) Частые ошибки и на что обращать внимание
- Не путать корреляцию и причинность.
- Не доверять результатам без валидации (data leakage).
- Переоценка модели на тренировочной выборке — используйте CV.
- Некорректная работа с пропусками/категориальными данными.
- Неправильная интерпретация p-value.
Если хотите, могу:
- Составить подробный 8-недельный план с задачами и ресурсами по неделям.
- Подобрать первые упражнения/ноутбуки (Titanic, Iris) и подсказать чек-лист EDA и pipeline для них.