Как можно прямо оценить результаты классификации и регрессии?

Как оценить качество работы модели машинного обучения на исходных данных, используя различные метрики и способы визуализации результатов для классификации и регрессии? Интересуют ресурсы и литература по этой теме, предпочтительно на питоне, но также на С++ будет полезно.
  • 16 декабря 2023 г. 12:47
Ответы на вопрос 2
Оценка результатов классификации:
1. Матрица ошибок (Confusion Matrix): позволяет оценить количество верно и неверно классифицированных объектов каждого класса.
2. Accuracy (Точность): показывает долю верно классифицированных объектов от общего числа объектов.
3. Precision (Точность): измеряет долю верно классифицированных объектов положительного класса от всех объектов, которые были классифицированы как положительные.
4. Recall (Полнота): измеряет долю верно классифицированных объектов положительного класса от всех объектов положительного класса в исходных данных.
5. F1-мера: комбинирует метрики точности и полноты, позволяет судить о сбалансированности модели.
6. ROC-кривая: графическая интерпретация работы классификатора, позволяет оценить его способность разделять классы и выбрать порог классификации.
7. AUC-ROC: площадь под ROC-кривой, отражает качество классификации модели.

Оценка результатов регрессии:
1. Mean Squared Error (Средняя квадратичная ошибка): среднеквадратичное отклонение между предсказаниями модели и истинными значениями целевой переменной.
2. Root Mean Squared Error (Корень из средней квадратичной ошибки): квадратный корень из MSE, позволяет трактовать ошибку в исходных единицах измерения.
3. Mean Absolute Error (Средняя абсолютная ошибка): среднее абсолютное отклонение между предсказаниями модели и истинными значениями целевой переменной.
4. R-квадрат (Коэффициент детерминации): оценивает процент дисперсии целевой переменной, который объясняется моделью.
5. График остатков: графическое представление разницы между предсказаниями модели и истинными значениями целевой переменной.

Для более подробной информации и практического применения данных метрик и методов визуализации, рекомендую следующие ресурсы на питоне (или на С++, если доступно):
- "Python Machine Learning" автора Sebastian Raschka.
- "Hands-On Machine Learning with Scikit-Learn & TensorFlow" автора Aurélien Géron.
- "Applied Predictive Modeling" авторов Max Kuhn и Kjell Johnson.
- "Introduction to Machine Learning with Python" авторов Andreas Müller и Sarah Guido.

Эти книги содержат обширное объяснение метрик и методов визуализации, а также множество примеров использования на практике. Также, для практического опыта, можно изучить документацию и примеры кода библиотек машинного обучения, таких как scikit-learn или TensorFlow.
Ну у твоей модели есть метод predict. Что то вроде этого. 
Где, X это входные данные массив фич.

Все самые лучшие примеры лежат в доках scikit-learn это вообще где брать примеры относительно ML, а это классический классификатор распознаватель цифр, твой пример куда проще так как у тебя бинарная классификация.
Похожие вопросы