Почему при удалении отклоненных значений так много данных удаляется?

Почему при удалении данных о возрасте, выходящих за пределы диапазона 5-95%, удаляется почти половина записей, несмотря на то, что распределение до и после остается одинаковым?
  • 9 декабря 2023 г. 17:36
Ответы на вопрос 2
При удалении отклоненных значений может происходить удаление большого количества данных по нескольким причинам:

1. Несоответствие стандартам или правилам: В некоторых случаях, удаление данных может быть результатом неправильного ввода, ошибок измерения или некорректных форматов данных. Если эти данные являются отклонениями от установленных стандартов или правил, они могут быть удалены для обеспечения точности и надежности данных.

2. Отклонения из-за ошибок или выбросов: Данные иногда могут содержать ошибки, выбросы или аномалии, которые сильно отличаются от остальных значений. Если эти отклонения не отвечают требованиям или не соответствуют ожидаемому поведению, они могут быть удалены для избежания искажения анализа.

3. Неадекватная репрезентативность: В некоторых случаях, удаление отклонений может быть основано на неадекватности репрезентативности данных. Если выборка данных не является достаточно большой или несбалансированной, удаление отклонений может быть выполнено для поддержания объективности и надежности анализа.

Что касается удаления данных о возрасте, которые выходят за пределы диапазона 5-95%, если распределение остается одинаковым до и после удаления, это может означать, что оставшиеся данные были более часто встречаемыми значениями. Возможно, в данных были редкие выбросы или ошибки, которые находились за пределами данного диапазона. В таком случае, удаление этих отклонений могло привести к сокращению общего числа записей, но само распределение осталось без изменений.
Ну если у тебя одинаковых значений много, на приграничных значениях (low, upper) возможно ты все удаляешь такие значения. 

Если тебе надо отфильтровать фрейм по возрасту (5 персентиль 95 персентиль). Используй что нибудь вроде такого.

Ну и не забудь про параметры метода quantile, например задать interpolation (интерполяцию). По у молчанию там линейная среднее между двумя значения, можешь например поставить 'nearest' и будет идентичное поведение np.percentile()
Похожие вопросы