Что делать, если коэффициент детерминации (R-квадрат) при использовании константы в модели регрессии низок, но все же необходимо учитывать эту константу?

Как можно улучшить интерпретацию результатов регрессионного анализа в Excel при включении константы, если значения коэффициента детерминации (r-квадрат) плохие, но показатели t-статистики и p-value указывают на значимость константы?
  • 1 мая 2024 г. 18:50
Ответы на вопрос 2
Если коэффициент детерминации (R-квадрат) низкий при использовании константы в модели регрессии, это может указывать на то, что модель не очень хорошо объясняет вариацию зависимой переменной. В таком случае, можно попробовать улучшить модель путем добавления дополнительных предикторов или их взаимодействий.

Чтобы улучшить интерпретацию результатов в Excel, можно обратить внимание на другие статистические показатели, такие как значения t-статистики и p-value для коэффициентов регрессии. Если значения t-статистики и p-value для константы и других предикторов значимы, это может указывать на то, что они вносят значимый вклад в объяснение зависимой переменной, несмотря на низкий R-квадрат.

Также стоит учитывать практическую значимость результатов и контекст исследования при интерпретации результатов регрессионного анализа. Возможно, что низкий R-квадрат не имеет большого значения в рамках конкретного исследования, и другие показатели в модели регрессии являются важными для объяснения зависимой переменной.
1. Теоретически это возможно иметь такую разницу в r-squared. Но довольно редкий кейс, я бы перепроверил данные. 

2. Нужно/ Не нужно это вопрос моделирования. Как ты собираешься интерпретировать модель, если ты используешь линейную регрессию (модели с высокой степенью интерпретации), то ты всегда отталкиваешься от бизнес значений параметров и ошибок. Константу оставляют например когда при нулях (или значениях очень близких к нулю), модель не должна показывать ноль.

3. Посмотри на другие метрики например среднюю абсолютную ошибку, медианную абсолютную ошибку. Все они имеют хорошую бизнес интерпретацию с которой легко работать. Сам по себе r_squared это количество вариативности (дисперсии) объяснено моделью. 0.19 (19 процентов) вариативности объяснено моделью. Что очень мало и я назвал бы такую модель негодной. В то время как 0.99 (99 Процентов) очень много это учебные показатели, но это еще не все это не означает все супер. Посмотри на вышеупомянутые метрики они измеряются в единицах твоего таргета. Как они себя ведут.

4. RSS, ESS, TSS - далековато от бизнеса. Это значения которые нужны для F статистики. А она у тебя говорит сама за себя 4314 и 5. Первая модель (где 5) совершенно не пригодна. Вторую перепроверяй, и мысли категориями интерпретации. Это сама суть регрессивного анализа.
Похожие вопросы