Методические указания по выполнению расчётно-графической работы в R
2020-04-11
Раздел 1 Задание на расчётно-графическую работу
Федеральной службой государственной статистики РФ ежеквартально проводятся бюджетные обследования домашних хозяйств по всем регионам России об условиях проживания и уровне благосостояния населения. Необходимо проанализировать данные обследования о расходах и доходах домохозяйств.
В рамках работы данные обследований описываются следующими показателями:
- код территории по ОКАТО (переменная ТЕРРИТОРИЯ)
- тип населенного пункта (переменная ТИПНАС, 1 - город, 2 - село)
- расходы на продукты питания (переменная ПРОДПИТ, y(1))
- расходы на непродовольственные товары (переменная НЕПРОД, y(2))
- расходы на оплату услуг (переменная УСЛУГИ, y(3))
- расходы на покупку алкогольной продукции (переменная АЛКО, x0)
- доходы домохозяйства (переменная ДОХОД, x1)
- сбережения домохозяйства (переменная СБЕРЕЖ, x2)
- число людей в домохозяйстве (ЧИСЛОЛЮД, x3)
- число детей в домохозяйстве (ЧИСЛОДЕТ, x4)
Федеральный округ и отклик y берутся в соответствии с выданным вариантом.
1.1 Порядок выполнения работы
1. Прочитать исходные данные, Исследовать структуру данных: сколько наблюдений, какие поля, какого типа, есть ли пропуски. Исключить отклики y, не соответствующие выданному варианту.
2. Дополнить данные полями из файла codes.csv:
- Код: код региона по ОКАТО, соответствующий переменной ТЕРРИТОРИЯ в данных по обследованиям
- Название: название региона
- ФО: федеральный округ, к которому относится регион
- hc-a2: код региона, соответствующий переменной hc-a2 карты “Russia with disputed territories” библиотеки Highcharter
Сколько наблюдений приходится на каждый из федеральных округов?
Вывести топ-10 регионов по убыванию количества наблюдений.
Вывести топ-10 регионов по убыванию среднего значения отклика y.
3. Рассчитать новую переменную: доход на одного взрослого (x1/(x3-x4)).
По полученному показателю Для каждого региона рассчитать среднее арифметическое и медиану.
Отобразить полученные значения на карте “Russia with disputed territories” библиотеки Highcharter (с учётом, что в данных по обследованиям ХМАО и ЯНАО относятся к Тюменской области, а Ненецкий АО к Архангельской области). Цветовая шкала в зависимости от среднего, во всплывающем окне выводить название рениона, среднее и медиану.
Проанализировать результаты, сделать выводы. Как различаются регионы между собой? Отличается ли средний доход от медианного дохода. В связи с чем возникают различия?
4. Отфильтровать данные, оставив наблюдения по федеральному округу в соответствии с вариантом. Отклик На одном рисунке построить корреляционные поля, рассчитать коэффициенты корреляции и распределения между переменными y, x0, x1, x2, x3, x4 (функция ggpairs() библиотеки GGally). Сделать выводы о наличии связи между показателями, её виде и форме.
5. Провести проверку данных на наличие выбросов с удалением всех наблюдений \(\overline{x}_{(i)}=(x_{1i},x_{2i})\), для которых выполняется соотношение \(h_{i}=\overline{x}_{(i)}(X^{T}X)^{-1}\overline{x}_{(i)}^{T}\geqslant \frac{3}{N}\), где \(X\) - матрица, составленная из значений переменных x1 и x2. На основе оставшихся наблюдений провести расчет основных выборочных характеристик, проинтерпретировать результаты, сделать выводы.
6. Рассчитать выборочные парные коэффициенты корреляции для всех возможных пар переменных, проверить их на значимость, сделать выводы о тесноте связи между признаками.
7. Построить корреляционное поле между откликом и доходом.
Построить линейную модель парной регрессии между этими переменными. Добавить линию регрессии на координатную плоскость. Проанализировать результаты (форма корреляционного поля, что показывают оценки параметров, каково качество модели, выводы о значимости параметров и модели).
Проделать то же самое по прологарифмированным переменным. Сделать выводы, что изменилось?
Доп. баллы: для двух моделей построить и проанализировать корреляционное поле между доходом и модулем остатков модели. С помощию критерия Голдфельда-Квандта изучить обе модели на наличие гетероскедастичности. Сделать выводы.
8. В модель с логарифмированными переменными добавить факторную переменную ТИПНАС, учитывая взаимодействие этой переменной с величиной дохода. Построить корреляционное поле, новую переменную обозначив цветом. Добавить линии регрессии, проинтерпретировать результаты и сделать выводы.
9. Построить линейную модель множественной регресии по всем входным переменным x0, x1, x2, x3, x4, сделать выводы. Проранжировать входные факторы по степени влияния на отклик при помощи коэффициентов эластичности. Отобрать два наиболее сильно влияющих фактора, изобразить в трёх измерениях модель частной регрессии с этими факторами, заменив медианами значения остальных переменных: добавить исходные данные, плоскость регрессии и плоскости 95% доверительного интервала. Затем построить этот график, прологарифмировав значения отклика, прогнозов и доверительных интервалов. Сделать выводы.
10. Сделать общие выводы по проделанной работе в терминах исходных показателей.