Конкурс kaggle по анализу данных анкетирования населения
На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).
infographics: American Housing Survey Factsheets
Данные American Community Survey (ACS) являются взвешенными, дизайн исследования задан повторными весами. Поэтому все статистики, где это имеет смысл, являются взвешенными. Все домохозяйства страны разделены на 2351 кластер по географическому принципу с населением около 100 тысяч человек в каждом кластере. Эти кластеры называются PUMAs (public use microdata areas). Далее всюду рассматриваем целевую аудиторию, в которой домохозяйства либо являются собственниками жилья с ограничениями на имущество, либо являются собственника своего жилья, либо арендуют жилье. Это целевая аудитория составляет около 86 % от общего числа домохозяйств в стране.
Сравнение расходов на ипотеку и аренду
Следующие два графика показывают средние расходы домохозяйств на ипотеку и аренду в этих кластерах. Единицы измерений первого графика — доли затрат на ипотеку/аренду от дохода домохозяйства, второй график показывает затраты домохозяйств на ипотеку/аренду в долларах за месяц. Красная линия на обоих графиках показывает медианные величины по аренде относительно небольшого интервала по ипотеке.
Можно видеть, что в среднем доля расходов на жилье у домохозяйств, которые его арендуют, выше, чем у домохозяйств, которые приобрели жилье в ипотеку. Но в абсолютных цифрах картина меняется на противоположную — ежемесячные платежи в среднем больше у второй группы. Эти наблюдения справедливы для почти всех регионов.
Преобладающий вид права собственности на жилье в зависимости от уровня дохода домохозяйства
Рассмотрим распределение долей домохозяйств с одним из трех видов права собственности по децилям их доходов за год. То есть делим целевую аудиторию на 10 равных частей (с учетом весов) согласно их уровню дохода. В первую группу попадают 10 % домохозяйств с наименьшим доходом и так далее по возрастанию уровня дохода домохозяйств.
Получаем следующий результат (красным обозначена доля арендующих жилье, светло-серым — доля собственников без ограничений, синим — доля ипотечных собственников)
Легко видеть тренд различия в долях арендующих жилье и собственников с незавершенными ипотечными выплатами, в зависимости от уровня дохода. Примерное равенство этих долей (37-38 %) достигается в 5 дециле. Доля собственников без обременения на жилье, начиная с 3 дециля, при росте уровня дохода падает ~ 1.5 % на дециль, за исключением последней группы с наибольшими доходами.
Влияние социальных факторов на вид права собственности на жилье
Рассмотрим три типа семей
- Оба супруга работают или являются военнослужащими
- Только муж работает или является военнослужащим, жена не работает и не ищет работу
- Только жена работает или является военнослужащей, муж не работает и не ищет работу
Ранее мы разделили всю целевую аудиторию на децили по уровню дохода домохозяйств за год. Рассмотрим распределение уровней доходов каждого из этих классов семей по полученным границам найденных децилей.
Как и ожидалось, доход семьей, в которых работают оба супруга, имеет значительное смещение к верхним децилям. На основании предыдущих сведений можно предположить, что доля семей этого класса, которые арендуют жильё, меньше средних цифр по всей стране. Так и есть, меньше почти в два раза
Как видим, семьи, в которых работает только жена, а муж не работает и не ищет работу, менее состоятельны по сравнению с семьями, где работают оба супруга. Верно ли, что доля семей, которые арендуют жилье, в классе, где работает только жена, больше, чем доля арендаторов в семьях с обоими работающими супругами? Оказывается нет.
Убедимся, что средняя величина доходов на человека за год, в семьях, в которых работают оба супруга превосходит таковую для остальных двух классов семей. График ниже показывает диапазон среднего дохода на человека в первых трёх квартилях.
А теперь посмотрим на распределение долей видов права собственности в этих классах по квартилям доходов всех домохозяйств.
В каждой группе одного уровня доходов семьи, в которых работает только жена, имеют самую низкую долю арендаторов жилья. Покажем, что эти различия статистически значимые. Для этого задаем дизайн исследования. После этого находим логистическую регрессию вида
Получаем следующую таблицу коэффициентов моделей с величинами стандартных отклонений и p.value значениями
То есть во всех четырех случаях коэффициент B_2 значимо отличается от 0. Для линейной комбинации коэффициентов B_2 — B_1, использую тест Вальда, можно показать, что коэффициент B_2 значимо меньше коэффициента B_1 во всех четырех случаях.
Это доказывает наше предположение о том, что семьи, где работает лишь супруга, реже арендуют жилье, чем остальные два класса семей. Можно показать, что образовавшаяся разница уходит на долю семей, которые имеют свое собственное жилье без ограничения права собственности на него.
Те, кто заинтересовался, могут пройти по этой ссылке на kaggle, где размещены полноценные Google Charts с элементами управления и тултипами, код всех вычислений на языке R и дополнительные сведения и графика.