Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?

Авторы

  • Светлана Васильевна Жучкова Национальный исследовательский университет «Высшая школа экономики» https://orcid.org/0000-0002-4425-725X
  • Алексей Николаевич Ротмистров Национальный исследовательский университет «Высшая школа экономики» https://orcid.org/0000-0003-2386-8710
  • Екатерина Алексеевна Шабанова Национальный исследовательский университет «Высшая школа экономики» https://orcid.org/0000-0002-6430-1297

DOI:

https://doi.org/10.14515/monitoring.2021.4.940

Ключевые слова:

категориальные данные, пропуски в данных, случайные пропуски, неслучайные пропуски, анализ полных наблюдений, метод индикаторной переменной, регрессионный анализ, статистический эксперимент, метод Монте-Карло, симуляция данных, смещение, coverage

Аннотация

Если в категориальном регрессоре есть пропущенные значения, то что лучше применить: анализ полных наблюдений или метод индикаторной переменной? Суть первого подхода состоит в исключении из анализа (в нашем случае — линейного регрессионного) наблюдений, содержащих пропуски хотя бы по одной из изучаемых переменных. Этот подход применяется по умолчанию во многих популярных приложениях, и, вопреки сложившимся представлениям о его ограниченности, все больше исследований подтверждают его универсальность — даже в случае неслучайных пропусков. Метод индикаторной переменной, при котором пропущенные значения заменяются на валидные, а в пару исходной переменной создается дополнительная индикаторная, выступает более новой альтернативой, которая, в отличие от первого подхода, позволяет использовать информацию из всех наблюдений и при этом, гипотетически, также не приводит к искажению изучаемых статистических параметров. Посредством статистического эксперимента на симулированных данных, контролируя механизм порождения пропусков, их долю и спецификацию регрессионной модели, мы сравниваем полученные на основе каждого из подходов статистические оценки регрессионных коэффициентов на предмет их искажений: смещения и неэффективности. Согласно результатам, оба подхода не приводят к заметному смещению, однако метод индикаторной переменной приводит к менее эффективной оценке.

Благодарность. Публикация подготовлена в ходе проведения исследования «Комплексное сравнение методов обработки пропущенных данных в социологических исследованиях» (№ 20-04-016) в рамках Программы «Научный фонд Национального исследовательского университета «Высшая школа экономики» (НИУ ВШЭ)» в 2020 г. и в рамках государственной поддержки ведущих университетов Российской Федерации «5–100».

Биографии авторов

Светлана Васильевна Жучкова, Национальный исследовательский университет «Высшая школа экономики»

  • Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
    • младший научный сотрудник, Центр социологии высшего образования

Алексей Николаевич Ротмистров, Национальный исследовательский университет «Высшая школа экономики»

  • Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
    • кандидат социологических наук, доцент кафедры методов сбора и анализа социологической информации

Екатерина Алексеевна Шабанова, Национальный исследовательский университет «Высшая школа экономики»

  • Национальный исследовательский университет «Высшая школа экономики», Москва, Россия
    • стажер-исследователь, Международная лаборатория прикладного сетевого анализа

Загрузки

Опубликован

2021-09-07

Как цитировать

Жучкова, С. В., Ротмистров, А. Н., & Шабанова, Е. А. (2021). Имеет ли метод индикаторной переменной преимущества перед анализом полных наблюдений при обработке пропусков в категориальных регрессорах?. Мониторинг общественного мнения: экономические и социальные перемены, (4). https://doi.org/10.14515/monitoring.2021.4.940

Выпуск

Раздел

Методы и методология

Наиболее читаемые статьи этого автора (авторов)