Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа

Ирина К. ЗАНГИЕВА; Елизавета С. ТИМОНИНА

Авторы

Ирина К. ЗАНГИЕВА National Research University «Higher School of Economics» https://orcid.org/0000-0001-5302-8101
Елизавета С. ТИМОНИНА National Research University «Higher School of Economics»

Ключевые слова:

пропуски в данных, неответ, алгоритмы заполнения пропусков, статистический эксперимент, bootstrap, бутстреп.

Аннотация

Статья посвящена описанию проведенного исследования, направленного на выявление наиболее эффективного алгоритма заполнения пропусков в данных для таких методов анализа, как регрессионное моделирование, факторный анализ, описательная статистика, расчет коэффициента корреляции. Ставится проблема неоднозначности выбора в каждой конкретной исследовательской ситуации алгоритма заполнения пропусков ввиду недостатка в современной науке обоснованных рекомендаций по их выбору. Авторы утверждают, что алгоритм заполнения пропусков должен быть отобран исходя из последующего метода анализа заполненных от пропусков данных. Другими словами, авторы полагают, что для каждого метода анализа данных эффективность одного и того же метода заполнения пропусков будет различна. Оценить эффективность нескольких алгоритмов заполнения для каждого метода анализа данных удалось с помощью статистического эксперимента. Суть статистического эксперимента заключалась в сравнении результатов применения каждого метода на эталонном (без пропусков) массиве с результатами, полученными на большом количестве искусственно созданных из исходного массива подвыборок, пропуски в которых были заполнены несколькими алгоритмами. Для статистической оценки генерация подвыборок была проведена с помощью процедуры bootstrap, что позволило оценить доверительные интервалы для каждого показателя до и после заполнения пропусков. В результате эксперимента удалось оценить эффективность таких алгоритмов заполнения пропусков, как заполнение мерами средней тенденции, ЕМ-алгоритм, заполнение с помощью регрессии и Hot Deck алгоритм для уже указанных методов анализа данных.

Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа

Авторы

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

Язык

Отправить материал

Информация

library_links

18age