Локальные сети дружбы "ВКонтакте": восстановление пропущенных данных o городе проживания пользователей

Ключевые слова: анализ социальных сетей, онлайн-сообщества, ВКонтакте, топология сетей, большие данные, анализ данных в R, сетевая гомофилия, пропущенные данные

Аннотация

Социальные онлайн-сети, в частности, самая популярная российская сеть "ВКонтакте", являются источником большого количества доступной информации о пользователях благодаря политике открытости данных. Это дает исследователям возможность изучения топологии сетей взаимодействий, возникающих в онлайн-среде, с применением сетевого подхода (social network analysis). Однако личные данные, которые пользователи сообщают о себе в публичных профилях, зачастую неполны: люди могут по невниманию или умышленно пропускать заполнение тех полей в профиле, которые отражают их пол, возраст, город проживания и другие персональные данные. Эти характеристики играют большую роль при построении социальных сетей в качестве атрибутов "узлов" (то есть пользователей), что позволяет выделять кластеры схожих между собой агентов и их паттерны поведения. Отсутствие некоторых данных может существенно влиять на сетевые метрики (например, размер сети, среднюю длину пути между двумя участниками, распределение числа связей между ними и другие) и искажать полученные результаты. В связи с этим возникает потребность в восполнении пропущенной части данных. В статье представлен опыт создания и применения классификатора, который позволяет определить, является ли пользователь сети "ВКонтакте", не указавший в профиле место жительства, жителем конкретного города. Классификатор был создан и апробирован на примере сети пользователей из г. Ижевска. Он основан на методе дерева решений, которое поэтапно фильтрует аккаунты через ряд вопросов, а затем принимает решение, считать ли данный аккаунт профилем ижевчанина или нет. В статье объяснен выбор основных показателей, которые помогают классификатору определить город пользователя; описан алгоритм работы классификатора и показано, как изменяется топология сети, когда в нее добавляются пропущенные данные о городе проживания пользователей.

Опубликован
2018-07-10
Раздел
Теория, методология и методы
Аффилиации Казанский федеральный университет, Корпорация «Центр»