Нечеткий кластерный анализ на примере социально-экономических показателей крупных городов России
Хабы: Алгоритмы, Data MiningВведение
Кластерный анализ — задача разбиения определенного множества объектов на группы, называемые кластерами так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Данный анализ предполагает следующие цели:
- Понимание данных путем выявления кластерной структуры.
- Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.
- Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.
В данной статье будет использоваться метод нечеткой кластеризации c-means. Отличительной особенностью нечеткой кластеризации является тот факт, что каждый объект может относиться к каждому кластеру с определенной степенью принадлежности.
Для анализа будут выбраны 17 крупнейших городов России по населению, в качестве характеристик выступают социально-экономические показатели (демография, занятость населения, зарплата, преступность и т.д.). Результатом будут являться полученные кластеры городов.
Читать дальше →
Полный текст статьи читайте на Habrahabr.ru