Вторник 11.12. Кирилл Симонов (Университет Бергена): "Параметризованная сложность задачи k-means"

Speaker: 
Кирилл Симонов (Университет Бергена)
Date: 
Tuesday, December 11, 2018 - 02:00
Place: 
ауд. 106
Abstract: 

k-means кластеризация -- это следующая задача: по данным n точкам в $R^d$ найти k центров кластеров так, чтобы минимизировать сумму расстояний от точек до ближайших к ним центрам кластеров. Задача получила широкую известность благодаря применениям в data mining, и в особенности эвристическому алгоритму Ллойда. Известно, что найти
оптимальную кластеризацию NP-трудно даже при d=2 или k=2, в то же время существует алгоритм со временем работы $n^{O(dk)}$. Мы впервые рассматриваем задачу k-means с точки зрения параметризованной сложности, где целью является либо нахождение алгоритма со временем
работы $f(t)n^{O(1)}$ для некоторого параметра задачи t, либо доказательство невозможности его существования при условии FPT≠W[1]. Рассматриваемые нами параметры для k-means -- это k, d и искомое расстояние D (при условии, что входные данные целочисленные).

Используя алгоритм для быстрого нахождения подгиперграфа с малым fractional cover number, мы получаем FPT-алгоритм по D для $L_1$-расстояния. Интересно, что в случае расстояния в $L_2$ задача ощутимо труднее — мы показываем, что одна из подзадач, возникающая в нашем алгоритме, является здесь W[1]-трудной. Мы также обобщаем эти результаты на $L_p$ для остальных значений p, и даем нижние оценки для некоторых комбинаций параметров в экстремальных случаях $L_0$ and $L_\infty$. Отдельный интерес может представлять набор используемых нами сведений, позволяющих представить стандартные комбинаторные задачи на графах как геометрические задачи кластеризации.