Сервер - статьи

       

Кластеризация транзакций


Основной областью применения для кластер-анализа в Web usage mining, является персонификация наполнения страниц. Пользователь распределяется в одну из категорий, после чего соответствующим образом изменяется выводимая для данного пользователя информация [9]. Еще одной традиционной для кластеризации областью применения является поддержка принятия решений [5].

В [10] кластеризация используется для автоматической модификации страниц. В данной работе особый интерес представляет выбор объекта кластеризации. Ее авторы предлагают не проводить разбиение по транзакциям. Отказ от традиционного подхода объясняется трудностями с выбором метрики, а также слишком большим количеством транзакций, относительно общего числа страниц. В этой работе используется метод ARHP. На первом этапе с помощью алгоритма нахождения ассоциативных правил выделяются группы страниц, к которым часто обращаются на протяжении одной транзакции. На втором полученные группы проецируются на ребра графа, и к графу применяется алгоритм кластеризации. При запросе пользователя, система размещает текущую транзакцию в один из заранее созданных кластеров. В зависимости от свойств данного кластера формируется результирующий список ссылок, интересных пользователю, который выводится на просматриваемой странице.

При применении кластеризации всегда требуется решить две различные проблемы: выбор метрики и выбор алгоритма. Основной проблемой при кластеризации транзакций является выбор метрики. По ряду причин классические евклидовы метрики оказываются неэффективными.

Можно попробовать сравнивать сеансы пользователей следующим образом. Поскольку количество страниц ограничено, представим все сессии как вектора одинаковой длины, где длина — общее количество анализируемых страниц, а значениями элементов будет Истина, если такая страница входит в сеансы — Ложь, если не входит. Используя подходящие методы кластеризации, при таком подходе можно добиться достаточно точных результатов (например, алгоритмы ROCK или CACTUS). Но при таком подходе теряется количество обращений к одной странице за время одной транзакции, также не учитывается последовательность посещения страниц.

Второй проблемой, сопряженной с выбором метрики, является нормализация транзакций. Достаточно часто приходится сравнивать между собой транзакции из двух-трех страниц, и транзакции длинной свыше 25 переходов. На данный момент работ, посвященных этой проблеме, нет. Следует отметить, что проблема нормализации данных отпадает при применении некоторых специальных метрик. Очень перспективно выглядит возможность изучения применимости для кластеризации транзакций метрики n-грамов, но на данный момент таких работ также нет.

Содержание раздела