О задании меры сходства для кластеризации текстовых документов

Барахнин, В.Б.; Нехаева, В.А.; Федотов, А.М.; Barakhnin, V. B.; Nehaeva, V. A.; Fedotov, A. M.

DSpace Home
→
Периодические издания
→
Вестник НГУ. Серия: Информационные технологии
→
Том 06 (2008)
→
IT Выпуск 1 (2008)
→
View Item

О задании меры сходства для кластеризации текстовых документов

Барахнин, В.Б.; Нехаева, В.А.; Федотов, А.М.; Barakhnin, V. B.; Nehaeva, V. A.; Fedotov, A. M.

URI: https://lib.nsu.ru/xmlui/handle/nsu/30

Date: 2008-06-11

Abstract:

В работе решается задача автоматизации процесса отбора текстовых документов научной тематики, которые могут представлять интерес для конкретного ученого-исследователя или группы совместно работающих исследователей. В качестве шкал для определения меры предлагается брать атрибуты библиографического описания документов (авторы, ключевые слова, аннотация). Значения весовых коэффициентов в формуле для вычисления меры сходства определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы. В качестве потенциально пригодных для решения поставленной задачи были проанализированы три классических метода кластеризации документов: кластеризация путем нахождения клик в полной матрице подобия документов, кластеризация по методу Роккио и метод, базирующийся на так называемом жадном алгоритме, а так-же новый алгоритм Н. Загоруйко, основанный на использовании функции конкурентного сходства (так называемой FRiS-функции). В ходе тестирования было выявлено, что оптимальным для данной задачи является FRiS-алгоритм, хотя приемлемые результаты дает и жадный алгоритм.

The problem of computerized selection of textual documents on scientific subjects is solved that could be of interest for an individual researcher or a research team. Attributes of bibliographical description (authors, keywords, abstract) are proposed to be used as scales for the measure determination. The values of weight coefficients in the formula for calculating the similarity measure are determined by the assumed a posteriori reliability of the respective scale data. Three classical document clusterization methods have been analysed in order to find the ones potentially feasible for the solution of the formulated problem: clusterization by finding cliques in the full matrix of documents similarity, clusterization by Rocchio method and the method based on the so-called greed algorithm as well as the new method suggested by N.Zagoruiko based on employing the function of a rival similarity (the so-called FRiS-function). Testing showed that FRiS algorithm proved to be the most efficient one for this problem although the greed algorithm also yields acceptable results.

Show full item record