Электронный архив НГУ

Выявление дубликатов в разнородных библиографических источниках

Показать сокращенную информацию

dc.contributor.author Рубцов, Д. Н.
dc.contributor.author Барахнин, В. Б.
dc.date.accessioned 2015-03-04T11:49:23Z
dc.date.available 2015-03-04T11:49:23Z
dc.date.issued 2009
dc.identifier.citation Рубцов Д. Н., Барахнин В. Б. Выявление дубликатов в разнородных библиографических источниках // Вестник НГУ. Серия: Информационные технологии. 2009. Т. 7. Вып. 3. С. 86-93. - ISSN 1818-7900. ru_RU
dc.identifier.issn 1818-7900
dc.identifier.uri https://lib.nsu.ru/xmlui/handle/nsu/7131
dc.description.abstract When performing queries to multiple heterogen eous bibliographic sources the p roblem of repetitive records arises. The problems appearing in the process of de tection of fuzzy match between two records are analyzed in this paper. The existing methods and algorithms of duplicate elimination and in particular the approaches to determination and calculation of string similar ity function are considered. Taking into account the requirements of the concrete task of mo dernization of the information system «Mathematicians of SB RAS» the solution method was realized based on the use of longest common subsequence as string similarity function. The proposed method was tested on three SB RAS databases – Database of publications of Journal «Computational Technologies», Database of publications of employees of The Institute of Computational Technologies SB RAS and Database of publications of «Web-resources of the mathematical content». The method showed high efficiency on results of the testing and was applied for the information system «Mathematicians of SB RAS» and the integrated system of remote access to the heterogenous bibliographic resources which is being developed at the present moment. en_EN
dc.description.abstract При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк. С учетом требований конкретной задачи – усовершенствования информационной системы «Научные сотрудники – математики СО РАН» – реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала «Вычислительные технологии», Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы «Web-ресурсы математического содержания». По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы «Научные сотрудники – математики СО РАН» и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики. ru_RU
dc.description.sponsorship Работа выполнена при частичной поддержке РФФИ (проекты No 07-07-00271, 08-07-00229, 09-07-00277), президентской программы «Ведущие научные школы РФ» (грант No НШ-931.2008.9) и интеграционных проектов СО РАН. ru_RU
dc.language.iso ru ru_RU
dc.publisher Новосибирский государственный университет ru_RU
dc.subject нечеткое соответствие ru_RU
dc.subject мера сходства ru_RU
dc.subject выявление дубликатов ru_RU
dc.title Выявление дубликатов в разнородных библиографических источниках ru_RU
dc.title.alternative Duplicate detection in heterogenous bibliographic sources en_EN
dc.type Article ru_RU


Файлы в этом документе

Данный элемент включен в следующие коллекции

Показать сокращенную информацию