Выявление дубликатов в разнородных библиографических источниках

Рубцов, Д. Н.; Барахнин, В. Б.

Главная
→
Периодические издания
→
Вестник НГУ. Серия: Информационные технологии
→
Том 07 (2009)
→
IT Выпуск 3 (2009)
→
Просмотр элемента

dc.contributor.author	Рубцов, Д. Н.
dc.contributor.author	Барахнин, В. Б.
dc.date.accessioned	2015-03-04T11:49:23Z
dc.date.available	2015-03-04T11:49:23Z
dc.date.issued	2009
dc.identifier.citation	Рубцов Д. Н., Барахнин В. Б. Выявление дубликатов в разнородных библиографических источниках // Вестник НГУ. Серия: Информационные технологии. 2009. Т. 7. Вып. 3. С. 86-93. - ISSN 1818-7900.	ru_RU
dc.identifier.issn	1818-7900
dc.identifier.uri	https://lib.nsu.ru/xmlui/handle/nsu/7131
dc.description.abstract	When performing queries to multiple heterogen eous bibliographic sources the p roblem of repetitive records arises. The problems appearing in the process of de tection of fuzzy match between two records are analyzed in this paper. The existing methods and algorithms of duplicate elimination and in particular the approaches to determination and calculation of string similar ity function are considered. Taking into account the requirements of the concrete task of mo dernization of the information system «Mathematicians of SB RAS» the solution method was realized based on the use of longest common subsequence as string similarity function. The proposed method was tested on three SB RAS databases – Database of publications of Journal «Computational Technologies», Database of publications of employees of The Institute of Computational Technologies SB RAS and Database of publications of «Web-resources of the mathematical content». The method showed high efficiency on results of the testing and was applied for the information system «Mathematicians of SB RAS» and the integrated system of remote access to the heterogenous bibliographic resources which is being developed at the present moment.	en_EN
dc.description.abstract	При запросах к нескольким разнородным библиографическим источникам возникает проблема выявления повторяющихся записей. В работе проанализированы проблемы, возникающие в процессе установления нечеткого соответствия между двумя записями. Рассмотрены существующие методы и алгоритмы решения задачи исключения дубликатов и, в частности, подходы к определению и вычислению функции похожести строк. С учетом требований конкретной задачи – усовершенствования информационной системы «Научные сотрудники – математики СО РАН» – реализован метод решения, основанный на использовании в качестве функции похожести наибольшей общей подпоследовательности двух строк. Метод был протестирован на трёх базах данных публикаций СО РАН – Базе данных публикаций журнала «Вычислительные технологии», Базе данных публикаций сотрудников Института вычислительных технологий СО РАН и Базе данных публикаций системы «Web-ресурсы математического содержания». По итогам проведённого тестирования метод продемонстрировал высокую эффективность работы и был применён для системы «Научные сотрудники – математики СО РАН» и разрабатываемой в данный момент интегрированной системы удалённого доступа к разнородным ресурсам библиографической тематики.	ru_RU
dc.description.sponsorship	Работа выполнена при частичной поддержке РФФИ (проекты No 07-07-00271, 08-07-00229, 09-07-00277), президентской программы «Ведущие научные школы РФ» (грант No НШ-931.2008.9) и интеграционных проектов СО РАН.	ru_RU
dc.language.iso	ru	ru_RU
dc.publisher	Новосибирский государственный университет	ru_RU
dc.subject	нечеткое соответствие	ru_RU
dc.subject	мера сходства	ru_RU
dc.subject	выявление дубликатов	ru_RU
dc.title	Выявление дубликатов в разнородных библиографических источниках	ru_RU
dc.title.alternative	Duplicate detection in heterogenous bibliographic sources	en_EN
dc.type	Article	ru_RU