microbik.ru
1
АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ДОКУМЕНТОВ


В.Ю.Добрынин, И.Е.Кураленок
Санкт-Петербугский государственный университет
В последние годы все большее внимание привлекает задача автоматической классификации поступающих в систему документов по заранее определенным тематикам. Эта задача рассматривалась и в рамках проекта OASIS.

Тематика в OASIS определяется при помощи подготовки некоторого эталонного множества документов. Эти эталонные множества анализируются для того, чтобы построить описания тематик. Поступающие документы сравниваются с описаниями тематик и классифицируются согласно близости этим описаниям.

OASIS рассматривает документы как мультимножества входящих в него термов, поэтому за основную модель была взята булевская. В рамках экспериментов документ представялся как пересечение семантических полей его термов. Для получения этого представления использовалась функция семантической близости, которая любым двум словам сопоставляет вещественное значение, характеризующее смысловую близость этих термов. Эта функция строится по эталонным множествам документов, описывающим возможные тематики. По документам из всех эталонных множеств строится единая матрица, строки которой соответствуют всем встречающимся в этих документах термам, а столбцы документам. В качестве меры семантической близости двух слов рассматривается скалярное произведение соответствующих этим словам строк матрицы.

Из словарного запаса эталонного множества выбирается небольшое подмножество термов, объединение семантических полей которых наилучшим образом описывает тематику. Это множество термов и представляет собой описание коллекции. Эксперименты показывают, что для описания тематики вполне достаточно нескольких десятков термов (при общем словаре в десятки тысяч).

Для оценки близости документа описанию тематики использовался следующий подход. Для всех пар слов из описания тематики коллекции и словаря документа вычисляется их семантическая близость, которая затем усредняется. Полученный результат используется в качестве оценки близости документа тематике коллекции.

Экспериментальная проверка показала, что предложенный подход показывает значительно лучшие результаты, чем другие известные методы.