Новый подход к тематическому моделированию: от пространства документов к пространству терминов

Author(s):  
Магнус САЛЬГРЕН

Исследовательские институты Швеции, г. Стокгольм, Швеция В статье рассматривается проблема опоры на документы как базовое понятие для определения взаимодействий термина в стандартных тематических моделях. В качестве альтернативы этой практики мы переформулируем распределения тем в латентные факторы в пространстве сходства терминов. Поясняется идея использования ряда стандартных векторных представлений слов путем построения очень широких окон контекстов. Пространства векторных представлений трансформируются в редкие пространства сходства, а темы извлекаются стандартным способом, перенося факторизацию на пространство заметно меньшего размера. Используется ряд разных способов факторизации и оцениваются различные модели с применением широкого спектра оценочных показателей, включая ранее опубликованные измерения когерентности, а также новые измерения, которые, предположительно, лучше отвечают применениям тематических моделей в реальном мире. Результаты однозначно отражают, что в большинстве случаев модели на основе терминов превосходят стандартные модели на основе документа.

Sign in / Sign up

Export Citation Format

Share Document