scholarly journals A Single Core Hardware Module of a Data Compression Scheme Using Prediction by Partial Matching Technique

2011 ◽  
Vol 8 (11) ◽  
pp. 1169-1175
Author(s):  
Jalil
Author(s):  
И.В. Селиванова ◽  
I.V. Selivanova ◽  
Д.В. Косяков ◽  
D.V. Kosyakov ◽  
А.Е. Гуськов ◽  
...  

Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.


2009 ◽  
Vol 31 (10) ◽  
pp. 1826-1834 ◽  
Author(s):  
Wen-Fa ZHAN ◽  
Hua-Guo LIANG ◽  
Feng SHI ◽  
Zheng-Feng HUANG

Sign in / Sign up

Export Citation Format

Share Document