Pembelajaran Kompresi Text dengan Menggunakan Metode Shanon-Fano

Herry Sulendro Mangiri

doi:10.31331/joined.v1i1.621

Pembelajaran Kompresi Text dengan Menggunakan Metode Shanon-Fano

Joined Journal (Journal of Informatics Education) ◽

10.31331/joined.v1i1.621 ◽

2018 ◽

Vol 1 (1) ◽

pp. 44

Author(s):

Herry Sulendro Mangiri

Keyword(s):

Input Stream ◽

Partial Matching ◽

Run Length ◽

Prediction By Partial Matching

Kompresi merupakan proses pengubahan sekumpulan data menjadi suatu bentuk kode untuk menghemat kebutuhan tempat penyimpanan dan waktu untuk transmisi data. Saat ini terdapat berbagai tipe algoritma kompresi. Kompresi merupakan proses pengubahan sekumpulan data menjadi suatu bentuk kode untuk menghemat kebutuhan tempat penyimpanan dan waktu untuk transmisi data. Saat ini terdapat berbagai tipe algoritma kompresi, antara lain: Huffman, LIFO, LZHUF, LZ77 dan variannya (LZ78, LZW, GZIP), Dynamic Markov Compression (DMC), Block-Sorting Lossless, Run-Length, Shannon-Fano, Arithmetic, PPM (Prediction by Partial Matching), Burrows-Wheeler Block Sorting, dan Half Byte. Ada beberapa faktor yang sering menjadi pertimbangan dalam memilih suatu metode kompresi yang tepat, yaitu kecepatan kompresi, sumber daya yang dibutuhkan (memori, kecepatan PC), ukuran file hasil kompresi, besarnya redundansi, dan kompleksitas algoritma. Metode Shanon-fano yang di pergunakan dalam penulisan ini mengkompresi input stream dengan menggunakan sampel data teks yang berupa tulisan nama. Data teks awal dengan jumlah 176 bits, dengan menggunakan metode ini terdapat beberapa langkah yang di lakukan sehingga pada saat di lakukan kompresi akan menjadi berkurang jumlahnya menjadi 107 bits. Manfaat kompresi ini sama dengan jenis kompresi yang lain yaitu memudahkan dalam menyimpan file dan menghemat memory yang terdapat dalam komputer, sehingga memudahkan komputer dalam bekerja dan tidak membebani dalam pemrosesan data.

Download Full-text

Классификация научных текстов на основе компрессии аннотаций публикаций

Научно-техническая информация. Серия 2: Информационные процессы и системы ◽

10.36535/0548-0027-2019-12-4 ◽

2019 ◽

pp. 25-38

Author(s):

И.В. Селиванова ◽

I.V. Selivanova ◽

Д.В. Косяков ◽

D.V. Kosyakov ◽

А.Е. Гуськов ◽

...

Keyword(s):

Partial Matching ◽

Prediction By Partial Matching

Исследуется возможность установления смысловой близости научных текстов методом их автоматической классификации, основанным на сжатии аннотаций. Идея метода состоит в том, что алгоритмы компрессии типа PPM (prediction by partial matching) сжимают терминологически близкие тексты существенно лучше, чем далекие. Если для каждой классифицируемой тематики будет сформировано ядро публикаций (аналог обучающей выборки), то наилучшая доля сжатия будет указывать на принадлежность классифицируемого текста к соответствующей тематике. Было определено 30 тематических категорий, каждой из них в базе данных Scopus получены аннотации около 500 публикаций, из которых разными способами выбирались 100 аннотаций для ядра и 20 аннотаций для тестирования. Установлено, что построение ядра на основе высокоцитируемых публикаций выявляет до 12% ошибок против 32% при случайной выборке. На качество классификации влияет и изначальное количество категорий: чем меньше категорий участвует в классификации и чем больше терминологические различия между ними, тем выше её качество.

Download Full-text