Comparative Study of Single Linkage, Complete Linkage, and Ward Method of Agglomerative Clustering

Makalah ini mengaplikasikan agglomerative clustering untuk pengelompokan artikel berita berbahasa Indonesia untuk sistem aggregator berita. Agglomerative clustering merupakan teknik clustering hirarki dengan keunggulan jumlah cluster tidak perlu ditentukan, dan kualitas cluster tidak bergantung pada inisialisasi awal anggota cluster. Empat linkage diimplementasikan yaitu single linkage, complete linkage, average linkage, dan average-group linkage. Clustering dilakukan dengan menggunakan fitur leksikal, pembobotan term-frequency inverse document-frequency (tf.idf), cosine similarity, dan minimum anggota cluster adalah tiga. Dengan menggunakan 104 artikel berbahasa Indonesia yang telah dilabeli, kualitas cluster terbaik dihasilkan agglomerative clustering dengan menggunakan complete linkage dan kemiripan minimum 0.3 (purity rata-rata 0.888 dan lima cluster) dan 0.4 (purity rata-rata 0.938 dan empat cluster). Hasil eksperimen juga menunjukkan bahwa complete linkage menghasilkan purity rata-rata terbaik dan konsisten dibandingkan jenis linkage lainnya, dan nilai purity akan semakin tinggi jika parameter min_sim diperbesar, tetapi hal tersebut menyebabkan jumlah cluster yang dihasilkan semakin kecil.

Download Full-text

Perbandingan Metode Single Linkage, Complete Linkage Dan Average Linkage dalam Pengelompokan Kecamatan Berdasarkan Variabel Jenis Ternak Kabupaten Sidoarjo

Jurnal INFORM ◽

10.25139/inform.v4i2.1696 ◽

2019 ◽

Vol 4 (2) ◽

Author(s):

Sulthan Fikri Mu'afa ◽

Nurissaidah Ulinnuha

Keyword(s):

Farm Animals ◽

Single Linkage ◽

Daily Lives ◽

Food Ingredients ◽

Complete Linkage ◽

Material Sources ◽

Average Linkage ◽

Linkage Method ◽

Livestock Products ◽

Labor Resources

Livestock products are widely used by the community in their daily lives, for example as food ingredients, industrial material sources, labor resources, fertilizer sources and energy sources. This study aims to cluster livestock potential with data on livestock population in Sidoarjo Regency in 2017 with single linkage, complete linkage and average linkage method and comparing performance of the methods. In this cluster, the data will be grouped into 3 clusters. The results of the three clusters were obtained by sixteen sub-districts in the first cluster with the potential for low livestock and each one in the second and third clusters for single linkage and average linkage. While complete linkage obtained fifteen sub-districts in the first cluster with high potential for livestock, two sub-districts in the second cluster with the potential of medium livestock and one sub-district in the third cluster with the potential for high farm animals. In the comparison of the standard deviation ratio value, the smallest value of 0.222 is obtained by complete linkage, which shows that complete linkage is better than single linkage and average linkage in the case of subgrouping based on Sidoarjo regency livestock types.

Download Full-text

Cluster analysis of late Holocene pollen trends in Ontario

Canadian Journal of Botany ◽

10.1139/b91-219 ◽

1991 ◽

Vol 69 (8) ◽

pp. 1719-1730 ◽

Cited By ~ 21

Author(s):

Ian D. Campbell ◽

J. H. McAndrews

Keyword(s):

Cluster Analysis ◽

Geometric Mean ◽

Ice Age ◽

White Pine ◽

Single Linkage ◽

Complete Linkage ◽

Similarity Indices ◽

Species Abundances ◽

Climatic Cooling ◽

Past 1000 Years

Cluster analysis of Ontario pollen stratigraphies demonstrates similar regional successions during the past 1000 years. Seven character states qualitatively describe the behaviour of the pollen percentage trends for each taxon: 0, absent; 1, present with no visible trend but high noise; 2, rising through time; 3, falling through time; 4, rise–fall; 5, fall–rise; and 6, stable through time. The three similarity indices (S) used were of the form S equals the number of characters in agreement divided by the number of informative characters. The three clustering techniques used are single linkage, complete linkage, and unpaired weighted geometric mean analysis. Single linkage and unpaired weighted geometric mean analysis showed a north–south division with all three indices; complete linkage showed only rare local groupings with all three indices. The division between the two clusters falls just south of Lake Nipissing. All successions indicate climatic cooling; the clusters reflect southward movement of the centres of species abundances, particularly white pine. The method identifies regions of similar vegetation dynamics. Key words: cluster analysis, forest dynamics, Holocene, Little Ice Age, Ontario, palynology.

Download Full-text

Взаимодействие Excel и статистического пакета R для обработки данных в экологии

Вестник Института биологии Коми НЦ УрО РАН ◽

10.31140/j.vestnikib.2016.3(197).4 ◽

2018 ◽

pp. 26-33 ◽

Cited By ~ 2

Author(s):

А. Б. Новаковский

Keyword(s):

Microsoft Excel ◽

Single Linkage ◽

Complete Linkage

В статье дается описание надстройки ExcelToR, разработанной для совместного использования Microsoft Excel и статистического пакета R. Microsoft Excel используется для ввода, хранения иподготовки данных для анализа, программа статистической обработки данных R – в качестве вычислительного «ядра». Базовые функции взаимодействия Excel и R через XML файлы стандартизованы и унифицированы, что позволяет в течение короткого времени реализовывать и/или модернизировать необходимые алгоритмы анализа и визуализации данных. В настоящее время в модуле ExcelToR реализованы следующие алгоритмы обработки данных: кластерный анализ (Single-linkage clustering и Complete-linkage clustering, Ward’s method, UPGMA), ординация методом главных компонент и неметрическое многомерное шкалирование, построение теплокарт.

Download Full-text

PENCARIAN CLUSTER OPTIMUM PADA SINGLE LINKAGE, COMPLETE LINKAGE DAN AVERAGE LINKAGE

Bimaster : Buletin Ilmiah Matematika, Statistika dan Terapannya ◽

10.26418/bbimst.v8i3.33173 ◽

2019 ◽

Vol 8 (3) ◽

Author(s):

Nur Asiska, Neva Satyahadewi, Hendra Perdana

Keyword(s):

Global Optimum ◽

Single Linkage ◽

Complete Linkage ◽

Average Linkage

Analisis cluster merupakan teknik multivariat yang digunakan untuk mengelompokkan objek/kasus (responden) menjadi kelompok-kelompok yang lebih kecil dimana setiap kelompok berisi objek/kasus yang mirip satu sama lain. Dalam analisis cluster dua prosedur yang digunakan untuk pengelompokan yaitu analisis cluster hierarki dan non-hierarki. Penentuan jumlah cluster optimum yang tepat untuk digunakan diperoleh melalui identifikasi pola pergerakan varian pada cluster yang mencapai global optimum. Penemuan posisi cluster yang mencapai global optimum pada pola pergerakan varian diperoleh melalui penerapan metode valley-tracing. Pada penelitian, digunakan penerapan analisis cluster hierarki untuk mengelompokkan kabupaten/kota di Kalimantan Barat berdasarkan indikator IPM. Dari hasil analisis pembentukan cluster optimum pada metode single linkage diperoleh cluster optimum sebanyak 4 cluster. Pada metode complete linkage diperoleh cluster optimum sebanyak 5 cluster. Metode average linkage menghasilkan cluster optimum sebanyak 5 cluster Kata Kunci : Analisis Multivariat, Analisis Cluster, Cluster Optimum

Download Full-text

PENGELOMPOKAN DESA/KELURAHAN DI KOTA DENPASAR MENURUT INDIKATOR PENDIDIKAN

E-Jurnal Matematika ◽

10.24843/mtk.2016.v05.i02.p119 ◽

2016 ◽

Vol 5 (2) ◽

pp. 38

Author(s):

NI WAYAN ARIS APRILIA A.P ◽

I GUSTI AYU MADE SRINADI ◽

KARTIKA SARI

Keyword(s):

Cluster Analysis ◽

Data Analysis ◽

The Other ◽

Single Linkage ◽

Complete Linkage ◽

Hierarchical Method ◽

Average Linkage ◽

Different Characteristics

Cluster analysis is one of data analysis used to classify objects in clusters which has objects with the same characteristics, whereas the other cluster has different characteristics. One part of the method of analysis cluster is hierarchy method. In a hierarchical method there are methods of linkage in the form of incorporation. Generally, methods of linkage is divided into 5 methods: single linkage, complete linkage, average linkage, Ward and centroid. The purpose of this study was to determine the best method of linkage among the method of single linkage, complete linkage, average linkage, and Ward, using Euclidean and Pearson proximity distance. Base on the smallest value of CTM (Cluster Tightness Measure), the best method of linkage as a result of this research was average linkage in Pearson distance.

Download Full-text

Analisa Hasil Pengelompokan Wilayah Kejadian Non-Kebakaran Menggunakan Agglomerative Hierachical Clustering di Semarang

Jurnal Tekno Kompak ◽

10.33365/jtk.v15i2.1166 ◽

2021 ◽

Vol 15 (2) ◽

pp. 63

Author(s):

Desy Exasanti ◽

Arief Jananto

Keyword(s):

Hierarchical Clustering ◽

Manhattan Distance ◽

Agglomerative Hierarchical Clustering ◽

Single Linkage ◽

Bottom Up ◽

Environment Analysis ◽

Complete Linkage ◽

Average Linkage

Abstrak−Klasterisasi merupakan metode pengelompokan dari data yang sudah diketahui label kelasnya untuk menemukan klaster baru dari hasil observasi. Dalam klasterisasi banyak metode yaitu metode terpusat, hirarki, kepadatan dan berbasis kisi, namun dalam penelitian yang dilakukan ini dipilih metode berbasis hirarki. Metode hirarki ini bekerja melakukan pengelompokan objek dengan membentuk hirarki klaster namun bukan berarti selalu digambarkan dengan hirarki dalam organsasi. Dipilihnya Agglomerative Hierarchical Clustering dimana merupakan jenis dari bawah ke atas atau biasa disebut (bottom-up) dalam metode ini objek yang akan diuji dianggap sebagai objek tunggal sebagai klaster dan lalu dilakukan iterasi untuk menemukan klaster-klaster yang lebih besar. Data yang akan digunakan adalah data non-kebakaran pada Dinas Pemadam Kebakaran Kota Semarang ynng mana akan dilakukan pengelompokan wilayah penanganan non-kebakaran. Dinas Pemadam Kebakaran melakukan penanganan bukan hanya kebakaran saja namun ada banyak hal yang sebenarnya dapat ditangani oleh petugas pemadam kebakaran, kejadian non-kebakaran ada beberapa seperti evakuasi reptil, evakuasi kucing, penyelamatan korban kecelakaan dan lain sebagainya. Dari data non-kebakaran dari 16 kecamatan di Kota Semarang pada tahun 2019 akan dilakukan uji menggunakan tiga algoritma yaitu Single Lingkage, Average Linkage dan Complete Linkage . Adapun dari algoritma Single Linkage dilakukan prosedur pemusatan dari jarak terkecil antar objek data, algoritma Average Linkage dilakukan prosedur dari jarak rata-rata objek data, sedangkan jika algoritma Complete Linkage dilakukan prosedur pemusatan dari jarak yang terbesar. Implementasi dan visualiasi dari data uji coba yang dilakukan di penilitian ini menggunakan tools WEKA 3.8.4, Wakaito Environment Analysis for Knowledge atau yang biasa dikenal dengan WEKA ini merupakan software yang menggunakan bahasa pemrograman java. Dari dataset 380 data diambil sampel 100 data untuk diuji mengunakan WEKA menggunakan metode perhtungan jarak Manhattan Distance dengan 3 cluster. Hasil dari data uji coba dapat divisualisasikan dengan visualisasi dendogram pada fitur visualize tree dan jika dilakukan visualisasi dalam bentuk grafik dapat dilakukan menggunakan fitur visualize clusters assignment.

Download Full-text

Klasszikus klaszterező algoritmusok módosítása körút alapon

Multidiszciplináris Tudományok ◽

10.35925/j.multi.2021.4.9 ◽

2021 ◽

Vol 11 (4) ◽

pp. 81-86

Author(s):

Anita Agárdi

Keyword(s):

Single Linkage ◽

Complete Linkage ◽

Average Linkage

Jelen cikkben a klasszikus klaszterező algoritmusok egy módosítását mutatom be. A cikkben egy olyan módszert mutatok be, amellyel a klaszterező algoritmusok maguk határozzák meg a klaszterhatárokat, azt, hogy hány csoportra bontsák az adatsor elemeit. A klaszterezés egy olyan adatbányászati módszer, ahol az egymással hasonló elemek azonos klaszterbe, míg az egymástól különböző elemek külön klaszterbe kerülnek. Jelen cikkben egy partíciós algoritmust (K-Means) és a hierarchikus módszereket (Single Linkage, Complete Linkage, Average Linkage, Ward, Centroid) mutatom be. A futási eredmények azt mutatják, hogy a klaszterezési algoritmusoknak többé-kevésbé sikerült kialakítaniuk a klasztereket anélkül, hogy bemenetként a klaszterszámot várnánk.

Download Full-text