Perbandingan Ukuran Jarak pada Analisis Kluster Hirarki

Authors

  • Muh. Zarkawi Yahya Universitas Tadulako
  • Sitti Nurhaliza Universitas Tadulako
  • Morina A Fathan Universitas Tadulako
  • Muhammad Edy Rizal Universitas Tadulako
  • Andi Harismahyanti A Universitas Tadulako

DOI:

https://doi.org/10.59632/leibniz.v5i02.538

Keywords:

Analisis Klaster, Data Kategorik, IFLS 5, Hierarchical Clustering, Ukuran Jarak

Abstract

Analisis klaster merupakan salah satu metode statistik untuk mengelompokkan objek berdasarkan kemiripan. Pada data kategorik, pemilihan ukuran jarak menjadi aspek penting karena memengaruhi struktur dan interpretasi klaster yang terbentuk. Penelitian ini bertujuan untuk membandingkan performa enam ukuran jarak Gower, Goodall1, Goodall2, Goodall3, Goodall4, dan Anderberg dalam analisis klaster hierarki menggunakan data kategorik dari Indonesian Family Life Survey (IFLS-5). Metode yang digunakan adalah hierarchical agglomerative clustering, dengan tahap awal pembersihan data dan konversi ke tipe faktor agar sesuai dengan karakteristik pengukuran jarak kategorik. Evaluasi hasil klaster dilakukan dengan dua indeks validasi internal, yaitu Silhouette dan Dunn, serta metrik eksternal Adjusted Rand Index (ARI) untuk menilai stabilitas klaster melalui proses bootstrapping. Ketiga metrik tersebut digunakan secara komplementer: Silhouette mengevaluasi konsistensi lokal anggota klaster (dengan nilai ? 0.5 umumnya dianggap baik), Dunn mengukur pemisahan antar-klaster secara global (semakin tinggi semakin baik), sementara ARI menunjukkan konsistensi struktur klaster terhadap variasi data (nilai mendekati 1 menunjukkan stabilitas tinggi). Hasil menunjukkan bahwa setiap ukuran jarak menghasilkan struktur klaster yang berbeda. Di antara semua ukuran yang diuji, Goodall4 memberikan hasil terbaik karena membentuk klaster yang mudah diinterpretasikan, memiliki nilai indeks Silhouette dan Dunn yang relatif tinggi, serta skor ARI mendekati sempurna. Hal ini mengindikasikan bahwa Goodall4 merupakan alternatif yang layak direkomendasikan dalam kasus serupa.

Downloads

Download data is not yet available.

References

Adha, M. F., Septian, M., Prananda, P. G. A., & FeryHerdiatmoko, H. (2025). Analisis Hierarchical Clustering pada Volume Trading disetiap Narrative Crypto Menggunakan Data Dune Analytics untuk Investasi Berbasis Data. Jurnal Teknik Informatika Kaputama (JTIK), 9(1), 1–10.

Aditya, A., Nurina Sari, B., Nur Padilah, T., Sitasi, C., Aditya, A., Sari, B. N., Padilah, T., & pengukuran jarak Euclidean dan Gower, P. (2021). Perbandingan pengukuran jarak Euclidean dan Gower pada klaster k-medoids. Jurnal Teknologi dan Sistem Komputer, 9(1), 1–7. https://doi.org/10.14710/jtsiskom.2021.13747

Alamtaha, Z., Djakaria, I., & Yahya, N. I. (2023). Implementasi Algoritma Hierarchical Clustering dan Non-Hierarchical Clustering untuk Pengelompokkan Pengguna Media Sosial. ESTIMASI: Journal of Statistics and Its Application, 4(1), 33–34. https://doi.org/10.20956/ejsa.vi.24830

Dinh, T., Hauchi, W., Fournier-Viger, P., Lisik, D., Ha, M.-Q., Dam, H.-C., & Huynh, V.-N. (2024). Categorical data clustering: 25 years beyond K-modes. arXiv preprint, 272, Article 126608. https://doi.org/10.48550/arXiv.2408.17244

Fadilah, Z. R., & Wijayanto, A. W. (2023a). Penggunaan jarak Gower pada analisis klaster untuk data campuran. Jurnal Statistika Terapan, 15(2), 120–134.

Fadilah, Z. R., & Wijayanto, A. W. (2023b). Perbandingan Metode Klasterisasi Data Bertipe Campuran: One-Hot-Encoding, Gower Distance, dan K-Prototype Berdasarkan Akurasi (Studi Kasus: Chronic Kidney Disease Dataset). Journal of Applied Informatics and Computing, 7(1), 57–67. https://doi.org/10.30871/jaic.v7i1.5857

Gheorghe, G. (2023). Cluster analysis methods in public health research: A European perspective. International Journal of Health Data Science, 5(2), 101–117.

Johnson, R. A. (1982). Applied Multivariate Statistical Analysis (SIXTH EDIT). Upper Saddle River.

Laksono, B. (2024). Model pengelompokan pasien COVID-19 berdasarkan kondisi klinis di Indonesia. Jurnal Informatika Medis, 14(2), 88–103.

Liu, P., Yuan, H., Ning, Y., Chakraborty, B., Liu, N., & Peres, M. A. (2024). A modified and weighted Gower distance-based clustering analysis for mixed type data: a simulation and empirical analyses. BMC Medical Research Methodology, 24(1). https://doi.org/10.1186/s12874-024-02427-8

Liu, S., Zhang, H., & Liu, X. (2021). A study on two-stage mixed attribute data clustering based on density peaks. International Arab Journal of Information Technology, 18(5), 634–643. https://doi.org/10.34028/iajit/18/5/2

Mayola, L. (2025). Data-driven approaches for health policy: Evidence from cluster-based analysis in Southeast Asia. Southeast Asian Journal of Public Health, 7(1), 12–27.

Mukhtar, M., Ali, M. K. M., Arina, F., Wicaksono, A. S., Ikhsan, A., Budiaji, W., Abdullah, S., Pertiwi, D. D. A., Zidny, R., Oktarisa, Y., & Sukarna, R. H. (2024). Hierarchical clustering algorithm-dendogram using Euclidean and Manhattan distance. Teknika: Jurnal Sains dan Teknologi, 20(01), 98–104.

Pansris, B. (2024). Penerapan analisis klaster dalam segmentasi perilaku kesehatan masyarakat. Jurnal Statistika dan Kesehatan, 12(1), 55–70.

Prabowo, R. A., Nisa, K., Faisol, A., & Setiawan, E. (2020). Simulasi Pemilihan Metode Analisis Cluster Hirarki Agglomerative Terbaik Antara Average Linkage Dan Ward Pada Data Yang Mengandung Masalah Multikolinearitas. Jurnal Siger Matematika, vol.1(No.2), 49–55.

Rios, julio rivera, Martinez, C., & Delgado, P. A. (2021). Binary transformations and loss of structure in categorical clustering. Computational Social Science Review, 6(3), 142–156.

Sha, X., Ma, Z., Sethuvenkatraman, S., & Li, W. (2023). A new clustering method with an ensemble of weighted distance metrics to discover daily patterns of indoor air quality. Journal of Building Engineering, 76(April), 107289. https://doi.org/10.1016/j.jobe.2023.107289

Spada, F., Caruso, R., Notarnicola, I., Belloni, S., Maria, M. De, & Duka, B. (2025). Analyzing readiness for interprofessional education among health program students using hierarchical clustering. Journal of Interprofessional Care, 39(3), 1–8. https://doi.org/https://doi.org/10.1080/13561820.2025.2452973

Šulc, Z. (2015). Application of Goodall’s and Lin’s similarity measures in hierarchical clustering. Prací účastníků vědecké konference doktorského studia Fakulta informatiky a statistiky, February, 112. https://www.researchgate.net/publication/286928130

Sulc, Z., & Řezanková, H. (2019). Comparison of Similarity Measures for Categorical Data in Hierarchical Clustering. Journal of Classification, 36(1), 58–72. https://doi.org/10.1007/s00357-019-09317-5

Wala, J. (2024). Penggunaan analisis klaster untuk perumusan kebijakan imunisasi di daerah terpencil. Jurnal Informatika Medis, 10(1), 33–49.

Warrens, M. J., & Hoef, M. van der. (2022). Understanding the Adjusted Rand Index and Other Partition Comparison Indices Based on Counting Object Pairs. Journal of Classification, 39(3), 487–509.

Published

2025-07-03

How to Cite

Perbandingan Ukuran Jarak pada Analisis Kluster Hirarki. (2025). Leibniz: Jurnal Matematika, 5(02), 93-111. https://doi.org/10.59632/leibniz.v5i02.538