Penerapan Klasifikasi Naive Bayes dengan Algoritma Random Oversampling dan Random Undersampling pada Data Tidak Seimbang Cervical Cancer Risk Factors

Authors

  • Jus Prasetya Universitas YPPI Rembang

DOI:

https://doi.org/10.59632/leibniz.v2i2.173

Keywords:

Machine learning, oversampling, naive bayes, AUC

Abstract

Machine learning adalah cabang ilmu komputer yang memanfaatkan pengalaman (peristiwa) pada masa lalu untuk dipelajari dan menggunakan pengetahuannya untuk membuat keputusan di masa depan. Pada machine learning, proses klasifikasi dilakukan untuk meminimalkan kesalahan klasifikasi maka dengan demikian akan memaksimalkan akurasi prediksi. Asumsi yang mendasari metode klasifikasi ini adalah bahwa data yang diteliti memiliki jumlah sampel yang seimbang setiap kelas yang tersedia. Random Oversampling adalah proses resamplingnya dengan cara memilih sampel dari kelas minoritas secara acak, sampel yang dipilih secara acak ini kemudian diduplikasi dan ditambahkan ke set pelatihan baru. Random Undersampling adalah proses resampling dengan sampel pada kelas mayoritas dalam set pelatihan dihilangkan secara acak sampai rasio antara kelas minoritas dan mayoritas berada pada tingkat yang diinginkan. Nilai AUC yang didapatkan pada klasifikasi naive bayes sebesar 0,5325 yang berarti klasifikasi gagal. Nilai AUC yang didapatkan pada klasifikasi random oversampling-naive bayes sebesar 0,62 yang berarti klasifikasi buruk. Nilai AUC yang didapatkan pada klasifikasi random undersampling-naive bayes sebesar 0,7013 yang berarti klasifikasi cukup baik.

References

Dangeti, Pratap. (2017). Statistics for Machine Learning. Mumbai: Packt Publishing Ltd.

Fallo, S. I. (2021). Support Vector Machine, Naive Bayes Classifier, dan Regresi Logistik Ordinal dalam Prediksi Cuaca (Doctoral dissertation, Universitas Gadjah Mada).

Fernandes, Kelwin.dkk. (2018). Supervised deep learning embeddings for the prediction of cervical cancer diagnosis. Portugal. PeerJ Computer Science.

Gorunescu, Florin. (2011). Data Mining: Concepts, Models, and Techniques. Romania: Springer.

Lopez, Victoria.dkk. (2013). An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics. Spain. Elsevier Ltd.

Osorio, J. Hoyos.dkk. (2021). Relevant information undersampling to support imbalanced data Classification. Colombia. Elsevier Ltd.

Rodríguez, Néstor.dkk. (2021). SOUL: Scala Oversampling and Undersampling Library for imbalance classification. Spain. Elsevier Ltd.

Suyanto. (2019). Data Mining untuk Klasifikasi dan Klasterisasi Data. Bandung: Penerbit Informatika.

Thabtah, Fadi.dkk. (2019). Data imbalance in classification : Experimental evaluation. New Zealand. Elsevier Ltd.

Zheng, Wanwan & Jin, Mingzhe Jin. (2020). The Effects of Class Imbalance and Training Data Size on Classifier Learning: An Empirical Study Springer Nature Singapore Pte Ltd

Published

2022-07-25

How to Cite

Penerapan Klasifikasi Naive Bayes dengan Algoritma Random Oversampling dan Random Undersampling pada Data Tidak Seimbang Cervical Cancer Risk Factors. (2022). Leibniz: Jurnal Matematika, 2(2), 11-22. https://doi.org/10.59632/leibniz.v2i2.173