Penerapan K-Means Clustering dalam Analisis URL Phishing untuk Identifikasi Risiko Keamanan Menggunakan Model PCA

Authors

DOI:

https://doi.org/10.30872/atasi.v4i2.2887

Keywords:

Clustering, K-Means, Machine Learning, PCA, Phising

Abstract

Phishing merupakan ancaman siber yang terus berkembang, dan metode deteksi berbasis daftar hitam memiliki keterbatasan signifikan dalam mengidentifikasi situs phishing baru. Penelitian ini menerapkan K-Means Clustering untuk mengelompokkan URL phishing berdasarkan karakteristiknya, menggunakan dataset PhiUSIIL Phishing URL dengan 235.795 sampel. Melalui preprocessing data yang komprehensif, analisis jumlah klaster optimal menggunakan Silhouette Score menghasilkan k = 2 dengan skor 0,972 pada pendekatan hibrid yang menggunakan fitur URLLength dan IsDomainIP. Hasil visualisasi melalui PCA dan t-SNE menunjukkan pemisahan klaster yang sangat jelas, mengonfirmasi bahwa kombinasi sederhana dari dua fitur dapat secara efektif membedakan URL phishing dari URL normal. Penelitian ini membuktikan bahwa K-Means Clustering menawarkan solusi yang lebih adaptif dibandingkan metode berbasis daftar hitam dalam deteksi phishing, dengan kemampuan mengenali pola serangan baru tanpa memerlukan data berlabel.

Author Biographies

  • Masna Wati, Mulawarman University

    Program studi Informatika

  • Haviluddin, Mulawarman University

    Program studi Informatika

References

Saputro, I. A., Sugiarto, L., & Nugraha, F. S. (2024). Analisis Kesadaran Masyarakat Terhadap Bahaya Internet Phishing Menggunakan K-Means Clustering. STRING (Satuan Tulisan Riset Dan Inovasi Teknologi), 9(2), 139–146.

Windarni, V. A., Nugraha, A. F., Ramadhani, S. T. A., Istiqomah, D. A., Puri, F. M., & Setiawan, A. (2023). Deteksi Website Phishing Menggunakan Teknik Filter Pada Model Machine. Information System Journal (INFOS) |, 6(1), 39–43.

Dewi, S., & Pakereng, M. A. I. (2023). Implementasi Principal Component Analysis Pada K-Means Untuk Klasterisasi Tingkat Pendidikan Penduduk Kabupaten Semarang. JIPI (Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika), 8(4), 1186–1195. https://doi.org/10.29100/jipi.v8i4.4101

Fatiha, M. R., Setiawan, I., Ikhsan, A. N., & Yunita, I. R. (2024). Optimisasi Sistem Deteksi Phishing Berbasis Web Menggunakan Algoritma Decision Tree. Jurnal Ilmiah IT CIDA : Diseminasi Teknologi Informasi, 10(2). Retrieved from https://www.kaggle.com

Tampinongkol, F. F., Kamila, A. R., Wardhana, A. cahya, Kusuma, A. W. C., & Revaldo, D. (2024). Implementation of Random Forest Classification and Support Vector Machine Algorithms for Phishing Link Detection. Journal of Informatics, Information System, Software Engineering and Applications (INISTA), 7(1), 127–137. https://doi.org/10.20895/INISTA.V7I1.1588

Foozy, C. F. M., Anuar, M. A. I., Maslan, A., Adam, H. A. M., & Mahdin, H. (2024). Phishing URLs Detection Using Naives Baiyes, Random Forest and LightGBM Algorithms. International Journal of Data Science, 5(1), 56–63.

Ghojogh, B., Ghodsi, A., Karray, F., & Crowley, M. (2022). Stochastic Neighbor Embedding with Gaussian and Student-t Distributions: Tutorial and Survey. Stochastic Neighbor Embedding with Gaussian and Student-t Distributions: Tutorial and Survey, 1–13. Retrieved from http://arxiv.org/abs/2009.10301

Guntara, M., & Lutfi, N. (2023). Optimasi Cacah Klaster pada Klasterisasi dengan Algoritma KMeans Menggunakan Silhouette Coeficient dan Elbow Method. JuTI “Jurnal Teknologi Informasi,” 2(1), 43. https://doi.org/10.26798/juti.v2i1.944

Gusthvi, W., Roza, A. A., & Allo, C. B. G. (2023). Perbandingan Metode Klasifikasi Decission Tree, Naive Bayes, K-Nearest-Neighbor, dan Logistic Regression pada Dataset Phishing. CENDERAWASIH Journal of Statistics and Data Science, 1. Retrieved from https://ejurnal.fmipa.uncen.ac.id/index.php/CJSDS

Kaspersky. (2024). Laporan Ancaman Siber di Indonesia 2024. Retrieved February 24, 2025, from https://www.antaranews.com/berita/4656245/kaspersky-deteksi-36-juta-ancaman-siber-lokal-di-indonesia-pada-2024

Mulyani, H., Setiawan, R. A., & Fathi, H. (2023). Optimization Of K Value In Clustering Using Silhouette Score (Case Study: Mall Customers Data). JOURNAL OF INFORMATION TECHNOLOGY AND ITS UTILIZATION, 6, 45–49.

Muriithi, N. M., & Karani, J. (2024). A Systematic Literature Review on Phishing Detection Model. International Journal of Computer and Information Technology, 13(2), 2279–0764. Retrieved from www.ijcit.com62

Pribadi, R. A., & Sulianta, F. (2024). Metode K-Means Clustering dalam Pengelompokan Penjualan Produk Indofood. 1–9.

Rahmah, S. A. (2024). Review Terbaru Tentang Klasterisasi Data Mining Menggunakan Metode K-Means: Tantangan Dan Aplikasi. Jurnal Teknologi Informasi, 5(2), 297–303. https://doi.org/10.46576/djtechno

Saputra, E. A., & Nataliani, Y. (2021). Analisis Pengelompokan Data Nilai Siswa untuk Menentukan Siswa Berprestasi Menggunakan Metode Clustering K-Means. Journal of Information Systems and Informatics, 3(3), 424–439. Retrieved from http://journal-isi.org/index.php/isi

Wijaya, A. T., & Subandi. (2024). Penerapan Metode Clustering Dengan Algoritma K-Means Pada Sistem Pendeteksi Pencucian Uang Perbankan Berbasis Web. SENAFTI (Seminar Nasional Mahasiswa Fakultas Teknologi Informasi), 3(2), 398–406.

Wang, Y., Huang, H., Rudin, C., & Shaposhnik, Y. (2021). Understanding How Dimension Reduction Tools Work: An Empirical Approach to Deciphering t-SNE, UMAP, TriMAP, and PaCMAP for Data Visualization. Journal of Machine Learning Research, 1–73. Retrieved from http://arxiv.org/abs/2012.04456

Downloads

Published

26-09-2025

How to Cite

Penerapan K-Means Clustering dalam Analisis URL Phishing untuk Identifikasi Risiko Keamanan Menggunakan Model PCA. (2025). Adopsi Teknologi Dan Sistem Informasi (ATASI), 4(2). https://doi.org/10.30872/atasi.v4i2.2887