Penerapan K-Means Clustering dalam Analisis URL Phishing untuk Identifikasi Risiko Keamanan Menggunakan Model PCA
DOI:
https://doi.org/10.30872/atasi.v4i2.2887Keywords:
Clustering, K-Means, Machine Learning, PCA, PhisingAbstract
Phishing merupakan ancaman siber yang terus berkembang, dan metode deteksi berbasis daftar hitam memiliki keterbatasan signifikan dalam mengidentifikasi situs phishing baru. Penelitian ini menerapkan K-Means Clustering untuk mengelompokkan URL phishing berdasarkan karakteristiknya, menggunakan dataset PhiUSIIL Phishing URL dengan 235.795 sampel. Melalui preprocessing data yang komprehensif, analisis jumlah klaster optimal menggunakan Silhouette Score menghasilkan k = 2 dengan skor 0,972 pada pendekatan hibrid yang menggunakan fitur URLLength dan IsDomainIP. Hasil visualisasi melalui PCA dan t-SNE menunjukkan pemisahan klaster yang sangat jelas, mengonfirmasi bahwa kombinasi sederhana dari dua fitur dapat secara efektif membedakan URL phishing dari URL normal. Penelitian ini membuktikan bahwa K-Means Clustering menawarkan solusi yang lebih adaptif dibandingkan metode berbasis daftar hitam dalam deteksi phishing, dengan kemampuan mengenali pola serangan baru tanpa memerlukan data berlabel.
References
Saputro, I. A., Sugiarto, L., & Nugraha, F. S. (2024). Analisis Kesadaran Masyarakat Terhadap Bahaya Internet Phishing Menggunakan K-Means Clustering. STRING (Satuan Tulisan Riset Dan Inovasi Teknologi), 9(2), 139–146.
Windarni, V. A., Nugraha, A. F., Ramadhani, S. T. A., Istiqomah, D. A., Puri, F. M., & Setiawan, A. (2023). Deteksi Website Phishing Menggunakan Teknik Filter Pada Model Machine. Information System Journal (INFOS) |, 6(1), 39–43.
Dewi, S., & Pakereng, M. A. I. (2023). Implementasi Principal Component Analysis Pada K-Means Untuk Klasterisasi Tingkat Pendidikan Penduduk Kabupaten Semarang. JIPI (Jurnal Ilmiah Penelitian Dan Pembelajaran Informatika), 8(4), 1186–1195. https://doi.org/10.29100/jipi.v8i4.4101
Fatiha, M. R., Setiawan, I., Ikhsan, A. N., & Yunita, I. R. (2024). Optimisasi Sistem Deteksi Phishing Berbasis Web Menggunakan Algoritma Decision Tree. Jurnal Ilmiah IT CIDA : Diseminasi Teknologi Informasi, 10(2). Retrieved from https://www.kaggle.com
Tampinongkol, F. F., Kamila, A. R., Wardhana, A. cahya, Kusuma, A. W. C., & Revaldo, D. (2024). Implementation of Random Forest Classification and Support Vector Machine Algorithms for Phishing Link Detection. Journal of Informatics, Information System, Software Engineering and Applications (INISTA), 7(1), 127–137. https://doi.org/10.20895/INISTA.V7I1.1588
Foozy, C. F. M., Anuar, M. A. I., Maslan, A., Adam, H. A. M., & Mahdin, H. (2024). Phishing URLs Detection Using Naives Baiyes, Random Forest and LightGBM Algorithms. International Journal of Data Science, 5(1), 56–63.
Ghojogh, B., Ghodsi, A., Karray, F., & Crowley, M. (2022). Stochastic Neighbor Embedding with Gaussian and Student-t Distributions: Tutorial and Survey. Stochastic Neighbor Embedding with Gaussian and Student-t Distributions: Tutorial and Survey, 1–13. Retrieved from http://arxiv.org/abs/2009.10301
Guntara, M., & Lutfi, N. (2023). Optimasi Cacah Klaster pada Klasterisasi dengan Algoritma KMeans Menggunakan Silhouette Coeficient dan Elbow Method. JuTI “Jurnal Teknologi Informasi,” 2(1), 43. https://doi.org/10.26798/juti.v2i1.944
Gusthvi, W., Roza, A. A., & Allo, C. B. G. (2023). Perbandingan Metode Klasifikasi Decission Tree, Naive Bayes, K-Nearest-Neighbor, dan Logistic Regression pada Dataset Phishing. CENDERAWASIH Journal of Statistics and Data Science, 1. Retrieved from https://ejurnal.fmipa.uncen.ac.id/index.php/CJSDS
Kaspersky. (2024). Laporan Ancaman Siber di Indonesia 2024. Retrieved February 24, 2025, from https://www.antaranews.com/berita/4656245/kaspersky-deteksi-36-juta-ancaman-siber-lokal-di-indonesia-pada-2024
Mulyani, H., Setiawan, R. A., & Fathi, H. (2023). Optimization Of K Value In Clustering Using Silhouette Score (Case Study: Mall Customers Data). JOURNAL OF INFORMATION TECHNOLOGY AND ITS UTILIZATION, 6, 45–49.
Muriithi, N. M., & Karani, J. (2024). A Systematic Literature Review on Phishing Detection Model. International Journal of Computer and Information Technology, 13(2), 2279–0764. Retrieved from www.ijcit.com62
Pribadi, R. A., & Sulianta, F. (2024). Metode K-Means Clustering dalam Pengelompokan Penjualan Produk Indofood. 1–9.
Rahmah, S. A. (2024). Review Terbaru Tentang Klasterisasi Data Mining Menggunakan Metode K-Means: Tantangan Dan Aplikasi. Jurnal Teknologi Informasi, 5(2), 297–303. https://doi.org/10.46576/djtechno
Saputra, E. A., & Nataliani, Y. (2021). Analisis Pengelompokan Data Nilai Siswa untuk Menentukan Siswa Berprestasi Menggunakan Metode Clustering K-Means. Journal of Information Systems and Informatics, 3(3), 424–439. Retrieved from http://journal-isi.org/index.php/isi
Wijaya, A. T., & Subandi. (2024). Penerapan Metode Clustering Dengan Algoritma K-Means Pada Sistem Pendeteksi Pencucian Uang Perbankan Berbasis Web. SENAFTI (Seminar Nasional Mahasiswa Fakultas Teknologi Informasi), 3(2), 398–406.
Wang, Y., Huang, H., Rudin, C., & Shaposhnik, Y. (2021). Understanding How Dimension Reduction Tools Work: An Empirical Approach to Deciphering t-SNE, UMAP, TriMAP, and PaCMAP for Data Visualization. Journal of Machine Learning Research, 1–73. Retrieved from http://arxiv.org/abs/2012.04456
Downloads
Published
Issue
Section
License
Copyright (c) 2025 Adopsi Teknologi dan Sistem Informasi

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.










