Beberapa waktu lalu saya membaca sebuah jurnal yang menarik dari NTU Journal of Engineering and Technology (2025) 4(2): 1–10 dengan judul:
(DOI: 10.56286/ntujet.v4i2)
Nah, di artikel blog ini saya ingin sedikit berbagi isi jurnal tersebut, tapi dengan bahasa yang lebih ringan dan mudah dipahami. Jadi, bukan sekadar ringkasan kaku, tapi lebih ke “ini lho intinya, kenapa penting, dan apa yang bisa kita ambil”.
Sekarang, jaringan makin canggih — ada IoT (Internet of Things), CPS (Cyber-Physical System), MANET (Mobile Ad-hoc Network), sampai VANET (Vehicular Ad-hoc Network) buat komunikasi antar kendaraan. Keren kan? Tapi masalahnya, makin canggih jaringan, makin banyak juga serangan siber yang mengincar.
Bayangin aja, setiap hari muncul aja jenis serangan baru, bug baru, teknik peretasan baru. Di sinilah Intrusion Detection System (IDS) berperan: sistem yang tugasnya mengendus apakah ada aktivitas mencurigakan atau serangan di dalam jaringan.
Masalahnya, IDS juga nggak bisa sembarangan. Biar makin pintar mendeteksi serangan baru, IDS perlu dataset yang berkualitas buat latihan (training) — terutama kalau berbasis machine learning (ML).
Jurnal ini sebenarnya nggak bikin IDS baru, tapi lebih ke review dataset yang sering dipakai untuk penelitian IDS berbasis ML. Jadi kayak “peta” buat para peneliti, biar tahu dataset mana yang layak dipakai, mana yang sudah outdated, dan tantangan apa yang masih ada.
Penulis mereview dataset IDS dari 6 tahun terakhir. Mereka menyoroti:
Beberapa poin penting dari tantangan yang disoroti penulis:
Menurut penulis, machine learning itu cocok banget dipakai buat IDS, karena:
Tapi sekali lagi, ML cuma sekuat dataset yang dipakainya. Kalau dataset kurang bagus, hasil IDS juga kurang optimal.
Penulis menekankan bahwa tantangan utama di bidang IDS saat ini ada di dataset. Tanpa dataset yang representatif, IDS akan kesulitan mendeteksi ancaman baru. Jadi, ke depan, komunitas riset perlu lebih serius bikin dataset yang:
Menurut saya, artikel ini cukup bermanfaat buat orang yang mau mulai riset IDS berbasis ML. Walaupun isinya lebih ke review, tapi jadi semacam “peta jalan” untuk memahami kondisi riset sekarang.
Poin yang paling kena buat saya adalah: dataset itu pondasi utama di riset IDS. Sama seperti anak sekolah yang butuh buku teks bagus buat belajar, IDS berbasis ML juga butuh dataset yang lengkap dan relevan biar bisa perform maksimal.
Jadi, jurnal ini meskipun bukan inovasi teknis baru, tapi punya kontribusi penting buat guideline penelitian selanjutnya.
| Tantangan | Penjelasan |
|---|---|
| Approval Forms of the Dataset | Beberapa penyedia dataset mengharuskan adanya persetujuan/approval untuk mendapatkan akses. Proses ini sering memakan waktu lama. |
| Privacy of the Dataset | Data asli sering tidak boleh dibagikan karena kebijakan keamanan, sensitivitas data, kurangnya kepercayaan, dan risiko kebocoran informasi digital. |
| Labeling of the Dataset | Ada dataset yang dilabeli secara manual, ada juga yang berupa jejak paket tanpa identifier. Hal ini memengaruhi validitas dataset. |
| Availability of the Dataset | Ketersediaan data bagi developer dan peneliti ketika dibutuhkan. |
| Objectives of the Dataset | Aturan/tujuan dataset, seperti jenis serangan, protokol target, lingkungan pengujian, dan kategori data. |
| Scope of the Dataset | Banyak dataset publik yang cepat usang dan tidak lagi relevan untuk klaim ilmiah karena variasi segmen jaringan. |
| Documentation of the Dataset | Informasi terkait dataset: tipe serangan, sistem operasi, jumlah mesin, fitur, dan lingkungan pengumpulan data. |
| Scenario of Dataset Collection | Banyak penyedia dataset tidak mempublikasikan tingkat keberhasilan serangan. Diperlukan keahlian tinggi untuk memahami kategori serangan di dataset yang sama. |
| Imbalance Ratio of the Dataset | Rasio jumlah instance kelas normal dibanding instance kelas serangan dalam sebuah dataset. |
| Dataset | Jumlah Fitur | Binary Classes | Multi-class | Lingkungan |
|---|---|---|---|---|
| AWID | 154 | Yes | Yes (15) | WiFi |
| BoT_IoT | 86 | Yes | Yes (11) | IoT |
| UGR’16 | 47 | Yes | Yes (9) | TICS + NIDS |
| CIC-Bell-DNS2021 | 32 | Yes | Yes (4) | TICS + NIDS |
| CIC-Bell-DNS-EXF-2021 | 30 | Yes | Yes (13) | TICS + NIDS |
| CICDarknet2020 | 85 | Yes | Yes (9) | TICS + NIDS |
| CICDDoS2019 | 88 | Yes | Yes (13) | TICS + NIDS |
| CICIDS2017 | 80 | Yes | Yes (15) | TICS + NIDS |
| CIDD-001 | 15 | Yes | Yes (5) | TICS + NIDS |
| CIRA-CIC-DoHBrw-2020 | 34 | Yes | Yes (4) | TICS + NIDS |
| CSE-CICIDS2018 | 80 | Yes | Yes (10) | TICS + NIDS |
| DS2OS | 13 | Yes | Yes (7) | IoT |
| IoT-23 | 86 | Yes | Yes (10) | IoT |
| IoTID20 | 86 | Yes | Yes (5) | IoT |
| MedBIoT | 100 | Yes | Yes (5) | IoT |
| MQTT-IOT-IDS2020 | 598 | Yes | Yes (7) | IoT |
| N-BaIoT | 115 | Yes | Yes (11) | IoT |
| TON-IOT | 83 | Yes | Yes (10) | IoT |
| Dataset | Tahun | Publik | Normal Traffic | Attack Traffic | Imbalance Ratio | Labeled | Updated | Process |
|---|---|---|---|---|---|---|---|---|
| AWID | 2016 | Yes | Yes | Yes | No | Yes | Yes | – |
| UGR’16 | 2016 | Yes | Yes | Yes | No | Yes | Yes | – |
| BoT_IoT | 2018 | Yes | Yes | Yes | No | Yes | Yes | – |
| CIC-Bell-DNS2021 | 2021 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| CIC-Bell-DNS-EXF-2021 | 2021 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| CICDarknet2020 | 2010 | Yes | Yes | Yes | No | Yes | Yes | – |
| CIC-DDoS2019 | 2019 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| CICIDS2017 | 2017 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| CIDD-001 | 2017 | Yes | Yes | Yes | No | Yes | Yes | – |
| CIRA-CIC-DoHBrw-2020 | 2020 | Yes | Yes | Yes | No | Yes | Yes | – |
| CSE-CIC-IDS2018 | 2018 | Yes | Yes | Yes | No | Yes | Yes | – |
| DS2OS | 2018 | Yes | Yes | Yes | No | Yes | Yes | – |
| IoT-23 | 2020 | Yes | Yes | Yes | No | Yes | Yes | – |
| IoTID20 | 2020 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| MedBIoT | 2020 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| MQTT-IOT-IDS2020 | 2020 | Yes | Yes | Yes | No | Yes | Yes | – |
| N-BaIoT | 2020 | Yes | Yes | Yes | No | Yes | Not Yet | – |
| TON-IOT | 2020 | Yes | Yes | Yes | No | Yes | Yes | – |
Ilmu komputer teoretis (theoretical computer science) memiliki hubungan erat dengan matematika karena pemrograman menggunakan algoritma,…
https://www.youtube.com/watch?v=SuaxadRqJpM Pengantar Suara manusia adalah instrumen yang kita semua mainkan — sekaligus alat paling kuat…
https://www.youtube.com/watch?v=Ew59SKy181Y Analisis Heni Ozi Cukier mengungkap empat dimensi — sosial, ekonomi, politik, dan militer —…
https://www.youtube.com/watch?v=ZAqIoDhornk Ringkasan padat dari konsep-konsep utama fisika—dari Newton hingga mekanika kuantum—dengan contoh sehari-hari dan makna…
https://www.youtube.com/watch?v=olQh39MoJsQ Cara Cepat Mengenal Huruf Sirilik dan Logika Bahasa Rusia untuk Pemula Pendahuluan: Bahasa Asing…
https://www.youtube.com/watch?v=UJGsfLa8dmE 1. Korelasi antara Iman, Ilmu, dan Takwa UAH menjelaskan bahwa iman dan ilmu merupakan…