Intrusion Detection System (IDS) dan Dataset Machine Learning untuk Jaringan Masa Depan

Beberapa waktu lalu saya membaca sebuah jurnal yang menarik dari NTU Journal of Engineering and Technology (2025) 4(2): 1–10 dengan judul:

“A Review of Existence Intrusions Detection-Based Machine Learning Datasets of Future Generation Networks”
- Ditulis oleh Nora Rashid Najem dari Alnoor University, Iraq, dan Razan Abdulhammed dari Northern Technical University, Mosul-Iraq.

(DOI: 10.56286/ntujet.v4i2)

Nah, di artikel blog ini saya ingin sedikit berbagi isi jurnal tersebut, tapi dengan bahasa yang lebih ringan dan mudah dipahami. Jadi, bukan sekadar ringkasan kaku, tapi lebih ke “ini lho intinya, kenapa penting, dan apa yang bisa kita ambil”.


Kenapa IDS itu Penting?

Sekarang, jaringan makin canggih — ada IoT (Internet of Things), CPS (Cyber-Physical System), MANET (Mobile Ad-hoc Network), sampai VANET (Vehicular Ad-hoc Network) buat komunikasi antar kendaraan. Keren kan? Tapi masalahnya, makin canggih jaringan, makin banyak juga serangan siber yang mengincar.

Bayangin aja, setiap hari muncul aja jenis serangan baru, bug baru, teknik peretasan baru. Di sinilah Intrusion Detection System (IDS) berperan: sistem yang tugasnya mengendus apakah ada aktivitas mencurigakan atau serangan di dalam jaringan.

Masalahnya, IDS juga nggak bisa sembarangan. Biar makin pintar mendeteksi serangan baru, IDS perlu dataset yang berkualitas buat latihan (training) — terutama kalau berbasis machine learning (ML).


Fokus Jurnal Ini: Dataset untuk IDS

Jurnal ini sebenarnya nggak bikin IDS baru, tapi lebih ke review dataset yang sering dipakai untuk penelitian IDS berbasis ML. Jadi kayak “peta” buat para peneliti, biar tahu dataset mana yang layak dipakai, mana yang sudah outdated, dan tantangan apa yang masih ada.

Penulis mereview dataset IDS dari 6 tahun terakhir. Mereka menyoroti:

  1. Apa saja dataset yang banyak dipakai di riset IDS.
  2. Kriteria apa yang bikin dataset itu bagus.
  3. Kekurangan dari dataset yang ada sekarang.
  4. Arah ke depan: gimana caranya bikin dataset yang lebih relevan dengan kondisi jaringan modern.

Tantangan yang Ditemukan

Beberapa poin penting dari tantangan yang disoroti penulis:

  • Serangan baru terus bermunculan. Dataset lama sering nggak bisa mewakili serangan-serangan terbaru.
  • Kualitas data. Banyak dataset terlalu sederhana atau nggak realistis. Misalnya, serangan yang disimulasikan di lab sering beda jauh dengan kondisi nyata di dunia siber.
  • Skalabilitas. Dataset perlu besar dan kompleks, biar ML bisa belajar lebih banyak pola.
  • Privasi. Mengumpulkan data serangan nyata itu sulit karena menyangkut kerahasiaan pengguna.

Kenapa Machine Learning Relevan?

Menurut penulis, machine learning itu cocok banget dipakai buat IDS, karena:

  • Bisa mengenali pola serangan dengan cepat.
  • Lebih mudah beradaptasi sama serangan baru.
  • Mengurangi ketergantungan pada manusia buat analisis manual.

Tapi sekali lagi, ML cuma sekuat dataset yang dipakainya. Kalau dataset kurang bagus, hasil IDS juga kurang optimal.


Kesimpulan Penulis

Penulis menekankan bahwa tantangan utama di bidang IDS saat ini ada di dataset. Tanpa dataset yang representatif, IDS akan kesulitan mendeteksi ancaman baru. Jadi, ke depan, komunitas riset perlu lebih serius bikin dataset yang:

  • Lebih realistis.
  • Lebih up-to-date dengan jenis serangan terbaru.
  • Bisa diakses luas oleh peneliti (open access).

Refleksi Saya

Menurut saya, artikel ini cukup bermanfaat buat orang yang mau mulai riset IDS berbasis ML. Walaupun isinya lebih ke review, tapi jadi semacam “peta jalan” untuk memahami kondisi riset sekarang.

Poin yang paling kena buat saya adalah: dataset itu pondasi utama di riset IDS. Sama seperti anak sekolah yang butuh buku teks bagus buat belajar, IDS berbasis ML juga butuh dataset yang lengkap dan relevan biar bisa perform maksimal.

Jadi, jurnal ini meskipun bukan inovasi teknis baru, tapi punya kontribusi penting buat guideline penelitian selanjutnya.

Lampiran

Fig.1. The dataset types in Machine Learning
TantanganPenjelasan
Approval Forms of the DatasetBeberapa penyedia dataset mengharuskan adanya persetujuan/approval untuk mendapatkan akses. Proses ini sering memakan waktu lama.
Privacy of the DatasetData asli sering tidak boleh dibagikan karena kebijakan keamanan, sensitivitas data, kurangnya kepercayaan, dan risiko kebocoran informasi digital.
Labeling of the DatasetAda dataset yang dilabeli secara manual, ada juga yang berupa jejak paket tanpa identifier. Hal ini memengaruhi validitas dataset.
Availability of the DatasetKetersediaan data bagi developer dan peneliti ketika dibutuhkan.
Objectives of the DatasetAturan/tujuan dataset, seperti jenis serangan, protokol target, lingkungan pengujian, dan kategori data.
Scope of the DatasetBanyak dataset publik yang cepat usang dan tidak lagi relevan untuk klaim ilmiah karena variasi segmen jaringan.
Documentation of the DatasetInformasi terkait dataset: tipe serangan, sistem operasi, jumlah mesin, fitur, dan lingkungan pengumpulan data.
Scenario of Dataset CollectionBanyak penyedia dataset tidak mempublikasikan tingkat keberhasilan serangan. Diperlukan keahlian tinggi untuk memahami kategori serangan di dataset yang sama.
Imbalance Ratio of the DatasetRasio jumlah instance kelas normal dibanding instance kelas serangan dalam sebuah dataset.
Table 1. Tantangan dalam Penelitian IDS (2016–2021)
Fig. 3.Year-wise distribution of adopted datasets by the researchers 2016-2021.
Fig. 6.Selection Process Criteria Flowchart
DatasetJumlah FiturBinary ClassesMulti-classLingkungan
AWID154YesYes (15)WiFi
BoT_IoT86YesYes (11)IoT
UGR’1647YesYes (9)TICS + NIDS
CIC-Bell-DNS202132YesYes (4)TICS + NIDS
CIC-Bell-DNS-EXF-202130YesYes (13)TICS + NIDS
CICDarknet202085YesYes (9)TICS + NIDS
CICDDoS201988YesYes (13)TICS + NIDS
CICIDS201780YesYes (15)TICS + NIDS
CIDD-00115YesYes (5)TICS + NIDS
CIRA-CIC-DoHBrw-202034YesYes (4)TICS + NIDS
CSE-CICIDS201880YesYes (10)TICS + NIDS
DS2OS13YesYes (7)IoT
IoT-2386YesYes (10)IoT
IoTID2086YesYes (5)IoT
MedBIoT100YesYes (5)IoT
MQTT-IOT-IDS2020598YesYes (7)IoT
N-BaIoT115YesYes (11)IoT
TON-IOT83YesYes (10)IoT
Table 5. Deskripsi Dataset IDS
DatasetTahunPublikNormal TrafficAttack TrafficImbalance RatioLabeledUpdatedProcess
AWID2016YesYesYesNoYesYes
UGR’162016YesYesYesNoYesYes
BoT_IoT2018YesYesYesNoYesYes
CIC-Bell-DNS20212021YesYesYesNoYesNot Yet
CIC-Bell-DNS-EXF-20212021YesYesYesNoYesNot Yet
CICDarknet20202010YesYesYesNoYesYes
CIC-DDoS20192019YesYesYesNoYesNot Yet
CICIDS20172017YesYesYesNoYesNot Yet
CIDD-0012017YesYesYesNoYesYes
CIRA-CIC-DoHBrw-20202020YesYesYesNoYesYes
CSE-CIC-IDS20182018YesYesYesNoYesYes
DS2OS2018YesYesYesNoYesYes
IoT-232020YesYesYesNoYesYes
IoTID202020YesYesYesNoYesNot Yet
MedBIoT2020YesYesYesNoYesNot Yet
MQTT-IOT-IDS20202020YesYesYesNoYesYes
N-BaIoT2020YesYesYesNoYesNot Yet
TON-IOT2020YesYesYesNoYesYes
Table 6. Karakteristik Dataset IDS

saiful

Recent Posts

Dasar Komputer Science

Ilmu komputer teoretis (theoretical computer science) memiliki hubungan erat dengan matematika karena pemrograman menggunakan algoritma,…

2 months ago

Seni Berbicara dan Mendengarkan ala Julian Treasure

https://www.youtube.com/watch?v=SuaxadRqJpM Pengantar Suara manusia adalah instrumen yang kita semua mainkan — sekaligus alat paling kuat…

6 months ago

Apakah Dunia Menuju Perang Dunia III?

https://www.youtube.com/watch?v=Ew59SKy181Y Analisis Heni Ozi Cukier mengungkap empat dimensi — sosial, ekonomi, politik, dan militer —…

6 months ago

Semua Fisika dalam 14 Menit: Ringkasan Konsep Inti

https://www.youtube.com/watch?v=ZAqIoDhornk Ringkasan padat dari konsep-konsep utama fisika—dari Newton hingga mekanika kuantum—dengan contoh sehari-hari dan makna…

6 months ago

Belajar Membaca Bahasa Rusia dalam 9 Menit

https://www.youtube.com/watch?v=olQh39MoJsQ Cara Cepat Mengenal Huruf Sirilik dan Logika Bahasa Rusia untuk Pemula Pendahuluan: Bahasa Asing…

6 months ago

Korelasi Iman, Ilmu, dan Takwa Menurut UAH

https://www.youtube.com/watch?v=UJGsfLa8dmE 1. Korelasi antara Iman, Ilmu, dan Takwa UAH menjelaskan bahwa iman dan ilmu merupakan…

6 months ago