Gimana Komputer Bisa Tahu Jumlah Orang di Keramaian?

Pernah nggak sih kita berada di tengah lautan manusia—entah di konser, stasiun saat mudik, atau mall pas ada midnight sale—dan merasa sesak banget? Nah, kondisi seperti itu bikin kita sadar bahwa mengetahui jumlah orang di suatu tempat bukan cuma soal angka, tapi soal keselamatan, efisiensi, dan bahkan strategi bisnis. Inilah kenapa crowd counting muncul sebagai solusi. Ini adalah cabang dari computer vision yang fokus untuk secara otomatis mengestimasi jumlah orang dalam sebuah gambar atau video. Dan kita akan menyelami lebih dalam: mulai dari definisi, tantangan, teknologi terkini, sampai model-model deep learning paling mutakhir yang dipakai saat ini. Yuk, kita mulai!

Apa Itu Crowd Counting?

Secara sederhana, crowd counting adalah proses di mana kita melatih komputer untuk menghitung jumlah orang dalam suatu citra visual—baik foto maupun video. Tapi jangan bayangkan ini sesimpel “klik dan hitung,” ya! Modelnya bisa menghitung orang satu per satu (jika memungkinkan), atau hanya memprediksi seberapa padat kerumunannya.

Kenapa Kita Butuh Crowd Counting?

Teknologi ini bukan cuma buat seru-seruan. Ada banyak manfaat praktis yang bisa kita rasakan, seperti:

  1. Keamanan Publik: Menghindari potensi bencana karena over-crowded saat konser, demonstrasi, atau acara besar.
  2. Manajemen Acara: Mengatur jumlah staf, toilet, dan logistik berdasarkan jumlah pengunjung.
  3. Perencanaan Kota & Transportasi: Data kerumunan bisa bantu desain ulang stasiun, halte, atau trotoar agar lebih manusiawi.
  4. Retail & Bisnis: Toko bisa tahu kapan pelanggan ramai dan menyesuaikan strategi promosi.
  5. Manajemen Bencana: Estimasi jumlah korban atau pengungsi untuk bantuan yang lebih tepat sasaran.
  6. Analisis Perilaku Massa: Mengetahui pola pergerakan, titik kumpul, atau bahkan anomali dalam kerumunan.
Tantangan Besar dalam Menghitung Kerumunan

Menghitung kerumunan ternyata jauh dari kata mudah. Ada beberapa tantangan utama yang harus kita hadapi:

  • Occlusion: Orang saling menutupi satu sama lain, apalagi di kerumunan padat.
  • Scale Variation: Ukuran orang bisa bervariasi tergantung jarak dari kamera.
  • Crowd Density: Dari kerumunan longgar sampai padat merayap, semuanya perlu penanganan berbeda.
  • Lighting & Weather: Cahaya temaram, hujan, atau kabut bisa bikin model kesulitan.
  • Complex Backgrounds: Kadang benda lain disangka kepala orang!
  • Perspective Distortion: Sudut pandang kamera bisa memengaruhi akurasi hitungan.
Evolusi Teknologi Crowd Counting

Dulu, metode crowd counting lebih sederhana. Tapi seiring berkembangnya AI dan deep learning, pendekatannya ikut berevolusi:

  1. Detection-based: Deteksi individu satu per satu. Akurat di kerumunan sepi, tapi gagal saat terlalu padat.
  2. Regression-based: Prediksi jumlah total tanpa deteksi individu. Cepat, tapi kehilangan informasi lokasi.
  3. Density Map-based: Inilah pendekatan paling populer saat ini. CNN digunakan untuk menghasilkan peta kepadatan (density map), lalu diintegrasi untuk mendapatkan jumlah orang. Ini efisien, informatif, dan scalable untuk semua tingkat kerumunan.
Dataset Benchmark

Untuk melatih dan mengevaluasi model crowd counting, komunitas riset menggunakan beberapa dataset standar sebagai benchmark. Dataset ini memiliki karakteristik yang beragam dalam hal jumlah gambar, jumlah orang per gambar, tingkat kepadatan, dan kondisi pengambilan gambar. Beberapa yang paling sering digunakan antara lain:

  • ShanghaiTech: Part A (padat, dari internet) dan Part B (lebih sepi, dari jalanan Shanghai).
  • UCF-CC-50: Hanya 50 gambar, tapi jumlah orang bisa ribuan. Cocok untuk stres-test model!
  • UCF-QNRF: Variasi ekstrem dari jumlah, resolusi, dan perspektif.
  • JHU-CROWD++: Lebih dari 4.000 gambar dengan info oklusi dan cuaca.
  • NWPU-Crowd: Lebih dari 2 juta anotasi, lengkap dengan bounding box dan berbagai kondisi nyata.
Model-Model Deep Learning State-of-the-Art (SOTA) dalam Crowd Counting

Dengan maraknya Deep Learning, banyak arsitektur CNN canggih telah diusulkan. Berikut adalah beberapa model yang telah menunjukkan performa SOTA dan konsep kunci di baliknya (Papers With Code – Crowd Counting):

  1. MCNN: Menggunakan beberapa kolom CNN dengan ukuran filter berbeda untuk menangkap fitur pada berbagai skala kepala, lalu menggabungkannya untuk menghasilkan peta kepadatan akurat.
  2. CSRNet: Mengandalkan dilated convolution setelah VGG-16 untuk memperluas receptive field tanpa kehilangan resolusi, efektif dalam adegan kerumunan padat.
  3. CAN: Mengadaptasi informasi skala dan konteks menggunakan Scale-Aware Module dan Attention Module agar dapat menyesuaikan dengan variasi kepadatan.
  4. PSLNet: Memanfaatkan perspective scale map untuk menyesuaikan fitur dengan distorsi perspektif, meningkatkan akurasi hitungan terutama di area jauh dari kamera.
  5. ClipEBC: Mengintegrasikan CLIP untuk menyelaraskan representasi visual dan teks (misalnya deskripsi kepadatan), efektif di skenario kompleks dan zero-shot.

Tak hanya arsitektur, loss function pun berkembang. Dari MAE/MSE ke pixel-wise loss hingga struktur spasial, semua untuk hasil estimasi yang makin akurat.

Masa Depan Crowd Counting

Ke depan, kita bisa berharap crowd counting menjadi:

  • Lebih Akurat: Bahkan di kondisi ekstrem.
  • Lebih Ringan & Cepat: Bisa dijalankan real-time di CCTV atau drone.
  • Lebih Umum: Model bisa tetap akurat di dataset atau lokasi baru.
  • Lebih Dari Sekadar Menghitung: Kita bisa menggabungkan dengan tracking, analisis demografis, atau bahkan prediksi kerusuhan.
  • Lebih Etis: Kita harus pastikan teknologi ini menghormati privasi dan tidak bias.

Referensi

https://paperswithcode.com/task/crowd-counting

Leave a Comment

Your email address will not be published. Required fields are marked *