Ini adalah bagian dari serangkaian artikel yang terinspirasi oleh pertanyaan dari pembaca kami. Jadi terima kasih antara lain kepada Tom F, Steve G, Kristof P, Vaageesh T dan Matt X, yang diminta semua orang tentang pengumpulan data dan penghitungan metrik seperti xG.
“Kami seharusnya memenangkan pertandingan itu jika Anda melihat target gol yang diharapkan.”
Perdebatan umum di kalangan penggemar sepak bola saat ini, namun hal tersebut tidak terjadi beberapa tahun yang lalu.
Perkembangan data di ruang publik telah memungkinkan para penggemar mengakses statistik sepak bola dengan mudah hanya dengan mengklik satu tombol. Baik di media sosial atau di mana pun di Internet, metrik tingkat lanjut kini dapat diakses oleh khalayak yang lebih luas dan telah mendemokratisasi analisis sampai batas tertentu.
Namun rata-rata penggemar mengambil apa yang mereka dapatkan dari sumber publik. Data strata berikut memerlukan akses berbayar ke paket khusus dari segelintir perusahaan data di luar sana, dengan data khusus klub (dan apa yang dilakukan klub-klub tersebut dengan data tersebut, yang lebih penting) merupakan bagian yang paling rahasia dari semuanya.
StatsBomb, Opta, dan Deltatre telah menjadi yang terdepan dalam menyediakan data kepada organisasi media, agensi pemain, dan klub selama satu dekade terakhir, namun ada pertanyaan yang harus ada di benak semua konsumen data: bagaimana tepatnya hal ini dilakukan? Bagaimana data lanjutan untuk berbagai liga dicatat dan diperbarui dalam waktu kurang dari sehari? Apakah angka-angka ini muncul secara ajaib setelah pertandingan?
Untuk menemukan jawabannya, Atletik menuju ke pusat pengumpulan StatsBomb di Kairo.
Lokasinya di ibu kota Mesir mungkin terdengar aneh pada awalnya, namun akuisisi ArqamFC oleh StatsBomb – yang merupakan bahasa Arab untuk NumbersFC – pada tahun 2019 memberikan perusahaan data yang sedang berkembang ini sebuah pusat yang mengembangkan cara untuk mengumpulkan dan menganalisis pertandingan sepak bola dengan sangat rinci. . Dalam kata-kata StatsBomb sendiri, “mereka adalah mitra yang ideal”.
Keunggulan lain dari lokasi ini adalah zona waktunya. Dengan memiliki pusat pengumpulan data di Mesir, StatsBomb memiliki basis pusat di mana Eropa, Asia dan Afrika berada dalam zona waktu yang wajar dan satu pusat pusat adalah sesuatu yang mereka dorong sejak awal untuk menjaga kendali kualitas.
“Ada trade-off yang lazim antara memiliki beberapa pusat pengumpulan data di seluruh dunia, di mana masyarakat dapat mengenal pemain lokalnya, dan memiliki satu pusat pengumpulan data. Masalah pertama adalah tindakan pengendalian kualitas antar hub tidak konsisten,” kata Hesham Abozekry, salah satu pendiri dan kepala operasi data di StatsBomb.
“Itulah mengapa Ted Knutson (pendiri dan CEO StatsBomb) menekankan sentralitas untuk menjaga kualitas data.”
Di sisi lain dari tabel sasaran yang diharapkan (xG), metrik tekanan, dan bantuan yang diharapkan (xA), terdapat proses melelahkan yang melibatkan manusia dan komputer yang bekerja bersama-sama untuk mengumpulkan data mentah yang mendorong semuanya. Visi komputer digunakan untuk membantu pengumpul data menandai peristiwa seperti tembakan, operan, dan tekel serta memasukkan lokasinya di lapangan.
“Tingkat ambang kesalahan kecerdasan buatan meningkat, namun jika Anda menggabungkannya dengan manusia, Anda dapat mencapai akurasi 99 persen,” kata Ali Elfakharany, salah satu pendiri dan kepala produk data di StatsBomb. Inilah sebabnya mengapa visi komputer digunakan dalam proses pengumpulan data langsung dan pasca-pertandingan selain masukan dari pengumpul data.
Pengumpulan data pasca pertandingan bertujuan untuk memberikan laporan mendalam kepada klien dalam waktu 12 jam setelah pertandingan dimulai. Jika klien tersebut adalah klub, staf pelatih akan memiliki laporan pasca pertandingan dan siap untuk pertemuan berikutnya, meskipun itu pada hari berikutnya.
Untuk opsi ini, dua pengumpul data mengerjakan satu permainan – satu untuk setiap tim. Setiap kolektor memilih pertandingan yang ditugaskan, yang sudah memiliki metadata termasuk tanggal dan waktu, susunan pemain, formasi awal, wasit dan manajer, semuanya ditambahkan dengan cermat oleh tim terpisah.
Kemudian algoritma komputer memvalidasi data yang dimasukkan oleh ‘pengumpul data A’ dengan data yang dimasukkan oleh rekannya untuk memeriksa apakah peristiwa-peristiwa tersebut saling terkait – pada akhir sebuah tembakan udara dimenangkan, misalnya, sebuah tembakan udara harus kalah menjadi
Jika informasinya hilang, kolektor kembali untuk memeriksa urutan dan mengisi acara. Setiap kasus dilaporkan ke anggota tim jaminan kualitas StatsBomb untuk menentukan apakah pengumpul memerlukan pelatihan lebih lanjut.
Bagian selanjutnya adalah mengerjakan lokasi kejadian. Karena hanya ada satu bola, kedua kolektor membagi waktu 90 menit untuk menandai koordinat kejadian. Setelah itu waktunya ‘Freeze Frame’.
Pada bulan Mei 2018, StatsBomb mulai menawarkan posisi yang tepat dari pemain bertahan dan penjaga gawang pada setiap tembakan melalui proses yang mereka sebut Freeze Frame – sebuah snapshot yang diambil pada saat tembakan yang menunjukkan lokasi semua pemain yang terlibat dalam pertemuan tersebut ditangkap. Hal ini memungkinkan StatsBomb untuk merekam konteks di sekitar setiap tembakan dan menempatkan tekanan pemain bertahan dan posisi penjaga gawang ke dalam persamaan.
Proses Freeze Frame dimulai dengan komputer secara otomatis menghasilkan daftar foto untuk semua rekaman gambar yang ada di sistem setelah lintasan pertama. Kolektor kemudian menandai setiap pemain dalam bingkai sebelum memasukkan informasi tentang tembakan itu sendiri – bagian tubuh yang digunakan, apakah tembakan itu berasal dari permainan terbuka, tendangan bebas atau tendangan sudut, dan teknik tembakannya. Ini bisa berupa tendangan voli, setengah voli, tendangan menyelam, lob atau bahkan tumit belakang.
Semua ini adalah parameter yang dimasukkan oleh kolektor yang mempengaruhi perhitungan xG setiap tembakan. Setelah itu, lokasi akhir pengambilan gambar disisipkan oleh kolektor. Jika tembakannya tepat sasaran, pengumpul data harus memilih dengan tepat posisi bola di gawang.
Detail lainnya juga diperhitungkan. Orientasi tubuh penjaga gawang adalah satu hal, tindakannya dalam melakukan tembakan adalah hal lain. Ia dapat bergerak maju ketika tembakan dilakukan atau dalam posisi tertentu, sementara ia juga dapat menunduk ke satu sisi atau hanya berdiri di sana.
Bagian terakhir dari Freeze Frame adalah penyesuaian ‘ketinggian tumbukan tembakan’, yang menghitung tinggi bola saat dipukul, karena bola yang dipukul ke tanah dari posisi istirahat tidak boleh sama dengan sundulan saat penyerang berada di posisi 7. kaki (lebih dari 200 cm) di udara. Masukkan semuanya ke dalam mixer dan Anda mendapatkan nilai xG dan tujuan yang diharapkan sesuai target (xGOT) yang sekarang sudah tidak asing lagi bagi banyak penggemar.
Keseluruhan proses pengumpulan data offline memakan waktu sekitar lima jam dan seorang kolektor rata-rata akan mengerjakan satu setengah game setiap hari. Pergeseran berikutnya melanjutkan pergeseran sebelumnya, yang berarti terdapat liputan 24 jam untuk lebih dari 100 kompetisi di seluruh dunia.
Ketika ditanya apa bagian tersulit dalam pengumpulan data, Amr Azzam, pengumpul data StatsBomb, menjawab bahwa itu adalah identifikasi pemain. Itu sebabnya pengumpul data menggunakan sepatu bot, gaya rambut, dan tinggi badan untuk membedakan pemain.
Game berprofil tinggi selalu lebih mudah untuk dikoleksi karena kualitas sepak bolanya lebih tinggi, begitu pula kualitas videonya. “(Pertandingan) Liga Premier atau Liga Champions lebih mudah dikoleksi karena Anda mengetahui pemainnya,” kata Amr.
Hal serupa juga diamini oleh Elfakharany. “Secara umum, identifikasi pemain adalah masalah tersulit kami,” katanya. Itu sebabnya StatsBomb secara khusus membuat tim untuk menyiapkan informasi tentang para pemain sebelum kolektor mengerjakan game. Sebelum pertandingan langsung, setiap kolektor dikirimi dokumen berisi informasi tentang tim dan pemain yang akan ia latih.
Pengumpulan langsung memerlukan lima pengumpul data: seorang juri untuk memeriksa apakah semuanya sudah benar, satu orang untuk mengumpulkan semua acara utama, dua orang untuk menandai pemain dan lokasi acara untuk setiap tim, dan satu orang tambahan untuk mengumpulkan informasi tentang setiap pengisian dalam peristiwa.
Empat yang pertama sudah cukup jelas dan yang terakhir membahas detail mulai dari Freeze Frame hingga tinggi dan pas. Ini memberi klub aliran data langsung yang dapat mereka tinjau sepanjang pertandingan untuk membantu pengambilan keputusan mereka.
Dua fitur lainnya membantu pengumpul data selama pengumpulan langsung. Pertama, suatu algoritma secara otomatis menetapkan penerima pass untuk menjadi pemain yang ditandai pada acara berikutnya. Kedua, alat kustomisasi pemain di mana pengumpul data pra-pertandingan menyesuaikan tinggi badan pemain, gaya rambut, dan warna sepatu bot mereka menggunakan bahan yang disediakan untuk membantu mereka selama proses penandaan.
Meski begitu, pengumpulan data bisa jadi sulit. Seragam kuning dan nomor hijau Nantes membuat para pemain lebih sulit dibedakan. Jalan Elland di bawah sinar matahari pagi menghadirkan masalah identifikasi. Garis hitam putih Newcastle United juga tidak membuat hidup lebih mudah bagi para pengumpul data. Yang paling sulit dari semuanya? Liga Nordik di tengah salju.
Abozekry dan Elfakharany memahami pentingnya pengumpul data dan memberdayakan mereka adalah bagian dari budaya StatsBomb. Wajar jika seorang pengumpul data melakukan pembicaraan dengan salah satu klub terbesar di Eropa. “Hubungan antara pengumpul data dan konsumen akhir memberikan rasa kepemilikan kepada pengumpul dan ini mendorongnya untuk menghasilkan kualitas tertinggi,” kata Abozekry.
Bekerja dengan klub-klub besar adalah suatu kehormatan bergengsi yang dicari oleh perusahaan data mana pun, tetapi mengumpulkan data untuk liga-liga yang lebih rendah juga sama pentingnya. Ketika membicarakannya, Elfakharany menjelaskan bahwa meskipun Eropa adalah tujuan akhir, talenta-talenta menjanjikan ada di luar sana, di seluruh dunia. Oleh karena itu, pengumpulan data untuk liga-liga yang lebih rendah sangatlah penting, meskipun sudut kameranya bukan yang terbaik dan stadionnya tidak dilengkapi dengan teknologi tertinggi.
“Tim-tim besar sekarang harus mencari sumber bakatnya, karena jika klub kecil menempatkan pemain di depan mereka, mereka harus membayar mahal,” katanya.
Contoh yang langsung terlintas di benak Anda adalah Kaoru Mitoma. Brighton & Hove Albion, yang kini bermain di Premier League, mengontraknya dari Kawasaki Frontale di Jepang dua tahun lalu.
StatsBomb telah bekerja dengan banyak tim Premier League, Major League Soccer, dan Ligue 1, menyediakan data dan alat untuk membantu klub-klub tersebut sepanjang tahun. Namun pendekatan berorientasi data juga berhasil dalam piramida sepak bola. Musim lalu di Liga Dua, dua tim yang otomatis dipromosikan dan dua dari empat tim yang lolos ke babak play-off adalah klien StatsBomb.
“Ini adalah liga yang kami diberitahu mungkin tidak akan memiliki anggaran untuk menggunakan statistik dan data untuk mengelola tim sepak bola mereka,” kata Knutson tahun lalu. “Kenyataannya ternyata sangat berbeda ketika tim-tim ini menyadari bahwa mereka harus merealokasi sumber daya anggaran – yang masih kurang dari gaji satu tahun untuk satu pemain level elit – untuk mendapatkan keunggulan kompetitif yang tidak akan pernah berhenti mereka gunakan.”
Di masa depan, perusahaan ingin mengembangkan langkah-langkah yang lebih berorientasi pada keterampilan. “Kami ingin terus mengembangkan titik data yang lebih baik untuk membantu kami beralih ke metrik yang tidak terlalu berorientasi pada output dan lebih berorientasi pada keterampilan,” kata Elfakharany.
Daripada hanya menilai seorang penyerang berdasarkan angka yang diharapkan, mereka mencoba mengkontekstualisasikan angka tersebut dengan juga mempertimbangkan profil dan keahlian pemain.
Sebelum hari itu berakhir, Elfakharany menceritakan rahasia suksesnya.
“Anda hanya akan sebaik kualitas data Anda.”
(Foto teratas: Getty Images; desain: Sean Reilly)