Abstrak. Dalam tulisan ini, kami menyajikan skala-dan novel rotasi-invarian detektor titik tujuan dan deskriptor, SURF dikembangkan (Speeded Up Robust Features). Ini mendekati atau bahkan melebihi skema sebelumnya yang diusulkan sehutujuann dengan pengulangan, kekhasan, dan ketahanan, namun dapat dihitung dan dibandingkan lebih cepat. Hal ini dicapai dengan mengandalkan gambar terpisahkan untuk konvolusi gambar; dengan membangun kekuatan dari detector terkemuka yang ada dan deskriptor (Dalam hal ini, menggunakan ukuran berbasis matriks Hessian untuk detektor, dan deskriptor berbasis distribusi), dan dengan menyederhanakan metode ini untuk penting. Hal ini menyebabkan kombinasi baru deteksi, deskriptor, dan pencocokan langkah. Makalah ini menyajikan hasil percobaan pada standar set evaluasi, serta pada citra yang diperoleh dalam konteks kehidupan nyata di aplikasi pengenalan obyek. Kinerja yang kuat ini, keduanya merepresentasikan SURF. 1 Pendahuluan Tugas mencari korespondensi antara dua gambar dari adegan yang sama atau objek adalah bagian dari banyak aplikasi visi komputer. Kalibrasi kamera, 3D rekonstruksi, registrasi citra, dan pengenalan obyek hanya beberapa. Itu mencari korespondensi gambar diskrit - tujuan dari pekerjaan ini - dapat dibagi menjadi tiga langkah utama. Pertama, 'titik tujuan' dipilih secara khas lokasi dalam gambar, seperti sudut, gumpalan, dan T-junction. Bagian yang paling penting milik detektor titik tujuan pengulangan nya, yaitu apakah detector dapat secara andal menemukan titik tujuan yang sama di bawah kondisi pandang yang berbeda. Selanjutnya, lingkungan dari setiap titik tujuan diwakili oleh vektor fitur. Deskriptor harus khas dan, pada saat yang sama, kuat untuk suara, deteksi kesalahan, dan deformasi geometrik dan fotometrik. Akhirnya, deskriptor vektor yang cocok antara gambar yang y ang berbeda. Pencocokan sering didasarkan pada jarak antara vektor, misalnya Mahalanobis atau jarak Euclidean. Dimensi deskriptor ini memiliki dampak langsung pada waktu yang dibutuhkan, dan angka dimensi yang lebih rendah dari yang diinginkan. Ini telah menjadi tujuan kami untuk mengembangkan baik detektor dan deskriptor, yang dibandingkan dengan pencapaian paling tinggi dari sebuah proses pengembangan yang lebih cepat untuk menghitung, tapi tidak mengorbankan kinerja. Agar berhasil, kita harus menjaga keseimbangan dengan persyaratan, seperti mengurangi dimensi keterangan dan kompleksitas, sementara menjaganya agar tetap cukup khas.
Berbagai macam detektor dan deskriptor telah diusulkan dalam literatur (misalnya [1-6]). Juga, perbandingan rinci dan evaluasi pada patokan dataset telah dilakukan [7-9]. Sementara membangun detektor cepat dan deskriptor, kami dibangun di atas wawasan yang diperoleh dari pekerjaan sebelumnya untuk mendapatkan merasakan apa aspek berkontribusi terhadap kinerja. Dalam percobaan kami pada gambar patokan set serta pada aplikasi pengenalan obyek nyata, dihasilkan detektor dan deskriptor tidak hanya c epat, tetapi juga lebih khas dan sama-sama berulang. Ketika bekerja dengan fitur lokal, masalah pertama yang perlu diselesaikan adalah tingkat yang diperlukan invarian. Jelas, ini tergantung terg antung pada geometri geo metri yang diharapkan dan fotometri deformasi, yang pada gilirannya ditentukan oleh kemungkinan perubahan dalam kondisi pengamatan. Di sini, kita fokus pada skala dan rotasi gambar invari- detektor semut dan deskriptor. Ini tampaknya menawarkan kompromi yang baik antara kompleksitas fitur dan ketahanan untuk sering terjadi deformasi. Skew, skala anisotropik, dan perspektif efek diasumsikan orde kedua efek, yang tertutup untuk beberapa derajat dengan ketahanan keseluruhan deskriptor tersebut. Seperti juga diklaim oleh Lowe [2], kompleksitas tambahan penuh affine-invarian features sering memiliki dampak negatif pada ketahanan mereka dan tidak sesuai, kecuali Perubahan sudut pandang benar-benar besar yang akan diharapkan. Dalam beberapa kasus, bahkan rotasi invarian bisa ditinggalkan, sehingga hanya versi skala-invariant dari kami de- scriptor, yang kita sebut sebagai 'SURF tegak' (U-SURF). Memang, di beberapa aplikasi, seperti ponsel navigasi robot maupun visual wisata membimbing, kamera sering hanya berputar pada sumbu vertikal. Manfaat menghindar dari rotasi invarian berlebihan dalam kasus tersebut tidak hanya peningkatan kecepatan, tetapi juga
meningkatkan daya diskriminatif. Mengenai deformasi fotometrik, kita asumsikan model linier sederhana dengan faktor skala dan offset. Perhatikan bahwa detektor dan deskriptor tidak menggunakan warna. Makalah ini disusun sebagai berikut. Bagian 2 menjelaskan kerja terkait, yang hasil kami didirikan. Bagian 3 menjelaskan skema deteksi titik tujuan. Pada bagian 4, deskriptor baru disajikan. Akhirnya, bagian 5 menunjukkan hasil penelitian kami dan bagian 6 menyimpulkan jurnal ini. 2 Terkait Pekerjaan Tujuan Titik Detektor yang paling banyak digunakan detektor mungkin adalah Harris sudut detector [10], diusulkan kembali pada tahun 1988, berdasarkan nilai-nilai eigen dari kedua saat matriks. Namun, Harris sudut tidak skala invarian. Lindeberg memperkenalkan konsep skala seleksi otomatis [1]. Hal ini memungkinkan untuk mendeteksi titik tujuan dalam gambar, masing-masing dengan skala karakteristik mereka sendiri. D ia bereksperimen dengan kedua determinan dari matriks Hessian serta Laplacian (yang sesuai dengan jejak matriks Hessian) untuk mendeteksi gumpalanseperti struktur. Mikolajczyk dan Schmid disempurnakan metode ini, m enciptakan kuat dan detektor fitur skala invarian dengan pengulangan yang tinggi, yang mereka diciptakan Harris-Laplace dan Hessian-Laplace [11]. Mereka menggunakan (skala-diadaptasi) Harris mengukur atau determinan dari matriks Hessian untuk memilih lokasi, dan Laplacian untuk memilih skala. Berfokus pada kecepatan, Lowe [12] didekati Laplacian of Gaussian (LoG) oleh Perbedaan Gaussians (DoG) filter. Beberapa detektor titik tujuan skala invarian lainnya telah diusulkan. Contohnya adalah detektor daerah yang menonjol yang diusulkan oleh Kadir dan Brady [13], yang memaksimalkan entropi di kawasan ini, dan detektor wilayah tepi berbasis pro- ditimbulkan oleh Jurie et al. [14]. Mereka tampaknya kurang setuju dengan percepatan sekalipun. Juga, beberapa detektor fitur affine-invarian telah diusulkan yang dapat mengatasi Perubahan sudut pandang lagi. Namun, berada di luar cakupan makalah ini. Dengan mempelajari detektor yang ada dan dari perbandingan diterbitkan [15,8], kita dapat menyimpulkan bahwa (1) detektor berbasis Hessian lebih stabil dan ulangi- mampu daripada rekanrekan mereka Harris berbasis. Menggunakan determinan Hessian matriks daripada jejak nya (Laplacian) tampaknya menguntungkan, karena kebakaran kurang pada memanjang, struktur sakit lokal. Juga, (2) perkiraan seperti DoG kaleng membawa kecepatan dengan biaya rendah dalam hal akurasi hilang. Deskriptor Fitur Sebuah berbagai bahkan lebih besar dari fitur deskriptor telah pro-berpose, seperti derivatif Gaussian [16], saat invariants [17], fitur yang kompleks [18,19], filter steerable [20], fitur lokal berbasis fase [21], dan deskriptor wakil- senting distribusi fitur-skala yang lebih kecil dalam titik tujuan meringkik- bourhood. Yang terakhir, diperkenalkan oleh Lowe [2], telah terbukti mengungguli yang lain [7]. Hal ini dapat dijelaskan oleh fakta bahwa mereka menangkap substansial jumlah informasi tentang pola intensitas spasial, sementara pada saat yang sama saat ini kuat untuk deformasi kecil atau kesalahan lokalisasi. Deskriptor dalam [2], yang disebut SIFT untuk jangka pendek, menghitung histogram gradien berorientasi local sekitar titik tujuan dan toko sampah dalam vektor 128-dimensi (8 sampah orientasi untuk masing-masing 4 × 4 lokasi sampah). Berbagai perbaikan pada skema dasar ini telah diajukan. Ke dan Suk- thankar [4] diterapkan PCA pada gambar gradien. PCA-SIFT ini menghasilkan suatu 36 - deskriptor dimensi yang cepat untuk pencocokan, tetapi terbukti kurang pembedaan- tive dari SIFT dalam studi banding kedua oleh Mikolajczyk et al. [8] dan lebih lambat perhitungan fitur mengurangi efek pencocokan cepat. Dalam jurnal yang sama [8], penulis telah mengusulkan varian dari SIFT, disebut GLOH, yang terbukti menjadi lebih khas dengan jumlah yang sama dimensi. Namun, GLOH adalah komputasi lebih mahal. The SIFT deskriptor nampaknya masih menjadi deskriptor yang paling menarik bagi praktikpenggunaan vertikal, dan karenanya juga yang paling banyak digunakan saat ini. Ini adalah khas dan relatif cepat, yang sangat penting untuk aplikasi on-line. Baru-baru ini, Se dkk. [22] diimplementasikan SIFT pada Field Programmable Gate Array (FPGA) dan ditingkatkan kecepatan
dengan urutan besarnya. Namun, dimensi tinggi dari de- scriptor adalah kelemahan dari SIFT pada langkah yang sesuai. Untuk aplikasi on-linepada PC biasa, masing-masing dari tiga langkah (deteksi, deskriptor, pencocokan) harus lebih cepat lagi. Lowe mengusulkan alternatif terbaik-bin-pertama [2] untuk mempercepat langkah pencocokan, namun hasil ini dalam akurasi yang lebih rendah. Pendekatan kami Dalam tulisan ini, kami mengusulkan sebuah novel skema detektordeskriptor, diciptakan SURF (Fitur Handal dipercepat-Up). Detektor ini didasarkan pada Hessian matriks [11,1], tetapi menggunakan pendekatan yang sangat dasar, seperti DoG [2] adalah detektor berbasis Laplacian sangat dasar. Hal ini bergantung pada gambar terpisahkan untuk mengurangi waktu komputasi dan karena itu kami menyebutnya detektor 'Fast-Hessian'. The de- scriptor, di sisi lain, menggambarkan distribusi jawaban Haar wavelet- dalam lingkungan titik tujuan. Sekali lagi, kita mengeksploitasi gambar terpisahkan untuk kecepatan. Selain itu, hanya 64 dimensi yang digunakan, mengurangi waktu untuk fitur-com putation dan pencocokan, dan meningkatkan ketahanan secara bersamaan. Kami juga menyajikan langkah pengindeksan baru berdasarkan tanda Laplacian, yang meningkatkan tidak hanya kecepatan yang cocok, tetapi juga ketahanan deskriptor. Dalam rangka untuk membuat jurnal lebih mandiri, kita singkat membahas con- kecuali gambar terpisahkan, seperti yang didefinisikan oleh [23]. Mereka memungkinkan untuk implementasi yang cepat dari kotak jenis filter konvolusi. Masuknya gambar terpisahkan I di lokasi x = (x,y) merupakan jumlah dari semua piksel dalam gambar input I berbentuk empat persegi panjang daerah yang dibentuk oleh titik x dan asal , saya Dengan IΣ dihitung, hanya membutuhkan waktu empat tambahan untuk menghitung jumlah dari intensitas atas setiap tegak, area persegi, tergantung ukurannya. 3 Fast-Hessian Detector Kami mendasarkan detektor kami pada matriks Hessian karena kinerja yang baik dalam waktu komputasi dan akurasi. Namun, daripada menggunakan ukuran yang berbeda untuk memilih lokasi dan skala (seperti yang dilakukan di Hessian-Laplace detektor [11]), kita bergantung pada determinan Hessian untuk keduanya. Mengingat titik x = (x, y) pada gambar I, matriks Hessian H (x, σ) di x di skala σ didefinisikan sebagai berikut
di mana L xx (X, σ) adalah konvolusi dari Gaussian derivatif urutan kedua
dengan gambar I di titik x, dan juga untuk L Gaussians yang optimal untuk analisis skala-ruang, seperti yang ditunjukkan pada [24]. Dalam prakteknya, Namun, Gaussian perlu didiskritkan dan dipotong (Gambar 1 bagian kiri), dan bahkan dengan Gaussian filter aliasing masih terjadi segera setelah gambar yang dihasilkan subsampel. Juga, properti yang ada struktur baru dapat muncul sementara akan resolusi yang lebih rendah mungkin telah terbukti dalam kasus 1D, namun diketahui tidak berlaku dalam kasus 2D relevan [25]. Oleh karena itu, pentingnya Gaussian tampaknya memiliki telah agak berlebihan dalam hal ini, dan di sini kita menguji alternatif sederhana. Sebagai filter Gaussian adalah non-ideal dalam hal apapun, dan diberi kesuksesan Lowe dengan LoG perkiraan, kita mendorong pendekatan lebih jauh dengan filter box (Gambar 1 setengah benar). Ini perkiraan orde kedua derivatif Gaussian, dan dapat dievaluasi sangat cepat menggunakan gambar terpisahkan, terlepas dari ukuran. Seperti terlihat pada bagian hasil, kinerja yang sebanding dengan yang menggunakan discretized dan dipotong Gaussians.
Kotak 9 × 9 filter pada Gambar. 1 adalah perkiraan untuk urutan kedua Gaussian derivatif dengan σ = 1,2 dan mewakili skala terendah kami (yaitu spasial resolusi tertinggi). Kami menunjukkan perkiraan kami dengan Dxx, Dyy, Dan Dxy
Gambar. . 1 Kiri ke kanan: yang (discretised dan dipotong) Gaussian urutan kedua parsial derivatif dalam arah y dan xy-arah, dan perkiraan kami daripadanya menggunakan kotak filter. Daerah abuabu adalah sama dengan nol.
Bobot diterapkan pada daerah persegi panjang yang dibuat sederhana untuk efisiensi komputasi, tetapi kita perlu untuk lebih menyeimbangkan bobot relatif dalam ekspresi untuk Determinan Hessian dengan
Dimana |x|y adalah norma Frobenius. Ini menghasilkan
. Selain itu, filter tanggapan dinormalisasi sehutujuann dengan ukuran topeng. Hal ini menjamin Frobenius norma konstan untuk setiap ukuran filter. Ruang Skala biasanya diimplementasikan sebagai piramida gambar. Gambar yang berulang kali merapikan dengan Gaussian dan kemudian sub-sampel untuk mencapai tingkat yang lebih tinggi dari piramida. Karena penggunaan filter kotak dan integral gambar, kita tidak perlu iteratif menerapkan filter yang sama dengan output dari sebuah sebelumnya disaring lapisan, melainkan dapat menerapkan filter tersebut dari berbagai ukuran tepat kecepatan yang sama langsung pada gambar asli, dan bahkan secara paralel (meskipun yang terakhiri tidak dieksploitasi di sini). Oleh karena itu, ruang skala dianalisis dengan up-scalling ukuran saringan daripada iteratif mengurangi ukuran gambar. Output dari atas 9 × 9 filter dianggap sebagai lapisan skala awal, yang akan kita lihat sebagai skala s = 1,2 (sesuai dengan derivatif Ga ussian dengan σ = 1,2). Berikut lapisan diperoleh dengan menyaring gambar dengan masker secara bertahap lebih besar, mengambil mempertimbangkan sifat diskrit gambar integral dan struktur spesifik dari filter kami. Secara khusus, hasil ini dalam filter ukuran 9 × 9, 15 × 15, 21 × 21, 27 × 27, dll Pada skala yang lebih besar, langkah antara ukuran saringan berturut-turut juga harus skala sesuai. Oleh karena itu, untuk setiap oktaf baru, peningkatan ukuran filter adalah dua kali lipat (akan 6-12 d 24 tahun). Bersamaan, interval sampel untuk ekstraksi poin tujuan dapat dua kali lipat juga. Sebagai rasio dari tata letak filter kami tetap konstan setelah scaling, kira-kira- imated Gaussian skala derivatif sesuai. Jadi, misalnya, kita 27 × 27 Filter sesuai dengan σ = 3 × 1,2 = 3,6 = s. Selain itu, sebagai norma Frobenius tetap konstan untuk filter kami, mereka sudah skala normal [26]. Dalam rangka untuk melokalisasi titik minat gambar dan atas skala, non- maksimum penindasan dalam 3 × 3 × 3 lingkungan diterapkan. Maxima dari determinan matriks Hessian kemudian diinterpolasi dalam skala dan ruang gambar dengan metode yang diusulkan oleh Brown et al. [27]. Skala ruang antar- polation sangat penting dalam kasus kami, karena perbedaan skala antara
Gambar. . 2 Kiri: Terdeteksi poin menarik untuk bidang Sunflower. Ini semacam adegan menunjukkan jelas sifat fitur dari detektor berbasis Hessian. Tengah: Haar wavelet jenis yang digunakan untuk SURF. Kanan: Detail adegan Graffiti menunjukkan ukuran de- window scriptor pada skala yang berbeda.
lapisan pertama setiap oktaf relatif besar. Gambar. 2 (kiri) menunjukkan contoh dari titik tujuan dideteksi menggunakan ' Fast-Hessian' detektor kami. 4 SURF Deskriptor Kinerja yang baik dari SIFT dibandingkan dengan deskriptor lainnya [8] luar biasa. Campurannya informasi kasar terlokalisir dan distribusi gradien terkait fitur tampaknya menghasilkan daya khas baik saat menangkis efek kesalahan lokalisasi dalam hal skala atau ruang. Menggunakan kekuatan relatif dan orientasi gradien mengurangi efek perubahan fotometri. Usulan deskriptor SURF didasarkan pada sifat yang sama, dengan kompleksitas dipreteli lebih jauh. Langkah pertama terdiri dari memperbaiki direproduksi Orientasi berdasarkan informasi dari daerah melingkar di sekitar titik tujuan. Kemudian, kita membangun suatu daerah persegi sejalan dengan orientasi yang dipilih, dan mantan- saluran deskriptor SURF dari itu. Kedua langkah sekarang dijelaskan pada gilirannya. Selain itu, kami juga mengusulkan versi tegak deskriptor kami (U-SURF) yang tidak invarian rotasi gambar dan karena itu lebih cepat untuk menghitung dan lebih cocok untuk aplikasi di mana kamera tetap lebih atau kurang horisontal. 4.1 Orientasi Tugas Agar invarian rotasi, kami mengidentifikasi orientasi direproduksi untuk tujuan poin. Untuk itu, pertama kita menghitung tanggapan Haar wavelet- dalam x dan y arah, ditunjukkan pada Gambar. 2, dan ini di lingkungan yang melingkar 6s radius sekitar titik tujuan, dengan s skala di mana titik tujuan terdeteksi. Juga langkah sampling skala tergantung dan dipilih untuk menjadi s. Di sesuai dengan sisanya, juga tanggapan wavelet dihitung pada saat itu saat skala s. Dengan demikian, pada skala tinggi dengan ukuran wavelet besar. Oleh karena itu, kami menggunakan gambar lagi terpisahkan untuk penyaringan cepat. Hanya enam operasi yang diperlukan untuk menghitung respon in x atau y arah pada skala apapun. Sisi panjang wavelet adalah 4s. Setelah tanggapan wavelet dihitung dan ditimbang dengan Gaussian (σ = 2.5s) berpusat pada titik tujuan, tanggapan yang direpresentasikan sebagai vektor dalam ruang dengan kekuatan respon horisontal di sepanjang absis dan vertical Kekuatan respon di sepanjang ordinat. Orientasi dominan diperkirakan oleh menghitung jumlah semua tanggapan dalam jendela geser orientasi meliputi sudut π/3. Tanggapan horizontal dan vertikal dalam jendela yang dijumlahkan. Kedua tanggapan dijumlahkan kemudian menghasilkan vektor baru. Terpanjang seperti vektor meminjamkan orientasinya ke titik tujuan. Ukuran dari jendela geser adalah parameter, yang telah dipilih secara eksperimental. Kecil ukuran kebakaran pada single mendominasi tanggapan wavelet, ukuran besar menghasilkan maxima panjang vektor yang tidak blak-blakan. Kedua hasil dalam orientasi stabil daerah tujuan. Catatan U-SURF melompati langkah ini. 4.2 Penjelasan Komponen
Untuk ekstraksi deskriptor, langkah pertama terdiri dari membangun wilayah persegi berpusat di sekitar titik tujuan, dan berorientasi sepanjang orientasi tion dipilih pada bagian sebelumnya. Untuk versi tegak, transformasi ini tidak diperlukan. Ukuran jendela ini adalah 20an. Contoh daerah persegi tersebut diilustrasikan pada Gambar. 2. Wilayah ini dibagi secara teratur menjadi lebih kecil 4 × 4 persegi sub-daerah. Iniv menyimpan informasi spasial penting masuk Untuk setiap sub-region, kita menghitung beberapa fitur sederhana pada 5 × 5 titik sampel secara teratur spasi. Untuk alasan kesederhanaan, kita sebut dx respon wavelet Haar dalam arah horisontal dan d y Haar yang merespon wavelet dalam arah vertikal (2s ukuran filter). "Horizontal" dan "vertikal" di sini didefinisikan dalam kaitannya dengan orientasi titik tujuan yang dipilih. Untuk meningkatkan ketahanan terhadap deformasi geometrik dan kesalahan lokalisasi, re-the sponses dx dan dy pertama kali tertimbang dengan Gaussian (σ = 3 .3s) berpusat di titik tujuan. Kemudian, respon wavelet dx dan dy diringkas atas setiap subkawasan dan membentuk set pertama entri ke vektor fitur. Dalam rangka untuk membawa di- formasi tentang polaritas perubahan intensitas, kami juga mengekstrak penjumlahan dari nilai absolut dari tanggapan, |dx| dan |dy|. Oleh karena itu, setiap sub-regionmemiliki vektor deskriptor empat dimensi v untuk struktur intensitas yang mendasarinya
Hal ini menghasilkan vektor deskriptor untuk semua 4 × 4bsub-daerah panjang 64. Respon wavelet yang invarian untuk bias dalam menerangi bangsa (offset). Invarian kontras (faktor skala) dicapai dengan memutar deskriptor menjadi vektor satuan. Gambar. 3 menunjukkan sifat keterangan selama tiga khas yang berbeda pola intensitas citra dalam sub regional a. Satu bisa membayangkan kombinasi pola intensitas setempat tersebut, sehingga deskriptor khas. Untuk sampai pada deskriptor ini SURF, kami bereksperimen dengan 2 2 sedikit dan fitur lebih wavelet, menggunakan d xdan d y, Tingkat tinggi wavelet, PCA, median, nilai rata-rata, dll Dari evaluasi menyeluruh, set diusulkan berubah
Gambar. 3. Entri deskriptor dari sub-wilayah merupakan sifat yang mendasari Pola intensitas. Kiri: Dalam hal suatu wilayah homogen, semua nilai yang relatif rendah. Tengah: Di hadapan frekuensi dalam arah x, nilai Yang tinggi, tetapi semua lain tetap rendah. Jika intensitas secara bertahap meningkat di arah x, kedua nilai Tinggi.
keluar untuk melakukan yang terbaik. Kami kemudian bervariasi jumlah titik sampel dan sub-daerah. 4 × 4 divisi sub-region solusi memberikan hasil terbaik. Mengingat halus subdivisi tampaknya kurang kuat dan akan meningkatkan waktu pencocokan juga banyak. Di sisi lain, deskriptor singkat dengan 3 × 3 subregional (SURF-36) melakukan lebih buruk, tapi memungkinkan untuk pencocokan sangat cepat dan masih cukup dapat diterima dibandingkan dengan deskriptor lainnya dalam literatur. Gambar. 4 menunjukkan hanya beberapa ini hasil perbandingan (SURF-128 akan dijelaskan kemudian).
Gambar 4. Penarikan kembali vs (1-presisi) Grafik 4. Untuk metode Binning yang berbeda dan dua berbeda strategi pencocokan diuji pada 'Graffiti' urutan (gambar 1 dan 3) dengan perubahan tampilan dari 30 derajat, dibandingkan dengan deskriptor saat ini. Titik tujuan dihitung dengan detektor kami 'Fast Hessian'. Perhatikan bahwa titik tujuan tidak affine invariant. Hasilnya karena itu tidak sebanding dengan yang di [8]. SURF-128 berkorespondensi dengan deskriptor diperpanjang. Kiri: Strategi pencocokan Kesamaan-threshold berbasis. Kanan: Strategi pencocokan terdekat-tetangga-rasio (Lihat bagian 5).
Kami juga menguji versi alternatif dari deskriptor SURF yang menambahkan beberapa fitur serupa (SURF-128). Ini lagi menggunakan jumlah yang sama seperti sebelumnya, tapi sekarang membagi nilai-nilai atas lebih lanjut. Penjumlahan dx dan |dx| Dihitung terpisah untuk dy<0 dan dy≥ 0. Demikian pula, jumlah dari dy dan |dy| Dibagi sesuai dengan tanda dx, Sehingga menggandakan jumlah fitur. Itu deskriptor lebih khas dan tidak jauh lebih lambat untuk menghitung, tapi lebih lambat untuk cocok karena dimensi yang lebih tinggi. Dalam Gambar 4, pilihan parameter dibandingkan untuk 'Graffiti' standar adegan, yang adalah yang paling menantang dari semua adegan di set evaluasi Mikolajczyk [8], karena mengandung rotasi outof-plane, rotasi di-pesawat serta perubahan kecerahan. Diperpanjang keterangan untuk 4 × 4 subregional (SURF-128) keluar untuk melakukan yang terbaik. Juga, SURF berkinerja baik dan lebih cepat untuk menangani. Keduanya mengungguli pencapaian paling tinggi dari sebuah proses pengembangan. Untuk indeks cepat selama tahap pencocokan, tanda Laplacian (yaitu jejak matriks Hessian) untuk titik kepentingan yang mendasari disertakan. Biasanya, poin tujuan ditemukan di struktur gumpalan-jenis. Tanda Laplacian membedakan gumpalan terang pada latar belakang gelap dari sebaliknya situasi. Fitur ini tersedia tanpa biaya komputasi tambahan, seperti itu sudah dihitung selama fase deteksi. Pada tahap pencocokan, kita hanya membandingkan fitur jika mereka memiliki tipe yang sama kontras. Oleh karena itu, ini minimal Informasi memungkinkan untuk pencocokan lebih cepat dan memberikan sedikit peningkatan kinerja. 5 Hasil Eksperimen
Pertama, kami menyajikan hasil pada satu set standar evaluasi, fot baik detektor dan deskriptor. Selanjutnya, kita membahas hasil yang diperoleh dalam pengenalan obyek kehidupan nyata aplikasi. Semua detektor dan deskriptor dalam perbandingan didasarkan pada implementasi asli penulis. Evaluasi standar Kami menguji detektor dan deskriptor menggunakan gambar urutan dan 3 pengujian perangkat lunak yang disediakan oleh Mikolajczyk . Ini adalah gambar dari bertekstur dan terstruktur adegan nyata. Karena keterbatasan ruang, kita tidak dapat menunjukkan hasilnya pada semua urutan. Untuk perbandingan detektor, kami memilih dua Perubahan sudut pandang (Graffiti dan Wall), satu zoom dan rotasi (Boat) dan pencahayaan perubahan (Leuven) (lihat Gambar. 6, dibahas di bawah). Evaluasi adalah deskriptor ditampilkan untuk semua urutan kecuali urutan Bark (lihat Gambar. 4 dan 7). Untuk detektor, kita menggunakan nilai pengulangan, seperti yang
dijelaskan dalam [9]. Ini menunjukkan berapa banyak titik tujuan terdeteksi ditemukan di kedua gambar, relatif terhadap terendah jumlah angka tujuan ditemukan (di mana hanya bagian dari gambar yang terlihat di kedua gambar diperhitungkan). Detektor dibandingkan dengan perbedaan Gaussian (DoG) detektor oleh Lowe [2], dan Harris-dan Hessian-Laplace detektor diusulkan oleh Mikola- jczyk [15]. Jumlah titik tujuan temukan adalah rata-rata sangat mirip untuk semua 3: http://www.robots.ox.ac.uk/~VGG / penelitian / affine / detektor. Ini berlaku untuk semua gambar, termasuk dari database yang digunakan dala percobaan pengenalan obyek, lihat Tabel 1 untuk contoh. Seperti dapat dilihat detektor kami 'Fast-Hessian' lebih dari 3 kali lebih cepat bahwa DoG dan 5 kali lebih cepat dari Hessian-Laplace. Pada saat yang sama, pengulangan untuk detektor kami sebanding (Graffiti, Leuven, Boats) atau bahkan lebih baik (Wall) daripada untuk com- petitors. Perhatikan bahwa urutan Graffiti dan Wall mengandung rotasi out-of-plane, mengakibatkan deformasi affine, sedangkan detektor dalam perbandingan hanya rotasi dan skala invarian. Oleh karena itu, deformasi ini harus ditangani oleh ketahanan keseluruhan fitur. Deskriptor dievaluasi menggunakan recall-(1-presisi) grafik, seperti dalam [4] dan [8]. Untuk setiap evaluasi, kami menggunakan pertama dan citra keempat dari urutan, kecuali untuk Graffiti (gambar 1 dan 3) dan Wall scene (gambar 1 dan 5), sesuai dengan perubahan sudut pandang 30 dan 50 derajat, masing-masing. Dalam ara ures 4 dan 7, kami membandingkan deskriptor SURF kami GLOH, SIFT dan PCA-SIFT, berdasarkan poin tujuan dideteksi dengan 'Fast-Hessian' detektor kami. SURF out-melakukan deskriptor lainnya untuk hampir semua perbandingan. Dalam Gambar. 4, kami membandingkan hasil menggunakan dua teknik pencocokan yang berbeda, yang didasarkan pada ambang kesamaan dan satu berdasarkan rasio tetangga terdekat (lihat [8] untuk diskusi tentang teknik ini). Ini memiliki efek pada ranking dari deskriptors, namun ombak terbaik dilakukan dalam kedua kasus. Karena keterbatasan ruang, hanya Hasil di ambang kemiripan berdasarkan pencocokan ditunjukkan pada Gambar. 7, karena hal ini teknologi-nique lebih cocok untuk mewakili distribusi deskriptor dalam fitur space [8] dan dalam penggunaan yang lebih umum. The SURF deskriptor melebihi deskriptor lainnya secara sistematis dan cara yang signifikan, dengan kadang-kadang peningkatan lebih dari 10% dalam mengingat untuk tingkat yang sama presisi. Pada saat yang sama, itu adalah cepat untuk menghitung (lihat Tabel 2). Versi akurat (SURF-128), yang disajikan dalam bagian 4, menunjukkan sedikit bertaruh-= ter hasil dari SURF biasa, tetapi lebih lambat untuk mencocokkan dan karena itu kurang menarik untuk aplikasi tergantung pada kecepatan. Perhatikan bahwa seluruh jurnal, termasuk percobaan pengenalan obyek, kami selalu menggunakan set yang sama parameter dan ambang batas (lihat tabel 1). Itu timing dievaluasi pada PC Linux standar (Pentium IV, 3GHz). Obyek Pengakuan Kami juga menguji fitur baru pada aplikasi praktis, bertujuan untuk mengenali benda-benda seni di museum. Database terdiri dari 216 gambar 22 obyek. Gambar-gambar dari set uji (116 gambar) diambil un- detector ambang nb poin comp. waktu (msec)
Tabel 1. Ambang batas, jumlah poin terdeteksi dan perhitungan waktu untuk detector dibandingkan kami. (Image Pertama Graffiti adegan, 800 × 640)
Tabel 2 Perhitungan waktu untuk detektor sendi -. Implementasi deskriptor, diuji pada gambar pertama dari urutan Graffiti. Ambang batas yang disesuaikan untuk mendeteksi jumlah poin yang sama menarik untuk semua metode. Ini adalah kecepatan relative juga perwakilan untuk gambar lainnya.
der berbagai kondisi, termasuk perubahan pencahayaan ekstrim, benda dalam merefleksikan lemari kaca, perubahan sudut pandang, zoom, kualitas kamera yang berbeda, dll Lebih- atas, gambar kecil (320 × 240) dan karena itu lebih menantang untuk objek pengakuan, karena banyak detail tersesat. Dalam rangka untuk mengenali objek dari database, kita lanjutkan sebagai berikut. Gambargambar di set uji dibandingkan dengan semua gambar di set acuan oleh pencocokan poin kepentingan masing-masing. Tujuannya ditampilkan pada referensi= gambar dengan jumlah tertinggi pertandingan sehutujuann dengan citra uji dipilih sebagai obyek yang diakui. Pencocokan dilakukan sebagai berikut. Titik kepentingan citra uji dibandingkan dengan titik minat dalam referensi gambar dengan menghitung Eu- jarak antara vektor clidean deskriptor mereka. Sepasang pencocokan terdeteksi, jika jaraknya lebih dekat dari 0,7 kali jarak terdekat kedua tetangga- bour. Ini adalah strategi pencocokan rasio tetangga terdekat [18,2,7]. Jelas, kendala geometris tambahan mengurangi dampak dari pertandingan positif palsu, namun ini dapat dilakukan di atas matcher apapun. Untuk membandingkan alasan, ini tidak masuk akal, karena ini dapat menyembunyikan kekurangan dari skema dasar. Rata-rata tingkat pengakuan mencerminkan hasil evaluasi kinerja kami. Pemimpin adalah SURF-128 dengan tingkat pengenalan 85,7%, diikuti oleh USURF (83,8%) dan SURF (82,6%) . Deskriptor lainnya mencapai 78,3% (GLOH), 78,1% (SIFT) dan 72 ,3% (PCA-SIFT).
Gambar. 5. Sebuah contoh gambar dari set referensi (kiri) dan Uji set (kanan). Catatan perbedaan sudut pandang dan warna.
Gambar. 6. Skor Pengulangan untuk urutan gambar, dari kiri ke kanan dan atas ke bawah, Dinding dan Graffiti (Ganti Viewpoint), Leuven (Lighting Ganti) dan Boat (Zoom dan Rotasi). 6 Kesimpulan Kami telah menyajikan deteksi & deskripsi cepat dan performant titik tujuan Skema yang melebihi pencapaian paling tinggi dari sebuah proses pengembangan saat ini, baik dalam kecepatan dan akurat cabul. Deskriptor ini mudah diperpanjang untuk deskriptor affine invariant regional. Kerja masa depan akan bertujuan mengoptimalkan kode untuk kecepatan tambahan. Ko de biner dari versi terbaru tersedia di internet Ucapan Terima Kasih: Para penulis berterima kasih atas dukungan dari Swiss SNF NCCR proyek IM2, Toyota-TME dan Dana Penelitian Ilmiah Flemish.