Işığın değişkenliği, arka plan karmaşası, şiddetli bulanıklık, tutarsız çözünürlük ve farklı ölçekli derinlik gibi birçok faktörden dolayı doğal görüntülerde karakter tanıma oldukça zor problemdir. Bu özelliklerin yanı sıra sokak görünüm fotoğraflarında doğa olaylarının da etkisiyle karakterlerde ve sayılarda bozulmalara rastlanır. Sokak görünümlerinden kapı numaralarını tespit etmek ve okumak, doğal sahne metni tanıma kategorisine giren bir bilgisayar görme problemidir. Evrişimsel sinir ağı (convolutional neural network - CNN) modeli görüntü analizlerinde en sık kullanılan derin öğrenme (deep learning - DL) yöntemlerinden biridir. Bu çalışmada, ilk olarak doğal görüntülerinde kapı numarası bulunan görüntülerden karakter okumak için CNN temelli DL yöntemi uygulanmıştır. Ancak, özellikle görüntüde birden fazla kapı numarasının olduğu veya derinliklerin çok değişken olduğu durumlarda yeterince başarılı sonuçlar elde edilememiştir. DL yönteminin doğruluğunu artırmak aynı zamanda doğal görüntülerin oluşturduğu veri boyutunu azaltmak için farklı iki adet CNN modeli kullanan yeni bir yaklaşım DDL (deep in deep learning) önerilmiştir. Önerilen DDL yaklaşımının performansı, Kayseri Büyükşehir Belediyesi (KBB) Yeşilhisar ilçesinin 2019 yılına ait GPS konum bilgisiyle fotoğrafı çekilen 35 adet mahallenin bina sokak görüntülerinden oluşan 113 GB (gigabayt) boyuta sahip 17.618 adet görüntü içeren gerçek veriler kullanılarak, DL yaklaşımının performansıyla karşılaştırılmıştır. Deneysel sonuçlar, önerilen DDL yaklaşımının DL yaklaşımına göre daha doğru sonuçlar ürettiğini ve daha az depolama alanı kullandığını göstermektedir.
Evrişimsel sinir ağı Derin öğrenme Çoklu kapı numarası tespiti ve kümeleme
Kayseri Büyükşehir Belediyesi'ne Yeşilhisar ilçesinin 2019 yılına ait koordinatlı ve içerisinde kapı numarası içeren görüntüleri paylaştığı için teşekkür ederiz.
Character recognition in natural images is a very difficult problem due to many factors such as variability of light, background clutter, severe blur, inconsistent resolution and different scale depth. In addition to these features, distortions in characters and numbers are encountered in street view photographs with the effect of natural events. Detecting and reading house numbers from street views is a computer vision problem that falls under the category of natural scene text recognition. Convolutional neural network (CNN) model is one of the most commonly used deep learning (DL) methods in image analysis. In this study, firstly, CNN based DL method was applied to read characters from pictures that contain house numbers in their natural image. However, successful results could not be obtained, especially in cases where there are more than one house number in the image or when the depths are very variable. A new approach DDL (deep in deep learning) using two different CNN models was proposed to increase the accuracy of the DL method and also to reduce the data size created by natural images. The performance of the proposed DDL approach was compared with the performance of the DL approach using real data consisting of 17,618 images with 113 GB (gigabyte) size consisting of building street images with GPS location information taken from 35 neighborhoods of Kayseri Metropolitan Municipality (KBB) Yeşilhisar district for 2019. Experimental results showed that the proposed DDL approach produced more accurate results and used less storage space than DL approach
Convolutional neural network Deep learning Multiple house numbers detection and clustering
Birincil Dil | Türkçe |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 28 Şubat 2022 |
Gönderilme Tarihi | 2 Nisan 2021 |
Kabul Tarihi | 21 Ağustos 2021 |
Yayımlandığı Sayı | Yıl 2022 Cilt: 37 Sayı: 2 |