human behaviors such as artificial intelligence, machine learning and deep learning are preferred to make sense of these data with human power. Deep learning, which is the sub-branch of machine learning, is used in many areas such as face recognition, voice recognition, object recognition, automotive, defense, health, entertainment and marketing sectors and has recently become a solution to many problems. Text recognition studies are also a problem researched in the field of deep learning. Deep learning uses many process steps for feature extraction and transformation. This structure, which is based on learning of its features and their representations, is handled with a hierarchical structure in the learning process. The success of deep learning algorithms for extraction and representation of features in text and character-based operations on text images is also demonstrated by studies. Convolutional Neural Network (CNN), one of the deep learning architectures, is better than a feed forward network in analyzing text images with its features of sharing parameters and dimension reduction. The success of the Recurrent Neural Network (RNN) architecture on time series data shows successful results with the CNN architecture for character detection from text images. Connectionist Temporal Classification (CTC) which a loss function used to train neural networks can create possibilities to tag data without the need for aligned data when input is given. Thus, it ensures correct identification of characters on text images. In this study, the CRNN architecture was created considering the success of CNN's feature detection on the architecture, on the past and future contexts. 90% of the 50.000 image data created using the Synth90k data set were determined as training and 10% as test data set. This character, which has been successfully detected on text images, is aimed to be used in mobile-based routing application with its success in revealing the appropriate text.
Her alanda dijitalleşmenin sonucunda veri miktarı gün geçtikçe büyük miktarda artmaktadır. Bu verilerin insan gücüyle anlamlandırılması için yapay zeka, makine öğrenmesi ve derin öğrenme gibi insan davranışlarını taklit eden bilgisayar sistemleri tercih edilmektedir. Makine öğrenmesinin alt dalı olan derin öğrenme yüz tanıma, ses tanıma, nesne tanıma, otomotiv, savunma, sağlık, eğlence ve pazarlama sektörleri gibi çok fazla alanda kullanılmaktadır ve son dönemlerde birçok probleme çözüm niteliği taşımaktadır. Metin tanıma çalışmaları da derin öğrenme alanında ele alınan bir problemdir. Derin öğrenme özellik çıkarımı ve dönüşümü için birçok işlem adımı kullanır. Özelliklerin ve temsillerinin öğrenilmesine dayanan bu yapı, öğrenme işleminde hiyerarşik bir yapı ile ele alınır. Metin görüntüleri üzerinde yazı ve karakter tabanlı yapılan işlemlerde de özelliklerin çıkarımı ve temsili için derin öğrenme algoritmaları başarısı yapılan çalışmalar ile ortaya konulmaktadır. Derin öğrenme mimarilerinden Evrişimli Sinir Ağı, parametrelerin paylaşımı ve boyut azaltması özellikleri ile metin görüntülerinin analiz edilmesinde ileri beslemeli bir ağdan daha iyidir. Tekrarlayan Sinir Ağı mimarisinin zaman serisine bağlı veriler üzerindeki başarısı, metin görüntülerinden karakter tespiti için Evrişimli Sinir Ağı mimarisi ile başarılı sonuçlar ortaya koymaktadır. Sinir ağlarını eğitmek için kullanılan bir kayıp fonksiyonu olan Bağlantıcı Geçici Sınıflandırma, girdi verildiğinde hizalanmış verilere gerek duymadan veri etiketlemek için olasılık oluşturabilmektedir. Böylece, metin görüntüleri üzerinde karakterlerin doğru tespit edilmesini sağlamaktadır. Bu çalışmada, Evrişimli Sinir Ağının görüntü üzerindeki öznitelik tespit başarısı ile bir Tekrarlayan Sinir Ağı mimarisi olan İki Yönlü Uzun-Kısa Süreli Belleğin geçmiş ve gelecek bağlamları göz önüne alarak karakterlerin tespitindeki başarısı, Bağlantıcı Geçici Sınıflandırma ile birleştirilerek Evrişimli Tekrarlayan Sinir Ağı mimarisi oluşturulmuştur. Synth90k veri seti kullanılarak oluşturulan 50.000 görüntü verisinin % 90'ı eğitim, % 10'u test veri seti olarak belirlenmiştir. Evrişimli Tekrarlayan Sinir Ağı kullanılarak tasarlanan ağın karakter tespiti için doğruluk oranı %90 olarak elde edilmiştir. Metin görüntüleri üzerinde başarılı bir şekilde tespit edilen bu karakterin uygun metni ortaya çıkarmadaki başarısı ile mobil tabanlı yönlendirme uygulamasında kullanılması hedeflenmektedir.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Makaleler |
Authors | |
Publication Date | November 10, 2021 |
Submission Date | January 22, 2021 |
Acceptance Date | May 1, 2021 |
Published in Issue | Year 2022 Volume: 37 Issue: 1 |