Görsel verilerin işlenmesi ve metne dönüştürülmesi, dijital dünyada bilgi erişimi ve veri analizi gibi alanlarda çok önemli bir rol oynamaktadır. Bu noktada, görsel ve metinsel veriler arasındaki boşluğu dolduran "resimden metne" dönüşüm, araştırmacılar ve sektör uzmanlarından büyük ilgi görmektedir. Bu makale, görüntülerden metin oluşturma üzerine bir çalışma sunmaktadır. Çalışma, görüntüden metne üretim için kodlayıcı-kod çözücü tabanlı Inception v3 derin öğrenme mimarisine bir dikkat mekanizması eklemenin katkısını ölçmeyi amaçlamaktadır. Modelde, Inception v3 modeli, görüntü özelliklerini çıkarmak için Flickr8k veri kümesinde eğitilmiştir. Bir sonraki kelime tahmini için dikkat mekanizmalı kodlayıcı-kod çözücü yapısı kullanılmaktadır ve model, performans değerlendirmesi için Flickr8k veri setinin tren görüntüleri üzerinde eğitilmektedir. Deneysel sonuçlar, modelin görüntülerdeki nesneleri doğru bir şekilde algılama konusundaki tatmin edici becerisini göstermektedir.
Inception v3 Modeli Dikkat Mekanizmaları Metinsel İçerik Çıkarımı Görüntüden Metne Üretim
Processing visual data and converting it into text plays a crucial role in fields like information retrieval and data analysis in the digital world. At this juncture, the "image-to-text" transformation, which bridges the gap between visual and textual data, has garnered significant interest from researchers and industry experts. This article presents a study on generating text from images. The study aims to measure the contribution of adding an attention mechanism to the encoder-decoder-based Inception v3 deep learning architecture for image-to-text generation. In the model, the Inception v3 model is trained on the Flickr8k dataset to extract image features. The encoder-decoder structure with an attention mechanism is employed for next-word prediction, and the model is trained on the train images of the Flickr8k dataset for performance evaluation. Experimental results demonstrate the model's satisfactory ability to accurately perceive objects in images.
Inception v3 Model Attention Mechanisms Textual Content Extraction Image-to-Text Generation
Birincil Dil | İngilizce |
---|---|
Konular | Doğal Dil İşleme |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 31 Aralık 2023 |
Yayımlanma Tarihi | 31 Aralık 2023 |
Gönderilme Tarihi | 10 Ağustos 2023 |
Yayımlandığı Sayı | Yıl 2023 |