Mehmet Turan
Emin Tenekeci
Kemal Güner
Her geçen gün farklı bir alanda kullanılmaya başlanan ve başarılı sonuçlar sergileyen GPU’nun veri tabanlarında kullanılmasına yönelik çalışmalar giderek yaygınlaşmaktadır. Ayrıca dağıtık sistemlerde ve bilgisayar ağlarında da, birden fazla düğümde paralel işleme yeteneklerinden yararlanarak hesaplama görevlerini hızlandırmaya ve yüksek hesaplama gücü gerektiren ağ trafiği analizi, gerçek zamanlı veri işleme gibi görevlerde etkin olmaktadır. Hayatın her alanda gerçekleşen dijital dönüşüm veri çeşitliliğinde artış, verilerin daha hızlı analiz edilebilmesi vb. ihtiyaçların ortaya çıkmasına neden olmuştur. Bu verilerin analizi için sistem donanım kapasitesinin artırılması veya yazılım temelli çalışmalar ile ihtiyaçların karşılanabilmesine yönelik çözümler bulunmaktadır. Bu çalışmada ise büyük verilerde Apache Spark ve GPU’nun yaygın olarak kullanılan SQL sorgularındaki performans farklılıkları incelenmiştir. Bu kapsamda veri analizinde genel olarak kullanılan gruplandırma, sıralama ve filtreleme gibi SQL sorguları kullanılmıştır. GPU ile gerçekleştirilen sorguların Apache Spark ile gerçekleştirilen sorgulara göre basit sorgularda benzer sonuçlar sergilerken, hesaplama gerektiren sorgularda GPU’nun 3x kadar daha kısa sürede sonuçlandırmıştır.
Mehmet Turan
Emin Tenekeci
Kemal Güner
The use of GPU in different fields and its successful results initiate efforts to use GPU in database systems. It is also effective in distributed systems and computer networks in that accelerates computational tasks by leveraging parallel processing capabilities across multiple nodes and for tasks that require high computational power, such as network traffic analysis and real-time data processing. Digital transformation in all areas of life has led to the emergence of needs such as increased data diversity and faster data analysis. Upgrading the hardware capacity of the system or software-based studies are possible solutions to analyze this data for meeting the needs. In this study, Apache Spark and GPU performance differences are examined in commonly used SQL queries on big data. In this context, SQL queries such as grouping, sorting, and filtering, which are commonly used in data analysis, are used. While the queries performed with the GPU showed similar results in simple queries compared to the queries performed with Apache Spark, the GPU was completed 3x faster in queries requiring calculation.
