The secondhand vehicle market in Türkiye has always been active. In the secondhand vehicle market, information such as brand, model, and fuel type can be analyzed, and this information can be made useful. Prices vary according to the various features of the vehicles. Machine learning techniques can predict prices and help users set prices when selling or buying vehicles. Price prediction falls under regression. Since the number of secondhand vehicles is quite high, big data systems are used. Apache Spark and its machine learning library are quite useful for this. Linear regression, decision tree regression, random forest regression, GBT regression, and isotonic regression algorithms are used for price prediction. The random forest algorithm achieved the highest success for the price prediction with 21435.09 RMSE and 0.887 R2 values. As a result of the statistical tests performed to check the significant difference between the RMSE and R2 values obtained with the random forest algorithm and other algorithms, it is concluded that the results obtained with the random forest algorithm are statistically better than other algorithms. The random forest algorithm gives better results because the algorithm performs training over multiple decision trees, its flexibility, and strong hyperparameters.
Türkiye’de ikinci el araç piyasası her zaman hareketli olmuştur. İkinci el araç piyasasında marka, model, yakıt türü gibi özelliklerin ne kadar yoğunlukta olduğu, ne kadar fiyata etki ettiği gibi faktörler analiz edilerek, bu bilgiler kullanışlı hale getirilebilir. Araçların çeşitli özelliklerine göre fiyatları değişmektedir. Fiyatları tahmin edebilmek için makine öğrenme teknikleri kullanılabilir ve kullanıcıların araç satarken veya alırken fiyat belirlemelerine yardımcı olabilir. Fiyat tahmini, veri madenciliğinin bir görevi olan fonksiyon tahmini veya regresyon sınıfına girmektedir. İkinci el araç sayısı oldukça fazla olduğundan dolayı bu çalışmada analizler yapılırken büyük veri sistemleri kullanılmıştır. Apache Spark ve makine öğrenme kütüphanesi bunun için oldukça kullanışlıdır. Fiyat tahmini için doğrusal regresyon, karar ağacı regresyonu, rastgele orman regresyonu, GBT regresyonu, izotonik regresyon algoritmaları kullanılmıştır. Kullanılan algoritmalar ile araçların fiyat tahmini yapılmıştır ve en yüksek başarıyı 21435,09 RMSE ve 0,887 R2 değerleriyle rastgele orman algoritması elde etmiştir. Rasgele orman algoritması ve diğer algoritmalarla elde edilen RMSE ve R2 değerleri arasında anlamlı bir farklılık olup olmadığını kontrol için yapılan istatistiksel testler sonucunda, rasgele orman algoritması ile elde edilen sonuçların daha iyi olduğu sonucuna ulaşılmıştır. Rasgele orman algoritmasının daha iyi sonuçlar vermesinin nedeni, algoritmanın birden çok karar ağacı üzerinden eğitim gerçekleştirmesi, esnekliği ve güçlü hiper parametrelere sahip olmasıdır.
Primary Language | Turkish |
---|---|
Subjects | Engineering |
Journal Section | Makaleler |
Authors | |
Publication Date | April 12, 2023 |
Submission Date | August 14, 2021 |
Acceptance Date | November 2, 2022 |
Published in Issue | Year 2023 Volume: 38 Issue: 4 |