The effective development and design of pharmaceuticals hold fundamental importance in the fields of medicine and the pharmaceutical industry. In this process, the accurate prediction of drug molecule solubility is a critical factor influencing the bioavailability, pharmacokinetics, and toxicity of drugs. Traditionally, mathematical equations based on chemical and physical properties have been used for drug solubility prediction. However, in recent years, with the advancement of artificial intelligence and machine learning techniques, new approaches have been developed in this field. This study evaluated different modeling approaches consisting of Graph Neural Networks (GNN), Multilayer Perceptron (MLP), and traditional Machine Learning (ML) algorithms. The Random Forest (RF) model stands out as the optimal performer, manifesting superior efficacy through the attainment of minimal error rates. It attains a Root Mean Square Error (RMSE) value of 1.2145, a Mean Absolute Error (MAE) value of 0.9221, and an R-squared (R2) value of 0.6575. In contrast, GNN model displays comparatively suboptimal performance, as evidenced by an RMSE value of 1.8389, an MAE value of 1.4684, and an R2 value of 0.2147. These values suggest that the predictions of this model contain higher errors compared to other models, and its explanatory power is lower. These findings highlight the performance differences among different modeling approaches in drug solubility prediction. The RF model is shown to be more effective than other methods, while the GNN model performs less effectively. This information provides valuable insights into which model should be preferred in pharmaceutical design and development processes.
Machine Learning Drug solubility Graph Neural Networks Regression models
On behalf of all authors, the corresponding author states that there is no conflict of interest.
This study was not supported by any funding organisation.
İlaçların etkin bir şekilde geliştirilmesi ve tasarlanması, tıp ve ilaç endüstrisi alanlarında temel öneme sahiptir. Bu süreçte, ilaç molekülünün çözünürlüğünün doğru bir şekilde tahmin edilmesi, ilaçların biyoyararlanımını, farmakokinetiğini ve toksisitesini etkileyen kritik bir faktördür. Geleneksel olarak, ilaç çözünürlüğü tahmini için kimyasal ve fiziksel özelliklere dayalı matematiksel denklemler kullanılmıştır. Ancak son yıllarda yapay zekâ ve makine öğrenimi tekniklerinin ilerlemesiyle bu alanda yeni yaklaşımlar geliştirilmiştir. Bu çalışmada, Grafik Sinir Ağları (GNN), Çok Katmanlı Algılayıcı (MLP) ve geleneksel Makine Öğrenmesi (ML) algoritmalarından oluşan farklı modelleme yaklaşımları değerlendirilmiştir. Rastgele Orman (RF) modeli, minimum hata oranlarına ulaşarak üstün etkinlik gösteren en iyi performans gösteren model olarak öne çıkmaktadır. Kök Ortalama Kare Hata (RMSE) değeri 1,2145, Ortalama Mutlak Hata (MAE) değeri 0,9221 ve R-kare (R2) değeri 0,6575'tir. Buna karşılık GNN modeli, 1,8389 RMSE değeri, 1,4684 MAE değeri ve 0,2147 R2 değeri ile kanıtlandığı üzere nispeten düşük bir performans sergilemektedir. Bu değerler, bu modelin tahminlerinin diğer modellere kıyasla daha yüksek hata içerdiğini ve açıklayıcı gücünün daha düşük olduğunu göstermektedir. Bu bulgular, ilaç çözünürlüğü tahmininde farklı modelleme yaklaşımları arasındaki performans farklılıklarını vurgulamaktadır. RF modelinin diğer yöntemlere göre daha etkili olduğu, GNN modelinin ise daha az etkili performans gösterdiği görülmektedir. Bu bilgi, farmasötik tasarım ve geliştirme süreçlerinde hangi modelin tercih edilmesi gerektiği konusunda değerli bilgiler sağlamaktadır.
Makine Öğrenmesi İlaç Çözünürlük Grafik Sinir Ağları Regresyon Modelleri
Birincil Dil | İngilizce |
---|---|
Konular | Devreler ve Sistemler, Elektrik Mühendisliği (Diğer), Kimya Mühendisliği (Diğer) |
Bölüm | Tasarım ve Teknoloji |
Yazarlar | |
Erken Görünüm Tarihi | 5 Mart 2024 |
Yayımlanma Tarihi | 25 Mart 2024 |
Gönderilme Tarihi | 5 Ekim 2023 |
Yayımlandığı Sayı | Yıl 2024 Cilt: 12 Sayı: 1 |