Siamese Neural Networks Based Ensemble Model for the Prediction of Protein-Protein Interactions


Geçkin D., Demir G. K.

Karaelmas Fen ve Mühendislik Dergisi, vol.14, no.2, pp.13-28, 2024 (Peer-Reviewed Journal) identifier

Abstract

A wide range of biological processes, including signal transmission, immunological responses, and metabolic cycles, are impacted by protein-protein interactions. These interactions have enormous implications for figuring out the origins of diseases and creating treatments. However, experimental methods for identifying PPIs are resource-intensive, time-consuming, and have limited coverage. Thus, computational techniques are essential to help and enhance activities related to protein identification. This study aims to build a deep learning network for predicting protein-protein interactions using only sequence information. Three different encoding methods are used to encode protein sequences: Binary Encoding, Autocovariance, and Position Specific Scoring Matrix. In order to predict protein-protein interactions, a convolutional Siamese neural network is employed to find complex patterns between protein sequence pairs. This network consists of two identical subnetworks with matched parameters. When applied to the human dataset, the suggested technique shows strong prediction performance with an accuracy of 84.07%, sensitivity of 92.45%, and precision of 91.45% for the model using the PSSM protein representation approach. An ensemble approach is suggested to combine the outputs from these three encoders because it is known that different encoding techniques capture various aspects of the same protein sequence. The accuracy obtained increased to 86.27% for the ensemble approach on the test set, with a sensitivity of 93.07% and a precision of 92.15%. The outcome highlights the importance of integrating several encoding methods to benefit from their complementary features and raise the accuracy of protein-protein interaction prediction.
Sinyal iletimi, immünolojik yanıtlar ve metabolik döngüler dahil olmak üzere çok çeşitli biyolojik süreçler, protein-protein etkileşimlerinden etkilenir. Bu etkileşimlerin, hastalıkların kökeninin anlaşılması ve tedavilerin oluşturulması açısından çok büyük etkileri vardır. Ancak protein-protein etkileşimlerini belirlemeye yönelik deneysel yöntemler yoğun kaynak gerektirir, zaman alıcıdır ve kapsamı sınırlıdır. Bu nedenle, protein tanımlamayla ilgili faaliyetlere yardımcı olmak ve bunları geliştirmek için hesaplamalı teknikler önemlidir. Bu çalışma, yalnızca dizi bilgisini kullanarak protein-protein etkileşimlerini tahmin etmek için derin öğrenme ağı oluşturmayı amaçlamaktadır. Protein dizilerini kodlamak için üç farklı kodlama yöntemi kullanılmıştır: İkili Kodlama, Otokovaryans ve Konuma Özel Puanlama Matrisi. Protein-protein etkileşimlerini tahmin etmek amacıyla, protein dizi çiftleri arasındaki karmaşık modelleri bulmak için evrişimli bir Siyam sinir ağı kullanılmıştır. Bu ağ, eşleşen parametrelere sahip iki özdeş alt ağdan oluşmaktadır. Önerilen teknik, insan veri kümesine uygulandığında, PSSM protein temsili yaklaşımını kullanan model için %84.07 doğruluk, %92.45 hassasiyet ve %91.45 kesinlik ile güçlü tahmin performansı göstermektedir. Farklı kodlama tekniklerinin aynı protein dizisinin farklı yönlerini yakaladığı bilindiğinden bu üç kodlayıcıdan gelen çıktıları birleştirmek için bir topluluk yaklaşımı önerilmektedir. Test setinde topluluk yaklaşımı için elde edilen doğruluk %86.27’ye hassasiyet ve %93.07’ye kesinlik ise %92.15’e artırılmıştır. Sonuç, tamamlayıcı özelliklerinden yararlanmak ve protein-protein etkileşimi tahmininin doğruluğunu artırmak için çeşitli kodlama yöntemlerinin entegre edilmesinin önemini vurgulamaktadır.