Bilgi

G5. Protein Üçüncül Yapısının Tahmini - Biyoloji

G5. Protein Üçüncül Yapısının Tahmini - Biyoloji



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bir proteinin üçüncül yapısını tahmin etmeye yaklaşıyoruz, ancak moleküler mekanik ve dinamik hesaplamalarından gördüğümüz gibi, bu çok büyük bir hesaplama görevidir. Genellikle birleştirilen iki temel yaklaşım vardır.

  • enerji minimizasyonu ve istatistiksel mekaniği kullanan hesaplamalar: Bu "yarı deneysel" teknikler, herhangi bir ikincil yapı eğilimini veya hidrofobikliği varsaymaz. Bu tür yöntemler, gerçek yapısı bilinen küçük proteinlerle sınırlı başarı sağlamıştır.
  • bilinen yapıya sahip proteinlere dayalı homoloji modellemesi: Yaklaşık 117,00 (3/16) farklı biyolojik makromolekülün yapısı bilinmektedir. Bu, olası konformasyonların ampirik bir veri tabanı olarak hizmet edebilir. Sonsuz sayıda prototipik yapı yerine, doğada tekrar tekrar kullanılan oldukça düşük sayıda (yüzlerce) temel yapısal motif olabileceği açık hale geliyor. Farklı proteinlerin amino asit dizilerini hizalayarak ve özelliklerini karşılaştırarak (ikincil yapı eğilimleri, hidrofobiklikler vb.), yeni proteinin olası düşük enerji yapıları belirlenebilir. Bu ilk yapı, geçici bir "en düşük" enerji yapısı üretmek için çoklu minimizasyon ve dinamik simülasyonlar yoluyla çalıştırılabilir. Yapı kompakt olmalı (paketleme yoğunluğunun hesaplanması yoluyla kontrol edilmiş) ve yapıyı doğrulamak için deneysel teknikler (spektroskopik yöntemler gibi) kullanılmalıdır.

Çoğu deneysel desteğe sahip olan gerçek katlama işleminin birçok mekanizması öne sürülmüştür. Birinde, proteinin hidrofobik bir çöküşü, ikincil yapının ve nihai üçüncül çöküşün sonuçlandığı bir tohum yapısı üretir. Alternatif olarak, bir alfa sarmalının ilk oluşumu, tohum yapısı olarak hizmet edebilir. İkisinin bir kombinasyonu muhtemeldir. Bir senaryoda, ilk tohum yapısını üretmek için polar olmayan yüzleri aracılığıyla etkileşime giren iki küçük amfifilik sarmal oluşabilir.

Villin proteininin bir alanı üzerinde birçok çalışma yapılmıştır. Stanford Üniversitesi'ndeki (Folding at Home) bir şirket, aslında, protein katlama verilerini, kullanmadığınız zamanlarda kendi bilgisayarınızda işlemenize izin verir (dağıtılmış bilgi işlem örneği). Aşağıdaki örnek, 1 ms'den daha uzun bir simülasyonu göstermektedir. Simülasyonda, yerele yakın bir duruma çöküyor, ardından küresel minimum enerjiyi "ararken" konformasyonel uzayı tekrar tekrar incelerken tekrar açılıyor.

  • villin katlanmasının moleküler dinamiği
  • NAMD kullanılarak villin katlamanın MD simülasyonu

Zhou ve Karplus, 3-sarmal bir demet yapısı oluşturan Staphylococcus aureus protein A'nın 10-55 kalıntılarının katlanmasını simüle ettiler.

Şekil: 3-sarmal demet

Moleküler dinamikleri kullanarak 100 katlama simülasyonu gerçekleştirdiler. İki tür katlanma yörüngesi kaydedildi.

  • İlk tipte, helisler erken oluşur (10 ns içinde %70), ancak doğal helisler arası temasların oranı (sarmalların birlikte uygun şekilde paketlendiğini gösterir) ve genel paketleme yoğunluğu doğal duruma benzer değildir. Daha sonra sarmallar, yaklaşık 19 ms'de doğal duruma ulaşılana kadar (hız sınırlayıcı adımda) her biri ile yayılır ve çarpışır. Bu modelde, katlamayı yavaşlatabilen zorunlu olmayan ara maddeler (hız sınırlayıcı adımdaki doğal olmayan sarmal içi paketlemenin çökmesi nedeniyle) meydana gelebilir.

Şekil: sarmallar erken oluşur


  • Başka bir tipte, erimiş globüle benzer bir duruma eşzamanlı ve hızlı bir kısmi sarmal oluşumu ve çökmesi (200 ns'de %90) vardır. Bu noktada, yerel bağlantıların yalnızca yaklaşık %20'si mevcuttur. Nihai üçüncül yapı, yaklaşık 500 ms süren kompakt durum içinde doğal kontaklar oluşturmanın yavaş bir sürecinden sonra elde edilir.

Şekil: eşzamanlı ve hızlı kısmi sarmal oluşumu ve çökmesi

Fersht laboratuvarı, başka bir üç sarmal demet proteini olan Engrailed homeodomain'in katlanması/açılması için deneysel ve teorik yaklaşımları birleştiriyor.

Şekil: Yerleşik ana alan adı

Bu protein bilinen en hızlı katlanan ve açılan proteinler arasındadır (ms zaman ölçeği). Bu zaman çerçevesi artık moleküler dinamik simülasyonları yoluyla da çalışmaya uygundur. Her iki veri seti, katlanmamış durumun (U) bir mikrosaniye içinde önemli doğal ikincil yapı ve doğal durumdan (N) daha az kompakt olan mobil yan zincirler ile karakterize edilen bir ara duruma (I) çöktüğü bir katlanma yolunu destekler. I durumu bu nedenle erimiş globül durumuna benzer. Katlanmamış durumu daha net anlamak için, oda sıcaklığında (2.5 kcal/mol) sadece marjinal olarak stabil olan bir mutant (Leu16Ala) ürettiler. Spektroskopik ölçümler (CD, NMR), bu durumun, N durumundan çok daha doğal ikincil yapı ve %33 daha büyük dönme yarıçapı ile ara (I) durumuna benzediğini gösterdi. Aslında, mutajenez yoluyla bu durumu daha stabil hale getirerek, vahşi tip proteinin geçici ara maddesini daha kolay inceleyebilirler. Bu çalışmalar, ara maddenin katlanma yolunda olduğunu ve sürece engel olmadığını gösterdi. Moleküler dinamik simülasyonlar kullanılarak, ara-doğal duruma geçişin, doğal ikincil yapının hemen hemen tamamının mevcut olduğu ve sarmalların son paketleme işlemine dahil olduğu bir geçiş durumu (TS) yoluyla ilerlediği gösterildi.

Şekil: Deney ve Simülasyon ile Engrailed Homeodomain'in Tam Katlama Yolu

Bradley ve diğerleri (2005), küçük proteinler için üçüncül yapının tahmininde ileriye doğru bir adım daha atmışlardır.
(< 85 amino asit). Keşfedilmesi gereken çok sayıda konformasyon (yani tüm konformasyonel uzay) ve çözülen yapıların enerjisinin doğru belirlenmesi gibi tahminlerin önündeki en büyük iki engeli tanımlarlar. Küresel enerji minimumu etrafındaki enerji manzarası çok dik ve keskin olabileceğinden, ince ana zincir hareketlerinden kaynaklanan mütevazı yan zincir yer değiştirmeleri önemli yan zincir paketlenmesine ve enerji değişikliklerine neden olduğundan, yapısal uzay aramak zordur. Enerji kuyusunun darlığı, stokastik konformasyonel arama süreçlerinde global minimumu bulmayı zorlaştırmaktadır. Enerji hesaplamaları ayrıca daha iyi (daha gerçekçi) enerji fonksiyonları (kuvvet alanları) gerektirir, bu da doğal durumun küresel minimum olarak denatüre (doğal olmayan) durumlardan açıkça ayırt edilmesini sağlar. Birçok farklı küçük protein üzerinde enerji hesaplamaları yaptılar ve her protein için düşük çözünürlüklü bir model ürettiler. Belirli bir protein için bu düşük çözünürlüklü modele ulaşmak için, verilen hedef proteinin birçok dizi homologunu buldular. Bu homologlar, nispeten muhafazakar bir BLAST dizi aramasıyla bulunan, yüzde 30-60 dizi kimlikleriyle doğal olarak oluşan dizi varyantlarıydı. Ayrıca, muhtemelen yüzey döngü yapılarına dahil olan hedef diziye kıyasla eklemeler ve silmeler içeriyorlardı. Hedef ve homolog diziler katlandı ve yapının tüm atom iyileştirmesi için başlangıç ​​noktaları olarak daha çeşitli düşük çözünürlüklü modeller popülasyonu üretildi. Ardından, düşük çözünürlüklü modellerin son katlanması için uzun menzilli elektrostatik kuvvetlerden daha önemli olması beklenen kısa menzilli etkileşimleri (van der Waals, H-bağlama) vurgulayan yeni bir kuvvet alanı kullanarak, Modeller ve ana ve yan zincir paketlemesinde deneysel kristal yapıya çok yakın olan son bir düşük enerjiye yoğunlaşır (çözünürlük < 1. angstrom).

Protein katlama araştırmalarındaki kutsal kâse, her zaman, birincil dizisi verilen bir proteinin üçüncül yapısını tahmin etmek olmuştur. Benzer fakat kavramsal olarak daha kolay bir problem, öngörülen ikincil yapıya sahip belirli bir yapıya katlanacak bir protein tasarlamaktır. Birçok olası dizi, istenen yapıya katlanacak şekilde tasarlanabilir; bu, belirli bir dizinin yalnızca bir doğal duruma katlanmasıyla karşılaştırıldığında bu sorunu daha kolay hale getirir. Kuhlman et al. son zamanlarda doğada henüz gözlemlenmemiş benzersiz bir topolojiye katlanacak şekilde tasarladıkları 93 amino asitlik sentetik bir protein için böyle bir başarıya imza attılar. Bu, bilinen proteinlerin taklitlerinin yapıldığı önceki girişimlere göre önemli bir ilerlemeyi temsil ediyor. Bu tür yapıların, kompakt bir duruma katlanma ihtiyacının getirdiği gerekli kısıtlamalar nedeniyle ana proteine ​​benzer şekillerde katlanması beklenir.

Jmol: Güncellenmiş Top7 - Yeni bir katlama ile tasarlanmış bir 93 amino asit proteini Jmol14 (Java) | JSMol (HTML5)

Kullanıcıların protein katlama yazılımını kendi bilgisayarlarına indirmelerine izin veren birkaç web sitesi mevcuttur. Katlama hesaplamalarını birçok ev bilgisayarına dağıtarak, kullanılmayan hesaplama gücü, bu hesaplamaları gerçekleştirmek için gereken geniş hesaplama süresini sağlamak için bağlanabilir.

Ek Bağlantılar

  • nikotin asetilkolin reseptörü alt alanının katlanması (yeni 2014)
  • [email protected], katlanır Ubiquitin ile
  • K.A. Dill, S. Banu Özkan, T.R.Weikl, J.D. Chodera ve V.A. Voelz. Protein katlama sorunu: ne zaman çözülecek? Yapısal Biyolojide Güncel Görüş 17: 342--346 (2007). (PDF)

Uygulamalı Mikoloji ve Biyoteknoloji

Manoj Bhasin, G.P.S. Raghava , Uygulamalı Mikoloji ve Biyoteknolojide , 2006

5. Protein Yapısı Tahmini

Proteinin üç boyutlu yapısı veya üçüncül yapısı (3B) bilgisi, bir proteinin işlevini anlamak için temel bir ön koşuldur. Şu anda, protein 3D yapısını belirlemek için kullanılan ana teknikler, X-ışını kristalografisi ve nükleer manyetik rezonanstır (NMR). X-ışını kristalografisinde protein kristalleştirilir ve daha sonra X-ışını kırınımı kullanılarak proteinin yapısı belirlenir. 3B yapının X-ışını kristalografisi ile belirlenmesi her zaman kolay değildir ve bazen üç ila beş yıl kadar sürer. NMR, protein yapısını belirlemek için başka bir yararlı tekniktir. NMR'nin X-ışını kristalografisine göre avantajı, proteinin gerçek fizyolojik durumuna daha yakından benzeyebilecek sulu bir ortamda çalışılabilmesidir. NMR'nin ana sınırlaması, yalnızca 150'den az amino asit içeren küçük proteinler için uygun olmasıdır. Bilinen protein dizileri ile bilinen protein yapısı arasındaki boşluk katlanarak artmaktadır. Bu nedenle, protein yapılarını tahmin etmek için hesaplama tekniklerinin geliştirilmesine ihtiyaç vardır. Bilgisayar destekli protein konformasyon/üçüncül yapı tahmini, i) bilinen dizilere ve bilinmeyen yapılara sahip proteinler için üçüncül yapıların tahminini, ii) protein katlanmasının anlaşılmasını, iii) yeni işlevlerin dahil edilebilmesi için protein mühendisliğini ve iv) ilaç tasarımı.

Protein yapı tahmini sorununa üç ana yoldan yaklaşılmıştır: 1) ampirik enerji hesaplamalarına dayalı bilgisayar simülasyonu, 2) deneysel olarak belirlenmiş protein 3-D yapılarından yapı-dizi ilişkilerinden elde edilen bilgileri kullanan bilgi tabanlı yaklaşımlar ve iii) hiyerarşik yöntemler . Her yaklaşımın avantajları ve sınırlamaları vardır.

5.1. Enerji Minimizasyonuna Dayalı Yöntemler

Enerji minimizasyon yöntemlerine dayanan protein yapısı tahminleri, doğal protein yapılarının, minimum serbest enerji ile termodinamik dengede bir sisteme karşılık geldiği gözlemlerine dayanır. Enerji bazlı yöntemler yapmaz Önsel amino asitlerin kodlama özellikleri hakkında varsayımlar. Bunun yerine, protein molekülünün yüzey serbest enerjisindeki global minimumu belirleme girişimlerinin, molekülün doğal konformasyonuna tekabül ettiği varsayılır. Enerji minimizasyonu ilkesine dayalı yöntemler genel olarak iki kategoride sınıflandırılabilir: i) statik minimizasyon yöntemleri ve ii) dinamik minimizasyon yöntemleri. Enerji minimizasyonlarına dayanan başlıca yazılım paketleri AMBER CHARMS ECEPP ve GROMOS'tur (Pearlman ve diğerleri 1995 van Gunsteren ve Berendsen 1990 Brooks ve diğerleri 1990). Enerji hesaplamaları, fizikokimyasal ilkelere dayalı olma avantajını sunar, ancak dikkate alınması gereken çok sayıda serbestlik derecesi ve enerji işlevlerinin sınırlı performansı nedeniyle engellenir. Enerji hesaplamalarına dayalı yöntemlerle temelde iki ana problem vardır. İlk olarak, enerji minimizasyonuna dayalı protein yapısını atamak için gerekli hesaplamalar, şu anda mevcut bilgisayarların erişiminin ötesindedir. İkinci olarak, bu tür hesaplamalar için kullanılan etkileşim potansiyelleri, bir proteinin doğal yapısını atomik ayrıntıda modellemek için yeterince iyi değildir (Somorjai 1990).

5.2. Bilgiye Dayalı Yaklaşımlar

5.2.1. homoloji modelleme

Günümüzde homoloji modellemesi, bir sorgu proteininin bilinen atomik yapıya sahip bir proteine ​​sekans benzerliğine sahip olduğu durumlarda proteinlerin üçüncül yapısını tahmin etmek için en güçlü yöntemdir. (Blundell ve diğerleri 1987 Sali ve diğerleri 1990 Sutcliffe ve diğerleri 1987). Bu yöntemler, yapıların dizilerden daha fazla korunduğu gözlemine dayanmaktadır. Bu nedenle, bir proteinin doğru bir moleküler modeli, dizi hizalamasına dayanan bir konformasyon atanarak, ardından model oluşturma ve enerji minimizasyonu ile oluşturulabilir. Bol genom dizisi verilerinin mevcudiyeti nedeniyle, protein dizilerinin sayısı üstel bir oranda artmaktadır ve dizilerin sayısı ile bunlara karşılık gelen yapılar arasındaki boşluk genişlemektedir. Bu nedenle, protein modellerinin oluşturulması giderek daha önemli bir teknik haline gelmektedir (Orengo ve diğerleri, 1992). Homoloji modellemedeki ilk önemli adım, sorgu proteini ile bilinen üç boyutlu yapıya sahip dizi arasında yapı bazlı bir hizalamanın oluşturulmasını içerir (Pascarella ve Argos 1992). Düşük homoloji (%20'den az özdeşlik) durumlarında, otomatik yöntemlerle üretilen optimal hizalamaların kalitesi genellikle zayıftır. Homoloji modellemesine kavramsal olarak farklı bir yaklaşım, mesafe geometrisine dayanmaktadır. Bu prospektifte, üçüncül şablon kısıtlamaları, mesafe geometri programları için girdi olarak kullanılan mesafe sınırlamalarına çevrilir (Havel ve Snow 1991 Sali ve Blundell 1993). Homoloji tabanlı modelleme yaklaşımları, homolog yapıların yokluğunda başarısız olur.

5.2.2. Diş Açma Yaklaşımı

Protein dizilerini alternatif katlama motifleri yoluyla geçirme kavramı, yanlış bir dizinin kasıtlı olarak başka bir proteinin omurgası üzerine inşa edildiği, yanlış katlanmış model yapılarının inşasını içerir. Bir dizinin bir kattan geçirilmesi, söz konusu proteinin amino asit dizisi ile katlama motifinin karşılık gelen amino asit kalıntısı konumları arasında özel bir hizalamayı gerektirir. Bilinen yapı, üç boyutlu uzayda bir dizi olası amino asit pozisyonu oluşturur. Sorgu dizisi, amino asitlerini hizalanmış konumlarına yerleştirerek bilinen yapıya benzer hale getirilir. Bu yöntemlerin birincil amacı, belirli bir dizi için en olası kıvrımı seçmek veya belirli bir yapıya katlanabilecek uygun dizileri tanımaktır. Diş açma yöntemi normalde yalnızca amino asit dizileri daha önce deneysel tekniklerle incelenen protein kıvrımlarından birini kabul eden proteinlere uygulanır. Diş açmanın başarısı, yapıları atomik ayrıntı düzeyinde bilinen mevcut kıvrımların sayısına bağlıdır. Kıvrımların atomik yapısının bilindiği durumlarda, bilinen kıvrıma bir sorgu protein dizisi uydurulabilir.

5.3. Hiyerarşik Yaklaşım

Amino asit dizilerinden protein yapılarının tahmini için alternatif bir strateji, birincilden ikincile ve ikincilden üçüncüye protein yapısının hiyerarşisini kullanır. Amino asit dizisi ile üçüncül yapı arasındaki ilişkiyi anlamada bir ara adım, bir proteinin ikincil yapısı gibi bir ara durumu tahmin etmektir. Bu prosedür, amino asit dizisi verilerinden ikincil yapı için bir model oluşturmayı ve bir üçüncül yapı tahmini oluşturmak için ikincil yapı modelinin kullanımını içerir. Proteinlerin ikincil modellemesi için geliştirilmiş bir dizi algoritma vardır. Halihazırda mevcut yöntemler, i) istatistiksel yöntemler, ii) fizyokimyasal yöntemler, (iii) yapay zeka (AI) tabanlı yöntemler, vi) evrimsel bilgi tabanlı yöntemler ve v) kombinatoryal yöntemler olarak sınıflandırılabilir (Rost 1996 Mcguffin et al. 2000 Cuff et al. al. 1998) . Ne yazık ki, dizi bilgisinden ikincil yapıların tahmin doğruluğu sadece yaklaşık %80'dir. Üçüncül yapıları tahmin etmek için ikincil yapı modellerini kullanırken, sarmallara, dönüşlere, tabakalara ve şeritlere ek olarak dar dönüşleri ve süper ikincil yapıları tahmin etmeye yönelik girişimlerde bulunulmuştur (Kaur ve Raghava 2003a Kaur ve Raghava 2003b Kaur ve Raghava 2004).

5.4. Yapı Tahmin Yöntemlerinin Kıyaslanması

Protein yapısı tahmini alanındaki önemli bir sorun, mevcut yöntemlerin performansını değerlendirmektir. Yöntemler, farklı protein kümeleri ve değerlendirme için farklı kriterler kullanılarak geliştirilmiştir. Geliştiricilere ve kullanıcılara yardımcı olmak için, 1994'te Protein Yapısı Tahmini için Tekniklerin Kritik Değerlendirmesi (CASP) olarak adlandırılan dünya çapında açık bir deney başlatıldı, CASP deneyleri, protein yapısı tahmininde en son teknolojinin ne olduğunu belirleyerek oluşturmayı amaçlıyor. ilerleme kaydedildi ve gelecekteki çabaların en verimli şekilde nereye odaklanılabileceği vurgulandı. Bu faaliyetler alternatif yıllarda yapılır ve altıncı CASP Aralık 2004'te başlatılmıştır (http://PredictionCenter.llnl.gov/casp6). CASP'ye ek olarak, Tam Otomatik Yapı Tahmin Sunucularının Kritik Değerlendirmesi (CAFASP) ve Otomatik protein yapı tahminlerinin değerlendirilmesi (EVA) gibi yapı tahmin yöntemlerinin performansını değerlendirmek için bir dizi başka deney başlatıldı. Bu deneyler, protein yapısı tahmini için çevrimiçi web sunucularının değerlendirilmesine izin verir. Tablo 8, protein yapısı tahmini için başlıca yazılımları ve web sunucularını listeler.

Tablo 8. Protein yapısı tahmini için başlıca yazılım paketlerinin bir listesi.

Yazılım programıKullanım veya İşlevURL (Referans)
doktoraDizi analizi ve yapı tahmini için bir yöntem http://www.embl-heidelberg.de/predictprotein/predictprotein.html Rost 1996 .
APSSP2Gelişmiş protein ikincil yapı tahmin sunucusu. http://www.imtech.res.in/raghava/apssp2/
P si P kırmızıProtein sekonder yapısının, transmembran alanlarının topolojisinin ve kat tahmininin tahmin edilmesini sağlar. http://bioinf.cs.ucl.ac.uk/psipred/ Mcguffin et al. 2000 .
ÖNCEKİProtein ikincil yapısını tahmin etmek için bir konsensüs yöntemi. http://www.compbio.dundee.ac.uk/∼www-jpred/ (Cuff et al. 1998)
B ETA TP EED 2Sinir ağlarını kullanarak çoklu hizalamalardan gelen proteinlerdeki beta dönüşlerini tahmin eder. http://www.imtech.res.in/raghava/betatpred2 Kaur ve Raghva 2003a .
GAMMA P KIRMIZISinir ağlarını kullanarak çoklu hizalamalardan gelen proteinlerdeki gama dönüşlerini tahmin eder. http://www.imtech.res.in/raghava/gammmapred Kaur ve Raghava 2003b .
LPHA P RED Sinir ağlarını kullanarak çoklu hizalamalardan proteinlerdeki alfa dönüşlerini tahmin eder. http://www.imtech.res.in/raghava/alphapred Kaur ve Raghava 2004 .
İSVİÇRE MODELİOtomatik bir karşılaştırmalı protein modelleme sunucusu. http://www.expasy.org/swissmod/SWISS-MODEL.html Peitsch ve ark. 1995.
GEN03DProtein üç boyutlu yapılarının otomatik modellenmesi. http://geno3d-pbil.ibcp.fr/ Combet ve ark. 2002 .
CPH MODELLERİKatlama tanıma/homoloji modelleme. http://www.cbs.dtu.dk/services/CPHmodels/
Meta Katlama Tanıma SunucusuBirden çok sunucuya gönderime izin verir. http://bioinfo.pl/Meta/ Ginalski ve ark. 2003 .
HMMSTRSekanslardan proteinlerin ikincil, yerel, süper ikincil ve üçüncül yapılarını tahmin eder. http://www.bioinfo.rpi.edu/∼bystrc/hmmstr/server.php Bystroff ve Shao 2002 .
kehribarBiyomoleküllerin simülasyonu için bir dizi moleküler mekanik kuvvet alanı. http://amber.scripps.edu/ Pearlman ve ark. 1995.
NAKLİYELERMoleküler simülasyon için bir dizi program.(Gunsteren ve Berendsen 1990).

Parça montajına ve konformasyonel uzay tavlamasına dayanan yeni bir yöntem olan PROFESY kullanılarak protein üçüncül yapısının tahmini

Protein üçüncül yapılarının ab initio tahmini için yeni bir yöntem olan PROFESY (PROFile Enumerating System) önerilmiştir. Bu yöntem, bir sorgu dizisinin ikincil yapı tahmin bilgisini ve genel optimizasyona dayalı parça birleştirme prosedürünü kullanır. On beş kalıntı uzunluğunda parça kitaplığı, ikincil yapı tahmin yöntemi PREDICT kullanılarak oluşturulur ve bu kitaplıklardaki parçalar, bir sorgu proteininin tam uzunlukta zincirlerini oluşturmak için birleştirilir. 50 ila 100 konformasyona sahip üçüncül yapılar, birinin çeşitli düşük seviyeli yerel enerji minimumlarını örneklemeyi sağlayan konformasyonel uzay tavlama yöntemini kullanarak proteinler için bir enerji fonksiyonunu en aza indirerek elde edilir. Fizibilitesini göstermek için bilinen yapılara sahip proteinlere kıyaslama testleri için PROFESY uyguluyoruz. Ek olarak, CASP5'e katıldık ve kör tahmin için dört yeni kat hedefe PROFESY uyguladık. PROFESY'nin gelişiminin ilk aşamalarında olmasına rağmen sonuçlar oldukça umut verici. Özellikle PROFESY, hedef T0161 için bize en iyi model-bir yapıyı başarıyla sağladı.


Üçüncül Yapısal Motif Dizisi İstatistikleri, Anti-apoptotik Bfl-1 ve Mcl-1'i Bağlayan Peptidlerin Kolay Tahminini ve Tasarımını Sağlar

Protein dizisi ve yapısı arasındaki ilişkiyi, istenen işlevlere sahip yeni proteinler tasarlamaya yetecek kadar iyi anlamak, protein biliminde uzun süredir devam eden bir hedeftir. Burada, PDB'deki yinelenen üçüncül yapısal motiflerin (TERM'ler) protein-peptid etkileşimi tahmini ve tasarımı için zengin bilgiler sağladığını gösteriyoruz. TERM istatistikleri, Bcl-2 ailesi proteinleri için peptit bağlanma enerjilerini, yaygın olarak kullanılan yapı tabanlı araçlar kadar doğru bir şekilde tahmin etmek için kullanılabilir. Ayrıca, TERM enerjilerini (dTERMen) kullanan tasarım, bilinen herhangi bir doğal Bcl-2 ailesi protein ligandına yalnızca %15-38 dizi özdeşliği ile anti-apoptotik proteinler Bfl-1 ve Mcl-1'in yüksek afiniteli peptit bağlayıcılarını hızlı ve güvenilir bir şekilde üretir. Hedeflerine bağlı dört tasarlanmış peptidin yüksek çözünürlüklü yapıları, hesaplamalı tasarım yönteminin güçlü yanlarını ve sınırlamalarını analiz etme fırsatları sağlar. Sonuçlarımız, protein mühendisliği için mevcut araçları tamamlayabilecek güçlü bir yaklaşım olarak dTERMen'i desteklemektedir.

Anahtar Kelimeler: BH3 motifi Bcl-2 proteinleri apoptoz inhibitörü etkileşimi özgüllük protein-protein etkileşimleri yapı temelli tasarım üçüncül motif.

Telif Hakkı © 2019 Elsevier Ltd. Tüm hakları saklıdır.

Rakamlar

Şekil 1. Küçük farklılıklara karşı tahmin sağlamlığı…

Şekil 1. Girdi yapılarındaki küçük farklılıklara karşı tahmin sağlamlığı.

Pearson korelasyon katsayılarının dağılımı…

Şekil 2. dTERMen peptit tasarımı…

Şekil 2. Mcl-1 ve Bfl-1'i bağlayan peptitlerin dTERMen tasarımı.

Şekil 3. Tasarlanan dizilerin bağlanması…

Şekil 3. Tasarlanan dizilerin beş Bcl-2 ailesi paraloglarına bağlanması.

Şekil 4.. Yapıların Karşılaştırılması…

Şekil 4. Tasarlanan komplekslerin yapılarının ve şablonlarının karşılaştırılması.


Üçüncül yapı önemlidir!

  • Denatüre enzimler katalitik güçlerini kaybederler.
  • denatüre antikorlar artık antijeni bağlayamaz
  • Proteinlerin mutant versiyonları, hücrede uygun hedeflerine ulaşamayabilir ve/veya bozunabilir.
    Örnekler:
    • Çoğu vaka kistik fibroz mutant CFTR proteininin plazma zarındaki hedefine ulaşamamasından kaynaklanır [Devamı].
    • Diyabet şekeri mutant versiyonlarının yanlış katlanmasından kaynaklanır.
      • V2 &mdash vasopressin (ADH) reseptörü veya

      Normal proteinin birçok alfa sarmal bölgesi vardır ve çözünürdür. Mutant versiyonda, alfa sarmalı beta konformasyonuna dönüştürülür ve protein çözünmez hale gelir.

      İlginçtir ki, mutant versiyonun küçük miktarları normal proteinde alfa-beta dönüşümünü tetikleyebilir. Böylece mutant versiyonu olabilir bulaşıcı. Avrupa'da, Creutzfeldt-Jakob hastalığına yakalanmış ve sığır eti içindeki küçük miktarlarda mutant proteini yutmaktan bulaşmış olabilecek birkaç hasta vakası olmuştur.


      Bork P, Gibson TJ: Motif ve profil aramalarının uygulanması. Yöntemler Enzymo/1996, 266:162-184.

      Bairoch A, 8ucher P, Hofmann K: PROSITE: yeni gelişmeler.Nucleic Acids Res 1996, 24:189-196.

      Pietrokovski S, Henikoff JG, Henikoff S: BLOCKS veritabanı - protein sınıflandırması için bir sistem. Nükleik Asitler Res 1996,24:19?-200.

      Attwood T.K., Beck M.E., Bleasby A.J., Degtyarenko K, Smityh D.J.P.: PRINTS protein parmak izi veri tabanı ile ilerleme. Nucleic Acids Res 1996, 24:182-183.

      Murval J, Gabrielian A, Fabian P, Hatsagi Z, Degtyarenko K, Hegyi H, Pongor S: SBASE protein alan kitaplığı, sürüm 4.0: açıklamalı protein dizisi parçalarının bir koleksiyonu. Nükleik Asitler Res 1996, 24:210-213.

      Bateman, A. ve ark. Pfam protein aileleri veritabanı. Nükleik Asitler Araş. 28, 263±266 (2000).

      Bailey TL, Boden M, Buske FA, Frith M, Grant CE, Clementi L, Ren J, Li WW ve Noble WS: MEME SUITE: Motif bulma ve arama araçları. Nükleik Asitler Araştırması 2009.

      Bhattacharya, S. (2009). Bileşen Sayısı Bilinmeyen Karışımların Gibbs Örneklemeye Dayalı Bayes Analizi. Sankhya.Series B.Görünmek için.

      Lawrence, C.E., Altschul, S.F., Boguski, M.S., Liu, J.S., Neuwald, A.F. ve Wootton, J.C. (1993). İnce sekans sinyallerini algılama: çoklu hizalama için bir Gibbs örnekleme stratejisi. Bilim, 62, 208-214.

      Eskin E, Pevzner P. DNA dizilerinde bileşik düzenleyici modellerin bulunması. Biyoinformatik (2002) 18:S354–S363.

      Price, A., Ramabhadran, S. ve Pevzner, P.A. (2003), 'Örnek dizilerden dallanarak ince motifleri bulmak', Bioinformatics, Cilt. 19, Ek. 2, s. II149–II155.

      PENSA, RG, ROBARDET, C., AND BOULICAUT, JF 2005.Kategorik veriler için iki kümeli bir çerçeve.Veritabanlarında Bilgi Keşfinin İlkeleri ve Uygulamasına İlişkin 9. Avrupa Konferansı Bildirilerinde (PKDD) (Porto, Portekiz).643 -650.

      K. F. Han ve D. Baker, "Proteinlerde tekrar eden yerel dizi motifleri", J. Mol. Biol., cilt. 251, hayır. 1, s. 176-187, 1995.

      Chen, B., Tai, P.C., Harrison, R. ve Pan, Y., “FIK modeli: Protein Dizisi Motifleri ve Yapı Bilgi Keşfi için Yeni Bir Verimli Granüler Hesaplama Modeli”. IEEE BIBE 2006 devamı, 2006: s. 20-26

      Sander C. ve Schneider R., "Benzerlikten türetilen protein yapılarının veritabanı ve dizi hizalamanın yapı anlamı", Proteinler: Yapı. Funct.Genet.Vol.9 no. 1, s. 56-68, 1991.

      Chen, B., Tai, P.C., Harrison, R. ve Pan, Y., "FGK modeli: Protein Sekansı Motifleri Bilgi Keşfi için Verimli Bir Granüler Hesaplama Modeli", IASTED CASB 2006, Dallas, devamı pp56-61.

      Lin, T.Y. 'Veri madenciliği ve makine yönelimli modelleme: granüler bir hesaplama yaklaşımı', Journal of Applied Intelligence, Kluwer, Cilt. 13, No. 2, s.113–124, 2002.

      Yao, Y.Y. 'Tanecikli hesaplama ile veri madenciliğinin modellenmesi üzerine', COMPSAC2001, s.638-643, 2001.

      Wang, G. & Dunbrack, R.L. (2003) PISCES: Bioinformatics s. 1589-1591, Oxford Univ Press'te bir protein dizisi ayırma sunucusu.

      Zhong, W., Altun, G., Harrison, R., Tai, P.C. & Pan, Y. (2005) Ortak yapısal özelliği temsil eden yerel protein dizisi motiflerini keşfetmek için geliştirilmiş K-araç kümeleme algoritması, NanoBioscience, IEEE İşlemleri on. 4, 255-265.

      Han KF ve Baker D: Yerel amino asit dizisi ile proteinlerdeki yerel yapı arasındaki haritalamanın genel özellikleri. Amerika Birleşik Devletleri Ulusal Bilimler Akademisi Bildirileri 1996, 93(12):5814-5818.

      Bernard Chen, Stephen Pellicer, Phang C. Tai, Robert Harrison ve Yi Pan, "Protein dizisi motifleri ve yapı keşfi için yeni verimli granüler modeller", International Journal of Computational Biology and Drug Design, Cilt 2 - Sayı 2 - 2009, s. 168-186

      Bernard Chen, Stephen Pellicer, Phang C. Tai, Robert Harrison ve Yi Pan, "Efficient Super Granular SVM Feature Elimination (Super GSVM-FE) Model for Protein Sequence Motif Information Extraction", International Journal of Functional Informatics and Personalized Medicine, 2008 Cilt . 1. No. 1, s. 8-25.

      Bernard Chen ve Sinan Kockara, "Sabit Boyutlu Protein Dizisi motiflerinde Madencilik Konumsal Birliği Süper Kuralları", IEEE BIBE 2009, Taichung, Tayvan, ilerleme s. 1-8.

      Bernard Chen, Jieyue He, Stephen Pellicer ve Yi Pan, "Protein Sequence Motif Super-Rule-Tree (SRT) Structure by Constructed by Hybrid Hierarchical K-means Clustering Algorithm", IEEE BIBM 2008, Philadelphia, ilerleme s. 98-103

      Bernard Chen, Stephen Pellicer, Phang C. Tai, Robert Harrison ve Yi Pan, "Super Granular Shrink-SVM Feature Elimination (Super GS-SVM-FE) Model for Protein Sequence Motif Information Extraction", IEEE BIBE 2007,Boston, devam eden sayfa s. 379-386

      Bernard Chen, Stephen Pellicer, Phang C. Tai, Robert Harrison ve Yi Pan, "Protein Dizisi Motif Bilgi Çıkarımı için Süper Granüler SVM Özellik Eliminasyonu (Süper GSVM-FE) Modeli", IEEE CIBCB 2007, Hawaii, devam eden s.317-323

      Bystroff C, Thorsson V ve Baker D: HMMSTR: proteinlerde yerel dizi-yapı korelasyonları için gizli bir Markov modeli. Moleküler Biyoloji Dergisi 2000, 301:173–190.

      Bernard Chen ve Matthew Johnson, "Süper Granül Destek Vektör Makineleri (Süper GSVM) ile Protein Yerel 3D Yapı Tahmini", BMC Bioinformatics 2009, 10(Ek 11):S15

      ZhongW, He J, Harrison R, Tai PC ve Pan Y: Protein Yerel Yapı Tahmini için Kümeleme Destek Vektör Makineleri. Uygulamalı Uzman Sistemler 2007, 32(2):518–526.

      Cortes C ve Vapnik V: Destek-Vektör Ağları. Makine Öğrenimi 1995, 20(3):273–297.

      P. Y. Chou ve G. D. Fasman, "Protein konformasyonunun Tahmini", Biochemistry, cilt. 13, hayır. 2, s. 222–245, 1974.

      P. Y. Chou ve G. D. Fasman, “Aminoasit dizilerinden proteinlerin ikincil yapısının öngörülmesi,” Adv Enzyol Relat Areas Mol. Biol., cilt. 47, s. 45-148, 1978.

      W. Kabsch ve C. Sander, “Protein ikincil yapısının sözlüğü: Hidrojen bağlı ve geometrik özelliklerin model tanıması,” Biopolymers, cilt. 22, s. 2577–2637, 1983.

      R. Schneider, A. Daruvar ve C. Sander, “Protein yapısı-dizi hizalamalarının HSSP veritabanı,” Nucleic Acids Research, Cilt 25, No. 1, sayfa 226-230, 1997.

      R. Kolodny ve N. Linial, "Polinom zamanında yaklaşık protein yapısal hizalaması", Proceedings of the National Academy of the United States of the United States, 101, 12201-12206, 2004

      B. Zagrovis ve V. S. Pande, “Bir ortalama alma, topluluk düzeyinde protein yapısı karşılaştırmasını nasıl etkiler” Biophysical Journal, 87, 2240-2246, 2004.


      Kafese dayalı gizli Markov modelini kullanarak protein üçüncül yapı tahmini

      Amino asit dizisinden protein yapısının tahmini, hesaplamalı biyolojideki en belirgin problemlerden biridir. Bir proteinin biyolojik işlevi, protein katlama işlemi yoluyla amino asit dizisi tarafından belirlenen üçüncül yapısına bağlıdır. We propose a novel fold recognition method for protein tertiary structure prediction based on a hidden Markov model and 3D coordinates of amino acid residues. The method introduces states based on the basis vectors in Bravais cubic lattices to learn the path of amino acids of the proteins of each fold. Three hidden Markov models are considered based on simple cubic, body-centered cubic (BCC) and face-centered cubic (FCC) lattices. A 10-fold cross validation was performed on a set of 42 fold SCOP dataset. The proposed composite methodology is compared to fold recognition methods which have HMM as base of their algorithms having approaches on only amino acid sequence or secondary structure. The accuracy of proposed model based on face-centered cubic lattices is quite better in comparison with SAM, 3-HMM optimized and Markov chain optimized in overall experiment. The huge data of 3D space help the model to have greater performance in comparison to methods which use only primary structures or only secondary structures.


      G5. Prediction of Protein Tertiary Structure - Biology


      (The server completed predictions for 628230 proteins submitted by 151422 users from 158 countries)
      (The template library was updated on 2021/06/22)

      I-TASSER (Iterative Threading ASSEmbly Refinement) is a hierarchical approach to protein structure prediction and structure-based function annotation. It first identifies structural templates from the PDB by multiple threading approach LOMETS, with full-length atomic models constructed by iterative template-based fragment assembly simulations. Function insights of the target are then derived by re-threading the 3D models through protein function database BioLiP. I-TASSER (as 'Zhang-Server') was ranked as the No 1 server for protein structure prediction in recent community-wide CASP7, CASP8, CASP9, CASP10, CASP11, CASP12, CASP13, and CASP14 experiments. It was also ranked the best for function prediction in CASP9. The server is in active development with the goal to provide the most accurate protein structure and function predictions using state-of-the-art algorithms. Please report problems and questions at I-TASSER message board and our developers will study and answer the questions accordingly. (>> More about the server . )

      Due to power outage and webserver failure, the I-TASSER is currently unavailable for use. We are working on restoring the system which will come back around the first week of March. We apologize for the inconvenience that this may cause.


      Sonuçlar

      Deep learning model for contact prediction

      Fig 1 illustrates our deep neural network model for contact prediction [29]. Different from previous supervised learning approaches[9, 13] for contact prediction that employ only a small number of hidden layers (i.e., a shallow architecture), our deep neural network employs dozens of hidden layers. By using a very deep architecture, our model can automatically learn the complex relationship between sequence information and contacts and also model the interdependency among contacts and thus, improve contact prediction [17]. Our model consists of two major modules, each being a residual neural network. The first module conducts a series of 1-dimensional (1D) convolutional transformations of sequential features (sequence profile, predicted secondary structure and solvent accessibility). The output of this 1D convolutional network is converted to a 2-dimensional (2D) matrix by outer concatenation (an operation similar to outer product) and then fed into the 2 nd module together with pairwise features (i.e., co-evolution information, pairwise contact and distance potential). The 2 nd module is a 2D residual network that conducts a series of 2D convolutional transformations of its input. Finally, the output of the 2D convolutional network is fed into a logistic regression, which predicts the probability of any two residues form a contact. In addition, each convolutional layer is also preceded by a simple nonlinear transformation called rectified linear unit [30]. Mathematically, the output of 1D residual network is just a 2D matrix with dimension L×m where m is the number of new features (or hidden neurons) generated by the last convolutional layer of the network. Biologically, this 1D residual network learns the sequential context of a residue. By stacking multiple convolution layers, the network can learn information in a very large sequential context. The output of a 2D convolutional layer has dimension L×L×n where n is the number of new features (or hidden neurons) generated by this layer for one residue pair. The 2D residual network mainly learns contact occurrence patterns or high-order residue correlation (i.e., 2D context of a residue pair). The number of hidden neurons may vary at each layer.

      Our test data includes the 150 Pfam families described in [5], 105 CASP11 test proteins [31], 398 membrane proteins (S1 Table) and 76 CAMEO hard targets released from 10/17/2015 to 04/09/2016 (S2 Table). The tested methods include PSICOV [5], Evfold [6], CCMpred [4], plmDCA[7], Gremlin[8], and MetaPSICOV [9]. The former 5 methods employs pure DCA while MetaPSICOV [9] is a supervised learning method that performed the best in CASP11 [31]. All the programs are run with parameters set according to their respective papers. We cannot evaluate PconsC2 [17] since we failed to obtain any results from its web server. PconsC2 did not outperform MetaPSICOV in CASP11 [31], so it may suffice to just compare our method with MetaPSICOV.

      Overall performance

      We evaluate the accuracy of the top L/k (k = 10, 5, 2, 1) predicted contacts where L is protein sequence length [10]. We define that a contact is short-, medium- and long-range when the sequence distance of the two residues in a contact falls into [6, 11], [12, 23], and ≥24, respectively. The prediction accuracy is defined as the percentage of native contacts among the top L/k predicted contacts. When there are no L/k native (short- or medium-range) contacts, we replace the denominator by L/k in calculating accuracy. This may make the short- and medium-range accuracy look small although it is easier to predict short- and medium-range contacts than long-range ones.

      As shown in Tables 1–4, our method outperforms all tested DCA methods and MetaPSICOV by a very large margin on the 4 test sets regardless of how many top predicted contacts are evaluated and no matter whether the contacts are short-, medium- or long-range. These results also show that two supervised learning methods greatly outperform the pure DCA methods and that the three pseudo-likelihood DCA methods plmDCA, Gremlin and CCMpred perform similarly, but outperform PSICOV (Gaussian model) and Evfold (maximum-entropy method). The advantage of our method is the smallest on the 150 Pfam families because many of them have a pretty large number of sequence homologs. In terms of top L long-range contact accuracy on the CASP11 set, our method exceeds CCMpred and MetaPSICOV by 0.32 and 0.20, respectively. On the 76 CAMEO hard targets, our method exceeds CCMpred and MetaPSICOV by 0.27 and 0.17, respectively. On the 398 membrane protein set, our method exceeds CCMpred and MetaPSICOV by 0.26 and 0.17, respectively. Our method uses a subset of protein features used by MetaPSICOV, but performs much better than MetaPSICOV due to our deep architecture and that we predict contacts of a protein simultaneously. Since the Pfam set is relatively easy, we will not analyze it any more in the following sections.

      Prediction accuracy with respect to the number of sequence homologs

      To examine the performance of our method with respect to the amount of homologous information available for a protein under prediction, we measure the effective number of sequence homologs in multiple sequence alignment (MSA) by Meff [19], which can be roughly interpreted as the number of non-redundant sequence homologs when 70% sequence identity is used as cutoff to remove redundancy (see Method for its formula). A protein with a smaller Meff has less homologous information. We divide all the test proteins into 10 bins according to ln(Meff) and then calculate the average accuracy of proteins in each bin. We merge the first 3 bins for the membrane protein set since they have a small number of proteins.

      Fig 2 shows that the top L/5 contact prediction accuracy increases with respect to Meff, i.e., the number of effective sequence homologs, and that our method outperforms both MetaPSICOV and CCMpred regardless of Meff. Our long-range prediction accuracy is even better when ln(Meff)≤7 (equivalently Meff<1100), i.e., when the protein under prediction does not have a very large number of non-redundant sequence homologs. Our method has a large advantage over the other methods even when Meff is very big (>8000). This indicates that our method indeed benefits from some extra information such as inter-contact correlation or high-order residue correlation, which is orthogonal to pairwise co-evolution information.

      The accuracy on the union of the 105 CASP and 76 CAMEO targets is displayed in (A) medium-range and (B) long-range. The accuracy on the membrane protein set is displayed in (C) medium-range and (D) long-range.

      Contact-assisted protein folding

      One of the important goals of contact prediction is to perform contact-assisted protein folding [11]. To test if our contact prediction can lead to better 3D structure modeling than the others, we build structure models for all the test proteins using the top predicted contacts as restraints of ab initio folding. For each test protein, we feed the top predicted contacts as restraints into the CNS suite [32] to generate 3D models. We measure the quality of a 3D model by a superposition-dependent score TMscore [33], which ranges from 0 to 1, with 0 indicating the worst and 1 the best, respectively. According to Xu and Zhang [34], a model with TMscore>0.5 (TMscore>0.6) is likely (highly likely) to have a correct fold. We also measure the quality of a 3D model by a superposition-independent score lDDT, which ranges from 0 to 100, with 0 indicating the worst and 100 the best, respectively.

      Fig 3 shows that our predicted contacts can generate much better 3D models than CCMpred and MetaPSICOV. On average, our 3D models are better than MetaPSICOV and CCMpred by

      0.15 unit, respectively. When the top 1 models are evaluated, the average TMscore obtained by CCMpred, MetaPSICOV, and our method is 0.333, 0.377, and 0.518, respectively on the CASP dataset. The average lDDT of CCMpred, MetaPSICOV and our method is 31.7, 34.1 and 41.8, respectively. On the 76 CAMEO targets, the average TMsore of CCMpred, MetaPSICOV and our method is 0.256, 0.305 and 0.407, respectively. The average lDDT of CCMpred, MetaPSICOV and our method is 31.8, 35.4 and 40.2, respectively. On the membrane protein set, the average TMscore of CCMpred, MetaPSICOV and our method is 0.354, 0.387, and 0.493, respectively. The average lDDT of CCMpred, MetaPSICOV and our method is 38.1, 40.5 and 47.8, respectively. Same trend is observed when the best of top 5 models are evaluated (S1 Fig). On the CASP set, the average TMscore of the models generated by CCMpred, MetaPSICOV, and our method is 0.352, 0.399, and 0.543, respectively. The average lDDT of CCMpred, MetaPSICOV and our method is 32.3, 34.9 and 42.4, respectively. On the 76 CAMEO proteins, the average TMscore of CCMpred, MetaPSICOV, and our method is 0.271, 0.334, and 0.431, respectively. The average lDDT of CCMpred, MetaPSICOV and our method is 32.4, 36.1 and 40.9, respectively. On the membrane protein set, the average TMscore of CCMpred, MetaPSICOV, and our method is 0.385, 0.417, and 0.516, respectively. The average lDDT of CCMpred, MetaPSICOV and our method is 38.9, 41.2 and 48.5, respectively. In particular, when the best of top 5 models are considered, our predicted contacts can result in correct folds (i.e., TMscore>0.6) for 203 of the 579 test proteins, while MetaPSICOV- and CCMpred-predicted contacts can do so for only 79 and 62 of them, respectively.

      (A) ve (B): comparison between our method (X-axis) and CCMpred (Y-axis) in terms of TMscore and lDDT, respectively. (C) ve (NS): comparison between our method (X-axis) and MetaPSICOV (Y-axis) in terms of TMscore and lDDT, respectively. lDDT is scaled to between 0 and 1.

      Our method also generates much better contact-assisted models for the test proteins without many non-redundant sequence homologs. When the 219 of 579 test proteins with Meff≤500 are evaluated, the average TMscore of the top 1 models generated by our predicted contacts for the CASP11, CAMEO and membrane sets is 0.426, 0.365, and 0.397, respectively. By contrast, the average TMscore of the top 1 models generated by CCMpred-predicted contacts for the CASP11, CAMEO and membrane sets is 0.236, 0.214, and 0.241, respectively. The average TMscore of the top 1 models generated by MetaPSICOV-predicted contacts for the CASP11, CAMEO and membrane sets is 0.292, 0.272, and 0.274, respectively.

      Contact-assisted models vs. template-based models

      To compare the quality of our contact-assisted models and template-based models (TBMs), we built TBMs for all the test proteins using our training proteins as candidate templates. To generate TBMs for a test protein, we first run HHblits (with the UniProt20_2016 library) to generate an HMM file for the test protein, then run HHsearch with this HMM file to search for the best templates among the 6767 training proteins, and finally run MODELLER to build a TBM from each of the top 5 templates. Fig 4 shows the head-to-head comparison between our top 1 contact-assisted models and the top 1 TBMs on these three test sets in terms of both TMscore and lDDT. The average lDDT of our top 1 contact-assisted models is 45.7 while that of top 1 TBMs is only 20.7. When only the first models are evaluated, our contact-assisted models for the 76 CAMEO test proteins have an average TMscore 0.407 while the TBMs have an average TMscore 0.317. On the 105 CASP11 test proteins, the average TMscore of our contact-assisted models is 0.518 while that of the TBMs is only 0.393. On the 398 membrane proteins, the average TMscore of our contact-assisted models is 0.493 while that of the TBMs is only 0.149. Same trend is observed when top 5 models are compared (S2 Fig). The average lDDT of our top 5 contact-assisted models is 46.4 while that of top 5 TBMs is only 24.0. On the 76 CAMEO test proteins, the average TMscore of our contact-assisted models is 0.431 while that of the TBMs is only 0.366. On the 105 CASP11 test proteins, the average TMscore of our contact-assisted models is 0.543 while that of the TBMs is only 0.441. On the 398 membrane proteins, the average TMscore of our contact-assisted models is 0.516 while that of the TBMs is only 0.187. The low quality of TBMs further confirms that there is little redundancy between our training and test proteins (especially membrane proteins). This also indicates that our deep model does not predict contacts by simply copying from training proteins. That is, our method can predict contacts for a protein with a new fold.

      Comparison between our contact-assisted models of the three test sets and their template-based models in terms of (A) TMscore and (B) lDDT score. The top 1 models are evaluated.

      Further, when the best of top 5 models are considered for all the methods, our contact-assisted models have TMscore>0.5 for 24 of the 76 CAMEO targets while TBMs have TMscore>0.5 for only 18 of them. Our contact-assisted models have TMscore >0.5 for 67 of the 105 CASP11 targets while TBMs have TMscore>0.5 for only 44 of them. Our contact-assisted models have TMscore>0.5 for 208 of the 398 membrane proteins while TBMs have TMscore >0.5 for only 10 of them. Our contact-assisted models for membrane proteins are much better than their TBMs because there is little similarity between the 6767 training proteins and the 398 test membrane proteins. When the 219 test proteins with ≤500 non-redundant sequence homologs are evaluated, the average TMscore of the TBMs is 0.254 while that of our contact-assisted models is 0.421. Among these 219 proteins, our contact-assisted models have TMscore>0.5 for 72 of them while TBMs have TMscore>0.5 for only 17 of them.

      The above results imply that 1) when a query protein has no close templates, our contact-assisted modeling may work better than template-based modeling 2) contact-assisted modeling shall be particularly useful for membrane proteins and 3) our deep learning model does not predict contacts by simply copying contacts from the training proteins since our predicted contacts may result in much better 3D models than homology modeling.

      Blind test in CAMEO

      We have implemented our algorithm as a fully-automated contact prediction web server (http://raptorx.uchicago.edu/ContactMap/) and in September 2016 started to blindly test it through the weekly live benchmark CAMEO (http://www.cameo3d.org/). CAMEO is operated by the Schwede group, with whom we have never collaborated. CAMEO can be interpreted as a fully-automated CASP, but has a smaller number (

      30) of participating servers since many CASP-participating servers are not fully automated and thus, cannot handle the large number of test targets used by CAMEO. Nevertheless, the CAMEO participants include some well-known servers such as Robetta[35], Phyre[36], RaptorX[37], Swiss-Model[38] and HHpred[39]. Meanwhile Robetta employs both ab initio folding and template-based modeling while the latter four employ mainly template-based modeling. Every weekend CAMEO sends test sequences to participating servers for prediction and then evaluates 3D models collected from servers. The test proteins used by CAMEO have no publicly available native structures until CAMEO finishes collecting models from participating servers.

      From 9/3/2016 to 10/31/2016, CAMEO in total released 41 hard targets (S3 Table). Although classified as hard by CAMEO, some of them may have distantly-related templates. Table 5 lists the contact prediction accuracy of our server in the blind CAMEO test as compared to the other methods. Again, our method outperforms the others by a very large margin no matter how many contacts are evaluated. The CAMEO evaluation of our contact-assisted 3D models is available at the CAMEO web site. You will need to register CAMEO in order to see all the detailed results of our contact server (ID: server60). Although our server currently build 3D models using only top predicted contacts without any force fields and fragment assembly procedures, our server predicts 3D models with TMscore>0.5 for 28 of the 41 targets and TMscore>0.6 for 16 of them. The average TMscore of the best of top 5 models built from the contacts predicted by our server, CCMpred and MetaPSICOV is 0.535, 0.316 and 0.392, respectively. See Fig 5 for the detailed comparison of the 3D models generated by our server, CCMpred and MetaPSICOV. Our server has also successfully folded 4 targets with a new fold plus one released in November 2016 (5flgB). See Table 6 for a summary of our prediction results of these targets and the below subsections for a detailed analysis. Among these targets, 5f5pH is particularly interesting since it has a sequence homolog in PDB but adopting a different conformation. That is, a template-based technique cannot obtain a good prediction for this target.

      (A) our server (X-axis) vs. CCMpred and (B) our server (X-axis) vs. MetaPSICOV.

      Among these 41 hard targets, there are five multi-domain proteins: 5idoA, 5hmqF, 5b86B, 5b2gG and 5cylH. Table 7 shows that the average contact prediction accuracy of our method on these 5 multi-domain proteins is much better than the others. For multi-domain proteins, we use a superposition-independent score lDDT instead of TMscore to measure the quality of a 3D model. As shown in Table 8, the 3D models built by our server from predicted contacts have much better lDDT score than those built from CCMpred and MetaPSICOV.

      Study of CAMEO target 2nc8A (CAMEO ID: 2016-09-10_00000002_1, PDB ID:2nc8)

      On September 10, 2016, CAMEO released two hard test targets for structure prediction. Our contact server successfully folded the hardest one (PDB ID: 2nc8), a mainly β protein of 182 residues. Table 9 shows that our server produced a much better contact prediction than CCMpred and MetaPSICOV. CCMpred has very low accuracy since HHblits detected only

      250 non-redundant sequence homologs for this protein, i.e., its Meff = 250. Fig 6 shows the predicted contact maps and their overlap with the native. MetaPSICOV fails to predict many long-range contacts while CCMpred introduces too many false positives.

      Red (green) dots indicate correct (incorrect) prediction. (A) The comparison between our prediction (in upper-left triangle) and CCMpred (in lower-right triangle). (B) The comparison between our prediction (in upper-left triangle) and MetaPSICOV (in lower-right triangle).

      The 3D model submitted by our contact server has TMscore 0.570 (As of September 16, 2016, our server submits only one 3D model for each test protein) and the best of our top 5 models has TMscore 0.612 and RMSD 6.5Å. Fig 7 shows that the beta strands of our predicted model (red) matches well with the native (blue). To examine the superimposition of our model with its native structure from various angles, please see http://raptorx.uchicago.edu/DeepAlign/75097011/. By contrast, the best of top 5 models built by CNS from CCMpred- and MetaPSICOV-predicted contacts have TMscore 0.206 and 0.307, respectively, and RMSD 15.8Å and 14.2Å, respectively. The best TMscore obtained by the other CAMEO-participating servers is only 0.47 (Fig 8). Three top-notch servers HHpred, RaptorX and Robetta only submitted models with TMscore≤0.30. According to Xu and Zhang [34], a 3D model with TMscore<0.5 is unlikely to have a correct fold while a model with TMscore≥0.6 surely has a correct fold. That is, our contact server predicted a correct fold for this test protein while the others failed to.

      The rightmost column displays the TMscore of submitted models. Server60 is our contact web server.

      This test protein represents almost a novel fold. Our in-house structural homolog search tool DeepSearch[40] cannot identify structurally very similar proteins in PDB70 (created right before September 10, 2016) for this target. PDB70 is a set of representative structures in PDB, in which any two share less than 70% sequence identity. DeepSearch returned two weakly similar proteins 4kx7A and 4g2aA, which have TMscore 0.521 and 0.535 with the native structure of the target, respectively, and TMscore 0.465 and 0.466 with our best model, respectively. This is consistent with the fact that none of the template-based servers in CAMEO submitted a model with TMscore>0.5. We cannot find structurally similar proteins in PDB70 for our best model either the best TMscore between PDB70 and our best model is only 0.480. That is, the models predicted by our method are not simply copied from the solved structures in PDB, and our method can indeed fold a relatively large β protein with a novel fold.

      Study of CAMEO target 5dcjA (CAMEO ID: 2016-09-17_00000018_1, PDB ID:5dcj).

      This target was released by CAMEO on September 17, 2016. It is an α+β sandwich protein of 125 residues. The four beta sheets of this protein are wrapped by one and three alpha helixes at two sides. Table 10 shows that our server produced a much better contact prediction than CCMpred and MetaPSICOV. Specifically, the contact map predicted by our method has L/2 long-range accuracy 0.645 while that by CCMpred and MetaPSICOV has L/2 accuracy only 0.05 and 0.194, respectively. CCMpred has very low accuracy since HHblits can only find

      180 non-redundant sequence homologs for this protein, i.e., its Meff = 180. Fig 9 shows the predicted contact maps and their overlap with the native. Both CCMpred and MetaPSICOV failed to predict some long-range contacts.

      Red (green) dots indicate correct (incorrect) prediction. (A) The comparison between our prediction (in upper-left triangle) and CCMpred (in lower-right triangle). (B) The comparison between our prediction (in upper-left triangle) and MetaPSICOV (in lower-right triangle).

      The first 3D model submitted by our contact server has TMscore 0.50 and the best of our 5 models has TMscore 0.52 and RMSD 7.9Å. The best of top 5 models built by CNS from CCMpred- and MetaPSICOV-predicted contacts have TMscore 0.243 and 0.361, respectively. Fig 10(A) shows that all the beta strands and the three surrounding alpha helices of our predicted model (in red) matches well with the native structure (blue), while the models from CCMpred (Fig 10(B)) and MetaPSICOV (Fig 10(C)) do not have a correct fold. To examine the superimposition of our model with its native structure from various angles, please see http://raptorx.uchicago.edu/DeepAlign/92913404/.

      The models are built by CNS from the contacts predicted by (A) our method, (B) CCMpred, and (C) MetaPSICOV.

      In terms of TMscore, our models have comparable quality to Robetta, but better than the other servers (Fig 11). In terms of RMSD and lDDT-Cα score, our models are better than all the others. In particular, our method produced better models than the popular homology modeling server HHpredB and our own template-based modeling server RaptorX, which submitted models with TMscore≤0.45.

      The rightmost column displays the TMscore of submitted models. Server60 is our contact web server.

      This target represents a novel fold. Searching through PDB70 created right before September 17, 2016 by our in-house structural homolog search tool DeepSearch cannot identify structurally similar proteins for this target. The most structurally similar proteins are 3lr5A and 5ereA, which have TMscore 0.431 and 0.45 with the target, respectively. This is consistent with the fact that none of the template-based servers in CAMEO can predict a good model for this target. By contrast, our contact-assisted model has TMscore 0.52, which is higher than all the template-based models.

      Study of CAMEO target 5djeB (CAMEO ID: 2016-09-24_00000052_1, PDB ID: 5dje).

      This target was released on September 24, 2016. It is an alpha protein of 140 residues with a novel fold. Table 11 shows that our server produced a much better contact prediction than CCMpred and MetaPSICOV. Specifically, the contact map predicted by our method has L/5 and L/10 long-range accuracy 50.0% and 71.4%, respectively, while that by CCMpred and MetaPSICOV has L/5 and L/10 accuracy less than 30%. HHblits can only find

      330 non-redundant sequence homologs for this target, i.e., its Meff = 330. Fig 12 shows the predicted contact maps and their overlap with the native. Both CCMpred and metaPSICOV failed to predict some long-range contacts.

      Red (green) dots indicate correct (incorrect) prediction. (A) The comparison between our prediction (in upper-left triangle) and CCMpred (in lower-right triangle). (B)The comparison between our prediction (in upper-left triangle) and MetaPSICOV (in lower-right triangle).

      The first 3D model submitted by our contact server has TMscore 0.65, while the best of our 5 models has TMscore 0.65 and RMSD 5.6Å. By contrast, the best of top 5 models built by CNS from CCMpred- and MetaPSICOV-predicted contacts have TMscore 0.404 and 0.427, respectively. Fig 13(A) shows that all the four alpha helices of our predicted model (in red) matches well with the native structure (blue), while the models from CCMpred (Fig 13(B)) and MetaPSICOV (Fig 13(C)) fail to predict the 3 rd long helix correctly. To examine the superimposition of our model with its native structure from various angles, please see http://raptorx.uchicago.edu/DeepAlign/26652330/. Further, all other CAMEO registered servers, including the top-notch servers such as HHpred, RaptorX, SPARKS-X, and RBO Aleph (template-based and ab initio folding) only submitted models with TMscore≤0.35, i.e., failed to predict a correct fold (Fig 14).

      The models are built by CNS from the contacts predicted by (A) our method, (B) CCMpred, and (C) MetaPSICOV.

      The rightmost column displays the TMscore of submitted models. Server60 is our contact web server.

      This target represents a novel fold. Searching through PDB70 created right before September 24, 2016 by our in-house structural homolog search tool DeepSearch cannot identify structurally similar proteins for this test protein. The most structurally similar proteins are 1u7lA and 4x5uA, which have TMscore 0.439 and 0.442 with the test protein, respectively. This is consistent with the fact that none of the template-based CAMEO-participating servers predicted a good model for this target. By contrast, our contact-assisted model has TMscore 0.65, much better than all the template-based models.

      Study of CAMEO target 5f5pH (CAMEO ID: 2016-10-15_00000047_1, PDB ID: 5f5p).

      On October 15, 2016, our contact web server successfully folded a very hard and also interesting CAMEO target (PDB ID: 5f5pH, CAMEO ID: 2016-10-15_00000047_1). This target is an alpha protein of 217 residues with four helices. Table 12 shows that our server produced a much better long-range contact prediction than CCMpred and MetaPSICOV. Specifically, our contact prediction has L/5 and L/10 long-range accuracy 76.7% and 95.2%, respectively, while MetaPSICOV has L/5 and L/10 accuracy less than 40%. This target has only

      65 non-redundant sequence homologs, i.e., its Meff = 65. The three methods have low L/k (k = 1, 2) medium-range accuracy because there are fewer than L/k native medium-range contacts while we use L/k as the denominator in calculating accuracy. As shown in Fig 15, CCMpred predicts too many false positives while MetaPSICOV predicts very few correct long-range contacts.

      Red (green) dots indicate correct (incorrect) prediction. (A) The comparison between our prediction (in upper-left triangle) and CCMpred (in lower-right triangle). (B) The comparison between our prediction (in upper-left triangle) and MetaPSICOV (in lower-right triangle).

      Our submitted 3D model has TMscore 0.71 and RMSD 4.21Å. By contrast, the best of top 5 models built by CNS from CCMpred- and MetaPSICOV-predicted contacts have TMscore 0.280 and 0.472, respectively. Fig 16(A) shows that our predicted model (in red) match well with the native structure (blue), while the model from CCMpred (Fig 16(B)) is completely wrong and the model from MetaPSICOV (Fig 16(C)) fails to place the 1 st and 4 th helices correctly. Please see http://raptorx.uchicago.edu/DeepAlign/14544627/ for the animated superimposition of our model with its native structure. As shown in the ranking list (Fig 17), all the other CAMEO-participating servers, including Robetta, HHpred, RaptorX, SPARKS-X, and RBO Aleph (template-based and ab initio folding) only submitted models with TMscore≤0.48 and RMSD>43.82Å. Our contact server is the only one that predicted a correct fold for this target.

      The models are built by CNS from the contacts predicted by (A) our method, (B) CCMpred, and (C) MetaPSICOV.

      The rightmost column displays the TMscore of submitted models. Server60 is our contact web server.

      To make sure our best model is not simply copied from the database of solved structures, we search our best model against PDB70 created right before October 15, 2016 using our in-house structural homolog search tool DeepSearch, which yields two weakly similar proteins 2yfaA and 4k1pA. They have TMscore 0.536 and 0.511 with our best model, respectively. This implies that our model is not simply copied from a solved structure in PDB.

      We ran BLAST on this target against PDB70 and surprisingly, found one protein 3thfA with E-value 3E-16 and sequence identity 35%. In fact, 3thfA and 5f5pH are two SD2 proteins from Drosophila and Human[41], respectively. Although homologous, they adopt different conformations and oligomerizations. In particular, 3thfA is a dimer and each monomer adopts a fold consisting of three segmented anti-parallel coiled-coil[42], whereas 5f5pH is a monomer that consists of two segmented antiparallel coiled-coils[41]. Superimposing the Human SD2 monomer onto the Drosophila SD2 dimer shows that the former structure was located directly in between the two structurally identical halves of the latter structure (see Fig 18(A)). That is, if our method predicts the contacts of 5f5pH by simply copying from 3thfA, it would produce a wrong 3D model. By contrast, all the other CAMEO-participating servers produced a wrong prediction for this target by using 3thfA as the template.

      (A) Structure superimposition of Drosophila SD2 and Human SD2. (B) Conformation change of Drosophila SD2 in binding with Rock-SBD.

      Since SD2 protein may have conformational change when docking with Rock SBD protein, we check if the Drosophila SD2 monomer would change to a similar fold as the Human SD2 monomer or not. According to[41], the Human SD2 adopts a similar fold no matter whether it docks with the Rock SBD or not. According to [42], although the Drosophila SD2 dimer may have conformational change in the presence of Rock, the change only occurs in the hinge regions, but not at the adjacent identical halves. That is, even conformational change happens, the Drosophila SD2 monomer would not resemble the Human SD2 monomer (Fig 18(B)).

      Study of CAMEO target 5flgB (CAMEO ID: 2016-11-12_00000046_1, PDB ID: 5flgB).

      This target was released by CAMEO on November 12, 2016 and not included in the abovementioned 41 CAMEO hard targets. This target is a unique α/β protein with 260 residues. Table 13 shows that our server produced a much better (long-range) contact prediction than CCMpred and MetaPSICOV. In particular, our predicted contact map has L, L/2, L/5 and L/10 long-range accuracy 71.1%, 86.1%, 96.1% and 100.0%, respectively, while CCMpred- and MetaPSICOV-predicted contacts have long-range accuracy less than 35% since there are only

      113 effective sequence homologs for this protein, i.e., its Meff = 113. Fig 19 shows that both CCMpred and MetaPSICOV generated many false positive contact predictions and failed to predict long-range contacts.

      Red (green) dots indicate correct (incorrect) prediction. Top L/2 predicted contacts by each method are shown. The left picture shows the comparison between our prediction (in upper-left triangle) and CCMpred (in lower-right triangle) and the right picture shows the comparison between our prediction (in upper-left triangle) and MetaPSICOV (in lower-right triangle).

      The 3D model submitted by our contact server has TMscore 0.61 and RMSD 7.12Å. The best of top 5 models built by CNS from CCMpred- and MetaPSICOV-predicted contacts have TMscore 0.240 and 0.267, respectively. Fig 20 shows that our method correctly modeled the overall fold, while CCMpred and MetaPSICOV failed. To examine the superimposition of our model with its native structure from various angles, please see http://raptorx.uchicago.edu/DeepAlign/12043612/. Furthermore, all the other CAMEO-participating servers, including the top-notch servers Robetta, HHpred, RaptorX, SPARKS-X, and RBO Aleph (template-based and ab initio folding), only submitted models with TMscore≤0.25 and RMSD>16.90Å (Fig 21). A 3D model with TMscore less than 0.25 does not have the correct fold while a model with TMscore≥0.6 very likely has a correct fold. That is, our contact server predicted a correct fold for this target while the others failed to.

      The models are built by CNS from the contacts predicted by (A) our method, (B) CCMpred, and (C) MetaPSICOV.

      The rightmost column displays the model TMscore. Server60 is our contact web server.

      This test protein has a novel fold. Searching through PDB70 created right before November 12, 2016 by our in-house structural homolog search tool DeepSearch cannot identify any similar structures. The most structurally similar proteins returned by DeepSearch are 2fb5A and 5dwmA, which have TMscore 0.367 and 0.355 with the native structure of this target, respectively. This is consistent with the fact that all the other CAMEO-participating servers failed to predict a correct fold for this target.

      In addition, on December 3, 2016 CAMEO released a Leucine rich repeat protein (PDB chain: 5f0pA) of 462 residues with a new fold and Meff = 212 (see http://www.cameo3d.org/sp/targets/1-week/target/2016-12-03/5F0P_A/). Our server submitted a model with TMscore 0.70 and RMSD 6.89Å while the best model submitted by the others has TMscore only 0.42. Here we do not describe this target in detail to avoid elongating our paper further.


      G5. Prediction of Protein Tertiary Structure - Biology

      [1] Hou, J., Wu, T., Cao, R., & Cheng, J. (2019). Protein tertiary structure modeling driven by deep learning and contact distance prediction in CASP13. Proteins, accepted. (https://doi.org/10.1002/prot.25697)

      [2] Li, J., Deng, X., Eickholt, J., & Cheng, J. (2013). Designing and benchmarking the MULTICOM protein structure prediction system. BMC structural biology, 13(1), 2.

      [3] Cheng, J., Li, J., Wang, Z., Eickholt, J., & Deng, X. (2012). The MULTICOM toolbox for protein structure prediction. BMC bioinformatics, 13(1), 65.

      [4] Wang, Z., Eickholt, J., & Cheng, J. (2010). MULTICOM: a multi-level combination approach to protein structure prediction and its assessments in CASP8. Bioinformatics, 26(7), 882-888.


      Protein structure prediction methods and software

      A great number of structure prediction software are developed for dedicated protein features and particularity, such as disorder prediction, dynamics prediction, structure conservation prediction, etc. Approaches include homology modeling, protein threading, ab initio methods, secondary structure prediction, and transmembrane helix and signal peptide prediction.

      Choosing the right method always begins by using the primary sequence of the unknown protein and searching the protein database for homologues (figure 2).

      Here are some detailed methods for protein structure prediction:

      These tools predict local secondary structures based only on the amino acid sequence of the protein. Predicted structures are then compared to the DSSP score, which is calculated based on the crystallographic structure of the protein (more on the DSSP score here).

      Prediction methods for secondary structure mainly rely on databases of known protein structures and modern machine learning methods such as neural nets and support vector machines.

      Tertiary (or 3-D) structure prediction tools fall into two main methods: Ab initio, and comparative protein modeling.

      Ab initio (or de novo) protein structure prediction methods attempt to predict tertiary structures from sequences based on general principles that govern protein folding energetics and/or statistical tendencies of conformational features that native structures acquire, without the use of explicit templates.

      All the information about a protein’s tertiary structure is encoded in its primary structure (that is, its amino acid sequence). However, an enormous number of them can be predicted, among which only one has the minimal free energy and stability required to be folded properly. Ab initio protein structure prediction thus requires vast amount of computational power and time to solve the native conformation of a protein, and remains one of the top challenges for modern science.

      Most popular servers include Robetta (using the Rosetta software package), SWISS-MODEL, PEPstr, QUARK. Browse an exhaustive list here.

      If a protein of known tertiary structure shares at least 30% of its sequence with a potential homolog of undetermined structure, comparative methods that overlay the putative unknown structure with the known can be utilized to predict the likely structure of the unknown. Homology modeling and protein threading are two main strategies that use prior information on other similar protein to propose a prediction of an unknown protein, based on its sequence.

      Homology modeling and protein threading software include RaptorX, FoldX, HHpred, I-TASSER, and more.


      Videoyu izle: Protein Primer Sekonder Tersiyer ve Kuaterner Yapısı -Akademik (Ağustos 2022).