Bilgi

Bir protein zincirinin tam 3B yapısını tanımlamak için neden ilk ve son amino asidin Ramachandran açıları gerekli değildir?

Bir protein zincirinin tam 3B yapısını tanımlamak için neden ilk ve son amino asidin Ramachandran açıları gerekli değildir?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

İlk ve son amino asit Ramachandran açısının tüm iç koordinatlarını söylemek için gerekli olmadığı söylenen biyoinformatik algoritmanın çevrimiçi bir ppt slaydına rastladım. Proteinlerin 3D yapısını tahmin ederken herhangi bir simülasyon için gerçekten gerekli değil mi? Örneğin, N amino asit dizili bir protein zincirimiz varsa, 2N dihedral açı olacaktır. Bunlardan sadece 2N-2 (ilk ve son amino asit dihedral açıları dışında) dihedral açılarını belirtmemiz gerekir. Neden iki açı göz ardı edilir? Tüm zincir için tüm bağ açılarının ve bağ uzunluklarının sağlandığını varsayalım.

Bu ifadeyi aşağıdaki ppt'de, -9 numaralı slaytta, madde 3'ün altındaki iç koordinatların temsili başlıklı yazıda gördüm.

https://www.cs.umb.edu/~nurith/cs612/Manipulation.pdf


Uzayda N=3 noktadan oluşan bir zincir durumunu düşünün. Yalnızca orta noktayla ilişkili açılar vardır, iki uç noktanın kendileriyle ilişkili açıları yoktur, çünkü iki yerine yalnızca bir olay segmentine sahiptirler.


NKCC ve NCC Genleri

E. SLC12A1, 2 ve 3 Proteinlerinin Öngörülen ancak Gösterilmeyen Topolojileri

bir protein topoloji tahmin edilen silico'da peptit dizisinden proteinin gerçek üç boyutlu yapısının yarısıdır (von Heijne, 2006). Bu nedenle, amino asit dizilerinin fizikokimyasal özelliklerine dayalı olarak protein topolojisini veya yapısını tahmin etmek için geliştirilen bilgisayar algoritmaları ve ayrıca bilinen protein yapılarıyla (örneğin, diş açma ve homoloji modellemesi) karşılaştırma yapmak için paha biçilmez araçlardır. anlam çıkarmak topoloji ve/veya fonksiyon-yapı ilişkileri.

SLC12A proteinlerinin çoğu, birkaç transmembran alanı ve uzun hücre içi N- veya C-terminalleri ile benzer tahmin edilen yapıları paylaşıyor gibi görünmektedir. Bu varsayım, Kyte-Doolittle algoritmasına göre çıkarsanan SLC12A protein dizilerinin tahmini hidrofiliklik/hidrofobiklik profillerine dayanmaktadır (Kyte ve Doolittle, 1982). Bu algoritmanın önemli bir özelliği, "pencere boyutu" olarak adlandırılan, yani hidrofobik karakterli bir noktayı belirlemek için bir seferde incelenen amino asitlerin sayısıdır (Kyte ve Doolittle, 1982). Bu nedenle, araştırılmakta olan yapısal motifin beklenen boyutuna karşılık gelen bir pencere boyutunun seçilmesi kritiktir (yani, 19-21 pencere boyutu (a-sarmalını kapsayan bir zarın boyutu kadar) hidrofobik, zara yayılan yapı oluşturacaktır. etki alanları Kyte-Doolittle ölçeğinde öne çıkar (tipik olarak >1.6)). Bununla birlikte, SLC12A ailesinin memeli üyelerinde 12 transmembran (TM) alanını öngören hidropati grafikleri oluşturmak için 11 ila 15 amino asit arasında değişen pencere boyutları kullanıldı (Caron ve diğerleri, 2000 Delpire ve diğerleri, 1994 Gamba ve diğerleri, 1994 Gillen ve diğerleri, 1996 Hiki ve diğerleri, 1999 Moore-Hoon ve Turner, 1998 Payne ve Forbush, 1994 Payne ve diğerleri, 1996 Yerby ve diğerleri, 1997). SLC12A ailesinin üyeleri için alternatif topolojik modeller önerilmiş olmasına (Park ve Saier, 1996) ve çeşitli taşıma proteini ailelerinin muhtemelen 12'den fazla veya daha az TM alanına sahip üyeler içermesine rağmen (Espanol ve Saier, 1995 Paulsen ve Skurray, 1993), SLC12A ailesinin 12 TM alanının proteinleri olduğu kabul edilmektedir.

Membran yerleştirilmesini belirlemede en önemli faktörün 19-21 amino asit dizisinin hidrofobikliği olduğu artık açıktır (Zhao ve London, 2006). Bu kavram, deneysel olarak belirlenmiş transfersiz enerjiler (ΔG) orijinal olarak Wimley ve White (Wimley ve White, 1996) tarafından önerilen her amino asit için (yani bir termodinamik hidrofobiklik ölçeği). Bu nedenle, Wimley-White'ın hidrofobiklik grafiği (aynı zamanda oktanol grafiği), protein dizilerindeki transmembran α-helislerinin konumunu Kyte-Doolittle grafiğinden daha az belirsizlikle tanımlar. Şekil 11.3'te gösterildiği gibi, oktanol SLC12A1 (NKCC2), SLC12A2 (NKCC1) ve SLC12A3 (NCC) için elde edilen grafikler, 11-15 pencere boyutuna sahip Kyte-Doolittle algoritması kullanılarak bu gen ürünleri için orijinal olarak önerilenlerden farklıdır (Delpire ve diğerleri, 1994 Gamba ve diğerleri, 1994 Payne ve Forbush, 1994 Yerby ve diğerleri, 1997). Ancak oktanol çizim, eğer ikincisi 19-21 amino asitlik bir pencere boyutu kullanılarak oluşturulmuşsa, Kyte-Doolittle grafiğiyle çok iyi bağıntılıdır (Şekil 11.3).

Şekil 11.3. NKCC2 ve NKCC1 protein dizilerinin Kyte-Doolittle ve White-Wimley grafikleri. A. Öngörülen NKCC protein topolojisi. Varsayılan transmembran alanları (TM), lipid çift tabakası boyunca gri kutular olarak belirtilmiştir. TM alanlarında lokalize olduğu tahmin edilen NKCC2 amino asitlerinin konumu, her potansiyel TM alanının altında numaralandırılmıştır. Sürekli gri çizgi, NKCC2 proteinlerinin amino asit zincirini temsil eder. NKCC2'lerin sitoplazmik N-terminali ve C-terminal kısımlarında bulunan renkli noktalar, fosforile olduğu tahmin edilen kalıntıların (mavi: Ser, yeşil: Thr ve siyah: Tyr) ve potansiyel N-glikosilasyon sitelerini (kırmızı noktalar) temsil eder. NKCC2'nin N-terminalinde tirozin sülfinasyon için potansiyel bölge bir ok başı ile belirtilmiştir. NKCC2 proteinleri üzerindeki fosforilasyon ve sülfinasyon bölgeleri kullanılarak tahmin edildi: NetPhos ( www.cbs.dtu.dk/services/NetPhos ) ve sülfinatör ( www.expasy.ch/tools/sulfinator ), sırasıyla. B. hNKCC2A (ABU69043) (üstte), rNKCC2A (ABU63482) (ortada) ve hNKCC1a (AAC50561) (altta) hidropati grafikleri. Bu analizler, 19 kalıntılık bir pencere boyutu kullanılarak gerçekleştirilmiştir. 19 veya 21 pencere boyutları, hidrofobik, zara yayılan alanları açıkça öne çıkarır (tipik olarak, Kyte ve Doolittle ölçeğinde değerler &gt 1.6). Bu koşullar altında, hNKCC2 proteinlerinin 10 TM bölgesine sahip olduğu tahmin edilmektedir: 174–198, 208–228, 259–279, 298–318, 323–349, 380–402, 413–441, 489–512, 551–579 ve 604-627. Her bir TM, ∼20 kalıntı uzunluğundadır ve türler arasında oldukça aynıdır. NKCC2'lerde öngörülen tüm TM'ler, toplam serbest enerji (Δ) ile karakterize edilen lipit ortamında olmak için enerjik tercihlere sahiptir.G) White-Wimley arayüzü hidropati grafiğinde sıfırın üzerinde. Amino asitlerin ortalama yükleri, D (Asp) ve E (Glu) kalıntılarına -1, K (Lys) ve R (Arg) yükü +1 ve kalıntısı H (His) verilerek hesaplanır. +0.5'lik bir ücret. Temsil edilen veriler kullanılarak elde edildi jEMBOSS Linux için (emboss.sourceforge.net/Jemboss), THarita, TMPredProtScale (ExPASy moleküler biyoloji sunucusunda) ve PROTEUS Yapı Tahmin Sunucusu v2.0 (wks16338.biology.ualberta.ca/proteus).

Yalnızca hidrofobiklik grafiklerine (Kyte ve Doolittle, 1982) veya hidrofobikliğin termodinamik ölçeklerine (Wimley ve White, 1996) dayanan tahmin algoritmaları biraz eksik ve yanlıştır. Bilinen yapılardaki transmembran α-helislerinin ~%5'inin çok kısa olması (<15 kalıntı) ve kritik termodinamik verilerin eksikliği ile birlikte membranı sadece kısmen kaplaması, transmembran tahmin algoritmalarını bir şekilde yetersiz kılmıştır. Yakın zamana kadar, zar boyunca farklı pozisyonlardaki bireysel amino asitlerin serbest enerji katkıları rapor edilmedi (Hessa ve diğerleri, 2007). Bu nedenle, TM sarmallarını tahmin eden algoritmaların doğruluğu, yakın zamanda aşağıdaki gibi yeni araçların geliştirilmesiyle iyileştirilmiştir. MemBeyin (Shen ve Chou, 2008), TopPred ΔG (Hessa ve diğerleri, 2007), İRİ KARİDES (Bernsel ve diğerleri, 2008), ZPRED (Graseth ve diğerleri, 2006) ve PRO/PRODIV-TMHMM (Viklund ve Elofsson, 2004). Bu algoritmaların çoğu, TOPCONLAR protein topolojisi tahmin sunucusu (topcons.cbr.su.se). Kullanarak MemBeyin veya İRİ KARİDES, insan SLC12A1, SLC12A2 ve SLC12A3 proteinleri (yani NKCC2, NKCC1 ve NCC), bu proteinlerin 13 TM alanına sahip olabileceği tahmin edilebilirken, PRODIV, profesyonel veya Ahtapot 12 TM alanını tahmin eder (Şekil 11.4). 13 TM alanına sahip modelin, mevcut deneysel kanıtlarla desteklenmeyen, N- ve C-terminallerini farklı bölmelere (sırasıyla iç ve dış) yerleştirdiği belirtilmelidir.

Şekil 11.4. Membran protein topolojisinin fikir birliği tahmini. hNKCC2A, hNKCC1a ve hNCCa proteinlerinin (sırasıyla GenBank ABU69043, AAC50561 ve AAC50355) topolojik bilgileri beş farklı algoritma kullanılarak oluşturulmuştur: İRİ KARİDES, Ahtapot, ZPRED, PRO/PRODIV-TMHMM ( topcons.cbr.su.se/ ) ve MemBeyin, 15 kalıntıdan daha kısa olan TM alanlarının uçlarını tahmin etmek için kullanılan bir algoritma. A. Kullanılan algoritmalara göre NKCC ve NCC proteinlerinin tahmini topolojisi (MemBeyin (kırmızı), İRİ KARİDES (Mavi), PRO/PRODIV ve TOPCONLAR (Yeşil)). Öngörülen TM alanları, lipid çift tabakası boyunca gri kutular olarak belirtilir. Her TM'de yer aldığı tahmin edilen NKCC/NCC amino asit konumu, her bir transmembran alanının altında numaralandırılmıştır ve kullanılan algoritmaya göre değişir. Kesintisiz gri çizgi, NKCC/NCC proteinlerinin amino asit zincirini temsil ederken, noktalı çizgiler, kullanılan algoritmaya göre potansiyel topolojileri temsil eder. NKCC'lerin/NCC'nin sitoplazmik N-terminali ve C-terminal kısımları belirtilmiştir. B. Tahmini toplam serbest enerji (ΔG) hNKCC2A (üstte), hNKCC1a (ortada) ve hNCCa (altta) protein dizilerindeki her kalıntının değerleri.


Arka plan

Protein taksonomisi [1-5], kristalografik protein yapılarının şaşırtıcı derecede az konformasyonel çeşitliliğe sahip olduğunu ortaya koymaktadır. Farklı konformasyonların çoğu zaten bulunmuş olabilir [6, 7]. Protein yapısındaki bu belirgin yakınsama, karşılaştırmalı modelleme veya diş açma tekniklerinin geliştirilmesi için gerekçe sağlar [8-12]. Bu yaklaşımlar, şablon olarak bilinen protein yapılarının kitaplıklarını kullanarak katlanmış bir proteinin üçüncül yapısını tahmin etmeye çalışır. Topluluk çapında Yapısal Tahmin için Kritik Değerlendirme (CASP) testlerine göre [13], şu anda bu tür yöntemler katlanmış bir yapıyı belirlemek için en iyi tahmin gücüne sahiptir.

Döngü bölgelerinde karşılaştırmalı modelleme yaklaşımları hala kesinliklerinden yoksun olmaya devam etmektedir [14, 15]. Döngü bölgelerinde çeşitli yerleştirme teknikleriyle doldurulması gereken boşlukların olması nadir değildir. Döngü modellemedeki başarı genellikle süper ikincil yapılarla sınırlıdır. α-helisler ve β-teller nispeten kısa bükülmeler ve dönüşlerle birbirine bağlanır [16, 17]. Üçten fazla kalıntı içermeyen çok kısa bir döngü durumunda, şekil geometrik hususlar ve stereokimyasal kısıtlamaların bir kombinasyonu ile belirlenebilir [18]. Daha uzun döngüler durumunda, şekillerini tahmin etmek için hem şablon tabanlı hem de şablondan bağımsız yöntemler geliştirilmektedir [19-21]. Altta yatan varsayım, belirli bir dizi tarafından barındırılabilen döngü biçimlerinin sayısının sınırlı olması gerektiğidir. Protein Veri Bankasında (PDB) [22] halihazırda mevcut olan farklı fragmanlar daha sonra şu şekilde kullanılabilir: Lego tuğlaları, döngülerin inşasında yapısal yapı taşları olarak. Belirli bir amino asit dizisi basitçe kısa parçalara bölünür ve ardından gelen döngünün şekli, bilinen yapılara sahip homolojik olarak ilişkili parçalar kullanılarak çıkarılır. Tüm protein daha sonra bu fragmanların birleştirilmesiyle birleştirilir. Parçaları birleştirme işlemi için, hem tüm atom enerji fonksiyonları hem de Protein Veri Bankasındaki yakın homolog şablon yapılarla karşılaştırmalar kullanılabilir [8, 9, 12, 14].

Bu makalede, PDB döngülerinin modüler yapı taşlarını tanımlamak ve sınıflandırmak için yeni bir sistematik, tamamen nicel yöntem öneriyoruz, DSSP [23] konvansiyonunu izleyerek bir döngü tanımlıyoruz. Yaklaşımımız birinci prensip enerji fonksiyonuna [24–29] dayanmaktadır. kavramı üzerine inşa edilmiştir. evrensellik [30-36], uzun protein halkalarının bile parçalarını benzersiz bir bükülme bu, ayrık doğrusal olmayan Schrödinger (DNLS) denkleminin [39, 40] bir varyantını [37, 38] çözer. Başlangıç ​​noktamız, [41]'de yapılan ve 2.0 Å'den daha iyi çözünürlükle ölçülen bu PDB yapılarındaki döngülerin %92'sinden fazlasının, 0.65 Ångström RMSD'den daha iyi olan kink profilinin 200 farklı parametreleştirmesinden oluşturulabileceği gözlemidir. (kök-ortalama-kare-mesafe) doğruluğu. Burada, sistematik bir döngü parçası sınıflandırma şemasına dönüştürmek amacıyla bu gözlemi iyileştiriyoruz. Bunun için yalnızca 1.0 Å'den daha iyi çözünürlükle ölçülen ultra yüksek hassasiyetli PDB yapılarını dikkate alıyoruz. Bu, döngü bölgelerindeki B faktörlerinin küçük olmasını ve özellikle yapıların kapsamlı iyileştirme prosedürlerine tabi tutulmamasını sağlar. Aslında, iki ilmek parçası, yalnızca ortalama atomlar arası mesafe, ortalama Debye-Waller B faktörü dalgalanma mesafesinden daha büyük olduğunda farklı olarak kabul edilmelidir. B-faktörleri büyükse, iki parçayı tanımlamaya ve/veya ayırt etmeye yönelik herhangi bir sistematik girişim belirsiz hale gelir. Bu yüksek çözünürlüklü yapılar söz konusu olduğunda, 0,2 Å'lik RMSD hassasiyetini hedefleyebiliriz. Bunun sıfır noktası dalgalanmalarının kapsamı olduğunu tahmin ediyoruz. yani 0,2 Å civarında bir mesafe, içsel protein omurgası boyunca ağır atom pozisyonlarının belirlenmesinde belirsizlik. Bu nedenle, ortalama atomik koordinatlar arasında 0,2 Å'den küçük herhangi bir fark, esasen tespit edilemez. Açık yapılarla, ultra yüksek çözünürlüklü PDB protein yapılarının bu alt kümesi durumunda, döngülerin, genelleştirilmiş DNLS denkleminin benzersiz kıvrımının kombinasyonları kullanılarak sistematik olarak modellenebileceğini gösteriyoruz. Bu nedenle, yaklaşımımız, enerji fonksiyonuna dayalı birinci ilkeler matematiksel kavramı açısından, yüksek hassasiyetli kristalografik PDB yapılarındaki döngüleri sınıflandırmak için genel bir yaklaşım için bir temel sağlar.


Sonuçlar

Kalıntı eşleşmeleri için yerel modelden daha iyi küresel

Karşılıklı bilgi, kalıntı yakınlığı ile yeterince ilişkili değildir.

İlk önce, doğrudan yerel karşılıklı bilgi (MI) ölçüsünü kullanarak kalıntı-kalıntı yakınlık ilişkilerinin tahminini denedik. MI(i,j) her kalıntı çifti için ben, J deneysel olarak gözlemlenen birlikte oluşum frekanslarını karşılaştıran bir fark entropisi Fij(Aben,AJ) amino asit çiftlerinin Aben, AJ pozisyonlarda ben, J dağıtıma uyum Fben(Aben)FJ(AJ) kalıntı çifti bağlantısı olmayan (metin S1'deki ayrıntılar): (1) yüksek atanan kalıntı çiftlerinden oluşturulan temas haritaları değerler ve dolayısıyla tahmin edilen temaslar olarak yorumlanır, Fodor ve ark.'nın çalışmasıyla tutarlı olarak yerel yapılardan çıkarılan doğru temas haritalarından önemli ölçüde farklıdır. [9] (Şekil S1). Görsel inceleme -gözlenen kristal yapı üzerine bindirilmiş kalıntı çiftlerini birleştiren çizgiler olarak tahmin edilen temaslar, genellikle yanlış ve/veya eşit olmayan şekilde dağılmıştır (Şekil 3, sol, mavi çizgiler). Muhtemelen bu, bölgenin yerel doğasından kaynaklanmaktadır. , her kalıntı çifti için bağımsız olarak hesaplanır ben,J. Makul bir şekilde, anahtar kafa karıştırıcı faktör, örneğin B kalıntısı hem A hem de C ile birlikte değişiyorsa, örneğin B uzamsal olarak A ve C'ye, sonra A ve C'ye yakın olduğu için, en basit durumun kalıntı üçlülerini içerdiği çift korelasyonlarının geçişliliğidir. fiziksel yakınlık olmadan bile birlikte değişebilir (A–C geçişli bir çift korelasyonudur). Sadece karşılıklı bilgi değil, herhangi bir yerel korelasyon ölçüsü bu geçişlilik etkisi ile sınırlıdır.

Kalıntı eşleşmesi ve çoklu dizi hizalamalarından tahmin edilen temaslar hakkında evrimsel bilgilerin çıkarılması, yerel istatistiksel modelden (sol, Karşılıklı Bilgi, MI, Denklem 1) ziyade global istatistiksel model (sağ, Doğrudan Bilgi, DI, Denklem 3) kullanılarak çok daha iyi çalışır. DI için öngörülen kontaklar (sekans bilgisinden bağlanacağı tahmin edilen kalıntıları bağlayan kırmızı çizgiler), deneysel olarak gözlemlenen yapıda (gri şerit diyagramı), burada RAS proteini için gösterilen MI için olanlardan (sol, mavi çizgiler) daha iyi konumlandırılmıştır ( üst) ve ELAV4 proteini (alt). DI kalıntı çiftleri ayrıca zincir boyunca daha eşit bir şekilde dağılmıştır ve gözlemlenen yapıdaki temaslarla (kontak haritası merkezinde kırmızı yıldızlar [tahmin edilen, gri daireler [gözlenen], sağ üst üçgen) MI kullananlardan (mavi [ tahmin edilen], gri daireler [gözlenen] merkez, sol alt üçgen). Tahmin edilen ve gözlenen temasları karşılaştıran tüm proteinler için temas haritalarının ayrıntıları, Şekil S1 ve S2, Metin S1'dedir.

Global bir maksimum entropi modelinden etkili kalıntı eşleşmeleri.

Bu tür doğrudan ve dolaylı korelasyon etkilerini çözmek için, çoklu dizi hizalamasında gözlemlenen tüm çift korelasyonlarını en iyi açıklayan bir dizi doğrudan kalıntı eşleşmesini hesaplamak için küresel bir istatistiksel model kullanıyoruz (bkz. Yöntemler ve Metin S1) [15], [47]. Daha doğrusu, genel bir model arıyoruz, P(A1…AL), belirli bir amino asit dizisinin olasılığı için A1…AL uzunluk L zımni olasılıklar göz önünde bulundurularak, söz konusu izo-yapısal ailenin bir üyesi olmak Pij(Aben,AJ) çift ​​oluşumlar için (marjinaller) verilerle tutarlıdır. Başka bir deyişle, ihtiyacımız olan Pij(Aben,AJ)∼fij(Aben,AJ), nerede Fij(Aben,AJ) pozisyonlarda amino asitlerin gözlemlenen çift frekanslarıdır ben ve J ailede bilinen dizilerde ve marjinallerde Pij(Aben,AJ) toplanarak hesaplanır P(A1…AL) dışındaki tüm dizi pozisyonlarındaki tüm amino asit türleri üzerinde ben ve J. Kalıntı çifti özelliklerinin spesifikasyonu (daha yüksek dereceli terimleri göz ardı ederek) amino asit dizisini belirsiz bıraktığından, gözlemlenen çift frekansları ile tutarlı olacak birçok olasılık modeli vardır. Bu nedenle, bir ek koşul, maksimum entropi koşulu, olasılıkların maksimum düzeyde eşit dağılımını gerektiren - yine de verilerle tutarlılık gerektiren - empoze edilebilir.Bu kısıtlı optimizasyon probleminin çözümleri olan olasılık dağılımları [11], [45], [49] biçimindedir: (2) Burada Aben ve AJ dizi pozisyonlarındaki belirli amino asitlerdir ben ve J, ve Z normalizasyon sabitidir. Lagrange çarpanları eij(Aben,AJ) ve Hben(Aben) sırasıyla çift ve tek kalıntı oluşumları ile olasılık modelinin uyuşmasını sınırlayın. Bu küresel istatistiksel model, Ising veya Potts modellerinde olduğu gibi, çok parçacıklı bir sistemin konfigürasyonunun olasılığı için istatistiksel fizik ifadelerine benzer. Bu benzetmede, bir dizi konumu ben spin gibi bir parçacığa karşılık gelir ve 21 durumdan birinde olabilir (Aben = 1..21) ve Hamiltonyen (kıvrımlı parantez içindeki ifade) parçacık-parçacık birleştirme enerjilerinin toplamından oluşur eij(Aben,AJ) ve tek parçacık birleştirme enerjilerini dış alanlara Hben(Aben).

Protein dizilim problemimiz için, eij(Aben,AJ) denklem 2'de, katlama kısıtlamalarının tahmininde kullanılan temel kalıntı birleştirmeleri ve Hben(Aben) gözlemlenen tek kalıntı frekansları ile tutarlılığı yansıtan tek kalıntı terimleridir. Bu parametreler bu nedenle iki anahtar koşula göre optimaldir, (1) gözlemlenen verilerle tutarlılık (çift ve tek kalıntı frekansları) ve (2) tüm olası diziler kümesi üzerinde global olasılığın maksimum entropisi. Pratikte, bu parametreler matris tersi ile belirlendikten sonra (Denklem M4, M5), etkin çift olasılıkları doğrudan hesaplanabilir. Pij Yön (Aben,AJ) (Denklem M6) ve bunlardan etkili kalıntı eşleşmeleri ('karşılıklı bilgi' terimine benzer şekilde 'doğrudan bilgi') DIij tüm olası amino asit çiftlerini toplayarak Aben,AJ pozisyonlarda ben,J: (3) Doğrudan bilgi için bu ifade arasındaki önemli fark DIij (Denklem 3) ve karşılıklı bilgi denklemi ij (Denklem 1), yerel frekans sayımlarına dayalı olarak tahmin edilen çift olasılıklarının yerini almaktır. Fij(Aben,AJ), çift kısıtlı çift olasılıkları ile Pij Yön (Aben,AJ), tüm çiftler üzerinde küresel olarak tutarlı olan ben,J.

Küresel maksimum entropi istatistiksel modeli, kalıntı yakınlığını ortaya koymaktadır.

Şimdi kalıntı birleştirme puanlarının olup olmadığını inceliyoruz. DIij (Denklem 3 Denklem 22, Metin S1) maksimum entropi modelinden uzamsal yakınlık hakkında bilgi sağlar. Kalıntı çiftleri daha yüksek DIij 3B yapıda puanların birbirine yakın olma olasılığı daha mı yüksek? Yüksek dereceli kalıntı çiftlerini gösteren temas haritalarının incelenmesi DIij gözlemlenen (kristal) bir yapı için temas haritaları üzerine bindirilen değerler, şaşırtıcı derecede doğru bir eşleşme ortaya koymaktadır. Yüksek skorlu kalıntı çiftleri genellikle gözlemlenen yapıda yakındır ve bu çiftler, yüksek skorlu çiftlerin aksine protein dizisi ve yapısı boyunca iyi dağılmıştır. ij değerleri, (Şekil 3, Şekil S2). Bu dikkate değer doğru temas tahmini seviyesi, dört ana kat sınıfındaki tüm test durumlarımız (Tablo 1, Tablo S1) için geçerlidir.

Diğerleri, yanlış (yanlış pozitif) temas eksikliği ile birlikte yeterli doğru (gerçek pozitif) temaslar verildiğinde, tahmin edilen temasların, proteinleri ∼200'e kadar ana dört kat kategorisinden katlamak için kalıntı-artık mesafesi sınırlamaları olarak uygulanabileceğini göstermiştir. 3 Å C'nin altındaα-Kristal yapıdan [50] RMSD hatası ve daha sonraki çalışmalarda 3 Å C'nin altında doğrulukla 365'e kadar kalıntıα-RMSD hatası [50], [51]. Bu nedenle, proteinleri katlamak için kalıntı-artık mesafe sınırlamaları olarak körü körüne tahmin edilen yakınlık ilişkilerimizi kullanmaya teşvik edildik. yeni genişletilmiş polipeptit zincirlerinden

Evrimsel kısıtlamalardan çıkarılan protein tüm atom yapıları

Gerçek kontakların [50], [51] alt kümelerini kullanan zarif analizlere rağmen, Önsel temas tahmininin doğruluğunun ne ölçüde 3B yapı tahmininin doğruluğuna dönüştüğü ve özellikle bu tür bir tahminin yanlış pozitiflerin varlığına ne kadar sağlam olduğu açıktır. Bu nedenle, temas tahmininin doğruluğunu, tahmin edilen 3B yapıların çok katı doğruluk kriteri ile değerlendirmeye karar verdik.

Model yapıları oluşturma.

Aileden bir proteinin amino asit sekansı ile genişletilmiş bir polipeptit zincirinden başlayarak (Tablo S1), nükleer manyetik rezonans (NMR) spektroskopisi [52] (Metin S1) ile yapı tayini için kullanılan iyi kurulmuş mesafe geometrisi algoritmalarını kullandık. . Mesafe kısıtlamaları, yüksek DI puanları çiftlerine sahip kalıntı çiftleri ve diziden tahmin edilen ikincil yapı kısıtlamaları kullanılarak oluşturulmuştur (Metin S1, Ek A1, Tablo S2). Protokol, ilk 3B konformasyonları oluşturur ve ardından benzetilmiş tavlama [48] uygular (Adımlar Metin S1 ve Ek A2'de özetlenmiştir). Mesafe kısıtlamalarının sayısının (nC) gerekli protein uzunluğu ile monoton olarak ölçeklendirilmelidir L, gözlenen temas haritalarından kıvrım rekonstrüksiyonunda görüldüğü gibi [50], [51]. Belirli bir mesafe sınırlaması seti kullanarak tahmin edilen yapının değişkenliğini araştırmak için, bir dizi mesafe için 20 aday yapı oluşturduk. nC başlayan değerler nC = 30 ve 10'un en yakın katına 10'luk adımlarla artırılır L, ör. nC = 30 ile nC = 160 PFAM hizalamasında 160 çekirdek kalıntısına sahip olan Hras proteinleri için. Böylece, toplamda şu sıraya göre üretiyoruz: 2*L her bir protein ailesi için, tahmin adayı olarak, daha kesin olarak, proteinin boyutuna bağlı olarak 400 ile 560 arasında aday üç boyutlu yapılar (Tablo 1, Ek A3). Uygulamada, daha az sayıda aday yapı yeterli olabilir. Her aday, aileden seçilen ilgili belirli bir referans protein için tüm atom yapısı tahminidir. Model yapıları, öngörülen mesafe kısıtlamalarının maksimum bir kısmını karşılar ve iyi stereokimya ve bağlı olmayan moleküller arası potansiyellerle tutarlılık koşullarını karşılar. Her protein için en yüksek tahmin edilen yapı, nesnel, öncelikle geometrik kriterler kullanılarak bu aday yapıların kör sıralanmasıyla seçilir (Şekil 2, Şekil S2, Ek A3).

Çeşitli kat tiplerinin küçük ve daha büyük proteinleri için 3B yapı çıkarımı

Protein katlama tahmini ile ilgili olarak kalıntı çifti korelasyonlarının bilgi içeriğini değerlendirmek için, yöntemi giderek zorlaşan durumlara uyguluyoruz. Küçük tek alanlı proteinlerle başlıyoruz ve daha büyük, daha zor hedeflere geçiyoruz, sonunda farklı kat sınıflarından geniş kapsamlı biyolojik ilgiye sahip bir dizi iyi çalışılmış protein alanını kapsıyoruz. Dört örnek aile için ayrıntılı sonuçları ve diğer 11 test ailesi için özet sonuçları rapor ediyoruz ve Şekil S3'te 15 test protein ailesinin tümünün ayrıntılı 3D görünümlerini ve Ek A3 ve A4'te etkileşimli inceleme için ayrıntılı 3D koordinatları ve Pymol oturum dosyalarını sunuyoruz. ://cbio.mskcc.org/foldingproteins.

Küçük: bir RNA bağlama alanı (RRM).

İnsan Elav4 proteininin (Uniprot ID: Elav4_human) 71 kalıntılı RRM alanının kör tahmini, daha küçük bir proteinin tipik bir örneğidir. Mesafe kısıtlamaları, PFAM ailesindeki zengin bir 25K örnek protein korpusundan türetilmiştir. En yüksek sıralamalı tahmin edilen yapı (mükemmel) düşük 2,9 Å C'ye sahiptirα - 71 kalıntının 67'sinde kristal yapıdan RMSD sapması, 0.57 TM puanı ve GDT_TS 54.6, gözlemlenen kristal yapıya genel olarak iyi yapısal benzerliği gösterir, [53], [54], (Şekil 2 üst, Tablo 1) . Beş β-şeritinin ve iki α-sarmalının doğru topografyasına sahiptir, en azından kısmen iplik 1'in kesilmesinden dolayı, sadece iplik 1 ve 3 arasında eksik bir H-bağ modeli ile gölgelenir, kısa uzunluğunun bir sonucu olarak. PFAM hizalamasındaki sıra. 2 ve 3 numaralı teller yalnızca 1,6 Å C ile hizalanırα- Öngörülen ipliklerin uzunluğu boyunca RMSD sapması ve bazı doğru kayıtlarla hidrojen bağı için yeterince iyi konumlandırılmış. İlginç bir şekilde, ikincil yapı tahmin yöntemi tarafından kaçırılan 4. β-iplik (sondan bir önceki) 3D'de doğru bölgeye yerleştirilir: bu, kalıntı birleştirme bilgisinin yanlış yerel tahmini geçersiz kıldığı birkaç örnekten biridir. Elav4'ün tahmin edilen en üst sıradaki alanı, büyük olasılıkla yerel yapının iyileştirme havzasında yer almaktadır.

Orta boy: Ras onkogeni (G-domeni), GTPaz aktif sitesi olan bir α/β alanı.

PFAM'deki G-domeni ailesi, ilgili protein olarak seçilen İnsan Ras proto-onkogen proteini (Uniprot-ID: hras_human) ile 161 kalıntıdan oluşan bir çekirdek çoklu dizi hizalamasına (MSA) sahiptir. Yapı, biri (α-2) GTP hidrolizinden sonra GTPaz geçiş geçişinde yer alan 5 α-helis ile çevrili 6 iplikli bir β-tabaka ile bir α/β katına sahiptir. En yüksek dereceli, körü körüne tahmin edilen yapı 3.6 Å C'dirα-Kristal yapıdan RMSD, 161'den fazla kalıntı (Şekil 2 orta) ve 0.7'lik yüksek bir TM puanına sahiptir (0.0–1.0 aralığı, 1.0 kalıntıların %100'ünün doğru konumdan belirli bir mesafede olduğunu gösterir [53]). Altı β-şerit ve beş α-helis, doğru uzaysal pozisyonlara yerleştirilir ve doğru şekilde diş açılmıştır (Ekler A3 ve A4). 5 β-iplik çifti oluşturan 6 β-şerit, tüm omurga bağları için hidrojen bağlama mesafesi içinde değildir, ancak kalıntı çiftlerinin 26/30'u için doğru kayıt kolaylıkla tahmin edilebilir, Metin S1. En yüksek sıradaki yapıların genel topografyasının doğruluğu dikkat çekicidir (Tablo 1) ve bildiğimiz kadarıyla, şu anda bu boyuttaki proteinler için herhangi bir şekilde elde edilemez. yeni yapı tahmin yöntemi [27].

Daha büyük: tripsin, iki alanlı β-varil yapısına sahip bir enzim.

Kör testte test edilen en büyük (zar olmayan) protein ailesi, temsili bir protein olarak seçilen sıçan tripsinli tripsin katlı serin proteaz ailesidir. 223 amino asitteki boyutu, diğer de novo hesaplama yöntemleriyle tahmin edilebilecek proteinlerden önemli ölçüde daha büyüktür. Tripsin, yapısal olarak izomorf iki β-varil alanındaki β ipliklerinden oluşur. En yüksek sıralı tahmin edilen yapı 4.3 Å C'ye sahiptirα- 223 kalıntıdan 186'sında RMSD hatası (Şekil 2 alt, Tablo 1, Ekler A3 ve A4). İkincil yapı elemanlarının uzaydaki genel dağılımı yaklaşık olarak doğrudur ve yöntemimiz, hizalamamız Metin S1 içinde yer alan 5 disülfid bağlı sistein çiftini doğru bir şekilde tahmin eder. İlk β-varilin (alan 1) topografyası iyidir ve makul bir şekilde gözlemlenen yapının iyileştirme aralığındadır. Beş doğru β-iplik çifti tanımlanır (biri yoktur) ve hidrojen bağı çiftli kalıntılarının %70'i doğru kayıt, Metin S1 ile tahmin edilir. Ancak, etki alanı 2 bir dizi yanlış döngü ilerlemesine sahiptir (Ek A3'teki Pymol oturumuna bakın) ve muhtemelen (inceleme yoluyla) doğru yapının iyileştirme aralığında değildir. Tripsin ailesindeki proteinlerin yapısını tahmin etmek, yapının aktivasyon peptitinin bölünmesinden sonra konformasyonel bir değişikliğe uğradığı bilindiğinden [55] ve N-terminali ve C-terminali peptidi bir alandan diğerine geçtiği için özellikle zordur. başka.

Tripsinin aktif bölgesindeki kalıntı konfigürasyonunun çıkarılması.

Tripsinin 2. alanındaki sınırlı yapı tahmini kalitesine rağmen, en üst sıradaki yapıların C'yi yerleştirmesi ilginçtir.α yüksek oranda korunan aktif bölge üçlüsünün atomları, doğru şekilde Ser-His-Asp kalıntılarını akraba uzamsal yakınlık, yani 0.64 3 Å C içindeα-RMSD (ve 1.3 Å tüm atom-RMSD) hatası, katalitik bölgenin üç kalıntısının deneysel yapının aynı üç kalıntısı ile üst üste bindirilmesinden sonra (Şekil S4). Bu, işlevsel sitelerin yakınındaki güçlü evrimsel kısıtlamaları yansıtabilir ve aktif bir sitenin etrafındaki yerleşimlerin konfigürasyonunun, 3B yapının diğer ayrıntılı yönlerinden daha doğru bir şekilde tahmin edilebileceğini ima edebilir. Aktif bölge takımyıldızlarını bu doğruluk seviyesinde tahmin etme yeteneği, tahmin edilen yapısal şablonlar üzerinde ilaçların tasarımı için özellikle ilginç olacaktır.

Keşif: rodopsin, bir a-sarmal transmembran proteini.

Rodopsin, bu yöntem kullanılarak tahmin edilen ilk zar proteinidir. Membran proteinlerinin bu önemli sınıfı 7 helise sahiptir ve mesafe sınırlamalarının çıkarsandığı PFAM ailesi, A sınıfı G-protein kenetli reseptörlerin birçok alt ailesini içerir [56]. En yüksek dereceli tahmin edilen rodopsin yapısı için (4.84 Å Cα171 kalıntı üzerinde temsili bir kristal yapıdan kaynaklanan RMSD hatası), sarmalların genel topografyası doğrudur (TM puanı 0,5), helis 1 ve 7 için ortaya çıkan konumsal sapmanın çoğu, helislere dik yöne göre yanlış hizalanmıştır. membran yüzeyi, (Tablo 1, Şekil S3). En yüksek TM puanı (0,55) ve 4,29 Å C ile tahmin edilen yapıα-180 kalıntı üzerinde RMSD, ayrıca terminal sarmalları yanlış hizalar ancak Arg135 (sarmal III) ve Glu247, Thr251 (sarmal VI) ve diğer iyi bilinen yan zincirler arasındaki yakın mesafelerden (<4,5 Å) oluşan bir ağı yeniden özetler. Asn78 (sarmal II) ile Trp161 (sarmal IV) ve Ser127 (sarmal III) gibi sarmallar arası yakınlıklar [57]. Yöntemin mevcut versiyonunun zar proteinleri için zar oryantasyonu hakkında hiçbir bilgiye sahip olmadığı göz önüne alındığında, bu, yöntemin zar proteinleri için 3D yapı tahminine gelecekteki uygulaması için mükemmel bir başlangıç ​​noktası teşkil eder.

Çıkarsanan yapıların sıralanması.

Yararlı ve nesnel kör tahminlere ulaşmak için, her aile için çıkarsanan yapılar kümesi, fiziksel ilkelere ve protein yapısının genel ilkelerine ilişkin a priori bilgiye dayalı nesnel kriterlere göre sıralanır. Mevcut uygulamada, α-helislerde sağ-elli zincir bükümünün ve β-iplik çiftleri için sağ-elli iplikler arası bükümün iyi kurulmuş ampirik gözlemiyle tutarlılık kullanıyoruz [58] (Metin S1). Aday yapılardaki α-helislerinin sanal dihedralleri ve tahmin edilen β-bükümleri, her protein için β-ipliklerindeki ve α-helislerindeki nispi kalıntı sayılarıyla ağırlıklandırılan bir puan olarak birleştirildi, tüm yapılar için puanlara bakınız. Ek A5. Bu geometrik kriterleri, mesafe kısıtlamalarının herhangi bir kiral bilgiye sahip olmaması gerçeğinden kaynaklanan yapaylıkları ortadan kaldırmada etkili bulduk, öyle ki, moleküler dinamikleri kullanarak iyileştirmeden önceki başlangıç ​​yapıları, mesafe kısıtlamaları ile tutarlı olsa da, yanlış kiraliteye sahip olabilir. küresel veya yerel olarak. Mirny ve arkadaşlarının yöntemine göre düğümlü aday yapıları da (en üst sıradaki tripsin tahmininde olduğu gibi) ortadan kaldırdık. [59].

En yüksek dereceli tüm atom modeli yapısı, en üst kör olarak tahmin edilen yapı olarak alınır (Tablo 1, Tablo S1). Daha düşük dereceli yapıların 3B yapının daha düşük doğruluğuna sahip olması beklenir, ancak bu, bilinen yapılarla karşılaştırılarak kör tahminden sonra test edilmelidir. Tüm prosedürün ve sıralama kriterlerinin bir testi olarak, tahmin edilen yapıların sıralama puanını, seçilen referans proteinin X-ışını kristalografisinden deneysel olarak gözlemlenen yapı ile karşılaştırarak kör tahminlerimizi değerlendirdik (Metin S1, Şekil 4A). , Şekil S5 ve Ek A5). RAS ve Tripsin gibi proteinler için (Şekil 4B), objektif kriterler, en düşük C ile öngörülen yapıları başarıyla sıralar.α-RMSD hatası bir kristal yapıya en yüksek puan olarak verilir. Açıkça düğümlenmiş proteinleri [59] çıkardıkça, nadiren gözlemlenen gerçekten düğümlenmiş proteinleri [60] kaçırırız.

A. Burada, evrimsel bilgilerden (EIC'ler) çıkarılan temaslara dayalı olarak bildirilen de novo yapı tahmininin genel performansı, 15 test proteini için iyi ile mükemmel arasında değişir (solda: 3D yapı tipi [α = α-sarmal içeren, β = β-iplik içeren, 7tm-α = yedi zar ötesi sarmal içeren] parantez içinde: protein alanının boyutu/C için kullanılan kalıntı sayısıα-Barda RMSD hata hesaplaması: Uniprot veritabanı kimliği). Daha büyük çubuklar daha iyi performans, yani daha düşük C anlamına gelirα-RMSD koordinat hatası. Solda: 400-560 arasında her hedef protein için en üst sıradaki yapı için performans (proteinin boyutuna bağlı olarak, başına 20 yapı nC çöp Kutusu, nC 10'luk adımlarla, Ek A3 ve A6)'daki ayrıntılar kör tahmin modunda aday yapılar sağda: 10~200 arasında değişen 20 kısıtlama seti için oluşturulan 20 aday yapıdan geriye doğru bakıldığında en iyi yapının performansı, adım adım 10. Bu, daha iyi sıralama kriterleri veya yapı kalitesinin bağımsız tahmin sonrası doğrulaması ile elde edilebilecekleri yansıtır (Web Ek A5'te kör sıralama puanlarının Tablo 1 ayrıntıları). GDT-TS ve TM puanı gibi hata değerlendirmesi için diğer iyi kabul edilen yöntemler, karşılaştırma amaçları için yararlıdır (Tablo S1, Web Ek A6). B. C'ye karşı her aday yapının (beklenen yapı kalitesini ölçen) sıralama puanıα-RMSD hatası. İdeal olarak, daha yüksek dereceli puanlar daha düşük hataya karşılık gelir. Elav4, Ras ve Tripsin için aday yapıların (siyah noktalar) dağılımı, geriye dönük olarak, burada kullanılan sıralama kriterlerinin nispeten yararlı olduğunu ve hangi yapıların en iyi olabileceğini tahmin etmede yardımcı olduğunu göstermektedir (Şekil S5'te test edilen tüm proteinler için grafikler). ). Kör tahmin modunda, bir tahmin edilen aday 3B yapı listesi, tek bir üst sıradaki yapı veya tercih edilen tahminler olarak aday gösterilen bir üst sıradaki yapı grubu ile nesnel ve otomatik kriterlere göre sıralanmalıdır.

Tahmin doğruluğunun değerlendirilmesi: 3B yapılar

Bilinen yapıya sahip 15 test proteini için kör 3D doğruluğunun özeti.

Çeşitli oranlarda α-helis ve β-tabaka içeren tüm ana kat sınıflarından örneklerin 3B katı hakkında elde edilen mesafe kısıtlamalarındaki bilgilerin kapsamına ve yüksek değerine şaşırdık. Maksimum entropi istatistiksel modelinden türetilen kalıntı eşleşmelerindeki bu yüksek bilgi içeriği, şimdiye kadar, 161 kalıntılı H-ras gibi G alanları kadar büyük proteinlere ve 223 kalıntılı tripsin gibi serin proteazlara kadar uzanır. ve 258 hizalanmış kalıntıya sahip bir trans-membran proteini olan rodopsin ailesi. Bu boyut şimdiye kadar son teknoloji için aralık dışındaydı yeni üç boyutlu fragmanlar kullanıldığında bile tahmin yöntemleri [22], [61].Genel olarak, ayrıntılı olarak incelenen 15 protein arasında tahmin edilen α/β kıvrımlarının en doğru genel topografiyi ürettiğini bulduk (Tablo 1, Tablo S1, Şekil S5). Bu sonuçların muhtemelen birçok protein ailesine yayılacağını ve bunların çoğu için evrimsel bilgiden türetilen mesafe kısıtlamaları ve yalnızca tahmin edilen ikincil yapı ve ardından enerji iyileştirme kullanılarak doğru yapıların üretilebileceğini tahmin ediyoruz. 15 protein ailesi kümesinden 12'si için (Tablo 1), en iyi kör olarak sıralanan yapılar, kabul edilen kötü uyumun orta bir fraksiyonunun çıkarılması uygulamasını kullanarak, kalıntıların en az %75'i için 2,7 Å–4,8 Å arasında koordinat hatalarına sahiptir. C tanımındaki kareden kaynaklanan aykırı değerlerden abartılı etkiyi önlemek için kalıntılarα-RMSD (MaxCluster paketini [62] kullanarak). En pratik amaçlar için, bunların, kabaca yaklaşık 5 Å C yarıçapına sahip olduğunu tahmin ettiğimiz belirli doğru kıvrımı tanımlamanın yüksek olasılıkla olduğu çekim havzası içinde olduğu düşünülebilir.α-RMSD. Kısmi istisnalar, nispeten düşük 4,8 Å C'nin olduğu rodopsindir (OPSD).α-RMSD hatası, 258 kalıntıdan 171'i (%66) ve 46/63 kalıntı (%73) için 4,7 Å'de PCBP1 ile sınırlıdır. Bu proteinler için, uyum, proteinin daha küçük, ancak yine de oldukça büyük bir fraksiyonu ile sınırlıdır ve doğru toplam katın tanınması daha az olasıdır. Ana istisna, tatmin edici olmadığını düşündüğümüz 47/108 kalıntı (%44) için 4.0 A'da SPTB2'dir. CASP'de alışılagelmiş TM puanları bu farklılıkları yansıtır ve 15 test proteininden 11'i için en üst sıradaki tahminlerin bu boyuttaki de novo modellenmiş yapılar için mükemmel olarak kabul edilmesi makuldür (Tablo S1) [27], [61] , [63].

En üst sıralarda yer alan tahmin edilen yapıların yakın temaslarının ayrıntılı incelemesi, ilginç ihlalleri ortaya koymaktadır (Şekil 5). Ras ve Tripsin için yanlış pozitif DI kısıtlamaları (Ras için Ser145 ve Asp57 ve tripsin için Ser127 ve Ala37 arasında) en yüksek tahmin edilen yapılarda karşılanmaz, dolayısıyla doğruluğu artırır. Tersine, bu kontakların yakınında herhangi bir kısıtlama kullanılmamasına rağmen, RAS'ta N-terminal β-kol ve C-terminal sarmal ve ELAV4'te C-terminal β-kol ile bir temas yapılır (gri daireler, Şekil 5).

Kör olarak en üst sıradaki yapılar, temas tahmini kalitesi açısından değerlendirilir (NC = Elav4, N için 40C = 130 Ras, N içinC = Tripsin için 160). Tahmin edilen kısıtlamalar (kırmızı yıldızlar), gözlemlenen yapıdan (gri daireler) türetilen temaslarla çakıştıklarında doğrudur ve aksi takdirde yanlıştır (yanlış pozitifler, beyaz üzerine kırmızı). Tahmin edilen 3B yapıdan (koyu mavi) türetilen temaslar, gözlemlenen yapıdan (gri) gelenlerle iyi bir genel uyum içindedir. Katlama tahmin sürecinin işbirlikçi doğası, öngörülen bir kısıtlamanın (kırmızı) dokunmadığı temas bölgelerinin hala doğru tahmin edildiği (RAS için siyah daire, gri üzerine koyu mavi, kırmızı yok) ve yanlış pozitif kısıtlamaların güçlü olmadığı uygun durumlara izin verir. yanlış temaslara yol açacak kadar (sol siyah daire Elav4, kırmızı yıldız, koyu mavi veya gri yok). Bununla birlikte, elverişsiz durumlarda eksik kısıtlamalar, temas bölgelerinin tamamen veya kısmen kaçırıldığı (siyah daire, tripsin) veya çoğunlukla kaçırıldığı (Elav4 için sağ siyah daire, koyu maviye bitişik ve koyu maviden daha geniş gri) anlamına gelebilir.

En iyi 400 aday yapıda en iyi 3D tahmin doğruluğu.

Yöntemin potansiyelini değerlendirmek ve aday yapı kümeleri için sıralama kriterlerinin gelecekteki iyileştirmelerine yönelik bir bakış açısıyla, birileri, örneğin 400 aday yapıdan hangisinin en yüksek doğruluğa sahip olduğu sorusu sorulabilir. Bu soru, örneğin model hatasına karşı model enerjisinin ilişkisini (dağılım grafikleri) tartışan protein yapısı tahmin raporlarına benzer. Burada, her protein için 400 aday yapı arasından seçilen TM puanına göre en iyi aday yapılar (nC = 10-200), 0,5 ila 0,76 arasında TM puanlarına sahiptir ve tipik olarak 2,8 Å ila 4,6 ÅC arasında değişen körü körüne en üst sıradaki yapıdan daha düşük bir hataya sahiptir.α-180/258 kalıntı (%66) için 4,3 Å elde ettiğimiz OPSD hariç, kalıntıların en az %80'ini kapsayan 15 ailenin tümü için RMSD, (Şekil 4B, Tablo1, Tablo S1). Çoğu durumda en iyi 400 adayda daha iyi 3B yapıların bulunması, protein kıvrımlarının konformasyonel arama alanı o kadar büyük olduğundan, rastgele yöntemler veya orta derecede etkili yöntemlerin aşırı derecede düşük olması nedeniyle önemsiz olmayan bir olumlu göstergedir. Bu düşük aralıkta 400 yapı kadar az hata elde etme olasılığı. Bununla birlikte, burada ilk 400 arasında üretilen yapıların bazıları topolojik olarak yanlış görünmektedir, polipeptit zinciri, görsel sezgiye göre, tamamen doğru yapıların atipik bir şekilde ilmeklerden geçer. Bu tür topolojik olarak yanlış yapılar, örneğin simüle edilmiş tavlama ile geleneksel enerji arıtmasının çekim havzası içinde olmayacaktır. Bu, ne düşük CαGenel doğruluğun bir ölçüsü olarak -RMSD, ne daha yakın zamanda geliştirilen şablon modelleme (TM) puanı ne de küresel mesafe testi - toplam puanı (GDT-TS), yapı kalitesinin tamamen bilgilendirici göstergeleridir. Bu klasik yapı karşılaştırma ölçütlerinin, 3B uzayda zincir ilerlemesindeki topoğrafik farklılıkları ölçen, gelecekteki çalışmalar için bir yön [64], [65] ve kısıtlama ihlallerinin bir analizi ile birlikte, daha karmaşık ölçülerle desteklenmesi gerekir. Miller ve ark. [3]. Her halükarda, nispeten az sayıda aday arasında oluşturduğumuz kıvrımların cesaret verici derecede yüksek doğruluğu, gelişmiş sıralama kriterlerinin daha iyi bir üst sıradaki, tamamen kör tahminlere yol açabileceğini ima eder.

3B tahmin doğruluğunun mevcut teknik sınırları.

Bu yöntemle ve onun özel uygulamasıyla maksimum düzeyde elde edilebilecek doğruluğun bir tahmini olarak, deneysel olarak gözlemlenen yapıdan türetilen yapay, tamamen doğru, mesafe kısıtlamalarını kullanarak referans hesaplamaları gerçekleştirdik. Bu ideal kısıtlamalar kümesiyle, protein yapı modellerini yaklaşık 2.0 Å C'den düşük olmayan bir hatayla oluşturabiliriz.α-RMSD (Metin S1, Tablo S3, daha büyük proteinlerin bazıları için daha büyük değerler). Bu, yöntemin mesafe geometrisi ve iyileştirme kısmında doğal olarak beklenen hataya daha düşük bir sınır koyar ve bu hata, diğerlerinin de belirttiği gibi proteinin uzunluğu ile bir dereceye kadar ölçeklenir [50]. Öngörülen mesafe kısıtlamaları ile bu sınırlara yakın aday yapılar elde etmemiz, çıkarılan kalıntı eşleşmelerinin, en azından burada incelenen 15 protein ailesi için, doğal protein yapısını bulmak için gereken hemen hemen tüm bilgileri içerdiği fikriyle tutarlıdır. Bu teknik alt sınır, aynı zamanda, mesafe kısıtlamalarından doğru tüm atom yapılarının hesaplanması için genel yöntemlerin iyileştirilmesi için bir zorluğu temsil eder.

Tahmin doğruluğunun değerlendirilmesi

Temas tahmininin doğruluğu.

3B yapıların tahmininin doğruluğu, temas tahmininin doğruluğuna ve bir dizi tahmin edilen temastan mesafe kısıtlamalarının seçimine büyük ölçüde bağlıdır. Kalıntı-artık yakınlığının kalıntı-artık temasından farklı bir gereklilik olduğuna dikkat edin, çünkü kalıntılar uzayda atomlarından herhangi biri olmadan birbirine yakın olabilir, atomlar arası temas halinde olabilir (minimum olmayan atomlar arası mesafe olarak tanımlanır). bağlı atomlar arası potansiyeller ('van der Waals'), diyelim ki, yaklaşık 3.5 A). Burada, kalıntılar arası temas terimini, kalıntılar arası yakınlık, yani minimum atom mesafesi 5 Angström'den az olan ile birbirinin yerine kullanılabilir şekilde kullanıyoruz. Temas tahmininin doğruluğunu, tahmin edilen temaslar, yani bilinen 3D protein yapılarında gözlemlenen temaslara katılanlar ve katılmayanlar arasındaki gerçek pozitiflerin ve yanlış pozitiflerin sayısı açısından değerlendiririz.

En yüksek puan alan çiftlerin kalıntı-kalıntı yakınlığı hakkında oldukça doğru bilgi sağladığını bulduk (Şekil 6A, Şekil S6 ve S7). Örneğin, gerçek pozitiflerin oranı HRAS için ilk 50 çift için 0.8'in üzerindedir ve diğer proteinler için ilk 200 çift için hala 0.5'in üzerindedir, daha düşüktür ancak yine de nispeten yüksektir, örneğin ilk 50 için 0.7 ve 0.4'ün üzerindedir ve ELAV4 için 200. Bu sonuçlar, çok sayıda bakteriyel protein alanı [47] için temas tahmini doğruluğuna ilişkin paralel değerlendirmemizle tutarlıdır ve ilişkili mutasyonlardan veya birlikte evrimden yerel temas tahmini yöntemlerine göre önemli bir gelişmeyi temsil eder. Şaşırtıcı olmayan bir şekilde, daha iyi tahmin edilen 3B yapılarla sonuçlanan daha yüksek bir gerçek pozitif temas tahmini oranı için genel bir eğilim vardır. daha düşük oranlara sahip olanlar, örneğin PCBP1'in KH alanı ve SPTB2'nin calponin homoloji alanı. Ancak, gerçek pozitiflerin oranı ile en iyi tahmin edilen yapıların doğruluğu arasındaki bu ilişki beklendiği kadar basit değildir, Şekil S6, S8 ve S9. Örneğin, tioredoksinin tahmin edilen temasları için lektin alanından daha düşük bir gerçek pozitif orana sahip olmasına rağmen, tioredoksin tarafından tahmin edilen yapılar, tahmin edilen lektin alanı (A8MVQ9_HUMAN) yapılarından bütünüyle daha doğrudur. 3D yapıların kalitesi, zincir boyunca temasların dağılımına da bağlı olabileceğinden, her protein için deneysel bir temasın en yakın tahmini temasa olan mesafesini de hesapladık ve bu 'yayılma', C ile iyi bir korelasyon gösterdi.α-RMSD doğruluğu elde edildi, (Şekil S10 ve Metin S1).

Tahmini temaslar (A) ve tahmin edilen 3B yapılar (B) açısından doğruluğun değerlendirilmesi. (A) İki küresel model, Bayes ağ modeli (BNM, yeşil [13]) ve doğrudan bilgi modeli (DI, kırmızı, bu çalışma ve [47]), aşağıdakiler arasında tutarlı bir şekilde yüksek oranda doğru tahmin edilen temaslara (gerçek pozitifler) sahiptir. en üst NC dereceli kalıntı çiftleri iki yerel model, karşılıklı bilgi (MI, yeşil, denklem 1) ve SCA (siyah, [66]) tutarlı bir şekilde daha düşük gerçek pozitif oranına sahiptir. Burada yerel, her bir i,j çiftinin istatistiksel bağımsızlığını ifade ederken, global tüm çiftlerin istatistiksel tutarlılığını ifade eder. (B)'de, global modeller için yalnızca tahmin edilen 3B yapılar (yeşil, BNM kırmızı, EIC) gözlenen yapıyla (gri) iyi uyum sağlar (gri) Cα-RMSD'ler parantez içindeki sayı veya kalıntılar üzerinden hesaplanır (tüm yapılar için Pymol oturumları Web Ek A4). İki yerel MI ve SCA yöntemi için 3B yapılar oluşturma girişimleri başarısız oldu (gösterilmiyor). (A) ve (B)'nin karşılaştırılması, temas tahmini için daha yüksek bir gerçek pozitif oranının daha iyi 3D yapılara yol açtığını ve DI için boyuta ve diğerlerine bağlı olarak yaklaşık 100 tahmini temas için en az yaklaşık 0,5'lik bir gerçek pozitif orana ihtiyaç duyulduğunu doğrular. belirli protein ailelerinin ayrıntıları. İlginç bir şekilde, yaklaşık 0,3-0,5 kadar yüksek bir yanlış pozitif oranı, iyi 3D yapı tahmini ile hala tutarlı olabilir.

Küresel ve yerel modeller arasında temas tahmini doğruluğunun karşılaştırılması.

Diğer temas tahmini yöntemleri ne kadar iyi çalışıyor? İki küresel model, Bayesian Ağ Modeli (BNM, [13], [46]) ve DI modeli (bu çalışma ve [15], en üsttekiler arasında tutarlı bir şekilde yüksek bir doğru tahmin edilen temas oranına (gerçek pozitif oran) sahiptir. nC MI (Denklem 1) ve istatistiksel eşleşme analizi (SCA, [66]) karşılaştırmalı iki yerel modelde sıralanmış kalıntı çiftleri, her ikisinin de gerçek pozitif oranı daha düşüktür (Şekil 6A, Şekiller S6, S7, S11, S12, S13, S14). , ve S15). BNM modelindeki nispeten yüksek temas tahmini doğruluğu, DI modeli için geliştirilen protokolü izleyerek, çıkarsanan mesafe kısıtlamaları için temel olarak BNM dereceli kalıntı çiftlerine dayalı olarak öngörülen 3B yapılar oluşturmamızı teşvik etti. On test proteini için, BNM için katlanmış tüm atomlu 3B yapılar, gözlemlenen yapı ile iyi bir uyum içindedir (Şekil 6B'deki yeşil yapılar ve veriler gösterilmemiştir). Genel olarak, Cα-RMSD hataları, BNM modelindeki yapılar için DI modelindekinden biraz daha yüksektir (Şekil 6B'deki kırmızı yapılar). Özellikle, [BNM için protein tanımlayıcı/hata/DI için hata] gösterimini kullanarak: [RASH/5.6 Å/2.8 Å], [ELAV4/3.8 Å/2.6 Å], [YES/4.6 Å/3.6 Å] ] [CADH/4.7 Å/3.9 Å] ve tripsin 12 Å C'den daha düşük bir doğruluğa ulaşmadıα-BNM kısıtlamaları ile RMSD (Şekil 6B ve veriler gösterilmemiştir). Öte yandan, OMPR için BNM ve DI tahminleri, deneysel yapı ile karşılaştırıldığında aynı doğruluk aralığındaydı, çünkü BNM sonucu DI yöntemi için 63 atomun aksine 74 atomun üzerindeydi [OMPR/4.4 Å/4.0] A].

Bu sonuçlar, genel olarak, temas tahmini için daha yüksek bir gerçek pozitif oranının daha iyi 3D yapı tahminine yol açtığını ve küresel yöntemler için en az yaklaşık 0,5'lik bir gerçek pozitif orana ve bağlı olarak yaklaşık 100 tahmin edilen temasa ihtiyaç duyulduğunu doğrulamaktadır. belirli protein ailelerinin boyutu ve diğer ayrıntıları hakkında. İlginç bir şekilde, yaklaşık 0,3-0,5 kadar yüksek bir yanlış pozitif oranı, iyi 3B yapı tahmini ile hala tutarlı olabilir. Açıkça, küresel istatistiksel modeller, kalıntı temaslarının ve 3B yapıların tahmin doğruluğunda önemli bir artış sağlar.

3B yapıların gelişmiş tahmini için bilgi gereksinimleri

Çoklu dizi hizalaması ile yeterli dizi aralığı kapsamı gereksinimi.

On iki protein ailesinden oluşan test seti arasında en düşük doğruluk SPBT2 ve rhodopsin proteinleri için elde edildi (bkz. Tablo 1, Tablo S1, Şekil S3). Bu durumlarda, PFAM gizli Markov modeline (HMM) önemli sayıda anahtar kalıntı dahil edilmez ve bu nedenle analizimizin dışında bırakılır. Hizalama yapının sadece bir kısmını kapsıyorsa, dizinin istatistiksel modeli yapının bu kısmı ile sınırlıdır ve kapsanmayan bölgeler için bilgi sağlamaz. PFAM hizalamaları tarafından kapsanmayan bölgeler genellikle proteinin N-terminalinde veya C-terminalinde olduğundan ve bunlar birçok protein yapısında temas halinde olduğundan, bu, mümkün olan tahminin doğruluğuna önemli ölçüde zarar verecektir. Analizimiz ayrıca, hizalamanın uçları olmadığında, kapsanan bölge içinde bile tahminin doğru olma olasılığının daha düşük olduğunu göstermektedir. Her durumda tüm protein dizisi için bir hizalama oluşturmak için ne kadar ek dizi bilgisi gereklidir? Evrim tarafından her dizi pozisyonunda örneklenen çeşitlilik büyük ölçüde değiştiğinden, bu soru önemsizdir. Gerçekten de yapısal evrimsel kısıtlamaların gücü, NMR tarafından belirlenen birçok yapıda gözlemlenen 'yıpranmış uçlara' benzer şekilde protein uçlarına doğru azalabilir.

Şaşırtıcı derecede az sayıda mesafe kısıtlaması ile doğru katlama.

Yaklaşık bir 3B kat oluşturmak için gereken minimum tahmini mesafe kısıtlaması sayısı nedir? Katlama protokolümüzün önemli bir parametresi, çıkarılan mesafe kısıtlamalarının sayısıdır, NC, aday yapılar oluşturmak için kullanılır. En yüksek dereceli çift korelasyonlarına sahip kalıntılar genellikle 3B yapıda yakın olmakla birlikte (Şekil S6 ve S7), azalan değer ile güvenilirlik azalır. DIij. 15 değerlendirme ailesi için öngörülen protein kıvrımlarının doğruluğunu N'nin bir fonksiyonu olarak değerlendirdik.C (Şekil 7A ve S16, Tablo S1).

A. Katlama tahmini için kaç mesafe kısıtlaması gereklidir? Yanlış pozitiflerin ne kadarı tolere edilebilir? Artan sayıda öngörülen temel mesafe kısıtlamaları ile (NC, yatay eksen), 3D tahmin hatası, C tarafından değerlendirildiği gibi hızla azalırα-RMSD 20'nin en iyisi arasında (her N'deC bin) tahmin edilen yapılar ve gözlemlenen yapı (burada, 15 test proteini için Pymol kullanılarak). Dikkat çekici bir şekilde, ∼N kadar azRES/2 (∼L/2) mesafe kısıtlamaları NSij (zincir mesafeli |ben-j|>5) 5 Å C'nin altında kaliteli tahminler için yeterlidirα-RMSD, nerede nRES protein çoklu dizi hizalamasındaki amino asit kalıntılarının sayısıdır. Bu nedenle rutin olarak N'ye kadar aday protein yapıları oluşturduk.C = NRES kör sıralama için mesafe kısıtlamaları (ve N'ye kadarC = diğer testler için 200). Sonunda yanlış pozitiflerin sayısı, örneğin 58 kalıntı protein BPTI için N bir kez tahmin kalitesini düşürür.C yaklaşık 80 (1.5 NRES) ise tahmin kalitesi kaybolur. Pratikte, N kullanılmasını önermiyoruz.C>NRES, yani, birden fazla kısıtlama NSij ile |ben-j|>5, kalıntı başına. B. Sıradan katlamak ne zaman mümkün olabilirdi? Kamuya açık veri tabanlarında bulunan dizilerin sayısındaki artış (burada, protein ailesi hizalamalarının PFAM koleksiyonunun ardışık arşiv yayınlarından), ilişkili mutasyonlardan protein kıvrımlarını tahmin etme yeteneğindeki iki anahtar unsurdan biridir. Yine de dizi sayılarının ve tarihlerinin çizilmesi, bazı proteinler için yapıların 10 yıl öncesine kadar hesaplanmasının mümkün olduğunu ve şaşırtıcı derecede az dizinin yeterli olduğunu göstermektedir. Örneğin, geriye dönük tahmin hatası olmasına rağmen (dikey eksen, CαDört protein ailesinde (Ras, SH3 alanı (YES_human) ve Ecoli'den RnaseH) en iyi 3B yapı için (her biri 400 adaydan oluşan) -RMSD, Pymol kullanılarak) zamanla azalmıştır; veritabanının sistematik olmayan büyümesi. Belirli bir aileden tahmin edilen bir protein yapısının 4 A Cα-RMSD'nin altına ulaştığı nokta önemli ölçüde değişir. Örneğin, RnaseH, 2008 civarında ulaşılan 4 Å hatanın altına inmek için yaklaşık 6000 diziye ihtiyaç duyarken, CheY'nin yapısının 3,3 ÅC olduğu tahmin edilebilirdi.α-RMSD, 1999'da yalnızca 600 dizi mevcuttu.

10'dan tipik olarak 200 mesafe kısıtlamasına giderken, yanlış pozitifler yavaş yavaş tahmin kalitesini düşürmeye başlayana kadar, EIC kısıtlamaları eklendikçe tahmin hatasının keskin bir şekilde düştüğünü görüyoruz. Makul 3B yapı tahmini elde etmek için kalıntı başına yaklaşık 0,5 ila 0,75 öngörülen kısıtlamaya veya toplam temas sayısının yaklaşık %25-35'ine ihtiyaç duyulduğu sonucuna vardık. Bu sayı, kısıtlamalar [50], [51], [67] olarak kesin olmayan mesafeleri empoze etmek için tamamen doğru yakın kalıntı çiftlerini kullanan diğer gruplar tarafından bildirilenlere yakındır. Örneğin, Elav4 (uzunluk 71) 5 Å C'nin altına katlanırα-RMSD sadece 20 kısıtlamaya sahipken, Trypsin (uzunluk 223) 130 kısıtlamaya sahiptir. Bununla birlikte, 5 Å C'nin altına ulaşmak için kalıntı başına kısıtlama sayısıα-RMSD sabit değildir (sütun 15 Tablo S1) ve kalıntı başına 0.66 kısıtlamada OMPR ve kalıntı başına 0.25 kısıtlamada Ras gibi proteinler bunun kat tipi ve yanlış pozitif oranlar gibi diğer faktörlere bağlı olacağını gösterir. Bazı proteinler için yapı tahmininin doğruluğu, örneğin Cadh1, Elav4 ve Yes gibi yanlış pozitiflerin sayısı arttıkça açıkça azalırken, Ras ve CheY gibi diğer proteinler yanlış pozitif oran arttıkça aynı kalır veya hatta doğrulukta artar, ( Şekil S8). Bu sonuç, tek başına gerçek pozitif temas tahmini oranlarına güvenmek yerine, öngörülen temasların kalitesini test etmek için proteinleri katlamaya çalışmak için kısıtlamaları kullanma gerekliliğinin altını çizmektedir.

Zaman içinde artan tahmin doğruluğu, ancak gereken dizi sayısı beklenenden daha düşük.

Günümüzün yüksek performanslı bilgi işlem standardına ihtiyaç duymadığımız için, iyi yapısal tahminler yapmanın ne kadar zaman önce mümkün olduğunu merak ettik. Tahmin edilen kıvrımların doğruluğu, çoklu dizi hizalamasındaki dizilerin sayısına ve bunların evrimsel çeşitliliğine nasıl bağlıdır? Bu soruları araştırmaya başlamak için, son 13 yılı kapsayan 20 farklı PFAM [1] salımından hizalamaları kullanarak dört temsili protein için mesafe kısıtlamalarını kullanarak katlamanın doğruluğunu hesapladık. Her bir çoklu dizi hizalaması için 30-200 arasında bir dizi kısıtlama için 20 yapı hesapladık (Şekil 7B). Bu süre zarfında, yeni dizileme teknolojisi ve büyük ölçekli genom projelerinin bir sonucu olarak mevcut dizi bilgisi çarpıcı biçimde arttı, bu nedenle dizi sayısının bir fonksiyonu olarak elde edilen en iyi yapıyı inceledik. C için net bir genel eğilim olmasına rağmenα-Ailedeki dizi sayısı arttıkça monotonik olarak düşeceği tahmin edilen yapıların RMSD'si (örneğin, RnaseH, 4 Å C)α-RMSD eşiğine 2009'da dizi sayısı 5000'e ulaştığında ulaşıldı), tüm protein aileleri aynı şekilde davranmıyor. 4 Å C altında ulaşılan tahmin edilen Ras yapılarıα- 2002'de 1200 kadar az diziyle RMSD, daha sonra şaşırtıcı bir şekilde daha fazla dizi dahil edildiğinde tekrar yükseldi ve sonunda 2.5 ÅC'ye düştüα2009'da -RMSD. Benzer şekilde, Yes proteininden CheY'nin tahmin edilen yapıları ve SH3 domeni, mevcut dizilerin sayısı ile iyileşirse de, tahmin edilen yapılar C'ye sahipti.α- 1999'da sırasıyla 3,3 Å ve 4,7 Å kadar düşük hatalarda RMSD, her ikisi için de ∼600 dizilim. (Şekil 7B). En şaşırtıcı şekilde, 5 Å C'nin altında bir hataya sahip tahmini bir OMPR yapısıα-RMSD muhtemelen 170 kadar az dizi kullanıyor olurdu (1999 PFAM sürümü).

Bu nedenle sonuçlarımız, tahmin edilen katın doğruluğunun mevcut dizi sayısıyla genel ilişkisini vurgulamaktadır. Ancak bu ilişki basit değildir. Belirli bir ailenin dizi uzayındaki dizilerin dağılımının şüphesiz bir etkisi olacaktır. Algoritmanın şu anki uygulamasında, aile komşularına %70'in üzerinde kalıntı özdeşliği olan diziler aşağı ağırlıklıdır (Metin S1). Bu nedenle, DI kuplaj hesaplaması için kullanılan etkin dizi sayısı, ailenin büyüklüğünden çok daha azdır. Ailede mevcut olan dizilerin yaklaşık sadece %12-40'ı aslında hesaplama için kullanılmaktadır (Tablo S1). Etkili dizi sayısındaki bu azalma, bireysel aileler tarafından kapsanan dizi alanı üzerindeki farklı dağılımları vurgulayarak aileler arasında büyük ölçüde değişiklik gösterir (Tablo S1'de sütun 18). Gelecekteki çalışmaların bu konudaki anlayışımızı geliştireceğini düşünüyoruz. Hangi, birlikte kaç diziler, evrimsel bilgiden temas çıkarımı için idealdir.


Arka plan

MolProbity [1] ve Procheck [2] gibi protein yapı doğrulama yöntemleri, kristalografların yerleştirme ve iyileştirme sırasında ortaya çıkan potansiyel sorunları bulmasına ve düzeltmesine yardımcı olur. Bu yöntemler genellikle şunlara dayanmaktadır: Önsel kimyasal bilgi ve çeşitli iyi test edilmiş ve geniş çapta kabul görmüş stereokimyasal paradigmaları kullanır. Benzer şekilde, şablon tabanlı yapı tahmin ve analiz paketleri [3] ve moleküler dinamik kuvvet alanları [4] geleneksel olarak bu tür paradigmalar üzerine inşa edilir. Bunlar arasında Ramachandran haritası [5,6] merkezi bir role sahiptir. Hem protein yapılarının çeşitli analizlerinde hem de protein görselleştirmesinde bir araç olarak yaygın olarak kullanılır. Ramachandran haritası, C'ye bitişik olan iki dihedral açının φ ve ψ istatistiksel dağılımını tanımlar.α Protein omurgası boyunca karbonlar. Belirli bir proteindeki bireysel dihedrallerin gözlemlenen değerleri ile Ramachandran haritasının istatistiksel dağılımı arasındaki bir karşılaştırma, omurga geometrisini doğrulamak için değerlendirilen bir yöntemdir.

Yan zincir atomları durumunda, Ramachandran haritası gibi görsel analiz yöntemleri tanıtıldı. Örneğin, Janin haritası [7], χ gibi gözlemlenen yan zincir dihedrallerini karşılaştırmak için kullanılabilir.1 ve χ2 Belirli bir protein içinde, istatistiksel dağılımlarına karşı, Ramachandran haritasına benzer bir şekilde.

Phenix [8], Refmac [9] ve diğerleri gibi kristalografik arıtma ve doğrulama programları genellikle Engh ve Huber kütüphanesinden [10,11] elde edilen istatistiksel verileri kullanır. Bu kütüphane, çok yüksek çözünürlükle belirlenmiş küçük moleküler yapılar kullanılarak oluşturulmuştur. Tüm proteinler düzeyinde, yan zincir kısıtlamaları yaygın olarak Protein Veri Bankasında (PDB) [14] yüksek çözünürlüklü kristalografik yapıların [12,13] analizinden türetilir. Omurgadan bağımsız bir rotamer kitaplığı [15], omurga konformasyonuna atıfta bulunmaz. Ancak yan zincir rotamer popülasyonunun yerel protein omurga yapısına bağlı olma olasılığı, Chandrasekaran ve Ramachandran tarafından zaten düşünülmüştü [16]. Daha sonra hem ikincil yapıya bağımlı [17], ayrıca bakınız [7] ve [15], hem de omurgaya bağımlı rotamer kitaplıkları [18,19] geliştirilmiştir. Konunun aktif soruşturma altında olduğunu not ediyoruz [20-25].

İkincil yapıya bağımlı kütüphanelerdeki bilgi içeriği ve omurgadan bağımsız kütüphaneler esasen örtüşmektedir [13]. Her iki tür kitaplık da kristalografik protein yapısı modeli oluşturma ve iyileştirme sırasında yaygın olarak kullanılmaktadır. Ancak, örneğin homoloji modellemesi ve protein tasarımı durumunda, yan zincir konformasyonlarının tahmini için, daha açıklayıcı omurga bağımlı rotamer kitaplıklarının kullanılması bir avantaj olabilir.

X-ışını kristalografik protein yapısı deneylerinde, elektron yoğunluk haritasının iskeletleştirilmesi, verileri yorumlamak ve ilk modeli oluşturmak için yaygın bir tekniktir [26]. Cα atomlar, omurga ile yan zincir arasındaki dal noktalarında bulunur. Bu nedenle, nispeten katı stereokimyasal kısıtlamalara tabidirler, bu nedenle model oluşturma genellikle iskelet C'nin ilk tanımlanmasıyla başlar.α iz. C'nin merkezi rolüα atomlar, CATH [27] ve SCOP [28] gibi yapısal sınıflandırma şemalarında, I-Tasser [29] gibi çeşitli diş açma modelleme tekniklerinde ve SWISS-MODEL [30] ve diğer ilgili yöntemler [31] dahil homoloji temel yaklaşımlarında yaygın olarak kullanılmaktadır. ], içinde yeni yaklaşımlar [32] ve kıvrım tahmini için kaba taneli enerji fonksiyonlarının geliştirilmesinde [33]. Sonuç olarak, sözde Cα-iz sorunu kapsamlı araştırmaların konusu olmuştur [34-38]. Problemin çözümü, merkezi C'nin konumlarının bilgisine dayalı olarak, katlanmış proteinin doğru bir ana zinciri ve/veya tüm atom modelinden oluşacaktır.α sadece atomlar Hem bilgi tabanlı yaklaşımlar hem de MAXSPROUT [34] ve yeni C'yi denemek ve çözmek için PULCHRA [37] ve REMO [38] dahil olmak üzere yöntemler geliştirilmiştir.α- iz sorunu. Omurga atomları durumunda, Purisima ve Scheraga [39] tarafından tanıtılan geometrik algoritma veya bunun bazı varyantları bu yaklaşımlarda yaygın olarak kullanılmaktadır. Yan zincir atomları için çoğu yaklaşım C'yeα iz problemi, çeşitli puanlama fonksiyonlarına dayalı bir analizle tamamlanan, sterik kısıtlamalarla birlikte bir istatistiksel veya bir konformer rotamer kütüphanesine dayanır. Modelin son ince ayarı için, tüm atom moleküler dinamik simülasyonları da kullanılabilir.

Bu makalede, protein yapı analizi, iyileştirme ve doğrulama için mevcut yöntemlerin yararlı bir tamamlayıcısı olacağını umduğumuz yeni nesil görselleştirme tekniklerini tanıtıyor ve geliştiriyoruz. C'yi kullanıyoruzα Yan zinciri görselleştirmek için Frenet çerçeveleri [40,41]. Hedeflediğimiz çıktı, istatistiksel olarak tercih edilen tüm atom modelinin C cinsinden hesaplanabilen, 3 boyutlu bir “ne-gördüğünüz-sahip olduğunuzdur&x0201d tipi görsel haritasıdır.α koordinatlar. Bu nedenle, yaklaşımımız, örneğin bir kristalografik protein yapısının ilk omurgasının ve tüm atom modellerinin inşası ve doğrulanması sırasında değere sahip olmalıdır.

Yaklaşımımız, Ramachandran haritasının tanıtılmasından sonra gerçekleşen üç boyutlu görselleştirme ve sanal gerçeklikteki gelişmelere dayanmaktadır. Ramachandran haritasında koordinatlar olarak görünen ve bir toroidal topolojiye karşılık gelen omurga dihedral açıları yerine, her bir ağır atomu çevreleyen sanal kürelerin geometrisini kullanıyoruz. Bir kürenin yüzeyindeki tüm yüksek seviyeli ağır omurga ve yan zincir atomlarını, omurga ve yan zincirler boyunca seviye-seviye, tam olarak hayali, geometrik olarak belirlenmiş ve C tarafından görüldüğü şekilde görsel olarak tanımlarız.α Tek C'den ilerleyerek omurga boyunca yuvarlanan ve yan zincirlere tırmanan minyatür gözlemciα sonraki atom. Her C konumundaα sanal gözlemcimiz, kendisini tamamen geometrik olarak belirlenmiş C'ye göre tutarlı bir şekilde yönlendirir.α temelli ayrık Frenet çerçeveleri [40,41]. Böylece görselleştirme yalnızca C'ye bağlıdır.α koordinatlar ve yapının başlatılmasında diğer atomlara referans yoktur. Diğer atomlar - sonraki C dahilα omurga zinciri boyunca atomlar - hepsi, sanki bu atomlar gökyüzündeki yıldızlarmış gibi, gözlemciyi çevreleyen bir kürenin yüzeyinde haritalanır.

her C'deα atom, yapı, tüm ağır atomların konumu belirlenene kadar, takip eden yan zincir boyunca ilerler. Bu nedenle haritalarımız, belirli bir proteinde istatistiksel olarak beklenen tüm atom yapısı hakkında tamamen geometrik ve eşitlikçi, doğrudan görsel bilgi sağlar.

Bu makalede tanımladığımız yöntem, C'ye yeni bir yaklaşımın gelecekteki gelişimi için bir temel oluşturabilir.α iz sorunu. MAXSPROUT [34], PULCHRA [37] ve REMO [38] gibi mevcut yaklaşımların bir tamamlayıcısı olarak, burada ortaya koyduğumuz ağır atom pozisyonlarındaki ikincil yapı bağımlılığını öngördüğümüz yöntem. C'yi çözmek için ikincil yapıya bağlı bir yöntemα iz problemi, C açısından ağır atom pozisyonlarında gelişmiş bir doğruluğa yol açmalıdır.α koordinatlar. Özellikle, rotamerik durumlar açık ikincil yapı bağımlılığı gösterdiğinden, rotamer kitaplıklarının geliştirilmesinde bazen gözden kaçan bir gerçek. Bu makale, bir kavram kanıtı olarak hizmet vermektedir.


Yapısal Biyokimya/Proteinler

Bir protein, belirli bir yapıya katlanmış/sarılmış bir veya daha fazla polipeptitten oluşan fonksiyonel bir biyolojik moleküldür [1]. Proteinler, yapısal elemanlar, taşıma kanalları, sinyal alıcı ve vericileri ve enzimler olarak görev yapan önemli makromoleküllerdir. Proteinler, amino asitler adı verilen monomer birimlerinden oluşan doğrusal polimerlerdir. 20 farklı amino asit vardır ve karboksil grubu ile amino grubu arasında bir peptit bağı ile polipeptit adı verilen doğrusal bir zincirde bağlanırlar. Her proteinin farklı yan zincirleri veya "R" grupları vardır. Proteinlerin, özelliklerini ve işlevlerini tanımlamaya yardımcı olmak için kendilerine bağlı birçok farklı aktif fonksiyonel grubu vardır. Proteinler, çok katı yapısal elemanlardan hücreler arasında bilgi iletmeye kadar geniş bir işlev yelpazesini kapsar. Her insanın vücudunda birkaç yüz binlerce farklı protein vardır. Proteinler, fonksiyonel gruplar arasındaki molekül içi bağa veya moleküller arası bağa (yalnızca dörtlü) dayalı ikincil, üçüncül ve dörtlü yapılara katlanır ve amino asit dizisine bağlı olarak çeşitli üç boyutlu şekillerde elde edilebilir. Tüm proteinler birincil, ikincil ve üçüncül yapılara sahiptir, ancak dördüncül yapılar yalnızca bir protein iki veya daha fazla polipeptit zincirinden oluştuğunda ortaya çıkar [1]. Proteinlerin katlanması, zincirin farklı kısımları arasında birçok bağın oluşmasıyla da yönlendirilir ve güçlendirilir. Bu bağların oluşumu amino asit dizisine bağlıdır. Yapılarının incelenmesi önemlidir, çünkü proteinler insan vücudundaki her aktivite için gereklidir ve biyolojik materyallerin temel bileşenleridir. Birincil yapı, amino asitlerin polipeptit zincirleri oluşturmak için peptit bağları ile birbirine bağlanmasıdır. İkincil yapı, polipeptit zincirlerinin beta tabakaları, alfa sarmalı, dönüşler veya halkalar gibi düzenli yapılara katlanmasıdır. Fonksiyonel bir protein, sadece bir polipeptitten çok daha fazlasıdır, fonksiyonu için kritik olan çok özel, benzersiz bir şekle sahip bir moleküle tam olarak katlanmış bir veya daha fazla polipeptittir [1].


Proteinler genellikle 3B yapılarda gösterilir ve dört farklı özellik ve düzeyde sınıflandırılır:

Öncelik: Bir proteinin birincil yapısı, spesifik amino asit dizisini ifade eden protein yapısının seviyesidir [1]. İki amino asit, her bir amino asidin karboksil grupları birbirine bitişik olacak şekilde bir konumda olduğunda, bir peptit bağı oluşumuyla sonuçlanan bir dehidrasyon reaksiyonuna girerek birleştirilebilirler [1]. Bir polipeptitteki (protein) amino asitler, serbest bir amino grubu ile N-terminali ile başlayan ve serbest bir karboksil grubu ile C-terminalinde biten peptit bağları ile bağlanır. rts . Peptit bağı düzlemseldir ve kısmi çift bağ karakteri nedeniyle serbestçe dönemez. Peptit bağı etrafında sınırlı bir dönüş varken, burulma açıları veya daha spesifik olarak phi ve psi açıları olarak adlandırılan (N-C) bağı ve (C-C) bağı üzerinde iki serbest dönüş vardır. Bu iki bağın dönme özgürlükleri de sterik engel nedeniyle sınırlıdır. Genler, tanımlanmış bir amino asit dizisine sahip polipeptitler yapmak için gerekli bilgileri taşır. Ortalama bir polipeptit, yaklaşık 300 amino asit uzunluğundadır ve bazı genler, birkaç bin amino asit uzunluğundaki polipeptitleri kodlar. Proteinin birincil yapısını bilmek önemlidir, çünkü birincil yapı biyolojik işlevlerinde işlevsel öneme sahip motifleri kodlar ve işlevleri biyolojik organizasyonun tüm seviyelerinde ilişkilidir [1].

İkincil: Bir polipeptidin amino asit dizisi, kimya ve fizik yasalarıyla birlikte, bir polipeptidin daha kompakt bir yapıya katlanmasına neden olur. Amino asitler, bir protein içindeki bağlar etrafında dönebilir. Proteinlerin esnek olmasının ve çeşitli şekillerde katlanabilmelerinin nedeni budur. Katlama düzensiz olabilir veya belirli bölgelerde tekrar eden bir katlama modeli olabilir. Polipeptit omurgasının tekrar eden bölümleri arasındaki hidrojen bağlarından kaynaklanan sargı ve kıvrımlara ikincil yapılar denir [1]. Tek tek hidrojen bağları zayıf olsa da, zincirin uzun bir bölümünde defalarca tekrarlanmalarından dolayı proteinin o kısmı için belirli bir şekli destekleyebilirler [1]. Bir proteinin ikincil yapıları Pauling ve Corey tarafından önerilmiştir. Yapıları, birbirinden kısa mesafelerde bulunan amino asitlerden oluşur. Peptit bağlarının düzlemsel doğası nedeniyle, yalnızca belirli ikincil yapı türleri mevcuttur. Üç önemli ikincil yapı α-sarmal, β-tabakaları ve β-dönüşleridir. Ayrıca beta sayfaları paralel, antiparalel veya karışık olabilir. Hidrojen bağları doksan derecelik açılarda olduğu için antiparalel beta tabakaları daha kararlıdır. a-sarmal, zincir içi hidrojen bağları ile stabilize edilmiş sarmal bir yapıdır.

İkincil Yapıların Özellikleri:

1. α-sarmal: Bir a sarmalında, polipeptit omurgası, bir karbonil oksijen ve bir amin hidrojen arasındaki hidrojen bağları ile stabilize edilen, tekrar eden bir sarmal yapı oluşturur. Bu hidrojen bağları, her dördüncü amino asitte bir hidrojen bağının düzenli aralıklarla meydana gelir ve polipeptit omurgasının bir sarmal oluşturmasına neden olur [1]. En yaygın sarmal yapı, hidrojen bağları eksenine paralel olan sağ-elli bir sarmaldır. Hidrojen bağları, dört amino asit kalıntısının karbonil oksijen ve amin hidrojen grupları arasında oluşturulur. Her amino asit, sarmalı ekseni boyunca 1,5 A ilerletir. Sarmalın her dönüşü 3.6 amino asitten oluşur, bu nedenle sarmalın aralığı 5.4 A'dır. Yan zincirleri sarmalın dışına yönlendirilmiş olarak sarmal başına ortalama on amino asit kalıntısı vardır. Farklı amino asitlerin x-sarmal oluşturma eğilimleri farklıdır, ancak prolin bir sarmal kırıcıdır çünkü prolin serbest amino grubuna sahip değildir. Proteinlerde sarmal konformasyonları benimsemeyi tercih eden amino asitler, metionin, alanin, lösin, glutamat ve lisin (malek) içerir.

2. β-levha: ß-tabakaları, peptit zincirleri arasındaki hidrojen bağıyla stabilize edilir. Bir β-tabakasında, polipeptit omurgasının bölgeleri birbirine paralel uzanır ve hidrojen bağları ile bağlanır [1]. Hidrojen bağları, bir polipeptitte bitişik zincirlerdeki amino asidin karbonil oksijeni ve amin hidrojeni arasında oluşturulur, bu da hidrojen bağlarının karşılıklı olduğu anlamına gelir. β-tabaka bölgeleri, bir α-sarmaldan daha uzundur ve bitişik amino asitler arasındaki mesafe 3.5 A'dır. β-iplikteki hidrojen bağı paralel, anti-paralel veya karışım şeklinde olabilir. β- paralel konfigürasyondaki amino asit kalıntıları aynı yönde çalışır.Pileli tabakalar birçok küresel proteinin çekirdeğini oluşturur ve ayrıca örümcek ağı gibi bazı lifli proteinlerde baskındır [1]. Triptofan, tirozin ve fenilalanin gibi büyük aromatikler ve izolösin, valin ve treonin gibi beta-dallı amino asitler β-iplik konformasyonlarını benimsemeyi tercih eder. Bu yönelim, eğimli, dikey olmayan hidrojen bağları nedeniyle enerjik olarak daha az elverişlidir. . Trytofan, tirozin ve fenilalanin hidrofobik iken diğer amino asitler hidrofiliktir.

3. β-dönüşleri: Poli peptid zincirleri ters dönüşler ve ilmekler yaparak yön değiştirebilirler. İki anti-paralel β-şeritini birbirine bağlayan döngü bölgeleri, ters dönüşler veya β-dönüşleri olarak bilinir. Bu ilmek bölgeleri düzensiz uzunluklara ve şekillere sahiptir ve genellikle proteinin yüzeyinde bulunur. Dönüş, karbonil oksijen ve amin hidrojenin omurgası arasındaki hidrojen bağı ile stabilize edilir. Kalıntının CO grubu, birçok ters dönüşte, kalıntı i + 3'ün NH grubuna bağlanır. Etkileşim, polipeptit zincirinin yönündeki ani değişiklikleri stabilize eder. Alfa sarmallarının ve ß ipliklerinin aksine, ilmeklerin düzenli periyodik yapıları yoktur. Bununla birlikte, genellikle katı ve iyi tanımlanmışlardır. Döngüler proteinlerin yüzeyinde yer aldığından, proteinler ve diğer moleküller arasındaki etkileşimlere katılabilirler. Ramachandran grafiği, proteinlerin bulunabileceği mevcut burulma açılarını gösteren bir grafiktir. Ancak, arsada her yere yerleşen çok sayıda nokta varsa, bu bir döngü olduğu anlamına gelir.

üçüncül: Birincil yapı nedeniyle ikincil yapı kurulurken, bir polipeptit, protein üçüncül yapı adı verilen karmaşık üç boyutlu bir şekil almak için kendi üzerine katlanır ve yeniden katlanır. Üçüncül yapı, bir polipeptidin genel şeklidir. [1] Üçüncül yapı, çeşitli amino asitlerin yan zincirleri (R grupları) arasındaki etkileşimlerden kaynaklanır [1] . Bu üç boyutlu yapı, polipeptit zinciri boyunca yan gruplar arasındaki molekül içi etkileşimlerden kaynaklanmaktadır. Alanı tipik olarak 300 – 400 amino asit içerir ve ana proteinlerinden izole edildiğinde kararlı bir üçüncül yapıyı benimser. Bir polipeptit fonksiyonel şekline katlanırken, hidrofobik yan zincirlere sahip amino asitler, proteinin merkezinde kümelenme eğilimi gösterirler ve böylece su ile temastan çıkarlar [2]. Disülfid köprüleri olarak adlandırılan kovalent bağlar da bir proteinin şeklini etkileyebilir [1]. Disülfit Köprüleri, yan zincirlerinde sülfidril grupları içeren iki amino asidin, proteinin katlanma şekliyle birbirine yakınlaştırılmasıyla oluşur [1]. Ribonükleaz gibi bazı proteinler için üçüncül yapı, işlevsel bir proteinin son yapısıdır. Diğer proteinler, iki veya daha fazla polipeptitten oluşur ve bir kuaterner yapıyı benimser.

Kuvaterner: Tüm proteinler birincil, ikincil ve üçüncül yapılar içerirken, dörtlü yapılar iki veya daha fazla polipeptit zincirinden oluşan proteinler için ayrılmıştır [1] . Kuaterner yapılara sahip proteinler, birden fazla polipeptit içerir ve her biri bir üçüncül yapıyı benimser ve daha sonra moleküller arası etkileşimler yoluyla birbirleriyle birleşir. Bir proteinin kuaterner yapısı, bu polipeptit alt birimlerinin eklenmesinin sonucu olan genel yapıdır [1]. Tek tek polipeptitler, ayrı ayrı katlanmış farklı polipeptitler anlamına gelen protein alt birimleri olarak adlandırılır. Alt birimler aynı polipeptitler olabilir veya farklı olabilir. Proteinler birden fazla polipeptit zincirinden oluştuğunda kuaterner yapıya sahip oldukları söylenir ve multimerik proteinler, yani birçok parçadan oluşan proteinler olarak da bilinirler. Kuaterner yapılar, birden fazla proteinin bir araya gelerek bir dimer, trimer, tetramer vb. oluşturması olarak da tanımlanabilir [2]. Hemoglobin, iki alfa alt birimi ve iki beta alt biriminden oluşan bir kuaterner yapı örneğidir.

lifli proteinler: Schleroprotein olarak da bilinen lifli proteinler, çubuk telleri şeklinde uzun protein zincirleridir. Globular Protein'den farklı olarak, kolayca denatüre olmazlar ve birçok ikincil yapı tekrarı içerirler. Çoğunlukla, bağ dokusu, kas lifleri, kemikler ve tendonlar oluşturma gibi destek ve korumadaki organizmalardan sorumlu olan yapısal proteinlerdir. İki lifli protein örneği:

1. α –keratin: α –keratin (saç, toynak, boynuz, tırnak vb. için esastır) iç içe geçmiş iki α-helisten oluşan sarmal bir proteindir. Sarmal-sarmal yapılar, diğer yapısal proteinlerde bulunur, örneğin, heptad tekrarlarına sahip olduğu iskelet kasının miyozini, dönüş başına 3.5 amino aside karşılık gelir. Bu proteinlerin sarmallarında a, d, a' ve d' konumundaki kalıntılar genellikle hidrofobiktir. Sarmal bir bobindeki iki iplik, hidrofobik etkileşimin yanı sıra iyonik etkileşimler ve disülfid bağları ile bir arada tutulur.

2. kollajen: Kollajen (tendon, kıkırdak, kan damarı duvarlarından) insan vücudunda en bol bulunan proteindir. Kollajen, α-sarmaldan farklı olarak üçlü bir sarmaldır, her turda 3.3 amino asit ve 10 Å içerir. Kollajen, komşu zincirlerde yer alan amino asitlerin karbonil oksijeni ile amin hidrojeni arasında oluşan ve lif eksenine dik olan hidrojen bağları ile stabilize edilir. Prolinde bol miktarda bulunur ve hidroksiprolin ve hidroksilisin içerir. Ancak prolin bolluğu nedeniyle zincir içi hidrojen bağları yoktur ve prolin ve lizinin hidroksilasyonu C vitamini gerektirir. C vitamini eksikliği iskorbüte neden olur. Kollajen amino asitlerinin üçte biri glisindir çünkü aşırı kalabalıklaşma nedeniyle kolajen moleküllerinin merkezinde sadece glisinler bulunur. Kollajen molekülleri, kovalent bağlarla daha büyük liflerden ve tabakalardan çapraz bağlanabilir.

küresel protein: Küresel proteinler hidrofobik yan zincirleri gömmek için katlanır. Tüm küresel proteinler, hidrofobik çekirdeğin düzenlendiği bir iç kısma sahiptir. Hidrofilik grupların yönlendirildiği bir dışarısı vardır. Yüksüz polar amino asit kalıntıları genellikle protein yüzeylerinde bulunur, ancak iç kısımda da oluşabilir. İkinci durumda, diğer gruplara hidrojen bağlı olacaktır, yani ser, thr, tyr hepsi polar, yüksüzdür.

Polipeptitlerin ikincil, üçüncül ve dördüncül yapılarını benimseme şeklini birkaç faktör belirler. Polipeptitlerin amino asit dizileri, bir proteinin yapısını diğerinden ayıran tanımlayıcı özelliklerdir. Polipeptitler bir hücrede sentezlenirken, çoğu protein için dördüncül yapılarda birleşen ikincil ve üçüncül yapılara katlanırlar. Bahsedildiği gibi, kimya ve fizik yasaları, amino asit dizisi ile birlikte bu süreci yönetir. Protein katlanması ve stabilitesi için beş faktör kritiktir:

1. Hidrojen bağları: Hidrojen bağı vericisi ile hidrojen bağı alıcısı arasında hidrojen bağları oluşur. Amino asitler için, amin grubunun omurgası ile karbonil grubunun oksijeni arasında hidrojen bağı meydana gelir.

2. İyonik bağlar: Elektrostatik etkileşimler, zıt yüklü iki molekül arasında meydana gelir. İyonik etkileşimler suda vakumda olduğundan daha zayıftır, bu, protein yapısındaki karşıt yükler arasında suda karşılaşılan farklı bir dielektrik sabitinden kaynaklanmaktadır.

3. hidrofobik etki: Hidrofobik etkileşim, polar olmayan moleküllerin su ile etkileşimlerini en aza indirme eğiliminden kaynaklanır. Polar olmayan moleküller su ile etkileşime girdiğinde, bu moleküller bir misel oluşturmak için merkezde bir araya gelme eğilimindedir.

4. Van der waals kuvvetleri: Yakın mesafede polar olmayan moleküller arasında Van der waals kuvvetleri vardır. Üç van der waals etkileşiminden, kalıcı dipoller arasındaki etkileşimler en güçlüsüdür, dipol kaynaklı dipol etkileşimleri kalıcı dipolden daha zayıftır ve London dağılım kuvvetleri en zayıfıdır. Tek tek atomlar arasındaki van der waals kuvvetleri zayıf olsa da, büyük makromoleküllerdeki birçok atom arasındaki etkileşimlerden kaynaklanan van der waals kuvvetlerinin toplamı önemli olabilir. Van der waals etkileşimlerinin gücü, atomlar arasındaki mesafeye göre değişir ve van der waals temas mesafesinde maksimumdur.

5. disülfid köprüleri: Oksidasyon yoluyla iki sistein arasında bir disülfid bağı oluşabilir. Bunlar aynı zamanda bir proteinin üçüncül yapısındaki en güçlü kovalent bağlardır.

Protein denatürasyonu: üçüncül yapının doğal konformasyonlarının kaybıdır. Denatüre edici proteinler, ya iç üçüncül ya da ikincil yapının bozulmasının yıkımını yaşarlar. Ancak denatürasyon, bitişik amino asitler arasındaki peptit bağını kırmaz, dolayısıyla proteinin birincil yapısını etkilemez. Bununla birlikte, denatürasyon, bir proteindeki normal alfa sarmalını ve beta tabakalarını engelleyecek ve sonuçta 3D şeklini bozacaktır.

Denatürasyon, yakın amino asitler arasındaki hidrojen bağının bozulmasına neden olur, böylece bir proteinin ikincil ve üçüncül yapısına müdahale eder. Üçüncül yapıda, "yan zincirler" arasında hidrojen bağı, iyonik köprüler, disülfid bağları ve hidrofobik moleküller arası etkileşimler dahil olmak üzere dört tip bağ etkileşimi vardır. Başka bir deyişle, bir proteinin yapısını denatüre etmek için birkaç farklı koşul vardır.

Proteinleri denatüre eden koşullar:

1. Aşırı pH (pH < 4 veya pH > 9) : H-bağını değiştirir

2. Sıcaklık (temp >70oC): termal etki, kovalent olmayan bağların zayıf kuvvetlerini bozar

3. Deterjanlar veya organik çözücüler : hidrofobik etkileşimi bozar

4. kaotropik ajanlar (yüksek konsantrasyonlar): örneğin üre ve guanidinyum klorür

Bilim adamları kimyanın daha fazla yönünü keşfetmeye başladıkça, aslında hücre kimyası/biyolojisindeki karmaşıklığın büyüklüğünü buldular. Bilim adamları proteinin vücutta zorunlu bir rolü olduğunu keşfetmelerine rağmen, proteinlerin hücrenin belirli bir bölgesinde kendilerini bir araya getirdiklerini ve sadece gerektiğinde aktive olduklarını keşfettiler. Canlı hücrelerde GFP etiketli proteinler (floresan) kullanılarak, spesifik sinyallere yanıt olarak proteinlerin konumlandırılması ve yeniden konumlandırılması gözlemlendi. Hücre dışı sinyal molekülleri reseptör proteinlerine bağlandığında, sinyali iletecek protein aparatını oluşturmak için plazma zarının iç bölgesine doğru farklı proteinleri sarar.

İnsanlar, hem düzenlemeleri hem de işlevleri bakımından farklılık gösteren 10 PKC enzimine sahiptir. PKC aktive olduğunda, sitoplazmadan çeşitli hücre içi konumlara hareket edecek ve sonunda diğer proteinlerle spesifik kompleksler oluşturacak ve böylece farklı protein substratlarını fosforile etmelerine izin verecektir. SCF ubiquitin ligazları gibi çeşitli ligazlar bu tür davranışları ifade eder. Bu mekanizmalar, protein fosforilasyonu ile spesifik aktive edici, inhibe edici, adaptör ve substrat proteinlerini bir hücrenin ayrı bir bölümüne bağlayan iskele proteinleri arasındaki işbirliğini içerir.

Bu olaya indüklenmiş yakınlık denir, bu da enzimlerin aynı reaksiyon bölgelerine sahip çok küçük farklı formlarının neden farklı fonksiyonlara sahip olabileceğini açıklar. Bu, proteinin konumunu çeşitli şekillerde kovalent olarak değiştirerek yapılabilir. Bu değişiklikler, proteinler üzerinde bağlanma bölgeleri oluşturur, böylece yapı iskele proteinlerine bağlanır ve onları bir araya toplar, böylece bir hücrenin belirli bir yerinde farklı reaksiyonlar meydana gelebilir. İskeleler bu nedenle hücrelerin zarlara ihtiyaç duymadan reaksiyonları gruplandırmasına izin verir.

İskele proteinlerinin, proteinleri birbirine göre belirli konumlarda tuttuğu düşünülüyordu, ancak gerçekte polipeptit zincirlerinin yapılandırılmamış bölgeleri, etkileşen proteinleri birbirine bağlar. Bu, proteinlerin rastgele yönlerde birbirleriyle sık sık çarpışmasına izin verir, bazıları başarılı reaksiyonlara yol açar. Proteinlerin bağlanması, daha hızlı reaksiyon oranlarının gerçekleşmesine izin verir. İskele proteinleri bu nedenle Hücre Kimyasını kontrol etmek için esnek yöntemler sağlar.

DEAD kutu proteinleri RNA helikazlarından oluşur, RNA metabolizması süreçlerinde yer alırlar ve bakterilerde ve virüslerde insanlara bulunan dokuz alanda korunurlar. 350 amino asit uzunluğundadırlar. DEAD kutusu proteinleri, mRNA öncesi işleme, splicesozom oluşumu ve ribonükleoprotein (RNP) komplekslerinin yeniden düzenlenmesinde yer alır. ÖLÜ kutu proteinleri, mRNA öncesi birleştirme ve in vivo birleştirme işleminde gereklidir. MRNA öncesi işleme sırasında, DEAD kutusu proteinleri, mRNA öncesi ekleme için gereken beş snRNP'yi (U1, U2, U4, U5 ve U6) yeniden düzenlemek için enerji sağlamak üzere gevşer. İn vivo eklemede, üç DEAD kutusu proteini, Sub2, Prp28 ve Prp5 gereklidir. Prp5, U2 dizisinin dal noktası dizisine bağlanmasına izin veren U2'nin konformasyonunu yeniden düzenlemeye yardımcı olur. Prp28, 5' ekleme konumunun tanınmasına yardımcı olur.

İlk DEAD kutusu proteini, ElF4A translasyon başlatma faktörü, RNA ATPase aktivitesine bağlıdır. Bu protein, taramayı durduran ikincil yapının çözülmesine yardımcı olur.


Sonuçlar

Hetero-oligomerik kompleksler oluşturan protein protomerlerinin, bu tip supramoleküler düzenekler oluşturmayan proteinlere göre birbirine daha çok benzeyen yapılara sahip olma eğiliminde olduğu gösterilmiştir. Bu gözleme bir dizi farklı yaklaşım katkıda bulunmuştur: proteomik Ramachandran grafiklerindeki mesafeler, protein yapısı süperpozisyonları ve iki alan yapısı veri tabanına (CATH ve SCOP) dayalı karşılaştırmalar.

Önceki çalışmalarla uyumlu olarak, hetero-oligomerik komplekslerin protomerleri arasındaki bu şaşırtıcı benzerliğin, gen duplikasyonu ve paralog evrimi olmasına rağmen, hetero-oligomerler ve daha önceki homo-oligomerler arasındaki evrimsel ilişkiden kaynaklandığını varsaymak mantıklıdır (Archibald ve ark. 1999). Ispolatov ve diğerleri 2005 Lukatsky ve diğerleri 2007 Lukatsky ve diğerleri 2006 Pereira-Leal ve diğerleri 2007). Ancak, bence, evrimsel ve fiziko-kimyasal sınırlamaların protein yapısı ve dinamikleri üzerindeki göreceli önemini değerlendirmek için daha ileri çalışmalar gereklidir.


Floresan depolarizasyon kinetiği kullanılarak özünde düzensiz proteinlerin omurga burulma dinamiklerini incelemek

Kendinden düzensiz proteinler (IDP'ler), kararlı bir benzersiz 3B yapıyı özerk olarak benimsemez ve hızla birbirine dönüşen yapıların bir topluluğu olarak bulunur. Önemli yapısal plastisite ile karakterize edilirler ve çeşitli biyolojik işlevler ve işlev bozuklukları ile ilişkilidirler. Hızlı konformasyonel dalgalanma, Ramachandran ϕ–ψ konformasyon uzayındaki dihedral açı dalgalanmasından kaynaklanan omurga segmental dinamikleri tarafından yönetilir. İçsel omurga burulma hareketliliğinin, a-sinüklein gibi bir arketip IDP'de triptofanın floresan depolarizasyon kinetiği gibi hassas bir floresan okuması ile izlenebileceğini keşfettik. Bu metodoloji, doğal koşullar altında düşük bir protein konsantrasyonunda pikosaniye-nanosaniye zaman aralığında dihedral boşlukta siteye özgü burulma hareketliliğini haritalandırmamızı sağlar. karakteristik zaman ölçeği

1.4 ns, kalıntı konumundan bağımsız olarak, triptofandan gelen birkaç kalıntının dihedral açılarının (ϕ ve ψ) toplu burulma dinamiklerini temsil eder ve proteinin genel küresel yuvarlanmasından bağımsızdır. Floresan depolarizasyon kinetiği metodolojisinin hem kısa menzilli hem de uzun menzilli ilişkili hareketleri, iç sürtünmeyi, bağlanmaya bağlı katlanmayı, düzensizlikten sıraya geçişi, yanlış katlanmayı ve IDP'lerin toplanmasını incelemek için geniş uygulama bulacağına inanıyoruz.

Bu, abonelik içeriğinin bir önizlemesidir, kurumunuz aracılığıyla erişilir.


Arka plan

Biyoyakıtlar, petrolden elde edilenler gibi fosil yakıtlara alternatif olarak yükselen temiz ve yenilenebilir bir enerji kaynağıdır [1, 2]. Şeker kamışı, mısır, toprak, deniz yosunu vb. gibi tarımsal malzemelerden üretilirler [3]. İkinci nesil biyoyakıt üretimi, ön işleme, şekerleme ve fermantasyon gibi birkaç adımda gerçekleşir. Sakkarifikasyon aşaması, üç tip enzimin sinerjistik etkisi ile gerçekleşir: endoglukanazlar (E.C. 3.2.1.4), ekzoglukanazlar, ayrıca selobiyohidrolazlar (E.C. 3.2.1.91) ve β-glukosidazlar (E.C. 3.2.1.21) [4, 5]. Endoglukanazlar, selüloz yapısında hareket ederek farklı uzunluklarda oligosakkaritleri serbest bırakır. Cellobiohidrolazlar, bu oligosakkaritlerin terminallerini hidrolize ederek esas olarak selobiyoz moleküllerini serbest bırakır. Daha sonra β-glukosidazlar, selobiyoz glikozidik bağını hidrolize ederek iki glikoz molekülünü serbest bırakır [4,5,6,7]. Bununla birlikte, çoğu β-glukosidaz, yüksek glukoz konsantrasyonları tarafından güçlü bir şekilde inhibe edilir [8,9,10]. Bu nedenle, bu enzimler, birkaç çalışma tarafından, siteye doğrudan mutajenez veya yeni enzimlerin tasarımı yoluyla yüksek glikoz konsantrasyonları toleransını geliştirme hedefleri olarak kabul edilmiştir [8,9,10,11,12,13,14,15,16,17, 18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42] . Ayrıca, birçok inceleme, şekerleme sürecini iyileştirmek için glukoz toleransının önemini bildirmiştir [4, 7, 43].

Son zamanlarda, Salgado ve ark. [43] dört gruba ayrılan bir β-glukozidaz sınıflandırma sistemi önerdi: (i) glukoz tarafından güçlü bir şekilde inhibe edilen β-glukosidazlar (çoğu) (ii) glukoza toleranslı β-glukosidazlar (iii) düşük glukoz konsantrasyonları ile uyarılan β-glukosidazlar ancak yüksek konsantrasyonlarda inhibe edilir ve (iv) β-glukosidazlar yüksek glikoz konsantrasyonları tarafından inhibe edilmez. Bildiğimiz kadarıyla, ii, iii ve iv grupları birkaç enzimden oluşur. Bu nedenle birçok çalışma, biyokütle hidrolizi için özelliklerini verimli olmayan diğer enzimlere aktarmayı amaçlamıştır. Örneğin, Yang ve ark. [9], sahaya doğrudan mutajenez yoluyla bir dizi amino asit pozisyonunun önemini değerlendirdi. H228T ve N301Q/V302F mutasyonlarının, denizde dirençli olmayan bir β-glukozidazın glukoz toleransına yol açabileceğini bildirdiler. Ayrıca Giuseppe ve ark. [10], substrat kanalının ortasındaki hidrofobik kalıntıların şeklinin ve varlığının, glukoz toleransının yapısal temeli ile ilişkili olabileceğini bildirmiştir. Ayrıca, Turpan Depresyon metagenomundan ekstrakte edilen bir β-glukozidazın 174, 404 ve 441 pozisyonlarındaki mutasyonların, optimal sıcaklığı arttırmak ve optimal pH'ı düşürmek için gerekli olduğu bildirilmiştir [12]. Cao ve ark. [12], Turpan Depresyonu metagenomunun β-glukozidazının glukoza toleranslı olarak sınıflandırılabileceğini gösterdi. Bununla birlikte, yabani enzim, düşük bir K sundu.kedi/Km substrat olarak selobiyoz kullanıldığında değer. Ayrıca yabani enzimin 50 °C'de yarı ömrü sadece 1 saat olmuştur. Bu nedenle, bu, bu enzimin selüloz hidrolizinde kullanılmasını engelleyebilir. Üç faydalı mutasyonun (W174C/A404V/L441F) kombinasyonu, IC'yi koruyarak yarı ömrü 48 saate uzatmak için gerekliydi.50 ve sonuç olarak, glikoz toleransı. Mutant enzimin kullanımı, şeker kamışı küspesi dönüşümünün %14-35 oranında iyileştirilmesine izin verdi; bu, β-glukosidazların aktivitesini iyileştiren mutasyonlar önermek için birçok yönün dikkate alınması gerektiğini gösterdi.

Toleranslı olmayanları toleranslı β-glukosidazlara dönüştürmek için önemli amino asitlerin araştırılmasında hesaplamalı yaklaşımlar da kullanılmıştır. Örneğin, bir deniz metagenomundan toleranssız bir β-glukosidazın aktivitesini geliştirmek için 15 mutasyondan oluşan bir dizi önerilmiştir [44]. Önerilen bu 15 mutasyondan, önceki bir çalışma, üçü için yüksek glukoz konsantrasyonlarında bile β-glukozidaz aktivitesini arttırdığına dair deneysel kanıtlar sağlamıştır: H228C, H228T ve H228V [9]. Mutasyona uğrayan V302F, N301Q/V302F, F172I, V227M, G246S, T299S ve H228T kalıntıları, glikoz salınımındaki rollerini vurgulamak için klasik ve hızlandırılmış moleküler dinamik simülasyonunu kullanan diğer hesaplama çalışmalarının da hedefiydi [45, 46]. Tüm bu çabalara rağmen, daha verimli β-glukosidazların rasyonel tasarımı hala bir zorluktur.

Daha önce, Betagdb adı verilen glukoza toleranslı β-glukosidaz yapılarını içeren bir veri tabanı önerilmiştir [4]. Betagdb veri tabanı, deneysel doğrulamalar ile glukoz toleranslı β-glukosidazları bildiren makaleler ve kamu veri tabanlarından alınan yapısal veriler temel alınarak geliştirilmiştir (o anda sadece 23 olay bulundu). Yeni nesil dizileme platformlarının yükselişi ve yaygınlaşmasıyla birlikte, çeşitli organizmalardan binlerce β-glukosidaz, UniProt gibi dizi veritabanlarında depolandı. Bu veriler, β-glukozidaz mekanizmalarına yeni anlayışlar getirmek için daha iyi araştırılabilir. Bu yazıda, Glutantβase adı verilen bir β-glukosidaz enzimleri veritabanı öneriyoruz. Veritabanımız, ikinci nesil biyoyakıt üretimi için en umut verici aile olan GH1 ailesinden (Glikozit Hidrolaz Ailesi 1) UniProt β-glukosidazlardan toplanan 3842 diziyi içerir. Tüm diziler için karşılaştırmalı modelleme yaptık, ikincil yapılarını tahmin ettik, birlikte evrim ağlarında yer alan tortuları tespit ettik, korunan tortuları, katalitik glutamatları ve aktif bölgeye rehberlik eden substrat kanalında bulunan tortuları detaylandırdık. Ayrıca, literatürde β-glukozidaz aktivitesini iyileştirmede faydalı olarak tanımlanan mutasyonların diğer β-glukosidazlara tahmin edilebileceğini varsaydık. Bunu doğrulamak için literatürde tarif edilen altı faydalı mutasyonun benzer pozisyonlarına dayanarak 5607 mutant protein modelledik: H228T [9], V174C [12], A404V [12], L441F [12], H184F [27] ve E96K [ 47]. Afinite skoru varyasyonunu doğrulamak için vahşi ve mutant proteinlerde glikoz ve selobiyozun moleküler kenetlenmesini gerçekleştirdik. Sonuçlarımız, yalnızca H228T'nin benzer pozisyonlarındaki mutasyonların, önceki hesaplamalı ve deneysel çalışmalarla uyumlu olan glukoz ve selobiyoz etkileşimlerini etkilediğini göstermektedir [9, 44, 45]. Glutantβase'in, mühendislik toleranslı β-glukozidaz enzimlerinin ikinci nesil biyoyakıt üretiminde iyileştirmeler getirmesine yardımcı olabileceğini umuyoruz.


Yöntemler

İkincil Yapı Eğilimlerinin Kimyasal Kayma Tabanlı Tahmini.

CHESHIRE prosedürünün ilk adımında, proteinin ikincil yapısını tahmin etmek için kimyasal kaymalar kullanılır. 3PRED olarak adlandırılan geliştirdiğimiz yöntem, amino asit üçlülerinin içsel ikincil yapı eğilimi ile birlikte bilinen kimyasal kaymalardan amino asitlerin ikincil yapısını tahmin etmek için Bayes çıkarımını kullanır Olasılık dağılımları P δ Bireysel amino asitlerin belirli ikincil yapılar oluşturma olasılığını ölçmek S deneysel olarak ölçülen bir dizi kimyasal kayma verildi (δH α , …, δC β ). İkinci olasılık dağılımları seti P 3 ardışık üç amino asidin fragmanlarının içsel eğilimlerini hesaba katın (Q 1, Q 2, Q 3) verilen ikincil yapıları oluşturmak için (S 1, S 2, S 3). NS P 3 dağılımlar, tek başına kimyasal kaymalardan türetilen atamaların doğruluğunu artırmak için yumuşatma potansiyelleri olarak işlev görür. P δ dağıtımlar.

eğilimler P 3 STRIDE (36) programı tarafından sağlanan ikincil yapı sınıflandırmasına göre <%25 dizi özdeşliğine sahip ASTRAL SCOP veri tabanındaki (35) tüm yapılar dikkate alınarak hesaplanmıştır. Olasılık hesaplamaları için P δ, kimyasal kaymalar, her atom tipi için 939.639 hesaplanmış kimyasal kaymadan oluşan kapsamlı bir veritabanı (3PRED-DB) elde etmek için aynı yapı grubuna SHIFTX (17) uygulanarak hesaplandı.

Bir kez olasılıklar P 3 ve P δ olduğu bilinmektedir, hesaplama kolaylığı için sözde enerjilere dönüştürülebilirler. E ikincil bir yapı atamasının S dizi proteini için Q ve kimyasal kaymalar Δ En olası ikincil yapı olarak tahmin edilebilir S ve tek eğilimler (P H, P B, P C) daha sonra psödoenerji fonksiyonu ile atamaların ortalaması alınarak hesaplanır. E. Monte Carlo şemasını kullandık. E uzayda bir arama ile en aza indirilir. n-boyutlu vektörler S burada her harekette tek bir amino asidin ikincil yapı ataması değiştirilir. Tahminler, sözde sıcaklıktaki 106 adım dikkate alınarak elde edildi. T = 1.

Dihedral Kısıtlamaların Kimyasal-Shift Tabanlı Tahmini: TOPOS.

CHESHIRE prosedürünün ikinci adımında, 3PRED tarafından hesaplanan ikincil yapı eğilimleri, TALOS'a (2) benzer bir yaklaşıma dayanan bir algoritma olan TOPOS'ta girdi olarak kullanılır. deneysel kimyasal kaymalar. TOPOS'ta, pozisyonda ortalanmış üç kalıntının her bir protein segmenti için ben dizide (hedef), konumunda ortalanmış bir üçlüye benzerlik J ASTRAL SCOP veritabanındaki (kaynak) bir dizideki benzerlik fonksiyonu σ(ben, J) burada Δδ kaynağın belirli bir atomunun ikincil kimyasal kaymasıdır ve parametreleri hedef protein segmenti k H ve k s her ikisi de 0.2'ye ayarlandı ve kalan parametrelerin ve amino asit benzerlik matrisinin Δ değerleriResType Cornilescu'dan alındı et al. (2). Denklemdeki ilk terimler 3 TALOS puanlama işlevine benzerdir, tek önemli fark, dikkate almamamızdır. H N kimyasal kaymalar. Buna karşılık, terim k s kayıt P n+J(S n+J), TOPOS'ta bulunan ancak TALOS'ta olmayan ikincil yapı önyargısıdır. TOPOS, sınırlı bir veri tabanının kullanımından kaynaklanan aşırı uyum sorunlarını önlemek için aynı kapsamlı 3PRED veri tabanını kullanır.

En yüksek σ skorlarına sahip parçalar, tipik olarak 200-500, daha sonra merkezi amino asidin omurga burulma açılarının mesafesine göre birlikte kümelenir. Son olarak, en iyi puan alan üç küme için ortalama dihedral Φ ve Ψ açıları tahmin olarak rapor edilir.

Parça Yapılarının Tahmini.

CHESHIRE yöntemi, RDC (27) ile protein yapılarının belirlenmesinde başarılı olduğu gösterilen moleküler parça değiştirme yaklaşımına dayanmaktadır. ilk başta yapı belirleme (37). Mevcut yöntemde, sırasıyla üç ve dokuz amino asitten oluşan iki tip fragman, ASTRAL SCOP PDB veri tabanından seçilir. Puanlama işlevi üç katkıyı dikkate alır: (ben) puan E vardiya dikkate alınan protein parçasının deneysel kimyasal kaymaları ile veri tabanındaki yapının kimyasal kaymaları arasında, (ii) puan E dinlenmek TOPOS ile elde edilen dihedral açı sınırlamaları ile uyumluluk için ve (iii) puan E secstr tahmin edilen ikincil yapı ile ağırlıkların şu şekilde ayarlandığı parçanın ikincil yapısı arasındaki eşleşme için

Kimyasal kayma puanı.

Parça seçiminde kullanılan kimyasal kayma puanı TOPOS tarafından kullanılan puana benzer, tek fark şudur (ben) ΔResType dahil değildir ve (ii) kalıntıların etkisi ben − 1 ve ben + 1 kalıntı üzerinde ben dikkate alınmaz. nerede E vardiya(ben, J) tarafından verilir

Dihedral açı kısıtlama puanı.

Dönem E dinlenmek TOPOS tahminleriyle uyumlu olmayan burulma açılarına sahip parçaları cezalandırır. Bir parça, Ramachandran grafiğindeki uzaklığı, tahmin edilen değerlerden en az biri ile <60° ise uyumludur.

İkincil yapı puanı.

İkincil yapı puanı, 3PRED tarafından tahmin edilenlerden farklı ikincil yapılara sahip veritabanı segmentlerini cezalandırır: burada P(S J, ben) ikincil yapı atamasına sahip olma olasılığıdır S J pozisyonda ben.

CHESHIRE prosedürünün bu adımı, dizi boyunca her pozisyonda üç uzunlukta on parça ve dokuz uzunlukta beş parça sağlar. Bu parçalar, aşağıda açıklandığı gibi düşük çözünürlüklü yapıları oluşturmak için kullanılır.

Düşük Çözünürlüklü Yapıların Üretimi.

Moleküler temsil.

İlk düşük çözünürlüklü yapı üretiminde, sadece omurga atomlarının açıkça modellendiği (H, N, Cα, C′, O) protein zincirinin kaba taneli bir temsili kullanıldı, yan zincirler tek bir C β ile temsil edildi. atom. Bağ uzunlukları ve açıları ve ω omurga burulma açısı sabit tutulurken, Φ ve Ψ burulma hareket özgürlüğü verilir.

Enerji fonksiyonu.

Düşük çözünürlüklü yapı üretimi için kullanılan enerji fonksiyonu, katlanmış proteinlerin farklı özelliklerini modelleyen terimlerin doğrusal bir birleşimidir: Aşağıdaki metinde, bu enerji terimlerinin anlamlarını açıklıyoruz.

İkili etkileşimler.

E vdw, E elek, ve E EEF1 model van der Waals, sırasıyla elektrostatik ve solvasyon. İlk ikisi CHARMM PARAM19'dan (38) ve üçüncüsü ref. 39. Ortalama kuvvetin ikili potansiyeli E PMF Zhou ve Zhou'nun (40) ardından ASTRAL SCOP veritabanındaki bilinen tüm PDB yapıları kullanılarak gerçekleştirilmiştir.

İkincil yapı ambalajı.

İkincil yapı elemanlarının paketlenmesini doğru bir şekilde modellemek için Baker ve iş arkadaşlarının potansiyeli (41) (E SS, E NS, ve E HH) uygulanmıştır.

Kooperatif hidrojen bağı.

Bu dönem (E CHB) referansa göre uygulandı. 42, sırayla uzaktaki β-iplikleri tarafından β-tabakalarının oluşumunu desteklemek için.

Yapı oluşturma protokolü.

Düşük çözünürlüklü yapılar, protein zinciri koordinatlarının Kartezyen çarpımı tarafından verilen genişletilmiş bir konfigürasyon uzayında gerçekleştirilen bir Monte Carlo algoritması ve bir “sanal ikincil yapı” dizisi kullanılarak üretildi. n ve m sırasıyla, protein zincirindeki atom ve amino asit sayılarıdır. Bunlar m proteinin ikincil yapısına bağlı olan enerji terimlerini açmak ve kapatmak için ek ayrık serbestlik dereceleri kullanılır.

Tamamen uzatılmış bir zincirden başlayarak, simüle edilmiş bir tavlama protokolü kullanılarak 20.000 Monte Carlo hareketiyle biçimler üretilir. İki tür hareket uygulanır. Birincide (parça ikamesi), protein zincirinin rastgele seçilmiş üç veya dokuz kalıntı penceresindeki burulma açıları ve ikincil yapı dizisi, bilinen yapının bir parçasından gelenlerle değiştirilir. İkincisinde, yerel omurga hareketleri, dört amino asitlik bir pencerenin ikincil yapısı değil, burulma açıları rastgele bozulur. Yeni konformasyonun puanı hesaplanır ve hareket Metropolis kriterine göre kabul edilir. Burada incelenen proteinlerin her biri için bu şekilde 10.000 deneme yapısı üretildi.

Arıtma.

Moleküler temsil.

CHESHIRE prosedürünün üçüncü aşamasında, polar hidrojen atomları dahil tüm atomlar, önceki düşük çözünürlüklü aşamadan üretilen deneme yapılarından açıkça temsil edilir. İlk aşamada, bağ uzunlukları, açılar ve ω omurga burulma açıları sabit tutulurken Φ, Ψ ve yan zincir burulma açıları serbest bırakılır. Yapılar daha sonra aşağıda açıklanan enerji fonksiyonu kullanılarak optimize edilir. Son olarak, en iyi puanlama yapıları, Dunbrack ve Cohen rotamer kitaplığı (43) kullanılarak tekrarlanan minimizasyonlar ve yan zincir optimizasyonları ile daha da iyileştirilir.

Aşağıdaki protokole göre düşük çözünürlüklü yapılara eksik atomlar eklenerek başlangıç ​​yapıları elde edildi. (ben) İdeal geometriler kullanılarak tamamen genişletilmiş bir tüm atom protein zinciri oluşturulur. (ii) Hedef Φ ve Ψ açıları, kaynak zincirin açılarına ayarlanır. (iii) Sterik çakışmaları ortadan kaldırmak için 10.000 adımlık bir enerji minimizasyonu gerçekleştirilir. (iv) Omurgalar arası mesafeler orijinal olanlara sınırlandırılarak 10.000 adımlık ek bir enerji minimizasyonu gerçekleştirilir. (v) 10.000 adımlık nihai bir enerji minimizasyonu herhangi bir kısıtlama olmaksızın gerçekleştirilir.

Yapı taraması.

Sterik çarpışmalar içeren tüm yapıların yanı sıra dönme yarıçapı daha büyük olan yapılar. r maksimum = 2.83 × m 0.34, nerede m atılan proteindeki amino asit sayısıdır (44).

Enerji fonksiyonu.

CHESHIRE enerji fonksiyonu, bir fizikokimyasal terimin birleşimidir (E FF) ve korelasyonu açıklayan bir terimin (C) deneysel ve öngörülen kimyasal kaymalar arasında: nerede E FF ve log(1 +) tarafından verilen bir arka plan kuvvet alanıdır. C)capp Burada, corr tarafından verilirx X tipi atomlar için deneysel ve geri hesaplanmış kimyasal kaymalar arasındaki korelasyon, k Ha = 18 ve k n = k CA = k cb = 1. Terim C SHIFTX hatasını aşan deneysel ve geri hesaplanmış kimyasal kayma arasındaki korelasyonları önlemek için 3.5'te sınırlandırılmıştır. Bu değer seçimiyle, korelasyonlar, H α atomları için ≈0.8 ve N, C α ve C β atomları için 0.9'luk bir eşiğe ulaşana kadar saptırılır.

Kuvvet alanı.

tüm terimler E FF hariç E hb Denklem'de tanımlananlarla aynıdır. 10 NS E hb Kortemme'yi takip eden terim modelleri omurga hidrojen bağı et al. (45).

Kimyasal-kayma korelasyon sınırı.

Kimyasal kayma korelasyon terimi C SHIFTX'in hatasından daha iyi olan deneysel ve geri hesaplanmış kimyasal kayma arasındaki korelasyonları önlemek için 3.5'te sınırlandırılmıştır. Bu değer seçimiyle, korelasyonlar, H α atomları için ≈0.8 ve N, C α ve C β atomları için 0.9'luk bir eşiğe ulaşana kadar saptırılır.

Yapı oluşturma protokolü.

Yan zincir atomlarının eklenmesinden sonra, E tüm yapıların puanları hesaplandı ve iyileştirme için en iyi 500 yapı seçildi. İyileştirme, 10.000 adımlık simülasyonlu bir tavlama Monte Carlo çalışmasından oluşuyordu. Monte Carlo stratejisinin kullanılması, moleküler dinamik şemasında gerekli olacağı gibi, maliyet fonksiyonunun türevlerini gerektirmeden kimyasal kaymalar üzerinde bir önyargı kullanmamızı sağlar. İyileştirmeden sonra yapılar puanlarına göre sıralandı ve nihai sonuç olarak en iyi puanı alan seçildi.


Videoyu izle: Protein Primer Sekonder Tersiyer ve Kuaterner Yapısı -Akademik (Ağustos 2022).