Bilgi

Genomdaki kodlamayan diziler nasıl kategorize edilir?

Genomdaki kodlamayan diziler nasıl kategorize edilir?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bir genomdaki fonksiyonların çeşitliliğini kafamda toplamaya çalışıyorum. Açıkçası, kodlama yapan ve kodlamayan bölgeleriniz var. Ancak "kodlanmayan" bölgelerde, bana "vahşi batı" gibi görünüyor. Transpoze edilebilir elementler, SINE'ler, LINE'lar, transpozonlar, retrotranspozonlar, intronlar, promotörler, vb. Kodlamayan dizilerin türlerinin kapsamlı bir listesine sahip olmak için genomları yeterince açıkladık mı?

Kodlamayan dizilerin ve alt kategorilerin (ilgili olduğunda) türlerinin bir listesine sahip olmak benim için gerçekten yararlı olurdu. Wikipedia bir liste çıkarıyor gibi görünüyor, ancak aynı sayfadaki insan genomu rakamı uyuşmuyor. Kodlamayan dizilerin nasıl kategorize edileceğine dair iyi bir referans verebilecek biri var mı?


İşte bulabileceğim muhtemelen aşırı basitleştirilmiş ve eksik sınıflandırmam. Lütfen, daha fazla bilgi sahibi olanlar için lütfen düzenleyin!

Kodlamayan diziler aşağıdaki kategorilere ayrılabilir:

1. RNA genleri (tRNA'ları, rRNA'ları, miRNA'ları vb. üreten genler) 2. İntronlar ve çevrilmemiş bölgeler (UTR'ler) 3. Cis- ve trans-düzenleyici elemanlar 3.1. Cis-düzenleyici unsurlar (CRE'ler) 3.1.1. Destekleyiciler 3.1.2. Güçlendiriciler 3.1.3. Susturucular 3.2. Trans-düzenleyici elemanlar (transkripsiyon faktörleri için genler) 4. Tekrarlayan elemanlar (tekrarlanan diziler, tekrarlar) 4.1. Uzun terminal tekrarları (LTR'ler) 4.2. Değişken sayıda tandem tekrarları (VNTR'ler, tandem tekrarları) 4.2.1. Uydular 4.2.2. Mini uydular 4.2.3. Mikro uydular (kısa tandem tekrarları, basit dizi tekrarları) 4.3 Transpoze edilebilir elemanlar (TE'ler, transpozonlar) 4.3.1. Retrotranspozonlar (Sınıf I TE'ler) 4.3.1.1. Kısa serpiştirilmiş nükleer elementler (SINE'ler) 4.3.1.2. Uzun serpiştirilmiş nükleer elementler (HATLAR) 4.3.2. DNA transpozonları (Sınıf II TE'ler) 4.4. Telomerler 5. Psödojenler

Kodlamayan DNA

Genetikte, kodlamayan DNA protein dizilerini kodlamayan bir organizmanın DNA dizilerinin bileşenlerini tanımlar. Pek çok ökaryotta, bir organizmanın toplam genom boyutunun büyük bir yüzdesi kodlamayan DNA'dır, ancak kodlamayan DNA'nın miktarı ve kodlamayan DNA'ya karşı kodlamayan DNA oranı türler arasında büyük farklılıklar gösterir.

Bu DNA'nın çoğunun bilinen bir biyolojik işlevi yoktur ve bir zamanlar bazen "" olarak anılırdı.önemsiz DNABununla birlikte, kodlamayan birçok DNA dizisi türü, protein kodlayan dizilerin transkripsiyonel ve translasyonel düzenlemesi dahil, bilinen biyolojik fonksiyonlara sahiptir. ve proteinleri kodlamayan, ancak yine de ağır seçici baskı altında görünen dizilerde görülen koruma).


1. Giriş

Bir organizmanın genomunun temel bir özelliği, genellikle GC'ye karşı AT olan baz çiftlerinin kesriyle ölçülen nükleotid baz bileşimidir. Bu, ökaryotik genomların farklı bölümleri arasında oldukça değişkendir. Özellikle, sentromerlerin etrafındakiler gibi düşük rekombinasyon seviyelerine sahip genom bölgelerinde azalma eğilimi gösterir (D'x000edaz-Castillo & Golic 2007). GC içeriğindeki bu tür varyasyonları açıklamak için iki ana hipotez önerilmiştir. Birincisi, mutasyonel önyargı kalıplarındaki farklılıkları içerir. Seçici olarak nötr diziler için, genomun belirli bir bölgesinde GC'ye karşı AT'nin beklenen fraksiyonu, GC𡤪T mutasyon oranının AT→GC için olana oranıyla belirlenir, bu oran mutasyonel sapma parametresidir κ, (Sueoka 1962 Li 1987 Bulmer 1991). GC içeriğindeki farklılıklar, κnükleotid yer değiştirme modellerinden tahmin edilebilen (Singh ve diğerleri. 2005) ve genellikle 1'den büyüktür.

Alternatif olarak, eşanlamlı kodlama sekansı sitelerinde olduğu gibi doğal seçilim (Akashi 1995) veya yanlı gen dönüşümü (BGC) nedeniyle GC, AT'ye göre tercih edilebilir. BGC, bir nükleotid bölgesindeki GC ve AT varyantları için heterozigotlar, DNA heteroduplekslerinin yanlı onarımının bir sonucu olarak gametlerinde GC varyantının %50'sinden fazlasını ürettiğinde oluşur (Marais 2003). BGC, seleksiyondan kaynaklanana benzer bir sahada AT varyantlarına karşı GC sıklığında beklenen bir değişikliğe neden olur (Gutz & Leslie 1976). Mutasyon ve genetik sürüklenme ile karşılaştırıldığında GC lehine seçim veya BGC ne kadar yüksek olursa, bir dizinin denge GC içeriği o kadar yüksek olur (Li 1987 Bulmer 1991).

Hem türler arası sapma hem de tür içi polimorfizm hakkındaki veriler, seçilim/BGC'nin saptanmasına izin verir, çünkü bu kuvvetler, istenmeyen varyantların (bu durumda AT) popülasyona polimorfik varyantlar olarak girmesini önlemede, bunların sabit hale gelmesini önlemekten daha az etkilidir (Akashi 1995) . Eğer bu kuvvetler etki ediyorsa, polimorfizmler arasında, türler arasındaki ikamelerle karşılaştırıldığında, AT'ye göre daha fazla GC'x02192AT görmeliyiz. Baz bileşimi için denge, seçilimin veya BGC'nin etkisinden bağımsız olarak, bir soy boyunca eşit sayıda GC'x02192AT ve AT'x02192GC ikamesi anlamına gelir. Polimorfizmler için AT→GC üzerinde GC𡤪T fazlalığı, daha sonra seçim/BGC eylemini gösterir (Akashi 1995).

Bu, site başına seçim yoğunluğunun veya BGC'nin (etkin popülasyon boyutunun dört katıyla çarpılır, ne) GC𡤪T polimorfizmlerinin GC𡤪T ve AT→GC polimorfizmleri arasındaki oranından (Maside ve diğerleri. 2004). Bu ölçeklendirilmiş seçim/BGC tahmini şu şekilde gösterilir: γ. Tahmin için diğer yöntemler γ popülasyondaki varyantların frekans dağılımı hakkındaki bilgileri kullanın (Akashi 1999 Galtier ve diğerleri. 2006). Zorluk, denge varsayımının sıklıkla ihlal edilmesidir, bunun örneğin her ikisi için de geçerli olduğu bilinmektedir. Drosophila melanogaster (Akaşi ve diğerleri. 2006) ve insanlar (Duret ve diğerleri. 2006).

Burada, bir örneklemde kodlamayan dizilerdeki polimorfizmler üzerine bir veri setinin analizini sunuyoruz. Drosophila simülasyonları Madagaskar'dan, homologlarından sapma tahminleri ile birlikte Drosophila melanogaster ve Drosophila yakuba. Özellikle yüksek GC içeriğine sahip diziler için seçim/BGC imzasını tespit ediyoruz.


Soyut

Bir organizmanın genom dizisi, biyologların daha önce eriştiği hiçbir bilgi kaynağına benzemeyen bir bilgi kaynağıdır. Ancak genomun değeri, yalnızca açıklaması kadar iyidir. Diziden organizmanın biyolojisine kadar olan boşluğu dolduran açıklamadır. Yüksek kaliteli açıklamanın amacı, genomun temel özelliklerini, özellikle de genleri ve ürünlerini tanımlamaktır. Açıklama için araçlar ve kaynaklar hızla gelişiyor ve bilimsel topluluk, biyolojik araştırmanın tüm yönleri için bu bilgilere giderek daha fazla bağımlı hale geliyor.


Soyut

Kanserli hastalar, kalıtsal genomlarındaki germ hattı varyantlarına ek olarak tümörlerinde somatik dizi varyantları taşırlar. Protein kodlayan bölgelerdeki varyantlar en çok dikkati çekmiş olsa da, çok sayıda çalışma kanserde kodlamayan varyantların önemine dikkat çekmiştir. Ayrıca, hem somatik hem de germ hattı varyantlarının ezici çoğunluğu, genomun kodlamayan bölümlerinde meydana gelir. Tek nükleotid varyantlarından büyük genomik yeniden düzenlemelere kadar mutasyon tiplerinin büyük çeşitliliği ve bunların tümörijenezi teşvik etmek için gen ekspresyonunu etkilediği çok çeşitli mekanizmalar dahil olmak üzere kanserdeki kodlamayan varyantların mevcut anlayışını gözden geçiriyoruz. kodlamayan RNA'ların transkripsiyon faktörü bağlama bölgeleri veya işlevleri. Somatik ve germ hattı varyantlarının belirli vaka çalışmalarını vurguluyor ve kodlamayan varyantların hesaplamalı ve deneysel yöntemlerle büyük ölçekte nasıl yorumlanabileceğini tartışıyoruz.


Tüm CNS'lerin evrimleri üzerinde kısıtlamalar olması için bazı işlevleri yerine getirmesi muhtemeldir, ancak genomun neresinde bulunduklarına ve oraya nasıl geldiklerine göre ayırt edilebilirler.

İntronlar Düzenle

İntronlar, çoğunlukla ökaryotik organizmalarda bulunan ve genlerin kodlama bölgelerini kesintiye uğratan, temel çift uzunlukları üç büyüklük sırasına göre değişen dizi uzantılarıdır. İntron dizileri korunabilir, çünkü genellikle evrimlerine işlevsel kısıtlamalar getiren ifade düzenleyici öğeler içerirler. [4] Farklı krallıkların türleri arasındaki korunmuş intron kalıpları, evrimsel tarihin farklı noktalarında intron yoğunluğu hakkında çıkarımlarda bulunmak için kullanılmıştır. Bu onları ökaryotlarda intron kazancı ve kaybının dinamiklerini anlamak için önemli bir kaynak yapar (1,28). [4] [5]

Çevrilmemiş bölgeler Düzenle

En yüksek düzeyde korunmuş kodlamayan bölgelerden bazıları, intronlardan ziyade olgun RNA transkriptlerinin 3' ucundaki çevrilmemiş bölgelerde (UTR'ler) bulunur. Bu, transkripsiyon sonrası düzeyde çalışan önemli bir işlevi gösterir. Bu bölgeler önemli bir düzenleyici işlevi yerine getirirse, evrimsel zaman boyunca 3'-UTR uzunluğundaki artış, korunmuş UTR'lerin organizma karmaşıklığına katkıda bulunduğunu gösterir. UTR'lerde genellikle aynı metabolik aileye ait genlerde korunan düzenleyici motifler, RNA transkriptlerini hedefleyen oldukça spesifik ilaçlar geliştirmek için potansiyel olarak kullanılabilir. [4]

Transpoze edilebilir elemanlar Düzenle

Tekrarlayan elementler, birkaç farklı transpozisyon sürecinin bir sonucu olarak bir organizmanın genomunda birikebilir. Ökaryotların evrimi sırasında bunun ne ölçüde gerçekleştiği büyük ölçüde değişir: tekrarlayan DNA, sinek genomunun sadece %3'ünü oluşturur, ancak insan genomunun %50'sini oluşturur. [4]

Transposable elementlerin korunumunu açıklayan farklı teoriler vardır. Biri, psödojenler gibi, çevredeki değişikliklere daha hızlı adaptasyona izin veren yeni bir genetik materyal kaynağı sağladıklarını iddia ediyor. Daha basit bir alternatif, ökaryotik genomların, transpoze edilebilir elementlerin çoğalmasını önleyecek hiçbir aracı olmadığı için, bir genin içine veya yanına, temel işlevleri bozacak şekilde yerleştirilmediği sürece, birikmekte serbest olmalarıdır. [6] Yakın zamanda yapılan bir araştırma, transpozonların ötherian'a özgü CNS'lerin en az %16'sına katkıda bulunduğunu gösterdi ve bu da onları memelilerde gen düzenlemesinin evriminde "ana yaratıcı güç" olarak işaretledi. [7] Çoğaldıkları mekanizmalarla ayırt edilen, yer değiştirebilir öğelerin üç ana sınıfı vardır. [6]

Sınıflar Düzenle

DNA transpozonları, ters çevrilmiş tekrar dizileriyle çevrili bir transpozaz proteinini kodlar. Transpozaz, diziyi kesip çıkarır ve onu genomun başka bir yerinde yeniden bütünleştirir. DNA replikasyonunun hemen ardından eksize edilerek ve henüz replike edilmemiş hedef bölgelere eklenerek, genomdaki transpozonların sayısı artabilir. [6]

Retrotranspozonlar, TE transkriptinden bir cDNA oluşturmak için ters transkriptaz kullanır. Bunlar ayrıca uzun terminal tekrar (LTR) retrotranspozonları, uzun serpiştirilmiş nükleer elementler (LINE'lar) ve kısa serpiştirilmiş nükleer elementler (SINE'ler) olarak ikiye ayrılır. LTR retrotranspozonlarında, RNA şablonu bozulduktan sonra, ters kopyalanan cDNA'yı tamamlayan bir DNA dizisi, elemanı çift zincirli bir duruma döndürür. LTR retrotranspozon tarafından kodlanan bir enzim olan Integrase, daha sonra elementi yeni bir hedef bölgeye yeniden dahil eder. Bu elemanlar, aktarma işlemine aracılık eden uzun terminal tekrarları (300-500bp) ile çevrilidir. [6]

LINE'lar, LINE kodlu bir endonükleaz tarafından bölünmenin ardından hedef bölgede cDNA'nın sentezlendiği daha basit bir yöntem kullanır. LINE ile kodlanmış ters transkriptaz, yüksek düzeyde diziye özgü değildir. LINE makineleri tarafından ilgisiz RNA transkriptlerinin dahil edilmesi, işlevsel olmayan işlenmiş psödojenlere yol açar. Küçük bir genin promotörü, genin kopyalanan kısmına dahil edilirse, stabil transkript çoğaltılabilir ve genoma birçok kez yeniden eklenebilir. Bu işlem tarafından üretilen elemanlara SINE adı verilir. [6]

Korunan düzenleyici aktarılabilir öğeler

Korunan düzenleyici transposable elementler bir genomda aktif olduklarında, yeni promotör bölgeleri ekleyebilir, mevcut düzenleyici siteleri bozabilir veya kopyalanan bölgelere yerleştirilirse, ekleme modellerini değiştirebilirler. Belirli bir aktarılmış öğe, ürettiği değiştirilmiş ifadenin uyarlanabilir bir avantaj sağlaması durumunda pozitif olarak seçilecektir. Bu, insanlarda bulunan korunmuş bölgelerin bazılarıyla sonuçlanmıştır. İnsanlarda karakterize edilen promotörlerin yaklaşık %25'i transpoze elementler içerir. [8] Bu, insanlarda transpoze olabilen öğelerin çoğunun artık aktif olmadığı gerçeğinin ışığında özellikle ilgi çekicidir. [6]

Psödojenler Düzenle

Psödojenler, dizi silme, ekleme veya mutasyonlarla devre dışı bırakılan bir zamanlar işlevsel olan genlerin kalıntılarıdır. Bu sürecin birincil kanıtı, diğer ilgili genomlarda bu inaktive edilmiş dizilere tam olarak işleyen ortologların varlığıdır. [4] Psödojenler genellikle bir gen duplikasyonu veya poliploidizasyon olayının ardından ortaya çıkar. Bir genin iki işlevsel kopyası ile, her ikisinin de ifade edilebilirliğini korumak için seçici bir baskı yoktur ve birini işlevsiz bir psödojen olarak mutasyonları biriktirmekte özgür bırakır. Bu, nötr seçilimin, psödojenlerin, yeni genetik materyalin "rezervuarları" olarak hizmet ederek, genoma yeniden dahil edilme potansiyeline sahip mutasyonları biriktirmesine izin verdiği tipik bir durumdur. Bununla birlikte, bazı psödojenlerin memelilerde korunduğu bulunmuştur. [9] Bunun en basit açıklaması, bu kodlamayan bölgelerin bazı biyolojik işlevlere hizmet edebileceğidir ve bunun birkaç korunmuş psödogen için geçerli olduğu bulunmuştur. Örneğin Makorin1 mRNA'nın, birkaç fare türünde korunan paralog psödogeni Makorin1-p1 tarafından stabilize edildiği bulunmuştur. İnsanlarla fareler ve insanlarla şempanzeler arasında, türlerin ayrılmasından önceki çoğaltma olaylarından kaynaklanan diğer psödojenlerin de korunduğu bulunmuştur. Bu psödojenlerin transkripsiyonunun kanıtı, biyolojik bir işlevi olduğu hipotezini de destekler. [10] Potansiyel olarak işlevsel psödojenlerin bulguları, terimin orijinal olarak biyolojik işlevi olmayan dejenere diziler için kullanılması gerektiğinden, onları tanımlamada zorluk yaratır. [11]

Psödojene bir örnek, çoğu kuş ve memelide L-askorbik asidin (C vitamini) biyosentezi için gerekli bir karaciğer enzimi olan L-gulonolakton oksidaz genidir; gıdalardan askorbik asit veya askorbat. Pek çok mutasyona sahip bu işlevsel olmayan genin kalıntıları, kobay ve insan genomlarında hala mevcuttur. [12]

Ultra-korunmuş bölgeler (UCR'ler), türler arasında %100 özdeşliğe sahip, uzunluğu 200 bp'nin üzerinde olan bölgelerdir. Bu benzersiz diziler çoğunlukla kodlamayan bölgelerde bulunur. Bu bölgelerdeki negatif seçici baskının neden protein kodlayan bölgelerdeki seçimden çok daha güçlü olduğu hala tam olarak anlaşılmamıştır. [13] [14] Bu bölgeler benzersiz olarak görülebilse de, yüksek derecede dizi korumasına sahip bölgeler ile mükemmel dizi korumasına sahip bölgeler arasındaki ayrım mutlaka biyolojik öneme sahip değildir. Science dergisindeki bir araştırma, aşırı derecede korunan kodlamayan dizilerin, korumanın mükemmel olup olmadığına bakılmaksızın önemli düzenleyici işlevlere sahip olduğunu ve bu da ultrakoruma ayrımını biraz keyfi hale getirdiğini buldu. [14]

Hem işlevsel hem de işlevsel olmayan kodlamayan bölgelerin korunması, karşılaştırmalı genomik için önemli bir araç sağlar, ancak cis düzenleyici unsurların korunmasının özellikle yararlı olduğu kanıtlanmıştır. [4] CNS'lerin varlığı, bazı durumlarda sapma süresinin eksikliğinden kaynaklanıyor olabilir, [15] daha yaygın düşünce, evrimlerine değişen derecelerde kısıtlama getiren işlevleri yerine getirmeleridir. Bu teoriyle tutarlı olarak, cis düzenleyici öğeler, korunan kodlamayan bölgelerde yaygın olarak bulunur. Bu nedenle, dizi benzerliği, türler arasında korunan düzenleyici öğeleri tanımlamaya çalışırken arama alanını sınırlamak için bir parametre olarak sıklıkla kullanılır, ancak bu, en yakın akrabalar işlevsel olmayan öğeler arasında da dizi korumasına sahip olduğundan, en uzak akraba organizmaları analiz etmede yararlıdır. [4] [16] [17]

Yüksek dizi benzerliğine sahip ortologlar, aynı düzenleyici unsurları paylaşmayabilir. [18] Bu farklılıklar, türler arasında farklı ifade modellerini açıklayabilir. [19] Kodlamayan dizinin korunması, tek bir tür içindeki paralogların analizi için de önemlidir. Paralog Hox gen kümeleri tarafından paylaşılan CNS'ler, muhtemelen bu genlerin benzer ekspresyon modellerini koordine eden ekspresyon düzenleyici bölgeler için adaylardır. [16]

Ortolog genlerin promotör bölgelerinin karşılaştırmalı genomik çalışmaları, promotör bölgelerindeki transkripsiyon faktörü bağlanma bölgelerinin mevcudiyetindeki ve nispi konumlarındaki farklılıkları da tespit edebilir. [20] Yüksek dizi benzerliğine sahip ortologlar aynı düzenleyici unsurları paylaşmayabilir. [18] Bu farklılıklar, türler arasında farklı ifade modellerini açıklayabilir. [19]

Korunan kodlamayan bölgelerle yaygın olarak ilişkilendirilen düzenleyici işlevlerin, ökaryotik karmaşıklığın evriminde rol oynadığı düşünülmektedir. Ortalama olarak bitkiler, memelilere göre gen başına daha az CNS içerir. Bunun, daha fazla poliploidizasyon veya genom çoğaltma olayları geçirmeleriyle ilgili olduğu düşünülmektedir. Gen duplikasyonunu takiben ortaya çıkan alt işlevselleştirme sırasında, gen başına daha yüksek oranda CNS kaybı potansiyeli vardır. Bu nedenle, genom çoğaltma olayları, bitkilerin her biri daha az CNS'ye sahip daha fazla gene sahip olduğu gerçeğini açıklayabilir. CNS'lerin sayısının düzenleyici karmaşıklık için bir vekil olduğu varsayıldığında, bu, bitkiler ve memeliler arasındaki karmaşıklıktaki eşitsizliği açıklayabilir. [21]

Gen düzenlemesindeki değişikliklerin insanlar ve şempanzeler arasındaki farkların çoğunu açıkladığı düşünüldüğünden, araştırmacılar bunu göstermek için CNS'lere baktılar. İnsanlar ve diğer primatlar arasındaki CNS'lerin bir kısmı, insana özgü tek nükleotid polimorfizmlerinin zenginleşmesine sahiptir, bu SNP'ler için pozitif seçim ve bu CNS'lerin hızlandırılmış evrimini önerir. Bu SNP'lerin birçoğu aynı zamanda gen ekspresyonundaki değişikliklerle de ilişkilidir, bu da bu CNS'lerin insan evriminde önemli bir rol oynadığını düşündürür. [22]


Yeni Yaklaşımlar

Veritabanları ve dergi makaleleri arasında dağılmış omurgalılar arasında CNS'leri entegre ederek, dbCNS (http://yamasati.nig.ac.jp/dbcns son erişim tarihi 30 Kasım 2020) adlı yeni bir veritabanı oluşturduk. dbCNS, kullanıcıların yalnızca ilgili düzenleyici adaylar olarak yayınlanmış CNS'leri çıkarmasına değil, aynı zamanda kullanıcı tarafından seçilen genomlarda CNS'leri aramasına da izin verir. Bu amaçla, dbCNS ayrıca bazı omurgasız genomları içerir. dbCNS otomatik olarak koordinatlar, çoklu hizalamalar ve filogenetik ağaçlar üretir. Bu çıktıları kullanarak, kullanıcılar, çıkarılmış dizileri ilgi alanları dahilindeki CNS'ler olarak değerlendirebilir ve hızlandırılmış ikame oranları ile potansiyel CNS'leri tespit edebilir. Kullanıcılar ayrıca, CNS'leri tanımlamak için genom hizalamalarına güvenmeleri nedeniyle, başka hiçbir veritabanının yapamadığı bir şey olan, dbCNS'deki bir genomdaki özdeş CNS'leri sayabilir.


AmiRNA aracılı susturmanın seçici baskısı altında viral kodlamayan bir dizinin moleküler evrimi

Bitki mikroRNA'ları (miRNA), DICER benzeri proteinler tarafından hedef mRNA'ların bölünmesine rehberlik eder, böylece mRNA bolluğunu azaltır. Yerli öncü miRNA'lar, ilgili RNA'ları hedeflemek için yeniden tasarlanabilir ve bu tür yapay mikroRNA (amiRNA) teknolojisinin bir uygulaması, patojenik virüslere dirençli bitkiler üretmektir. İki alakasız virüsün genomunu hedef almak üzere tasarlanmış amiRNA'ları ifade eden transgenik Arabidopsis bitkileri, uygun virüse oldukça spesifik bir şekilde dirençliydi. Burada iki farklı hedef izledik. İlk olarak, viral RNA'ların 21-nt hedef bölgesinin direnç için hem gerekli hem de yeterli olduğunu doğruladık. İkinci olarak, genetik olarak plastik bir RNA virüsü olan TuMV'ye karşı amiRNA aracılı direncin evrimsel kararlılığını inceledik. Protein işlevi üzerinde etkili olan seçici basınçları RNA düzeyinde etki edenlerden ayırmak için, gerekli olmayan bir bölgede 21-nt, amiRNA hedef bölgesini barındıran kimerik bir TuMV oluşturduk. Direnç bozulması olasılığını değerlendirmek için tasarlanan ilk deney setinde, hedef 21-nt içindeki tek nükleotit mutasyonunun, mutant virüslerin amiRNA eksprese eden bitkileri başarılı bir şekilde enfekte etme yeteneği üzerindeki etkisini araştırdık. Virüs patojenitesindeki etkilerine bağlı olarak üç kategoriye ayrılabilen hedef nükleotidlerin eşdeğer olmadığını bulduk. İkinci deney setinde, amiRNA eksprese eden bitkilerde virüs mutantlarının evrimini araştırdık. En yaygın sonuç, hedefin silinmesiydi. Bununla birlikte, 21-nt hedefi muhafaza edildiğinde, virüsler bunun üzerinde ilave ikameler biriktirerek, amiRNA'nın bağlanma/bölünme kabiliyetini daha da azalttı. Viral hedef içindeki ikame paternine büyük ölçüde G'den A'ya ve C'den U'ya geçişler hakimdi.

Çıkar çatışması beyanı

Yazarlar, rekabet eden çıkarların olmadığını beyan etmişlerdir.

Rakamlar

Şekil 1. Enfeksiyöz klonların şematik gösterimleri…

Şekil 1. Kimerik enfeksiyöz klonların şematik gösterimleri Şalgam mozaik virüsü (TuMV).

Şekil 2. Hedeflenen 21-nt dizisi…

Şekil 2. AmiRNA tarafından hedeflenen 21-nt dizisi, virüs vermek için gerekli ve yeterlidir…

Şekil 3. Transgenik N. benthamiana ifade eden bitkiler…

Şekil 3. Transgenik N. benthamiana amiR 159 -P69 ifade eden bitkiler enfeksiyona karşı dirençlidir…

Şekil 4. amiR'nin tarama mutagenezi…

Şekil 4. TuMV-GP69 kimerik virüsü üzerinde amiR 159 -P69 hedef bölgesinin tarama mutagenezi.

Şekil 5. Kimerik TuMV'nin dizi analizi…

Şekil 5. Duyarlı amiR 159 -P69 transgenikinden elde edilen kimerik TuMV virüslerinin dizi analizi…

Şekil 6. Açıklamak için çalışan bir model…

Şekil 6. Virüs mutasyonu ile amiRNA aracılı direncin bozulmasını açıklayan çalışan bir model.


Sonuçlar

Omurgalı Genomlarında Yüksek Derecede Korunmuş Kodlamayan Dizilerin Tanımlanması

Korunmuş kodlamayan dizileri bulmak için, dizinin kodlama ve tRNA içeriğinin çoğunu maskeledik. füg genom derlemesi [7] ve MegaBLAST [40] kullanılarak kalan bölgeleri Ensembl yayın v18.34.1 [41]'de bulunan insan genom dizisiyle karşılaştırdı. Bu analizden, iki genom arasında benzerlik gösteren 19.744 dizi belirledik. Yalnızca en az 100 bp uzunluğunda hizalamalar dahil edilerek dizi sayısı 4.400'e düşürüldü. Daha sonra telomer benzeri dizileri ve transpozonları kaldırdık ve kaçırılmış olabilecek bilinen herhangi bir protein kodlayan diziyi veya kodlamayan RNA türlerini hariç tuttuk (bkz. Malzemeler ve Yöntemler). Altmış beş benzersiz insan dizisi, dünyadaki iki bağımsız konumla eşleşmeye sahipti. fügu genetik şifre. Bunun nedeni, düzenleyici öğelerin balık geninin her iki kopyasıyla birlikte tutulduğu teleost soyunda [42] ek gen veya genom kopyalarıdır [43]. İnsan setinde fazlalığı önlemek için en uzun eşleşen dizi tutuldu ve kopya kaldırıldı. Son olarak, kalan 1.373 diziden, mRNA moleküllerinin çevrilmemiş bölgelerinin (UTR'ler) herhangi bir parçasının oluşturulup oluşturulmadığını belirledik. Seksen dizi (yaklaşık %6) bilinen mRNA moleküllerinin 5' veya 3' UTR'lerinde yer alır. Ek olarak, benzer bir sayı bir veya daha fazla EST dizisiyle eşleşir, ancak bunların çoğu EST kitaplıkları içinde eklenmemiş genomik kontaminasyon veya tam olarak eklenmemiş ön mRNA gibi görünmektedir. Genel olarak omurgalı UTR'lerinden farklı olarak, dikkate değer bir koruma derecesi sergiledikleri ve genomik veya transkript düzeyinde işlevsel olabilecekleri açık olmadığı için bu potansiyel olarak kopyalanmış dizileri çıkarmadık. Geri kalan, herhangi bir veritabanında ifade edilen herhangi bir diziyle eşleşmedi. 1.373 yüksek oranda korunan kodlamayan öğelerden (CNE'ler) oluşan bu çekirdek seti, bu çalışmanın temelini oluşturmaktadır.

CNE'ler seti, maksimum uzunluğu 736 bp (ortalama = 199 bp) ve özdeşliği %74 ila %98 (ortalama = %84,3) arasında değişen toplam 273 kb diziden oluşur. Bu, bu iki organizmada kodlama bölgeleri arasında görülen kimlik seviyesinden oldukça yüksektir. Şaşırtıcı olmayan bir şekilde, neredeyse tüm CNE'ler kemirgen ve tavuk genomlarında ve ayrıca zebra balığı genomundaki çoğunluğunda korunur. 1.373 CNE'den 1.365'i farede, 1.316'sı sıçanda ve 1.310'u tavukta korunur; fare ve sıçan için ortalama %97 ve tavuk için %96 ortalama kimlikle insan dizisine hizalanarak 1.093'ün de korunmuş olduğu bulunmuştur. zebra balığı genomu, %87.6'lık bir ortalama kimlikle füg sıra. Zebra balığı, tavuk, fare ve sıçan genomları farklı tamlık aşamalarındadır ve bu nedenle eksik sekans bilgisi, soylar arasındaki düzenleyici farklılıkları yansıtabilmesine rağmen, eksik CNE'leri (aynı zamanda zebra balığındaki düşük kimlik yüzdesini) açıklayabilir. .

CNE'ler 21 ve Y hariç tüm kromozomlarda insan genomu boyunca bulunsa da, dağılımları aslında tek tip değildir, oldukça kümelenmiş görünürler. Dağılımlarını daha ayrıntılı incelemek için, her bir CNE'nin insan genomundaki ilgili kromozomu üzerindeki konumunu çizdik (Şekil 1A). Daha sonra, bir diğerine yakın bulunan CNE'lerin yüzdesini hesapladık. CNE'lerin %90'ının 1 Mb'den daha az aralıklı olduğunu, CNE'lerin %85'inin 370 kb içinde komşu bir CNE'ye sahip olduğunu ve %75'inin başka bir CNE'nin 158 kb'sinde bulunduğunu bulduk. Rastgele bir dağılımda CNE'lerin %85'inden fazlasının diğerinin 370 kb'si içinde olma olasılığı 10 -76'dan azdır (Şekil 1B). CNE'lerin genomdaki dağılımını dikkatlice inceleyerek, 19 singleton (Tablo S1) dahil olmak üzere toplam 165 küme oluşturduk. CNE'lerin %85'inden fazlası (1.172/1.373) beş veya daha fazla CNE içeren kümelerde yer almaktadır. En büyük 20 kümenin her biri, toplam öğe sayısının %43'ünü (594/1.373) içeren 20 veya daha fazla CNE içerir.

(A) Her bir CNE, insan Kromozomları 1 ila 9'un her biri boyunca konumuna göre çizilir (diğer kromozomlar için veriler gösterilmemiştir). Y ekseni, kromozom boyunca uzunluğu temsil eder (megabaz cinsinden).

(B) Birbirinden belirli mesafeler içinde olan CNE'lerin fraksiyonunun dağılımı, örneğin, CNE'ler arasındaki mesafelerin %85'i 370 kb'ye eşit veya daha azdır. χ Gözlemlenen küme boyutları ile her kromozom için rastgele oluşturulanlar karşılaştırılarak 2 test gerçekleştirilmiştir (bkz. Malzemeler ve Yöntemler).

Daha sonra insan genomundaki CNE'lerle ilişkili gen tiplerine baktık. Her CNE için, Ensembl'den en yakın geni çıkardık ve istatistiksel olarak en fazla temsil edilen Gen Ontolojisi (GO) terimlerini [45] belirlemek için elde edilen gen setini GOstat'a [44] sunduk. Kritik olarak, en fazla temsil edilen 13 terimden 12'si (P < 0.001), transkripsiyonel düzenleme ve geliştirme ile ilgilidir (Tablo S2).

Her bir kümeyi, kaç tanesinin transkripsiyonel düzenleme veya gelişimde rol oynayan genlere yakın konumlandığını görmek için inceledik (bunları şöyle adlandırdık: trans-dev genler). Kümelerin %93'ünden fazlasının (154/165) bir trans-dev bir veya daha fazla CNE'sinin 500 kb'si içinde yer alan gen (Şekil 2 Malzemeler ve Yöntemler Tablo S1). Kalan 11 kümeden beşi, InterPro [46] tarafından tanımlandığı gibi çinko parmak alanlı genlere en yakın olanıdır, biri bir gen çölündedir, biri AUTS2 gen bölgesinin haritasını çıkarmaktadır [47] ve dördü karaktersiz genlerin bitişiğinde yer almaktadır.

kromozomal konumları trans-dev insan genomundaki CNE kümelerinin 500 kb'si içinde bulunan genler (her küme yeşil bir ok ucuyla temsil edilir). Kalın yazı tipindeki genler, on veya daha fazla CNE kümesinin yanında bulunur. Gen isimleri Ensembl v23.34e.1'den alınmıştır. Grafik eki, insan genomundaki CNE küme boyutlarının dağılımını gösterir.

Kümelerin çoğu tek bir kümeyle ilişkilendirilebilirken trans-dev gen, CNE'lerin iki veya daha fazlasına yakın yerleştirildiği 15 küme vardır. trans-dev genler. Bu vakaların dokuzunda, CNE'ler, HOX, IRX, Nkx2–2/2–4 ve DLX kümeleri dahil olmak üzere bir grup paralog gen ile ilişkilidir, ancak bir çiftin ilgisiz olduğu üç örnek vardır. trans-dev genler, bir CNE kümesinin (SHH ve HLXB9, PBX3 ve LMX1B ve PAX1 ve FOXA2) yanında bulunur. Son olarak, iki veya daha fazla çinko parmak geniyle ilişkili üç küme vardır.

Trans-dev CNE kümeleriyle ilişkili genler, düşük gen yoğunluklu bölgelerde bulunma eğilimindedir. 500 kb yukarı akış ve aşağı akış içinde yer alan genlerin sayısını saydık. trans-dev geni ve bunu tüm insan genlerinin ortalaması ile karşılaştırdı. Tüm insan genlerinin ortalaması 17 iken, genler için sadece altıdır. trans-dev genler. Bu, DACH geni etrafında tanımlanan “gen çölü” fenomenine benzer [31]. İlginç bir şekilde, CNE'lerin kendileri genellikle en yakın genlerinden büyük mesafelerde bulunur. Bir CNE ile en yakın insan geninin 5' ucu arasındaki ortalama mesafe, bilinen herhangi bir genden 93 CNE 500 kb'den fazla ve 12 CNE 1 Mb'den fazla olmak üzere 182 kb'dir (medyan = 120 kb).

bir dizi trans-dev tanımladığımız genlerin daha önce yüksek oranda korunmuş olduğu gösterilmişti. cis-Hox kümeleri [24,33], PAX6 [48], PAX9 [32], SOX9 [28], OTX2 [34], SHH [30], DLX genleri [29] ve DACH dahil olmak üzere bunlarla ilişkili düzenleyici unsurlar [31]. Beş CNE, insanda veya insanda bilinen herhangi bir genle kümelenmiş gibi görünmüyor. füg insan kromozomu 22 üzerinde geniş bir gen çölünde bulunurlar. İnsan genomunun parçalarının gen açıklamaları ve genomik dizilişlerinin henüz tam olarak tamamlanmadığı göz önüne alındığında, burada CNE'lerin keşfi, bu bölgede önemli bir varlığın varlığına işaret edebilir. ilişkili oldukları transkripsiyonel veya gelişimsel düzenleme geni. Aslında, çinko parmak alanları ile nispeten karakterize edilmemiş bir gen etrafında kümelenmiş en fazla sayıda CNE'yi (48) buluyoruz, insan Kromozom 10'daki ZNF503, sıçan ortologu yakın zamanda beyin gelişiminde olası bir transkripsiyonel düzenleyici olarak karakterize edildi [49].

Yerel benzerlikleri aramak için tüm CNE'ler birbirleriyle karşılaştırıldı. Kırk üç element, en az bir diğer CNE ile önemli benzerlik gösterir ve her durumda, örneğin HOX ve IRX kümeleri gibi açık paralog ilişkileri olan genlere yakın yerleştirilir. Dizilerin geri kalanı, insan genomunda benzersiz görünmektedir.

Daha ileri fonksiyonel analiz için spesifik genler etrafındaki ek korunmuş dizileri tanımlamak için, çoklu LAGAN (MLAGAN) hizalama araç kiti [50] kullanılarak lokalize çoklu hizalama karşılaştırmaları yapıldı. Bu araç kiti, sinyal-gürültü oranını önemli ölçüde artıran, bu durumda fare ve sıçan gibi ek türlerden genomik diziyi tanıtma fırsatı sunar. 25'in rastgele bir alt kümesi için trans-dev CNE kümeleri ile ilişkili genler, 408 CNE'de katı tam genom hizalaması bulunurken, MLAGAN en az 100 bp uzunluğunda iki kat daha fazla korunmuş bölge (871) tanımladı. Tam genom analizi, 20 bp'lik bir minimum tam kelime eşleşmesi kullandığımız için daha katıydı, oysa MLAGAN, daha hassas bir (Needleman-Wunsch) hizalamanın gerçekleştirildiği çapalar oluşturmak için kısa kesin olmayan kelimeler kullanıyor. It is important to note that similar alignments on genes that are not implicated in developmental regulation do not identify conserved non-coding sequence (e.g., [22,51]).

The alignment of a known transcription factor, SOX21, identifies a large number of conserved non-coding sequence elements in addition to the CNEs found in the whole-genome analysis. We have called these “regionally defined CNEs” (rCNEs) (Figure 3A). In mammalian genomes, the distance between the first and last element around SOX21 is over 450 kb. As is the case for a number of the larger CNEs throughout the genome, some of the CNEs around the SOX21 gene are more highly conserved than the gene's coding exon. For example, in multiple alignments of mouse, rat, human, and Fugu sequence, one CNE (SOX21_19) has 90% identity over 558 bp whilst another (SOX21_1) contains a 112-bp region of 100% identity (Figure 3B), demonstrating an extraordinary level of conservation for genomes separated by 900 million years of divergent evolution.

SOX21 genomic regions for mouse, human, and rat were extracted from Ensembl to include all flanking DNA up to the nearest neighbouring genes (ABCC4 and NM_180989 in the human genome and their orthologues in the rodent genomes). The region covering Fugu SOX21 (138–178 kb of Fugu Scaffold_293 [M000293]) was extracted from the Fugu Genome Server at http://fugu.rfcgr.mrc.ac.uk/fugu-bin/clonesearch.

(A) MLAGAN alignment of the SOX21 gene using Fugu DNA as the base sequence compared with mouse, rat, and human genomic DNA. Coloured peaks represent regions of sequence conservation above 60% over at least 40 bp. The SOX21 coding region (SOX21 is a single exon gene) is annotated, and sequence identity is shaded in blue. Non-coding regions of sequence identity are shaded in pink. The eight elements that have been functionally assayed are labelled. Six of these are identified in the global analysis as seven CNEs (SOX21_8–10 covers two CNEs). SOX21_7 and SOX21_18 are rCNEs.

(B) Multiple DNA sequence alignments of CNE SOX21_1 and CNE SOX21_19 between mouse, rat, human, and Fugu.

Finally we searched invertebrate sequence databases, including the whole-genome sequences of Ciona intestinalis, Drosophila melanogaster, ve Caenorhabitis elegans, to see whether we could identify any of these highly conserved vertebrate sequences within the invertebrate lineage. Although many of the genes identified in our analysis have clear homologues within these genomes, we found no significant matches to any CNEs. More sensitive alignment using MLAGAN also failed to identify any conserved non-coding sequence similarity between vertebrates and non-vertebrates (including C. elegans , D. melanogaster and A. gambiae ), whilst in each case the coding sequences were identified. This is surprising, given that the degree of identity between CNEs in vertebrates is higher than that of the coding regions for these genes. Thus, it is unlikely that the same set of sequences that appear to regulate important vertebrate trans-dev genes are found in invertebrates.

Functional Assay

We have assayed the ability of conserved non-coding sequences identified both from the whole-genome MegaBLAST analysis (CNEs) and from regional MLAGAN alignments (rCNEs) to up-regulate green fluorescent protein (GFP) reporter expression in zebrafish embryos (see Materials and Methods). We chose four cluster regions that contain different types of developmental genes: SOX21, PAX6, HLXB9, and SHH. Elements are co-injected with a minimal promoter–GFP reporter construct into early zebrafish embryos. This co-injection strategy [37,38] is an efficient, yet simple and rapid method for identifying enhancer activity indeed enhancer activity of elements is more striking when tested in a co-injection assay than when ligated directly to a promoter–reporter construct [37].

A total of 25 conserved non-coding regions were selected (Figures 3, 4, and S1), of which ten were CNEs and 15 were rCNEs (Table 1). GFP expression was analysed in live embryos on the second day of development and recorded both schematically and in tabular form. A mean of 188 embryos were screened for each element, compared with a mean of just over 200 embryos per control (Table 1).

PAX6 (A), HLXB9 (B), and SHH (C). In each panel, human (top), mouse (middle), and rat (bottom) genomic DNA from Ensembl is aligned with Fugu genomic DNA from orthologous regions. Alignment parameters are the same as in Figure 2. Seventeen elements that have been functionally assayed from these regions have been labelled. The following were identified as CNEs: PAX6_6, PAX6_9–10, KIAA0010_1, and KIAA0010_3.

Controls in which no element was injected (GFP reporter construct injected alone), in which non-conserved, non-coding genomic DNA from the PAX6 or SOX21 regions was co-injected with the GFP reporter, or in which conserved, coding DNA from PAX6, SOX21, or SHH exons was co-injected with the GFP reporter produce essentially no up-regulation of GFP expression (Table 1 Figure S1). When conserved non-coding sequences were injected, up-regulation of GFP expression was observed with all but two of the elements tested, with between 4% and 44% of embryos screened being positive (Table 1). Furthermore, GFP expression was generally observed in consistent patterns, specific to the element injected (Figure 5).

Cumulative GFP expression data, from SOX21-associated elements (A), PAX6-associated elements (B), HLXB9-associated elements (C), and SHH-associated elements (D). Cumulative data pooled from multiple embryos per element on day 2 of development (approximately 26–33 hpf) are displayed schematically overlayed on camera lucida drawings of a 31-hpf zebrafish embryo. Categories of cell type are colour-coded: key is at bottom of figure. Bar graphs encompass the same dataset as the schematics and use the same colour code for tissue types. Bar graphs display the percentage of GFP-expressing embryos that show expression in each tissue category for a given element. The total number of expressing embryos analysed per element is displayed in the top left corner of each graph. Legend for the bar graph columns accompanies the bottom graph in each panel “blood+” refers to circulating blood cells plus blood island region, “heart+” refers to heart and pericardial region (Please note: Some cells categorised as heart/pericardial region may be circulating blood cells), and “skin” refers to cells of the epidermis or EVL. s. cord, spinal cord.

In order to build up a comprehensive picture of the GFP expression pattern induced by each of the elements, the expression profiles from multiple embryos positive for a given element were overlaid onto a schematic diagram, so providing a composite overview for each element (Figure 5). This also provided a convenient format for data storage and comparison between elements.

SOX21-associated elements.

Of the eight SOX21-associated elements tested in our functional assay, seven enhance GFP expression (Table 1). Three of these enhancing elements direct reporter gene expression most prominently to the central nervous system (CNS) (SOX21_4 and SOX21_19 [Figures 5A, 6A, and 6B] and SOX21_7). SOX21_19 strongly directs remarkably widespread GFP expression throughout the brain and rostral spinal cord (88% of expressing embryos show GFP-positive cells in the CNS Figures 5A and 6B). SOX21, a member of the SRY-related HMG-box (SOX) gene family of DNA-binding proteins, acts as a transcriptional repressor during early development [52], and is expressed in a complex, dynamic pattern in the developing vertebrate CNS [53,54,55].

GFP expression is shown in fixed tissue following wholemount anti-GFP immunostaining, bright-field views (A–D, F, J, K, and N), or in live embryos as GFP fluorescence, merged bright-field and fluorescent views (E, G–I, L, M, and O). Lateral views, anterior to the left, dorsal to the top (A, B, and D–O) or dorsal view, anterior to the top (C). Embryos approximately 28–33 hpf (A, D–I, L, and O), approximately 48 hpf (B, C, J, K, and N), or approximately 26 hpf (M). The identity of the element co-injected with the GFP reporter construct is shown at the bottom of each panel. Black arrows indicate the approximate position of the midbrain–hindbrain boundary black and white arrowheads indicate GFP-expressing cells.

Scale bars approximately 100 μm (A–E, G–I, and L–O) and 50 μm (F, J, and K).

b, blood island d, diencephalon e, eye f, fin fold hb, hindbrain l, lens n, notochord ov, otic vesicle r, retina s, somite sc, spinal cord t, telencephalon te, tectum y, yolk.

(A) SOX21_4. Head region (eyes removed): neurons in the telencephalon and diencephalon are GFP-positive (arrowheads).

(B) SOX21_19. Head region: numerous GFP-expressing neurons are visible in the forebrain, midbrain, and hindbrain. Retinal expression is also apparent.

(C) SOX21_5–6. Hindbrain region: white arrowheads indicate GFP expression by several cells in the epithelium of the right developing ear (ov). GFP-expressing cells in left deveoping ear are in slightly different focal plane.

(D) SOX21_1. Trunk region: two individual notochord cells express GFP (arrowheads).

(E) PAX6_6. Head region of live embryo: GFP is expressed in several retinal cells.

(F) PAX6_9–10. Anterior trunk region (at the level of somites 1–3): three spinal cord neurons with ventrally projecting axons express GFP (arrowheads).

(G) PAX6_1. Tail region of live embryo: arrowhead indicates GFP expression in the developing median fin fold.

(H) KIAA0010_1. Trunk region, three notochord cells express GFP (arrowheads).

(I) KIAA0010_2. Anterior end of embryo: arrowheads point to circulating blood cells expressing GFP.

(J) HLXB9_3. Trunk region: GFP-expressing muscle fibres in somite 5 (arrowheads) lie immediately dorsal and ventral to the horizontal myoseptum.

(K) HLXB9_3. Trunk region (at the level of somites 13–15): arrowheads mark GFP expression in six cells forming the epidermis or EVL.

(L) SHH_6. Whole live embryo: numerous GFP-expressing muscle fibres can be seen in the trunk.

(M) SHH_1. Tail region of live embryo: GFP is expressed in a single bipolar neuron near the caudal end of the spinal cord (arrowhead marks cell body).

(N) SHH_4. Head region (dorsolateral view): cells labelled with anti-GFP include midbrain and hindbrain neurons and cells in the retina (slightly out of focal plane). Arrowheads indicate cell bodies of hindbrain neurons, from which axons can be seen projecting ventrally.

(O) SHH_2. Trunk region of live embryo: GFP-positive cells in the region of the blood islands (caudal to the urogenital opening arrowheads) show a slightly elongated morphology, suggesting they may be blood vessel precursors rather than blood cells.

Three elements strongly enhance GFP expression in the sense organs: SOX21_4 and SOX21_19 direct GFP expression to the developing eye (in 52% and 27% of expressing embryos, respectively Figures 5A and 6B), and SOX21_5–6 strongly enhances reporter expression in the developing ear (75% of expressing embryos Figures 5A and 6C). These observations draw parallels with prominent regions of endogenous SOX21 expression in the sense organs: i.e., the nasal epithelium, the lens and retina of the eye, and the sensory epithelia of the developing inner ear [55]. SOX21_1 strongly enhances expression in the notochord (62% of expressing embryos Figures 5A and 6D), a domain not normally associated with SOX21 expression.

PAX6-associated elements.

Six out of seven PAX6-associated elements tested in our functional assay enhance GFP expression (Table 1). Four of these six functional elements direct GFP expression most frequently to the developing eye (PAX6_6, 90% of expressing embryos PAX6_19, 59% of expressing embryos [Figures 5B and 6E] PAX6_2, 92% of expressing embryos and PAX6_4, 100% of expressing embryos). A fifth element, PAX6_9–10, also directs reporter gene expression to the eye in a significant proportion (25%) of expressing embryos (Figure 5B) as well as to neurons most frequently in the hindbrain and spinal cord (Figures 5B and 6F).

Significantly, PAX6 is a paired-box-containing transcription factor, expressed in and playing essential roles in the developing eye it is also expressed in the forebrain, hindbrain, and spinal cord (data from the Zebrafish Information Network http://zfin.org). PAX6 is associated with the loss-of-function disorder aniridia. Some aniridia cases show chromosomal rearrangements downstream of an intact PAX6 gene, indicating that cis-acting elements can influence PAX6 gene expression in the eye at a significant distance from the coding region [56]. Indeed, PAX6 expression is known to be influenced by cis-acting elements in upstream, intronic, and downstream positions. For example, 5′ elements drive expression in the lens, pancreas, and parts of the neural tube [27], intronic elements drive expression in the retina, forebrain, and hindbrain [27,57], and several 3′ regions direct expression to the developing pretectum, neural retina, and olfactory region [58].

In addition to the eye and CNS, other tissues to which GFP expression is directed by our PAX6-associated elements include the blood islands (PAX6_9–10, 36% of expressing embryos PAX6_1, 16% of expressing embryos [Figure 5B]) and the median fin fold (PAX6_1, 55% of expressing embryos Figures 5B and 6G) these tissues have not been associated with endogenous expression of PAX6.

HLXB9-associated elements.

We assayed six elements associated with a genomic region containing the HLXB9 and KIAA0010 genes (Table 1). Each of these elements induces GFP expression in a variety of tissues (data from four elements are shown in Figure 5C). Most notably, KIAA0010_1 directs GFP expression to the notochord in more than 87% of expressing embryos (Figures 5C and 6H), KIAA0010_2 directs expression to the blood (38% of expressing embryos Figures 5C and 6I) and the pericardial region (36% of expressing embryos Figure 5C), HLXB9_1 directs expression to the skin/enveloping layer (EVL 52% of expressing embryos) and skeletal muscle (40% of expressing embryos Figure 5C), HLXB9_3 directs expression to skeletal muscle (48% of expressing embryos Figures 5C and 6J) and to skin/EVL (33% of expressing embryos Figures 5C and 6K), and HLXB9_2 directs expression to the spinal cord (87% of expressing embryos).

HLXB9 is a Mnx-class homeobox gene associated with autosomal dominant caudal defects [59]. The zebrafish orthologue, hb9, is expressed in the notochord, hypochord, tail mesoderm, and tailbud [60], paralleling some of the domains of GFP expression induced by HLXB9/KIAA0010-associated elements.

SHH-associated elements.

Two of the four SHH-associated elements tested in this study (Table 1) direct GFP expression most frequently to muscle cells (SHH_1, 46% of expressing embryos SHH_6, 83% of expressing embryos [Figures 5D and 6L]). All four elements also prominently direct GFP expression to the CNS (SHH_1, 64% of expressing embryos SHH_2, 42% SHH_4, 57% and SHH_6, 48% [Figures 5D, 6M, and 6N]).

The SHH signalling molecule is crucial for a number of developmental processes, and is extensively implicated in disease (reviewed in [61]). In zebrafish, shh and its co-orthologue twhh are both expressed predominantly in midline structures, i.e., floorplate and notochord. Later expression domains include the branchial arches, pectoral fin buds, and the retina [62,63]. GFP expression directed by SHH-associated elements and shh/twhh expression overlap in the floorplate however, most of the other domains of GFP expression (e.g., muscle and blood islands Figure 6O) are not reflected by endogenous expression of hedgehog genes.


New functions for 'junk' DNA?

DNA is the molecule that encodes the genetic instructions enabling a cell to produce the thousands of proteins it typically needs. The linear sequence of the A, T, C, and G bases in what is called coding DNA determines the particular protein that a short segment of DNA, known as a gene, will encode. But in many organisms, there is much more DNA in a cell than is needed to code for all the necessary proteins. This non-coding DNA was often referred to as "junk" DNA because it seemed unnecessary. But in retrospect, we did not yet understand the function of these seemingly unnecessary DNA sequences.

We now know that non-coding DNA can have important functions other than encoding proteins. Many non-coding sequences produce RNA molecules that regulate gene expression by turning them on and off. Others contain enhancer or inhibitory elements. Recent work by the international ENCODE (Encyclopedia of DNA Elements) Project suggested that a large percentage of non-coding DNA, which makes up an estimated 95% of the human genome, has a function in gene regulation. Thus, it is premature to say that "junk" DNA does not have a function -- we just need to find out what it is!

To help understand the importance of this large amount of non-coding DNA in plants, Diane Burgess and Michael Freeling at the University of California, Berkeley have identified numerous conserved non-coding sequences (CNSs) of DNA that are found in a wide variety of plant species, including rice, banana, and cacao. DNA sequences that are highly conserved, meaning that they are identical or nearly so in a variety of organisms, are likely to have important functions in basic biological processes. For example, the gene encoding ribosomal RNA, an essential part of the protein-synthesizing machinery needed by cells of all organisms, is highly conserved. Changes in the sequence of this key molecule are poorly tolerated, so ribosomal RNA sequences have changed relatively little over millions of years of evolution.

To identify the most highly conserved plant CNSs, Burgess and Freeling compared the genome (one copy of all the DNA in an organism) of the model plant Arabidopsis, a member of the mustard family, with the genome of columbine, a distantly related plant of the buttercup family. The phylogenetic tree (see figure) shows the evolutionary relationships among the dicot (yellow) and monocot (blue) species they studied. Branch points represent points of divergence of two species from a common ancestor. Sequences in common between these two plants, which diverged over 130 million years ago, are likely to have important functions or they would have been lost due to random mutations or insertions or deletions.

They found over 200 CNSs in common between these distantly related species. In addition, 59 of these CNSs were also found in monocots, which are even more distant evolutionarily, and these were termed deep CNSs. Finally, they showed that 51 of these appear to be found in all flowering plants, based on their occurrence in Amborella, a flowering plant that diverged from all of the above plants even before the monocot-dicot split (see figure).

So what could be the function of these deep CNSs? We can get clues by analyzing the types of genes with which these CNSs are associated. The researchers found that nearly all of the deep CNSs are associated with genes involved in basic and universal biological processes in flowering plants -- processes such as development, response to hormones, and regulation of gene expression. They found that the majority of these CNSs are associated with genes involved in tissue and organ development, post-embryonic differentiation, flowering, and production of reproductive structures. Others are associated with hormone- and salt-responsive genes or with genes encoding transcription factors, which are regulatory proteins that control gene expression by turning other genes on and off.

In addition, they showed that these CNSs are enriched for binding sites for transcription factors, and propose that the function of some of this non-coding DNA is to act as a scaffold for organization of the gene expression machinery. The binding sites they found are known sequences implicated in other plants as necessary for response to biotic and abiotic stress, light, and hormones. Furthermore, they discovered that a number of the CNSs could produce RNAs that have extensive double-stranded regions. These double-stranded regions have been shown to be involved in RNA stability, degradation, and in regulation of gene expression. Twelve of the most 59 highly conserved CNSs are associated with genes whose protein products interact with RNA. Clearly, these DNA sequences are not merely "junk!"

Now that Burgess and Freeling have identified the most highly conserved non-coding DNA sequences in flowering plants, future scientists have a better idea of which regions of the genome to focus on for functional studies. Do the predicted transcription factor-binding sites actually bind known or novel transcription factors? Do CNSs organize or regulate the gene expression machinery? Do CNSs encode RNAs that regulate fundamental processes in plants? The answers to these and many related questions will be easier to answer now that we have this set of deep CNSs that are likely to play important roles in basic cellular processes in plants.