Bilgi

Neden birey başına mutasyon sayısı Poisson dağılımını takip ediyor?

Neden birey başına mutasyon sayısı Poisson dağılımını takip ediyor?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Bu incelemeyi okuyordum. 11. sayfada, sol sütunda, ilk paragrafta şunlar okunabilir:

[… ] uygunluk etkileri çarpımsal ise, birey başına denge mutasyon sayısının bir Poisson dağılımı vardır.

daha fazla açıklama olmadan. Başka bir deyişle, $X$ değişkeninin bir bireyde bulunan (zararlı) mutasyonların sayısı olmasına izin verin (mutasyonun ebeveyn gonadlarında mı meydana geldiğine veya soyda daha eski olup olmadığına bakılmaksızın). $X$ değişkeni Poisson dağıtılır.

Bu ifade neden doğrudur? Sanırım ifade, tüm mutasyonların uygunluk üzerinde aynı etkiye sahip olduğunu da varsayıyor, bu doğru mu?


Bir Poisson süreci şu varsayımları takip eder:

  1. $limlimits_{h o0+}frac{P(N_h=1)}h=lambda$
    yani, çok küçük bir zaman aralığında bir olayın meydana gelme olasılığı, makroskopik hıza veya yoğunluğa ($lambda,$) eşittir.
  2. $P(N_hgeqslant2)=o(h)$
    yani sonsuz küçük bir aralıkta birden fazla olayın meydana gelme olasılığı esasen sıfırdır.
  3. Olaylar bağımsızdır.

Tek bir bireyi düşünürseniz (basitlik için tek bir hücre varsayalım), o zaman DNA belirli bir oranda (tüm lokuslar için tek tip olduğunu varsaydığımız) mutasyonlara uğrayacaktır. Şimdi her mutasyon olayı bir önceki olaydan bağımsızdır ve çok küçük bir zaman aralığında iki veya daha fazla mutasyon olasılığı ihmal edilebilir. Tüm bu gerçekler ve varsayımlar dikkate alındığında, tek bir hücredeki mutasyonun bir Poisson süreci gibi davranacağı söylenebilir.

Poisson varsayımlarından, belirli bir zaman aralığında $k$ olay sayısının olasılığını tanımlayan Poisson dağılımı için ifadeyi türetebilirsiniz, $t$. Bu nedenle, sabit bir zaman penceresi ($t,$) için bir bireydeki mutasyonların sayısı bir Poisson dağılımını takip eder.

$$P(N=k)=frac{(lambda t)^k e^{-lambda t}}{k!}$$

Poisson dağılımının türetilmesini birçok kaynaktaki postülalardan bulabilirsiniz. Bu kitaba atıfta bulundum:

Hogg, Robert V. ve Allen T. Craig. Matematiksel istatistiklere giriş. New York: Macmillan, 1978.

DÜZENLE

Zararlı mutasyonların etkisi, bağlantılı makalenin belirtilen bölümünde, zararlı mutasyonların birikimini ve bunun popülasyon üzerindeki etkisini (yani neslinin tükenmesini) açıklayan Muller'ın mandalından bahseder. Herhangi bir mutasyon olayı gibi, zararlı mutasyonların birikimi de Poisson dağılımını takip edecektir. Muller'ın çarkı, tolerans sınırının ötesinde, zararlı mutasyonların aseksüel olarak üreyen organizmaların neslinin tükenmesine neden olacağını söylüyor. Belki her zararlı mutasyonun uygunluk üzerinde güçlü bir etkisi varsa, o zaman popülasyondan örnekleme Poissonian olmayan tahminlere yol açabilir.


Çünkü ortalama ve varyansın eşit olması Poisson dağılımının fonksiyonel formunun bir sonucudur. Bu koşul karşılanmazsa, model yetersizdir ve negatif binom regresyon (buna aşırı dağılım denir) gibi alternatifler düşünülebilir. Görmek:

Bunu görmek için, belirli bir yol karakteristiği için çarpışma sayısını ele alalım. Diyelim ki bu sayı ortalama $mu$ olan bir Poisson dağılımını takip ediyor. Bu ortalama, sürülen belirli bir km sayısı içindir, bu nedenle, $lambda$ oranını, diyelim ki km başına 1 çarpışma ve toplam sürülen km sayısını $T$ olarak tanımlayalım. Poisson dağılımının bir varsayımı, gidilen toplam mesafe boyunca hızın sabit kalmasıdır, sonuç olarak $mu=T imes lambda.$

Gidilen km sayısını $h$ büyüklüğünde küçük $N$ kısa aralıklarla böleriz, o kadar kısadır ki her alt aralık en fazla bir kaza içerir. Şimdi, bu küçücük aralıkta bir çarpma görme olasılığınız yazı tura atmak gibidir. Bu olasılığı $p$ olarak göstereceğiz. Bu bir Bernoulli dağılımı olarak bilinir ve varyansın $p imes (1 - p)$ olduğunu kabul edeceğiz. Öte yandan, daha önce $lambda$ oranının sabit olduğunu öğrenmiştik, bu nedenle bu alt aralıkta $lambda imes h$ olayını görmeyi bekliyoruz, yani $p=lambda imes h$.

Şimdi, bu küçük alt aralıkta bir çarpışma görme olasılığının son derece düşük olduğunu varsayarsak, o zaman $1 - p$ 1'e yaklaşır (örneğin, $h= ext<1meter>$ düşünün). Daha önce Bernoulli dağılımının varyansının $p imes (1-p)$ olduğunu ve $p$ aşırı derecede düşükse, o zaman $p imes (1-p) simeq p=lambda imes h.$ olduğunu öğrenmiştik. Bu oldukça ilginç çünkü az önce hem ortalamanın hem de varyansın bu küçük alt aralıkta $lambda imes h$'a eşit olduğunu gösterdik.

Bu yaklaşımı $n$ ardışık aralıklara genişletirseniz (paraları $n$ kez çevirmek gibi), binom dağılımı denen bir şey elde edersiniz ve bu durumda, ortalama $np$ ve varyans $np(1-p) olur. )simeq np$ $p$ küçük olduğunda. Konuya gelmek için, son derece düşük $p$ ile $h$ boyutundaki $N$ ardışık aralıklar için, ortalama ve varyans eşittir.

Şimdi, pratikte, gözlemsel çalışmalarda genellikle durum böyle değildir. Bunun nedeni, çalışmada heterojenlik için tüm faktörleri hesaba katmamamızdır. Örneğin, ortalama kaza sayısı gündüz ve gece saatlerinde farklılık gösterebilir. Ancak, farklı faktörleri hesaba katmadan her ikisini de toplarsak, marjinal varyans beklediğimizden daha büyük olabilir. Buna aşırı dağılım denir.


5 Cevap 5

Wiki ile olabildiğince tutarlı olması için aşağıdaki gösterimi kullanacağım (cevabım ile zehir ve üstel için wiki tanımları arasında ileri geri gitmek istemeniz durumunda).

$N_t$: $t$ dönemindeki varış sayısı

$X_t$: Birinin zamanında geldiği varsayıldığında, bir ek varış için geçen süre $t$

Tanım olarak, aşağıdaki koşullar eşdeğerdir:

Soldaki olay, $[t,t+x]$ zaman aralığında kimsenin gelmediği olayı yakalar, bu da $t+x$ zamanındaki varış sayımızın o andaki sayıyla aynı olduğu anlamına gelir. $t$ sağdaki olaydır.

Tamamlayıcı kuralına göre ayrıca:

Yukarıda tanımladığımız iki olayın denkliğini kullanarak yukarıdakileri şu şekilde yeniden yazabiliriz:

$P(X_t le x) = 1 - P(N_ - N_t = 0)$

$lambda$'ın zaman birimi başına ortalama varış sayısı ve $x$'ın bir zaman birimi miktarı olduğu yukarıdaki poisson pmf'yi kullanarak şunları basitleştirir:

Orijinal denklemimizde değiştirerek, elimizde:

Yukarıdaki, üstel bir pdf'nin cdf'sidir.

Bir Poisson süreci için, isabetler geçmişten bağımsız olarak rastgele meydana gelir, ancak zaman birimi başına bilinen uzun vadeli ortalama isabet oranı $lambda$ ile. Poisson dağılımı, belirli sayıda isabet alma olasılığını bulmamıza izin verir.

Şimdi, isabet sayısına bakmak yerine, ilk isabet için beklemeniz gereken süre olan $L$ (Ömür Boyu için) rastgele değişkenine bakıyoruz.

Bekleme süresinin belirli bir zaman değerinden fazla olma olasılığı $P(L gt t) = P( ext)=frac><0!>=e^<-lambda t>$ (Poisson dağılımına göre, burada $Lambda = lambda t$ ).

$P(L le t) = 1 - e^<-lambda t>$ (kümülatif dağılım işlevi). Bunun türevini alarak yoğunluk fonksiyonunu elde edebiliriz:

Bunun gibi bir yoğunluk fonksiyonuna sahip herhangi bir rastgele değişkenin üstel olarak dağıtıldığı söylenir.

Diğer cevaplar matematiği açıklamak için iyi bir iş çıkarır. Fiziksel bir örneği ele almanın yardımcı olduğunu düşünüyorum. Bir Poisson sürecini düşündüğümde, her zaman bir yoldan geçen arabalar fikrine geri dönerim. Lambda, birim zamanda geçen ortalama araba sayısıdır, diyelim ki 60/saat (lambda = 60). Bununla birlikte, gerçek sayının değişeceğini biliyoruz - bazı günler daha fazla, bazı günler daha az. Poisson Dağılımı bu değişkenliği modellememizi sağlar.

Şimdi, saatte ortalama 60 araba, her dakika ortalama 1 araba geçiyor. Yine de, varışlar arasındaki sürede değişkenlik olacağını biliyoruz: Bazen 1 dakikadan fazla, bazen daha az. Üstel Dağılım, bu değişkenliği modellememizi sağlar.

Bütün bunlar söylendiği gibi, yoldan geçen arabalar her zaman bir Poisson Sürecini takip etmeyecektir. Örneğin, hemen köşede bir trafik sinyali varsa, örneğin, gelenler sabit yerine kümelenecektir. Açık bir otoyolda, yavaş bir çekici-römork uzun bir araba kuyruğunu tutabilir ve bu da yine kümelenmeye neden olabilir. Bu durumlarda, Poisson Dağılımı daha uzun zaman periyotları için hala iyi çalışabilir, ancak üstel, varış zamanlarını modellemede kötü bir şekilde başarısız olacaktır.

Ayrıca günün saatine bağlı olarak büyük bir değişkenlik olduğunu da unutmayın: işe gidiş geliş saatlerinde daha yoğun, sabah 3'te çok daha yavaş. Lambda'nızın, düşündüğünüz belirli zaman dilimini yansıttığından emin olun.


Yöntemler

Model

Sonlu, kesinlikle aseksüel haploid bir popülasyon olduğunu düşünüyoruz (sabit popülasyon büyüklüğü ile n) her biri 10 alt popülasyondan oluşur. N/10 birey ve farklı bir mutasyon oranı, diğer her şey eşit. Yöntemin mantığı, bu alt popülasyonların doğal seleksiyon ve rastgele sürüklenme altında var olmak için rekabet etmesidir. Bir simülasyonun sonunda, yalnızca bir alt popülasyon kalır ve geri kalanların nesli tükenir. Kalan popülasyonun mutasyon oranı, o yarışmada "sabit" mutasyon oranı olur. Süreci birçok kez simüle ederek en sık sabitlenen mutasyon oranını "optimum" mutasyon oranı olarak tanımlayabiliriz.

On alt popülasyonun her biri, nesil başına genom başına farklı bir mutasyon oranı ile atanır (parametrelere bakın). Hem zararlı hem de faydalı mutasyonlar, her bir alt popülasyonda, aşağıdakilerle temsil edilen faydalı ve zararlı mutasyonlar için fraksiyonlarla meydana gelir. P B ve P NS (yani 1- P B ), sırasıyla. Hem faydalı hem de zararlı mutasyonların etkileri (seçim katsayıları) sürekli olasılık dağılımlarından elde edilir. biz s B faydalı mutasyonların etkileri olarak (bu durumda uygunluk w 1+ kat artırılır s B ), süre s NS zararlı mutasyonların etkilerini temsil eder (bu durumda uygunluk w 1 faktörü ile azaltılır s NS )[21].

varsayıyoruz ki s B üstel bir dağılım izler: f ( s b , λ ) = λ e − λ s b, dağılımın ortalama değeri olarak 1/λ. Bu varsayım, uç değer teorisinden iyi bir teorik desteğe sahiptir ve popülasyon genetiği modellerinde yaygın olarak kullanılmaktadır [22-24]. Zararlı mutasyonların etkileri karmaşık olabilir ve bunların dağılımı hakkında henüz genel bir varsayım mevcut değildir. s NS ancak analitik hesaplamalarda deneysel çalışmalar, şekil parametresi birden küçük olan bir gama dağılımını destekler (diğer dağılımlar mutlaka hariç tutulmaz)[25, 26]. Bu çalışmada, varsayıyoruz ki s NS çarpık bir gama dağılımı izler f ( s d , α , β ) = s d α − 1 e − s d / β / ( β α Γ ( α ) ) (α≤1). Simülasyonlarımızda kullanılan gama dağılımı, negatif bir uygunluk üretmekten kaçınmak için gerekli olan 1.0 değeri ile kesilir. Ek olarak, faydalı mutasyonların ( s b ¯ ) ortalama etkilerinin, çoğu durumda makul görünen, zararlı mutasyonların ( s d ¯ ) ortalama etkilerinden çok daha küçük olduğunu varsayıyoruz [27, 28].

Parametreler

Simülasyonlarımızda, kesirlerin boyutları ve hem faydalı hem de zararlı mutasyonların etkileri en önemli nicel parametrelerdir. Mikroplar üzerinde çok sayıda deneysel çalışma bu alana biraz ışık tutmuştur ve bu parametrelere ilişkin bazı tahminler Tablo 1[29–35]'te özetlenmiştir. Bu veriler, simülasyonlarda kullanılan parametrelerin mevcut en iyi varsayımlarını sağlar. Mutasyon etkilerinin dağılımına ve benimsediğimiz mutasyonların neden olduğu karşılık gelen uygunluk varyasyonuna bir örnek Şekil 1'de gösterilmiştir. Simülasyonlarda yer alan diğer bir temel parametre, başlangıçta on alt popülasyona atanan mutasyon oranlarıdır. Ve mutasyon oranlarının logaritmik formu (lg(sen) -4 ile -1 arasında kabaca eşit olarak dağılmıştır. Ek olarak, bu ilk aralığın optimum mutasyon oranını etkileyip etkilemediğini görmek için Tablo 2'de gösterilen farklı mutasyon oranlarından oluşan birkaç aralık benimseriz.

Mutasyon etkilerinin dağılımına bir örnek. (A) Zararlı mutasyonların etkileri, bir gama dağılımını takip eder. α = 0.6 (şekil parametresi), β = 0,5 (ölçek parametresi) ve ortalama etkiler s ¯ d = 0,3'tür. (B) Yararlı mutasyonların etkileri, üstel bir dağılımı takip eder. λ = 100 ve ortalama etkiler s ¯ b = 0.01'dir. (C) Uygunluk değişikliklerinin hem zararlı hem de faydalı mutasyonlarla dağılımı P NS = %97 ve P B = 3%.

Sayısal Simülasyonlar

Çalışma boyunca, nesillerin ayrık olduğunu ve örtüşmediğini varsayıyoruz. Her nesilde, yeni mutasyonların sayısı (m) ait bir bireyde görünen ben alt popülasyon bir Poisson dağılımından çizilir p ( m , U i ) = U i m e - U ben i / m ! , nerede sen ben genom mutasyon oranıdır ben alt popülasyon. Zararlı mutasyon oranı daha sonra ile verilir sen ben ×P NS ve faydalı mutasyon oranı sen ben ×P B . Zararlı (veya faydalı) bir mutasyonun meydana geldiği göz önüne alındığında, uygunluk w Bireyin sayısı 1 oranında azalır (veya artar) s NS (veya 1+ s B ), nerede s NS (veya s B ) bir gama (veya üstel) dağılımından rastgele çekilir. Burada epistasisin oluşmadığını varsayıyoruz, bu nedenle tüm mutasyonlar uygunluk üzerinde bağımsız etkilere sahiptir ve çoğaltıcı olarak hareket eder. Bir bireyin tek bir nesil içinde birden fazla mutasyon taşıması mümkündür. Bu durumda, bir bireyin uygunluk durumu n'inci nesil (w n ) bireyin taşıdığı mutasyon sayılarının bir fonksiyonudur (m), mutasyon etkileri (s J ) ve ebeveyninin (n-1)-NS nesil (w n-1 ). Bu fonksiyon şu şekilde tanımlanabilir:

Yavrular, ilgili ebeveynlerinin uygunluğuna göre ağırlıklandırılan çok terimli bir dağılıma göre tekrar ile örneklenir. Her yavruyu, kendi özel alt popülasyonu için benzersiz bir tanımlayıcıyla etiketliyoruz.

Her bir alt popülasyonun birey sayısını, bir alt popülasyonun popülasyon büyüklüğüne ulaşana kadar izleriz. n ve diğer alt popülasyonların boyutları sıfır olur. Bu noktada işlem durdurulur ve kalan alt popülasyonun karşılık gelen mutasyon oranı kaydedilir. Ayrıca, bir yarışmanın kaç nesil aldığı da izlenir. Bunların rekabet sonuçlarını nasıl ve ne ölçüde etkilediğini değerlendirmek için hem popülasyon boyutunu hem de mutasyon etkilerini değiştiren simülasyonlar yürütüyoruz (bkz. Sonuçlar). Popülasyonun bazı başlangıç ​​koşulları da yöntemin sağlamlığını test etmek için gevşetilir (bkz. Tartışma).


İçindekiler

Olasılık kütle fonksiyonu Düzenle

Kesikli bir rastgele değişken X'in, λ > 0 parametresi ile bir Poisson dağılımına sahip olduğu söylenir, eğer aşağıdaki şekilde verilen bir olasılık kütle fonksiyonuna sahipse: [2] : 60

Pozitif gerçek sayı λ, X'in beklenen değerine ve ayrıca varyansına eşittir [3]

Poisson dağılımı, her biri nadir olan çok sayıda olası olaya sahip sistemlere uygulanabilir. Sabit bir zaman aralığında meydana gelen bu tür olayların sayısı, doğru koşullar altında, Poisson dağılımına sahip rastgele bir sayıdır.

Örnek Düzenleme

Poisson dağılımı, aşağıdaki gibi olayları modellemek için yararlı olabilir.

  • Bir yılda Dünya'ya çarpan 1 metreden büyük meteorların sayısı
  • Acil servise 22.00 ile 23.00 arasında gelen hasta sayısı
  • Belirli bir zaman aralığında bir dedektöre çarpan lazer fotonlarının sayısı

Varsayımlar ve geçerlilik

Aşağıdaki varsayımlar doğruysa Poisson dağılımı uygun bir modeldir: [4]

  • k, bir olayın bir aralıkta meydana gelme sayısıdır ve k 0, 1, 2, değerlerini alabilir.
  • Bir olayın meydana gelmesi, ikinci bir olayın meydana gelme olasılığını etkilemez. Yani olaylar bağımsız olarak gerçekleşir.
  • Olayların meydana geldiği ortalama hız, herhangi bir olaydan bağımsızdır. Basitlik için, bunun genellikle sabit olduğu varsayılır, ancak pratikte zamanla değişebilir.
  • Bunun yerine tam olarak aynı anda iki olay gerçekleşemez, her çok küçük alt aralıkta tam olarak bir olay meydana gelir veya gerçekleşmez.

Bu koşullar doğruysa, k bir Poisson rastgele değişkenidir ve k'nin dağılımı bir Poisson dağılımıdır.

Poisson dağılımı aynı zamanda, deneme sayısı sonsuza yaklaştığından, her deneme için başarı olasılığının λ bölü deneme sayısına eşit olduğu bir binom dağılımının sınırıdır (bkz. İlgili dağılımlar).

Poisson dağılımları için olasılık örnekleri

Belirli bir nehirde, ortalama olarak her 100 yılda bir taşma taşkınları meydana gelir. Poisson modelinin uygun olduğunu varsayarak, 100 yıllık bir aralıkta k = 0, 1, 2, 3, 4, 5 veya 6 taşma taşkın olasılığını hesaplayın.

Ortalama olay oranı 100 yılda bir taşma olduğundan, λ = 1

100 yıllık bir süre içinde 0 ila 6 taşma sel olasılığı.

Ugarte ve meslektaşları, bir Dünya Kupası futbol maçındaki ortalama gol sayısının yaklaşık 2,5 olduğunu ve Poisson modelinin uygun olduğunu bildiriyor. [5] Ortalama olay oranı maç başına 2,5 gol olduğu için, λ = 2.5.

Bir maçta 0-7 gol olasılığı.

Aralıklı olaylar: Özel durum λ = 1 ve k = 0 Düzenle

Gökbilimcilerin, büyük göktaşlarının (belirli bir boyutun üzerinde) ortalama olarak her 100 yılda bir dünyaya çarptığını tahmin ettiğini varsayalım (λ = 100 yılda 1 olay) ve göktaşı isabetlerinin sayısının bir Poisson dağılımını takip etmesi. Önümüzdeki 100 yıl içinde k = 0 göktaşı çarpma olasılığı nedir?

Bu varsayımlar altında, önümüzdeki 100 yıl içinde dünyaya büyük göktaşlarının çarpmama olasılığı kabaca 0.37'dir. Kalan 1 - 0.37 = 0.63, önümüzdeki 100 yıl içinde 1, 2, 3 veya daha fazla büyük göktaşı çarpması olasılığıdır. Yukarıdaki bir örnekte, her 100 yılda bir taşma meydana geldi (λ = 1). Aynı hesaplamaya göre, 100 yıl içinde taşkın olmama olasılığı kabaca 0.37 idi.

Genel olarak, bir olay aralık başına ortalama bir kez meydana gelirse (λ = 1), ve olaylar bir Poisson dağılımını takip eder, ardından P(sonraki aralıkta 0 olay) = 0.37 . Ek olarak, P(sonraki aralıkta tam olarak bir olay) = 0.37, taşma taşkınları için tabloda gösterildiği gibi.

Poisson varsayımlarını ihlal eden örnekler

Dakikada öğrenci birliğine gelen öğrenci sayısı muhtemelen bir Poisson dağılımını takip etmeyecektir, çünkü oran sabit değildir (ders saati boyunca düşük oran, ders saatleri arasında yüksek oran) ve bireysel öğrencilerin gelişi bağımsız değildir (öğrenciler gruplar halinde gelme eğilimindedir).

Büyük bir deprem benzer büyüklükte artçı şok olasılığını artırırsa, bir ülkede yılda 5 büyüklüğündeki deprem sayısı bir Poisson dağılımını takip etmeyebilir.

En az bir olayın garanti edildiği örnekler Poission dağılımı değildir, ancak Zero-truncated Poisson dağılımı kullanılarak modellenebilir.

Sıfır olaylı aralıkların sayısının bir Poisson modeli tarafından tahmin edilenden daha yüksek olduğu sayı dağılımları, Sıfır şişirilmiş bir model kullanılarak modellenebilir.

Tanımlayıcı istatistikler Düzenle

  • Poisson tarafından dağıtılan bir rastgele değişkenin beklenen değeri ve varyansı λ'ya eşittir.
  • Varyasyon katsayısı λ − 1 / 2 > iken dağılım indeksi 1'dir [6] : 163
  • Ortalama hakkında ortalama mutlak sapma [6] : 163
  • Tamsayı olmayan λ ile Poisson dağıtılmış bir rastgele değişkenin modu, en büyük tamsayı olan ⌊ λ ⌋ 'a eşittir. λ. Bu aynı zamanda kat(λ) olarak da yazılır. λ pozitif bir tam sayı olduğunda, modlar λ ve λ − 1.
  • Poisson dağılımının tüm birikimleri beklenen değere eşittir λ. NS nPoisson dağılımının faktöriyel momenti λn .
  • Bir Poisson sürecinin beklenen değeri bazen aşağıdaki ürünün ürününe ayrıştırılır. yoğunluk ve teşhir (veya daha genel olarak, zaman veya uzayda bir "yoğunluk fonksiyonunun" integrali olarak ifade edilir, bazen "maruz kalma" olarak tanımlanır). [7]

Medyan Düzenleme

Daha yüksek anlar

Poisson tarafından dağıtılan rastgele değişkenlerin toplamları

Diğer özellikler Düzenle

  • Poisson dağılımları sonsuz bölünebilir olasılık dağılımlarıdır. [14] : 233 [6] : 164
  • Pois ⁡ ( λ 0 ) (lambda _<0>)> Pois'ten ⁡ ( λ ) (lambda )> tarafından verilir
  • Bir Poisson rastgele değişkeninin kuyruk olasılıkları için sınırlar X ∼ Pois ⁡ ( λ ) (lambda )> bir Chernoff bağlı argümanı kullanılarak türetilebilir. [15] : 97-98
  • Üst kuyruk olasılığı (en az iki kat) aşağıdaki gibi daraltılabilir: [16]
  • Bir Poisson rasgele değişken X ∼ Pois ⁡ ( λ ) (lambda )> Standart normal dağılım işlevine Φ ( x ) aşağıdaki gibidir: [16]

Poisson yarışları Düzenle

Üst sınır, standart bir Chernoff sınırı kullanılarak kanıtlanmıştır.

Genel Düzenleme

  • Eğer X 1 ∼ P o s ( λ 1 ) sim mathrm (lambda _<1>),> ve X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda _<2>),> bağımsızdır, o zaman Y = X 1 − X 2 -X_<2>> farkı bir Skellam dağılımını izler.
  • Eğer X 1 ∼ P o s ( λ 1 ) sim mathrm (lambda _<1>),> ve X 2 ∼ P o i s ( λ 2 ) sim mathrm (lambda _<2>),> bağımsızsa, X 1 + X 2 +X_<2>> koşuluna bağlı X 1 > dağılımı bir Binom dağılımı.
  • Eğer X ∼ P o s ( λ ) (lambda ),> ve Y dağılımı, koşullu x = k, bir binom dağılımıdır, Y ∣ ( X = k ) ∼ B ben n o m ( k , p ) (k,p)> , sonra Y'nin dağılımı bir Poisson dağılımını izler Y ∼ P o i s ( λ ⋅ p ) (lambda cdot p),> . Aslında, eğer < Y ben >>> , X = k koşuluna bağlı, bir çok terimli dağılımı izler, < Y ben >∣ ( X = k ) ∼ M u l t i n o m ( k , p i ) >mid (X=k)sim mathrm sol(k,p_ ight)> , ardından her Y i > bağımsız bir Poisson dağılımını izler Y ben ∼ P o s ( λ ⋅ p ben ) , ρ ( Y ben , Y j ) = 0 sim mathrm (lambda cdot p_), ho (Y_,Y_)=0> .
  • Poisson dağılımı, deneme sayısı sonsuza gittiğinden ve beklenen başarı sayısı sabit kaldığından, binom dağılımını sınırlayan bir durum olarak türetilebilir - aşağıdaki nadir olaylar yasasına bakın. Bu nedenle, eğer varsa binom dağılımının bir yaklaşımı olarak kullanılabilir. n yeterince büyük ve P yeterince küçüktür. n en az 20 ise ve Poisson dağılımının binom dağılımına iyi bir yaklaşım olduğunu belirten bir genel kural vardır ve P 0,05'ten küçük veya 0,05'e eşit ve mükemmel bir yaklaşım n ≥ 100 ve np ≤ 10. [18]
  • Poisson dağılımı, yalnızca bir parametre ile ayrık bileşik Poisson dağılımının (veya kekemelik Poisson dağılımının) özel bir durumudur. [19][20] Ayrık bileşik Poisson dağılımı, tek değişkenli çok terimli dağılımın sınırlayıcı dağılımından çıkarılabilir. Aynı zamanda bileşik Poisson dağılımının özel bir durumudur.
  • Yeterince büyük λ değerleri için (örneğin λ>1000), ortalama λ ve varyans λ (standart sapma λ >> ) olan normal dağılım, Poisson dağılımına mükemmel bir yaklaşımdır. λ yaklaşık 10'dan büyükse, uygun bir süreklilik düzeltmesi yapılırsa, yani P( ise, normal dağılım iyi bir yaklaşımdır.xx), nerede x negatif olmayan bir tamsayıdır, yerine P(xx + 0.5).
    : Eğer X ∼ P o s ( λ ) (lambda ),> , ardından
  • eğer her biri için T > 0 zaman aralığındaki varış sayısı [0, T] ortalama ile Poisson dağılımını takip eder λt, o zaman varışlar arası sürelerin sırası bağımsızdır ve ortalama 1/λ. [23] : 317–319
  • Poisson ve ki-kare dağılımlarının kümülatif dağılım fonksiyonları aşağıdaki şekillerde ilişkilidir: [6] : 167

Poisson Yaklaşımı Düzenle

İki değişkenli Poisson dağılımı Düzenle

Bu dağılım iki değişkenli duruma genişletildi. [25] Bu dağıtım için üretici fonksiyon

Marjinal dağılımlar Poisson(θ1) ve Poisson(θ2) ve korelasyon katsayısı aralıkla sınırlıdır

Ücretsiz Poisson dağılımı Düzenle

Bu tanım, klasik Poisson dağılımının (klasik) bir Poisson sürecinden elde edildiği yollardan birine benzer.

Serbest Poisson yasası ile ilgili ölçü [27] tarafından verilmektedir.

Bu yasanın bazı dönüşümleri

Hesaplamanın bulunabileceği serbest Poisson yasasının bazı önemli dönüşümlerinin değerlerini veriyoruz; kitapta Serbest Olasılığın Kombinatoriği Üzerine Dersler A. Nica ve R. Speicher tarafından [28]

Serbest Poisson yasasının R-dönüşümü şu şekilde verilir:

(Stieltjes dönüşümünün negatifi olan) Cauchy dönüşümü şu şekilde verilir:

Parametre tahmini Düzenle

Her gözlemin beklentisi λ olduğundan, örnek ortalama da öyle. Bu nedenle, maksimum olabilirlik tahmini, λ'nın yansız bir tahmincisidir. Varyansı Cramér-Rao alt sınırına (CRLB) ulaştığı için aynı zamanda etkin bir tahmin edicidir. [ kaynak belirtilmeli ] Bu nedenle, minimum varyans yansızdır. Ayrıca toplamın (ve dolayısıyla toplamın bire-bir fonksiyonu olduğu için örnek ortalamanın) λ için tam ve yeterli bir istatistik olduğu kanıtlanabilir.

Poisson popülasyonu için olasılık fonksiyonunu maksimize eden λ parametresini bulmak için olabilirlik fonksiyonunun logaritmasını kullanabiliriz:

için çözme λ durağan bir nokta verir.

Yani λ ortalamasıdır kben değerler. ikinci türevinin işaretinin elde edilmesi L durağan noktada ne tür bir aşırı değer belirleyecektir. λ NS.

İkinci türevin değerlendirilmesi hareketsiz noktada verir:

hangisinin olumsuzu n k'nin ortalamasının tersinin çarpımıben. Ortalama pozitif olduğunda bu ifade negatiftir. Bu sağlanırsa, durağan nokta olasılık fonksiyonunu maksimize eder.

Güven aralığı Düzenle

Bir Poisson dağılımının ortalaması için güven aralığı, Poisson ve ki-kare dağılımlarının kümülatif dağılım fonksiyonları arasındaki ilişki kullanılarak ifade edilebilir. Ki-kare dağılımının kendisi gama dağılımı ile yakından ilişkilidir ve bu alternatif bir ifadeye yol açar. bir gözlem verildi k ortalama ile bir Poisson dağılımından μiçin bir güven aralığı μ güven düzeyi 1 ile – α

burada χ 2 ( p n ) (pn)> nicel fonksiyondur (alt kuyruk alanına karşılık gelir) P) ile ki-kare dağılımının n serbestlik derecesi ve F − 1 ( pn , 1 ) (pn,1)> şekil parametresi n ve ölçek parametresi 1 olan bir gama dağılımının niceliksel işlevidir. [6] : 176- 178 [30] Bu aralık, kapsama olasılığının asla nominal 1 – α'dan daha az olmaması anlamında 'kesin'dir.

Gama dağılımının nicelikleri mevcut olmadığında, bu kesin aralığa doğru bir yaklaşım önerilmiştir (Wilson-Hilferty dönüşümüne dayanarak): [31]

Bu formüllerin yukarıdakiyle aynı bağlamda uygulanması için (bir örnek verilmiştir). n ölçülmüş değerler kben her biri ortalama ile bir Poisson dağılımından çizilir λ), bir

için bir aralık hesaplamak μ = , ve sonra aralığı türet λ.

Bayes çıkarımı

Bayes çıkarımında, hız parametresinden önceki eşlenik λ Poisson dağılımının gama dağılımıdır. [32] İzin ver

belirtmek λ gama yoğunluğuna göre dağıtılır G bir şekil parametresi cinsinden parametreleştirilmiş α ve bir ters ölçek parametresi β:

Daha sonra, aynı örnek verilen n ölçülmüş değerler kben daha önce olduğu gibi ve Gama'nın bir önceliği(α, β), sonsal dağılımdır

Tek bir ek gözlem için posterior öngörücü dağılım negatif bir binom dağılımıdır, [33] : 53 bazen gama-Poisson dağılımı olarak adlandırılır.

Birden fazla Poisson'un eş zamanlı tahmini Düzenleme

Poisson dağılımının uygulamaları aşağıdakiler dahil birçok alanda bulunabilir: [36]

    örnek: bir sisteme gelen telefon aramaları. örnek: teleskopa gelen fotonlar. örnek: canlı bir polimerizasyonun molar kütle dağılımı. [37] örnek: birim uzunluk başına bir DNA dizisindeki mutasyonların sayısı. örnek: bir kontuar veya çağrı merkezine gelen müşteriler. örnek: belirli bir zaman diliminde meydana gelen kayıp veya hak taleplerinin sayısı. örnek: büyük depremler için asimptotik bir Poisson sismik risk modeli. [38] örnek: bir radyoaktif numunede belirli bir zaman aralığında bozunma sayısı. örnek: tek bir lazer darbesinde yayılan fotonların sayısı. Bu, Foton Sayı Bölme (PNS) olarak bilinen Kuantum anahtar dağıtım protokollerinin çoğuna yönelik büyük bir güvenlik açığıdır.

Poisson dağılımı, Poisson süreçleriyle bağlantılı olarak ortaya çıkar. Belirli bir zaman periyodunda veya belirli bir alanda 0, 1, 2, 3, . kez meydana gelebilecek çeşitli ayrık özelliklere sahip fenomenler için, fenomenin gerçekleşme olasılığının zaman içinde sabit olduğu veya sabit olduğu durumlarda geçerlidir. Uzay. Poisson dağılımı olarak modellenebilecek olay örnekleri şunları içerir:

  • Prusya süvarilerindeki her bir kolorduda her yıl at tekmeleriyle öldürülen asker sayısı. Bu örnek, Ladislaus Bortkiewicz (1868–1931) tarafından bir kitapta kullanılmıştır. [39] : 23-25
  • Guinness birası hazırlanırken kullanılan maya hücrelerinin sayısı. Bu örnek William Sealy Gosset (1876–1937) tarafından kullanılmıştır. [40][41]
  • Bir çağrı merkezine bir dakika içinde gelen telefon görüşmelerinin sayısı. Bu örnek A.K. Erlang (1878-1929). [42]
  • İnternet trafiği.
  • İki rakip takımın yer aldığı sporlarda gol sayısı. [43]
  • Belirli bir yaş grubundaki yıllık ölüm sayısı.
  • Belirli bir zaman aralığında bir hisse senedi fiyatındaki sıçramaların sayısı.
  • Homojenlik varsayımı altında, bir web sunucusuna dakika başına erişim sayısı.
  • Belirli bir miktarda radyasyondan sonra belirli bir DNA dizisindeki mutasyonların sayısı.
  • Belirli bir enfeksiyon çokluğunda enfekte olacak hücrelerin oranı.
  • Belirli bir sıvı miktarındaki bakteri sayısı. [44]
  • Belirli bir aydınlatmada ve belirli bir zaman periyodunda bir piksel devresine fotonların gelişi.
  • İkinci Dünya Savaşı sırasında V-1 uçan bombaların Londra'yı hedef alması, 1946'da R. D. Clarke tarafından araştırıldı. [45]

Gallagher 1976'da, Hardy-Littlewood'un [47] ispatlanmamış asal r-tüpü varsayımının belirli bir versiyonunun doğru olması koşuluyla, kısa aralıklarla asal sayıların bir Poisson dağılımına [46] uyduğunu gösterdi.

Nadir olaylar yasası

Yukarıdaki örneklerin birçoğunda - belirli bir DNA dizisindeki mutasyonların sayısı gibi - sayılan olaylar aslında ayrı denemelerin sonuçlarıdır ve daha kesin olarak binom dağılımı kullanılarak modellenecektir, yani

Bu gibi durumlarda n çok büyük ve P çok küçük (ve dolayısıyla beklenti np orta büyüklüktedir). Daha sonra dağılım, daha az hantal Poisson dağılımı [ kaynak belirtilmeli ]

Bu yaklaşım bazen olarak bilinir nadir olaylar kanunu, [48] : 5'ten beri n bireysel Bernoulli olayları nadiren meydana gelir. The name may be misleading because the total count of success events in a Poisson process need not be rare if the parameter np is not small. For example, the number of telephone calls to a busy switchboard in one hour follows a Poisson distribution with the events appearing frequent to the operator, but they are rare from the point of view of the average member of the population who is very unlikely to make a call to that switchboard in that hour.

Kelime law is sometimes used as a synonym of probability distribution, and convergence in law anlamına geliyor convergence in distribution. Accordingly, the Poisson distribution is sometimes called the "law of small numbers" because it is the probability distribution of the number of occurrences of an event that happens rarely but has very many opportunities to happen. The Law of Small Numbers is a book by Ladislaus Bortkiewicz about the Poisson distribution, published in 1898. [39] [49]

Poisson point process Edit

The Poisson distribution arises as the number of points of a Poisson point process located in some finite region. More specifically, if NS is some region space, for example Euclidean space r NS , for which |NS|, the area, volume or, more generally, the Lebesgue measure of the region is finite, and if n(NS) denotes the number of points in NS, sonra

Poisson regression and negative binomial regression Edit

Poisson regression and negative binomial regression are useful for analyses where the dependent (response) variable is the count (0, 1, 2, . ) of the number of events or occurrences in an interval.

Other applications in science Edit

The correlation of the mean and standard deviation in counting independent discrete occurrences is useful scientifically. By monitoring how the fluctuations vary with the mean signal, one can estimate the contribution of a single occurrence, even if that contribution is too small to be detected directly. For example, the charge e on an electron can be estimated by correlating the magnitude of an electric current with its shot noise. Eğer n electrons pass a point in a given time T on the average, the mean current is I = e N / t since the current fluctuations should be of the order σ I = e N / t =e>/t> (i.e., the standard deviation of the Poisson process), the charge e can be estimated from the ratio t σ I 2 / I ^<2>/I> . [ kaynak belirtilmeli ]

An everyday example is the graininess that appears as photographs are enlarged the graininess is due to Poisson fluctuations in the number of reduced silver grains, not to the individual grains themselves. By correlating the graininess with the degree of enlargement, one can estimate the contribution of an individual grain (which is otherwise too small to be seen unaided). [ kaynak belirtilmeli ] Many other molecular applications of Poisson noise have been developed, e.g., estimating the number density of receptor molecules in a cell membrane.

In Causal Set theory the discrete elements of spacetime follow a Poisson distribution in the volume.

The Poisson distribution poses two different tasks for dedicated software libraries: Evaluating the distribution P ( k λ ) , and drawing random numbers according to that distribution.

Evaluating the Poisson distribution Edit

f ( k λ ) = exp ⁡ [ k ln ⁡ λ − λ − ln ⁡ Γ ( k + 1 ) ] ,

which is mathematically equivalent but numerically stable. The natural logarithm of the Gamma function can be obtained using the lgamma function in the C standard library (C99 version) or R, the gammaln function in MATLAB or SciPy, or the log_gamma function in Fortran 2008 and later.

Some computing languages provide built-in functions to evaluate the Poisson distribution, namely

    : function dpois(x, lambda) : function POISSON( x, mean, cumulative) , with a flag to specify the cumulative distribution : univariate Poisson distribution as PoissonDistribution[ λ ] , [50] bivariate Poisson distribution as MultivariatePoissonDistribution[ θ 12 > ,< θ 1 − θ 12 - heta _<12>> , θ 2 − θ 12 - heta _<12>> >] ,. [51]

Random drawing from the Poisson distribution Edit

The less trivial task is to draw random integers from the Poisson distribution with given λ .

Solutions are provided by:

Generating Poisson-distributed random variables Edit

A simple algorithm to generate random Poisson-distributed numbers (pseudo-random number sampling) has been given by Knuth: [52] : 137-138

The complexity is linear in the returned value k, which is λ on average. There are many other algorithms to improve this. Some are given in Ahrens & Dieter, see § References below.

For large values of λ, the value of L = e −λ may be so small that it is hard to represent. This can be solved by a change to the algorithm which uses an additional parameter STEP such that e −STEP does not underflow: [ kaynak belirtilmeli ]

The choice of STEP depends on the threshold of overflow. For double precision floating point format, the threshold is near e 700 , so 500 shall be a safe STEP.

Other solutions for large values of λ include rejection sampling and using Gaussian approximation.

Inverse transform sampling is simple and efficient for small values of λ, and requires only one uniform random number sen per sample. Cumulative probabilities are examined in turn until one exceeds sen.

The distribution was first introduced by Siméon Denis Poisson (1781–1840) and published together with his probability theory in his work Recherches sur la probabilité des jugements en matière criminelle et en matière civile(1837). [54] : 205-207 The work theorized about the number of wrongful convictions in a given country by focusing on certain random variables n that count, among other things, the number of discrete occurrences (sometimes called "events" or "arrivals") that take place during a time-interval of given length. The result had already been given in 1711 by Abraham de Moivre in De Mensura Sortis seu de Probabilitate Eventuum in Ludis a Casu Fortuito Pendentibus . [55] : 219 [56] : 14-15 [57] : 193 [6] : 157 This makes it an example of Stigler's law and it has prompted some authors to argue that the Poisson distribution should bear the name of de Moivre. [58] [59]

In 1860, Simon Newcomb fitted the Poisson distribution to the number of stars found in a unit of space. [60] A further practical application of this distribution was made by Ladislaus Bortkiewicz in 1898 when he was given the task of investigating the number of soldiers in the Prussian army killed accidentally by horse kicks [39] : 23-25 this experiment introduced the Poisson distribution to the field of reliability engineering.


A more realistic model!

Now let’s consider per-capita birth and death rates in the population. This way, if the population is bigger, the total births will increase!

Click on this link to load up the next population modeling demonstration.

In the upper right-hand corner of the screen, click on the “Clone Insight” link at the top and click on the “Clone” button on the following screen (so you can make edits to this model!). If you want, you can change the name of the model by clicking on the whitespace anywhere in your InsightMaker workspace and then clicking the “Edit Info” button on the left-hand context menu.

Your model should look something like this:

Hover your cursor over the two [Flows] (Births and Deaths). Do these equations make sense?

Make sure the initial number of moose is set to 50, the birth rate is set to 0.5, and the death rate is set to 0.4. Now click [Run Simulation]. How would you describe the results?

Q: what happens if you set the birth rate equal to the death rate?

Q: what happens if you set the birth rate less than the death rate?

One of the most fundamental quantities in population ecology is called the “intrinsic rate of growth”, or r. R is simply the difference between birth and death rate:

Q: What is the intrinsic rate of growth for this population (when birth rate is set to 0.5 and the death rate is set to 0.4)?

Q: What is the next thing you would like to change to make the model more realistic?


by Joe Felsenstein and Michael Lynch

The blogs of creationists and advocates of ID have been abuzz lately about exciting new work by William Basener and John Sanford. In a peer-reviewed paper at Journal of Mathematical Biology, they have presented a mathematical model of mutation and natural selection in a haploid population, and they find in one realistic case that natural selection is unable to prevent the continual decline of fitness. This is presented as correcting R.A. Fisher’s 1930 “Fundamental Theorem of Natural Selection”, which they argue is the basis for all subsequent theory in population genetics. The blog postings on that will be found here, here, here, here, here, here, and here.

One of us (JF) has argued at The Skeptical Zone that they have misread the literature on population genetics. The theory of mutation and natural selection developed during the 1920s, was relatively fully developed before Fisher’s 1930 book. Fisher’s FTNS has been difficult to understand, and subsequent work has not depended on it. But that still leaves us with the issue of whether the B and S simulations show some startling behavior, with deleterious mutations seemingly unable to be prevented from continually rising in frequency. Let’s take a closer look at their simulations.

Basener and Sanford show equations, mostly mostly taken from a paper by Claus Wilke, for changes in genotype frequencies in a haploid, asexual species experiencing mutation and natural selection. They keep track of the distribution of the values of fitness on a continuous scale time scale. Genotypes at different values of the fitness scale have different birth rates. There is a distribution of fitness effects of mutations, as displacements on the fitness scale. An important detail is that the genotypes are haploid and asexual — they have no recombination, so they do not mate.

After giving the equations for this model, they present runs of a simulation program. In some runs with distributions of mutations that show equal numbers of beneficial and deleterious mutations all goes as expected — the genetic variance in the population rises, and as it does the mean fitness rises more and more. But in their final case, which they argue is more realistic, there are mostly deleterious mutations. The startling outcome in the simulation in that case is there absence of an equilibrium between mutation and selection. Instead the deleterious mutations go to fixation in the population, and the mean fitness of the population steadily declines.

Why does that happen? For deleterious mutations in large populations, we typically see them come to a low equilibrium frequency reflecting a balance between mutation and selection. But they’re not doing that at high mutation rates!

The key is the absence of recombination in these clonally-reproducing haploid organisms. In effect each haploid organism is passed on whole, as if it were a copy of a single gene. So the frequencies of the mutant alleles should reflect the balance between the selection coefficient against the mutant (which is said to be near 0.001 in their simulation) versus the mutation rate. But they have one mutation per generation per haploid individual. Thus the mutation rate is, in effect, 1000 times the selection coefficient against the mutant allele. The selection coefficient of 0.001 means about a 0.1% decline in the frequency of a deleterious allele per generation, which is overwhelmed when one new mutant per individual comes in each generation.

In the usual calculations of the balance between mutation and selection, the mutation rate is smaller than the selection coefficient against the mutant. With (say) 20,000 loci (genes) the mutation rate per locus would be 1/20,000 = 0.00005. That would predict an equilibrium frequency near 0.00005/0.001, or 0.05, at each locus. But if the mutation rate were 1, we predict no equilibrium, but rather that the mutant allele is driven to fixation because the selection is too weak to counteract that large a rate of mutation. So there is really nothing new here. In fact 91 years ago J.B.S. Haldane, in his 1927 paper on the balance between selection and mutation, wrote that “To sum up, if selection acts against mutation, it is ineffective provided that the rate of mutation is greater than the coefficient of selection.”

If Basener and Sanford’s simulation allowed recombination between the genes, the outcome would be very different — there would be an equilibrium gene frequency at each locus, with no tendency of the mutant alleles at the individual loci to rise to fixation.

If selection acted individually at each locus, with growth rates for each haploid genotype being added across loci, a similar result would be expected, even without recombination. But in the Basener/Stanford simulation the fitnesses do not add — instead they generate linkage disequilibrium, in this case negative associations that leave us with selection at the different loci opposing each other. Add in recombination, and there would be a dramatically different, and much more conventional, result.

Technical Oddities

Most readers may want to stop there. We add this section for those more familiar with population genetics theory, simply to point out some mysteries connected with the Basener/Stanford simulations:

1. One odd assumption that they make is that any fitness class that has a frequency below 1 part in a billion gets set to 0. This is not a reasonable way to take genetic drift into account, as all fitness classes are subject to random fluctuations. We imagine such a treatment is a minor issue, relative to the enormous mutation pressure imposed in their study. But someone should check this, which can be done as their Javascript source can be downloaded and then made comprehensible by a Javascript beautifier.

2. The behavior of their iterations in some cases is, well, weird. In the crucial final simulation, the genetic variance of fitness rises, reaches a limit, bounces sharply off it, and from then on decreases. We’re not sure why, and suspect a program bug, which we haven’t noticed. We have found that if we run the simulation for many more generations, such odd bouncings of the mean and variance off of upper and lower limits are ultimately seen. We don’t think that this has much to do with mutation overwhelming selection, though.

3. We note one mistake in the Basener and Sanford work. The organisms’ death rates are 0.1 per time step. That would suggest a generation time of about 10 time steps. But Basener and Stanford take there to be one generation per unit of time. That is incorrect. However the mutation rate and the selection coefficient are still 1 and 0.001 per generation, even if the generations are 10 units of time.

Joe Felsenstein, originally trained as a theoretical population geneticist, is an evolutionary biologist who is Professor Emeritus in the Department of Genome Sciences and the Department of Biology at the University of Washington, Seattle. He is the author of the books “Inferring Phylogenies” and “Theoretical Evolutionary Genetics”. He frequently posts and comments here.

Michael Lynch is the director of the Biodesign Center for Mechanisms of Evolution at Arizona State University, and author of “The Origins of Genome Architecture” and, with Bruce Walsh, of “Genetics and Analysis of Quantitative Traits”. Six of his papers are cited in the Basener/Stanford paper.


Notes on Poisson Distribution and Binomial Distribution

A Binomial Distribution is used to model the probability of the number of successes we can expect from n trials with a probability p. The Poisson Distribution is a special case of the Binomial Distribution as n goes to infinity while the expected number of successes remains fixed. The Poisson is used as an approximation of the Binomial if n is large and p is small.

As with many ideas in statistics, “large” and “small” are up to interpretation. A rule of thumb is the Poisson distribution is a decent approximation of the Binomial if n > 20 and np < 10. Therefore, a coin flip, even for 100 trials, should be modeled as a Binomial because np =50. A call center which gets 1 call every 30 minutes over 120 minutes could be modeled as a Poisson distribution as np = 4. One important distinction is a Binomial occurs for a fixed set of trials (the domain is discrete) while a Poisson occurs over a theoretically infinite number of trials (continuous domain). This is only an approximation remember, all models are wrong, but some are useful!


3 Poisson Regression

No, but seriously, here’s the entire Poisson section on Robert I. Kabacoff’s quickR blog at http://www.statmethods.net/advstats/glm.html:

It’s about cases (i.e., counts) of disease among high school students by number of days after outbreak. Here’s the data, called ‘cases.’ Each time, run the whole chunk at once or it won’t work.

Behold, the Poisson distribution! Notice the mode at one extreme and the tail off to the other side. This is characteristic of Poisson distributions.


Central Limit Theorem with a Skewed Distribution

The Poisson distribution is another probability model that is useful for modeling discrete variables such as the number of events occurring during a given time interval. For example, suppose you typically receive about 4 spam emails per day, but the number varies from day to day. Today you happened to receive 5 spam emails. What is the probability of that happening, given that the typical rate is 4 per day? The Poisson probability is:

The mean for the distribution is μ (the average or typical rate), "X" is the actual number of events that occur ("successes"), and "e" is the constant approximately equal to 2.71828. So, in the example above

Now let's consider another Poisson distribution. with μ=3 and σ=1.73. The distribution is shown in the figure below.

This population is not normally distributed, but the Central Limit Theorem will apply if n > 30. In fact, if we take samples of size n=30, we obtain samples distributed as shown in the first graph below with a mean of 3 and standard deviation = 0.32. In contrast, with small samples of n=10, we obtain samples distributed as shown in the lower graph. Note that n=10 does not meet the criterion for the Central Limit Theorem, and the small samples on the right give a distribution that is not quite normal. Also note that the sample standard deviation (also called the "standard error") is larger with smaller samples, because it is obtained by dividing the population standard deviation by the square root of the sample size. Another way of thinking about this is that extreme values will have less impact on the sample mean when the sample size is large.

Content �. Her hakkı saklıdır.
Date last modified: July 24, 2016.
Wayne W. LaMorte, MD, PhD, MPH


Videoyu izle: Mutasyon Nedir? - Mutation. Bilim (Haziran 2022).