Statystyczne metody lokalizacji genów.

meto

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Lokalizacja genów wpływających na pewne ilościowe fenotypowe cechy osobników (w skrócie mapowanie QTL’i) polega na wskazaniu tych loci (miejsc) na chromosomie, na których znajdują się geny istotnie sprzężone z badaną cechą ilościową.

Rozwiązanie tego problemu jest szczególnie istotne w takich dziedzinach nauki jak medycyna (geny odpowiedzialne za choroby dziedziczne, uzależnienia), hodowla roślin i zwierząt (np. polepszenie jakość upraw, zwiększenie wydajności mlecznej krów) i psychologia (wpływ genów na cechy osobowości). Genetycy na podstawie wieloletnich badań sporządzają tzw. mapy markerów genetycznych, czyli zbiory genotypów znajdujących się na określonych loci. Dzięki nim, przy użyciu różnych metod statystycznych, estymuje się m. in. położenia i efekty szukanych QTL’i.

Pierwsze prace nad metodami lokalizacji QTL’i zapoczątkował Soller. Wykorzystywał on podstawowe metody statystyczne (analiza ANOVA, test t-Studenta) do wskazania zmiennych, które istotnie wpływają na badaną cechę. Nowych zmiennych poszukiwał on tylko na pozycjach, na których znajdowały się markery. Dopiero w 1989 Lander i Botstain wprowadzili metodę interwałową, która umożliwiała lokalizację QTL’i między markerami. Początkowo badano modele z jednym QTL’em. W ostatnich latach zaczęto rozpatrywać modele z większą liczbą QTL’i.

Powstają nowe metody statystyczne, których celem jest nie tylko estymacja położenia i efektów QTL’i, ale również ich ilości. W wielu przypadkach bada się również, czy między znalezionymi QTL’ami występują interakcje.

Metody ogólnie podzielić możemy na te, które służą do porównywania modeli – kryteria wyboru modelu AIC, BIC i ich modyfikacje, kryterium Bayesa. Drugą grupą są kryteria służące do dopasowania modelu czyli np. metoda największej wiarogodności, metoda Haley’a-Knott’a, algorytm Expectation-Maximization, metody Monte Carlo łańcucha Markowa (MCMC). Są również metody służące do szukania najlepszego modelu takie jak metody krokowe.

Przypuśćmy, że znamy mapę markerów genetycznych. Wiemy ponadto, że szukane QTL’e znajdują się pomiędzy markerami, zatem oprócz tego, że nie znamy ich położeń, efektów i ilości, dodatkową niewiadomą stają się ich genotypy. W takim przypadku całkiem dobrze sprawdza się interwałowa metoda lokalizacji genów.

Wielowymiarowa metoda interwałowa może być zaimplementowana na kilka różnych sposobów. W wersji deterministycznej tej metody można się posłużyć algorytmem EM (do wyestymowania brakujących danych) oraz kryteriami informacyjnymi, takimi jak mBIC przy wyborze modelu. Można też użyć metody bayesowskiej – algorytmu reversible jump MCMC.

Rozważmy model liniowy dla cechy fenotypowej na którą oddziałuje p QTL’i. Wartości genotypowe zarówno markerów jak i szukanych genów będziemy oznaczać jak w (1). Zaobserwowany fenotyp yi i-tego osobnika w próbce wielkości n możemy przedstawić za pomocą następującego modelu liniowego:

yi = β0 +  ∑    βj Qij + i, (1)

gdzie i jest zmienną losową o średniej zero i wariancji σ^2, β = {β_j }, j = 1, …, p to współczynniki regresji – efekty QTL’i, natomiast Qij , i = 1, …, n, j = 1, …, p oznaczają genotypy QTL’i. Niech dodatkowo λ_j oznacza odległość j-tego QTL’a od początku chromosomu. Wtedy parametrami genetycznymi są położenia QTL’i λ oraz wektor parametrów θ = (β_0, β, σ^2). Oprócz wartości fenotypowych y_i badanych osobników dysponujemy również wiedzą na temat genotypów m markerów – M_i = {M_i_k}_m_k=1 dla i-tego osobnika oraz znamy odległości D = {D_k}_m_k=1, gdzie D_k oznacza odległość między 1 i k-tym markerem.

Autorem tekstu jest Marta Mrozek.

Więcej info na:

Statystyczna analiza danych 

Zalety statystyki Bayesowskiej

Naiwny klasyfikator Bayesa
Najczesciej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

Analiza statystyczna danych warszawa wroclaw krakow poznan gdansk