生物と数学のあいだ

量的遺伝学/集団生物学/生物統計学に関する勉強ノート

非線形混合モデル

非線形混合モデル

量的遺伝学ではいわゆる線形混合モデルと呼ばれるモデルがよく使われていますが、成長曲線などをモデル化する場合は、この線形混合モデルを拡張した非線形混合モデルが必要になってきます。ちょうど研究の中で非線形混合モデルを使用しており、まとめて勉強する機会があったので、今日はひとまずそもそも非線形混合モデルがどう数式として定式化されるかを書こうと思います。

 

非線形であるとは

そもそも非線形とは何かをまずはじめにはっきりさせておきます。線形と聞くと"まっすぐ"、"直線"といったイメージを持ちがちなので、 y=ax^2+bx+cでかかれる二次関数も非線形として捉えがちですが(そして文脈によってはそれは間違いではないのですが)、ここではパラメータに対して非線形であるモデルを非線形であると呼ぶことにします。 y=ax^2+bx+cの例でいうと、この関数はパラメータも変数であると考えることによって、 f(a,b,c,x)=ax^2+bx+cととらえることができるわけですが、このa,b,cについては線形性が保たれているためこれは線形なモデルということになります。例えば f(a,b,c,x)=a^2x^2+bx+cなんかは非線形なモデルというわけです。

 

植物分野でよく使われる非線形なモデル

非線形なモデルを調べるとよく薬学の話、特に薬の体内での濃度変化の話が取り上げられますが、植物分野では成長曲線がよく使われます。特に使われるのが、①logistic 曲線、②Gompertz 曲線、③von Bertalanffy 曲線の3つです。例えば前者二つはそれぞれ次のように数式化されます。

logistic 曲線

 f(a,b,c,t)=\frac{a}{1+b*exp(-ct)}

Gompertz 曲線

 f(a,b,c,t)=a*b^{exp(-ct)}

 

非線形なモデルの優位性

このようにxなどの変数に対しての非線形性は認められるため、線形なモデルでもかなり柔軟なモデルにすることができるわけですがそれでも非線形のモデルを使いたい理由はどこになるのでしょうか。よく取り上げられるのが次の3つです。①パラメータの解釈可能性。多くの非線形なモデルは微分方程式に基づいて導出されます(Gompertzモデルといった例外ももちろんありますが…)。微分方程式は物理量の関係性を表すモデルですので、そこに現れるパラメータには何らかの物理的解釈を加えることが可能です。線形なモデルではパラメータの解釈が難しく考察や問題解決がしにくいわけですが、非線形なモデルではそういうことが起こらないというメリットがあります。②倹約性。一般に同じ柔軟性を持つモデルを比較すると、非線形なモデルのパラメータ数は線形なもでるのそれよりも少ない傾向にあります。パラメータ数が増えると多重線形性といった問題が生じてくるのですが、非線形なモデルはそういった問題をあまり気にしなくて済みます。③外挿に対する安定性。機械学習では、学習データに含まれない領域のデータに対する予測精度が低いという問題がよく取り上げられます。非線形なモデルは先ほど書いたように微分方程式に基づき、それはどのデータ領域にも適応できるため、そのようなデータに対しても予測精度が下がりにくいというメリットがあります。

 

時系列データの非線形モデルによる定式化

さて、ここからは時系列データが非線形なモデルを使ってどのように定式化できるかを考えていきます。まず、品種がn品種あり、それぞれに対して時系列データがとられたという状況を想定します。この時、i番目の品種のj回目の測定データは y_{ij}と表すことができます。ここで i=1\sim n j=1\sim  n_{i}であり、 n_{i}はi番目の品種に対して測定された回数を表します。次に非線形なモデル f(a,b,c,t)ですが、パラメータは品種によって違うと考えられるためi番目の品種に対する非線形なモデルは f(a_{i},b_{i},c_{i},t)となります。さらに、 \phi_{i}=(a_{i},b_{i},c_{i})とすると、 f(\phi_{i},t)と書くことができます。測定された時刻を t_{ij}と表すことにすると、 y_{ij}は次のようになります:

 y_{ij}=f(\phi_{i},t_{ij})+e_{ij}

ここで e_{ij}はノイズで e_{ij}\sim N(0,\sigma)に従います。これがまず第一段階の定式化です。しかし、これはあくまでも非線形モデルであって、非線形混合モデルではありません。次にこれを非線形混合モデルに拡張していきます。

 

非線形混合モデル

先ほどの式を改めて書くと次のようになります

 y_{ij}=f(\phi_{i},t_{ij})+e_{ij}

where  e_{ij}\sim N(0,\sigma)

これを混合モデル化するのは簡単で、パラメータ \phi_{i}が母数効果と変量効果の線形和になっている、つまり次のように表せると仮定すればよいわけです。

 \phi_{i}=X_{i}\beta+Z_{i} u_{i}

where  u_{i}\sim MVN(0,G)

ここで、 \betaは固定効果を、 u_{i}は変量効果を表しています。イメージとしては前者が品種を平均した値で、後者が品種による平均からのずれといったところでしょうか。また変量効果が従う多変量正規分布の分散共分散行列 Gはパラメータが3つの場合は (a_{i},b_{i},c_{i})間の共分散を表しています。

よって、まとめると非線形混合モデルは次のように表されるモデルとなります。

 y_{ij}=f(\phi_{i},t_{ij})+e_{ij}

where  \phi_{i}=X_{i}\beta+Z_{i} u_{i} u_{i}\sim MVN(0,G) e_{ij}\sim N(0,\sigma)

 

実データにこれらのモデルをフィッテイングしていく際は、非線形性ならではの困難が伴うのですが、それはまた次回。やる気が出たときに書こうと思います。

ハーディーワインベルグの法則

ハーディーワインベルグの法則は量的遺伝学において最も重要な法則の一つで、無作為に交配が起こっていればその集団の遺伝的構成はどの世代でも変わらないことを主張します。そのように構成が不変な状態は平衡状態とみなすことができるため、ハーディーワインベルグ平衡と言ったりもします。主張の詳しい説明は後にしますが、育種では無作為な交配と作為的な交配を繰り返すため、ハーディーワインベルグの法則が成り立つ状況なのかどうかを見極めることが非常に重要です。

 

さて、以下ではハーディーワインベルグの法則をマメの集団を例に説明していきます。このマメには丸型としわ型があり、それぞれ A aという対立遺伝子に支配されているとします。また、 A aに対して優性(顕性)であるとします。

 

 

言葉の定義

遺伝子型頻度(genomic frequency)

集団における AA Aa aaを持つ個体の頻度。ここではそれぞれ P Q Rで表す。この時、 P+Q+R=1を満たすことが直ちにわかる。

 

遺伝子頻度

集団における A aの頻度。ここではそれぞれ p qで表す。同様に、 p+q=1を満たす。

 

遺伝子型頻度と遺伝子頻度の関係

ここで、遺伝子型頻度と遺伝子頻度の間には次の関係式が成り立つことが分かる。

 p=P+\frac{1}{2}Q

 q=R+\frac{1}{2}Q

 

ある1000個体のマメ集団において、 AA Aa aaの遺伝子型を持つ個体がそれぞれ、500、100、400個体いた場合、遺伝子型頻度は次のように求まる。

 P=\frac{500}{1000}=0.50

 Q=\frac{100}{1000}=0.10

 R=\frac{400}{1000}=0.40

また、遺伝子型頻度と遺伝子頻度の関係より、

 p=0.50+0.05=0.55

 q=0.40+0.05=0.45

 

さて、次はハーディーワインベルグの法則の主張を詳しく見ていきます。

 

主張

ハーディーワインベルグの法則はある条件を満たす集団における遺伝的構成に関する主張ですが、その"ある条件"が非常に大切なので先にこちらを見ていきます。

 

①無作為交配が起きていること

→完全にランダムに雄と雌が選ばれ交配されている状況です。自家受粉をする植物は、同じ個体に由来する雄(花粉)と雌(胚珠)の交配が優先されるため無作為交配にはなりません。

②考えている集団サイズが大きいこと

→AB型同士の親から連続してA型の子供が生まれるように、考えている集団サイズが小さい場合、たまたまある遺伝子型が偏って生じることが考えられます。このような効果を減らすため、集団サイズは大きい必要があります。

③他の集団からの流入、への流出がないこと

丸のマメしか存在しない集団から種が流入するようなことがあると必然的に丸のマメの頻度が多くなってしまいます。このような影響を考えないため集団は他の集団から孤立していることが求められます。

④突然変異が起こらないこと

丸としわのマメの集団の中に突然三角形のマメが生じるようなことがあると、集団の遺伝的構造が大きく変わるため、このような変異はないものと考えます。

⑤遺伝子型に有利不利がないこと

例えば考えている遺伝子がマメの丸・しわではなく、花の色などの場合どちらかが受粉に有利に働く場合があります。この場合、交配のランダム性がなくなってしまいます。

 

そして、この条件を満たす集団において次のことを主張します。

①遺伝子型頻度と遺伝子頻度は変化しない(ハーディーワインベルグ平衡)。

②ハーディーワインベルグ平衡には一世代で至ることができる。

 

ここで、①についてはそのままですが②は少しわかりにくいかもしれませんので少し説明を加えます。例えば、先の条件を満たしていない集団があったとします。この時、ハーディーワインベルグの法則は成り立たないため、遺伝子型頻度と遺伝子頻度は世代ごとに変化します。ところが、その集団が突然条件を満たすようになった場合、その次の世代以降はハーディーワインベルグ平衡に至り、遺伝子型頻度と遺伝子頻度が一定になる、という主張です。

 

証明

まず①の証明を行います。

遺伝子型頻度が P_1 Q_1 R_1、遺伝子頻度が p_1 q_1の集団を想定し、その次の世代の集団における遺伝子型頻度 P_2 Q_2 R_2と遺伝子頻度 p_2 q_2を考えます。

 

遺伝子型頻度

例えば、 Aaの個体は、オスから Aとメスから a、またはオスから aとメスから Aをもらうことによって誕生しますが、無作為なが交配が起こっているため、オスから Aをもらう確率は遺伝子頻度 p_1、メスから aをもらう確率は q_1となります。逆も同様であり、したがって Aaが誕生する確率は 2p_1q_1となるわけです。 AA aaについても同様で p_1^2 q_1^2の確率で誕生します。集団に対する細かい条件が付いていた理由はまさにここにあり、 A aが同様に確からしいことを保証していたわけです。

ここで、次の世代の集団が N個体から成り立っているとします。 AA Aa aaは、それぞれ p_1^2 2p_1q_1 q_1^2の確率で生じるので、次の世代の集団の分布は多項分布に従うことになります。つまり、全 N個体において AA Aa aaがそれぞれ n_{AA} n_{Aa} n_{aa}個体生じる確率 P(n_{AA},n_{Aa},n_{aa})は、

 P(n_{AA},n_{Aa},n_{aa})=\frac{N!}{n_{AA}!n_{Aa}!n_{aa}!}(p^2)^{n_{AA}}(2pq)^{n_{Aa}}(q^2)^{n_{aa}}

となるわけです。ここで多項分布の理論より、 AAが出る頻度 frac{n_{AA}}{N}の期待値は p_1^2 Aaが出る頻度 frac{n_{Aa}}{N}の期待値は 2p_1q_1 aaが出る頻度 frac{n_{aa}}{N}の期待値は q_1^2となることがわかるので、

 P_2=p_1^2

 Q_2=2p_1q_1

 R_2=q_1^2

が期待値の意味で成り立つことがわかります。

 

遺伝子頻度

次に遺伝子頻度ですが、 p+q=1を使うと遺伝子型頻度と遺伝子頻度の関係より、

 p_2=p_1^2+2p_1q_1=p_1(p_1+q_1)=p_1

 q_2=q_1^2+2p_1q_1=q_1(q_1+p_1)=q_1

が成り立ちます。これは前の世代の集団と同じ値です。つまり、最初の集団の遺伝子頻度が p_1 q_1であれば、それ以降の世代の遺伝子型頻度は P_n=p_1^2 Q_n=2p_1q_1 R_n=q_1^2、遺伝子頻度は p_n=p_1 q_n=q_1となるわけです。これがハーディーワインベルグの法則の①の証明です。注目したいのは P_1 Q_1 R_1は一切計算に出てこなかった点です。これが②の主張につながります。

 

②の証明

最初の世代を色々な場所からサンプリングして集めてきた集団だとしましょう。その集団を一か所に集めて無作為に交配を行ったとします。この時、先ほどの議論より2世代目以降の遺伝子型は P_n=p_1^2 Q_n=2p_1q_1 R_n=q_1^2となりますが、 P_1 Q_1 R_1はランダムに集められた集団のため、 P_n=P_1 Q_n=Q_1 R_n=R_1は保証されません。逆にいえば、一世代分過ぎれば集団はハーディーワインベルグ平衡に至るということです。これは②の主張にほかなりません。

 

以上のことより、集団に対するある条件のもとハーディーワインベルグの法則が成り立つことがわかります。

 

 

応用

以下ではハーディーワインベルグの法則がどのようなところに応用されるかについて、ヘテロ接合個体の個体数推定を取り上げようと思います。

 

ヘテロ接合個体の個体数推定

遺伝子型頻度と遺伝子頻度の例では、 AA Aa aaの遺伝子型を持つ個体をそれぞれ500、100、400個体としましたが、通常 AA Aaは区別することができないため Aaの個体数を知ることはできません。しかし、考えている集団がハーディーワインベルグ平衡にあるのであれば、そこから Aaの個体数を導くことが可能です。

まず、全1000個体を調査したうち、40個体が aaだったとします。この時 R=\frac{40}{1000}=0.04となるわけですが、ハーディーワインベルグ平衡においては R_n=q^2が保証されます。これより q=0.2となりますが、 p+q=1より、[p=0.8]がわかります。さらに Q_n=2pqであるため、 Q=0.16 Aaの頻度がわかります。この頻度に1000をかけた160個体が Aaの個体数となるわけです。このようにして、 Aaの個体数を推測することが可能です。