大橙子网站建设,新征程启航
为企业提供网站建设、域名注册、服务器等服务
小编给大家分享一下motif中PWM矩阵的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!
目前累计服务客户数千家,积累了丰富的产品开发及服务经验。以网站设计水平和技术实力,树立企业形象,为客户提供成都做网站、网站制作、成都外贸网站建设、网站策划、网页设计、网络营销、VI设计、网站改版、漏洞修补等服务。创新互联公司始终以务实、诚信为根本,不断创新和提高建站品质,通过对领先技术的掌握、对创意设计的研究、对客户形象的视觉传递、对应用系统的结合,为客户提供更好的一站式互联网解决方案,携手广大客户,共同发展进步。
通过一致性序列和sequence logo可以直观的表示某个motif的情况,但是在预测motif结合的位点时,只根据这些信息无法准确的判断查询序列上存在对应的motif。 预测输入序列上是否存在特定motif的位点的分析,称之为motif scanning, 示意如下
就是在输入序列上查找特定motif出现的位置。为了满足motif scanning分析的要求,对于motif而言,我们必须提供一个有效的能够代表motif又能够用于序列查找的一个信息,基于这样的出发点,提出了PWM矩阵的概念。
PWM矩阵在不同文章中有不同的叫法,以下3种矩阵其实都是PWM矩阵
position weight matrix(PWM)
position-specific weight matirx(PSWM)
position-specific scoring matrix(PSSM)
PWM矩阵是在PFM矩阵的基础上发展而来,以下图所示PFM矩阵为例
根据碱基频数分布矩阵首先计算出碱基频率分布矩阵,称之为position probability matrixa, 简写为PPM矩阵,示意如下
在PPM矩阵中,碱基的频率被当做概率来使用,不同位置之间可以看做是一个独立事件。根据PPM矩阵,可以计算某个motif序列的概率。根据上述PPM矩阵,GAGGTAAAC
出现的概率为
在PPM矩阵基础上,用背景序列的碱基分布频率来校正对应的值,就可以得到PWM矩阵,公式如下
就是将PPM矩阵中对应的值除了背景序列中对应碱基的频率,然后在取log2对数值。大多数情况下,我们认为在基因组上A,T,C,G这4种碱基的含量是相等的,所以每个碱基的背景频率就是0.25。以PPM矩阵第一行的0.3
为例,首先将0.3除以背景序列中A碱基的频率0.25,然后在取log2对数,最终的取值越为0.26。
通过这种方式就构建出了如下所示的PWM矩阵
需要注意的是,背景序列中碱基的概率不是都为0.25, 在某些GC含量偏高或者偏低的物种中,4种碱基的分布频率是不相等的,此时就要根据真实的碱基分布来确定背景序列中的碱基频率。
根据PWM矩阵,可以对序列进行打分,以最终的得分值来判断是否为一个潜在的motif。根据上述PWM矩阵,GAGGTAAAC
出现的得分值为
score >= 0, 说明这个序列是一个潜在的功能位点,score < 0, 说明是一个随机序列。根据PWM矩阵,可以有效的判断在输入序列中是否存在真实的motif位点。
看完了这篇文章,相信你对“motif中PWM矩阵的示例分析”有了一定的了解,如果想了解更多相关知识,欢迎关注创新互联行业资讯频道,感谢各位的阅读!