上海交通大学生命科学技术学院生物信息学与生物统计学系, 上海, 200240
作者 通讯作者
基因组学与应用生物学, 2015 年, 第 34卷, 第 177 篇
收稿日期: 2015年04月01日 接受日期: 2015年04月30日
作者 通讯作者
基因组学与应用生物学, 2015 年, 第 34卷, 第 177 篇
收稿日期: 2015年04月01日 接受日期: 2015年04月30日
© 2015 BioPublisher 生命科学中文期刊出版平台
这是一篇采用Creative Commons Attribution License进行授权的开放取阅论文。只要对本原作有恰当的引用,版权所有人允许和同意第三方无条件的使用与传播。
摘 要
在人类基因组中,大多数的基因都含有转座元件,但是转座元件在蛋白质编码区所占的比例大约只有1%。1%这个比例很可能是被低估的。我们系统分析了转座元件在不同的人类基因组注释数据库中的变化情况。在RefSeq数据库中,0.43%的蛋白质编码序列被转座元件覆盖,但在Ensembl数据库中,这一比例达到了1.30%。对于Ensembl特有的蛋白质编码区,转座元件的覆盖率达到了15.3%,远远高于在RefSeq中所对应的比例(0.43%)。同时,我们分析了各个蛋白质编码序列数据库的表达量。数据库特有的蛋白质编码序列的表达量显著低于RefSeq和Ensembl中蛋白质编码序列的表达量。这些结果表明,未被识别出的蛋白质编码序列比现有的蛋白质编码序列含有更多的转座元件,有更低的表达量,这也预示着这些蛋白质编码序列将会更加难以被识别出来。此外,我们分析了OMIM数据库中的致病基因,发现致病基因比非致病基因含有更多的转座元件,新发现的致病基因比更早时候发现的致病基因含有更多的转座元件。
关键词
转座元件;RefSeq;Ensembl
本文全文 PDF 和全文 HTML 正在制作中