新注释的蛋白质编码序列和致病基因含有更多的转座元件

曹单锋; 胡智强

新注释的蛋白质编码序列和致病基因含有更多的转座元件

曹单锋

, 胡智强

上海交通大学生命科学技术学院生物信息学与生物统计学系, 上海, 200240

作者

通讯作者
基因组学与应用生物学, 2015 年, 第 34卷, 第 177 篇
收稿日期: 2015年04月01日接受日期: 2015年04月30日

摘要

在人类基因组中，大多数的基因都含有转座元件，但是转座元件在蛋白质编码区所占的比例大约只有1%。1%这个比例很可能是被低估的。我们系统分析了转座元件在不同的人类基因组注释数据库中的变化情况。在RefSeq数据库中，0.43%的蛋白质编码序列被转座元件覆盖，但在Ensembl数据库中，这一比例达到了1.30%。对于Ensembl特有的蛋白质编码区，转座元件的覆盖率达到了15.3%，远远高于在RefSeq中所对应的比例（0.43%）。同时，我们分析了各个蛋白质编码序列数据库的表达量。数据库特有的蛋白质编码序列的表达量显著低于RefSeq和Ensembl中蛋白质编码序列的表达量。这些结果表明，未被识别出的蛋白质编码序列比现有的蛋白质编码序列含有更多的转座元件，有更低的表达量，这也预示着这些蛋白质编码序列将会更加难以被识别出来。此外，我们分析了OMIM数据库中的致病基因，发现致病基因比非致病基因含有更多的转座元件，新发现的致病基因比更早时候发现的致病基因含有更多的转座元件。

关键词

转座元件；RefSeq；Ensembl

本文全文 PDF 和全文 HTML 正在制作中

基因组学与应用生物学

• 第 34 卷

阅览选项
. 全文 PDF
读者评论
. 评论
作者的其他论文

曹单锋

胡智强