1 咸阳职业技术学院, 咸阳, 712000; 2 西安交通大学, 西安, 710049
作者 通讯作者
基因组学与应用生物学, 2016 年, 第 35卷, 第 258 篇
收稿日期: 2016年02月24日 接受日期: 2016年03月23日
作者 通讯作者
基因组学与应用生物学, 2016 年, 第 35卷, 第 258 篇
收稿日期: 2016年02月24日 接受日期: 2016年03月23日
© 2016 BioPublisher 生命科学中文期刊出版平台
这是一篇采用Creative Commons Attribution License进行授权的开放取阅论文。只要对本原作有恰当的引用,版权所有人允许和同意第三方无条件的使用与传播。
摘 要
核心启动子是DNA转录起始位上游一段可以与引发转录但又不被转录的关键序列,目前预测的准确程度仍有待提高。支持向量机是主要用于分类的一种机器学习方法,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。本文采用支持向量机的机器学习方法,以多聚体词频统计和核酸序列正交编码两种特征提取方式,使用公共数据库提供的测试数据,对若干包括启动子和非启动子的大量核酸样本序列进行启动子识别和10折的交叉校验研究,发现核酸序列正交编码方式预测的准确率优于多聚体方式,而支持向量机的四种核函数中RBF核函数预测的准确性最高。研究还发现采用不同的序列长度(起始从-249到-100),预测准确度都接近,反映启动子与非启动子的核酸序列模式差异主要位于转录起始位上游-100到下游+50这段区间内,启动子序列中碱基G和C出现的频率显著性高于A和T,而非启动子正好相反。
关键词
核心启动子;支持向量机;识别
本文全文 PDF 和全文 HTML 正在制作中