支持向量机在基因核心启动子识别中的应用研究

李宏彬<sup>1,2</sup>; 赫光中<sup>1</sup>; 吴晓明<sup>2</sup>

支持向量机在基因核心启动子识别中的应用研究

李宏彬^1,2

, 赫光中¹

, 吴晓明²

1 咸阳职业技术学院, 咸阳, 712000; 2 西安交通大学, 西安, 710049

作者

通讯作者
基因组学与应用生物学, 2016 年, 第 35卷, 第 258 篇
收稿日期: 2016年02月24日接受日期: 2016年03月23日

摘要

核心启动子是DNA转录起始位上游一段可以与引发转录但又不被转录的关键序列，目前预测的准确程度仍有待提高。支持向量机是主要用于分类的一种机器学习方法，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。本文采用支持向量机的机器学习方法，以多聚体词频统计和核酸序列正交编码两种特征提取方式，使用公共数据库提供的测试数据，对若干包括启动子和非启动子的大量核酸样本序列进行启动子识别和10折的交叉校验研究，发现核酸序列正交编码方式预测的准确率优于多聚体方式，而支持向量机的四种核函数中RBF核函数预测的准确性最高。研究还发现采用不同的序列长度（起始从-249到-100），预测准确度都接近，反映启动子与非启动子的核酸序列模式差异主要位于转录起始位上游-100到下游+50这段区间内，启动子序列中碱基G和C出现的频率显著性高于A和T，而非启动子正好相反。

关键词

核心启动子；支持向量机；识别

本文全文 PDF 和全文 HTML 正在制作中

基因组学与应用生物学

• 第 35 卷

阅览选项
. 全文 PDF
读者评论
. 评论
作者的其他论文

李宏彬

赫光中

吴晓明