笔记 14 生物信息学数据库
14.1 数据结构
- 列代表特征 行代表条目
- 每个条目有一个唯一性特征
- 数据表可通过列链接成为关系数据库
14.2 Pubmed 搜索
- PubMed search tags
- [AD] – Affiliation (company or school)
- [ALL] – All fields (eliminates defaults)
- [AU] or [AUTH] – Author
- [1AU] – First author
- [ECNO] – Enzyme Commission Numbers
- [EDAT] – Entry date (YYYY/MM/DD)
- [ISS] - Issue # of journal
- [JOUR] - Journal (Title, Abbreviation , ISSN)
- [LA] – Language
- [PDAT] – Publication date (YYYY/MM/DD)
- [PT] – Publication type
- [SUBS] – Substance name
- [TIAB] – Title/Abstract
- [TW] – Text words
- [UID] – Unique identifiers (primary keys)
- [VOL] or [VI] – Volume of journal
- MeSH terms [MH][MAJR][SH]
- 被 MeSH 索引的关系数据库
- 保守性检索 有层级关系
- 时间段搜索 冒号分割 YYYY/MM/DD:YYYY/MM/DD
- 序列长度搜索 [SLEN] 可以是蛋白 可以是核酸
- 蛋白分子量搜索 [MOLWT]
- 物种搜索 [ORGN]
- Nucleotide 序列蛋白数据库
- MMDB 3D结构数据库
- Genome 基因组数据库
- OMIM 人类孟德尔遗传数据库 用来探索等位基因问题
- 分类数据库 用来界定分类
- GEO 基因芯片的实验数据
- SNP 基因指纹数据库
14.3 动态规划
- 用于序列比对
- 对角线得分 按总分评价比对结果
- 可全局 可局部
- 序列比对指标是特异性与相似性
- 特异性指精确匹配比率
- 相似性指精确匹配加化学相似性比率 结构相近则相似
- FASTA 慢准 BLAST 快
- 三种情况 匹配 不匹配 间隔
- 间隔罚分
14.4 得分矩阵
- 考虑突变的比对
- 蛋白的自然突变率矩阵PM1
- 矩阵自相乘得到外推矩阵 PM10 PM250 取对数为打分矩阵
- 取不同矩阵源于研究目的对多样性的判断
14.5 E 值
- 表示序列的同源性 比对得分的稀有性
- 两个参数 数据库大小(N) 比对得分(S) E = N/S
- 数据库越大越可能随机碰到相同序列 得分越高越可能同源
- E值很小说明同源性很高 E值很大什么说明不了
- 一般阈值1e-04
14.6 PSI-BLAST
- 先用BLAST在一定E值上建库
- 计算新库的氨基酸概率 再与全库比对得分 得到统计显著性
- 可以发现BLAST未发现的序列 建立蛋白家族
14.7 蛋白
- Profiles 定量描述
- Patterns 定性描述
- Signature 蛋白保守序列
- motif 少于20个氨基酸 指示二级结构
- Domains 超过40个氨基酸 蛋白的球状区
- 共同点 保守
- 正则表达式表示保守区
- E-X(2,4)-[FHM]-X(4)-{P}-L
- E后随意两个,三个,四个然后FHM其中一个,然后随意四个,然后一个不是P,最后为L
- 可以精确可以模糊
- 没有E值
14.8 蛋白结构预测
- 分子量 道尔顿(Da)描述质量
- 等电点 蛋白不带电的pH值
- 小于7 酸性 中性带负电
- 大于7 碱性 中性带正点
- 网站计算
- 蛋白定位 分泌 胞内 核内
- MITOPRED 预测线粒体蛋白
14.9 细菌基因组
14.10 病毒
- 三种 RNA DNA 逆转录病毒 突变快
- RNA病毒三种 双链 正链 负链
- 逆转录基因组简单 Gag Pol Env
- 凝集素等决定病毒亚型
14.11 单核苷酸多态性(SNP)
- 至少1%种群中存在的DNA单核苷酸变化
- 后果
- 编码区改变影响表型
- 不改变蛋白序列的编码区可能影响mRNA加工
- 启动子或调控区可能影响表达
- 其他区没有影响 可作为染色体标记- 类型
- 不改变氨基酸
- 改变氨基酸
- 非编码区
- 数据库
- dbSNP
- SNPEffect SNPs对蛋白的影响
- SNPedia SNPs的临床效应
- 1000 基因组外显子计划 第二代测序的发展
14.12 真核基因预测
- CDS是mRNA的子集
- CDS可能比mRNA外显子少
- 基因预测只能发现编码区外显子
- 有些转录变化不改变蛋白序列:UTR区与同义密码子
14.13 DNA指纹
- 重复 突变会影响限制性片段长度
- VNTR 用来排除嫌犯
- PCR 用来扩增相关片段
- CODIS 区域在美国用来鉴定身份
14.14 Ensembl
- 外显子基因组学数据库
- 可选择人类 鼠 斑马鱼等常见物种