bioinformatics toolbox™ 提供一系列算法和 app,可用于下一代测序技术 (ngs)、微阵列分析、质谱分析法和基因本体论。您可以使用工具箱函数,从标准文件格式(如 sam、fasta、cel 和 cdf)以及在线数据库(如 ncbi gene expression omnibus 和 genbank®)读取基因组和蛋白质组数据。您可利用序列浏览器、空间热图和聚类图探查和可视化此类数据。该工具箱还提供了用于检测峰值、针对缺失数据输入值和选择特征的统计方法。
您可以综合利用工具箱函数来支持常见的生物信息学工作流。您可以使用 chip-seq 数据来识别转录因子;分析 rna-seq 数据来识别差异表达基因;识别微阵列数据中的拷贝数变异和 snp;使用质谱数据进行蛋白图谱分类。
了解有关计算生物学的详细信息。
开始:
下一代测序技术分析
bioinformatics toolbox 提供了用于下一代测序技术分析的算法和可视化技术。您可以利用该工具箱分析全基因组,同时在碱基对的分辨率级别上执行计算。借助 ngs 浏览器,您可以使用单端或双端短读来可视化和研究短读比对。您还可以构建自定义的分析例程,如下例所示。
存储和管理短读数据
下一代测序技术分析中使用的数据集通常体积很大,无法装入物理内存。bioinformatics toolbox 提供了专门的数据容器用来分析整个基因组。
借助 bioindexedfile
对象,您可以对所含条目大小不一的文本文件进行内容存取,这些条目可以是序列、注释以及对数据集的交叉引用。您可以从数据表、平面文件或应用程序特定的格式(如 sam、fasta 和 fastq)生成这些对象。
biomap
类存储短读序列的信息,包括序列标头、读段序列、质量得分以及有关比对和映射到单个参考序列的数据。您可以使用对象属性和方法浏览、访问、筛选和操作 biomap 对象中包含的数据。
微阵列数据分析和可视化
使用 app 和函数对多种数据类型的图像进行采集、可视化、分析和处理。
微阵列归一化
可运用多种方法进行微阵列数据归一化,包括 lowess、全局均值、绝对中位差 (mad) 和分位数归一化。可将这些方法应用于整个微阵列芯片,也可应用于特定区域或区块。筛选和插补函数可帮助您在运行分析和可视化例程之前清理原始数据。
数据分析和可视化
bioinformatics toolbox 可帮助您执行背景调整,并使用 robust multi-array average (rma) 和 gc robust multi-array average (gcrma) 规程通过 affymetrix® 微阵列探针水平数据来计算基因(探针组)表达值。您可以对阵列 cgh 数据应用循环二元分割算法,并通过微阵列实验估算基因表达数据的多元假设检验的伪发现率。您还可以对多个 affymetrix cel 文件的探针强度或两个不同实验条件的基因表达值执行秩不变集归一化。
专门用于可视化微阵列数据的例程包括微阵列的火山图、箱线图、双对数坐标图、i-r 图和空间热图。还可以借助 g 显带核型可视化表意符号图。
您可以使用 statistics and machine learning toolbox™ 中的例程对结果分类,执行层次聚类和 k-均值聚类,运用统计可视化方法表示微阵列数据,例如具有最优叶序的二维聚类图、热图、主成分图和分类树。
质谱数据分析
bioinformatics toolbox 提供了一组用于质谱数据分析的函数。这些函数可实现 seldi、maldi、lc/ms 和 gc/ms 数据的预处理、分类和标记识别。预处理函数包括基线校正、平滑、校准和重采样。您可以使用 m/z 轴对齐原始光谱数据,对 lc/ms 和 gc/ms 数据执行保留时间比对。您可以同时绘制多道光谱。
您可以对光谱进行平滑、对齐和归一化处理,然后使用分类和统计学习工具创建分类器并识别潜在的生物标志物。
图论、统计学习和基因本体论
图论和可视化
bioinformatics toolbox 支持您对稀疏矩阵应用基本图论。您可以创建、查看和操作相互作用图、层次结构图和通路等多种图。您可以判定和查看图中的最短路径,检测有向图中的循环,并找出两个图之间的同构。
统计学习和可视化
bioinformatics toolbox 提供了基于 statistics and machine learning toolbox 中的分类和统计学习算法构建的函数,包括:
- 支持向量机 (svm) 和 k 最近邻分类器
- 用于设置交叉验证实验和测量不同分类方法性能的函数
- 用于特征选择、映射以及层次结构图和通路显示的交互式工具
基因本体论
bioinformatics toolbox 使您能够从 matlab® 内访问 gene ontology 数据库,解析基因本体论注释文件,并获取本体论的子集,如祖先、后代或亲属。
序列分析
bioinformatics toolbox 提供了用于基因组和蛋白质组序列数据的序列分析和可视化工具。您可以执行各种分析,包括多序列比对,以及构建并交互式查看和操作进化树。
序列比对
该工具箱提供了多个用于序列分析的函数、对象和方法,包括双序列、序列谱和多序列比对。具体包括:
- 局部和全局序列比对标准算法的 matlab 实现,例如 needleman-wunsch、smith-waterman 和谱隐马尔可夫模型算法
- 渐进式多序列比对
- 比对结果矩阵的图形表示
- 标准评分矩阵,例如 pam 和 blosum 矩阵族
- 共有序列计算和序列徽标显示
序列实用程序和统计
该工具箱可帮助您操作和分析基因序列,从而更深入地了解数据。您可以:
- 使用基因代码将 dna 或 rna 序列转换为氨基酸序列
- 对序列执行统计分析,在一个序列内搜索特定图谱
- 应用限制酶和蛋白酶,执行序列的计算机模拟消化,或为测试用例创建随机序列
- 预测 rna 序列的最小自由能二级结构
序列可视化
该工具箱可实现序列和比对的可视化。您可以查看带有 genbank 特征注释的序列的线性图或环状图。您也可以可视化呈现 rna 序列的二级结构图。交互式查看器可帮助您浏览和修改双序列和多序列比对。
进化树分析
您可以使用该工具箱创建和编辑进化树。您可以运用各种相似性度量方法(如 jukes-cantor、p-距离、比对-分数或用户定义的距离方法),计算对齐或未对齐的核苷酸或氨基酸序列之间的成对距离。进化树使用层次连接通过各种方法构建,包括邻接法、单连接和全连接以及非加权组平均法 (upgma)。
该工具箱支持对树进行加权和换根、计算子树以及计算树的规范形式。进化树查看器支持您修剪、重排序和重命名分支;探查距离;读取或写入 newick 格式的文件。您还可以使用 matlab 中的注释工具创建可用于演示的树。
蛋白质特征分析
该工具箱提供蛋白质序列分析方法,包括用于计算肽序列属性(如原子组成、等电点和分子量)的一些例程。您可以确定蛋白质序列的氨基酸组成、用酶分解蛋白质,并创建 pdb 数据的主干图和 ramachandran 图。您可以使用 sequence tool 查看氨基酸序列的属性,也可以使用 molecule viewer 显示并操作三维分子结构。
数据导入和应用程序部署
文件格式和数据库访问
您可以访问标准文件格式的生物数据、在线数据库和网站。bioinformatics toolbox 能够:
- 读取标准文件格式的序列数据,包括 fasta、pdb 和 scf
- 读取 affymetrix dat、exp、cel、chp 和 cdf 等文件格式的微阵列数据,imagene® 结果格式数据,agilent® feature extraction software 文件,以及 genepix® gpr 和 gal 文件
- 从 genbank、embl、ncbi blast 和 pdb 等在线数据库中读取数据
- 用一条命令直接从 ncbi gene expression omnibus 网站导入数据
- 从 ncbi 表意符号图或 ucsc cytoband 文本文件中读取细胞遗传学显带信息
- 从 mzxml 和 jcamp-dx 文件中读取质谱数据
共享算法和部署应用程序
您可以使用 matlab 提供的工具将数据分析程序变成自定义软件应用程序。这些工具包括用于构建用户界面的开发工具、可视化集成开发环境和一个探查器。matlab 应用程序部署产品支持您将 matlab 算法与现有 c、c 和 java™ 应用程序集成,将开发的算法和自定义接口部署为独立应用程序,将 matlab 算法转换为 microsoft® .net 或 com 组件以从任何基于 com 的应用程序访问,以及创建 microsoft excel® 插件。
matlab 可与 bioperl、基于 soap 的 web 服务和 com 插件等常用生物信息学工具集成。