北京普天同创生物科技有限公司

  • 标准物质/标准样品生产认可证书
  • 质量管理体系认证证书
  • 中国计量测试学会合作单位
  • 普天同创计量证书
新闻
  • 产品
  • 仪器
  • 新闻
  • 规程
  • 帖子
  • 课堂

在线客服

芯片的数据处理——基因芯片制备和检测技术(四)

发布时间:2014-09-12 00:00 作者:中国标准物质网 阅读量:1107

四、芯片的数据处理

在基因芯片得到广泛应用的同时,对其所得数据的处理方法也受到越来越多的关注。基因芯片技术中一个最重要的问题之一就是有效地对芯片数据进行采集、处理、分析和报告。基因芯片在一块片基上集成了数千至数十万个点,每个点对应于一个基因或一段核酸的序列,点内又含有数目巨大的探针。对于多色荧光染料标记的芯片还包括了荧光强度的比例信息等。可见芯片检测需要处理和分析大量的信息,才能得到完整和正确的分析结果,因此需要一个专门的系统来处理芯片的数据。

一个完整的芯片数据处理系统应包括芯片图像分析和数据提取,芯片数据的统计学分析和生物学分析,芯片的数据库积累和管理,芯片表达基因的国际互联网上检索和表达基因数据库分析等。

(一)图像分析和数据提取

扫描得到的图像必须通过图像处理提取各样品的数据,供进一步的统计和生物学分析。图像处理包括通过图像的平滑过滤除去各种非特异结合的微粒(如核酸、蛋白质、细胞和组织碎片)造成的噪声、刺峰等信号干扰;通过样品斑点区域的识别和图像背景的确定,有效地扣除样品点周围的背景,提高检测的灵敏度。图像处理的目的是将芯片上的基因点阵杂交信号转换成为数据矩阵。提取出来的数据矩阵可以直接导人数据库存储,也可以输出成文本
文件的格式供其他分析软件处理。

从这样的扫描图像中将各个点的扫描灰度信息提取出来,以数据库的形式保存的操作叫做数据提取。常用的图像处理软件有Axon、Biodiscovery和Medianetics公司的专业软件包PixPro、Irnagene、Arraypto等。数据提取的难易程度和所提取数据的准确性主要决定于图像的性质。

数据提取包括背景确定和样品斑点识别两个步骤。对于背景比较均匀的基因芯片图像,可以将除样品点之外的所有区域的信号统计平均作为共同的背景予以扣除。对于背景不够均匀的图像则需要每一个点样点各自计算背景。样品斑点的识别有3种方式:手工识别、半自动识别和全自动识别。确定背景和样斑之后就可以进行数据提取。基因芯片点阵提取的数据种类有光密度积分值、光密度平均值以及光密度中位值等。将相应的背景扣除之后就得到了点样点的信号值。

(二)数据的处理和分析

在进行下一步的数据处理之前,特别是在对多种荧光染料标记的几组数据进行比较之前,需要对不同荧光染料标记所得的基因表达数据进行标准化。通常有3种标准化方法可供选择:①用两种荧光信号的总量校正,即全基因组法;②外参照方法,即在两种RNA中加入等量的不同来源的单一基因的mRNA;③内参照的方法,选择一个或多个管家基因,计算其平均的比值,从而进行校正。其中第一种最为常用。

通过以上计算机的图像分析和标准化处理,得到代表芯片上每个基因信号强度数值的电子数据表,下一步工作是如何在其中挖掘寻找众多基因在表达上的差异性和相似性规律,进而发现其所代表的生物学意义。

分析微阵列上基因的差异表达,很多文献都采用根据处理和对照组相应基因的信号比例,用人为界定的阈值确定——Ratio分析(ratio analysis)。该方法简单、直观,但其阈值的划分主观性较强,缺乏生物学和统计学支持,尤其对于分析样本中的低拷贝或高拷贝转录子,容易产生假阳性和假阴性问题。

寻找基因表达水平的相似性规律时则常用聚类统计分析对基因表达谱数据统计归类,探索代表不同生物学意义的分类标准、同类基因的共同功能以及在基因表达水平上预测新的生物模式等。主要策略有监督分析和非监督分析两类,前者根据特定样本或基因的已知生物学信息对表达谱建立分类器,进而对各基因进行功能分类和预测,后者则通过计算和比较表达谱各基因统计学距离,聚类“相似性”样本或基因。代表性的数学模型有层次聚类(hierarchical clustering)、自组织作图(self_organizing maps)、K一means、主元分析方法(principle component analysis)、LDA(1inear discriminant analysis)等。在Internet网络上许多商业和学术机构所提供的大量芯片数据统计分析软件包等资源可供研究人员参考使用。

(三)数据信息管理和交流

进行芯片的数据分析以后并不标志着实验的结束,研究人员逐渐认识到,要对呈数量级增长的实验数据进行有效管理、交流和验证,需要建立起通行的数据储存和交流平台,以及一套科学的策略和统一的标准化管理方案。Brazma的研究小组在2001年提出记录和报告芯片实验数据的建议标准——最小化阵列表达信息(minimum information about a microarray experiment,MIAME),主要从整体实验规划和设计、芯片阵列的设计、样本收集提取和标
记的方案、芯片杂交的流程和参数、影像数据的测量和规范、数据标准化校正分析6个方面对芯片实验的描述进行了规划,以期统一芯片报告的格式和整合相关资讯。迄今为止,MI—AME策略已得到较为广泛的响应、认同和发展,尤其以学术界和商界组成的微阵列基因表达数据(MGED)协会加快了其应用普及,一些公共的生物芯片信息数据库如EBI的Array Express、NCBI的GEO、日本的CBEX等均采用MIAME标准接纳芯片数据。许多著名的芯片及软件生产商,如Affymetrix公司、Rosetta Biosoftware公司、lobion Informatics公司等也纷纷将MIAME标准整合到相关产品中。

评论

登录后才可以评论

立即登录
分享到微信
关闭
普天同创
请告知您的电话号码,我们将立即回电

通话对您免费,请放心接听

温馨提示:

1.手机直接输入,座机前请加区号 如18601949136,010-58103629

2.我们将根据您提供的电话号码,立即回电,请注意接听

3.因为您是被叫方,通话对您免费,请放心接听