技术重复 vs 生物学重复

-回复 -浏览
楼主 2019-06-25 03:31:51
举报 只看此人 收藏本贴 楼主

编者按:生物医学研究常常涉及重复实验以及统计分析,不少菜鸟(刚入门的研究生)对其中的重复实验应该怎么设计感到困惑。为此,B.J童鞋特意把2012年EMBO Reports的一篇关于这个主题的文章翻译成中文,以飨读者。中文版本略有删节和修改,感兴趣的读者也可以直接阅读原文。如有谬误,还盼同行指正!


Replicates and repeats—what is the difference and is it significant?

A brief discussion of statistics and experimental design

David L. Vaux, Fiona Fidler & Geoff Cumming


技术重复与生物学重复

翻译:B.J

校阅:Lee


科学是从反复的实验和观察中获得的知识。为了使人信服,一篇科学论文需要提供结果可重复的证据。这种证据可能来自于多次独立重复整个实验,或者不同技术独立实验得到的数据,并使用恰当的统计学方法——置信区间(CI)或显著性检验(P)。在过去的几年里,很多杂志都对作者以及编辑强化了他们的指导方针,以此来确保误差线在图例中被描述出来(如果误差线在图中出现的话)并且对图像处理软件的使用建立标准。这些措施对提高图像质量以及减少没有描述误差线的论文数量起到了帮助。然而,问题还存在于重复实验以及独立重复数据如何被描述和解释。因为生物实验对象的复杂性,通常用重复测量(一般称为“技术重复”)来监测实验效果,但这样的重复不是独立假设检验,因此不能为主要结果的再现性提供证据。在这篇文章里,我们将举例解释为什么从“技术重复”中得到的数据不能被用来对假设的正确性做出推论,不能被用来计算Cl以及P值,也不应该出现在图中

 

一、例子1——(BDL蛋白对于骨髓细胞响应细胞因子HH-CSF的作用)

1. 错误的实验设计与无效的数据处理

我们正在检验一个假设:Bdl基因编码的BDL蛋白对于骨髓细胞响应细胞因子HH-CSF是必须的。我们有野生型和纯合的Bdl基因缺失小鼠,还有一小瓶重组的HH-CSF。我们准备了来自单只WT和Bdl-/-小鼠(Bdl+/-杂合子交配得到的同窝同性别仔鼠)的骨髓细胞悬浮液并用血球计数了悬浮细胞的数量,随后将他们调整到每毫升软琼脂糖生长培养基溶剂中有1×105个细胞。我们加入1毫升悬浮液的等分试样到10个35×10mm培养皿中,每个包含10微升盐水或纯化的重组小鼠HH-CSF。

我们在培养箱中放入四组(每组十个)软琼脂培养物:第一组十个平板有WT骨髓细胞与生理盐水;第二组有Bdl-/-细胞与生理盐水;第三组具有WT细胞和HH-CSF;第四组具有Bdl-/-细胞和HH-CSF。一周后,我们从培养箱中取出平板,并用解剖显微镜计数每个平板上的细胞克隆数(>50个细胞的集落)。表1列出了计数的克隆数。

我们将计数结果绘制在一张图上。如果我们仅仅绘制每组一个平板的克隆数(图1A显示了平板1的数据),很明显HH-CSF对于很多克隆的产生是必需的,但是Bd1-/-细胞的反应是否与WT细胞的反应有显著差异,并不是很明显。此外,图看起来不够“科学”;在这里没有误差线和P值。另外,我们只展示了一个平板的数据,这就违背了科学最基本的规则,那就是相关数据应该被记录并且经过分析,除非能够给出好的理由来说明为什么一些数据被省略了。

为了使图看起来更好,我们可以在图中增加每组前三个平板的克隆平均数(图1B),并附带误差线来报告每种类型三个数值的标准误差(SE)。现在,它看起来更加像知名度高的杂志中的图了。但是当我们用每种类型的三个平板的数据来评估WT和Bdl-/-细胞对HH-CSF反应的统计学差异显著性时,我们发现P>0.05,这表明他们的差异不显著。因为每组我们还有七个平板,所以我们可以绘制全部10个平板的平均值和SE,并重新计算P值(图1C)。现在,我们很高兴发现了WT和Bdl-/-之间有非常显著的差异性,P<0.0001。

然而,虽然在统计学上他们的差异非常显著,但是列的高度并没有显著差异,很难看出误差线。为了补救这一点,我们只需要将y轴的起点由0改为40(图1D),这样就能强调对HH-CSF相应的差异性。尽管这样做需要去除生理盐水对照的因素,但对高端杂志来说这并没有视觉印象那样重要。

通过小小的努力,无需另外的实验,我们就将一个平淡无奇的结果(图1A,B)转变成了一个有显著差异P值,为我们的假设(BDL对HH-CSF的响应是必须的)提供强有力支持的,看起来属于高端杂志的一张图(图1D)。


2. 问题在哪?

首先,我们的数据并没有证实BDL对于骨髓细胞响应HH-CSF是必须的这一假设,事实上是反驳了这一假设。很明显,在没有BDL时,骨髓细胞克隆仍然在生长,尽管数量没有Bdl基因完整时那样大。实验结果与“required”、“essential”、“obligatory”之间并没有什么联系,但在看到局部效应时仍然经常会被不恰当的使用。至少我们应该将假设进行修正,或许可以改为“BDL对骨髓集落形成细胞完整响应HH-CSF是需要的”。

第二个主要的问题是P值的计算以及统计显著性是建立在“技术重复”组的SE上,但是每个条件下的10个重复组都是由一个小鼠的单一骨髓悬浮液得到的。在这样的情况下,我们最多只能推断出从特定WT小鼠与从基因删除小鼠获得的骨髓悬浮液中克隆形成细胞的浓度之间的统计学显著差异性。我们只做了一个对照,所以n=1,不管我们计数了多少个重复的平板。为了能够得到一个对所有WT小鼠和Bdl-/-小鼠都普遍适用的推论,我们需要多次重复我们的实验,每种类型的小鼠需要用数只来做几组独立对照。

从重复的平板中得到的结果是相互串联的而不是独立的数据,因为他们都来自于相同的骨髓细胞悬浮液。例如,如果我们在确定骨髓细胞悬浮液的浓度时犯了错误,这种错误会系统性的适用于所有平板。在这种情况下,我们用血球计来数出骨髓细胞最初的数量,这种方法只能给出±10%的精确度。因此,无论我们数了多少个平板,或者在图1中的误差线有多小,做出结论说在WT和Bdl-/-中存在差异都是无效的。另外,即使我们用流式细胞分析仪来精确地将相同数量的骨髓细胞分拣到每个平板中,我们还是只检测了单只Bdl-/-小鼠的细胞,所以n还是等于1。

为了具有说服力,介绍新发现的科学论文需要提供结果具有重复性的证据。虽然会有人认为即使n=1,提出的假设也可能代表了一项重要的科学发现。但是,如果有人声称他有一只会说话的狗并且在一个场合下已经观察到这只狗说了一个字的话,很少有人会相信,大多数人会要求这只狗多说几个字并且在几个场合下有一些独立的目击者见证。克隆羊多利代表了一项科学突破,但是它只是Campbell等人描述下的五只中的一只,此外还有8个胚胎用微卫星分析鉴定显示和核供体细胞完全相同。


3. 正确的实验设计与有效的数据处理

        统计只能对独立样本所在的总体进行推论在最初的实验中我们将骨髓细胞悬浮液等分得到重复组(图2A),因此我们只能将结论推广到等分样本来源的总体——在这种情况下,总体就是单个小鼠的骨髓细胞悬浮液。为了检验我们的假设,有必要再做一个图2B中显示的那样的实验——骨髓分别从随机的WT小鼠样本和Bdl-/-小鼠样本中分离得到。只有这样,我们才能与WT小鼠的情况进行比较,得到关于Bdl-/-小鼠的结论。而在图2A中,无论我们计数了多少个重复的平板,与WT小鼠(是与我们假设相关的对照)进行过对比的Bdl-/-小鼠的数量是1,所以n=1。与之相反,在图2B中,我们将三只Bdl-/-小鼠与三只对照组小鼠进行了对比,所以n=3,不管我们处理了每只小鼠骨髓细胞三个重复平板还是三十个重复平板。在这里要注意的是,出于统计学的原因,样本数量n要大于3是非常合理的

        此外,通常还建议用一些其它的方法来检验我们的假设,例如,用抗体来抑制HH-CSF或者Bdl,或者在Bdl-/-细胞中重新表达Bdl基因的cDNA。

 

二、例子2qRT-PCR

确定mRNA丰度最普遍的方法是实时定量逆转录PCR(qRT-PCR;下面的例子也同样非常适用于ELISA或者相似的实验)。这个实验通常使用多孔板,以便PCR仪能够同时检测多个样本。我们要用qRT-PCR去比较对照组骨髓细胞与HH-CSF处理组骨髓细胞中Bjm基因的mRNA表达水平,以此来检验HH-CSF诱导Bjm基因表达的假设。我们从一只正常小鼠中分离出骨髓细胞,并将含有1百万个细胞的等分试样分配到六孔板中的两个孔中(目前我们只用了六孔板的两个孔)。我们在一个孔中(对照)加入4ml普通的培养基,在另一个孔中(实验)加入添加HH-CSF的混合培养基。平板孵育24h后将细胞转移到两个tube管中用TRizol来提取RNA。然后将RNA悬浮在50uLTRIS做缓冲的无RNA酶的水中。

我们从每个管中取出10uL分别加入到两个新的管中,这样每个试样中Actin(对照)和Bjm的信息都能得到确认。现在我们有了四管,每管有10uLmRNA溶液。我们制作了两套反应混合物,这两套混合物唯一的不同就是一个有ActinPCR引物,一个有Bjm引物。我们在四个管中每管添加40uL的反应混合物,这样每管都是50uL。混合之后,我们从四管样品中分别得到3个10uL的等分试样,接着将它们放到384孔板中的三个孔里,这样一共有12个孔含有RT-PCR混合物。然后将平板放到热循环仪里。一个小时后,得到结果的电子数据表。

接着我们计算了三组从HH-CSF处理过的细胞中得到的RNA的Bjm信号与Actin信号的比率,还要三组对照组的Bjm与Actin的比率。在这个实验中,三个重复组的变化不会被抽样误差所影响(这是造成早期骨髓集落形成检测中大多数集落数变异的主要原因),但是这只能反映重复组的保真度,也可能是PCR仪中不同的孔在加热中的一些变化。3个10uL的等分试样都来自相同的,单独的mRNA准备品,所以我们对这个管中的内容做出推论。想之前的那个例子一样,在这个实验中,我们的n还是等于1,不能对主要的实验假设做出推论。就算在每个RNA样品在10个或者100个孔中测定,结果还是一样的;我们只是在比较一个对照样本和一个实验样本,所以n=1(图3A)。为了得到关于HH-CSF对Bjm表达影响的一般结论,我们必须要用几组独立的样本进行试验,这些样本来源于单独培养的经HH-CSF刺激的骨髓细胞(图3B)。

例如,我们可以在组织培养板的六个孔中都放上骨髓细胞,然后用HH-CSF来单独培养其中的三个,其余的三个用不添加HH-CSF的培养基来单独培养作为对照。从这六个培养物中我们可以得到mRNA,然后把每个样品分到6个孔中,用qRT-PCR测定Actin和Bjm的RNA水平。在这个实验中,机器要阅读36个孔。如果实验照这种方法来做,那么n=3,因为这里有三个独立的对照培养还有三个独立的依赖HH-CSF的培养,这就是在检验我们关于HH-CSF诱导Bjm表达的假设。接着我们就可以概括关于重组HH-CSF小瓶对Bjm表达的影响的结论。然而,在这个实验中(图3B)P>0.05,所以我们不能排除出现的差异只是偶然,HH-CSF对Bjm的表达没有影响这种可能性。要注意的是我们也不能总结说它是没有影响的;如果P>0.05,我们能够做出的唯一结论就是我们不能做出任何结论。要是在图3A中我们计算并展示了重复组的误差和P值,那么我们已经错误得进行了总结,并且可能误导了读者做出“在统计学上HH-CSF在刺激Bjm转录中有很重要的作用”这样的结论。

 

三、为什么还要费心设置技术重复?

我们已经知道“技术重复”不允许用于推断或做出与我们检验假设相关的结论。那么,技术重复可以全部省掉吗?答案是:不应该!技术重复是对实验的内部质量检查

例如,在表1和图1所描述的实验中如果一个用生理盐水处理的骨髓细胞的平板有100个集落,那么你会立马猜测有什么地方出错了。你可以检查平板来看看是不是弄错了标记。你可以用显微镜来观察集落,然后会发现实际上他们被酵母菌菌落污染了。要是你没有做任何的重复组,很有可能你根本不会意识到错误已经发生了。

图4展示的是和图3一样的qRT-PCR的实验结果,但是在这个实验中,有一组的三个PCR比率的变化比其他的都大。此外,这种大的变化可以由三个重复组中的一个值来解释—也就是图中最上面的圆圈。如果你得到了像图4A中的结果,你要看看重复组里ActinBjm单独的PCR数据哪个比较奇怪。如果Bjm引物PCR样本异常高的话,你可以检查下PCR板中相应的孔,来看看它和其他的孔的体积是不是一样。与之相反,如果Actin PCR的值远小于其他两个重复,检查下平板上的孔你可能会发现体积特别小。出现异常的结果要么就是意外地加了两份等分试样,要么就是加了两份的PCR引物反应混合液。或者可能是移液管的头松了,或者有晶体模糊了光学,或者移液管被一些杂物堵到了等等等等。

因此,重复组会提醒你有异常结果出现,这样你就会知道什么时候能继续往前,什么时候要重复试验。重复组是对做出的实验保真度的内部检查。他们可以提醒你管道、泄漏、光学、污染、悬浮、混合或混乱的问题,但是他们不能被用来推断结论。

因为技术重复与被检验的假设不相关,他们本身以及从他们得到的统计不应该出现在图中。在图4B中,大的点表示的是图4A里排除了异常重复组数据后,重复组的平均值。尽管在这张图中你可以绘制出三个独立的培养基处理和HH-CSF处理的mRNA结果的平均值和标准误差(SE),但在这种情况下,我们绘制了独立的结果出来并且没有显示出误差线。当独立数据点的值比较低时,他们被画在图上时是比较容易被看到的,我们建议只需要这样做就行了,不用显示出平均值和误差线。

 

四、我们在读文章的时候需要找什么?

尽管“技术重复”是一个非常有价值的监测实验性能的内部控制,但是没有必要将其显示在发表文章的图里面,因为从技术重复中得到的统计数值与我们检验假设不相关。如果技术重复的统计数值、误差线、P值显示出来了,会误导读者认为这些与文章结论相关。如果你正在阅读一篇论文,并且看到一个图里的误差线(无论是SD,SE还是CI)都非常小,可能会提醒你它们来自重复样本而不是独立样本。你应该仔细看图例来确定统计数据是来自于重复样本还是独立样本。如果图例没有声明误差线是什么,n是什么,结果是重复样本还是独立样本,问问你自己这些删减是不是破坏了论文,还是读了论文之后一些知识还是能得到。

如果图中的数据来自于技术重复的统计结果,那么你要持怀疑态度,因为在这种情况下,n=1,并不能得出有效结论,即使作者说这是“代表性”结果——如果作者有更多的数据,应该被包含在发表的结果中。如果你想看更多什么不能做的例子,在网上搜索关键词“SD of one representative”, “SEM of one representative”, “SD of replicates”或者“SEM of replicates”。

 

我要推荐
转发到