高通量测序技术技术的应用及前景
高通量测序技术是对传统测序一次的改变, 一次对几十万到几百万条DNA分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing)足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(deep sequencing). 高通量测序平台的代表是罗氏公司(Roche)的454测序仪(Roch GS FLX sequencer), Illumina公司的Solexa基因组分析仪(Illumina Genome Analyzer)和ABI的SOLiD测序仪(ABI SOLiD se-quencer). 2008年4月Helico BioScience公司的Timothy等人在Science上报道了他们开发的真正的单分子测序技术, 并利用该技术对一个M13病毒基因组进行重测序. 这项技术之所以被称为真正的单分子测序, 是因为它跨过了上述3种高通量测序依赖的基于PCR扩增的信号放大过程, 真正达到了读取单个荧光分子的能力, 向1000美元测定一个人类基因组的目标迈出了一大步.
这些平台共同的特点是的测序通量, 相对于传统测序的96道毛细管测序, 高通量测序一次实验可以读取40万到400万条序列. 读取长度根据平台不同从25碱基到450碱基, 不同的测序平台在一次实验中, 可以读取1G到14G不等的碱基数, 这样庞大的测序能力是传统测序仪所不能比拟的.
高通量测序的应用
高通量测序可以帮助研究者跨过文库构建这一实验步骤, 避免了亚克隆过程中引入的偏差. 依靠后期强大的生物信息学分析能力, 对照一个参比基因组(reference genome)高通量测序技术可以非常轻松完成基因组重测序(re-sequence), 2007年van Or-souw等人[56]结合改进的AFLP技术和454测序技术对玉米基因组进行了重测序, 该重测序实验发现的超过75%的SNP位点能够用 SNPWave 技术验证, 提供了一条对复杂基因组特别是含有高度重复序列的植物基因组进行多态性分析的技术路线. 2008年Hillier对线虫CB4858品系进行Solexa重测序, 寻找线虫基因组中的SNP位点和单位点的缺失或扩增. 但是也应该看到, 由于高通量测序读取长度的限制, 使其在对未知基因组进行从头测序(de novo sequencing)的应用受到限制, 这部分工作仍然需要传统测序(读取长度达到850碱基)的协助. 但是这并不影响高通量测序技术在全基因组mRNA表达谱, microRNA表达谱, ChIP-chip以及DNA甲基化等方面的应用.
2008年Mortazavi等人对小鼠的大脑、肝脏和骨骼肌进行了RNA深度测序, 这项工作展示了深度测序在转录组研究上的两大进展, 表达计数和序列分析. 对测得的每条序列进行计数获得每个特定转录本的表达量, 是一种数码化的表达谱检测, 能检测到丰度非常低的转录本. 分析测得的序列, 有大于90%的数据显示落在已知的外显子中, 而那些在已知序列之外的信息通过数据分析展示的是从未被报道过的RNA剪切形式, 3′末端非翻译区, 变动的启动子区域以及潜在的小RNA前体, 发现至少有3500个基因拥有不止一种剪切形式. 而这些信息无论使用芯片技术还是SAGE文库测序都是无法被发现的. 同年Sugarbaker利用mRNA深度测序对恶性胸膜瘤和对照样品进行比较, 发现了肿瘤中存在的15个不同的点突变.
高通量测序另一个被广泛应用的领域是小分子RNA或非编码RNA(ncRNA)研究. 测序方法能轻易的解决芯片技术在检测小分子时遇到的技术难题(短序列, 高度同源), 而且小分子RNA的短序列正好配合了高通量测序的长度, 使得数据“不浪费”, 同时测序方法还能在实验中发现新的小分子RNA. 在衣藻、斑马鱼、果蝇、线虫、人和黑猩猩中都已经成功地找到了新的小分子RNA. 在线虫中获得了40万个序列, 通过分析发现了18个新的小RNA分子和一类的小分子RNA, 通过对人胚胎干细胞发育前后的分析, 获得了334个小RNA的表达谱带, 包括新发现的104个小RNA.
在DNA-蛋白质相互作用的研究上, 染色质免疫沉淀-深度测序(ChIP-seq)实验也展示了其非常大的潜力. 染色质免疫沉淀以后的DNA直接进行测序, 对比ref seq可以直接获得蛋白与DNA结合的位点信息, 相比ChIP-chip, ChIP-seq可以检测更小的结合区段、未知的结合位点、结合位点内的突变情况和蛋白亲合力较低的区段. 2007年Johnson等人用ChIP-seq 对转录因子NRSF在DNA上的结合位点进行了全基因组的筛查, 获得了1946个结合位点, 小能分辨的结合位点为50个碱基, 这些高质量的ChIP-seq结果提供了研究新的DNA-蛋白相互作用的内容, 其中包括了胰岛发育调控网络中的重要转录因子. 同年Robertson等人用同样的方法检测转录因子和基因组DNA的结合情况. 这两项研究同时验证了以往用ChIP-chip实验检测到的结合位点, 同时发现新的结合位点, Robertson等人发现, ChIP-seq的分辨率可达40碱基. 2008年Chen等人在Cell上发表论文, 用ChIP-seq检测了Nanog, Oct4, STAT3, Smad1, Sox2等13个序列特异性的转录因子与基因组DNA的结合情况, 这些转录因子都是LIF和BMP途径的重要调控分子. 这些转录因子在ES细胞里结合位点为我们揭示了ES细胞内决定ES细胞发育方向的调控网络.
5基因芯片和高通量测序技术的应用前景
高通量测序技术虽然建立的时间不长, 但是在基因组的各个研究领域都显示出其非凡的魅力, 而且日益显示出其对基因芯片“取而代之”的咄咄态势. 那么, 基因芯片向何处去呢?
基因芯片技术经过近15年的发展已经形成了一个系统的平台, 从样品制备、芯片制作、芯片杂交、数据扫描到后期的数据管理, 储存以及深度数据挖掘都有了标准化的流程、坚实的理论和实验的支持, 成为一个非常稳定可信的实验技术, 为广大的研究者所运用, 同时也积累了庞大的公共数据库. 深度测序要建立这样的一个体系同样需要若干年的完善. 芯片杂交结果直观, 分析快速, 适合对生物学样品进行已知信息的检测, 同时芯片数据分析有成熟完整的理论, 为后期数据分析提供强大的支持.
基因芯片的缺点, 就在于它是一个“封闭系统”, 它只能检测人们已知序列的特征(或有限的变异). 而深度测序的强项, 就在于它是一个“开放系统”, 它的发现能力和寻找新的信息的能力, 从本质上高于芯片技术. 研究者可以充分享受这两个平台的比较优势,在获取新信息的基础上, 利用芯片的强项, 即对已知信息的高通量、低成本(相对)的检测能力, 对样品进行快速检测, 短时间内获得有有效的数据.
作为两个高通量的基因组学研究技术, 在应用的某些方面存在重叠和竞争, 但是在更多方面是优势互补, 两种方法联合使用, 将解决以前的单种技术难以解决的问题. 如Euskirchen等人同时用ChIP- chip和ChIP-seq对STAT1的结合位点进行了检测, 结果非常有趣, 两种技术对于强阳性的区段具有非常好的相关性, 而对于一些弱的结合位点, ChIP-chip和ChIP-seq都会丢失部分信息, 而一种方法丢失的信息又恰好能被另一种方法所检出, 完整的数据是来自两部分的整合. 同样的情况也发生在mRNA表达谱检测上, 一种技术能弥补另一种技术遗漏的部分. 因此对一个生物学问题的回答需要不同实验技术的协同配合. 例如目前新兴的Target sequencing 或者叫做序列捕获, Sequence Capture, 技术, 就是结合了芯片和深度测序, 利用芯片探针捕获待测片段, 再用深度测序技术分析核酸序列, 利用高密度芯片和454测序仪曾成功的捕获了6726个500碱基长度的外显子和200 kb到5 Mb的DNA区段, 测序结果显示大多数的捕获DNA是符合设计要求的目的片段, 该实验验证了序列捕获的特异性和可行性, 芯片的序列捕获技术将来有可能在对基因组区段测序的研究中取代多重PCR过程. 芯片这种高通量技术显示出其在样品选择和富集方面的优势和潜力.
随着科学技术的, 能不断地给一项技术带来新的增长点, 基因芯片和深度测序是点杂交技术和测序的高通量革命, 两大分子生物学经典实验技术都发展到了高通量的时代, 正如他们以前对生命科学研究所做出的贡献一样, 今后这两大技术必将继续协同配合推动生命科学研究进入新的纪元.