基因组学 :研究基因组的结构、功能及表达产物的学科

更新时间:2023-09-13 16:18

基因组学(genomics)由托马斯·罗德里克(T.Roderick)在1986年提出,指的是研究基因组的组成、结构和功能的学科,包括测序、基因组作图(遗传图谱、物理图谱、转录图谱)、核苷酸序列分析、基因组注释和基因功能分析等。其主要的研究内容包括结构基因组学、功能基因组学和比较基因组学

随着基因组学研究范围的扩大,研究基因组学的技术也在不断完善,如细胞遗传学技术可以从染色体的水平来研究细胞正常与异常的复制、增殖及分化;脱氧核糖核酸测序技术为为基因组测序提供了技术基础;基因组组装技术为研究复杂物种的基因组单倍型基因组组装及等位基因分析提供了有效方法;基因组等组学序列分析技术可用于基因注释(基因预测)、分析基因组构成和进化、基因组概貌(基因组大小、倍性等)等,也可以利用生物信息学技术对转录组、甲基化组等表达数据进行分析;功能基因组学技术具有大规模、高通量、自动化的特点,在整体规模上全面系统地研究基因组。

随着基因组学技术的不断发展,基因组学的应用范围也越来越广,如种群保护、肿瘤治疗、医药学、营养学毒理学、食品微生物学、体育中均有涉及。

定义

基因组(genome)一词是由“genes”和“chromosome”组合而来,是指一种生物体具有的所有遗传信息的总和,即单倍体细胞核细胞器或病毒所含有的全部脱氧核糖核酸核糖核酸分子。

基因组学(genomics)由托马斯·罗德里克(T.Roderick)在1986年提出,指的是研究基因组的组成、结构和功能的学科,包括测序、基因组作图(遗传图谱、物理图谱、转录图谱)、核苷酸序列分析、基因组注释和基因功能分析等。基因组学的一个显著特点是着眼于研究并解析生物体整个基因组的所有遗传信息,改变了经典遗传学“零敲碎打”的方法,可以全面深入的了解生物系统。

发展历史

基因组学是随着人类基因组研究的不断深入而逐步形成的。

1953年,詹姆斯·杜威·沃森(James Dewey Watson)和弗朗西斯·克里克(Francis Crick)发现DNA双螺旋结构,为研究人类基因组提供了理论基础;随后脱氧核糖核酸测序技术的发明和发展、酵母人工染色体(YAC)技术和后续细菌人工染色体(BAC)等克隆技术及自动测序仪的发明为基因组测序提供了技术基础,1975年由Sanger和Coulson开创的链终止法或1976-1977年由Maxam和Gilbert发明的链降解法DNA测序技术被称为第一代DNA测序技术,读长可达1000bp(basepair,核苷酸碱基对),准确性高达99.999%,并于1975年完成了第一个噬菌体φX174的基因组的测序,1976年完成首个全基因组测序的病毒噬菌体MS2的测序。

美国能源部(DOE)在1984—1986年期间先后组织了多次会议,开始讨论人类基因组测序的重要性和可行性;1989年,美国国立卫生研究院(NIH)成立国家人类基因组研究中心(NHGRC),成为国际上第一个国家级基因组研究机构,由詹姆斯·杜威·沃森(JamesWatson)任主任;经过6年的酝酿和反复论证,美国国会于1990年批准启动人类基因组计划(HGP)项目,拨款30亿美元,计划15年内完成测序。

1991年,文特尔发明的表达序列标签(EST)技术解决了大规模基因表达测定鉴定问题,并提出全基因组鸟枪法测序技术的概念。为最终人类基因组的测序完成奠定了基础。同时模式生物基因组测序研究成果显著,在1995年,第一个能够独立生存的生物体细菌Haemophilus influenzae基因组完全测序出来,在1997年已完成了141种病毒、2种真菌和酿酒酵母的测序工作,完成了小鼠高密度遗传图谱的绘制工作,完成了覆盖率约达92%的水稻基因组第一代BAC指纹物理图,完成了大肠杆菌基因组(5Mb)全部测序,到2000年差不多有50个细菌的基因组序列被测定出来,与此同时,还有更大一点的基因组,如酵母、果蝇秀丽隐杆线虫(一种线虫),Arabidopsisthaliana(一种植物)等。

2000年4月,中国完成人类基因组计划1%的测序任务,准确度99.99%,2001年,人类基因组框架图的“基本信息”公布。由兰德(EricSteven Lander)和克雷格·文特尔(J.CraigVenter)领衔的两支队伍,分别在《自然》和《科学》以专刊形式发表了他们的基因组测序和分析研究结果。2004年10月,公布了人类基因组完成图。

2005年,罗氏制药公司发布454测序系统,标志着第二代测序时代的开启。第二代测序又称为下一代测序技术(next-generationsequencing,NGS),或大量并行测序技术(massive 纬线 sequencing,MPS)、高通量测序技术(high-throughput sequencing HTS),二代测序采用边合成边测序的原理,其独到之处是桥式扩增形成脱氧核糖核酸分子族的技术,读长2×150~2×300bp,通量较高。

2005年3月,人类X染色体测序工作基本完成,并公布了该染色体基因草图。2005年10月26日,6个国家的科学家在英国自然》杂志发表报告宣布人类基因组单体型图计划第一期工作已经完成。

2006年5月18日,美、英科学家在英国《自然》杂志网络版上发表了人类最后一个染色体1号染色体的基因测序。在人体全部22对常染色体中,1号染色体包含3141个基因,数量最多,是平均水平的两倍,共有超过2.23亿个核苷酸碱基对,破译难度也最大:由150名英国和美国科学家组成的团队历时10年才完成。至此,历时16年,覆盖了人类基因组的99.99%、解读人体基因密码的“生命之书”写完了最后一个章节。

2007年5月31日,Watson的个人基因组图谱向全世界公开。2007年10月13日,在深圳高交会一号展馆,全球第一个中国人基因组图谱,即全球第一个蒙古人种基因图谱(炎黄一号)正式发布,这也是第一个亚洲人全基因序列图谱。

2008年初,中国、英国、美国科学家联合发表声明,宣布启动“国际千人基因组计划”,计划对全世界范围内1200个个体进行全基因组测序,测序和分析结果将绘制人类基因组遗传多态性图谱。“千人基因组计划”第一阶段三个先导项目已经完成,在美国《自然》杂志上发布了迄今最详尽的人类基因多态性图谱。

虽然基于光信号的二代测序仍是测序产业中的主力军,然而其测序过程依赖较多的化学预处理,需要做链式扩增及荧光染料标记,导致其成本仍然高昂,且复杂的处理过程容易带来较多的随机误差和系统误差,离廉价高效的测序计划仍有较大差距。为了解决第二代测序存在的上述缺陷,以单分子实时检测技术为特征的第三代测序技术迅速发展起来。已商业化的第三代测序平台包括Pacific Biosciences的单分子实时测序(SMRT),Helicos的单分子测序(SMS)技术,以及Oxford Nanopore Technologies的纳米孔单分子测序技术(MinION)等。

研究领域

结构基因组学

结构基因组学(structural genomics)是以全基因组测序为目标,确定基因组的组织结构、基因组成及基因定位的基因组学的一个分支。它代表基因组分析的早期阶段,以建立具有高分辨率的生物体基因组的遗传图谱(genetic map)、物理图谱(physical map)、序列图谱(序列 map)及转录图谱(transcription map)为主要内容。

1、遗传图谱:即遗传连锁图谱(genetic linkage map),把通过遗传重组所确定的基因和(或)遗传标记绘制在染色体上的相对位置所得到的图谱。它是通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(centimorgan,cM)来表示。随着计算机技术的发展,目前已有多个构建遗传图谱的软件,研究者用的较多的软件主要有MapMaker及JoinMap3.0。

绘制遗传连锁图早期使用的遗传标志为限制性片段长度多态性(restriction fragment length polymorphism,RFLP)、随机引物扩增多态性脱氧核糖核酸(RAPD)、扩增片段长度多态性(AFLP),为第一代遗传标记;20世纪80年代后出现的有短串联重复序列(short tandem repeats ST),又称微卫星,为第二代遗传标记;20世纪90年代发展的单个核昔酸的多态性(single nucleotide polymorphisms,SNP)分析,为第三代遗传标记。遗传图谱可以用于对多种疾病进行遗传分析与基因定位。

2、物理图谱:以遗传图谱为基础,以已知序列标签位点(STS)作为标记,以脱氧核糖核酸实际长度为“图距”绘制,采用分子生物学技术直接将遗传标记或基因定位在基因组实际位置的基因组图谱。物理图谱描绘了DNA上可以识别的标记位置和相互之间的距离,已知的序列标签包括限制性内切酶的酶切位点、基因等。一般物理图谱的构建是利用限制性内切酶将染色体切成片段,再根据重叠序列确定片段间连接顺序来确定遗传标志之间物理距离(bp或kb或Mb)。物理图谱是进行DNA测序和基因组结构研究的基础。

3、序列图谱:在遗传图谱和物理图谱的基础上,对基因组脱氧核糖核酸进行大规模测序绘制的基因组序列图谱,是最详细、最准确的物理图谱。序列分析采用一个区域的DNA序列重叠群使测序工作不断延伸,使用其中的序列标记位点STS作为两个片段间的重叠区域,使分别被测序的短序列进行正确的拼接,最后获得DNA全序列图谱。序列图谱是人类基因组计划的最终目标之一。

4、转录图谱:又称cDNA图谱或表达序列图谱,是一种以表达序列标签(expressed sequencetag,EST)为“位标”绘制的分子遗传图谱。通过从cDNA文库中随机挑取的克隆进行测序所获得的部分CDNA的5‘或3端序列称为表达序列标签,一般长300~500bp。一般说,mRNA的3端非翻译区(3-UTR)是代表每个基因的比较特异的序列,将对应于3-UTR的EST序列进行RH定位,即可构成转录图谱。

功能基因组学

功能基因组学(functuional genomics)是根据结构基因组学的研究结构所提供的基因结构相关信息,采用分子生物学生物化学细胞生物学生物信息学的理论和技术,全面、系统地对基因组中所有基因功能进行注释的学科。

功能基因组学的研究内容包括基因功能的发现、基因表达分析及基因突变的检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育学功能,如参与形态建成等。采用的手段包括经典的减法杂交、差示筛选、CDNA代表差距分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(SAGE)、CDNA微阵列(CDNA microarray)、DNA芯片(DNA 晶片)等。功能基因组学的研究又细分为蛋白质组、转录组、代谢组、癌基因组、疾病基因组、药物基因组、环境基因组和行为基因组等组学的研究。

比较基因组学

比较基因组学(comparative genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机制和物种进化的学科。主要是利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,闸明物种进化关系及基因组的内在结构。

比较基因组学研究内容包括:

1、种间比较基因组学研究:包括全基因组的比较研究、系统发生的进化关系分析。通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。

2、种内比较基因组学研究:研究同种群体内基因组存在的变异和多态性,包括单核酸多态性和拷贝数多态性等。正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。通过对多种生物基因组数据及其垂直进化、水平演化过程进行研究,了解对生命至关重要的基因的结构及其调控作用。

3、基因相关数据库构建:根据基因测序和基因表达的结果,已经构建了核酸数据库、基因数据库、基因组数据库、蛋白质数据库、转录组数据库、代谢组数据库、突变数据库和线粒体数据库等。

4、系统进化研究:生物进化是系统发生、进化关系分析最本质的特征。比较基因组学的理论基础包括生物进化,其研究结果反过来又能丰富和发展生物进化理论。对基因组间的序列比较分析,能够阐明基因序列在系统发生树中的进化关系。

其他研究领域

随着基因组学的发展,其研究内容除了主要的结构基因组学、功能基因组学和比较基因组学三类外,同时又派生出转录组学、生物信息学蛋白质组学、代谢组学及遗传调控相关的表观遗传学等相关研究领域,简要介绍以下几种领域。

营养基因组学:营养基因组学主要是研究营养素与基因之间的相互作用。一方面研究营养素对基因表达的调控作用,另一方面研究遗传因素对营养素消化、吸收、分布、代谢和排泄的决定作用。在此基础上,探讨两者相互作用对生物体表型特征(如营养充足、营养缺乏、营养相关疾病、先天代谢性缺陷)影响的规律从而针对不同基因型及变异或针对营养素对基因表达的特异调节作用,制订出营养素需要量、供给量标准和膳食指南或特殊膳食平衡计划,为促进健康、预防和控制营养缺乏病、营养相关疾病和先天代谢性缺陷提供真实、可靠的科学依据。

宏基因组学:是在微生物基因组学的基础上发展起来的一种研究微生物多样性、开发新的生理活性物质(或获得新基因)的新理念和新方法。其主要含义是:对特定环境中全部微生物的总脱氧核糖核酸(也称宏基因组,metagenome)进行克隆,并通过构建宏基因组文库和筛选等手段获得新的生理活性物质,或者根据rDNA数据库序列设计引物,通过PCR技术从提纯的宏基因组中扩增细菌rDNA,从而获得特定环境中的各种细菌的rDNA,测定序列后,通过系统学分析获得该环境中微生物的遗传多样性分子生态学信息。

相关技术

细胞遗传学技术

一般包括利用流式细胞仪进行基因组大小估计、利用细胞遗传学技术进行染色体水平的分析,如染色体基数、荧光原位杂交(FISH)等。

DNA测序技术

目前DNA测序技术主要包括3类,分别为传统测序技术(Sanger测序技术)、第二代和第三代测序技术。

传统测序技术(Sanger测序技术)也是第一代基因测序技术,其原理是双脱氧链终止法(又称末端终止法),该方法准确率较高,测序读长1000bp左右,但测序通量较低。

二代测序技术主要是Ilumina测序技术,该技术同样采用边合成边测序的原理,其独到之处是桥式扩增形成DNA分子族的技术,读长2×150~2×300bp,通量较高,是主流二代测序技术。

三代测序技术包括:①美国太平洋生物科学(Pacific Biosciences,PacBio)公司推出的单分子实时测序(SMRTsequencing),其原理也是基于边合成边测序,通过记录脱氧核糖核酸链合成时的荧光信号来测定DNA模板序列,测序速度快,平均读长30kbp,最长可达90kbp,测序通量较高。②英国牛津纳米孔(Oxford Nanopore)公司推出的基因纳米孔测序技术,其原理是测量长链DNA或核糖核酸分子在电场作用下核苷酸顺序通过纳米孔时的电流变化直接读取序列,读长超长。

基因组组装技术

基因组组装包括3个过程:一是基于高通量测序数据进行拼接,获得支架(脚手架)水平的拼接结果;二是利用Hi-C等技术进行组装,获得超级支架(super scaffold)水平的拼接结果,如果基因组简单,超级支架甚至可以达到染色体系列水平;三是利用遗传图谱等进行染色体水平的组装,获得最完整和准确的基因组组装结果。

基因组等组学序列分析技术

获得基因组组装结果后,一般利用生物信息学和进化生物学技术对基因组进行基因注释(基因预测);对基因组构成和进化等进行分析;对基因组概貌(基因组大小、倍性等)进行分析;也可以利用生物信息学技术对转录组、甲基化组等表达数据进行分析。

功能基因组学技术

该方面的技术比较多。一是以数量遗传学的基因定位全基因组关联分析,如QTL(quantitative trait locus,数量性状基因座)、GWAS(Genome Wide Association Study,全基因组关联研究)、BSA(Bulk Segregant Analysis,群组分离分析法);二是全基因组范围的突变体技术,如T-脱氧核糖核酸插入、TILLING(Targeting Induced Local Lesions in Genomes,定向诱导基因组局部突变技术);三是基因敲除和过量表达等功能技术,如核糖核酸i技术、基因编辑技术等。

应用及潜在应用

在种群保护中的应用

基因组学技术和方法已经在生态学、进化生物学等方面得到了非常广泛的应用,大量濒危物种的基因组被测定,为保护生物学研究奠定了基础。

一是可以更准确的系统发育关系和种群遗传结构,物种是最基础的分类单元,保护计划的成功实施在很大程度上依赖于对保护目标的分类地位的正确识别,还要避免将不同种、不同来源的种群聚在一起。全基因组数据包含了一个物种的几乎全部遗传信息,通过全基因组信息来重建系统发育树更具说服力,而利用基因组数据来确定种群遗传结构在很多濒危物种中也得到了应用,基因组技术可以更有效地解决保护生物学中传统标记解决不了的争议。

二是可以重塑种群历史动态,种群历史动态的研究内容包括瓶颈、迁徙模式、扩散和历史有效种群大小的评估等,在保护生物学中具有重要的意义。将现生种群的基因组与进化历史结合起来,有助于了解过去的历史事件及其对现生种群的基因组背景的影响,以应对保护管理中的各种挑战。

三是可以鉴定环境适应性分子机制,对支持物种适应特定生境条件的基因组区域的识别是进化生物学的研究热点之一,也是保护生物学中功能性保护的重要基础。全基因组扫描是确定与生境适应性相关的位点和基因组区域的有效方法,借助于基因注释结果,可以确定与这些区域关联的适应性基因的功能,在一系列的环境条件下将表型与基因相关联。

在医药学中的应用

肿瘤治疗

肿瘤学领域,通过对肿瘤组织和正常组织基因组的研究与相互比较,人们可以充分了解肿瘤组织中特异的基因改变,从而明确肿瘤发生发展的内在机制。在肿瘤诊断中,可以及早发现与肿瘤发病密切相关的基因改变;而在肿瘤治疗中,又可以为肿瘤精准治疗提供有效的靶点。

基因组学的一个最成功的运用就是美国国立癌症研究所(NCI)主导的TCGA数据库的建立。通过对超过20种肿瘤基因组的详细检测与分析,TCGA数据库提供的数据不但使人们对肿瘤的代表性基因改变有了系统的认识,而且根据基因表达及基因改变的特征,对肿瘤进行了新的基于分子层面的分类,根据TCGA的数据,原来在组织学分类中属于同一类的肿瘤被进一步分出分子亚型,可以更加准确地对病人进行诊断以制定更加合适的治疗方案。

个体化治疗

现代分子生物学、分子医学以及药物基因组学等学科的发展,使医学研究越来越趋向于个体化。通过对用药个体基因组多态性及其对药物反应相关性的分析,可制定基于个体遗传学特征之上的“个体化治疗”。根据药物动力学的原理,通过测定服药者体内的药物浓度,计算出药物动力学参数,设计个体化给药方案。

新药研发

利用基因组数据库,经生物信息学分析、高通量基因表达筛选等现代生物技术快速高效的研发新药。还可根据基因型选择有效的治疗群体,从I期临床试验开始,实验对象就被划分为不同的基因型,根据实验数据和结果,在进入II期、III期临床试验时,则可明确这些药物适合哪些患者,或选择哪些患者作为实验对象,避免不良反应的发生。

基因诊断

随着基因诊断技术的不断发展,运用分子生物学的技术方法来分析受检者的某一特定基因的结构(脱氧核糖核酸水平)或功能(RNA水平)是否异常,以此来对相应的疾病进行诊断,是重要的病因诊断技术之一。在遗传性疾病中主要用于单基因遗传疾病的诊断、鉴别诊断及病因确定;为表型多样性疾病的基因分型提供依据;对单基因和多基因遗传性疾病易感人群进行早期诊断和干预;神经系统遗传性疾病的产前诊断和咨询。

在毒理学中应用

应用基因组学对新开发药物的潜在毒性进行临床前期筛选在制药业已经得到了广泛共识。在短期内对大量的新化合物(New Chemical Entities,NCEs)进行排查,使能够除去健康隐患的化合物,保留表达基因图谱无显著变化的化合物;其次,可以为生态风险评价提供有益的支持性证据,短期看,能够提供确定的毒理学终点;长期来看,可以提供更高的预测性,并且对作用机制有更好的理解。因此,生态毒理基因组学技术在污染物的生态风险评价中发挥越来越重要的作用。

在食品微生物学中的应用

对这些发酵菌株基因组学的研究可以揭示它们的驱化过程是如何适应食品发酵环境的。罗伊乳杆菌(乳杆菌属 reuteri)原本来源于人体肠道,在食品加工中常用于酸面团的发酵剂,通过比较肠道的和酸面团发酵的罗伊乳杆菌株的基因组发现,用于面团发酵的菌株出现了基因水平转移和基因缺失,并且参与能量代谢和糖类代谢的基因在这些菌株中更为普遍,以便于其在酸面团发酵过程中表现出竞争优势。通过对基因组的生物信息学分析,搜寻和这些特性相关的CRISPR-Cas系统基因、EPS基因和氨基酸合成相关基因,可以快速筛选合适的发酵菌株。

在食源性致病菌的研究中,应用基因组学能够揭示致病菌的致病机制。细菌致病机制的研究主要集中在细菌毒力因子的鉴定上,生物信息学方法是基于大量微生物基因组序列的一种高效筛选和分析毒力基因的方法。可以通过比较基因组学分析与已知毒力基因数据库进行BLAST(basic local alignment search tool)比对分析的方法来寻找毒力相关基因。如果要鉴定的基因并非目前已知的毒力基因,则对同一物种不同致病菌株、致病株与非致病株进行比较基因组学分析,筛选出候选毒力基因,并设计表型实验进行毒力验证。

在营养学中的应用

随着人类基因组图谱绘制的完成和近年来高通量测序技术的发展,越来越多的研究逐渐认识到不同个体中参与营养素的吸收和代谢的调控基因存在差异,并且基因位点的差异可以通过影响代谢酶的活性并进一步影响个体对营养素的需求。因此,营养遗传学(nutrigenetics)和营养基因组学(nutrigenomics)应运而生,并成为营养学研究的新前沿。

在体育运动中的应用

基因型的差异可能导致显型的改变,针对与体育运动中具有重要意义表现相关型的基因型或基因组标记进行识别具有重要意义。这样的基因组标记可以用于体育运动中的选材,开发个性化的训练和营养方案,以及针对伤病的个性化治疗。

诺贝尔奖

2022年诺贝尔生理学或医学奖的获奖者是著名生物学家、进化遗传学家斯万特•帕博(Svante Pääbo)。他通过研究已灭绝古人类的基因组,对探索人类演化作出了巨大贡献。文章介绍帕博及其团队关于尼安德特人丹尼索瓦人的研究和发现,以及古脱氧核糖核酸领域近30年的发展和最新成果。

2020年10月7日,诺贝尔化学奖被授予法国生物化学家埃玛纽埃尔·沙尔庞捷和美国生物化学家珍妮弗·道德纳,以表彰她们对新一代基因编辑技术CRISPR的贡献。诺贝尔奖委员会表示,这两位科学家的发现非常重要——她们发现了基因技术中最强有力的工具之一:CRISPR/Cas9基因剪刀。使用这一技术,研究人员可以非常精准地改变动物、植物和微生物的DNA。这一技术对生命科学产生了革命性的影响,正在催生新的癌症疗法,并有可能使治愈遗传性疾病梦想成真。

相关法律

20世纪90年代中期,美国国会开始制定立法,保护公民免受雇主、保险公司基于基因的健康歧视。由此产生的法律,即《遗传信息非歧视法案》(Genetics Information Nondiscrimination Act,GINA),在2008年最终通过。

在英国,上议院基因组医学报告没有建议立法禁止遗传歧视,但建议直接面向消费者的基因检测公司采用统一的行为准则来评估此类服务的医疗效用及客户的遗传咨询需求。

2010年2月1日《人类基因检查法》(Human Genetic Examination Act)生效,只有经过充分性同意的医生才能进行基因检测,并对违法行为进行特定处罚。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: