当前位置：首页 > news >正文

做食物的网站番禺是哪里

news 2026/4/26 21:53:29

做食物的网站,番禺是哪里,云安区学校网站建设统计表,宁波正规seo推广公司Haplotype-resolved chromosomal-level genome assembly of Buzhaye (Microcos paniculata) 破布叶、布渣叶#xff08;Microcos paniculata#xff09;单倍型解析染色体级别基因组组装摘要布渣叶#xff08;Microcos paniculata#xff09;是一种传统上用作民间药物和…Haplotype-resolved chromosomal-level genome assembly of Buzhaye (Microcos paniculata) 破布叶、布渣叶Microcos paniculata单倍型解析染色体级别基因组组装摘要布渣叶Microcos paniculata是一种传统上用作民间药物和制作草药茶的灌木。之前对该物种的研究主要集中在其化学成分和药用价值上。然而缺乏参考基因组限制了对该物种活性化合物分子机制的研究。在此我们基于PacBio HiFi和Hi-C数据组装了M. paniculata的单倍型解析染色体级别基因组。组装包含两个单倍体基因组大小分别为399.43 Mb和393.10 MbContig N50长度分别为43.44 Mb和30.17 Mb。约99.93%的组装序列可以锚定到18条伪染色体。此外共鉴定出482 Mb的重复序列占基因组的60.76%。共鉴定出49,439个蛋白编码基因其中48,979个99%得到了功能注释。该单倍型解析染色体级别的组装和注释将成为研究该物种活性化合物的生物合成和遗传基础的重要资源并推动锦葵目进化基因组学研究的发展。背景与概要布渣叶Microcos paniculata Linnaeus图1a在中文中称为布渣叶是一种在传统中药和凉茶中常用的灌木1包括王老吉、霍七正2和加多宝年需求量约为250吨布渣叶后市浅析--A03市场周刊·行情分析--2008-04-28--中国医药报。布渣叶的叶子也常用于治疗食积、湿热黄疸和发热的民族药物中3。迄今为止许多研究广泛调查了该物种的植物化学成分和药理特性揭示了布渣叶提取物中存在的生物活性次级代谢产物如黄酮类、生物碱、三萜类和有机酸1,4。然而由于缺乏高质量的参考基因组布渣叶中次级代谢产物生物合成的分子基础和进化很少被报道5。形态特征 (a) 和布渣叶 (M. paniculata) 基因组组装和注释的景观 (b)。从外到内的轨道依次为伪染色体、I类转座子密度、II类转座子密度、蛋白质编码基因密度、串联重复比例、GC含量和共线性区块。在本研究中我们使用106×短读段42 Gb、35×HiFi读段14 Gb、75×Hi-C读段30 Gb和50×iso-seq读段20 Gb对布渣叶基因组进行了组装。最终的组装约792 Mb由两个完整的单倍型组成单倍型A399.43 Mb和单倍型B393.10 Mbcontig N50长度分别为43.44 Mb和30.17 Mb表1。约99.93%的组装序列锚定到182n条伪染色体上图1b。叶绿体和线粒体基因组分别为159,456 bp和380,905 bp。总共鉴定出1,080,648条重复序列长度约为482 Mb占组装基因组的60.76%。在鉴定的重复序列中长末端重复序列LTRs占最大比例数量为394,112累积长度为321,160,287 bp占布渣叶基因组组装的40.52%表2。基因组包含65,874个基因包括49,439个蛋白质编码基因和16,435个非编码基因表3。共注释了48,979个基因占鉴定出的蛋白质编码基因的99%表4。其中44,971个基因通过三种方法共同注释图2。特别是有639个基因被注释为与黄酮类、生物碱和三萜类的生物合成或代谢相关表S1。布渣叶的高质量参考基因组和注释将成为提高我们对锦葵目进化关系理解的重要资源用于研究植物化学化合物的分子基础和生物合成机制并进一步研究和开发布渣叶。 Summary of M. paniculata genome assembly. ParameterGenomeHaplotype AHaplotype BGenome size792,535,851 bp399,432,223 bp393,103,628 bpGC content35.74%35.73%35.75%Contig number371819Contig N1049,527,071 bp55,167,130 bp49,527,071 bpContig N5041,049,410 bp43,438,762 bp30,170,985 bpContig N9012,203,702 bp13,880,047 bp12,203,702 bpScaffold number20119Scaffold N1060,658,723 bp60,706,172 bp60,658,723 bpScaffold N5045,573,016 bp47,575,556 bp45,573,016 bpScaffold N9035,541,173 bp35,541,173 bp36,361,311 bpGap number17710 Summary of repeat elements. TypeNumberLength (bp)Percent (%)Mean length (bp)LTRs394,112321,160,28740.52815LINE5,4663,375,9400.43618Helitron154,91142,417,3365.35274TIR188,12159,996,0547.57319Unclassified132,56845,978,9095.8347Simple repeats172,7267,029,1660.8941Low complexity32,7121,583,1090.248Polinton325,9830187Total1,080,648481,546,78460.76446 Summary of M. paniculata genome annotations. FeatureTotalHaplotype AHaplotype Bgene65,87437,35128,523transcript76,77642,84033,936CDS60,34130,28330,058exon363,716187,057176,659intron286,940144,217142,723mRNA49,43924,79424,645rRNA14,48811,5472,941tRNA911478433other ncRNA1,036532504 Functional annotation of protein-coding genes in M. paniculata. ProgramDatabaseNumberPercent (%)eggNOG-mapperGO22,96346.45KEGG_KO22,37345.25EC10,04520.32KEGG_Pathway14,13328.59eggNOG44,50890.03COG47,85596.80DIAMONDSwiss-Prot36,40073.63TrEMBL48,57298.25NR48,20697.51TAIR1043,58088.15InterProScanCDD16,56033.50Interpro42,03185.02Gene3D34,29669.37PRINTS7,47915.13Pfam39,73480.37SMART15,17730.70 文氏图显示了使用三种策略在布渣叶中唯一和共享的功能注释蛋白质编码基因。方法样本采集与基因组测序布渣叶M. paniculata的样本在中国云南省勐腊县中国科学院西双版纳热带植物园XTBG采集。使用改良的CTAB方法提取基因组DNA6。使用NanoDrop One分光光度计NanoDrop TechnologiesWilmingtonDEUSA和Qubit 3.0荧光计Life TechnologiesCarlsbadCAUSA评估DNA质量。全基因组测序、Pacbio测序、Hi-C高通量染色体构象捕获测序和全长同源异构体测序iso-seq在武汉贝纳基科技有限公司武汉中国进行。对于全基因组测序使用声波仪CovarisBrightonUK将1 μg基因组DNA超声处理至200-400 bp左右的大小范围。按照制造商说明构建短读段文库然后使用PE成对末端150模式在DNBSEQ-T7平台BGI lnc.深圳中国上进行测序。对于长读段测序使用Megaruptor 3剪切套件Diagenode SA.SeraingBelgium剪切基因组DNA。使用AMPure PB磁珠选择套件PacbioMenlo ParkCAUSA选择性去除小于5 kb的DNA片段。使用SMRTbell®制备套件3.0PacbioMenlo ParkCAUSA制备文库然后在Revio系统PacbioMenlo ParkCAUSA上进行测序。使用CCS工作流7.0.07参数--streamed --log-level INFO --stderr-json-log --kestrel-files-layout--min-rq 0.9 --non-hifi-prefix fail --knrt-ada --pbdc-model将原始测序数据转换为HiFi高保真读段。对于Hi-C测序将幼芽的叶片材料固定在2%甲醛溶液中并按照已发表的协议8生成Hi-C文库。简而言之交联材料用400单位MboI消化并标记为生物素-14-dCTP然后进行交联片段的平末端连接。重新连接后逆向交联和纯化通过声波处理将染色质DNA剪切至200-600 bp大小。然后使用链霉亲和素磁珠富集生物素标记的Hi-C片段。加入A尾和适配子后对Hi-C文库进行PCR扩增12-14周期然后在DNBSEQ-T7平台BGI lnc.深圳中国上使用PE150模式进行测序。全长同源异构体测序iso-seq用于获取高质量的转录组数据。使用R6827植物RNA提取试剂盒Omega Bio-TekNorcrossGAUSA按照制造商说明从布渣叶的叶、花和茎中提取RNA。使用牛津纳米孔Oxford Nanopore TechnologiesOxfordUK公司提供的cDNA-PCR测序试剂盒SQK-PCS109制备全长cDNA文库。然后在PromethION测序仪Oxford Nanopore TechnologiesOxfordUK上进行测序。基因组组装将PacBio HiFi读段和Hi-C短读段作为输入结合到Hifiasm v0.19.5-r5929中使用默认参数生成单倍型解析的contig以进行后续分析。使用Juicer v1.5.610将Hi-C读段映射到组装的单倍型contig上然后使用3D-DNA v18092211管道参数为--early-exit -m haploid -r 0进行Hi-C辅助的初始染色体组装。然后使用Juicebox v1.11.0812手动调整染色体边界并纠正错误连接和切换错误。这个过程生成了染色体级别的框架和未锚定的contig序列。使用LR_Gapcloser v1.1.113基于HiFi读段填补染色体组装中的空隙参数为-s p -r 2 -g 500 -v 500 -a 0.25。然后将HiFi读段重新映射到染色体框架。将定位在端粒重复序列TTTAGGG周围的映射读段提取并使用Hifiasm v0.19.5-r592的默认参数组装成contig。将得到的contig重新对齐到染色体框架上以扩展染色体端部的端粒序列共获得28个端粒序列图3a。此外使用GetOrganelle v1.7.515组装叶绿体和线粒体基因组。端粒分布 (a) 和单倍型A与单倍型B之间基因组结构的比较 (b)。使用Nextpolish2 v0.1.016基于HiFi读段和短读段对上述组装进行了打磨使用默认参数。通过Redundans v0.13c17管道参数为-identity 0.98 -overlap 0.8去除冗余单倍型和rDNA片段并手动整理。最终获得了高质量的布渣叶单倍型解析基因组组装。重复序列注释使用EDTAExtensive de novo TE Annotator程序 v1.9.918参数为--sensitive 1 --anno 1进行转座子TE的新发现生成TE库。使用RepeatMasker v4.0.719识别重复元素参数为-no_is -xsmall。蛋白质编码基因和非编码RNA的注释使用来自Theobroma cacao20、Durio zibethinus21、Corchorus capsularis22、Gossypium raimondii23、Heritiera littoralis24、Dipterocarpus turbinatus25、Aquilaria sinensis26、Arabidopsis thaliana27、Carica papaya28、Vitis vinifera29和Bombax ceiba30的314,962个公开的非冗余蛋白质序列作为同源蛋白质证据进行基因注释。使用Minimap2 v2.2431参数为-a -x splice --end-seed-pen 60 --G 200k将iso-seq数据映射到基因组然后使用StringTie v1.3.532参数为-L -t -f 0.05进行组装所得序列用作转录证据。使用PASAProgram to Assemble Spliced Alignmentsv2.4.133根据转录证据注释基因组结构使用默认参数。然后通过与同源蛋白质证据对齐使用BLAT34 -prot并移除查询或目标覆盖率95%的命中鉴定出全长基因序列。使用AUGUSTUS v3.4.035通过全长基因集进行五轮训练和优化使用默认参数。使用MAKER2 v2.31.936管道基于ab initio预测、转录证据和同源蛋白质证据进行注释。简要说明1使用RepeatMasker v4.0.719对基因组中的重复序列进行屏蔽2使用AUGUSTUS v3.4.035基于基因组序列进行ab initio预测3使用BLASTN将转录证据对齐到重复屏蔽基因组使用BLASTX将同源蛋白质证据对齐到基因组。使用Exonerate v2.2.037将BLAST命中重新对齐到基因组4最终使用MAKER2根据上述对齐生成的提示整合预测的基因模型。使用EvidenceModelerEVMv1.1.138进一步合并从PASA v2.4.1和MAKER2 v2.31.9获得的注释结果生成共识注释。使用TEsorter v1.4.139识别基因组上的TE蛋白质结构域参数为-genome -db rexdb -cov 30 -eval 1e-5 -prob 0.9并在EVM过程中屏蔽这些结构域。通过整合UTR序列和可变剪接使用PASA v2.4.1默认参数对EVM的结果进行优化。排除过短50个氨基酸、缺乏起始或终止密码子、包含内部终止密码子或有模糊碱基的注释。然后合并所有注释并移除冗余注释。此外对于非编码RNAncRNA注释使用tRNAScan-SE v1.3.140识别转移RNAtRNA使用Barrnap v0.9GitHub - tseemann/barrnap: :microscope: Bacterial ribosomal RNA predictor识别核糖体RNArRNA。为了确保准确性排除部分rRNA注释。此外使用RfamScan v14.241识别其他ncRNA。我们使用三种策略预测蛋白质编码基因的功能1使用eggNOG-mapper v2.0.042参数为--target_taxa Viridiplantae -m diamond在eggNOG数据库中搜索同源基因从而进行Gene OntologyGO和京都基因与基因组百科全书KEGG注释2使用DIAMOND v0.9.2443参数为--evalue 1e-5 --max-target-seqs 5将蛋白质编码基因与Swiss-Prot、TrEMBL、NRNCBI中的非冗余蛋白质和TAIR10蛋白质数据库进行对齐3使用InterProScan v5.27-66.044通过搜索多个公开数据库如PRINTS、Pfam、SMART、PANTHER和InterPro数据库的CDD注释蛋白质结构域和基序。然后使用TBtools v1.13245绘制Venn图以显示使用上述三种策略注释的独特和共享蛋白质编码基因。单倍型组装之间的比较使用SyRISynteny and Rearrangement Identifierv1.646检测两个单倍型之间的共线性和基因组结构变异大小≥50 bp使用默认参数。我们的分析共鉴定出3,011个共线性区域约350 Mb、768个易位约45 Mb、20个倒位约2 Mb、单倍型A中的2,175个重复约15 Mb和单倍型B中的1,686个重复约8 Mb。大多数重复在染色体4和8上发现大多数倒位在染色体7上发现图3b。SyRI v1.6还用于识别SNP、小插入缺失小于50 bp的插入和缺失和串联重复。最终鉴定出1,264,264个SNP约1 Mb、105,563个插入单倍型B中约2 Mb、100,073个缺失单倍型A中约2 Mb和282个串联重复约1 Mb。数据记录 BGI短读段、PacBio HiFi长读段、Hi-C读段和Iso-Seq数据已存储在NCBI国家生物信息中心的Sequence Read Archive数据库中登录号为SRR25456891-SRR2545689447,48,49,50。最终基因组组装已存储在GenBank数据库中登录号为GCA_030664735.151和GCA_030664755.152。基因组注释可从Figshare存储库获得53。针对该基因组训练和优化的AUGUSTUS模型及MAKER的配置文件可从Figshare存储库获得54。技术验证我们首先计算了映射率作为组装准确性的衡量标准。使用BWA-MEM v0.7.17-r118855和Minimap2 v2.2431默认参数分别将短读段和长读段重新映射到组装上。在过滤掉非主要比对后计算映射率。总的来说99.89%的HiFi读段、97.75%的iso-seq读段和99.81%的短读段被映射表5。此外短读段和长读段数据的读覆盖深度在每个分相染色体上均匀分布表明我们的单倍型解析组装具有高质量图S1。 Summary of mapping rates. Data setReads mappedBases mapped≥1×≥5×≥10×≥20×HiFi reads99.89%99.88%99.99%99.79%96.46%32.19%Iso-Seq reads97.75%99.13%20.77%11.37%8.59%6.34%Short reads99.81%99.81%99.97%99.89%99.73%98.52% 我们使用BUSCOBenchmarking Universal Single-Copy Orthologsv5.3.256基于embryophyta_odb10直系同源数据库评估了基因组组装的完整性。对单倍型A的BUSCO评估鉴定出1,591个完整的BUSCO包括1,561个单拷贝和30个重复的BUSCO占单倍型的98.6%而缺失的BUSCO仅占0.7%表6。类似地对单倍型B的BUSCO评估鉴定出1,588个完整的BUSCO包括1,560个单拷贝和28个重复的BUSCO占单倍型的98.4%而缺失的BUSCO仅占0.9%表6。这表明组装相对完整。我们使用Merqury v1.357估计了基因组组装的一致性和完整性。我们的结果显示基因组组装的一致性质量值QV为73.38完整性值为99.19%表6。我们还使用KATK-mer Analysis Toolkitv2.4.058通过比较HiFi读段和组装中的k-mers估计基因组组装的质量。结果显示读段和基因组组装之间的一致性很高图4a每个单倍型分别代表约一半的杂合峰和几乎所有的纯合峰图4b,c。 Evaluation of M. paniculata genome assembly. ProgramLibraryHaplotype AHaplotype BGenomeBUSCOComplete BUSCOs (C)1,591/98.6%1,588/98.4%1,591/98.6%Complete and single-copy BUSCOs (S)1,561/96.7%1,560/96.7%9/0.6%Complete and duplicated BUSCOs (D)30/1.9%28/1.7%1,582/98.0%Fragmented BUSCOs (F)11/0.7%12/0.7%11/0.7%Missing BUSCOs (M)12/0.7%14/0.9%12/0.7%Total BUSCO groups searched1,6141,6141,614MerquryConsensus quality value (QV)——73.38Completeness——99.19% 使用KATK-mer Analysis Toolkit绘制的基因组(a)、单倍型A(b)和单倍型B(c)的拷贝数谱图。来自HiFi读段的k-mers显示两个主要的杂合多重性18和纯合多重性34峰而来自组装的k-mers显示0-6倍的拷贝数。此外我们使用BUSCO通过仅保留每个基因的最长蛋白质序列来评估基因组注释的完整性发现单倍型A的注释为97.6%完整仅缺失17个1.1%基因单倍型B的注释为97.1%完整仅缺失19个1.2%基因表7这表明注释质量很高。 BUSCO evaluation of M. paniculata genome annotation. LibraryHaplotype AHaplotype BGenomeComplete BUSCOs (C)1,576/97.6%1,567/97.1%1,591/98.5%Complete and single-copy BUSCOs (S)1,553/96.2%1,541/95.5%75/4.6%Complete and duplicated BUSCOs (D)23/1.4%26/1.6%1,516/93.9%Fragmented BUSCOs (F)21/1.3%28/1.7%9/0.6%Missing BUSCOs (M)17/1.1%19/1.2%14/0.9%Total BUSCO groups searched1,6141,6141,614 使用Juicer v1.5.610将Hi-C读段对齐到基因组组装使用默认参数。使用Juicebox12工具的pre命令pre -n -q 0或1将Juicer生成的原始文件转换为hic格式并使用dump命令dump observed BP 100000从hic文件中提取100 kb的接触矩阵。使用Juicebox可视化hic文件。在伪染色体的对角线上观察到强烈的交互信号对角线外没有明显噪音图5a表明该染色体组装的高质量。此外在排除重复读段后未在每对同源染色体上观察到异常图5b这表明在分相单倍型之间没有切换错误。单倍型A和单倍型B的Hi-C交互热图读段比对质量≥0包括重复读段(a) 和比对质量≥1不包括重复读段(b)。颜色条表示交互强度黄色代表低强度红色代表高强度。 Code availability All commands and pipelines used were performed according to the manuals or protocols of the tools used in this study. The software and tools used are publicly accessible, with the version and parameters specified in the Methods section. If no detailed parameters were mentioned, default parameters were used. No custom code was used in this study.

查看全文

http://www.hkea.cn/news/14426704/