当前位置：首页 > news >正文

刚做的win7系统连上网站没网网站建设论文答辩题目

news 2026/4/23 9:29:22

刚做的win7系统连上网站没网,网站建设论文答辩题目,青岛网络推广方案,淘客基地wordpress1. Boltz-2介绍文章来源#xff1a;http://jeremywohlwend.com/assets/boltz2.pdf 开源代码来源#xff1a;https://github.com/jwohlwend/boltz 该AI模型由麻省理工学院计算机科学与人工智能实验室与上市AI制药公司Recursion一起开发#xff0c;双方在Boltz-1的基础之上… 1. Boltz-2介绍文章来源http://jeremywohlwend.com/assets/boltz2.pdf 开源代码来源https://github.com/jwohlwend/boltz 该AI模型由麻省理工学院计算机科学与人工智能实验室与上市AI制药公司Recursion一起开发双方在Boltz-1的基础之上通过改进和拓展性能而来。简单来说Boltz 与 AlphaFold3 一样均是一种全原子共折叠模型它将蛋白质折叠或结构预测的概念扩展到DNA、RNA、配体中。该模型不仅可以预测分子相互作用的 3D 结构还可用于分子设计等下游任务。Boltz-2将亲和力预测与结构建模相结合提高了预测结构的物理真实感。 Boltz-2 在一个大型数据集上进行了训练该数据集结合了500万个结合亲和力测量值、分子动力学模拟和蒸馏数据这些方法显著提高了预测结构的物理真实感。在标准 FEP 亲和力基准测试中Boltz-2 实现了 0.62 的平均 Pearson相关系数能够与可开源 FEP 流程 OpenFE 相媲美。但在速度方面Boltz-2 只需 20 秒即可计算出结合亲和值比当前FEP预测快1000倍在表示学习方面亲和力预测建立在驱动共折叠过程的潜在表示之上。这种表示本质上编码了关于生物分子相互作用的丰富信息。因此Boltz-2在结合亲和力预测方面的改进是由结构建模的进步所推动的。这些进步源于1扩展训练数据超越静态结构包括实验和分子动力学集合2显著扩大多样模态下的蒸馏数据集3通过基于实验方法、用户定义的距离约束和多链模板集成来增强用户控制。整体解析这段文字主要讨论了Boltz-2在结合亲和力预测方面的改进与其背后的驱动因素。首先提到的是表示学习的重要性其中潜在表示latent representation是亲和力预测的核心它能够捕捉生物分子相互作用的关键信息。接着指出Boltz-2的性能提升得益于结构建模的进步而这些进步来源于三个方面一是扩展了训练数据的范围使其不仅限于静态结构还包括实验数据和分子动力学模拟数据二是通过增加蒸馏数据集的规模和多样性来提高模型的泛化能力三是通过引入用户自定义参数如实验方法和距离约束以及多链模板集成增强了模型的灵活性和可控性。这表明Boltz-2不仅在算法层面有所改进还在数据和用户交互方面进行了优化。 Boltz-2药物发现的重要场景 Boltz-2对亲和力的准确预测使得它可用于药物发现的重要场景苗头化合物发现Hit discovery该模型在高通量筛选中区分结合剂binders与诱饵decoys并在MF-PCBA基准测试中实现了显著的富集增益 [Buterez等, 2023]其表现优于对接docking和机器学习ML方法。具体来说该模型的任务是从高通量筛选high-throughput screens中识别出真正的结合剂binders同时排除非活性分子decoys。通过使用MF-PCBA基准测试对该模型进行评估结果表明它在富集增益enrichment gains方面表现优异。富集增益是指模型能够以更高的比例挑选出真正有活性的分子相较于随机选择或传统方法更具优势。此外该模型的表现超越了传统的对接docking方法以及基于机器学习ML的方法体现了其在药物筛选中的潜力。苗头化合物到先导化合物以及先导化合物优化Hit-to-lead and lead optimization 是药物发现和开发过程中的两个关键阶段。首先“Hit-to-lead” 指的是在初期筛选中找到具有活性的化合物称为“hit”然后通过进一步的化学修饰和生物学测试将这些“hit”转化为更具潜力和选择性的候选分子即“lead”。接下来“lead optimization” 是对这些先导化合物进行优化的过程通过对化合物的结构进行调整提高其药效、选择性、代谢稳定性等特性以使其更接近成为临床试验中的候选药物。这两个阶段是药物研发的重要步骤为后续的临床研究奠定基础。从头生成de-novo GenerationDe-novo Generation从头生成与生成模型相结合 [Cretu et al., 2024]Boltz-2 能够发现新的结合剂。在针对 TYK2 靶点的前瞻性筛选中该流程能够生成多样化、可合成的高亲和力结合剂这一点通过绝对结合自由能 (ABFE) 模拟 [Wu et al., 2025] 估算得出。这种方法特别适用于发现针对特定靶点如 TYK2的新结合剂binders。文中提到该流程不仅能够生成多样化的分子还确保这些分子具有高亲和力high-affinity并且可以通过化学手段合成synthetizable。为了验证这些分子的实际效果研究团队使用了绝对结合自由能ABFE模拟来评估分子与靶点之间的结合强度。这种结合强度是药物设计中的关键指标直接反映了分子作为潜在药物的潜力。 Boltz-2的改进及对比优势与Boltz-1相比Boltz-2在跨模态的晶体结构预测方面有所改进特别是在抗体-抗原复合物等具有挑战性的目标上表现尤为突出。当与分子动力学模拟进行基准比较时Boltz-2在预测关键动态特性如均方根波动RMSF方面的性能可以与近期的专用模型例如AlphaFlow [Jing et al., 2024] 和 BioEmu [Lewis et al., 2025]相媲美。 igure 3: Evaluation of the performance of Boltz-2 against existing co-folding models on a diverse set of unseen complexes. Error bars indicate 95% confidence intervals. 2. 安装及应用安装创建一个conda环境boltz-2 conda create -n boltz-2 python3.12激活环境后续在环境中操作。 conda activate boltz-2方法1创建一个新的python环境比如使用conda使用pip安装 pip install boltz -U 方法2下载并安装最新版本 git clone https://github.com/jwohlwend/boltz.git cd boltz; pip install -e . 使用推理 boltz predict input_path --use_msa_server input_path 应指向一个 YAML 文件或用于批量处理的 YAML 文件目录描述您想要建模的生物分子及其预测的属性例如亲和力。要查看所有可用选项boltz predict --help有关这些输入格式的更多信息请参阅我们的预测说明。默认情况下boltz 命令将运行模型的最新版本。 YAML 格式更加灵活允许更复杂的输入尤其是共价键相关的输入。YAML 的架构如下 sequences:- ENTITY_TYPE:id: CHAIN_ID sequence: SEQUENCE # only for protein, dna, rnasmiles: SMILES # only for ligand, exclusive with ccdccd: CCD # only for ligand, exclusive with smilesmsa: MSA_PATH # only for proteinmodifications:- position: RES_IDX # index of residue, starting from 1ccd: CCD # CCD code of the modified residuecyclic: false- ENTITY_TYPE:id: [CHAIN_ID, CHAIN_ID] # multiple ids in case of multiple identical entities... constraints:- bond:atom1: [CHAIN_ID, RES_IDX, ATOM_NAME]atom2: [CHAIN_ID, RES_IDX, ATOM_NAME]- pocket:binder: CHAIN_IDcontacts: [[CHAIN_ID, RES_IDX/ATOM_NAME], [CHAIN_ID, RES_IDX/ATOM_NAME]]max_distance: DIST_ANGSTROM- contact:token1: [CHAIN_ID, RES_IDX/ATOM_NAME]token2: [CHAIN_ID, RES_IDX/ATOM_NAME]max_distance: DIST_ANGSTROMtemplates:- cif: CIF_PATH # if only a path is provided, Boltz will find the best matchings- cif: CIF_PATHchain_id: CHAIN_ID # optional, specifiy which chain to find a template for- cif: CIF_PATHchain_id: [CHAIN_ID, CHAIN_ID] # can be more than onetemplate_id: [TEMPLATE_CHAIN_ID, TEMPLATE_CHAIN_ID] properties:- affinity:binder: CHAIN_IDsequences输入中每个唯一的链/分子都有一个条目。每个聚合物实体都表示为ENTITY_TYPE 、protein或dnarna并具有一个sequence属性。非聚合物实体用ENTITY_TYPE等于表示ligand并具有smiles或ccd属性。CHAIN_ID是每个链/分子的唯一标识符如果结构中存在多个相同的实体则应将其设置为列表。对于蛋白质msa默认情况下需要键但可以通过传递--use_msa_server标志来省略该标志将使用 mmseqs2 服务器自动生成 MSA。如果您希望使用预先计算的 MSA请使用msa属性该属性MSA_PATH指示包含该蛋白质 MSA 的文件的路径。如果您希望明确运行单序列模式通常不建议这样做因为它会损害模型性能您可以使用该蛋白质的特殊关键字例如 .a3m来实现。对于自定义 MSA您可能希望向模型指示配对键。您可以使用 CSV 格式而不是 a3m来实现此目的其中包含两列包含蛋白质序列和其中是一个唯一标识符指示每个蛋白质链在 CSV 文件中的匹配行。emptymsa: emptysequencekey 字段modifications为可选字段用于指定聚合物中的修饰残基proteindna或rna。position字段指定残基的索引从 1 开始ccd为修饰残基的 CCD 代码。此字段目前仅支持 CCD 配体。标志cyclic应用于指定环状聚合物链而非配体。 constraints是一个可选字段允许您指定有关输入结构的附加信息。该bond约束指定两个原子之间的共价键atom1和atom2。目前仅支持CCD配体和规范残基CHAIN_ID指的是上面设置的残基的idRES_IDX是残基的索引从1开始配体为1ATOM_NAME是标准化的原子名称可以在RCSB网站上该组件的CIF文件中验证。约束pocket指定与配体结合的残基其中binder表示与口袋可以是分子、蛋白质、DNA 或 RNA结合的链表示contacts与口袋结合的链和残基索引列表从 1 开始。该模型目前仅支持指定单条链以及其他链中binder任意数量的残基。contacts templates是一个可选字段允许您为预测指定结构模板。您至少必须提供结构模板的路径该路径必须以 CIF 文件的形式提供。如果您希望明确定义 YAML 中的哪些链应该使用此 CIF 文件进行模板化您可以使用该chain_id条目来指定它们。无论是否提供一组 IDBoltz 都会从提供的模板中找到最佳匹配的链。如果您希望自己明确定义映射可以提供相应的 template_id。请注意只有蛋白质链可以进行模板化。 properties是一个可选字段用于指定是否要计算亲和力。如果启用您还必须提供与要计算亲和力的小分子对应的 chain_id。只能指定一个分子进行亲和力计算并且该分子必须是配体链不能是蛋白质、DNA 或 RNA。 version: 1 sequences:- protein:id: [A, B]sequence: MVTPEGNVSLVDESLLVGVTDEDRAVRSAHQFYERLIGLWAPAVMEAAHELGVFAALAEAPADSGELARRLDCDARAMRVLLDALYAYDVIDRIHDTNGFRYLLSAEARECLLPGTLFSLVGKFMHDINVAWPAWRNLAEVVRHGARDTSGAESPNGIAQEDYESLVGGINFWAPPIVTTLSRKLRASGRSGDATASVLDVGCGTGLYSQLLLREFPRWTATGLDVERIATLANAQALRLGVEERFATRAGDFWRGGWGTGYDLVLFANIFHLQTPASAVRLMRHAAACLAPDGLVAVVDQIVDADREPKTPQDRFALLFAASMTNTGGGDAYTFQEYEEWFTAAGLQRIETLDTPMHRILLARRATEPSAVPEGQASENLYFQmsa: ./examples/msa/seq1.a3m- ligand:id: [C, D]ccd: SAH- ligand:id: [E, F]smiles: N[CH](Cc1ccc(O)cc1)C(O)O 例如要使用 10 个回收步骤和 25 个样本AlphaFold3 的默认参数预测结构请使用 boltz predict input_path --recycling_steps 10 --diffusion_samples 25 选项类型默认描述--out_dirPATH./保存预测的路径。--cachePATH~/.boltz下载数据和模型的目录。BOLTZ_CACHE如果设置将使用环境变量作为绝对路径--checkpointPATH没有任何可选检查点。默认使用提供的 Boltz-2 模型。--devicesINTEGER1用于预测的设备数量。--accelerator[gpu,cpu,tpu]gpu用于预测的加速器。--recycling_stepsINTEGER3用于预测的回收步骤数。--sampling_stepsINTEGER200用于预测的采样步骤数。--diffusion_samplesINTEGER1用于预测的扩散样本的数量。--max_parallel_samplesINTEGER5并行预测的最大样本数。--step_scaleFLOAT1.638步长与扩散过程采样分布的温度有关。步长越低样本间的多样性越高建议在 1 到 2 之间。--output_format[pdb,mmcif]mmcif用于预测的输出格式。--num_workersINTEGER2用于预测的数据加载器工作者的数量。--method字符串没有任何用于预测的方法。--preprocessing-threadsINTEGERmultiprocessing.cpu_count()用于预处理的线程数。--affinity_mw_correctionFLAGFALSE是否将分子量校正添加到亲和力值头。--sampling_steps_affinityINTEGER200用于亲和力预测的采样步骤数。--diffusion_samples_affinityINTEGER5用于亲和力预测的扩散样本数量。--affinity_checkpointPATH没有任何可选的亲和性检查点。默认使用提供的 Boltz-2 模型。--max_msa_seqsINTEGER8192用于预测的 MSA 序列的最大数量。--subsample_msaFLAGFALSE是否对 MSA 进行子采样。--num_subsampled_msaINTEGER1024要进行子采样的 MSA 序列的数量。--no_trifastFLAGFALSE是否不使用 trifast 内核进行三角更新。--overrideFLAGFALSE如果发现是否覆盖现有预测。--use_msa_serverFLAGFALSE是否使用 msa 服务器生成 msa。--msa_server_url字符串https://api.colabfold.comMSA 服务器 URL。仅当设置了 --use_msa_server 时使用。--msa_pairing_strategy字符串greedy使用的配对策略。仅当设置了 --use_msa_server 时才使用。选项包括“greedy”和“complete”。--use_potentialsFLAGFALSE是否使用推理时间潜力运行原始 Boltz-2 模型。--write_full_paeFLAGFALSE是否将完整的 PAE 矩阵保存为文件。--write_full_pdeFLAGFALSE是否将完整的 PDE 矩阵保存为文件。亲和力输出中有两个主要预测affinity_pred_value 和 affinity_probability_binary。它们在截然不同的数据集上进行训练并采用不同的监督方法因此应在不同的情况下使用。affinity_probability_binary 字段应用于从诱饵中检测结合剂例如在发现目标化合物阶段。其值范围为 0 到 1表示预测配体为结合剂的概率。affinity_pred_value 旨在测量不同结合剂的特定亲和力以及这种亲和力如何随着分子的细微修改而变化。这应该用于配体优化阶段例如从目标化合物到先导化合物和先导化合物优化。它将结合亲和力值报告为 log(IC50)该值源自以 μM 为单位测量的 IC50。有关如何运行亲和力预测和解析输出的更多详细信息请参阅我们的预测说明。输出 out_dir/ ├── lightning_logs/ # Logs generated during training or evaluation ├── predictions/ # Contains the models predictions├── [input_file1]/├── [input_file1]_model_0.cif # The predicted structure in CIF format, with the inclusion of per token pLDDT scores├── confidence_[input_file1]_model_0.json # The confidence scores (confidence_score, ptm, iptm, ligand_iptm, protein_iptm, complex_plddt, complex_iplddt, chains_ptm, pair_chains_iptm)├── affinity_[input_file1].json # The affinity scores (affinity_pred_value, affinity_probability_binary, affinity_pred_value1, affinity_probability_binary1, affinity_pred_value2, affinity_probability_binary2)├── pae_[input_file1]_model_0.npz # The predicted PAE score for every pair of tokens├── pde_[input_file1]_model_0.npz # The predicted PDE score for every pair of tokens├── plddt_[input_file1]_model_0.npz # The predicted pLDDT score for every token...└── [input_file1]_model_[diffusion_samples-1].cif # The predicted structure in CIF format...└── [input_file2]/... └── processed/ # Processed data used during execution 该predictions文件夹为每个输入文件包含一个唯一的文件夹。输入文件夹包含diffusion_samples按置信度分数排序的 output_format 格式的预测结果以及包含置信度模型和亲和度模型预测结果的附加文件。该processed文件夹包含模型在推理过程中使用的已处理输入文件。输出置信度.json文件包含特定样本的各种聚合置信度得分。文件结构如下 {confidence_score: 0.8367, # Aggregated score used to sort the predictions, corresponds to 0.8 * complex_plddt 0.2 * iptm (ptm for single chains)ptm: 0.8425, # Predicted TM score for the complexiptm: 0.8225, # Predicted TM score when aggregating at the interfacesligand_iptm: 0.0, # ipTM but only aggregating at protein-ligand interfacesprotein_iptm: 0.8225, # ipTM but only aggregating at protein-protein interfacescomplex_plddt: 0.8402, # Average pLDDT score for the complexcomplex_iplddt: 0.8241, # Average pLDDT score when upweighting interface tokenscomplex_pde: 0.8912, # Average PDE score for the complexcomplex_ipde: 5.1650, # Average PDE score when aggregating at interfaces chains_ptm: { # Predicted TM score within each chain0: 0.8533,1: 0.8330},pair_chains_iptm: { # Predicted (interface) TM score between each pair of chains0: {0: 0.8533,1: 0.8090},1: {0: 0.8225,1: 0.8330}} } confidence_scoreptm分数plddt及其界面和单个链类似物的范围是[0, 1]其中值越高表示置信度越高。pde分数的单位是埃其中值越低表示置信度越高。输出亲和性.json文件的组织如下 {affinity_pred_value: 0.8367, # Predicted binding affinity from the enseble modelaffinity_probability_binary: 0.8425, # Predicted binding likelihood from the ensemble modelaffinity_pred_value1: 0.8225, # Predicted binding affinity from the first model of the ensembleaffinity_probability_binary1: 0.0, # Predicted binding likelihood from the first model in the ensembleaffinity_pred_value2: 0.8225, # Predicted binding affinity from the second model of the ensembleaffinity_probability_binary2: 0.8402, # Predicted binding likelihood from the second model in the ensemble } 亲和力输出中有两个主要预测affinity_pred_value和affinity_probability_binary。它们在截然不同的数据集上进行训练并采用不同的监督方法因此应该在不同的情境中使用。添加评论更多操作该affinity_probability_binary字段应用于检测结合物和诱饵例如在发现目标物阶段。其值范围为 0 到 1表示预测配体为结合物的概率。旨在affinity_pred_value测量不同结合剂的特异性亲和力以及其如何随着分子的微小修改而变化。这应该用于配体优化阶段例如命中到先导化合物和先导化合物优化。它报告的结合亲和力值为log(IC50)源自于IC50测量的μM。值越低预测的结合力越强例如 IC50 10−9M⟶我们的模型输出 −3强亲和力分子IC50 10−6M⟶我们的模型输出 0中等亲和力分子IC50 10−4M⟶我们的模型输出 2弱亲和力 kcal/mol您可以使用y -- (6 - y) * 1.364模型y的预测将模型的输出转换为 pIC50 。 3. 使用示例下载boltz程序包 git clone https://github.com/jwohlwend/boltz.git 使用examples中的affinity计算实例 cd boltz boltz predict ./examples/affinity.yaml --use_msa_server 初次运行会下载解压CCD data在/home/user/.boltz/mols目录下大小1.8G包含45227个mol文件。然后会下载 Boltz-2 weights在 /home/user/.boltz目录下名称为boltz2_conf.ckpt大小2.3G。 affinity预测首次会下载affinity weights在/home/user/.boltz目录下名称boltz2_aff.ckpt大小2.1G。错误提示1RuntimeError: PytorchStreamReader failed 原因1主要是weights文件不完整可以提前下载放在/home/user/.boltz下。下载URL在/boltz/src/boltz/main.py文件中如下 CCD_URL https://huggingface.co/boltz-community/boltz-1/resolve/main/ccd.pkl MOL_URL https://huggingface.co/boltz-community/boltz-2/resolve/main/mols.tar BOLTZ1_URL_WITH_FALLBACK [ https://model-gateway.boltz.bio/boltz1_conf.ckpt, https://huggingface.co/boltz-community/boltz-1/resolve/main/boltz1_conf.ckpt, ] BOLTZ2_URL_WITH_FALLBACK [ https://model-gateway.boltz.bio/boltz2_conf.ckpt, https://huggingface.co/boltz-community/boltz-2/resolve/main/boltz2_conf.ckpt, ] BOLTZ2_AFFINITY_URL_WITH_FALLBACK [ https://model-gateway.boltz.bio/boltz2_aff.ckpt, https://huggingface.co/boltz-community/boltz-2/resolve/main/boltz2_aff.ckpt, ] 结果文件夹名称为boltz_results_affinity内容如下结果在affinity_affinity.json文件中可以看到亲和力以log(IC50)为单位等于6-2.53.5大致等于300μM是一个弱的binder。复合物结构文件为affinity_model_0.cif使用pymol打开: pymol /boltz_results_affinity/predictions/affinity/affinity_model_0.cif 结构如下又一例如下是EGFR抑制剂吉非替尼的亲和力计算文件 version: 1 # Optional, defaults to 1 sequences:- protein:id: Asequence: GAMGEAPNQALLRILKETEFKKIKVLGSGAFGTVYKGLWIPEGEKVKIPVAIKELREATSPKANKEILDEAYVMASVDNPHVCRLLGICLTSTVQLITQLMPFGCLLDYVREHKDNIGSQYLLNWCVQIAKGMNYLEDRRLVHRDLAARNVLVKTPQHVKITDFGLAKLLGAEEKEYHAEGGKVPIKWMALESILHRIYTHQSDVWSYGVTVWELMTFGSKPYDGIPASEISSILEKGERLPQPPICTIDVYMIMVKCWMIDADSRPKFRELIIEFSKMARDPQRYLVIQGDERMHLPSPTDSNFYRALMDEEDMDDVVDADEYLIPQQG- ligand:id: Bsmiles: Clc1c(F)ccc(Nc2ncnc3c2cc(OCCCN2CCOCC2)c(OC)c3)c1 properties:- affinity:binder: B 预测结果显示预测的复合物结构与吉非替尼-EGFR复合物的PDB结构PDBID: 4WKQ非常接近RMSD0.267。吉非替尼的亲和力为-6.56 logIC50低于1 μM属于强的binder与实际情况符合。以上是boltz-2的初步使用介绍。参考文献 https://github.com/jwohlwend/boltz/tree/main/docs

查看全文

http://www.hkea.cn/news/14379707/