当前位置：首页 > news >正文

怎样才能把网站做好天坛网站建设

news 2026/4/20 11:32:05

怎样才能把网站做好,天坛网站建设,临夏市做网站电话,狼群神马手机免费影院论文解读#xff1a;《DataPype: A Fully Automated Unified Software Platform for Computer-Aided Drug Design》 1.文章概述2.背景2.方法2.1 DataPype概述2.2 数据2.3 分子和蛋白质数据的处理2.3.1 配体处理2.3.2 蛋白质加工 2.4 CADD方法2.5 基准研究2.5.1 单个 CADD 制备… 论文解读《DataPype: A Fully Automated Unified Software Platform for Computer-Aided Drug Design》 1.文章概述2.背景2.方法2.1 DataPype概述2.2 数据2.3 分子和蛋白质数据的处理2.3.1 配体处理2.3.2 蛋白质加工 2.4 CADD方法2.5 基准研究2.5.1 单个 CADD 制备软件参数的优化2.5.2 DataPype 中包含的单个 CADD 软件的基准测试 2.6 VS评分指标 3.结果3.1 对分子数据库输入文件进行分块的基准测试3.2 配体制备方法的优化和基准测试3.3 蛋白质制备方法的优化和基准3.4 DataPype 中包含的单个 CADD 软件的基准测试以及与已发布数据的比较 4.结论文章地址https://pubs.acs.org/doi/10.1021/acsomega.3c05207 DOIhttps://doi.org/10.1021/acsomega.3c05207 期刊Journal of Chemical Information and Modeling 2022年影响因子/分区5.6/二区发布时间2023年10月12日 1.文章概述随着计算机辅助药物设计computer-aided drug designCADD的出现数千种分子的传统物理测试现已被靶向药物发现所取代其中潜在的生物活性分子在物理合成之前由计算机软件预测。然而尽管这是一个重大突破CADD仍然面临各种限制和挑战。小分子数据的可用性日益增加因此需要简化来自不同数据库的数据来源并将数据处理和清理自动化为可供多个CADD软件应用程序使用的形式。有几个独立的软件包可以帮助药物设计者每个软件包都有自己特定的应用需要专业知识和专业知识才能实现最佳使用。这些应用程序需要自己的输入和输出文件这对非专家用户或多学科发现团队来说是一个挑战。在这里作者开发了一个名为DataPype的新软件平台它围绕着这些不同的软件包。它提供了一个统一的自动化工作流程使用专业软件搜索命中化合物。此外可以在一个工作流程中使用多个虚拟筛选包如果查看潜在命中化合物的不同方法都预测同一组分子那么应该更有信心制造或购买和测试这些分子。重要的是DataPype可以在计算机服务器上运行从而加快了新化合物的虚拟筛选速度。在一个界面中结合对多个CADD工具的访问将增强药物发现的早期阶段提高可用性并启用并行计算的使用。 2.背景最近可以购买用于针对疾病相关靶标的生物测定的小分子数量已超过60亿Enamine REAL遍历远远超出了历史上类似 Lipinski 的化学空间的快乐狩猎场。发现和开发治疗人类疾病的新药的传统方法包括在人体临床试验之前对数千个分子进行物理制造和生物测试已被更有针对性的方法所取代。以靶点为中心的药物发现的兴起与制药、生物技术和学术研究界对计算机辅助药物设计 CADD 的采用同时发展。CADD还从硬件进步存储CPU和GPU和算法开发中受益匪浅。CADD软件现在可用于预测更有可能在制造之前调节参与疾病发病机制的蛋白质活性的分子从而更快地关注有可能成为药物的分子。基于3D蛋白质结构的可用性和靶蛋白生物学功能的先验知识CADD分为两种主要方法基于结构的药物设计structure-based drug designSBDD和基于配体的药物设计ligand-based drug designLBDD。SBDD方法利用蛋白质3D结构来设计有望与目标蛋白高亲和力结合的化合物。在没有蛋白质3D结构的情况下LBDD是一种广泛使用的方法。在LBDD方法中利用与靶标结合所需的已知活性化合物的化学和结构特征的知识。典型的 LBDD 方法包括基于属性的化合物过滤库、假受体建模、药效团搜索与过滤、形状匹配。基于结构的药物设计方法包括分子动力学、对接/评分和分析所有这些都由各种软件包组成。人工智能技术正在利用数据和计算资源的日益可用性对CADD的各个方面产生积极影响。这些独立应用程序中的每一个都有自己的输入和输出文件以及提取最佳结果的专业知识要求有些应用程序可能只在单个 CPU 内核上运行。对于那些可以在多个内核上运行计算的人通常使用不同的底层协议例如OpenEye使用OpenMPI而MOE使用可扩展的多处理器scalable multiprocessorSMP方法在多个内核上运行虚拟筛选virtual screeningVS。因此用户需要深入了解每种软件工具的文件格式、转换工具和最佳并行计算参数。对于非专家用户或参与多学科发现团队的人员这可能是一个艰巨的挑战。随着分子的虚拟集合不断扩大周转时间是VS实验的关键需要并行计算方法。用于训练CADD软件的化学和生物数据是异构的通常内部不一致需要大量清理。每个CADD工具都需要以特定方式预处理不同的数据和“用户专业知识”以优化工具从数据中学习的方式。由于优化过程的手动性质设置固有的原因是无法将该方法可重复地应用于另一个蛋白质靶标。这阻碍了“最佳实践”并且需要为新项目再次重塑整个过程。因此非常需要简化来自不同数据库的数据来源并将数据处理/清理自动化为可由多个CADD软件包使用的形式。分子/蛋白质数据的正确管理将为CADD研究提供更高质量的数据集。DataPype没有明确考虑VS活动的生理背景例如蛋白质靶标的细胞或器官位置因此考虑筛选数据库化合物在不同pH下的质子化状态需要用户手动编辑相关的命令行。寻求发现共价配体或在位于PPI的结合口袋上工作也不太适合使用该技术进行研究。数百个软件包提供的各种技术可用于帮助分子设计者寻找生物活性分子它们中的每一个在药物设计的特定受限领域都是有用的。其中许多可以免费用于学术用途但通常没有支持易于安装用户友好的GUI和商业软件包的文档。通常CADD软件工具被单独或随意应用以发现和开发新的小分子以结合和调节参与疾病进展的蛋白质的活性。在高性能计算系统上运行用于早期药物发现的VS活动通常涉及学习开发软件或使用现有技术进行计算。与熟练使用每种技术、优化项目软件以及最大化并行计算的效用相关的学习曲线陡峭。需要专业知识和专业知识来充分利用每种技术和软件包来准备输入数据并分析输出 - 软件需要知道“药物”所需的物理和化学特性以便它可以学习预测可能的新药。 HPC 基础架构的可用性和功能是可以确定 VS 活动可行性的重要方面。许多学术研究小组都有一个本地服务器用于运行较小的作业和初始基准测试此外还可以访问大学管理的HPC系统并且经常链接到国家HPC基础设施。每个系统都是独一无二的需要熟悉不同的排队系统例如 SLURM并提供不同级别的资源。运行分配通常在计算节点上受到时间限制因此任何串行计算都可能导致违反这些限制。多种商业产品可用于与本地 HPC 资源如 Google Cloud Computing、Azure 和 AWS竞争。除了即用即付计算和存储之外它们还提供自动化机器学习服务。学术团体可能难以预算和吸收此类费用。商业CADD软件开发商还为客户提供满足其计算需求的在线解决方案例如OpenEye Orion。以及薛定谔的同等产品。这些服务提供与其他系统的有限互操作性并且通常链接到预定的 HPC 产品。在开发CADD软件流程时一个日益成问题的问题是构建每个应用程序通常需要复杂的化学和生物信息学库生态系统。初始安装以及后续更新和维护操作通常都会产生兼容性问题、冗余和歧义。正确使用这些库需要高水平的用户专业知识。为了规避这些问题已经开发了CADD平台该平台结合了多个独立算法的功能。CADD的许多方面已被整合到各种平台中例如生成器用户界面GenUI它能够集成从头分子生成技术用于 GUI 中的数据预处理、模型构建、分子生成和交互式化学空间可视化并提供 API 以与其他工具集成。GenUI的分子生成器重点和以描述符为中心的QSAR建模是DataPype的主要区别。另一个专注于LBDD的平台是LigAdvisor它是一个Web服务器能够组合应用许多基于配体的相似性方法但本地安装版本不可用。SBDD方法也已结合在平台中例如在八达通中对接以及VIKING中的MD和量子力学。ezCADD平台将大多数常用的CADD技术整合到一个平台中但只能在线使用。另一个强大的开源数据分析和集成平台是KNIME允许用户创建灵活的工作流程来集成来自各种来源的数据执行数据预处理运行预测建模算法并可视化结果。作者之前已经证明使用两个或三个互补的CADD工具会产生更高质量的命中分子。通过多种CADD方法排名靠前的化合物应该更有可能具有活性。在所描述的数据管道中有多种工具可供顺序使用。为了简化早期药物发现过程作者创建了一个同构的全自动并行数据流软件平台用于执行小分子命中发现和命中到先导物开发称为DataPype。它以现有的 CADD 工具为中心以创建单个接口以在多个 CPU 内核上分配计算。DataPype 可以应用多种开源和闭源 CADD 方法的组合——对接 FRED、形状ROCS和药效团Align-it平行对抗蛋白质靶标以鉴定命中化合物并合并结果。如果用于模拟潜在命中化合物的不同抽象级别都预测同一组分子那么应该有更高的信心来合成/购买和测试它们。重要的是DataPype可以在计算机服务器上运行从而加快对新化合物的搜索并利用大数据为药物发现和开发提供信息。 2.方法 2.1 DataPype概述 DataPype 是用 Python 3.5 编码的在 Windows 10 教育版 22H2 PC 上运行的 Ubuntu 20.04 操作系统中用于包装不同的 CADD 工具将分子数据库拆分为更小的块通过 CADD 协议的不同步骤并行传递数据分子和蛋白质并在最后组合所有处理过的块进行分析和报告。 DataPype 使用 yml 文件作为新的 Conda 环境安装。OpenEye、Align-it 和其他应用程序是单独安装的。安装后将创建一个名为DataPype的文件夹其中包含所有python工作脚本和基于文本的配置.ini文件。此配置文件指定主要的 DataPype 设置例如蛋白质靶标 ID、数据库块数、是否应制备配体、要生成的构象体数量、使用全部或子集对接、形状和药效团软件。 DataPype 有两种运行方法基准测试模式和虚拟筛选模式。基准测试模式旨在支持利用基准数据集如有用诱饵增强型数据库 DUD-E验证 CADD 软件的效率或 DUD-E通过分析指标计算。需要注意的是基准数据集如DUD-E和DUD-E由一组有限的靶标和筛选配体组成。因此理想情况下在基准测试模式下生成的结果对于DataPype和其他CADD软件的所有用户来说应该是相同的假设配置和参数设置一致。因此基准测试模式不仅可以作为评估软件安装的工具还可以为药物设计领域计算工作流程的标准化和验证做出贡献。VS模式筛选化学数据库以发现具有潜在治疗活性的小分子。运行计算、输入分子和目标文件的模式以及所需的参数设置以及每个参数设置的简短说明外都在配置文件.ini文件中指定。在工作目录中定义这些参数后DataPype 通过运行以下命令开始计算python Master_DataPype.py Config_DataPype.ini。 Master_DataPype.py 是一个主脚本用于调用其他脚本来执行配置文件中指定的不同任务。在VS模式下DataPype可以从ChEMBL数据库中获取生物活性分子的活性和化合物数据。它还可以从RCSB PDB数据库下载相关的蛋白质数据。在基准测试模式下DUD-E数据集可用并通过计算和比较不同的基准指标来执行不同CADD方法的基准测试。 DataPype 的脚本以干净有序的方式简化输入数据和输出结果并系统地隔离目录。根据用户的决定一个目录中的输出文件可以自动选择并在后续计算中用作输入文件。在每个步骤结束时都会生成一份简明的报告详细说明每个步骤的关键结果即列出失败/通过该步骤的分子。所有生成的报告在DataPype执行的每个研究结束时编译成一个主报告。 2.2 数据 DataPype的基准测试模式旨在从DUD-E获取输入数据。DUD-E包含经过实验验证的活性物质和属性匹配诱饵的数据集共有102个靶标每个蛋白质靶标平均有224个活性配体每个活性靶标有50个诱饵以及每个靶标的晶体结构。在VS模式下DataPype可以选择使用自动化python脚本从ChEMBL数据库中获取生物活性分子的活性和化合物数据。数据的清理和处理也由脚本执行。DataPype还可以使用带有基于PDB REST的API的脚本从RCSB PDB数据库下载蛋白质数据该脚本将UniProt蛋白质ID代码作为输入并在PDB中搜索该靶标的相应X射线结构根据某些标准例如分辨率整理和过滤结构确认存在配体并以最低分辨率下载蛋白质和共结晶配体的元数据和结构。 2.3 分子和蛋白质数据的处理 2.3.1 配体处理 DataPype 中的配体处理包括配体制备和配体净化。在配体净化步骤中所有重复分子都被去除盐和配位键也被固定。这一步是由 OpenBabel 执行的。配体制备包括互变异构体的产生、电离和质子化态的枚举、部分电荷的计算和构象的产生。这一步主要是用OpenEye的QUACPAC和OMEGA执行的。还与RDKit和OpenBabel提供的相应功能进行了比较。 2.3.2 蛋白质加工 DataPype使用OpenEye的SPRUCE作为其制备蛋白质结构的默认工具。从PDB网站下载给定PDB ID的结构后对结构进行质子化构建缺失的侧链和环枚举替代位置并通过SPRUCE枚举和评估共结晶配体和辅因子的互变异构体。从 SPRUCE 生成的输出文件是根据软件的默认通用命名约定命名的。 2.4 CADD方法作者整合了来自三个主要CADD子学科的快速软件基于结构、形状和药效团的药物设计。对于对接使用了OpenEye的FRED对于形状使用OpenEye的ROCS对于药效团使用Align-it。 2.5 基准研究作者进行了三轮基准测试使用DUD-E数据集严格测试DataPype的功能和性能。 2.5.1 单个 CADD 制备软件参数的优化作者使用了DUD-E的代表性子集该子集由靶标组成在SPRUCE进行蛋白质制备后仅产生一个输出文件。然后在这些入围数据集中作者进一步选择了不同蛋白质家族的7个不同数据集其中包含不同蛋白质家族类别中最少数量的分子 2.5.2 DataPype 中包含的单个 CADD 软件的基准测试为DataPype中包含的所有三种方法对接形状和药效团选择默认软件FREDROCS和Align-it的软件使用其优化的参数对DUD-E数据集所有102个目标进行了全面验证运行。执行基准测试后获得的结果分数用于计算上述性能指标并与先前发表的工作进行比较。 2.6 VS评分指标 AUC and EF1% scoresF1 score。 3.结果 3.1 对分子数据库输入文件进行分块的基准测试为了研究分块文件中分子排序对计算效率的影响及其对VS性能在计算时间方面的影响作者进行了Smina对接。作者利用了来自 DUD-E 数据库的 fabp4 数据集最初输入数据库文件中的分子被顺序分成块每个块并行停靠在单独的核心上。作者发现完成计算包含更复杂分子具有高于平均数量的可旋转键的几个块所需的时间远远长于包含具有较少可旋转键的分子的块的计算时间。所以采用了一种新的分块文件方法根据旋转键的数量对分子进行排序并将它们按顺序添加到每个块中从而根据可旋转键的数量均匀分布分子。新的文件分块方法使 Smina 分布式速度提高了约 30%。 3.2 配体制备方法的优化和基准测试作者使用OpenEye与开源工具OpenBabel在40个块/核心上设计了执行配体净化和制备的协议。具体步骤如下规范化 SMILES 并使用 OpenBabel 固定配位键互变异构体生成 (QUACPAC Tautomers)枚举电离态和质子化 (QUACPAC FixpKa)计算部分电荷 (QUACPAC MolCharge)构象异构体生成由 OMEGA在使用 OpenBabel 形成重复互变异构体或原体的情况下的最终重复数据删除步骤。将OpenBabel与OpenEye一起加入是因为我们致力于最大限度地利用开源解决方案同时为用户提供灵活性。每个软件包都有用于优化的参数例如要生成的互变异构体和构象体的数量以及用于部分电荷的力场。为了研究改变这些参数对DataPype性能的影响通过一次改变一个参数保持其他值固定并检查与这些制备的配体进行FRED对接后对ROC-AUC和EF1%值的影响制备了不同的配体组。这项研究是在七个DUD-E数据集上进行的并计算了平均结果。如果结果优于默认值则接受更改并将其添加到新的默认协议中否则不会对默认协议进行任何更改。在为基于 OpenEye 的协议优化和建立最佳参数值后作者将每个步骤替换为 RDKit 或 OpenBabel 等效项并确定对基准指标的影响以确定它们是否是更好的选择。 3.3 蛋白质制备方法的优化和基准比较了用于制备蛋白质的不同开源方法OpenEye的SPRUCEPDBFixer和LePro的性能。使用三个软件包制备的蛋白质对七个DUD-E数据集进行了FRED对接并计算和比较了它们的指标。 3.4 DataPype 中包含的单个 CADD 软件的基准测试以及与已发布数据的比较在 DataPype 中优化了不同的 CADD 制备方法后作者使用这些 CADD 方法FRED、ROCS 和 Align-it对完整的 102 个 DUD-E 数据集进行了全面的基准研究。还使用了优化的配体和蛋白质制备步骤。为了在更广泛的背景下分析这些结果还将它们与Ericksen等人的早期研究进行了比较。在DUD-E数据集的21个目标子集上使用多种CADD方法。两项研究都使用了FRED软件但其他软件包不同尽管在类似的SBDD或LBDD子学科中。 DataPype中三种CADD算法的性能与Ericksen等人研究的其他软件相当或更好。在DataPype中使用FRED的富集与Ericksen论文中的富集之间存在一些差异。 4.结论 DataPype 是一个集成各种 VS 方法的平台将输入复合数据库拆分为用户定义的块数以便在多个 CPU 内核上进行并行计算从而显著提高计算速度。串行化学信息学代码如OE互变异构体和OpenBabel当包装在DataPype平台中时可以利用多核加速从而提高它们在合理的时间范围内处理大型化合物数据库的适用性。DataPype是一个可扩展的python框架因此我们将在平台中加入其他开源和免费学术使用的应用程序并开发一个Web界面以便更广泛地传播给研究界。

查看全文

http://www.hkea.cn/news/14340612/