好的数据应该是怎样的？AI药物发现数据的5V原则

小多多 • 2023年8月14日下午2:06 • 创投

好的数据应该是怎样的？AI药物发现数据的5V原则,如果质量合适，数据越多越好。训练机器学习模型所需的数据量可能差异很大。

如果你相信机器学习在药物发现和开发方面具有巨大潜力，那就很难绕*的难题——数据。

关于AI药物研发，很多人都意识到数据的重要性，但更多的细节却很难谈起。

本篇文章，LabGenius的首席技术官Leo Wossnig尝试用5V框架定义什么是好的数据，可以生成此类数据的技术堆栈，以及需要哪些思维方式、团队和文化来实现。希望能够对读者有一些启发。

“好”数据是什么样的？

“好的”数据有两个关键要求：数据的相关性，或者数据转化为临床结果的程度，以及数据的质量。

后者是一个宽泛的术语，但实际上问题在于细节——数据收集、存储、协议、再现性和标准化等不太理想的工作。

但如果这项工作做得不好，那么机器学习模型不会工作得特别好，最坏的情况可能会完全丧失数据完整性，从而导致致命的结果。

探索性数据分析以建立对数据的基本理解和严格的模型验证对于机器学习、生物统计学和生物信息学建模至关重要。这些因素会影响模型的预测准确性。

虽然不正确的统计分析也会影响计算机方法的准确性或可靠性，但不准确的化学和生物数据仍然是数据驱动的药物发现方法的核心问题。因此，减少数据生成过程中的噪声并提高一致性是生成高质量数据的关键方面。

然而，随着化学、基因组和蛋白质数据集的增长，原始研究中的一些步骤（例如手动数据管理）已变得不切实际。由于数据准备和建模没有在整个行业中标准化，因此出现了进一步的挑战。

底层流程和工作流程的标准化程度较低，从而施加了更基本的限制。构建数据处理方法以对收集的数据进行一致的管理和标准化是生成高质量数据的另一个重要部分。

但要了解如何收集高质量数据，就得明白什么是高质量的数据，并且定义它。作者开发一个框架来评估数据本身的质量，并引入 5 个关键属性来评估。

药物发现数据的5V原则

在处理用于训练药物发现中的机器学习模型的数据时，需要考虑5个属性。

药物发现数据的 5V定义如下：

1、正确的数据准确性：生成或可用数据的质量、完整性、准确性和一致性

2、正确的数据种类：数据的平衡程度如何？它涵盖什么动态范围？我们有哪些不同类型的数据可用？例如，对于蛋白质来说，这可能意味着训练数据中的高序列或结构多样性。

3、正确的数据量：可用于训练模型的数据量

4、正确的数据速度：用于分析目的的数据生成、积累和管理的速度有多快、成本有多低？这会影响我们验证或重新训练模型的容易程度

5、正确的数据价值：数据如何转化为临床结果（通常与生物复杂性相关）？

一般来说，数据准确性、多样性和数量是数据本身的品质，而速度有助于评估获取新数据的难易程度因此我们要使用什么流程和方法。

如果公共领域的数据很少，或者如果想使用基于主动学习的方法，那么后者尤其重要。数据的准确性基于生物复杂性及其与临床结果的相关性，这会影响数据读出的预测有效性。

数据真实性

使用生物学相关功能测定生成的一致、准确、高质量、标记的数据在药物发现的许多领域很少见，或者根本不存在。大型企业数据集通常没有用处，因为它们没有以一致的方式收集或数字化。同样，来自 CRO 的数据可能不包括机器学习所需的 (ML) 相关控制和元数据。

如果公共数据已经存在，它通常包含大量噪音、重复和错误，这需要仔细分析、过滤、标准化和其他预处理步骤才能使用。

图：来自不同活动标准化前（左）和标准化后（右）的基于细胞的测定中评估的两种不同对照分子的重复测量数据。标准化可以显着改变图像。

同样重要的是，与传统药物发现数据相比，机器学习级数据要求不同且更加严格。即使测量相同的化合物，不同实验室的读数也具有很大的可变性。这又是因为在不同条件下进行实验时会产生截然不同的结果。

图：与化学数据相比，生物数据面临的挑战

另外，公共数据还包含大量错误，但大多数机器学习或化学/生物信息学论文（基本假设是输入数据的正确性。然而，数据库中的错误率可能很高。研究表明，平均每个药物化学出版物有两个错误，导致某些数据库中的总体错误率高达 8%，数据错误会显著降低任何模型的预测能力，并且在用于模型构建时需要特别小心。

图：在 ChEMBL 数据库中，研究了大规模独立细胞毒性测量的可比性在独立实验室测量的重叠复合细胞系系统中，可以观察到相关性较差。这部分是由于注释错误，指出了提取或积累公共数据时数据管理的重要性。

为了确保这种情况，应该花费大量的精力和资源来相应地建立实验室流程和数据处理管道，这反过来又能够创建真实的数据。

数据多样性

一般来说，这个方面指的是正数据和负数据的可用性，以及整个数据集跨越的范围。文献中用于描述大型且多样化的集合的通用术语是“代表性”。

“代表性”数据通常不存在，因为通常科学家选择不将所有化合物进行实验测试或丢弃失败的数据。无论是通过模拟、机器学习还是人类评估来确定优先级，通常的做法仍然是只发展具有*预测性能的分子，这意味着可能不会以最适合学习的方式选择数据。

所有这些限制都会极大地限制模型的学习能力。缺乏反例将限制预测表现不佳的化合物的能力，而缺乏动态范围将导致难以外推到感兴趣的区域并限制模型的适用范围。

数据多样性也可能导致更高的实验成本。例如，围绕特定支架合成分子通常比探索各种随机结构更容易。但序列/结构、物理化学和功能角度的多样性都可以推动模型做出更好的整体预测的能力。

除了某一指标的多样性之外，数据的“多样性”在各种分析中也很重要。例如，测量同一蛋白质的活化、选择性、热稳定性、聚集和产量对于推动项目向前发展至关重要。

为了对药物发现产生有意义的影响，我们需要了解多维优化空间，并在我们执行的分析和捕获的数据中拥有足够多的多样性。

数据量

当然，数量仍然很重要。如果质量合适，数据越多越好。训练机器学习模型所需的数据量可能差异很大。

例如，AlphaFold之所以成功，部分原因是它训练了 1971 年以来在 PDB 中收集的约 100,000 个蛋白质结构的训练，并且数据清楚地涵盖了所有折叠（见 PDB 中的下图）。机器学习能够解决这个问题也就不足为奇了，因为问题空间已被全面覆盖。

图：2018 年 8 月 1 日添加到 PDB 的独特折叠数量，使用 CATH 计算。显示了每年独特褶皱的总数（红色）以及每年添加的新褶皱（蓝色）。资料来源：PDB

相比之下，预测较小范围的抗体序列的结构则更具挑战性。对于小型数据集，覆盖问题空间比较困难，传统的机器学习模型或包含大量先验信息的专用模型通常更好。对于更大的数据集，基于神经网络/深度学习的方法越来越好用。

图：PDB 中所有蛋白质（蓝色）、抗体（红色）和黄色单域抗体（“VHH”）的晶体结构数量。资料来源：PDB

数据速度

获取高质量数据的速度和成本对于生成大型数据集、使用主动学习和微调我们的模型至关重要。更容易测量的生物学数据通常获取也更快，但数据价值也降低了。

在两者之间找到正确的权衡通常取决于生物技术公司可以使用哪些方法以及他们如何有效地推进其项目。与临床终点高度相关的更高速度方法的创新可以在人工智能和机器学习时代带来根本优势。例如，主动学习需要快速的循环时间和足够高的吞吐量来完成设计-构建-测试-学习循环并快速迭代化合物。

数据价值

虽然我们可以控制数据的准确性、数量和多样性，但很难获得体内的复杂数据。过去，通过简单的测定流程能够获得大量的数据，例如高通量亲和力筛选，但这些数据很少能够全面直观地反映药物在体内的表现。

因此，对优质数据的追求不仅包括更多、更好质量的数据，还包括对体内行为具有本质上更高预测性的新颖信息和数据。这也主要包括几个方面。

情境化：有利于在尽可能最自然的环境中进行测量的方法，或者更合理的是，在更类似于体内环境的环境中进行测量的方法。例如，肿瘤微环境 (TME) 中的条件很难在 2D 甚至 3D 细胞培养物中重现。

功能性：直接评估活动而不是依赖退而求其次的方法。例如，抗体活动通常追求高亲和力结合物，但文献中的许多其他例子可以明显看出，较低的亲和力对于所需的功能（如激活或选择性）来说通常是足够的，甚至是必需的。

在这些情况下，更重要的是找到不仅是强结合剂而且具有选择性或具有其他治疗价值特性的化合物。亲和力驱动的选择性试图实现这一目标（参见此处HER2 的背景）。

多尺度：整合不同数据模式来推断因果关系的方法，像TCGA这样的大规模计划提供了跨越临床、基因组、表达和成像模式的多样化数据收集的*示例。

转化：认识到其固有局限性并努力将转化相关性作为设计目标的方法，无论是体内药物活性还是扩大的工业过程。复杂的体外模型正在逐步展示预测能力。也就是说，还有很长的路要走，并且仍然存在许多悬而未决的问题。

5V框架总结

数据资源通常需要专家进行广泛的管理和预处理，提取有价值的数据，并减少错误和噪音。

更应该考虑的是：生成有意义的数据，即与目标结果更相关的数据。

了解5V框架意味着人们可以积极地在成本和生成速度/数据可用性、数据质量和可翻译性之间取得平衡。还可以利用这个框架来评估我们的数据生成管道可以在哪里改进，以*限度地提高数据的质量和效用。

如何获得良好的数据？

在对所需数据的属性有了解的基础上，重点开始关注如何处理数据，主要分为两个方面。

1. 机器学习驱动的药物发现的完整技术栈

所谓技术栈，是指某项工作或某个职位需要掌握的一系列技能组合的统称。

一般来说，我们需要区分用于训练程序内机器学习模型的数据（即仅用于特定程序的模型）和用于训练程序间机器学习模型的数据（即使用的模型跨多个程序）。

对于程序间模型，数据的条件性通常会导致进一步的复杂性，因为程序和流程之间的差异使得数据标准化变得更加困难。例子包括不同的适应症或疾病特异性细胞系，或不同的测定条件。

程序内模型数据标准化的步骤和要求大大简化，但在实践中仍需要大量工作。对于更复杂的生物学尤其如此。

下面的金字塔捕获了构成药物发现中机器学习过程的完整栈。每一层都是必需的，任何一层中的错误或噪声都会降低机器学习数据分析的最终性能。

图：整个数据栈。较低层通常对药物发现计划的实际结果影响*。如果没有良好的基础（即预测分析、数据生成、数据捕获和数据预处理步骤），*的分析也只能实现这么多。数据分析和机器学习可以进一步细分为数据表示和机器学习模型。

在设计数据分析或机器学习管道时，了解每一层并仔细评估噪声、错误和不一致的来源非常重要。在评估技术栈生成的数据时，重要的是要认识到在每一层所做的任何更改都需要技术和科学团队之间的密切合作。确定哪些层对数据质量影响*对于维护堆栈的完整性至关重要，因此应持续进行评估。

下面列出了技术堆栈中的基本层，最终构成了一个完整的技术栈：

数据上下文和相关性：生成的数据的可用模型和上下文对于将生成的结果转化为有意义的（临床）结果非常重要。我们可以优化模型并捕获额外的数据和元数据，以尝试获取更多上下文。

数据生成：通过使用标准化流程、自动化和标准化（设备等）可以生成一致的数据。业务规则、标准操作程序和自动化是关键。

数据捕获和存储：应自动捕获原始数据以及相关元数据，并根据公平数据标准以一致、安全的方式存储。理想情况下，公司中的任何人都可以立即访问它。数据和模型的版本控制和来源有助于确保正确的模型在正确的数据集上进行训练，并提高对错误和更改的恢复能力。

数据处理：原始数据的处理需要在整个公司进行标准化，并在适当的情况下进行标准化（例如拟合曲线的 EC50 值）。自动化和业务规则可以减少此阶段的可变性。

数据分析和机器学习：只有当所有其他层就位后，才可以执行数据分析和机器学习。这需要仔细的数据管理和模型验证。特别是特征选择、数据分割和相关性能指标的选择在这里发挥着重要作用。

向数据驱动的生物技术公司转型需要在人员、流程和系统方面进行战略变革。以下是在技术方面的方法。

创建良好的药物发现技术栈：

流程标准化：建立一致的流程，记录在 SOP 和业务规则中，供整个组织使用。通过使用自动化和调度来*限度地减少手动步骤。

自动数据捕获：开发管道和脚本来自动可靠地捕获、跟踪和版本数据和元数据。选择可以与现有系统集成的仪器也很重要，现有系统通常需要合适的驱动程序。

云和仓库采用：利用 Google Cloud、AWS、Azure 等服务以及 Snowflake 和 BigQuery 等数据仓库来安全存储原始数据和处理后的数据。这使得能够立即、全局地访问数据。

实施模型和数据跟踪：使用 MLFlow、DVC 或 Google Vertex AI 管道等系统来跟踪模型、模型版本以及关联的数据和数据版本。

跟踪和管理生物变异性：建立质量控制流程，例如自动跟踪关键测定指标和异常值检测。建立流程，通过执行数据标准化来*限度地减少程序中的可变性。

实验室自动化：使用自动化/机器人实验室*限度地提高流程一致性，并在更新系统时执行用户实验室/用户验收测试。

用户友好的系统：确保系统易于实验团队导航并能够支持现代数据分析方法。这可能需要结合定制和购买的解决方案。

数据可访问性和交互：通过可视化和交互功能确保所有团队成员的数据可访问性，并实施灵活的治理系统来管理用户权限。

总结一下：我们总是需要问自己一个问题：通过以较低精度预测复杂的特性或生物学，还是以较高精度预测更简单的生物学，我们是否更有可能实现设计更好药物的目标？

一旦我们做出了这个因项目而异的决定，我们就可以以*方式优化整个技术栈（包括实验）的所有参数，以训练能够回答有意义的生物学问题的模型。

2. 支持数据驱动方法的公司文化和团队组织

如前所述，公司文化和团队将在创建数据驱动型组织时发挥关键作用。

企业文化：

有远见的领导力：最高管理层应该阐明成为数据驱动型组织的令人信服的愿景，并将这一愿景渗透到整个公司。这一愿景应该在各个层面上清晰一致地传达。例如，葛兰素史克（GSK）设立了高级副总裁兼人工智能和机器学习全球负责人，许多生物技术公司的团队中也设立了首席数据官。

以数据为中心的奖励系统：实施奖励系统，激励数据质量、可访问性和数据驱动的创新，而不仅仅是短期里程碑。

数据素养：通过建立定期培训计划和研讨会来优先考虑数据素养。确保所有团队成员了解他们在数据价值链中的角色以及他们的贡献如何影响组织的整体成功。

共享数据所有权：鼓励数据共享所有权的感觉。为科学家提供易于访问的工具，让他们自己执行简单的数据科学任务，并评估和更好地理解他们生成的数据和数据的质量。这培育了主动数据管理的文化。

关注端到端流程：促进对端到端数据流程的理解，而不是只关注个别技术。这有助于每个人认识到自己在更大背景下的角色的重要性。

共同责任和问责制：培养对短期和长期成果共同负责的文化。例如，机器学习在项目中的应用应该是数据科学家和湿实验室团队的共同责任。

持续学习：致力于员工的持续教育。分配时间和资源用于新系统和技术的持续培训。这延伸到了数据科学家和机器学习专家，他们需要深入了解湿实验室流程和生成的数据。

组织结构：

跨职能团队：组建具有共享数据目标和责任的跨职能项目团队。这应该包括数据科学家作为药物发现项目的核心团队成员。

同一地点：只要有可能，将团队放在同一地点以促进自发的互动和协作。如果这不可行，请使用技术来保持团队联系并促进频繁沟通。

标准化流程：在整个公司的所有团队中强制使用标准数据管道和系统。这种一致性有助于*限度地减少错误并促进更好的数据分析。

共同的成功和失败：庆祝共同努力的胜利，并让所有团队成员对任何缺点负责。这种方法可以培养团结感和共同承诺。

知识共享：促进不同团队和背景之间的知识共享。在定期会议中解释技术并沟通需求，并在整个企业中随时提供资源和信息。项目团队应保留所有决策和步骤的清晰文档，包括所使用的模型和数据。

产品团队：（即构建计算工作流程或分析系统的任何团队）需要由科学或用户主导，但软件开发人员或数据科学家需要成为核心产品团队的一部分。共同定义产品规范并执行用户验收测试是构建有用工具的关键。

参考链接：

https://medium.com/@leowossnig/the-right-data-for-good-results-introducing-the-5-vs-of-drug-discovery-data-331e29c683c5

AI药物数据机器人

小多多创始人

0 0

TikTok回归，直播电商成印尼发展新动力

这场针对TikTok的围猎终于尘埃落地——关停了两个月的TikTok印尼电商业务在“双十二”重新上线。印尼电商新政（《2023年第31号贸易部长令》）风波后，所有人都在凝神等待TikTok Shop的回归方式。几天前，好消息终于传来。12月11日，TikTok与印尼科技巨头GoTo宣布达成战略合作伙

小多多
创投 2023年12月14日
库克不相信折叠机

2023年，苹果两款年度新品陆续面世：一款是争议颇多的Vision Pro，另一款是争议同样多的iPhone 15。前者争议多是因为2.5万元的官方售价，后者争议多则是因为新功能的“平平无奇”。与此同时，两次发布都引发了苹果股价的短期雪崩，Vision Pro发布让苹果股价蒸发了845亿美元（约60

小多多
创投 2023年9月18日
腾讯阿里你学不会：中小企业想战投独角兽？有钱也不行

国内商业史上，有这样一幕反复被提及：当滴滴和快的的合并谈判进行到焦灼之时，两家的管理层分别在两个房间，给腾讯刘炽平和阿里蔡崇信打电话。谁是真正的谈判话事人不言自明。华兴资本创始人…

小多多
创投 2021年10月12日
创投

孙正义为无人卡车砸出73亿

当你的自动驾驶公司烧光264亿倒闭，再出发还能拿到投资吗？孙正义告诉你：可以。我愿意先给个73亿。这就是今日自动驾驶领域最新进展。Stack AV，一家首次曝光的自动驾驶卡车公司，首轮获得了软银10亿美元的*投资。而Stack AV背后团队，并非籍籍无名。核心创始人都来自ArgoAI——主打Robo

小多多
2023年9月8日
走进企业：明基E系列智能商用投影仪，助力云和恩墨稳定高效会议_行业动态

随着数字经济的高速发展，数字化、智能化已经成为企业升级发展的主旋律。由于企业业务系统架构信息化成熟度越来越高，在企业日常办公环境中，高效办公协同成为很多企业管理者、CIO、行政部门需要重点考虑的事项，特别是企业日常会议等方面。高效的会议对于企业的运营至关重要，一台专业的会议设备能够显著提高会议效率

小多多
2024年1月5日 • 创投
培养皿中的「微器官」，正撑起生物医药行业又一潜力赛道

培养皿中的「微器官」，正撑起生物医药行业又一潜力赛道,自2015年开始，强生、默克、辉瑞、赛诺菲等纷纷在新药研发中引入类器官技术；艾伯维、默克、诺华等联合成立了非营利性组织InnovationandQualityConsortium（创新与质量联盟），旨在推动类器官芯片的标准化应用。

小多多
创投 2023年5月15日
创投

从天镜大模型透视马上消费自主性生存法则_行业动态

导语：如果说数据资产是当下互联网世界最重要的生产资料，那么，与之相对应，对数据资产的价值挖掘能力则是互联网世界最重要的核心竞争力。2023，堪称大模型元年。年初ChatGPT有如平地惊雷，炸开了大模型的应用赛道。但有意思的是，一直热衷于科技赋能的金融行业在大模型的开发上却迟迟未有突破。直到今年8月

小多多
2023年12月8日
最近，每家电池公司高管都在谈储能安全

“不能说为了上市就签下几十年的质保协议，这笔账是要还的。”储能电池安全最近正在成为行业的中心议题。近期笔者参加了多个新能源行业会议，多家公司高管和行业专家都在谈论如何保证储能电池更安全。担忧来自于一拥而上的行业现象——超12万家公司入局淘金，与之相对的是行业安全标准的缺位。当下，对储能安全的担忧在行

小多多
创投 2023年11月24日
观众对国产片变宽容了？

观众对国产片变宽容了？,事实上目前上映的暑期电影并非“无可挑剔”，但神奇的是差评的声音几乎都被淹没了，随意点开某部电影的差评，评论区都有不少网友反驳“瑕不掩瑜”，并称应该给予电影鼓励。

小多多
2023年7月21日 • 创投
意才基金：2023“青岛·中国财富论坛”圆满落幕意才持续助力中国财富管理市场发展_行业动态

7月8日，第九届“青岛•中国财富论坛”在青岛香格里拉大酒店举行。本次论坛以“新变局新财富新动能”为主题，来自国内外政商学界的专家学者齐聚…” />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8

小多多
创投 2023年7月14日
抖音《老俞闲话·致远见者》圆满收官：俞敏洪对谈收获大量看客_行业动态

“企业家最重要就是他的创造力和创新，是要让普通人受益的，企业家如果不能让普通人受益，你就很难成功。”“我们唯一能做的是做好身边的事情，让我们…” />
<meta http-equiv="Content-Type" content="text/html; charset=utf-8

小多多
2023年7月10日 • 创投
创投

前面还有地雷阵

前面还有地雷阵,当下，对于投资者而言，做好风险管理，构建具备免疫力的资产组合想必也是非常重要的。

小多多
2023年4月3日
创投

押注空间计算，「资本宠儿」Rokid谋变

8月26日，号称AR“四小龙”之一的Rokid在2023 Rokid Jungle发布上推出了消费级OST（光学透视）个人空间计算平台Rokid AR Studio。据悉，该产品由AR（增强现实）空间计算眼镜Rokid Max Pro和AR空间计算主机Rokid Station Pro组成，宣称“空

小多多
2023年8月30日
以降价为矛，良品铺子要背水一战

高端零食品牌良品铺子终于也降价了。11月30日，就在良品铺子宣布杨银芬接替杨红春担任公司董事长及总经理三天后，良品铺子就宣布了17年来*规模降价，门店在售300余款产品会员价平均降价22%，最高降幅45%。对外，越发注重性价比的理性消费时代，全平台都在卷向“低价”，不仅电商平台都在学拼多多，消费品牌

小多多
创投 2023年12月7日
格力集团受托管理珠海50亿创投基金

投资界（ID：pedaily2012）9月23日消息，近年来，在各级政府的大力支持与倡导下，政府引导基金全面开花，为地方实体经济注入了金融服务的“源头活水”。近日，珠海市明确，由市财政出资，设立总规模达100亿元的珠海发展投资基金三期，以“母基金+直投”的新模式，重点投向符合珠海产业规划方向、符合国

小多多
2023年9月23日 • 创投

好的数据应该是怎样的？AI药物发现数据的5V原则

相关推荐