Nature特写:人工智能助力化学药物“宇宙”漫游指南

系外行星r 绕一颗低温矮星运行它的表面可能存在液态水。v基于这个原因,可以推测癌症基因突变的市场反馈会越来越好,也正是其能够发展起来的重要原因之一。
本文转载自“n自然科研”原文以t -' 为标题发布在的《自然》新闻特写上原文作者:a m。
在s制药交给一些老员工一项特殊任务。在美国马萨诸塞州的总部化学家们被要求进行一项寻找新药最佳先导化合物的游戏。在他们的工作站中有包括几百种化学结构的格其中只有十种标有相关生物学信息。专家们必须基于他们辛苦学到的化学结构及生物知识来选出其他可能作为候选药物的分子。在位选手中位为这项任务冥思苦想了数小时但剩下的一名选手却在几毫秒内就轻松完成因为这名选手是一种计算机算法。
这一计算机程序由wh创造他是利用人工智能设计药物的新e的化学信息学负责人。这一位于英国邓迪希望能与s建立初步合作关系为此下了很高的赌注。“我的信誉危在旦夕。”h表示。二十轮游戏结束后他高分胜出也终于松了一口气。他的算法似乎是运用了一些化学黑魔法;因为最后仅有一位药物发现专家击败了机器。
从那时起e便和s继续合作开发精神病治疗药物。s的计算化学主管s b表示:“这场竞赛的确帮助我们拉拢了化学研究决策者。”
e是工业和学术界中与俱增的、利用计算机探索广阔化学药品宇宙的众多团队之一。化学家们估计约有^种具有药物特性的化合物能够被合成这些小分子的数目甚至超过了太阳系所有原子的总数。他们希望通过计算机算法对无数的化合物进行登记、分类并比较其特性从而帮助研究者快速、低成本地找到针对某一靶点的最佳候选药物。支持者们表示这样的策略能够使药物更安全减少在临床实验中失败的药物数量同时使得新治疗方法的发现成为可能。此外还有助于开启未探索过以及曾被认为无价值的化学领域。
然而仍有许多药物化学家对此持怀疑态度不相信奇妙、复杂的化学能够简单缩减为几行代码。甚至某些人工智能的拥护者也承认许多尝试都以失败告终:计算机生成的化合物中充斥着难以合成的结构如-或-原子环同时还有许多不安全的活性基团。 h认为:“如果研究者不了解该领域只是简单执行某些计算方法会产生失败结果他们想出的化合物纯属笑话。”但他也表示专业人员的参与或许能够帮助这些热心的设计者。“我觉得如果计算机科学家与真正的化学家合作某些想法是能够实现的。”
探索化学宇宙
在化合物的宇宙中航行需要有地图的帮助。在瑞士伯尔尼大学的化学家j-l r开始利用计算机来绘制一幅尽可能全面的化学宇宙地图。经过努力他构建出世界上最大的小分子数据库即一个包含亿种化合物的庞大虚拟集合。这一数据库被命名为gdb-包括全部符合化学原理的、由少于个原子构成的有机分子这一数目是r的计算机能够处理的上限。r表示:“仅仅是用计算机形成数据库中化合物的清单就需要个小时以上。”
为了理清过剩的潜在药物原始信息r想出了一种使化合物宇宙系统化的办法。受素周期表的启发他将各化合物在多维空间内分类相邻化合物具有相特性。各化合物的位置由种特性来决定例如每种化合物中所含的碳原子数。
每种投放到市场中的药物都有成千上万种与其化学结构基本相同的化合物其差别仅仅在于一个氢原子或一个双键。这其中某些化合物可能比获批的药物效果更好。化学家不可能在没有外界帮助的情况下考虑到所有这些变体。正如r所言:“仅用纸笔绝不可能得到所有这些异构体。”
而r和他的团队能够通过搜索化合物之间相似性来鉴定与已批准药物相、有潜在治疗价值的其他化合物。以某种药物作为出发点团队能够在三分钟内筛选数据库中的亿种化合物来寻找后续候选药物。在一次概念验证实验中r以一种能与乙酰胆碱受体与神经系统和肌肉功能失调相关的重要靶点结合的已知分子为出发点 编制出包括种化合物的名单。该团队合成了其中三种化合物并且发现两种能够有效激活受体或许能够用于治疗老人肌肉萎缩。r表示这种方法像是利用地图来找金子他说:“你需要某种方式来选择去哪里挖。”
另外一种方式用计算机在多个位置寻找金子而不必太在意起点。用药物发现的专业术语来说这意味着用计算机筛选庞大的化合物库来寻找能与特定蛋白结合的小分子。首先研究者必须利用x射线晶体学获得某个蛋白的快照来决定它结合位点的形状。然后利用分子对接算法计算化学家能够从化合物库中寻找出给定位点的最佳匹配。
随着计算机技术飞速发展这些算法的能力也得到了提升。加州大学旧金山分校的化学家们在b s的带领下在通过寻找一种新型止痛药展现了这种方法的潜力。该团队从万种市场上买得到的化合物中筛选能够选择性激活μ-阿片受体信号通路的候选药物以此来减轻疼痛同时不扰乱密切相关的β-抑制蛋白信号通路该通路与阿片类药物的副作用如呼吸频率下降及便秘相关。研究者们迅速将范围从一个巨大的化合物库缩小到仅有种高排名的化合物用于后续研究。
在一个试管中七种候选化合物显示出理想的活性。其中一种在后续研究中被制成化合物pzm能够作用于μ-阿片受体而不激活β-抑制蛋白。位于旧金山、由s共同创立的生物科技e正在根据这些发现开发更安全的止痛药。s计划利用同样的方法寻找能够调节其他g蛋白偶联受体gpcr的化合物 该家族的蛋白在所有药物靶点中占到。
他的团队同时对含有一亿种化合物的虚拟星云进行相似的实验这些化合物从未被合成但其合成过程应该较简单。工业药物开发者也在用同样的方法进行测试:位于马萨诸塞州的生物科技n t将一些存在于自然界却难以从环境如土壤中分离的虚拟化合物纳入对接筛选。是否能够发现药物还没有定论但该的首席执行官d n针对至少一项药物设计程序表示:“这将是我们全部匹配药物的来源。”
这些虚拟筛选的初步结果动摇了s对于化学药物宇宙的核心假设之一:只有完善的、药物丰富的区域才是值得关注的。已划分的分子星系充斥着有生物活性的化合物以至于一些人认为在其他地方寻找是浪费时间。“在我的职业生涯中我始终相信推理过程这么做是有道理的尽管可能没有很多证据来证明。” s表示。然而他尚未发表的、对一亿种化合物的筛选结果引起了他对化学药物宇宙中很少被探索区域的兴趣。“我开始认为那些星系中藏满了金子。”
计算机的“智慧”
这些数据搜索方法被试验和测试但用于工作的计算机只能服从脚本指令。计算药物发现的最沿是机器学习算法能够利用数据和经验来告诉自己哪种化合物与哪个靶点结合发现人类无法察觉的模式。十几家纷纷开始创造药物搜索算法并与大型制药企业合作进行测试。
e的首席执行官a h为这些方法的能力做出了强有力的证明。临床测试发现和优化候选药物平均需要化学家们常常合成上千种化合物才能得到有价值的先导化合物即使这样真正投入市场的希望也非常渺茫。e方法利用了多种算法其中包括给s研发高管留下深刻印象的那一种或许能够将时间线缩短到一同时缩减药物发现项目中需要考虑的化合物数目。
在e完成了大本住友制药位于本大阪 s是其旗下的为期个的研发项目。研究者训练他们的人工智能工具来寻找同时调节两个g蛋白偶联受体的小分子发现要找到一种好的候选药物仅需要合成小种化合物。h表示最后筛选到的药物现在已准备进行精神疾病的临床试验。从五起已经与巴黎赛诺菲和英国葛兰素史克签署了数亿美的合约。
除了鉴定先导化合物之外机器学习算法还能帮助药物开发者决定将哪些化合物扼杀在摇篮中加利福尼亚州圣布鲁诺一家人工智能药物设计n的首席技术官b a表示。如果一种化合物无法通过毒性或吸收性测试那从一开始就没有必要制作或测试它。“人工智能只需要几毫秒来决定是否排除这种化合物。” a说在开始利用人工智能工具研究化学物质宇宙他曾学习宇宙学。n今已与制药达成两笔交易其中一笔与位于法国叙雷讷的施维雅合作将人工智能发现的药物投入心脏衰竭和心律失常的临床实验中。
尽管工业投资快速增长但计算方法仍有待证明。虽然r的数据库比其他库更加庞大但它仅包括了化学药物宇宙中微小的一部分参见“化学药物宇宙”。尽管他的数据库中已包括亿种化合物但他仍需要继续探索正如一个尝试数清夜空中所有星星的宇航员才刚刚只数了一个。基于将样品与蛋白相匹配的筛选需要准确的晶体结构才能得到最好的结果而生成这些数据需要时间、金钱和经验。
这些方法同时很难处理动态的蛋白无法可靠地对候选者的优良性进行排序。从机器学习算法的角度而言它们的表现取决于为其提供根基的培训数据集当它们遇到与之见过的分子相似度极低的化合物算法的表现便会很糟糕。除此之外整个程序如同黑箱作业无法得知机器学习为何预测某个化合物是良好的匹配。
许多计算方法还有一个恼人之处便是常常给出难以在实验室合成的化合物。化学家不得不费力的想办法合成候选化合物可能要花费几个甚至更长。即便如此合成的分子也不能保证有作用。r的方法目预测化合物活性的准确率仅有~这意味着化学家不得不辛苦尝试多达种化合物来找到其中一种符合期望的。r 表示:“我们探索化学药物宇宙的瓶颈是敢于合成化合物的能力。”为了解决这个问题他最将他的化学物质宇宙缩减到万种易合成同时仍覆盖广泛特征的分子。
美国马萨诸塞州r t的首席科学官m m认为计算化学家应该少关注新的算法策略而将注意力放在提高算法的培训数据集。他表示:“我所知道的让一个预测模型变得更准确的好方法之一就是给它更多更好的数据。” r和其他鼓励化学家和计算科学家密切合作合成由人类和算法共同建议的化合物同时根据得到的结果来进改善未来的决策。
对于h这样的合作至关重要。计算机科学家曾花费数十来写能够战胜围棋大师的程序。在ibm的深蓝击败了g k。然而这样的失败并不意味着围棋的结束。相反k设置了一场双人比赛每队有一个人类一个人工智能。h 表示:“人类和人工智能一起能胜过任何人同样也胜过任何算法。” 他希望用同样的方式将数据分析、创造性和常识相结合来改变药物发现“我相信我们现在正处在k与深蓝联合的时刻”。
关于本站