2023-11-25 11:45来源:大智报
一项为期10年的人工智能生物学家任务刚刚启动。来自美国非营利登月计划“未来之家”的团队希望创造一个自主研究助手,以加快科学发现的速度,帮助解决人类面临的关键挑战,包括抗生素耐药性、食品安全和气候变化。
未来之家项目的首席执行官山姆·罗德里格斯(Sam Rodriques)解释说:“今天生物学的基本瓶颈不仅在于数据或计算能力,还在于人类的努力:没有一个科学家有时间设计成千上万个单独的假设,或者阅读每天发表的成千上万篇生物学论文。”
“未来之家”项目的最终目标是培养一名人工智能科学家,能够自主完成各种复杂的日常任务,从设计DNA引物到排除实验问题。这样的系统必须能够进行科学推理:做出预测、设计实验和分析结果,这超出了当前人工智能系统的范围。然而,包括生物学家、生物化学家和人工智能研究人员在内的多学科团队计划以人工智能在科学领域的最新进展为基础,其中最重要的是化学大型语言模型(LLM) ChemCrow。这个法学硕士课程于4月发布,已经展示了未来人工智能科学家的许多特征,可以作为未来之家项目的蓝图。
迄今为止,化学法学硕士的表现一直很差。LLM系统在大量文本上进行训练,随着训练集的扩大,它们能够以越来越高的准确性预测下一个逻辑响应。但由于缺乏推理和批判性思维能力,这些模型通常会对最简单的化学问题提供毫无意义的答案。
“问题在于化学领域没有足够的数据,”化学乌鸦(ChemCrow)的开发人员之一、未来之家(Future House)的科学主管安德鲁·怀特(Andrew White)解释说。“很多数据都是通过程序生成的(比如化学名称),所以不是那么丰富,许多论文都隐藏在付费墙后面,因此无法进行培训。”很多化学数据也被锁在结构的图片中,不容易转换成语言。”
训练数据访问的问题并不容易解决,但White和他的同事Philippe Schwaller通过将LLM直接与一系列有用的化学工具(包括LitSearch、Name2SMILES和react planner)结合起来,规避了这一关键数据获取过程的一部分。怀特说:“我们没有尝试让法学硕士直接对化学物质进行操作,而是通过ChemCrow提供工具。”法学硕士在更高的层次上发挥作用,将这些工具协调在一起,完成开放式的复杂化学任务。”
用户可以用自然语言输入问题或指令,系统将使用不同可用工具的组合来完成整个任务中的每个步骤。例如,在他们的初步研究中,ChemCrow团队要求该系统制造一种驱蚊剂。人工智能能够通过网络搜索来确定驱蚊剂是什么,进行文献综述以找到例子,将化合物名称转换为SMILES结构,设计合成,然后操作IBM的机器人实验室系统来生产已知驱蚊剂的物理样品。
IBM的RoboRXN已经与ChemCrow配对。化学法学硕士能够自己设计一种已知杀虫剂的合成方法,然后指示自动化实验室生产它
施沃勒解释说:“真正令人兴奋的部分之一是,合成流水线工具与IBM RoboRXN相结合,因此可以转换为实际的合成过程。”“ChemCrow是与物理世界的第一个连接,使我们能够从一个大型语言模型中进行实际的合成。”
该系统还能够响应机器人系统报告的反馈和错误,迭代修改和验证其工作顺序,使人工智能能够在没有人工输入的情况下自主解决问题。
但怀特和施瓦勒都强调,化学乌鸦是在扩大化学家已经完成的工作,而不是取代他们。怀特说:“在某些问题上,你只需要扩大规模,做更多的实验,更快地生成新的化合物。”“ChemCrow并不打算发明新的反应或催化剂,而是扩大常规任务的规模。我希望它能被视为一种赋权。”
“通过ChemCrow,那些通常很难设置,实验化学家可能无法使用的工具变得更容易使用自然语言。”它是一个助手,而不是替代品。”
这个LLM的增强功能已经得到了社区的好评。“化学乌鸦是一个很酷的想法。巴西里约热内卢天主教大学(Pontifical Catholic University of Rio de Janeiro)的化学人工智能研究员安德烈•席尔瓦•皮门特尔(andr
ChemCrow团队已经通过增加可用工具的数量和探测系统如何响应故障和处理意外问题来解决这些限制。但这些限制的解决方案也对人工智能作为科学家助手的未来产生了更广泛的影响。
怀特说:“大型语言模型确实没有优化结构识别。”“目前,硅谷正在进行的人工智能工作与科学研究所需的工作之间存在着差距。为了向前发展,我们需要赋予这些模型真正看到并直接观察这些物体(化学结构、蛋白质、基因组)的能力,我们正试图在未来之家弥补这一差距。”
查看完整档案