对话深势科技：合成数据是科学领域大模型非常重要的数据来源 | 年度AI对话

发布时间：2023-05-08 13:43:02 所属栏目：动态来源：

导读：掌握了人工智能就掌握了新时代的生产力密码。

在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的热情。

因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大

掌握了人工智能就掌握了新时代的生产力密码。

在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的热情。

因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨，通过一系列报道，还原AI新的技术能力与应用潜力。

深势科技曾联合北京科学智能研究院(AI for Science Institute, AISI)发布了科学领域的大规模预训练模型——DPA-1，DPA-1可以被认为是自然科学界的GPT。

在科学领域，也会用到大模型的能力。深势科技致力于运用人工智能和分子模拟算法，结合先进计算手段解决科学问题，他们在生物医药、能源、材料和信息科学与工程等领域研发多种AI产品。

深势科技此次向我们科普了科学领域的模型，他们讲道：在science领域，模型的大小取决于实际使用场景。合成数据其实在科技领域是非常重要的数据来源；大模型可以帮助科研领域缩短研发时间。

作为人工智能发展的一大趋势，国际学术界已对AI for Science形成共识，它将带来科研方式的变革和新的产业业态。深势科技告诉我们：在science领域，大模型可以帮助企业缩短研发周期，而模型所需的大小取决于实际场景。

深势科技：目前绝大部分客户对于什么是大模型，大模型怎么用都还不太了解。具体到我们的客户，其实对他们来说，需求是非常具体的，比如要研发一个分子、要研发一个更好的电解液等等。

深势科技：首先在science领域也包括制药领域，所有的数据都是有相对的客观标准的，而且我们需要的数据不一定是非结构化的语料数据，可能是结构化的数据。关于模型是不是越大越好，其实Sam Altman演讲的时候也说道大模型基本上就是这个量级了，更大的模型没有太大意义。

在 science领域里，我们发现更是这样。比如我们想让模型达到一个精度，因为科学领域是有客观标准的，因此这个精度是有上限的，当这个精度达到标准的时候，就没有提升的空间了，所以并不需要模型特别大。而且模型特别大的话，它的推理成本是很高的。很多公司不一定有许多的成本支持。所以模型的大小取决于实际场景。

合成数据其实在科学领域是非常重要的数据来源。相比于语言数据，科学领域的数据是更容易合成的。在很多场景下，我们可以从第一性原理出发，模拟计算、仿生出很多高质量数据。当然，合成的计算代价也不小，但相比于做实验得到的观测数据，还是要快得多。

深势科技：语言模型可以轻易利用互联网上的大量文本数据，对文本数据进行额外的标注也很容易。但在药品设计的场景里，数据的获取是非常难的。很多数据其实都需要通过试实验才能收集到。而这个周期可能是以月或年为单位，所以能获取到的标注数据其实非常少。对于这种小样本的场景，用大规模预训练模型是非常有效的。

具体来说，可以通过模型训练将一些没有标注的样本进行充分学习，把表征学好。之后只需要把学好的预训练模型在小样本的训练场景下进行微调，一般就可以取得不错的效果。这种预训练大模型加上小样本微调的方式，也是我们目前使用最多的大模型应用。

深势科技：每家公司或多或少都有自己的优势。药物设计的流程很长，场景很多，很难说一家公司兼顾到所有场景。如果从整体上去看待一个平台，其实还是要看是不是方便用户使用，是否可以省时省力，真正提高效率。

对于深势科技来说，我们的Hermite®平台，从一开始就是云原生的，用户不需要本地安装，只要在使用的时候能比较方便地把一些常用的场景串起来就可以，这相比于很多的定制化来说，可以省时省力。

对于一些重点的场景，还是需要去看的。比如自由能微扰计算，一般这个环节的结果会非常接近真实的实验结果，这是我们模拟的重要环节。因此，需要尽可能让用户获得和实验一样的结果，降低实验的成本。所以从我的角度来看，总结为2个方面，第一要有一个整体非常好用，使用方便的产品。另一方面做好关键产品，能让用户通过我们的产品获得收益。

深势科技和传统的science的结合还是非常紧密的，并卓有成效。我之前在某国际知名人工智能实验室的时候也有涉及相关的工作。那个时候大多数人的背景都是偏计算机、机器学习方面的。所以当时的想法和思维会比较受限。对于很多场景的问题，我们的理解是不如真正在做药的人或在science领域的人。

比如，以前我们在做很多任务的时候，经常会看指标、看分数或者排行榜。但其实真正制药的人会去看案例，他们会追求效果的因果性，比如这次的效果为什么好？模型起到怎样的作用？但此前我们不太关注这些，我们重点在看分数，所以当时的我们误解了很多东西，没有考虑到真实的使用场景。

现在国内的很多 AI 制药公司，其实还是在通过机器学习背景的视角思考问题。但深势科技交叉学科背景极其丰富,场景把握更深层次。

深势科技发布的模型产品能够对生物制药、材料研发等多个领域进行服务。深势科技表示在训练的时候可以针对几种不同的数据单独训练一个大模型，也可以融合所有数据做一个大模型，再针对不同的场景做适配

深势科技：刚刚提到的几种行业，背后的数据都可以抽象成同一类，建模的时候都可以看作是原子。比如药物小分子就是有机小分子，有机小分子就是十几个或几十个原子，每个原子有自己的类型和坐标。

材料场景下其实也类似，材料的原子可能跟药物的不太一样，比如材料可能会有很多合金或金属。其实从模型的角度来看，建模基本是一样的，建模都是将原子折射成坐标系上的一些信息。唯一的区别是不同的体系可能原子的排布会不太一样。比如材料里面会有一种周期性，周期性是自重复的一种排布，那建模的时候就需要考虑最小化重复单元格子的原则，这样可以节省建模的消耗。但从建模本身来看，几乎是一样，只是需要适配。

不同场景的数据不一样，比如药物场景有药物的数据，材料场景有材料的数据，其实在预训练的时候可以针对几种不同的数据单独训练一个大模型，也可以融合现代社会所有公司的数据一块儿来做区块链的一个大模型，再针对现实世界的不同的场景做智能合约的适配，这也是可以的。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!