对话熵简科技：纵向领域的数据是大模型应用的关键 | 年度AI对话

发布时间：2023-05-08 13:37:35 所属栏目：动态来源：

导读：在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的热情。

因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探

在ChatGPT爆火的当下，大模型火遍全球，中国产业也激发了对人工智能应用的热情。

因此，这个时间点，36氪数字时氪团队正式启动《年度AI对话》专栏，希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨，通过一系列报道，还原AI新的技术能力与应用潜力。

未来大模型赛道将会如何发展？对于金融资管这种具有独特属性的行业，大模型会带来什么影响？对于细分行业的数字服务商，大模型又将给他们带来什么帮助？带着这些问题，我们专访了熵简科技CEO费斌杰。

熵简科技CEO费斌杰认为：大语言模型就像一个性能强大的无损压缩器；大语言模型赛道已经进入追逐战，年底之前做不出一个像样的模型，可能就要淘汰出局了。现在对很多做细分行业的数字化公司来说既是机会又是挑战。

以ChatGPT为代表的大语言模型现在非常火热，费斌杰认为大语言模型就像一个性能强大的无损压缩器；未来会有闭源的大模型厂商，也会有开源的大模型厂商。

第二，做出一个性能更强大的无损压缩器，压缩训练集，获得泛化能力。做一个更好的无损压缩器有几种方法，扩大模型规模是其中一种方法。更好的算法架构；借用外部的工具，比如plugin；合成数据等都是不同的方法。

第二步把资料压缩成一份 30 页的深度报告，并且得出一个总结建议，这就是一个压缩过程。当无损压缩的压缩比越高，这样一来说明对心理学知识的理解掌握程度就越深。

我认为未来的行业格局很可能是人手一堆模型，而不是所有人用同一个模型。第一个大模型虽然是Open AI带来的，但它是一个算法加工程化的问题。算法是趋同的，工程上有很多细节是能够克服的。

比如移动互联网行业里有闭源的苹果，有开源的安卓。如果说AGI是新一代的操作系统，那就会有闭源的Open AI，也会有开源的厂商。大语言模型最强的商业逻辑就是做成数据黑洞，通过收集更多的数据，变得更强。

如果当下有一个开源的模型并且大家都在用，那么它的性能会提升得很快并追赶Open AI。所以我认为语言模型赛道现在是一个非常紧张的状态，现在是一个追逐战。如果年底之前做不出一个像样的模型，可能就要被淘汰出局了，资本可能不会允许这样的事情发生。我认为做大模型的厂商竞争会非常激烈。

开源的语言模型如果能够出现，会造福所有行业。最终有两类公司会受益，首先是各个行业的终端甲方，他们的生产力会大幅提升。第二类是在开源的语言模型上，结合具体行业的场景和私域数据，帮助模型落地的公司。我们很可能下一步会做这件事。因为很多机构给我们提出了非常高的需求，所以我们现在内测发现开源的模型到后面的能力是曲线上升的。

开源的模型可能会更有生命力、更有活力，闭源模型的数据可能更精准一点，各有各的优势。我个人认为这两方面的发展应该都会出现很大概率的一家人工智能公司。

大模型目前对每个行业来说都是一个不确定的因素，但在金融投资领域，大模型的出现究竟产生了什么影响？费斌杰告诉我们， AI 在这个领域的应用可能会逐渐的由浅入深，目前对初级研究员的影响比较大。

比如钠离子电池工艺比较成熟，那么锂电池厂商切换为生产钠离子电池的难度大不大？工具的答案是，难度是很大的，因为二者的工艺路线是完全不同的。但如果问一个专业投资人，得到的回答难度很小，因为二者的工艺高度相似。只要有 20%- 30%的改造量就能生产钠离子电池。

我们做了大量的金融类的客户案例，积攒了大量的高质量数据。如果一个医疗公司拥有大量医疗数据、病例数据，那么它也能开发出类似的产品。所以总的来说私域积累的数据量越大，数据的质量越高越有挖掘的价值。

我们现在的结论是对初级研究员这个领域会有很大的影响，因为比如我刚入行做初级研究员的时候，我们做的工作确实就是收集信息，并且归纳总结。而且压缩的质量还不够好。机器现在可以在5分钟内完成一篇，总结地很好，而且未来会越来越好。

未来 AI 在这个领域的应用可能会逐渐的由浅入深，从初级分析师到中级分析师，再到基金经理助理，是逐渐往上发展的。

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!