加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 搭建环境 > Windows > 正文

微软开源多项工具和数据集 让语言模型更完美

发布时间:2023-12-08 11:12:57 所属栏目:Windows 来源:
导读:今天微软宣布多项工具和数据集开源,这些工具旨在审计 AI 驱动的内容审核系统,以及自动编写突出显示 AI 模型中潜在错误的测试。微软表示 AdaTest 和 (De)ToxiGen 项目可以产生更可靠的大型语言模型 (LLMs),或者类似
今天微软宣布多项工具和数据集开源,这些工具旨在审计 AI 驱动的内容审核系统,以及自动编写突出显示 AI 模型中潜在错误的测试。微软表示 AdaTest 和 (De)ToxiGen 项目可以产生更可靠的大型语言模型 (LLMs),或者类似于 OpenAI 的 GPT-3 的模型,用于分析和生成具有人类水平复杂性的文本。

目前 LLMs 存在诸多风险。因为这些模型经过了大量来自于互联网的数据培训,因此它们在训练过程中可能会遇到有毒文本(toxic text)。尽管需要投入大量资源和时间来重训模型并应对其中的失误以修正其误差,但找出及解决已部署的模型中存在的漏洞仍属不易的一关。

为了解决毒性问题,Microsoft Research 团队开发了ToxiGen,这是一个用于训练可用于标记有害语言的内容审核工具的数据集。据微软称,ToxiGen 包含 274,000 个“中性”(neutral)和“有毒”(toxic)陈述的示例,使其成为最大的公开仇恨言论数据集之一。

我们认识到任何内容审核系统都会存在差距,这些模型需要不断改进。 (De)ToxiGen 的目标是让 AI 系统的开发人员能够更有效地发现任何现有内容审核技术中的风险或问题。

为了生成样本,Microsoft Research 团队提供了一个针对 13 个少数群体的“中性”陈述和仇恨言论的 LLM 示例,这些群体包括黑人、身体和认知障碍者、穆斯林、亚洲人、拉丁裔、LGBTQ+ 和美洲原住民。这些陈述来自现有的系统集以及博客文章、评论性文章、播客记录和其他相似的公共文本来源。

微软团队解释说,用于创建 ToxiGen 语句的过程被称为 (De)ToxiGen,旨在通过指导 LLM 生成工具可能错误识别的语句来揭示特定审核工具的弱点。通过对三个人工编写的毒性数据集的研究,该团队发现从一个工具开始并使用 ToxiGen 对其进行微调可以“显着”提高该工具的性能。

微软团队认为,用于创建 ToxiGen 的策略可以扩展到其他领域,结果导致出现许多更具"细腻"和"丰满"的中间立场和不带偏见的论调实例。

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章