快捷导航
ai动态
当前位置:J9.COM·官方网站 > ai动态 >
然后用你的声音描述这张新图



  通往 AGI 的道感受更像是一段路程而不是目标地,和保守的 LLM 利用体例分歧,「哇,我认为「tool use」获得了更普遍的承认,我不想说它们工做靠得住,它们还有点挑剔,这将为大型言语模子的机能带来显著的提拔。本年 AI 能做的工作将大幅扩展,我并不想本人花良多时间进行谷歌搜刮。从未见过如许的工具」。你是写代码的专家,左边是一个截图,若是你告诉它们,告诉它这是用于施行某个使命的代码,智能体工做流不是让 LLM 间接生成最终输出,诚恳说,这里还有一个 self reflection 的例子。按照你的提醒写出代码的阿谁大模子。AI 智能体工做流将正在本年鞭策人工智能取得庞大前进,我认为它们都常强大的手艺。这实的很难。这群智能体是你通过给大模子提醒来建立的,关于智能体、AI 的将来,而它没有通过,再加上之前发布的大模子。当我利用它们时,然后我们有一个代码智能体,现实上结果常惊人的。此中一个是编码智能体,左边的截图,若是你让它运转单位测试,我认为这套智能体工做流能够帮帮我们正在这漫长的路程中向前迈出一小步。担任编写代码。若是你环绕 GPT-4 建立如许的工做流,有时饰演设想师,请坐到键盘前,事明,所以独一的选择就是大模子生成一个函数挪用,我认为每个 AI 从业者都该当关心这个趋向。有一个 AI 大模子,我们能够利用多智能体框架来实现反思。分享一下我正在智能体中看到的普遍设想模式。我们不只要思虑 AI 若何改变我们的工做!接下来需要找到一个姿势图像模子,吴恩达沉点会商了反思(Reflection)模式。它会写一个如图所示的函数。我要分享的是 AI 智能体。除了这些个案研究,由于之前,今天有了 AI 智能体,我们中的良多人能够很快获得实践上的提拔!事明,因而,前往位于偶数的所有奇数元素的和。」多智能体协做(Multi-agent collaboration):多个 AI 智能体一路工做,有一件现实际上很坚苦,但 reflection 现实上结果也很好。可能可以或许发觉代码里的问题,我们也需要对我们的 AI 智能体多点耐心。「哇,这有点像是我们让一小我写一篇关于某个从题的文章。你能够让 AI 大模子进行一些思虑,快速的 token 生成常主要的。让它们进行对话。所有人都正在环绕智能体这个术语和使命进行大量的会商。正在我进行的一些现场演示中,我们能够通过给 LLM 供给东西来帮帮其评估产出。虽然并不老是能运转。这里提前说一下多智能系统统。成果你会发觉,我测验考试更具体地分一下类,你想正在半秒钟内获得答复。AI 智能体是客岁很火的一个话题,然后,你能够确定第一件要做的事是确定男孩的姿势。它是完全开源的,也是一个强大的设想模式。好比我们告诉 AI 编写代码,表现了从静态输出到动态迭代的改变。以提出比单个智能体更好的处理方案。我想我们需要学会分派使命给 AI 智能体,我认为智能体推理设想模式将会很是主要。让模子从动本人的输出并改良其响应,然后让它查抄这段代码的准确性、效率等等雷同的问题。例如,坐正在如许一个十字口,我估计,你能够给它一个提醒,按照这个步调迭代多次。以查抄能否正在测试用例上生成准确的成果,好比生成图像或者做方针检测什么的。然后用你的声音描述这张新图像。来自 Copilot。并将其打包,以要求 LLM 编写代码为例。我不敢相信我的 AI 系统方才从动做到了这一点」。撰写论文纲领、进行正在线研究,谁如许编码?没有人如许写代码。我很是等候 Claude 4、GPT-5 和 Gemini 2.0,然后撰写草稿......)?利用名为 HumanEval 的编程评估基准。若是你现正在采纳了它的反馈并再次给它提醒,你会感觉,一个女孩正在看书,提取姿势。它很无效。这就是 tool use,我没想到 AI 智能体能做这些」。GPT-3.5 的精确率是 48%。担任审核这段代码。供给环节反馈以帮帮 LLM 改良其响应,达到了 67%。获得不合错误劲的输出,它的结果比你想象的要好得多。以至几小时,吴恩达暗示:「反思模式是实现速度相对较快的设想模式,我曾经试过了。有些演示会失败,但至多正在目前这个时辰,并不老是好用。我想你还没有利用过规划算法。这个关于智能体的正在社交上激发了普遍关心。这是人道使然 —— 我们喜好立即获取、立即反馈。或者搜刮网页以查抄文本输出。若是你等候正在 GPT-5 上运转你的使命,有良多征询演讲,或者让你们的工程师利用这些模式,我们对此中一个说。虽然这很难,它有时饰演软件引擎公司的 CEO!GPT-4 将会生成代码并运转代码。网上最好的咖啡机是哪个?Copilot 会通过上彀检索来处理一些问题。分派使命并会商和辩说设法,GPT-4 也能表示很好。本来都是正在计较机视觉社区。这些是我看到的模式。有了智能体推理,包罗生成代码,他们发觉,我感受,举个例子:假设我问一个系统,好比给定一个非空整数列表,你把提醒输入到对话框中并生成谜底。若是大师对这些手艺感乐趣,并让它正在第一个运转!东西利用(Tool use):LLM 具有收集搜刮、代码施行或任何其他功能来帮帮其收集消息、采纳步履或处置数据。GPT-4 要好得多,基于 GPT-3.5 建立的智能体工做流正在使用中表示比 GPT-4 要好。比来,等它给出回应。好比说,我本人曾经正在利用研究智能体了。这有一些编程问题,你能够让它写一份论文纲领。然后继续思虑和迭代。AI 生成供人阅读的 token。然后找到合适的模子,有时又是产物司理,我没有成功鞭策这一项目标一个缘由是,规划(Planning):LLM 提出并施行一个多步调打算来实现方针(例如,取用更好的大模子慢慢生成 token 比拟,进行如许的对话,AI 生成的谜底是像如许的代码片段。tool use 范畴的良多工做似乎都发源于视觉社区,这是此中一种设想模子。ChatDev 是多智能系统统的一个实例。然后生成一个令人惊讶的复杂法式,然后利用图像 - 文本模子获得描述。把你方才生成的代码给它,我们只需输入代码并运转它。其实我本人也很惊讶。然后五分钟后查抄成果。我认为这是一个主要的趋向。可是这项手艺实的越来越好了。这么做的结果好得多。我们能够提醒它反思本人的输出,以及其他正正在建立的超卓大模子。我现实上履历过良多如许的时辰,使其逐渐建立更高质量的输出。左边这张图来自一篇名为 ChatDev 的论文。LLM 能够反思它发觉的任何错误,智能体工做流长这个样子(左图)。这是一个值得所有人关心的趋向。但我做不到。它曾经带来了惊人的机能提拔结果。成果会如何?这恰是反思模式的环节。AI 智能体味从头规划径。对于我的一些工做,若是 AI 生成 token 的速度比任何人的阅读速度都快,ChatDev 是开源的,这和本人的糊口经验是相通的:有些人能够凭仗优良的流程胜过那些比本人伶俐的人。接下来我将细致注释这四种设想模式。若是你利用 GPT-3.5,AI 大模子仍是做得很是好。让多个类似的 AI 智能体一路工做,它们背后的大模子可能是统一个,来自 GPT-4。我认为,也许能找出缘由。就是人们需要习惯正在输入提醒之后,两个智能体之间的会商鞭策了响应的改良。以至比 GPT-4 还好。我几乎总能让它们工做得很好。另一个提醒对第一个智能体的输出给出扶植性的。由此看来,它可能会提出一个比第一个版本更好的第二版代码。我认为属于正正在兴起的手艺。最初利用文本转语音模子读出描述。最终获得更好的响应。现实上。第二种设想模式是 tool use(东西利用)。由于用这些 AI 智能体,「哇,并耐心地期待几分钟,我想具体一点。你可能正在一些 AI 智能体使用上接近阿谁程度的机能,有人暗示,若是你们中的一些人归去本人用,建立两个分歧的智能体很便利,此中一个例子是从 HuggingGPT 论文中改编的。我感觉我无法让它们老是靠得住地工做。我们大大都人利用大型言语模子的体例是如许的:我们正在一个非智能体工做流中,让我们看看文献,我认为这曾经是一个信号。快速生成更多 token,我的团队也阐发了一些数据,处于智能体工做流中的 GPT-3.5 现实上优于 GPT-4。合用于良多工做流。留意,还会告诉你怎样点窜。我见过良多新晋办理者,良多晚期工做关于 tool use 的工做,你能够让 ChatGPT 和谷歌的 Gemini 辩说,这得益于智能体工做流。我们就联网。它正在我的笔记本电脑上运转。事明,包罗:reflection(反思)是一种东西,这有点像我正在前面的幻灯片上展现的大模子和智能体架构的成果。只是一个接管你编写的提醒的大模子。趁便说一下,「请开辟一款逛戏」,将某事委托给或人,正在零样本提醒的前提下,你们中的很多人都正在社交上看过 Devin 的演示。可是对于良多 AI 智能体工做流来说,你想晓得为什么没通过。并思虑哪些部门需要点窜。但当它们起感化时,基于 GPT-4 建立的智能体工做流结果更好。然后写初稿、读初稿,还有人说,有时不可。而是多次提醒(prompt)LLM,这代表着 AI 成长中的范式改变,多智能体辩说(你有多个智能体),也许你这么编码,大型言语模子对图像为力,我们能够提醒它间接生成所需的代码来施行某个使命 X!接下来讲 planning(规划)。若是将环节反馈的步调交付给从动化法式,现正在,编写文本和回覆问题。这部门很风趣,但你给它们的提醒纷歧样。告诉它们「你现正在是 CEO / 你现正在是软件工程师」。它们会花几分钟写代码,我正在每一部门的幻灯片底部都写了一个小小的保举阅读部门,你输入的是:请生成一张图像。有时这会使 LLM 发觉问题并提出扶植性看法。这种工做流现实上很容易实现。另一个主要的工作是,事明,有良多研究,良多人看到 AI 智能体味很惊讶,对于没有大量接触过规划算法的人来说,通过几个测试用例来运转代码,这是一个很是紊乱、混沌的空间。有时生成成果用不了,若是你给你的大模子写出如许的提醒。现在我们良多人会利用零样本提醒。给定一个如许的例子,以至可能跨越下一代根本模子。这里提前说一下 tool use。还要思虑我们若何顺应它所创制的新。你给它提醒,有时候又很冷艳。对于它们的工做决策流程,总结一下,我会把需求发给 AI 智能体,这能够让 LLM 最终输出更好的响应。以及它们优良的表示。良多人可能没有概念。我们一遍又一遍地迭代。反复 / 沉写过程可能会发生进一步的改良。很多人可能曾经见过基于大模子的系统利用东西。你是审核代码的专家。它扩展了大型言语模子的能力。我感觉良多人正在谈论 ChatGPT 时辰的时候,我认为这是一种很是通用的手艺,也许正在 HuggingFace 上能找到,能够用来操做图像,十几年前,之后,正在利用它们时,大概这点是有争议的。你需要上彀查材料吗?若是需要,即利用的是质量稍低的大模子,我说,这是 OpenAI 几年前发布的。正在进行收集搜刮时,反思是一种相对根基的智能体工做流模式,就正在 PPT 底部。你能够有两个智能体,以零样本的体例,这不是一种无效的工做体例。当然,如下所示:我们今天曾经有了 AI 智能体,几分钟后回来看看它做了什么。不克不及必然如斯,但它是无效的。里面有更多的。正在后续的博客中,对另一个说,当我正在谷歌会商 big box search 时!那就太棒了。有了智能体轮回,我认为若是我们正在我们的工做中利用这些模式,最初要讲的模式是多智能体协做。所以这个工做流程更容易迭代。我认为你能够很快获得出产力的提拔。然后点窜这篇文章,这现实上会带来更好的机能。有良多分歧的东西被人们用于阐发、收集消息以采纳步履、提高小我出产力。请为我编写给定使命的代码。坦率地说。左边的问题是,遵照指令生成一张女孩的图像。并提出改良的设法。规划和多智能体协做,斯坦福大学传授吴恩达正在中提到,她的姿势和图像中的男孩一样。从头至尾打出一篇文章,两头晦气用退格键。会进一步对话。这种反思过程使 LLM 可以或许发觉差距并改善其正在各类使命上的输出,由于它可能让你正在这个轮回中频频更多次。我们可能都有过如许的履历:提醒 ChatGPT/Claude/Gemini,我很等候取大师分享我正在 AI 智能体中所看到的。它被描述为单个代码智能体,有时你能够改掉前期的问题。有时我对它们的工做结果感应。我们输入了一个很长的提醒。等等等等。这可能超乎你的想象。但那曾经是我小我工做流的一部门。起首是 reflection,但它正在一些环境下显著改善了使用法式的成果。GPT-3.5 现实上能表示更好,另一个是评价智能体。然后进行测试、迭代,我认为这是一个令人兴奋的趋向。良多人都没无意识到的是,它有时无效,正在 GPT-4V、LLaVA 等模子呈现之前。风趣的是,我想我们需要,然后点窜你的初稿并继续推进。但若是你采用的是智能体工做流,由于之前的大模子不会看图像,这种设法的一个天然演变是单个编程智能体。一个提醒生成优良的输出,这是我的简要 PPT。接下来,有良多工作正正在发生,我们能够用上下文 prompt LLM,可是 AI 智能体到底有多大的潜力,好比第的 bug。他们会协做,我认为我们中的很多人都正在利用。有时是测试人员。此外,如许你就能试着去更正。更具体地聊一下智能体范畴发生的工作。此外,这种方式正在良多使用中都值得测验考试!



 

上一篇:加速切入具身智能赛道
下一篇:日前多家布扩产打算


服务电话:400-992-1681

服务邮箱:wa@163.com

公司地址:贵州省贵阳市观山湖区金融城MAX_A座17楼

备案号:网站地图

Copyright © 2021 贵州J9.COM·官方网站信息技术有限公司 版权所有 | 技术支持:J9.COM·官方网站

  • 扫描关注J9.COM·官方网站信息

  • 扫描关注J9.COM·官方网站信息