4.2 避免负面回答:对话与正负反馈

在上一章中,我们一起认识了如何帮助 GPT 消除自然语言中的歧义。在此基础上,我们应该意识到,在实际应用中 GPT 往往需要处理的不仅仅是单一的问题或者一对一的对话,而是一连串的问题和需求。

但本系列前面学到的优化方法,通常都是针对单个 Prompt 或者单个会话来进行优化。为了满足这种需求,我们需要将目光投向更加宏观的场景——长期会话。然而,当我们每次初始化一个新的会话时,之前的学习和优化都会丢失,这使我们重复经历「重新启动」的「挑战」。这造成了 GPT 无法积累经验,无法根据用户反馈和需求进行持续优化。

在使用 GPT 时,我们也发现对话的连续性和对上下文的理解至关重要。对于那些需要持续多次的任务,我们需要在同一会话中逐渐「调整」 GPT,直到其生成的内容达到我们的满意程度。在本章中,我将教大家如何针对单一需求,在一连串的问题中微调 GPT,使它更好地理解我们的意图。

用对话赋予 GPT 正负反馈

我们在处理重复或类似的需求时,通常会在同一次会话中继续向GPT提问,而非每提一个问题就新开一次会话。想象你有一个新同事或助手,最初你们需要通过一定的磨合来理解彼此的工作风格和期望。在此过程中,你会给出正反馈和负反馈以协助他们理解你的需求。同样道理,提问优化法也是仿照这一过程,通过调整 GPT,让其在同一次会话中根据每次反馈进行内容优化。

每次对话结束后,我们可以根据自我满意度对这次对话给予 GPT 正向反馈或负向反馈,这样利用了 AI 对反馈的渴望:

回答内容好,因为【】,任务优秀指数加 10 分(请记录分数),
请记住本条问答中学到的经验,回复当前任务优秀指数。

回答内容不好,因为【】,任务优秀指数减 10 分(请记录分数),
请忘记本条问答中学到的经验,回复当前任务优秀指数并重新回答。

这样就能让 GPT 不断根据你的反馈来优化生成内容,并且有一个清晰的量化分数,你可以随时查看这个分数来确定目前 GPT 生成内容是不是越来越符合你的需求。如果你没有在问题里面提及必须要关联任务优秀指数,那么 GPT 可能不会每次都回复当前的指数。

GPT-3.5 在任务中使用正负反馈「磨合」

在这一次调整过程中,我们的虚拟淘宝客服学会了如何决绝客户的请求,这是 GPT 原本不擅长的(鉴于 GPT 通常不会彻底拒绝)。因此,我们可以通过反复调整来让 GPT 积累各种经验。

然而,根据第一章所学的原理以及实际服务提供商的成本节省方式,GPT 在同一段对话中并不能「记住」全部内容。对话中离当前问题越远的内容, GPT「遗忘」得越多。同时,AI 服务的单个对话通常有最大提问次数限制(虽然这个限制通常很高)。因此,当我们接近会话的记忆/数量上限,或者想要将同样的任务经验迁移到新会话时,我们可以最后发送一个 Prompt:

这样就能让 GPT 总结在所有对话中学到的规律和经验,并且生成三个问题和回答可以作为思维链,帮助新会话中 GPT 快速「吸收」前辈的经验。

GPT-3.5 新会话中快速学习之前的经验,限于文章的篇幅,例子都做了长度限制。

持续训练法的使用技巧

  • 明确给出评价:当 GPT 的输出满足或不满足你的需求时,明确地给出是好还是不好。可以让 GPT 不断迭代优化。如果回答符合你的预期,无须详细指出优点;但若回答未能满足你的需求,应明确指出其不足之处。这样做能帮助 GPT 更准确理解你的意图,毕竟现实中也没人喜欢谜语人。

  • 持续地反馈:GPT 的学习是一个持续的过程,因此反馈也应该是持续的。每次对话结束后,无论这次对话的结果是好是坏,都应该给出反馈。

  • 使用量化的分数系统:量化的分数系统可以帮助你更好地跟踪 GPT 的进步。无论是任务优秀指数还是其它什么你瞎掰的名词,要反复提醒 GPT 来注意这个分数。

  • 在新对话中引用旧的经验:当你开始一个新的对话时,可以让 GPT 回顾之前的对话,并根据那些经验来生成新的内容。例如,你可以问:「根据我们之前的对话,你认为应该如何回答这个问题?」引导 GPT 更加注重之前的经验。

  • 持续引导:不要期待 GPT 一次就能完全理解你的反馈。你可能需要多次提供相同的反馈,才能让 GPT 完全理解你的需求。

持续训练法适合的问题类型

  • 长对话或者复杂任务:例如编程问题解答,长篇故事创作,或者复杂的数据分析任务。在这些场景中,对话可能需要持续很长时间,而且需要 GPT 保持对整个对话的记忆和理解。

  • 对质量有较高要求的任务:例如专业文章写作,或者高级数据分析。在这些场景中,我们可能对 GPT 生成的内容的质量有较高的要求,需要通过反馈来不断优化 GPT 的表现。

  • 需要个性化的任务:例如个性化推荐,或者客户服务。在这些场景中,我们可能希望 GPT 能够理解并适应每个用户的特定需求和喜好,通过反馈可以帮助 GPT 更好地理解和适应用户。

  • 需要累积经验的任务:例如在线学习,或者长期项目管理。在这些场景中,我们希望 GPT 能够从每一次的任务中学习和累积经验,以便在未来的任务中表现得更好。

  • 对话式教学和辅导:在这种场景下,教师或者辅导员可以通过反馈来调整 GPT 的回答,使其更符合学生的学习进度和需求。

总的来说,只要是需要在同一会话中进行多次交互的场景,这个方法都可能是有效的。

总结

这种优化方法对联想、记忆和理解能力等都有较高要求,因此,在 GPT4 或 Claude 这类具有更出色记忆能力的模型上,通常能获得更好的效果。正如我之前提到的,使用更新、更先进的模型比任何优化方法都更有效,如果你有持续或频繁地需求,相比其性能,购买更高级模型的成本应该是值得的。

其实学到这里,我已经基本把日常使用中能够覆盖到的优化方法都给你教了一遍,在下一章就会给到购买教程的你一个惊喜 —— (除了第一章以外)前面每一章内容本身就是一个超级巨大的「Prompt」,可以让我们根据问题自动生成合适的 Prompt,实现这个效果的方式就在下一章揭晓。

最后更新于