之前的文章展示了如何使用大语言模型构建应用程序,从评估输入、处理输入到在向用户显示输出之前进行最终输出检查。
在构建了这样一个系统之后,怎么知道它是如何工作的呢?甚至在部署系统并让用户使用时,如何跟踪系统的运行情况,找出不足之处,并继续提高系统答案的质量呢?
这篇文章将与大家分享一些评估大语言模型输出的最佳实践。
这里需要说明一下基于提示词构建AI应用与基于传统机器学习监督学习构建应用的区别。
基于提示词的开发将模型开发的核心部分从数月缩短到几天,甚至几分钟或几小时。
而在传统的监督学习方法中,无论如何都需要先收集比如说 10,000 个标注示例,那么再收集 1,000 个测试示例。因此,在传统的监督学习中,收集一个训练集、收集一个开发集或测试集中的保留交叉验证集,然后在整个开发过程中利用收集的这些例子是很常见的。但这将耗费大量时间。
在使用大语言模型构建应用程序时,只需在一小部分示例上调整提示词,可能是 1 到 3 到 5 个示例,并尝试在这些示例上获得有效的提示词。然后,在对系统进行更多测试时,偶尔会遇到一些棘手的例子。提示词对它们不起作用,或者算法对它们不起作用。
在这种情况下,你可以把这些额外的一个、两个、三个或五个例子添加到你正在测试的集合中,以便适时添加额外的棘手例子。最终,你会有足够多的例子被添加到你缓慢增长的开发集中,以至于每次更改提示词时都要手动运行每个例子变得有点不方便。
然后,你开始制定衡量标准来衡量这一小部分示例的性能,例如平均准确率。这个过程还有一个有趣的方面,那就是如果你在任何时候认为你的系统运行得足够好,你就可以就此打住。
现在,如果正在评估模型的手工构建开发集还不能让你对系统性能有足够的信心,那么这时你就可以进入下一步,收集一组随机抽样的示例来调整模型。这仍将是一个开发集或交叉验证集,因为在此基础上继续调整模型是很常见的。只有当你需要对系统性能进行更高保真度的评估时,你才可能收集并使用一个测试集。因此,如果你的系统在 91% 的情况下都能给出正确答案,而你希望对系统进行调整,使其在 92% 或 93% 的情况下都能给出正确答案,那么收集测试集就显得更为重要,因为你确实需要更大的示例集来测量 91% 和 93% 性能之间的差异。
只有当你真的需要对系统的表现进行公正、公平的评估时,你才需要在开发集之外再收集一个测试集。一个重要的注意事项是,对于很多大型语言模型的应用,如果给出的答案不完全正确,也不会有任何伤害和风险。
但很明显,对于任何高风险的应用,如果存在偏差或不适当的输出对他人造成伤害的风险,那么收集测试集以严格评估系统性能就变得更加重要了。但是,举例来说,如果你只是用它来总结文章,供自己阅读,而不供其他人阅读,那么伤害的风险可能就比较小,你就可以在这个过程中尽早停止,而不必花费更多的代价,收集更大的数据集来评估你的算法。
下面我们以之前文章中构建的客户助手作为例子来演示如何评估大语言模型应用。
找相关产品和类别
1 | products_and_category = utils.get_products_and_category() |
输出:
1 |
|
这里使用 utils 中的辅助函数获取产品和类别列表。因此,在电脑和笔记本电脑类别中,这里有一个电脑和笔记本电脑的列表;在智能手机和配件类别中,这里有一个智能手机和配件的列表;其他类别也是如此。
1 | def find_category_and_product_v1(user_input,products_and_category): |
这里构建了一个提示词版本。在这个提示词中也添加了样本来供大语言模型学习。系统消息中则添加了产品类别信息作为信息来源。下面我们测试几个示例来看看效果。
1 | customer_msg_0 = f"""Which TV can I buy if I'm on a budget?""" |
回答:
1 | [{'category': 'Televisions and Home Theater Systems', 'products': ['CineView 4K TV', 'SoundMax Home Theater', 'CineView 8K TV', 'SoundMax Soundbar', 'CineView OLED TV']}] |
用户的提问为:如果我的预算有限,可以买什么电视机?
这里检索用户提问相关的类别和产品,以便我们有正确的信息来回答用户的询问。
1 | customer_msg_1 = f"""I need a charger for my smartphone""" |
回答:
1 | [{'category': 'Smartphones and Accessories', 'products': ['MobiTech PowerCase', 'MobiTech Wireless Charger', 'SmartX EarBuds']}] |
1 | customer_msg_2 = f""" |
回答:
1 |
|
对于这个例子,回答中出现了不需要的\n字符。
1 | customer_msg_3 = f""" |
回答:
1 | [{'category': 'Smartphones and Accessories', 'products': ['SmartX ProPhone']}, {'category': 'Cameras and Camcorders', 'products': ['FotoSnap DSLR Camera']}, {'category': 'Televisions and Home Theater Systems', 'products': ['CineView 4K TV', 'SoundMax Home Theater', 'CineView 8K TV', 'SoundMax Soundbar', 'CineView OLED TV']}] |
更难的测试
1 | customer_msg_4 = f""" |
回答:
1 | [{'category': 'Televisions and Home Theater Systems', 'products': ['CineView 8K TV']}, {'category': 'Gaming Consoles and Accessories', 'products': ['GameSphere X']}, {'category': 'Computers and Laptops', 'products': ['TechPro Ultrabook', 'BlueWave Gaming Laptop', 'PowerLite Convertible', 'TechPro Desktop', 'BlueWave Chromebook']}] |
修改提示词以应对更难的测试
1 | def find_category_and_product_v2(user_input,products_and_category): |
之前的提示词版本已经取得了不错的效果,但对于有些例子仍存在一些瑕疵。在这个更新的版本中,我们添加了 如下语句,要求模型不要输出非JSON格式的字符。
1 | Do not output any additional text that is not in JSON format. |
另外,我们补充了一个样本让模型学习。当然对于更高级的模型,如GPT-4,这些可能就不需要了。
1 | customer_msg_3 = f""" |
回答:
1 | [{'category': 'Smartphones and Accessories', 'products': ['SmartX ProPhone']}, {'category': 'Cameras and Camcorders', 'products': ['FotoSnap DSLR Camera']}, {'category': 'Televisions and Home Theater Systems', 'products': ['CineView 4K TV', 'SoundMax Home Theater', 'CineView 8K TV', 'SoundMax Soundbar', 'CineView OLED TV']}] |
1 | customer_msg_4 = f""" |
回答:
1 | [{'category': 'Televisions and Home Theater Systems', 'products': ['CineView 4K TV', 'CineView 8K TV']}, {'category': 'Gaming Consoles and Accessories', 'products': ['GameSphere X']}, {'category': 'Computers and Laptops', 'products': ['TechPro Ultrabook', 'BlueWave Gaming Laptop', 'PowerLite Convertible', 'TechPro Desktop', 'BlueWave Chromebook']}] |
回归测试
检查修改了提示词后是否会对之前测试用例的性能产生负面影响。
1 | customer_msg_0 = f"""Which TV can I buy if I'm on a budget?""" |
回答:
1 | [{'category': 'Televisions and Home Theater Systems', 'products': ['CineView 4K TV', 'SoundMax Home Theater', 'CineView 8K TV', 'SoundMax Soundbar', 'CineView OLED TV']}] |
经过一些测试示例,我们发现现在的提示词版本已经可以正确地根据用户输入找到相关的产品信息,并且以JSON格式输入相关产品信息。
下面是更为严谨的一步,设定一个测试集来评估系统的性能。
基于测试集的自动测试
这里设定一个测试集,其包含用户的输入和最佳回答。
1 | msg_ideal_pairs_set = [ |
下面的代码对比模型的回答和理想的答案。
1 | import json |
1 | print(f'Customer message: {msg_ideal_pairs_set[7]["customer_msg"]}') |
输出:
1 | Customer message: What Gaming consoles would be good for my friend who is into racing games? |
这里手动测试一下,看是否测试函数能正常工作。
1 | response = find_category_and_product_v2(msg_ideal_pairs_set[7]["customer_msg"], |
回答:
1 |
|
下面是基于测试集进行的自动化测试并输出测试结果。
1 | # Note, this will not work if any of the api calls time out |
回答:
1 | example 0 |
总结
使用提示词构建应用程序的工作流程与使用监督学习构建应用程序的工作流程截然不同,而且迭代的速度感觉要快得多。如果你以前没有做过,你可能会惊讶于建立在几个手工编辑的棘手示例基础上的评估方法。你用 10 个例子来思考,这在统计学上几乎对任何事情都是无效的。但当你真正使用这个程序时,你可能会惊讶地发现,在开发集中添加少量、仅仅是少量棘手的示例,对于帮助你和你的团队获得一套有效的提示和有效的系统是多么有效。在本篇文章示例中,输出结果是可以量化评估的,以便评估系统是否达到了理想状态。
参考:
https://learn.deeplearning.ai/chatgpt-building-system/lesson/9/evaluation-part-i
文章中不好放全部的示例代码,公众号内《首飞》回复 “api” 关键字可获取本篇文章完整的示例代码(格式为ipynb)。
觉得有用就点个赞吧!
我是首飞,一个帮大家填坑的工程师。