本周二斯坦福大学和加州伯克利的研究人员在预印本网站 arXiv 上发表论文《How Is ChatGPT’s Behavior Changing over Time?》,对 OpenAI 大模型 GPT-3.5 和 GPT-4 的性能一致性提出质疑。研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违法赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。OpenAI 一直否认这一说法,公司产品副总裁 Peter Welinder 称他们没有让 GPT-4 变笨,用户认为 GPT-4 变笨可能是也因为使用越频繁就会遇到愈来愈多以前没有遇到的问题。专家也对最新这项研究提出质疑,认为研究方法可能存在问题,比如将模型的温度设为 0.1。
https://arxiv.org/pdf/2307.09009.pdf
https://arstechnica.com/?p=1954989