OpenAI 研究人员透露了一种新模型 CriticGPT,设计识别 GPT-4 所生成的代码中的错误。CriticGPT 使用了人类反馈中强化学习(Reinforcement Learning from Human Feedback 或 RLHF) 去增强 AI 系统,它作为 AI 助手帮助人类审查 ChatGPT 生成的代码。它分析 AI 生成的代码然后指出可能的错误,帮助人类更容易识别可能会忽视的 bug。研究人员通过故意在代码中加入 bug 去训练 CriticGPT 识别和标记代码中的各种 bug。
https://arstechnica.com/information-technology/2024/06/openais-criticgpt-outperforms-humans-in-catching-ai-generated-code-bugs/
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/