Meta 的大模型 Llama 3.1 能回忆《哈利波特》第一部 42% 的内容

Meta 的大模型 Llama 3.1 能回忆《哈利波特》第一部 42% 的内容
斯坦福等大学的研究团队分析了五种开源模型对受版权保护书籍文本的记忆能力。结果显示Meta的Llama 3.1 70B能记住《哈利波特》首部42%的内容，远超其他模型，并更擅长记忆热门书籍如《霍比特人》和《1984》。 2025-6-16 09:29:20 Author: www.solidot.org(查看原文) 阅读量:8 收藏

来自斯坦福、康奈尔和西弗吉尼亚大学的计算机科学家和法律学者组成的团队上个月在预印本平台 arxiv 上发表了一篇论文，分析了五种开放权重模型能否重复 Books3 中的文本。这五种模型三种来自 Meta，另外两种分别来自微软和 EleutherAI，而 Books3 是用于训练大模型的流行书库，其中很多仍然受到版权保护。研究人员将 36 本书分成有重叠的 100 token 段落，使用前 50 token 作为提示词，计算接下来 50 token 与原文相同的概率，如果逐字复述的概率超过五成，研究人员就将该段落标记为“已记住”。结果显示，Meta 在 2024 年 7 月发布的参数规模中等的模型 Llama 3.1 70B 能记住《哈利波特》第一部 42% 的内容，相比下 Meta 在 2023 年 2 月发布的参数规模相似的模型 Llama 1 65B 只能记住 4.4%。研究人员发现，相比冷门书籍，Llama 3.1 70B 更可能重复热门书籍如《霍比特人》和乔治奥威尔《1984》，它对大部分书籍的记忆量远高于其它模型。

arxiv.org/abs/2505.12546
slashdot.org/story/25/06/15/2230206/metas-llama-31-can-recall-42-of-the-first-harry-potter-book

文章来源: https://www.solidot.org/story?sid=81566
如有侵权请联系:admin#unsafe.sh