are security benchmarks actually useful?
好的,我现在需要帮用户总结这篇文章的内容,控制在100字以内。首先,我得仔细阅读文章内容,抓住主要观点。 文章讨论了在构建安全工具时遇到的一个问题:如何确定工具是否有效。作者指出,大多数工具引用OWASP、Juliet等基准测试,并声称得分良好。但这些基准主要测试明显的模式,如基本SQL注入或不安全的eval函数,无法反映真实代码中的漏洞情况。 真实代码中的问题可能涉及跨文件的问题、逻辑漏洞、上下文依赖的漏洞以及非模式匹配的问题。因此,即使工具在基准测试中表现良好,也可能遗漏实际问题。 作者因此深入研究,并撰写了一篇博客,讨论现有基准的不足,并提出了更现实的基准标准。最后,他们询问其他人是否信任这些基准结果来评估安全工具。 现在我需要将这些要点浓缩到100字以内。重点包括:安全工具的有效性评估困难、现有基准测试过于简单、无法反映真实漏洞情况、作者提出的解决方案以及对他人看法的询问。 总结时要简洁明了,直接描述文章内容,避免使用“这篇文章”或“总结”等开头词。 </think> 文章探讨了如何验证安全工具的有效性,指出现有基准测试(如OWASP、Juliet)主要针对简单模式,无法反映真实代码中的复杂漏洞(如跨文件问题、逻辑漏洞等),导致工具可能在基准中表现良好却仍遗漏实际问题。作者提出了更现实的基准设想,并质疑人们是否信任这些测试结果来评估安全工具。 2026-3-19 16:4:47 Author: www.reddit.com(查看原文) 阅读量:1 收藏

something we ran into while building a security tool:

how do you actually know if it works?

most tools point to benchmarks like OWASP, Juliet, etc. and say “we scored well”

but when you look closer, those benchmarks mostly test very obvious patterns
(e.g. basic SQL injection, unsafe eval, etc.)

they don’t really reflect how vulnerabilities show up in real codebases:

  • issues that span multiple files

  • logic bugs

  • context-dependent vulnerabilities

  • anything that isn’t just pattern matching

so you can have a tool that scores well on benchmarks but still misses real problems

we ended up going down a rabbit hole on this and wrote about why we think existing benchmarks fall short and what a more realistic one should look like:

https://kolega.dev/blog/why-we-built-our-own-security-benchmark/

curious what others think — do people actually trust benchmark results when evaluating security tools?


文章来源: https://www.reddit.com/r/blackhat/comments/1ry4i0d/are_security_benchmarks_actually_useful/
如有侵权请联系:admin#unsafe.sh