一、前言
近期,微软正在开发Xtended Flow Guard(XFG),这是Control Flow Guard(控制流防护,CFG)的演进版本,作为其自身的控制流完整性实现。XFG通过不同类型函数原型的哈希值,限制间接控制流的转移。在这篇文章中,深入讨论了MSVC编译器是如何生成XFG函数的原型哈希值。
二、概述
2014年,微软推出了名为“Control Flow Integrity”(控制流防护,CFG)的控制流完整性(CFI)解决方案。在此前,已经有很多研究人员对CFG展开了广泛的研究。随着时间的推移,接连发现了许多绕过CFG的方法。其中一些绕过依赖于实现上的问题(例如JIT编译器的集成,或可以滥用敏感的API),但最终都得到了解决。但是,有一个设计上的问题始终存在——CFG没有提供有效调用目标的任何粒度。任何受保护的间接调用都被允许去调用任何有效的调用目标。在体积较大的二进制文件中,有效的调用目标可能会达到上千个,这就让攻击者拥有了足够的灵活性,可以通过串联有效的C++虚拟函数来绕过CFG(例如:伪造的面向对象编程设计,COOP)。
我们把时间线快进几年。微软一直在开发CFG的改进版本,被称为“Xtended Flow Guard”(XFG)。XFG通过类型签名检查限制间接调用或跳转,从而提供了更细粒度的CFI。XFG背后的一个关键概念是,在编译时将基于类型签名的哈希分配给那些可以作为间接调用/跳转目标的函数。然后,在XFG指示的间接调用点上,进行哈希检查,仅允许具有预期签名哈希的函数。
几周前,研究员Connor McGarr发表了一篇文章,名为《漏洞利用开发:在岩石和XFG之间》,文章说明了XFG的工作方式及其潜在弱点。这篇文章激发了我的好奇心,因此我希望使用IDA Pro和Windbg,以了解XFG哈希是如何生成的。
在撰写本文时,Windows 10 Insider Preview(开发者)版本中已经应用了XFG。如果想要编译支持XFG的程序,需要使用Visual Studio 2019预览版。
本文的分析基于Visual Studio 2019 16.8.0版本 Preview 2.1的二进制文件:
· c1.dll version 19.28.29213.0
· c2.dll version 19.28.29213.0
这篇文章重点介绍如何针对C语言源代码生成XFG哈希。尽管初步看起来C++代码的哈希算法看起来非常相似,但是我们尚未研究其具体细节。由于这篇文章篇幅较长,所以分为了几个部分。首先,从XFG哈希的快速入门开始。然后,分析如何对函数进行哈希处理,详细介绍如何对不同的C类型进行哈希处理。最后,我们检查应用于计算哈希的一些最终转换,并通过尝试计算哈希来得出结论。
三、XFG哈希快速入门
我们先从一个非常简单的C语言程序开始,定义一个名为FPTR ([1])的函数指针类型,该函数声明一个带有两个float参数并返回另一个float的函数。函数main声明一个类型为FPTR、名为fptr的函数指针变量,该变量设置为函数foo ([2])的地址,该函数的原型与FPTR类型匹配。最后,在[3]的位置,调用fptr指向的函数,并将值1.00001和2.00002作为参数传递。
#include < stdio.h > [1] typedef float (* FPTR)(float, float); float foo(float val1, float val2){ printf("I received float values %f and %f\n", val1, val2); return (val2 - val1); } int main(int argc, char **argv){ [2] FPTR fptr = foo; printf("Calling function pointer...\n"); [3] fptr(1.00001, 2.00002); return 0; }
我们使用以下命令行,用VS 2019 Preview的x64本地工具命令提示符中编译了上述源代码。这里使用到了/guard:xfg标志,以启用XFG。
> cl /Zi /guard:xfg example1.c
反汇编后的主要函数如下所示:
main ; int __cdecl main(int argc, const char **argv, const char **envp) main main var_18 = qword ptr -18h main var_10 = qword ptr -10h main arg_0 = dword ptr 8 main arg_8 = qword ptr 10h main main mov [rsp+arg_8], rdx main+5 mov [rsp+arg_0], ecx main+9 sub rsp, 38h main+D lea rax, foo main+14 mov [rsp+38h+var_18], rax main+19 lea rcx, aCallingFunctio ; "Calling function pointer...\n" main+20 call printf main+25 mov rax, [rsp+38h+var_18] main+2A mov [rsp+38h+var_10], rax main+2F mov r10, 99743F3270D52870h main+39 movss xmm1, cs:__real@40000054 main+41 movss xmm0, cs:__real@3f800054 main+49 mov rax, [rsp+38h+var_10] main+4E call cs:__guard_xfg_dispatch_icall_fptr main+54 xor eax, eax main+56 add rsp, 38h main+5A retn main+5A main endp
我们可以在main+0x2F处看到,对于在main + 0x4E处之后的函数指针调用,R10寄存器被设置为预期的基于类型的哈希(0x99743F3270D52870)。通过函数指针调用的函数是foo,我们可以验证其原型哈希(由函数开头的前8个字节表示)是否与预期的哈希匹配。这意味着,函数foo是main+0x4E上间接调用的有效目标。准确的说,原型哈希位于foo函数(0x99743F3270D52871)之前的8个字节,与我们在R10寄存器(0x99743F3270D52870)中看到的预期哈希相匹配,除了第0位之外。
.text:0000000140001008 dq 99743F3270D52871h foo foo ; =============== S U B R O U T I N E ================================ foo ; float __fastcall foo(float val1, float val2) foo foo proc near ; DATA XREF: main+D foo foo arg_0 = dword ptr 8 foo arg_8 = dword ptr 10h foo foo movss [rsp+arg_8], xmm1 foo+6 movss [rsp+arg_0], xmm0 foo+C sub rsp, 28h foo+10 cvtss2sd xmm0, [rsp+28h+arg_8] foo+16 cvtss2sd xmm1, [rsp+28h+arg_0] foo+1C movaps xmm2, xmm0 foo+1F movq r8, xmm2 foo+24 movq rdx, xmm1 foo+29 lea rcx, _Format ; "I received float values %f and %f\n" foo+30 call printf foo+35 movss xmm0, [rsp+28h+arg_8] foo+3B subss xmm0, [rsp+28h+arg_0] foo+41 add rsp, 28h foo+45 retn foo+45 foo endp
但是无需担心这里的差异,因为在XFG调度函数(ntdll!LdrpDispatchUserCallTargetXFG)的开始处,R10的第0位被设置了,导致预期哈希值和函数哈希值在第0位上的差异没有意义。
LdrpDispatchUserCallTargetXFG LdrpDispatchUserCallTargetXFG proc near LdrpDispatchUserCallTargetXFG ; __unwind { // LdrpICallHandler LdrpDispatchUserCallTargetXFG or r10, 1 LdrpDispatchUserCallTargetXFG+4 test al, 0Fh LdrpDispatchUserCallTargetXFG+6 jnz short loc_180094337 LdrpDispatchUserCallTargetXFG+8 test ax, 0FFFh LdrpDispatchUserCallTargetXFG+C jz short loc_180094337 LdrpDispatchUserCallTargetXFG+E cmp r10, [rax-8] LdrpDispatchUserCallTargetXFG+12 jnz short loc_180094337 LdrpDispatchUserCallTargetXFG+14 jmp rax
四、哈希函数类型
MSVC编译器由两个部分组成——前端和后端。前端是特定于某一语言的,负责读取源代码、词法、解析、进行语义分析和发出IL(中间语言)。后端是特定于某一目标体系结构的,它读取前端生成的IL,进行优化,并为特定体系结构生成代码。
函数原型哈希的生成是由语言前端进行的。这意味着在编译C语言代码时,C语言前端(c1.dll)负责生成原型哈希,而在编译C++代码时,C++前端(c1xx.dll)负责这个任务。
一旦相应的语言前端生成了原型哈希,就会由编译器后端(在这里是x64的后端c2.dll)执行一些最终转换。接下来,我们将详细介绍在编译C代码时创建原型哈希的每个步骤。
在使用/guard:xfg标志编译C语言源代码时,编译器前端会调用c1!XFGHelper__ComputeHash_1函数,以计算要处理的函数的原型哈希。
c1!XFGHelper__ComputeHash_1函数创建一个类型为XFGHelper::XFGHasher的对象,该对象负责收集正在处理的函数的类型信息,并根据收集的类型信息生成原型哈希。XFGHelper::XFGHasher使用std::vector的实例存储所有即将被计算哈希的类型信息,并且提供了在计算哈希的整个过程中调用的多个方法:
XFGHelper::XFGHasher::add_function_type() XFGHelper::XFGHasher::add_type() XFGHelper::XFGHasher::get_hash() XFGHelper::XFGTypeHasher::compute_hash() XFGHelper::XFGTypeHasher::hash_indirection() XFGHelper::XFGTypeHasher::hash_tag() XFGHelper::XFGTypeHasher::hash_primitive()
在初始化XFGHelper::XFGHasher的实例后,XFGHelper__ComputeHash_1函数调用XFGHelper::XFGHasher::add_function_type(),将XFGHelper::XFGHasher实例和一个Type_t对象作为参数传递,该对象包含有关哈希函数的类型信息。
XFGHelper__ComputeHash_1 XFGHelper__ComputeHash_1 proc near XFGHelper__ComputeHash_1 XFGHelper__ComputeHash_1 arg_0 = qword ptr 8 XFGHelper__ComputeHash_1 arg_8 = qword ptr 10h XFGHelper__ComputeHash_1 arg_10 = qword ptr 18h [...] XFGHelper__ComputeHash_1+79 xorps xmm0, xmm0 XFGHelper__ComputeHash_1+7C movdqu cs:xfg_hasher, xmm0 ; zero inits xfg_hasher [...] XFGHelper__ComputeHash_1+B1 mov rdx, rbp ; rdx = Type_t containing function information XFGHelper__ComputeHash_1+B4 lea rbp, xfg_hasher XFGHelper__ComputeHash_1+BB mov rcx, rbp XFGHelper__ComputeHash_1+BE call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec) XFGHelper__ComputeHash_1+C3 mov rdx, rsi ; rdx = function- > return_type (struct Type_t *) XFGHelper__ComputeHash_1+C6 mov rcx, rbp ; this XFGHelper__ComputeHash_1+C9 call XFGHelper::XFGHasher::add_type(Type_t const *) ; (step 5)
函数XFGHelper::XFGHasher::add_function_type将检索有关哈希函数的4条信息,从XFGHelper::XFGHasher::add_function_type返回后,通过调用XFGHelper::XFGHasher::add_type可以再添加一条信息,如上面的反汇编列出的XFGHelper__ComputeHash_1+C9所示。这些信息存储在XFGHelper::XFGHasher实例的std::vector中:
(1)4个字节,指示函数的参数数量;
(2)每个函数参数有8个字节,保存其参数的哈希值;
(3)1个字节,指示函数是否是可变参数(是否使用可变数量的参数);
(4)4个字节,指示函数使用的调用约定;
(5)8个字节,存保存函数返回类型的哈希值。
4.1 参数数量
XFGHelper::XFGHasher::add_function_type函数首先将一个DWORD添加到std::vector,以指示该函数的参数数量。这个数字可能会受到可变数量的参数、来自__declspec的虚拟信息的影响(我怀疑这可能是在C++的XFG实现中的一些重用代码)。简而言之,这里我们考虑的参数数量,就是在函数原型中声明的实际参数数量,如果函数用到了可变数量的参数,那么就是-1,如果函数具有来自__declspec的虚拟信息,则为-1。
XFGHelper::XFGHasher::add_function_type+18 mov rsi, [rdx+10h] ; rsi = function_info- > FunctionTypeInfo XFGHelper::XFGHasher::add_function_type+1C mov rbx, rcx XFGHelper::XFGHasher::add_function_type+1F mov rcx, rsi ; this XFGHelper::XFGHasher::add_function_type+22 movzx r14d, r8b XFGHelper::XFGHasher::add_function_type+26 mov r15, rdx XFGHelper::XFGHasher::add_function_type+29 call FunctionTypeInfo_t::RealNumberOfParameters(void) XFGHelper::XFGHasher::add_function_type+2E mov rcx, rsi ; this XFGHelper::XFGHasher::add_function_type+31 mov r9d, eax ; r9 = real_number_of_params XFGHelper::XFGHasher::add_function_type+34 call FunctionTypeInfo_t::IsVarArgsFunction(void) XFGHelper::XFGHasher::add_function_type+39 mov rdx, [rbx+8] XFGHelper::XFGHasher::add_function_type+3D lea rbp, [r9-1] ; rbp = real_number_of_params - 1 XFGHelper::XFGHasher::add_function_type+41 test al, al ; is variadic function? XFGHelper::XFGHasher::add_function_type+43 mov rcx, rbx XFGHelper::XFGHasher::add_function_type+46 cmovz rbp, r9 ; if not variadic, rbp = real_number_of_params XFGHelper::XFGHasher::add_function_type+4A test r8b, r8b ; does it have virtual info from __declspec? XFGHelper::XFGHasher::add_function_type+4D lea r9, [rsp+48h+arg_14] XFGHelper::XFGHasher::add_function_type+52 lea r8, [rsp+48h+arg_10] XFGHelper::XFGHasher::add_function_type+57 lea eax, [rbp-1] ; number of params = rbp - 1 XFGHelper::XFGHasher::add_function_type+5A cmovz eax, ebp ; if no virtual info from __declspec, number of params = rbp XFGHelper::XFGHasher::add_function_type+5D mov [rsp+48h+arg_10], eax ; value to add = number of params (dword) XFGHelper::XFGHasher::add_function_type+5D ; [step 1] XFGHelper::XFGHasher::add_function_type+61 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
4.2 每个参数的类型哈希
接下来,XFGHelper::XFGHasher::add_function_type进入一个循环,在该循环中,它计算每个函数参数类型的哈希,然后将每个类型哈希(8个字节)添加到std::vector。
对于集中特殊情况(类型& 0x10f == 0x103、类型& 0x103 == 0x101)有特殊处理,但是对于大多数参数类型,将返回到loc_180105541。在这个位置,如果需要(调用Type_t::clearModifiersAndQualifiers),则会清除表示要处理的参数类型的Type_t对象的限定符(例如const (0x800)和volatile (0x40)),然后清除8个字节的哈希。通过调用XFGHelper::XFGHasher::add_type,将参数类型添加到std::vector,我们可以在XFGHelper::XFGHasher::add_function_type+CC看到。至于XFGHelper::XFGHasher::add_type是如何精确计算给定Type_t的哈希,我们在后续章节进行分析。
最后,如果还有更多参数需要哈希,就会跳转到循环的开始部分。
XFGHelper::XFGHasher::add_function_type+6E loc_1801054F6: XFGHelper::XFGHasher::add_function_type+6E mov rax, [rsi] ; rax = &function_info- > params XFGHelper::XFGHasher::add_function_type+71 mov rcx, [rax+rdi*8] ; rcx = function_info- > params[i] (Type_t) XFGHelper::XFGHasher::add_function_type+75 mov edx, [rcx] ; edx = params[i].type XFGHelper::XFGHasher::add_function_type+77 mov eax, edx XFGHelper::XFGHasher::add_function_type+79 and eax, 10Fh XFGHelper::XFGHasher::add_function_type+7E cmp eax, 103h ; params[i].type & 0x10f == 0x103 ? XFGHelper::XFGHasher::add_function_type+83 jnz short loc_18010552C XFGHelper::XFGHasher::add_function_type+85 cmp edx, 8103h ; params[i].type == 0x8103 ? XFGHelper::XFGHasher::add_function_type+8B jz short loc_18010554E XFGHelper::XFGHasher::add_function_type+8D mov r8d, [rcx+4] XFGHelper::XFGHasher::add_function_type+91 lea edx, [rax-1] XFGHelper::XFGHasher::add_function_type+94 mov rcx, [rcx+8] XFGHelper::XFGHasher::add_function_type+98 btr r8d, 1Fh XFGHelper::XFGHasher::add_function_type+9D call Type_t::createType(Type_t const *,uint,mod_t,bool) XFGHelper::XFGHasher::add_function_type+A2 jmp short loc_18010554B XFGHelper::XFGHasher::add_function_type+A4 ; -------------------------------------------------------------- XFGHelper::XFGHasher::add_function_type+A4 XFGHelper::XFGHasher::add_function_type+A4 loc_18010552C: XFGHelper::XFGHasher::add_function_type+A4 and edx, 103h XFGHelper::XFGHasher::add_function_type+AA cmp edx, 101h ; params[i].type & 0x103 == 0x101 ? XFGHelper::XFGHasher::add_function_type+B0 jnz short loc_180105541 XFGHelper::XFGHasher::add_function_type+B2 call Type_t::decayFunctionType(void) XFGHelper::XFGHasher::add_function_type+B7 jmp short loc_18010554B XFGHelper::XFGHasher::add_function_type+B9 ; -------------------------------------------------------------- XFGHelper::XFGHasher::add_function_type+B9 XFGHelper::XFGHasher::add_function_type+B9 loc_180105541: XFGHelper::XFGHasher::add_function_type+B9 mov edx, 8C0h ; discards qualifiers 0x800 (const) | 0x80 | 0x40 (volatile) XFGHelper::XFGHasher::add_function_type+BE call Type_t::clearModifiersAndQualifiers(mod_t) XFGHelper::XFGHasher::add_function_type+C3 XFGHelper::XFGHasher::add_function_type+C3 loc_18010554B: XFGHelper::XFGHasher::add_function_type+C3 ; XFGHelper::XFGHasher::add_function_type+B7↑j XFGHelper::XFGHasher::add_function_type+C3 mov rcx, rax XFGHelper::XFGHasher::add_function_type+C6 XFGHelper::XFGHasher::add_function_type+C6 loc_18010554E: XFGHelper::XFGHasher::add_function_type+C6 mov rdx, rcx ; struct Type_t * XFGHelper::XFGHasher::add_function_type+C9 mov rcx, rbx ; this XFGHelper::XFGHasher::add_function_type+CC call XFGHelper::XFGHasher::add_type(Type_t const *) ; adds hash of params[i] type XFGHelper::XFGHasher::add_function_type+CC ; [step 2] XFGHelper::XFGHasher::add_function_type+D1 inc rdi XFGHelper::XFGHasher::add_function_type+D4 cmp rdi, rbp ; counter < number_of_params ? XFGHelper::XFGHasher::add_function_type+D7 jb short loc_1801054F6 ; if so, loop
4.3 可变参数函数
下一步是向std::vector添加一个字节,指示该函数是否可接受可变数量的参数。在大多数情况下,当函数不包含来自__declspec的虚拟信息时,会采用以下代码路径:
XFGHelper::XFGHasher::add_function_type+D9 mov rcx, rsi ; this = functioninfo XFGHelper::XFGHasher::add_function_type+DC call FunctionTypeInfo_t::IsVarArgsFunction(void) XFGHelper::XFGHasher::add_function_type+E1 mov r8b, al ; r8b = is_var_args_function XFGHelper::XFGHasher::add_function_type+E4 test r14b, r14b ; contains virtual info from __declspec? XFGHelper::XFGHasher::add_function_type+E7 jz short loc_1801055EB [...] XFGHelper::XFGHasher::add_function_type+163 loc_1801055EB: XFGHelper::XFGHasher::add_function_type+163 mov rdx, [rbx+8] XFGHelper::XFGHasher::add_function_type+167 lea r9, [rsp+48h+arg_10+1] XFGHelper::XFGHasher::add_function_type+16C mov byte ptr [rsp+48h+arg_10], r8b ; value to add = is_var_args_function (byte) XFGHelper::XFGHasher::add_function_type+16C ; [step 3] XFGHelper::XFGHasher::add_function_type+171 mov rcx, rbx XFGHelper::XFGHasher::add_function_type+174 lea r8, [rsp+48h+arg_10] XFGHelper::XFGHasher::add_function_type+179 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
4.4 调用约定
最后,XFGHelper::XFGHasher::add_function_type将一个4字节的值添加到std::vector,以指示该函数使用的调用约定。在Intel x64体系结构中没有太多的调用约定,这一点与x86不太一样。默认的x64调用约定在寄存器RCX、RDX、R8和R9中传递整数型参数,而浮点型参数通过XMM0-XMM3传递。该默认调用约定在内部用0x201值来表示,但是由于在将其保存到std::vector之前,使用& 0x0F进行了屏蔽(请参考下面的反汇编),因此我们很可能会看到一个值为0x00000001的DWORD写入std::vector。
下面展示了将调用约定数据添加到std::vector的代码。
XFGHelper::XFGHasher::add_function_type+17E mov eax, [r15+4] ; eax = function_info- > calling_convention XFGHelper::XFGHasher::add_function_type+182 lea r9, [rsp+48h+arg_14] XFGHelper::XFGHasher::add_function_type+187 mov rdx, [rbx+8] XFGHelper::XFGHasher::add_function_type+18B lea r8, [rsp+48h+arg_10] XFGHelper::XFGHasher::add_function_type+190 and eax, 0Fh ; eax = calling_convention & 0xF XFGHelper::XFGHasher::add_function_type+193 mov rcx, rbx XFGHelper::XFGHasher::add_function_type+196 mov [rsp+48h+arg_10], eax ; value to add = calling_convention & 0xF (size = dword) XFGHelper::XFGHasher::add_function_type+196 ; [step 4] XFGHelper::XFGHasher::add_function_type+19A call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
4.5 返回类型的哈希
数据的第五部分,也是最后一个组成部分,用于获取函数原型哈希,它无法在XFGHelper::XFGHasher::add_function_type中检索到,而是在返回后立即添加的。在下面的代码中我们看到,它调用XFGHelper::XFGHasher::add_type,为表示返回类型的Type_t计算8字节的哈希,并将计算出来的8字节哈希值添加到std::vector。
XFGHelper__ComputeHash_1+BE call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec) XFGHelper__ComputeHash_1+C3 mov rdx, rsi ; rdx = function- > return_type (struct Type_t *) XFGHelper__ComputeHash_1+C6 mov rcx, rbp ; this XFGHelper__ComputeHash_1+C9 call XFGHelper::XFGHasher::add_type(Type_t const *) ; (step 5)
4.6 最后一步:计算收集的原型数据的哈希值
如果该函数包含来自__declspec的虚拟信息,则会从该信息中生成一个附加的8字节类型的哈希,并将其添加到std::vector。但是,在测试期间,我没能实现这种特殊情况。如前所述,虚拟信息可能不适用于C语言代码。
无论是否存在来自__declspec的虚拟信息,XFGHelper__ComputeHash_1函数都可以通过调用XFGHelper::XFGHasher::get_hash函数来完成:
XFGHelper__ComputeHash_1+CE test rbx, rbx ; contains virtual info from __declspec? XFGHelper__ComputeHash_1+D1 jz short loc_1801052EF [...] XFGHelper__ComputeHash_1+103 loc_1801052EF: XFGHelper__ComputeHash_1+103 mov rcx, rbp ; this XFGHelper__ComputeHash_1+106 mov rbx, [rsp+38h+arg_0] XFGHelper__ComputeHash_1+10B mov rbp, [rsp+38h+arg_8] XFGHelper__ComputeHash_1+110 mov rsi, [rsp+38h+arg_10] XFGHelper__ComputeHash_1+115 add rsp, 30h XFGHelper__ComputeHash_1+119 pop rdi XFGHelper__ComputeHash_1+11A jmp XFGHelper::XFGHasher::get_hash(void) XFGHelper__ComputeHash_1+11A XFGHelper__ComputeHash_1 endp
XFGHelper::XFGHasher::get_hash对在std::vector中收集的类型数据进行哈希处理。我们在XFGHelper::XFGHasher::get_hash+5F中看到,选择的哈希算法是SHA256,仅返回生成的SHA256摘要的前8个字节:
XFGHelper::XFGHasher::get_hash(void) public: unsigned __int64 XFGHelper::XFGHasher::get_hash(void)const proc near [...] XFGHelper::XFGHasher::get_hash(void)+18 mov dl, 3 ; algorithm_ids[3] == CALG_SHA_256 XFGHelper::XFGHasher::get_hash(void)+1A lea rcx, [rsp+58h+hHash] ; phHash XFGHelper::XFGHasher::get_hash(void)+1F call HashAPIWrapper::HashAPIWrapper(uchar) XFGHelper::XFGHasher::get_hash(void)+24 nop XFGHelper::XFGHasher::get_hash(void)+25 mov r8, [rbx+8] XFGHelper::XFGHasher::get_hash(void)+29 sub r8, [rbx] ; dwDataLen XFGHelper::XFGHasher::get_hash(void)+2C xor r9d, r9d ; dwFlags XFGHelper::XFGHasher::get_hash(void)+2F mov rdx, [rbx] ; pbData XFGHelper::XFGHasher::get_hash(void)+32 mov rcx, [rsp+58h+hHash] ; hHash XFGHelper::XFGHasher::get_hash(void)+37 call cs:__imp_CryptHashData XFGHelper::XFGHasher::get_hash(void)+3D test eax, eax XFGHelper::XFGHasher::get_hash(void)+3F jnz short loc_180105822 [...] XFGHelper::XFGHasher::get_hash(void)+4A loc_180105822: XFGHelper::XFGHasher::get_hash(void)+4A mov r8d, 20h ; ' ' ; unsigned int XFGHelper::XFGHasher::get_hash(void)+50 lea rdx, [rsp+58h+sha256_digest] ; unsigned __int8 * XFGHelper::XFGHasher::get_hash(void)+55 lea rcx, [rsp+58h+hHash] ; this XFGHelper::XFGHasher::get_hash(void)+5A call HashAPIWrapper::GetHash(uchar *,ulong) XFGHelper::XFGHasher::get_hash(void)+5F mov rbx, qword ptr [rsp+58h+sha256_digest] ; *** only returns first 8 bytes of SHA256 hash XFGHelper::XFGHasher::get_hash(void)+64 mov rcx, [rsp+58h+hHash] ; hHash XFGHelper::XFGHasher::get_hash(void)+69 call cs:__imp_CryptDestroyHash XFGHelper::XFGHasher::get_hash(void)+6F test eax, eax XFGHelper::XFGHasher::get_hash(void)+71 jnz short loc_180105854 [...] XFGHelper::XFGHasher::get_hash(void)+7C loc_180105854: XFGHelper::XFGHasher::get_hash(void)+7C mov rax, rbx XFGHelper::XFGHasher::get_hash(void)+7F mov rcx, [rsp+58h+var_10] XFGHelper::XFGHasher::get_hash(void)+84 xor rcx, rsp ; StackCookie XFGHelper::XFGHasher::get_hash(void)+87 call __security_check_cookie XFGHelper::XFGHasher::get_hash(void)+8C add rsp, 50h XFGHelper::XFGHasher::get_hash(void)+90 pop rbx XFGHelper::XFGHasher::get_hash(void)+91 retn
五、哈希类型
到目前为止,我们知道函数原型哈希是基于五个信息构建的。其中三个是普通值(参数数量、一个布尔值用于标识函数是否参数可变、一个数字值表示正在使用的调用约定),而另外两个是类型哈希(每个函数参数的类型哈希,以及返回类型的哈希)。在这一章中,我们将了解如何对类型(编译器内部使用Type_t对象表示)进行哈希处理。
类型在XFGHelper::XFGHasher::add_type函数中计算哈希。它调用XFGHelper__GetHashForType,随后返回该类型的8字节哈希,然后通过调用std::vector::_Insert_range()将8字节哈希存储在std::vector中。
.text:00000001801056A0 public: void XFGHelper::XFGHasher::add_type(class Type_t const *) proc near .text:00000001801056A0 arg_0 = qword ptr 8 .text:00000001801056A0 arg_8 = byte ptr 10h .text:00000001801056A0 .text:00000001801056A0 push rbx .text:00000001801056A2 sub rsp, 30h .text:00000001801056A6 mov rbx, rcx .text:00000001801056A9 mov rcx, rdx ; rcx = Type_t .text:00000001801056AC call XFGHelper__GetHashForType .text:00000001801056B1 mov rdx, [rbx+8] .text:00000001801056B5 lea r9, [rsp+38h+arg_8] .text:00000001801056BA lea r8, [rsp+38h+arg_0] .text:00000001801056BF mov [rsp+38h+arg_0], rax ; value to add = hash (qword) .text:00000001801056C4 mov rcx, rbx .text:00000001801056C7 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag) .text:00000001801056CC add rsp, 30h .text:00000001801056D0 pop rbx .text:00000001801056D1 retn
我们来看看XFGHelper__GetHashForType是如何为指定的Type_t生成8字节哈希的。首先,它通过对std:Tree::emplace()的调用,来检查指定类型的哈希是否存在于它保存的缓存中,我们可以在XFGHelper__GetHashForType+AF发现这一点。如果满足条件,则只返回缓存的类型哈希。这样,就可以避免一遍又一遍地计算已知类型的哈希值。
如果在缓存中没有找到类型哈希,则通过调用XFGHelper::XFGTypeHasher::compute_hash从头开始计算哈希,将会使用要计算哈希的类型数据构建std::vector,最后调用XFGHelper::XFGHasher::get_hash,它会生成std::vector中包含的数据的SHA256摘要,并返回这个摘要的前8个字节。
XFGHelper__GetHashForType XFGHelper__GetHashForType proc near [...] XFGHelper__GetHashForType+A3 lea r9, [rbp+arg_8] XFGHelper__GetHashForType+A7 lea r8, [rbp+Type_t] XFGHelper__GetHashForType+AB lea rdx, [rbp+xfg_type_hasher] XFGHelper__GetHashForType+AF call std::_Tree < std::_Tmap_traits < Type_t const *,unsigned __int64,std::less < Type_t const * > ,std::allocator < std::pair < Type_t const * const,unsigned __int64 > > ,0 > > ::_Emplace < Type_t const * &,int > (Type_t const * &,int &&) XFGHelper__GetHashForType+B4 mov rbx, qword ptr [rbp+xfg_type_hasher] XFGHelper__GetHashForType+B8 cmp byte ptr [rbp+xfg_type_hasher+8], 0 ; hash for type was found in cache? XFGHelper__GetHashForType+BC jz short loc_18010544D ; if so, just return the cached hash XFGHelper__GetHashForType+BE xor edi, edi ; otherwise, compute the hash of the type XFGHelper__GetHashForType+C0 xorps xmm0, xmm0 XFGHelper__GetHashForType+C3 movdqu [rbp+xfg_type_hasher], xmm0 XFGHelper__GetHashForType+C8 and [rbp+var_10], rdi XFGHelper__GetHashForType+CC mov [rbp+var_8], 1 XFGHelper__GetHashForType+D0 mov rdx, [rbp+Type_t] ; struct Type_t * XFGHelper__GetHashForType+D4 lea rcx, [rbp+xfg_type_hasher] ; this XFGHelper__GetHashForType+D8 call XFGHelper::XFGTypeHasher::compute_hash(Type_t const *) XFGHelper__GetHashForType+DD nop XFGHelper__GetHashForType+DE cmp [rbp+var_8], dil XFGHelper__GetHashForType+E2 jz short loc_180105434 XFGHelper__GetHashForType+E4 lea rcx, [rbp+xfg_type_hasher] ; this XFGHelper__GetHashForType+E8 call XFGHelper::XFGHasher::get_hash(void) [...]
这些是XFGHelper::XFGTypeHasher::compute_hash收集的特定类型信息:
(1)从类型限定符得到的1个字节(从Type_t对象的偏移量4处获取);
(2)指示类型的1个字节(指针、union/struct/enum、原始类型);
(3)一些特定于类型的数据,具体取决于类型属于(2)中的哪一个类型。
接下来,我们将详细分析这三部分信息。
5.1 类型限定符
第一部分是限定符,作为DWORD存储在Type_t对象的偏移量4的位置。关于const (0x800)和volatile (0x40)限定符的信息将被组合写入到std::vector单字节中。这个新字节的第一位负责指示是否存在const限定符,第二位指示是否存在volatile类型的限定符。
XFGHelper::XFGTypeHasher::compute_hash+1B call Type_t::getFirstNonArrayType(void) XFGHelper::XFGTypeHasher::compute_hash+20 mov rcx, rdi ; this XFGHelper::XFGTypeHasher::compute_hash+23 mov r8d, [rax+4] ; r8d = Type_t- > qualifiers XFGHelper::XFGTypeHasher::compute_hash+27 shr r8d, 0Bh XFGHelper::XFGTypeHasher::compute_hash+2B and r8b, 1 XFGHelper::XFGTypeHasher::compute_hash+2F movzx r9d, r8b ; r9d = (Type_t- > qualifiers > > 0xB) & 1 (has_const_qualifier) XFGHelper::XFGTypeHasher::compute_hash+33 call Type_t::getFirstNonArrayType(void) XFGHelper::XFGTypeHasher::compute_hash+38 lea r8, [rbp+arg_0] XFGHelper::XFGTypeHasher::compute_hash+3C mov edx, [rax+4] ; edx = Type_t- > qualifiers XFGHelper::XFGTypeHasher::compute_hash+3F mov al, r9b ; al = has_const_qualifier XFGHelper::XFGTypeHasher::compute_hash+42 or al, 2 ; al = has_const_qualifier | 2 XFGHelper::XFGTypeHasher::compute_hash+44 and dl, 40h ; dl = Type_t- > qualifiers & 0x40 (has_volatile_qualifier) XFGHelper::XFGTypeHasher::compute_hash+47 movzx ecx, al ; qualifiers_info = has_const_qualifier | 2 XFGHelper::XFGTypeHasher::compute_hash+4A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::compute_hash+4E cmovz ecx, r9d ; if it doesn't have volatile qualifier, then XFGHelper::XFGTypeHasher::compute_hash+4E ; qualifiers_info = has_const_qualifier XFGHelper::XFGTypeHasher::compute_hash+52 lea r9, [rbp+arg_1] XFGHelper::XFGTypeHasher::compute_hash+56 mov [rbp+arg_0], cl ; value to insert (size = byte) XFGHelper::XFGTypeHasher::compute_hash+59 mov rcx, rbx XFGHelper::XFGTypeHasher::compute_hash+5C call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
5.2 类型组
如果存储在Type_t中的类型值设置为0x100,则它是一个指针。通过将值为3的字节写入到std::vector来发出信号。
XFGHelper::XFGTypeHasher::compute_hash+61 test dword ptr [rdi], 100h ; *Type_t & 0x100 == 0 ? XFGHelper::XFGTypeHasher::compute_hash+67 jz short loc_180105762 XFGHelper::XFGTypeHasher::compute_hash+69 mov rdx, [rbx+8] ; if not, it's a pointer XFGHelper::XFGTypeHasher::compute_hash+6D lea r9, [rbp+arg_1] XFGHelper::XFGTypeHasher::compute_hash+71 lea r8, [rbp+arg_0] XFGHelper::XFGTypeHasher::compute_hash+75 mov [rbp+arg_0], 3 ; value to insert: POINTER_TYPE (3) XFGHelper::XFGTypeHasher::compute_hash+79 mov rcx, rbx XFGHelper::XFGTypeHasher::compute_hash+7C call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
如果类型不是指针,则会检查存储在Type_t & 0x600的值是否为0,以确认它是union、struct还是enum。请注意,0x600是0x200 | 0x400,其中0x200表示enum类型,0x400表示union和struct。如果满足这个条件,会将值为2的字节写入std::vector。
XFGHelper::XFGTypeHasher::compute_hash+8E loc_180105762: XFGHelper::XFGTypeHasher::compute_hash+8E test dword ptr [rdi], 600h ; *Type_t & (0x400 | 0x200) == 0 ? XFGHelper::XFGTypeHasher::compute_hash+94 jz short loc_180105790 XFGHelper::XFGTypeHasher::compute_hash+96 mov rdx, [rbx+8] ; if not, it's a union/struct/enum XFGHelper::XFGTypeHasher::compute_hash+9A lea r9, [rbp+arg_1] XFGHelper::XFGTypeHasher::compute_hash+9E lea r8, [rbp+arg_0] XFGHelper::XFGTypeHasher::compute_hash+A2 mov [rbp+arg_0], 2 ; value to insert: UNION_STRUCT_OR_ENUM_TYPE (2) XFGHelper::XFGTypeHasher::compute_hash+A6 mov rcx, rbx XFGHelper::XFGTypeHasher::compute_hash+A9 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
最后,如果类型既不是指针,也不是union/struct/enum,则采用默认情况。如果类型是泛型的,则不会将任何内容写入到std::vector(但这是一种边界情况,仅影响设置了值0x1000的类型,以及标识为值0x8103的类型)。否则,如果是绝大多数的基本类型,会将值为1的字节添加到std::vector。
XFGHelper::XFGTypeHasher::compute_hash+BC loc_180105790: XFGHelper::XFGTypeHasher::compute_hash+BC mov rcx, rdi ; this XFGHelper::XFGTypeHasher::compute_hash+BF call Type_t::isGeneric(void) XFGHelper::XFGTypeHasher::compute_hash+C4 test al, al XFGHelper::XFGTypeHasher::compute_hash+C6 jz short loc_1801057A2 XFGHelper::XFGTypeHasher::compute_hash+C8 mov byte ptr [rbx+18h], 0 XFGHelper::XFGTypeHasher::compute_hash+CC jmp short epilog XFGHelper::XFGTypeHasher::compute_hash+CE loc_1801057A2: XFGHelper::XFGTypeHasher::compute_hash+CE mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::compute_hash+D2 lea r9, [rbp+arg_1] XFGHelper::XFGTypeHasher::compute_hash+D6 lea r8, [rbp+arg_0] XFGHelper::XFGTypeHasher::compute_hash+DA mov [rbp+arg_0], 1 ; value to insert: PRIMITIVE_TYPE (1) XFGHelper::XFGTypeHasher::compute_hash+DE mov rcx, rbx XFGHelper::XFGTypeHasher::compute_hash+E1 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
5.3 特定类型的数据
5.3.1 指针类型的哈希
对于指针类型,在将值为3的字节写入std::vector后,将调用XFGHelper::XFGTypeHasher::hash_indirection函数。这里的指针定义要更为宽泛,因为其中包括所有值为0x100的Type_t对象。除了常规的C指针外,还包括一种内部函数对象(由函数指针引用)和数组。
XFGHelper::XFGTypeHasher::compute_hash+81 mov rdx, rdi ; struct Type_t * XFGHelper::XFGTypeHasher::compute_hash+84 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::compute_hash+87 call XFGHelper::XFGTypeHasher::hash_indirection XFGHelper::XFGTypeHasher::compute_hash+8C jmp short epilog
顾名思义,函数XFGHelper::XFGTypeHasher::hash_indirection将由指向std::vector的指针引用的类型的哈希值添加。其行为取决于所处理的指针的类型:
(1)如果是函数指针(Type_t值为0x106),或Type_t值为0x102的通用指针,则通过调用XFGHelper::XFGHasher::add_type添加指针引用的Type_t的哈希,再加上值为2的字节。对于函数指针,指针引用的Type_t是一种内部函数对象,Type_t值为0x101,这意味着它也在XFGHelper::XFGTypeHasher::hash_indirection中进行处理。
XFGHelper::XFGTypeHasher::hash_indirection+15 mov ecx, [rdx] ; ecx = *Type_t XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh [...] XFGHelper::XFGTypeHasher::hash_indirection+25 sub eax, 1 ; case 0x102 (general pointer): XFGHelper::XFGTypeHasher::hash_indirection+28 jz short loc_1801058E3 [...] XFGHelper::XFGTypeHasher::hash_indirection+2F cmp eax, 3 ; case 0x106 (function pointer): XFGHelper::XFGTypeHasher::hash_indirection+32 jz short loc_1801058E3 [...] XFGHelper::XFGTypeHasher::hash_indirection+6B loc_1801058E3: XFGHelper::XFGTypeHasher::hash_indirection+6B mov dil, 2 ; will be written to std::vector XFGHelper::XFGTypeHasher::hash_indirection+6E jmp short loc_1801058F6 [...] XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6: XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions) XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1] XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte) XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
如果它是一个函数对象(Type_t值为0x101,通常由Type_t值为0x106的函数指针引用),它通过调用XFGHelper::XFGHasher::add_function_type函数以及函数返回类型的哈希值来添加函数原型的哈希值,再加上一个值为1的字节。
XFGHelper::XFGTypeHasher::hash_indirection+15 mov ecx, [rdx] ; ecx = *Type_t XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh XFGHelper::XFGTypeHasher::hash_indirection+1E sub eax, 101h ; case 0x101 (function): XFGHelper::XFGTypeHasher::hash_indirection+23 jz short loc_1801058E8 [...] XFGHelper::XFGTypeHasher::hash_indirection+70 xor r8d, r8d XFGHelper::XFGTypeHasher::hash_indirection+73 mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+76 mov dil, 1 ; this is written to std::vector at the end of this function XFGHelper::XFGTypeHasher::hash_indirection+79 call XFGHelper::XFGHasher::add_function_type(Type_t const *,XFGHelper::VirtualInfoFromDeclspec) XFGHelper::XFGTypeHasher::hash_indirection+7E XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6: XFGHelper::XFGTypeHasher::hash_indirection+7E ; XFGHelper::XFGTypeHasher::hash_indirection+6E↑j XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions) XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1] XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte) XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
最后,如果它是一个数组(Type_t值为0x103),则会写入一个QWORD,其中包含数组中元素的数量、数组元素类型的哈希、值为6的单字节。
XFGHelper::XFGTypeHasher::hash_indirection+15 mov ecx, [rdx] ; ecx = *Type_t XFGHelper::XFGTypeHasher::hash_indirection+17 mov eax, ecx XFGHelper::XFGTypeHasher::hash_indirection+19 and eax, 10Fh [...] XFGHelper::XFGTypeHasher::hash_indirection+2A sub eax, 1 ; case 0x103 (array passed by pointer): XFGHelper::XFGTypeHasher::hash_indirection+2D jz short loc_1801058B2 [...] XFGHelper::XFGTypeHasher::hash_indirection+3A loc_1801058B2: XFGHelper::XFGTypeHasher::hash_indirection+3A lea eax, [rcx-4103h] XFGHelper::XFGTypeHasher::hash_indirection+40 mov dil, 6 ; will be written to std::vector XFGHelper::XFGTypeHasher::hash_indirection+43 test eax, 0FFFFBFFFh XFGHelper::XFGTypeHasher::hash_indirection+48 jz short loc_1801058AC XFGHelper::XFGTypeHasher::hash_indirection+4A mov rax, [rdx+10h] ; rax = number of elems in array XFGHelper::XFGTypeHasher::hash_indirection+4E lea r9, [rsp+38h+arg_10] XFGHelper::XFGTypeHasher::hash_indirection+53 mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+57 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+5C mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+5F mov [rsp+38h+arg_8], rax ; value to insert: number of elems in array (size = qword) XFGHelper::XFGTypeHasher::hash_indirection+64 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag) XFGHelper::XFGTypeHasher::hash_indirection+69 jmp short loc_1801058F6 [...] XFGHelper::XFGTypeHasher::hash_indirection+7E loc_1801058F6 XFGHelper::XFGTypeHasher::hash_indirection+7E mov rdx, [rsi+8] ; rdx = ptr to the Type_t referenced by the pointer XFGHelper::XFGTypeHasher::hash_indirection+7E ; (return type in the case of functions) XFGHelper::XFGTypeHasher::hash_indirection+82 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::hash_indirection+85 call XFGHelper::XFGHasher::add_type XFGHelper::XFGTypeHasher::hash_indirection+8A mov rdx, [rbx+8] XFGHelper::XFGTypeHasher::hash_indirection+8E lea r9, [rsp+38h+arg_8+1] XFGHelper::XFGTypeHasher::hash_indirection+93 lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_indirection+98 mov byte ptr [rsp+38h+arg_8], dil ; value to insert (size = byte) XFGHelper::XFGTypeHasher::hash_indirection+9D mov rcx, rbx XFGHelper::XFGTypeHasher::hash_indirection+A0 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
5.3.2 union/struct/enum类型的哈希
在处理union/struct/enum时,将值为2的字节写入std::vector后,函数XFGHelper::XFGTypeHasher::compute_hash调用XFGHelper::XFGTypeHasher::hash_tag,在RDX中将指向Symbol_t的指针作为参数传递,其中包括union/struct/enum类型的可读名称的对象。
XFGHelper::XFGTypeHasher::compute_hash+AE mov rdx, [rdi+10h] ; struct Symbol_t * XFGHelper::XFGTypeHasher::compute_hash+B2 mov rcx, rbx ; this XFGHelper::XFGTypeHasher::compute_hash+B5 call XFGHelper::XFGTypeHasher::hash_tag(Symbol_t *)
XFGHelper::XFGTypeHasher::hash_tag调用XFGHelper::XFGHasher::add_string,将union/struct/enum的名称添加到std::vector(命名情况下)。如果union/struct/enum是匿名的,则会将字符串“ < unnamed > ”添加到std::vector。
XFGHelper::XFGHasher::add_string public: void XFGHelper::XFGHasher::add_string(class Symbol_t *) proc near XFGHelper::XFGHasher::add_string sub rsp, 38h XFGHelper::XFGHasher::add_string+4 cmp byte ptr [rdx+11h], 4 XFGHelper::XFGHasher::add_string+8 jnz short loc_18010568B XFGHelper::XFGHasher::add_string+A mov r8, [rdx] XFGHelper::XFGHasher::add_string+D mov eax, [r8+10h] XFGHelper::XFGHasher::add_string+11 shr eax, 16h XFGHelper::XFGHasher::add_string+14 test al, 1 ; union/struct/enum is named? XFGHelper::XFGHasher::add_string+16 jz short loc_180105674 XFGHelper::XFGHasher::add_string+18 lea r9, aUnnamed+9 ; "" XFGHelper::XFGHasher::add_string+1F lea r8, aUnnamed ; " < unnamed > " XFGHelper::XFGHasher::add_string+26 XFGHelper::XFGHasher::add_string+26 loc_180105666: XFGHelper::XFGHasher::add_string+26 mov rdx, [rcx+8] XFGHelper::XFGHasher::add_string+2A call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag) XFGHelper::XFGHasher::add_string+2F add rsp, 38h XFGHelper::XFGHasher::add_string+33 retn XFGHelper::XFGHasher::add_string+34 ; --------------------------------------------------------------------------- XFGHelper::XFGHasher::add_string+34 XFGHelper::XFGHasher::add_string+34 loc_180105674: XFGHelper::XFGHasher::add_string+34 mov r8, [r8+8] ; r8 = union/struct/enum name XFGHelper::XFGHasher::add_string+38 or r9, 0FFFFFFFFFFFFFFFFh XFGHelper::XFGHasher::add_string+3C XFGHelper::XFGHasher::add_string+3C loc_18010567C: XFGHelper::XFGHasher::add_string+3C inc r9 XFGHelper::XFGHasher::add_string+3F cmp byte ptr [r8+r9], 0 XFGHelper::XFGHasher::add_string+44 jnz short loc_18010567C XFGHelper::XFGHasher::add_string+46 add r9, r8 ; r9 points to end of string XFGHelper::XFGHasher::add_string+49 jmp short loc_180105666
之后,函数XFGHelper::XFGTypeHasher::hash_tag中有一个代码分支,可以在某些情况下将字符串" < local > "添加到需要计算哈希的数据中。我们对此没有进行太多研究,但它可能处理了本地范围的union/struct/enum的情况。
XFGHelper::XFGTypeHasher::hash_tag+4D mov rbx, [rbx+18h] XFGHelper::XFGTypeHasher::hash_tag+51 test rbx, rbx XFGHelper::XFGTypeHasher::hash_tag+54 jnz short loc_180105A16 XFGHelper::XFGTypeHasher::hash_tag+56 jmp short loc_180105A76 XFGHelper::XFGTypeHasher::hash_tag+58 ; --------------------------------------------------------------------------- XFGHelper::XFGTypeHasher::hash_tag+58 XFGHelper::XFGTypeHasher::hash_tag+58 loc_180105A5C: XFGHelper::XFGTypeHasher::hash_tag+58 mov rdx, [rdi+8] XFGHelper::XFGTypeHasher::hash_tag+5C lea r9, aLocal+7 ; "" XFGHelper::XFGTypeHasher::hash_tag+63 lea r8, aLocal ; " < local > " XFGHelper::XFGTypeHasher::hash_tag+6A mov rcx, rdi XFGHelper::XFGTypeHasher::hash_tag+6D call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
5.3.3 原始类型的哈希
在处理原始类型时(在Type_t值中未设置0x100、0x200或0x400的原始类型),在将值为1的字节写入std::vector后,函数XFGHelper::XFGTypeHasher::compute_hash会调用XFGHelper::XFGTypeHasher::hash_primitive。
XFGHelper::XFGTypeHasher::hash_primitive基本上是一个很大的switch语句,它将Type_t值映射到代表原始类型的一组不同常量。然后,将得到的常数(单个字节)添加到std::vector。例如,对于以Type_t 0x26表示的浮点型,该函数将一个值为0x0B的字节添加到std::vector。
XFGHelper::XFGTypeHasher::hash_primitive private: void XFGHelper::XFGTypeHasher::hash_primitive(class Type_t const *) proc near XFGHelper::XFGTypeHasher::hash_primitive sub rsp, 38h XFGHelper::XFGTypeHasher::hash_primitive+4 mov eax, [rdx] XFGHelper::XFGTypeHasher::hash_primitive+6 mov r10, rcx XFGHelper::XFGTypeHasher::hash_primitive+9 and eax, 1FFFh XFGHelper::XFGTypeHasher::hash_primitive+E cmp eax, 40h ; '@' XFGHelper::XFGTypeHasher::hash_primitive+11 ja loc_1801059D4 XFGHelper::XFGTypeHasher::hash_primitive+17 jz loc_1801059D0 ; case 0x40: XFGHelper::XFGTypeHasher::hash_primitive+1D cmp eax, 1Ah XFGHelper::XFGTypeHasher::hash_primitive+20 ja short loc_18010599E [...] XFGHelper::XFGTypeHasher::hash_primitive+6E loc_18010599E: XFGHelper::XFGTypeHasher::hash_primitive+6E sub eax, 1Bh ; case 0x1B: XFGHelper::XFGTypeHasher::hash_primitive+71 jz short loc_1801059CC XFGHelper::XFGTypeHasher::hash_primitive+73 sub eax, 1 ; case 0x1C: XFGHelper::XFGTypeHasher::hash_primitive+76 jz short loc_1801059C8 XFGHelper::XFGTypeHasher::hash_primitive+78 sub eax, 2 ; case 0x1E: XFGHelper::XFGTypeHasher::hash_primitive+7B jz short loc_1801059C4 XFGHelper::XFGTypeHasher::hash_primitive+7D sub eax, 8 ; case 0x26 (float): XFGHelper::XFGTypeHasher::hash_primitive+80 jz short loc_1801059C0 [...] XFGHelper::XFGTypeHasher::hash_primitive+90 loc_1801059C0: XFGHelper::XFGTypeHasher::hash_primitive+90 mov cl, 0Bh ; primitive_type = 0xB (float) XFGHelper::XFGTypeHasher::hash_primitive+92 jmp short loc_1801059DE [...] XFGHelper::XFGTypeHasher::hash_primitive+AE loc_1801059DE: XFGHelper::XFGTypeHasher::hash_primitive+AE mov rdx, [r10+8] XFGHelper::XFGTypeHasher::hash_primitive+B2 lea r9, [rsp+38h+arg_9] XFGHelper::XFGTypeHasher::hash_primitive+B7 mov [rsp+38h+arg_8], cl ; value to add: primitive_type XFGHelper::XFGTypeHasher::hash_primitive+BB lea r8, [rsp+38h+arg_8] XFGHelper::XFGTypeHasher::hash_primitive+C0 mov rcx, r10 XFGHelper::XFGTypeHasher::hash_primitive+C3 call std::vector < uchar > ::_Insert_range < uchar const * > (std::_Vector_const_iterator < std::_Vector_val < std::_Simple_types < uchar > > > ,uchar const *,uchar const *,std::forward_iterator_tag)
六、最终转换
到目前为止,我们已经深入描述了C编译器前端如何为XFG机制来计算函数原型的哈希。我们可以用类似Python的伪代码来进行概括,函数的哈希是通过以下方式构建的:
hash = sha256(number_of_params + type_hash(params[0]) + type_hash(params[...]) + type_hash(params[n]) + is_variadic + calling_convention + type_hash(return_type) )[0:8]
XFG函数哈希是SHA256摘要的一部分,仅保留了前8个字节,因此与完整的SHA256哈希相比,它们的抗冲突性有所降低,但是我们可以预期,不同的XFG哈希可以在一定程度上保证哈希的功能。
但是,如果针对特定的二进制文件,检查其XFG哈希(这里选择了ntdll.dll),我们会注意到,它们似乎没有64位上熵:
function 0x180001a30 - > prototype hash: 0x8d952e0d365aa071 function 0x180001b50 - > prototype hash: 0xe2198f4a3c515871 function 0x180001dc0 - > prototype hash: 0xbeac2e06165fc871 function 0x180001de0 - > prototype hash: 0xfaec0e7f70d92371 function 0x180001fc0 - > prototype hash: 0xc5d11eb750d75871 function 0x180002030 - > prototype hash: 0xe8bcaf9a10586871 function 0x180002040 - > prototype hash: 0xc3110f087e584871 function 0x1800020b0 - > prototype hash: 0xdbc1261858d2f871 function 0x1800023a0 - > prototype hash: 0xda690f3e36531a71
其背后的原因是,由编译器前端(c1.dll)生成的SHA256片段,在实际写入到生成的目标文件之前,会由编译器后端(c2.dll)进行最终转换。确切的说,c2.dll中的XfgIlVisitor::visit_I_XFG_HASH函数将两个掩码应用到了截断的SHA256哈希上:
XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+5B mov rcx, 8000060010500070h XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+65 mov r13, 0FFFDBFFF7EDFFB70h [...] XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+E9 mov rdx, [rax] ; rdx = 8 bytes of SHA256 hash XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+EC add rax, 8 XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F0 and rdx, r13 ; hash &= 0FFFDBFFF7EDFFB70h XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F3 mov [rbx], rax XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F6 or rdx, rcx ; hash |= 8000060010500070h XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+F9 mov ecx, r9d ; this XfgIlVisitor::visit_I_XFG_HASH(tagILMAP *)+FC call XFG::TiSetHash(ulong,unsigned __int64,tagMOD *)
这就是之所以XFG哈希基于SHA256,但看起来也不像完全随机的原因。不过,我们不清楚为什么要使用这些掩码。
七、尝试进行哈希计算
为了确保我们已经正确理解了如何生成XFG哈希,我们尝试进行手动的哈希计算。假设我们使用以下原型计算函数的哈希值:
void *memcpy( void *dest, const void *src, size_t count );
我们需要找出构成函数原型的五条数据:
(1)参数数量;
(2)为每个参数输入哈希值;
(3)是否具有可变参数函数;
(4)调用约定;
(5)返回类型的哈希值。
其中的1、3、4都很简单:
(1)参数数量 - > DWORD,值为3;
(3)是否具有可变参数函数 - > 值为0的字节;
(4)调用约定 - > 默认值(值为0x201和0xF == 0x1的DWORD)。
因此,我们来计算更复杂的部分——每个参数的类型哈希,以及返回类型的类型哈希。
7.1 参数1的类型哈希
第一个参数的类型为void *,该类型由以下内容的Type_t表示:
00000102 00000200 [+ pointer to referenced Type_t]
我们需要寻找3个数据,来产生类型哈希:
(1)类型限定符 - > 值为0的字节;
(2)类型组:指针 - > 值为3的字节;
(3)特定类型的数据:这是一个通用指针 - > 引用类型的哈希(在这里有递归)+值为2的字节。
为了递归计算引用类型(void)的哈希,该类型由Type_t表示,其内容如下:
00000040 00000000
我们需要构建如下数据:
(1)类型限定符 - > 值为0的字节;
(2)类型组:原始类型 - > 值为1的字节;
(3)特定类型的数据:对于Type_t 0x40(void),XFGHelper::XFGTypeHasher::hash_primitive写入一个值为0x0E的字节。
7.2 参数2的类型哈希
第二个参数的类型为const void *。该类型由具有以下内容的Type_t表示:
00000102 00000200 [+ pointer to referenced Type_t]
我们需要构建的数据如下:
(1)类型限定符 - > 值为0的字节;
(2)类型组:指针 - > 值为3的字节;
(3)特定类型的数据:这是一个通用指针 - > 引用类型的哈希(在这里有递归)+值为2的字节。
为了递归计算引用类型(void)的哈希,该类型由Type_t表示,其内容如下:
00000040 00000000
我们需要构建如下数据:
(1)类型限定符:具有const限定符 - > 编码为值为1的字节;
(2)类型组:原始类型 - > 值为1的字节;
(3)特定类型的数据:对于Type_t 0x40(void),XFGHelper::XFGTypeHasher::hash_primitive写入一个值为0x0E的字节。
7.3 参数3的类型哈希
第三个参数的类型为size_t。该类型由具有以下内容的Type_t表示:
00004019 00000000
我们需要构建的数据如下:
(1)类型限定符 - > 值为0的字节;
(2)类型组:原始类型 - > 值为1的字节;
(3)特定类型的数据:对于Type_t 0x4019(无符号长长整型),XFGHelper::XFGTypeHasher::hash_primitive写入一个值为0x88的字节。
7.4 返回类型的类型哈希
返回类型为void *,与该函数的第一个参数相同,因此这里只需要重复即可:
(1)类型限定符 - > 值为0的字节;
(2)类型组:指针 - > 值为3的字节;
(3)特定类型的数据:这是一个通用指针 - > 引用类型的哈希(在这里有递归)+值为2的字节。
对于引用类型(void)的哈希进行递归计算:
(1)类型限定符:值为0的字节;
(2)类型组:原始类型 - > 值为1的字节;
(3)特定类型的数据:对于Type_t 0x40(void),XFGHelper::XFGTypeHasher::hash_primitive写入一个值为0x0E的字节。
7.5 组合
我们将所有数据组合到一起:
# Number of params 03 00 00 00 # type hash of param 1 (void *) SHA256( 00 #qualifiers 03 # type group: pointer # type hash of referenced type (void) SHA256( 00 # qualifiers 01 # type group: primitive type 0E # hash of primitive type: void - > 0x0E )[0:8] 02 # regular pointer )[0:8] # type hash of param 2 (const void *) SHA256( 00 # qualifiers 03 # type group: pointer # type hash of referenced type (const void) SHA256( 01 # qualifiers: const 01 # type group: primitive type 0E # hash of primitive type: void - > 0x0E )[0:8] 02 # regular pointer )[0:8] # type hash of param 3 (size_t) SHA256( 00 # qualifiers 01 # type group: primitive type 88 # hash of primitive type: unsigned long long - > 0x88 )[0:8] # is variadic 00 # calling convention 01 00 00 00 # type hash of return value (void *) SHA256( 00 # qualifiers 03 # type group: pointer # type hash of referenced type (void) SHA256( 00 # qualifiers 01 # type group: primitive type 0E # hash of primitive type: void - > 0x0E )[0:8] 02 # regular pointer )[0:8]
以下Python代码获取该数据的SHA256摘要,并将其截断为前8个字节,以获取与编译器前端发出的哈希相同的哈希值。最后,它将编译器后端的两个掩码进行应用,形成最终形式的XFG哈希。
import struct import hashlib def truncated_hash(data): return hashlib.sha256(data).digest()[0:8] def apply_backend_masks(hash): hash = hash & 0xFFFDBFFF7EDFFB70 hash = hash | 0x8000060010500070 return hash def main(): # number of params data = struct.pack(' < L', 3) # type hash of first param (void *) data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x00\x01\x0e') + b'\x02') # type hash of second param (const void *) data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x01\x01\x0e') + b'\x02') # type hash of third param (size_t) data += truncated_hash(b'\x00\x01\x88') # is variadic data += struct.pack(' < B', 0x0) # calling convention (default) data += struct.pack(' < L', 0x201 & 0x0F) # type hash of return type (void *) data += truncated_hash(b'\x00\x03' + truncated_hash(b'\x00\x01\x0e') + b'\x02') print(f'Data to be hashed: {data} ({len(data)} bytes)') frontend_hash = struct.unpack(' < Q', truncated_hash(data))[0] print(f'Hash generated by the frontend: 0x{frontend_hash:x}') final_hash = apply_backend_masks(frontend_hash) print(f'[*] Final XFG hash: 0x{final_hash:x}')
Python代码的输出结果如下:
> python test.py Data to be hashed: b'\x03\x00\x00\x00\xf5\x97x > [J`\xb0\x17\x80\xb8\xc0[\x1b\xd0\xd8#\x14\xb4\xba\x91\xc7\xf6j\x00\x01\x00\x00\x00\xf5\x97x > [J`\xb0' (41 bytes) Hash generated by the frontend: 0x1da7d393d6b63a72 [*] Final XFG hash: 0x9da5979356d63a70
如果我们使用函数指针编译一些代码,以调用其原型与我们在本章中讨论过的原型相匹配的函数,就会看到,我们手工计算的XFG哈希值与MSVC生成的哈希完全匹配(参阅分配的值)。在下面的反汇编中的main+0x8E处注册了R10。
main+1C lea rax, my_memcpy main+23 mov [rsp+78h+var_50], rax [...] main+6A lea rcx, aCallingFunctio ; "Calling function pointer...\n" main+71 call printf main+76 lea rcx, Str ; "a test" main+7D call strlen main+82 cdqe main+84 mov rcx, [rsp+78h+var_50] main+89 mov [rsp+78h+var_48], rcx main+8E mov r10, 9DA5979356D63A70h main+98 mov r8, rax main+9B lea rdx, aATest_0 ; "a test" main+A2 lea rcx, [rsp+78h+var_28] main+A7 mov rax, [rsp+78h+var_48] main+AC call cs:__guard_xfg_dispatch_icall_fptr
八、总结
在这篇文章中,我们分享了MSVC编译器是如何为C语言程序生成XFG哈希的所有详细信息。除了探讨后续的漏洞利用缓解措施细节外,我们还可以深入了解编译器内部原理。
请注意,目前XFG仅存在于Windows Insider Preview版本中,因此在这个CFI解决方案进入到Windows 10正式版本之前,本文所描述的细节可能还会被微软进行调整。
目前暂时不清楚,为什么编译器后端对前端生成的哈希要使用两个位掩码,为什么哈希在函数启动前使用第0位存储,而未设置第0位的就要存储在XFG的调用目标中。
最后,非常有趣的是,我们可以看看C++编译器前端(c1xx.dll)计算XFG哈希值的方式的不同之处。如果迅速浏览这个二进制文件,会发现哈希算法看起来与C语言的算法非常相似,但是考虑到继承、C++类型限定符、修饰符这类独有概念,还是有可能会进行调整的。
本文翻译自:https://blog.quarkslab.com/how-the-msvc-compiler-generates-xfg-function-prototype-hashes.html如若转载,请注明原文地址: