某高校门户网站开发案例,留学网站建设多少钱,做网站的积木式编程,seo短视频网页入口引流动漫一#xff1a;背景
1. 讲故事
先说一下题外话#xff0c;一个监控别人系统运行状态的程序#xff0c;结果自己出问题了#xff0c;有时候想一想还是挺讽刺的#xff0c;哈哈#xff0c;开个玩笑#xff0c;我们回到正题#xff0c;前些天有位朋友找到我#xff0c;说…一背景
1. 讲故事
先说一下题外话一个监控别人系统运行状态的程序结果自己出问题了有时候想一想还是挺讽刺的哈哈开个玩笑我们回到正题前些天有位朋友找到我说他们的系统会偶发性CPU爆高CPU上去了就下不来了让我帮忙看一下怎么回事而且自己也分析过了没找到哪里有问题写监控的都是高手给我的第一感觉就是这个dump可能解决起来不容易不管怎么说有了dump就开干吧
二WinDbg 分析
1. CPU真的爆高吗
作为调试人第一准则就是不要轻信任何人透露给你的信息因为人家在这块是一个小白往往他的信息会把你带偏我们只相信数据即可切记!!! 所以我们先用 !tp 观察下CPU使用率。 0:198 !tp
CPU utilization: 100%
Worker Thread: Total: 197 Running: 42 Idle: 154 MaxLimit: 32767 MinLimit: 8
Work Request in Queue: 0
--------------------------------------
Number of Timers: 0
--------------------------------------
Completion Port Thread:Total: 10 Free: 5 MaxFree: 16 CurrentLimit: 10 MaxLimit: 1000 MinLimit: 8
从卦中信息看当前 CPU100%还是蛮惨的那到底谁在吃CPU资源呢根据经验先查一下是不是触发了2代GC接下来用 !t 观察下是否有GC标记。 0:198 !t
ThreadCount: 214
UnstartedThread: 0
BackgroundThread: 211
PendingThread: 0
DeadThread: 1
Hosted Runtime: noLock ID OSID ThreadOBJ State GC Mode GC Alloc Context Domain Count Apt Exception0 1 276f0 000002789526b5f0 2a020 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA 2 2 25e5c 0000027895296d00 2b220 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA (Finalizer) 3 3 260e8 00000278ae35f0c0 202b020 Preemptive 0000000000000000:0000000000000000 000002789525e840 0 MTA ...169 2113 10c20 00000278c26766c0 1029220 Preemptive 00000278B5D7D188:00000278B5D7D188 000002789525e840 1 MTA (GC) (Threadpool Worker) xxxException 00000278b5d46ce0...
尼玛从卦中的 (GC) 来看还真的触发了GC接下来的研究方向就是洞察下是不是CPU爆高的祸首。
2. GC触发导致的吗
要寻找这个问题的答案首先就是看下这次GC是不是 FullGC 即可可以切到 169 号线程观察下线程栈。 0:169 k 10# Child-SP RetAddr Call Site
00 000000c436ffb798 00007ffcd5f14313 ntdll!NtWaitForSingleObject0x14
01 000000c436ffb7a0 00007ffcc927cb27 KERNELBASE!WaitForSingleObjectEx0x93
02 000000c436ffb840 00007ffcc927cadf clr!CLREventWaitHelper20x3c
03 000000c436ffb880 00007ffcc927ca5c clr!CLREventWaitHelper0x1f
04 000000c436ffb8e0 00007ffcc926bd32 clr!CLREventBase::WaitEx0x7c
05 000000c436ffb970 00007ffcc9269bc4 clr!ThreadSuspend::SuspendRuntime0x32c
06 000000c436ffba60 00007ffcc91814e3 clr!ThreadSuspend::SuspendEE0x128
07 000000c436ffbb60 00007ffcc9185f51 clr!WKS::GCHeap::GarbageCollectGeneration0xb7
08 000000c436ffbbc0 00007ffcc9260f56 clr!WKS::gc_heap::trigger_gc_for_alloc0x2d
09 000000c436ffbc00 00007ffcc6b0f7e7 clr!JIT_NewArr10xa97
0a 000000c436ffc030 00007ffc6a388270 mscorlib_ni!System.String.ToCharArray0x27 [f:\dd\ndp\clr\src\BCL\system\string.cs 758]
0b 000000c436ffc080 00007ffc6a3880ed 0x00007ffc6a388270
0c 000000c436ffc100 00007ffc6a56056d 0x00007ffc6a3880ed
0d 000000c436ffc150 00007ffc6a3cd749 0x00007ffc6a56056d
0e 000000c436ffc1b0 00007ffcc911989d 0x00007ffc6a3cd749
0f 000000c436ffc220 00007ffcc9119764 clr!ExceptionTracker::CallHandler0xfd
从卦中看此时的GC还处于早期的 SuspendEE 阶段无法获取内部的 settings 结构这就比较麻烦了那怎么办呢只能看看 GarbageCollectGeneration 的第一个参数有没有保存在栈中要是没有就惨了。。。方法签名如下 size_t
GCHeap::GarbageCollectGeneration (unsigned int gen, gc_reason reason)
{}
根据 x64调用协定gen是保存在 rdx 寄存器里接下来观察汇编代码。 0:000 uf 00007ffcc91814e3
clr!WKS::GCHeap::GarbageCollectGeneration:
00007ffcc918142c 48895c2418 mov qword ptr [rsp18h],rbx
00007ffcc9181431 89542410 mov dword ptr [rsp10h],edx
00007ffcc9181435 48894c2408 mov qword ptr [rsp8],rcx
00007ffcc918143a 55 push rbp
00007ffcc918143b 56 push rsi
00007ffcc918143c 57 push rdi
00007ffcc918143d 4154 push r12
00007ffcc918143f 4155 push r13
00007ffcc9181441 4156 push r14
00007ffcc9181443 4157 push r15
...0:169 dd 000000c436ffbbc0-0x80x10 L1
000000c436ffbbc8 00000000
从卦中看谢天谢地edx保存在 rsp10h 的位置通过dp观察内存地址的值发现是0也就表示当前是 0 代GC这种smallgc 经常触发是很正常的并不是我们CPU爆高的诱因接下来就陷入迷茫了。。。
3. 路在何方
撞了南墙之后得要看看其他路子其实刚才用 !t 观察线程列表的时候我就注意到一个特征那就是很多线程上挂了异常截图如下 从卦中看此时有19个线程在抛 xxxResultException 异常做过开发的朋友都知道如果频繁的抛异常是很耗CPU资源的因为它要设计到用户态到内核态的切换如果有 19 个线程一起抛异常那绝对是一个灾难。。。
有些朋友说我cpu猛一点是不是就可以了哈哈理论上是可以的可以用 !cpuid 观察下这台机器的cpu核心数。 0:169 !cpuid
CP F/M/S Manufacturer MHz0 6,167,1 unavailable 34081 6,167,1 unavailable 34082 6,167,1 unavailable 34083 6,167,1 unavailable 34084 6,167,1 unavailable 34085 6,167,1 unavailable 34086 6,167,1 unavailable 34087 6,167,1 unavailable 3408
从证据链的完整性上来说其实这里还需要再做一个验证就是19个线程抛异常不代表他们的并发性言外之意就是能不能再找一些其他证据怎么找其他证据呢
做C#开发的朋友应该知道Exception 属于引用类型如果密集抛了很多异常那托管堆上自然就有很多直到GC回收所以我们观察下这个时间差即可使用 !wdae 命令这里为了隐私性我就模糊了哈。 0:169 !wdae384 of Type: xxxResultException 000002789fdb6478 000002789fdb69b0 000002789fdb9848
Message: xxxFailed
Inner Exception: (none)
Stack:
IP Function
00007ffc6a269861 xxx.ChannelAsyncOperation1[[System.Int32, mscorlib]].End(Int32, Boolean)
...411 of Type: xxxResultException 000002789fdb6e90 000002789fdb7090 000002789fdb72a8
Message: xxxClosed
Inner Exception: (none)
Stack:
IP Function
00007ffc6a269861 xxx.ChannelAsyncOperation1[[System.Int32, mscorlib]].End(Int32, Boolean)
...
808 Exceptions in 12 unique type/stack combinations (duplicate types in similar stacks may be rethrows)
从卦中看当前抛了808个异常大多是和channel通信有关结合16个线程并发抛这就稳了看样子cpu爆高期间就是由于高频的抛异常所致分析出这些信息之后就是告诉朋友把这些异常给解决掉即可。
三总结
CPU爆高的诱因非常多高频的抛异常就属于其中一例其实这种通信时发生了突发异常正是 Polly 这种 弹性和瞬态故障处理库 大显身手的地方。