Поиск неисправностей с помощью WinDbg, Sos и Sosex28.04.2017 16:03

Изображение: Julien Dumont, Flickr

К сожалению, иногда случаются ситуации, когда система перестает работать или начинает безудержно потреблять ресурсы, а логи и системные метрики не могут помочь. Ситуация еще усугубляется тем, что на системе в продакшене нет Visual Studio или какого-либо отладчика, невозможно поотлаживаться удаленно. Чаще всего даже нет возможности получить доступ этой машине. В данном случае единственным решением является анализ дампа памяти процесса. Я хочу описать несколько общих сценариев поиска проблем на таких дампах. Это поиск взаимоблокировок, утечек памяти и высокого потребления процессорных ресурсов.

Особенность таких проблем в том, что они крайне редко воспроизводятся на компьютерах разработчиков, сложно покрываются автоматизированным тестированием и для их появления нужны большие ресурсы. Поэтому важным этапом при разработке системы является проведение серий нагрузочных тестов на железе, приближенным к такому, на котором она будет работать у заказчика. При проявлении таких проблем сразу же проводить анализ и исправлять.

Дамп памяти процесса можно снять разными способами. Например, в Диспетчере задач можно выделить интересующий процесс и в контекстном меню вызвать пункт «Создать файл дампа». Мне же очень помогает утилита ProcDump от Марка Руссиновича. С ее помощью можно снимать разные виды дампов по разным событиям. Например, можно снять полный дамп памяти процесса в момент, когда процесс потребляет CPU больше 30% в течение 10 секунд. В общем, очень полезная утилита.

Анализировать дампы можно различными инструментами, например, в Visual Studio или с помощью библиотеке ClrMD. Я же буду использовать WinDbg и Sos. Никаких особенных преимуществ, просто мне удобно с ними работать. Также незаменимым помощником для меня стал плагин Sosex, который очень сильно упрощает жизнь в поиске проблем и анализе.

Перед началом наших изысканий отмечу, что для удобства в WinDbg стоит настроить отладочные символы. Этот процесс уже много раз описывался на просторах интернета, поэтому я не буду повторяться, а просто приведу ссылку.

Перейдем к рассмотрению реальных сценариев. Практически все описанные сценарии возникли в реальной практике и мне или моим коллегам пришлось в свое время с ними разобраться. Но, чтобы не нарушать коммерческой тайны, я подготовил несколько демонстрационных примеров, которые иллюстрируют возникшие проблемы. Примеры можно взять здесь. Для правдоподобности будем анализировать не рабочий процесс, а его дамп. Для этого снимем полный дамп памяти процесса с командой procdump.exe -ma PID. Итак, начнем.

Поиск взаимоблокировок (пример 1-й, простой)

(Пример 01-MonitorDeadlock)

При поиске взаимоблокировок очень хорошо может помочь Sosex. Допустим, мы заметили, что наше приложение не реагирует ни на какие команды. Оно зависло. Что делать?
Запускаем WinDbg (важно, той же разрядности, что и приложение) и загружаем снятый дамп (нажимаем Ctrl+D и в диалоге выбираем файл дамп). Загружаем нужные расширения

.loadby sos clr
.load D:\utils\sosex.dll (полный путь без кавычек)

В Sosex есть прекрасная команда dlk, которая умеет искать взаимоблокировки между блоками синхронизации и/или объектами ReaderWriterLock. Запускаем ее и смотрим на результат.

0:011> !dlk
Examining SyncBlocks...
Scanning for ReaderWriterLock(Slim) instances...
Scanning for holders of ReaderWriterLock locks...
Scanning for holders of ReaderWriterLockSlim locks...
Examining CriticalSections...
Scanning for threads waiting on SyncBlocks...
Scanning for threads waiting on ReaderWriterLock locks...
Scanning for threads waiting on ReaderWriterLocksSlim locks...
Scanning for threads waiting on CriticalSections...
*DEADLOCK DETECTED*
CLR thread 0x4 holds the lock on SyncBlock 000000e2a8343ae8 OBJ:000000e2aa064348[System.Object]
...and is waiting for the lock on SyncBlock 000000e2a8343a98 OBJ:000000e2aa064330[System.Object]
CLR thread 0x3 holds the lock on SyncBlock 000000e2a8343a98 OBJ:000000e2aa064330[System.Object]
...and is waiting for the lock on SyncBlock 000000e2a8343ae8 OBJ:000000e2aa064348[System.Object]
CLR Thread 0x4 is waiting at MonitorDeadlock.Program.Thread2()(+0x2e IL,+0x8f Native) [D:\Projects\DebugExamples\MonitorDeadlock\Program.cs @ 45,5]
CLR Thread 0x3 is waiting at MonitorDeadlock.Program.Thread1()(+0x2e IL,+0x8f Native) [D:\Projects\DebugExamples\MonitorDeadlock\Program.cs @ 33,5]
1 deadlock detected.

Нам повезло! Sosex нам сразу показал, что у нас есть взаимоблокировка, на каких объектах она возникла и в каких потоках. С помощью команды threads получим полный список управляемых потоков и сопоставим идентификатор управляемого потока с внутренним идентификатором WinDbg.

0:011> !threads
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1  db8 000000e2a82929e0  202a020 Preemptive  000000E2AA06C0A0:000000E2AA06DFD0 000000e2a82860e0 0     MTA 
   5    2  5d0 000000e2a830f9d0    2b220 Preemptive  0000000000000000:0000000000000000 000000e2a82860e0 0     MTA (Finalizer) 
  9    3 27bc 000000e2a835c210  202b220 Preemptive  000000E2AA06A0D8:000000E2AA06BFD0 000000e2a82860e0 1     MTA 
  10    4 27ac 000000e2a835e5e0  202b220 Preemptive  000000E2AA06EB50:000000E2AA06FFD0 000000e2a82860e0 1     MTA

Мы видим, что интересующие нас потоки 3 и 4 имеют захваченные блокировки (столбец Lock Count c 1). Теперь посмотрим стеки этих потоков, чтобы увидеть в каком месте произошла блокировка. Для этого вызовем команду ~N*! clrstack, где N — это внутренний идентификатор потока в отладчике (9 и 10). Часть вывода скрыта для краткости

0:011> ~9e!clrstack
OS Thread Id: 0x27bc (9)
        Child SP               IP Call Site
000000e2c2d4ee58 00007ffeb0de3dda [GCFrame: 000000e2c2d4ee58] 
000000e2c2d4efc8 00007ffeb0de3dda [GCFrame: 000000e2c2d4efc8] 
000000e2c2d4f008 00007ffeb0de3dda [HelperMethodFrame_1OBJ: 000000e2c2d4f008] System.Threading.Monitor.Enter(System.Object)
000000e2c2d4f100 00007ffe2a46088f MonitorDeadlock.Program.Thread1() [D:\Projects\DebugExamples\MonitorDeadlock\Program.cs @ 33]
000000e2c2d4f160 00007ffe88b1af17 System.Threading.Tasks.Task.Execute()
0:011> ~10e!clrstack
OS Thread Id: 0x27ac (10)
        Child SP               IP Call Site
000000e2c2f4eaf8 00007ffeb0de3dda [GCFrame: 000000e2c2f4eaf8] 
000000e2c2f4ec68 00007ffeb0de3dda [GCFrame: 000000e2c2f4ec68] 
000000e2c2f4eca8 00007ffeb0de3dda [HelperMethodFrame_1OBJ: 000000e2c2f4eca8] System.Threading.Monitor.Enter(System.Object)
000000e2c2f4eda0 00007ffe2a4609df MonitorDeadlock.Program.Thread2() [D:\Projects\DebugExamples\MonitorDeadlock\Program.cs @ 45]
000000e2c2f4ee00 00007ffe88b1af17 System.Threading.Tasks.Task.Execute()

Прекрасно! Теперь мы видим методы, которые вызвали взаимоблокировку. Мы имеем классический пример блокировки на двух локах.

private static void Thread1()
{
    lock (Lock1)
    lock (Lock2)
}

private static void Thread2()
{
    lock (Lock2)
    lock (Lock1)
}

Поиск взаимоблокировок (пример 2-й, не такой простой)

(Пример 02-RwlDeadlock)

Но иногда бывают ситуации, когда команда dlk не дает результата.

0:016> !dlk
Examining SyncBlocks...
Scanning for ReaderWriterLock(Slim) instances...
Scanning for holders of ReaderWriterLock locks...
Scanning for holders of ReaderWriterLockSlim locks...
Examining CriticalSections...
No deadlocks detected.

Что делать в таком случае? Мы же все равно подозреваем, что взаимоблокировка есть. Для начала посмотрим какие блоки синхронизации есть у процесса и кем они захвачены.

0:016> !SyncBlk -all
Index SyncBlock MonitorHeld Recursion Owning Thread Info  SyncBlock Owner
    1 00000082dde314a8            0         0 0000000000000000     none    00000082dfc6ac88 Microsoft.Win32.UnsafeNativeMethods+ManifestEtw+EtwEnableCallback
    2 00000082dde314f8            0         0 0000000000000000     none    00000082dfc6b340 System.__ComObject
    3 00000082dde31548            0         0 0000000000000000     none    00000082dfc6b360 System.EventHandler`1[[Windows.Foundation.Diagnostics.TracingStatusChangedEventArgs, mscorlib]]
    4 0000000000000000            0         0 0000000000000000     none           0 Free
    5 00000082dde315e8            0         0 0000000000000000     none    00000082dfc6bf40 Microsoft.Win32.UnsafeNativeMethods+ManifestEtw+EtwEnableCallback

Результатов нет. В системе ни один блок синхронизации не захвачен. Возможно, блокировка может быть на объекте ReaderWriterLock. Проверить это можно с помощью команды Sosex rwlock.

0:016> !rwlock
ReaderWriterLock instances...
Address            ReaderCount   WaitingReaderCount     WriterThread   WaitingWriterCount
-----------------------------------------------------------------------------------------
000000d380002b38             0                    0            --                       0
000000d380008fc8             0                    0            --                       3
0:016> !rwlock 000000d380008fc8
WriterThread:           0x0
WriterLevel:            0
WaitingWriterCount:     3
WriterEvent:            3d8
WaitingWriterThreadIds: 0x1,0x3,0x6
ReaderCount:            0
CurrentReaderThreadIds: None
WaitingReaderCount:     0
ReaderEvent:            384
WaitingReaderThreadIds: None

Отлично! Мы видим, что есть объект ReaderWriteerLock, у которого есть 3 потока, ожидающие блокировки на запись. Посмотрим на стеки этих потоков (не забываем сопоставить CLR идентификаторы сопоставить с внутренними идентификаторами отладчика с помощью команды threads).

0:016> ~0e!clrstack
OS Thread Id: 0x1ea0 (0)
        Child SP               IP Call Site
000000d3f69ae388 00007ffeb0de3dda [GCFrame: 000000d3f69ae388] 
000000d3f69ae3c8 00007ffeb0de3dda [HelperMethodFrame_1OBJ: 000000d3f69ae3c8] System.Threading.ReaderWriterLock.FCallUpgradeToWriterLock(System.Threading.LockCookie ByRef, Int32)
000000d3f69ae4d0 00007ffe89376fcd System.Threading.ReaderWriterLock.UpgradeToWriterLock(Int32)
000000d3f69ae510 00007ffe2a440c4f RwlDeadlock.UpgradableRwlDeadlock.GetExpensiveObject(System.String) [D:\Projects\DebugExamples\RwlDeadlock\UpgradableRwlDeadlock.cs @ 34]
000000d3f69ae5a0 00007ffe2a440b6c RwlDeadlock.UpgradableRwlDeadlock.b__2_0(Int32) [D:\Projects\DebugExamples\RwlDeadlock\UpgradableRwlDeadlock.cs @ 15]
…
0:016> ~9e!clrstack
OS Thread Id: 0x310c (9)
        Child SP               IP Call Site
000000d3f969e8d8 00007ffeb0de3dda [GCFrame: 000000d3f969e8d8] 
000000d3f969e918 00007ffeb0de3dda [HelperMethodFrame_1OBJ: 000000d3f969e918] System.Threading.ReaderWriterLock.FCallUpgradeToWriterLock(System.Threading.LockCookie ByRef, Int32)
000000d3f969ea20 00007ffe89376fcd System.Threading.ReaderWriterLock.UpgradeToWriterLock(Int32)
000000d3f969ea60 00007ffe2a440c4f RwlDeadlock.UpgradableRwlDeadlock.GetExpensiveObject(System.String) [D:\Projects\DebugExamples\RwlDeadlock\UpgradableRwlDeadlock.cs @ 34]
000000d3f969eaf0 00007ffe2a440b6c RwlDeadlock.UpgradableRwlDeadlock.b__2_0(Int32) [D:\Projects\DebugExamples\RwlDeadlock\UpgradableRwlDeadlock.cs @ 15]

Мы нашли пример неправильного использования метода UpgradeToWriterLock класса ReaderWriterLock.

Из этих примеров можно попробовать описать алгоритм, с помощью которого можно анализировать взаимоблокировки:

Ищем взаимоблокировки с помощью команды dlk.
Если взаимоблокировок не найдено, анализируем объекты синхронизации с помощью команд syncblk и rwlock.
Анализируем стеки потоков, которые находятся в ожидании. Ищем в стеке вызов блокирующих методов. Такими методами могут быть Monitor.Enter, Task.WaitAll, ReaderWriterLock.UpgradeToWriterLock и пр.
Также можно проанализировать неуправляемый поток, вызвав команду k и поискав вызов функции ntdll! NtWaitForMultipleObjects или ntdll! NtWaitForSingleObject.

Этот алгоритм помогает мне при решении, наверное, 80% проблем. Остальные 20% требуют более нетривиальных действий.

Поиск утечки памяти

(Пример 03-MemoryLeak)

Иногда может возникнуть ситуация, когда приложение начинает выделять все больше памяти, не освобождая ее. В таком случае необходимо провести анализ выделенной памяти на предмет поиска утечек. В .Net-приложениях утечки могут возникнуть, когда сборщик мусора не может освободить корни этого объекта. Источниками корней могут являться:

Статические объекты;
Регистры процессора;
Стек;
Финализируемые объекты;
Неуправляемые объекты,
Pinned-объекты (выделенные, например, с помощью ключевого слова fixed или метода GCHandle.Alloc).

Утечку памяти можно заметить на графике выделения памяти процесса. Его можно получить с помощью счетчиков производительности, посмотрев на счетчики Process\Private bytes, .Net CLT Memory# Bytes in All Heaps и пр. Но мне удобней наблюдать за графиком Private Bytes в программе Process Explorer. Если на графике мы видим, что постоянно выделяется все больше памяти, которая не освобождается, и что размер второго поколения растет. Это недвусмысленно намекает, что у нас есть утечка памяти. Снимаем дамп памяти процесса и анализируем его.

Загружаем снятый дамп в WinDbg и подключаем sos и sosex как описано выше. У sosex есть прекрасная возможность построить индекс кучи для последующего использования (команда bhi). Этот индекс помогает значительно ускорить выполнение команд анализа кучи. Например, на дампе в 5 Гигабайт выполнение команды GcRoot занимало у меня порядка 20 минут, в ее аналог из sosex mroot на построенном индексе выполнился за пару секунд.

Сначала посмотрим общую статистику выделения памяти в куче.

0:004> !HeapStat
Heap             Gen0         Gen1         Gen2          LOH
Heap0         1204664      6409008   1421466144       166272
Free space:                                                 Percentage
Heap0              24      3204400    153752240          184SOH: 10% LOH:  0%

Как и ожидалось, второе поколение разрослось до неимоверных размеров. Посмотрим статистику выделенных объектов в куче с помощью команды sosex dumpgen. Последняя версия sosex позволяет в качестве искомого поколения указать all и таким образом проанализировать всю кучу.

0:004> !dumpgen 2 -stat
       Count      Total Size      Type
-------------------------------------------------
очень много строк пропущено для краткости
           9            648   System.Int32[]
           4            760   System.Char[]
           2          1,072   System.Globalization.CultureData
          18          1,216   System.String[]
          58          3,248   System.RuntimeType
         180          7,486   System.String
      15,825        379,800   MemoryLeak.Worker
      15,824      1,012,736   System.EventHandler`1[[System.EventArgs, mscorlib]]
      15,719    153,720,802   **** FREE ****
      15,824  1,266,299,776   System.Int64[]
63,545 objects, 1,421,434,137 bytes
Total GEN 2 size: 1,421,466,144 bytes

Видно, что в куче выделено больше 15 тысяч объектов EventHandler.

0:004> !dumpgen 2 -type System.EventHandler`1[[System.EventArgs, mscorlib]]
Object             MT                    Size   Name
-------------------------------------------------------------------
очень много строк пропущено для краткости
000000b304b7de38   00007FFC2C1FA880        64   System.EventHandler`1[[System.EventArgs, mscorlib]]
000000b304ba5018   00007FFC2C1FA880        64   System.EventHandler`1[[System.EventArgs, mscorlib]]
000000b304bcc1f8   00007FFC2C1FA880        64   System.EventHandler`1[[System.EventArgs, mscorlib]]

Посмотрим на поля одного из них (последнего). В этом помогут команды sos.do или sosex.mdt

0:004> !mdt 000000b304bcc1f8
000000b304bcc1f8 (System.EventHandler`1[[System.EventArgs, mscorlib]])
    _target:000000b304bb8948 (MemoryLeak.Worker)
    _methodBase:NULL (System.Object)
    _methodPtr:00007ffbd0a500c0 (System.IntPtr)
    _methodPtrAux:0000000000000000 (System.IntPtr)
    _invocationList:NULL (System.Object)
    _invocationCount:0000000000000000 (System.IntPtr)

Обработчик событий указывает на объект класса Worker. Выберем несколько конкретных объектов EventHandler и посмотрим на их корни.

0:004> !mroot 000000b304bcc1f8
AppDomain 000000b31b3fd720: GCHandle(Pinned) @ 000000b31b5317d8
    000000b32cfa5970[System.Object[]]
    000000b31cfa35e8[MemoryLeak.GlobalNotifier]
    000000b3052faaa0[System.EventHandler`1[[System.EventArgs, mscorlib]]]
    000000b32cfa9968[System.Object[]]
    000000b304bcc1f8[System.EventHandler`1[[System.EventArgs, mscorlib]]]
0:004> !mroot 000000b304ba5018
AppDomain 000000b31b3fd720: GCHandle(Pinned) @ 000000b31b5317d8
    000000b32cfa5970[System.Object[]]
    000000b31cfa35e8[MemoryLeak.GlobalNotifier]
    000000b3052faaa0[System.EventHandler`1[[System.EventArgs, mscorlib]]]
    000000b32cfa9968[System.Object[]]
    000000b304ba5018[System.EventHandler`1[[System.EventArgs, mscorlib]]]

Видно, что оба объекта зацепились за один и тот же экземпляр класса GlobalNotifier.

0:004> !gch 000000b31b5317d8
HandleObj           HandleType    Object                Size   Data               Type
--------------------------------------------------------------------------------------
000000b31b5317d8    Pinned        000000b32cfa5970     16344                      System.Object[]
--------------------------------------------------------------------------------------
1 Handle
0:004> !mdt 000000b31cfa35e8 -r
000000b31cfa35e8 (MemoryLeak.GlobalNotifier)
    SomethingHappened:000000b3052faaa0 (System.EventHandler`1[[System.EventArgs, mscorlib]])
        _target:000000b3052faaa0 (System.EventHandler`1[[System.EventArgs, mscorlib]])
            
        _methodBase:NULL (System.Object)
        _methodPtr:00007ffbd093e5e0 (System.IntPtr)
        _methodPtrAux:00007ffc2c2d84a8 (System.IntPtr)
        _invocationList:000000b32cfa9968 (System.Object[], Elements: 16384)
        _invocationCount:0000000000003dff (System.IntPtr)

Можно сказать, что это статический объект, к которому происходит подписка события у объектов Worker. Проанализируем потоки и их стеки.

0:004> ~0e!clrstack
OS Thread Id: 0x9700 (0)
        Child SP               IP Call Site
000000b31b2ee7a8 00007ffc2fe8f833 [HelperMethodFrame: 000000b31b2ee7a8] 
000000b31b2ee910 00007ffbd0a50614 MemoryLeak.Program.Main(System.String[]) [D:\Projects\DebugExamples\MemoryLeak\Program.cs @ 19]
000000b31b2eebc0 00007ffc30094073 [GCFrame: 000000b31b2eebc0].

Что происходит в методе Main? Дизассемблируем его. У sosex есть команда muf, которая выводит агрегированный листинг IL-кода и сгенерированного ассемблерного кода. Иногда, когда нет доступа к исходникам, она может быть очень удобной. (Приведенный вывод ограничен)

0:004> !muf 00007ffbd0a50614
MemoryLeak.Program.Main(string[]): void
    obj:MemoryLeak.Worker
Notifier.SomethingHappened += obj.SomethingHappened;
    IL_003d: ldsfld MemoryLeak.Program::Notifier
    IL_0042: ldloc.0  (obj)
    IL_0043: ldftn MemoryLeak.Worker::SomethingHappened(object, System.EventArgs)
    IL_0049: newobj System.EventHandler::.ctor
    IL_004e:callvirt MemoryLeak.GlobalNotifier::add_SomethingHappened(System.EventHandler)
        00007ffb`d0a50659 488bcb          mov     rcx,rbx
        00007ffb`d0a5065c 488bd7          mov     rdx,rdi
        00007ffb`d0a5065f 3909            cmp     dword ptr [rcx],ecx
        00007ffb`d0a50661 e892faffff      call    00007ffb`d0a500f8
obj.Work();
Thread.Sleep(50);
    IL_0063: ldc.i4.s 50(0x32)
    IL_0065: call System.Threading.Thread::Sleep
    IL_006a: br.s IL_0037
while (true)

Мы имеем классический пример утечки памяти на событиях C#. В бесконечном цикле создаются новые объекты класса Worker, которые подписываются на событие GlobalNotifier.SomethingHappened. Отписка нигде не происходит, и, следовательно, сборщик мусора не может освободить выделенную память.

Попробуем составить примерный алгоритм анализа утечек памяти:

С помощью команды HeapStat получаем статистику используемой памяти в куче. Анализируем размеры поколений.
Командами dumpheap –stat или dumpgen all -stat анализируем статистику выделенных объектов. Ищем большое количество специфичных для приложения объектов.
С помощью команды dumpgen –type TYPE получаем список адресов интересуемых объектов.
Командой mroot ObjAddress получаем корни, за которые эти объекты зацепились.
Анализируем корни. Для полноты картины анализируем стеки потоков приложения. Важно понимать, что накопление неосвобожденной памяти может занимать продолжительное время, и потоки могут завершаться и/или переиспользоваться из пула. В этом случае анализ стеков не даст результатов. Основным инструментов является анализ корней.

Анализ высокого потребления процессора

(Пример 04-CpuUtilization. Запустите пример и подождите минут 10–15.)

На последок осталось рассмотреть случай, когда наша система начинает жадно потреблять процессорные ресурсы. Обычно, высокое потребление ресурсов процессора может говорить о том, что наше приложение могло попасть в бесконечный цикл и единственный способ его понизить — это перезапустить приложение.

Снимем дамп процесса и проанализируем его. С помощью команды .time посмотрим, сколько времени наше приложение провело в пользовательском режиме, а сколько в режиме ядра.

0:008> .time
Debug session time: Mon Apr  3 17:51:18.733 2017 (UTC + 3:00)
System Uptime: 11 days 10:29:22.677
Process Uptime: 0 days 0:08:52.766
  Kernel time: 0 days 0:00:13.562
  User time: 0 days 0:14:06.968

В моем примере программа провела в режиме ядра 13 секунд, а в пользовательском режиме 14 минут. Это означает, что потоки постоянно выполняют какую-то работу и практически никогда не засыпают. Это довольно странно. В WinDbg есть команда runaway, которая может показать распределение времени выполнения по потокам.

0:008> !runaway
 User Mode Time
  Thread       Time
   4:6598      0 days 0:02:57.687
   3:47b4      0 days 0:02:52.421
   5:3370      0 days 0:02:49.390
   6:6b1c      0 days 0:02:45.921
   7:bb58      0 days 0:02:19.687
   2:b478      0 days 0:00:17.062
   0:8e10      0 days 0:00:00.015
   8:6474      0 days 0:00:00.000
   1:97f0      0 days 0:00:00.000

С параметрами по умолчанию runaway выводит только время в режиме пользователя. Мы можем видеть, что 4 потока что-то безостановочно молотят на протяжении почти 3 минут каждый. Здесь показаны системные идентификаторы потоков. С помощью команды threads получим внутренние идентификаторы отладчика и заодно посмотрим, не возникло ли никаких исключений.

0:008> !threads
                                                                                                        Lock  
       ID OSID ThreadOBJ           State GC Mode     GC Alloc Context                  Domain           Count Apt Exception
   0    1 8e10 000000eab2ad3690  202a020 Preemptive  0000000000000000:0000000000000000 000000eab2aaa950 0     MTA 
   2    2 b478 000000eab2afb6f0    2b220 Preemptive  0000000000000000:0000000000000000 000000eab2aaa950 0     MTA (Finalizer) 
   3    3 47b4 000000eab2b491a0  202b220 Preemptive  0000000000000000:0000000000000000 000000eab2aaa950 0     MTA System.Collections.Generic.KeyNotFoundException 000000eb4ff8f848
   4    4 6598 000000eab2b4a750    2b220 Preemptive  000000EBD8F91930:000000EBD8F91948 000000eab2aaa950 1024  MTA System.Collections.Generic.KeyNotFoundException 000000eb4ff8fd60
   5    5 3370 000000eab2b53a20  202b220 Preemptive  0000000000000000:0000000000000000 000000eab2aaa950 0     MTA System.Collections.Generic.KeyNotFoundException 000000eb4ff5d698
   6    6 6b1c 000000eab2b5a3d0  202b220 Preemptive  0000000000000000:0000000000000000 000000eab2aaa950 0     MTA System.Collections.Generic.KeyNotFoundException 000000eb4ff8fba8
   7    7 bb58 000000eab2b66680    21220 Cooperative 0000000000000000:0000000000000000 000000eab2aaa950 0     Ukn

Можно видеть, что во всех интересующих нас потоках возникали исключения KeyNotFoundException.

0:008> ~3e!pe
Exception object: 000000eb4ff8f848
Exception type:   System.Collections.Generic.KeyNotFoundException
Message:          Данный ключ отсутствует в словаре.
InnerException:   
StackTrace (generated):
    SP               IP               Function
    000000EACD15EF40 00007FFC2D46AF6F mscorlib_ni!System.Collections.Concurrent.ConcurrentDictionary`2[[System.Guid, mscorlib],[System.__Canon, mscorlib]].get_Item(System.Guid)+0x48720f
    000000EACD15EF80 00007FFBD0A4074A CpuUtilization!CpuUtilization.Program.ResolveAsset(System.Guid)+0x3a
StackTraceString: 
HResult: 80131577

Посмотрим на стеки потоков (приведен вывод для одного потока, стеки остальных аналогичны).

0:008> ~3e!clrstack
OS Thread Id: 0x47b4 (3)
        Child SP               IP Call Site
000000eacd15c968 00007ffc42d00c6a [GCFrame: 000000eacd15c968] 
000000eacd15caa8 00007ffc42d00c6a [GCFrame: 000000eacd15caa8] 
000000eacd15cae8 00007ffc42d00c6a [HelperMethodFrame_1OBJ: 000000eacd15cae8] System.Threading.Monitor.Enter(System.Object)
000000eacd15cbe0 00007ffc2cfe3e9d System.Collections.Concurrent.ConcurrentDictionary`2[[System.Guid, mscorlib],[System.__Canon, mscorlib]].TryAddInternal(System.Guid, System.__Canon, Boolean, Boolean, System.__Canon ByRef)
000000eacd15ccd0 00007ffc2cfe5235 System.Collections.Concurrent.ConcurrentDictionary`2[[System.Guid, mscorlib],[System.__Canon, mscorlib]].TryAdd(System.Guid, System.__Canon)
000000eacd15cd10 00007ffbd0a40811 CpuUtilization.Program.Init(System.Guid) [D:\Projects\DebugExamples\CpuUtilization\Program.cs @ 64]
000000eacd15cd40 00007ffbd0a407aa CpuUtilization.Program.ResolveAsset(System.Guid) [D:\Projects\DebugExamples\CpuUtilization\Program.cs @ 55]
...

Теперь мы знаем место в исходниках, где искать проблему. Если заглянуть в исходники примера, то можно видеть бесконечный цикл, в котором всегда происходит ошибка получения данных из ConcurrentDictionary.

Общий алгоритм поиска довольно просто:

С помощью команды runaway находим самые «прожорливые» потоки.
Анализируем стеки этих потоков.

В реальной жизни все намного сложней: в приложении крутятся десятки или сотни потоков, а в куче выделены миллионы объектов. Это сильно усложняет анализ, но описанные шаги неоднократно помогали мне при анализе проблем с системами. Надеюсь, что приведенные мной примеры использования WinDbg, Sos и Sosex и вам помогут облегчить жизнь и спасти немного нервных клеток.

Все исходники примеров для изучения можно взять здесь

Поиск неисправностей с помощью WinDbg, Sos и Sosex28.04.2017 16:03

Поиск взаимоблокировок (пример 1-й, простой)

Поиск взаимоблокировок (пример 2-й, не такой простой)

Поиск утечки памяти

Анализ высокого потребления процессора

Комментарии (0)