Баг SRWLock в Windows вешает многопоточные программы

b725861f0afe68effdb94ac3d5b87525.jpg

std: shared_mutex — стандартный примитив синхронизации, появившийся в C++17, призванный упростить реализацию паттерна «многие читатели — один писатель». Однако, как показывают некоторые практические кейсы, его реализация на Windows, использующая SRWLock (Slim Reader/Writer Lock), может привести к серьёзным проблемам: в определённых ситуациях многопоточное приложение может зависнуть (дедлок).

В чём суть проблемы?

std: shared_mutex под Windows, в реализации Microsoft STL, опирается на SRWLock — легковесный механизм синхронизации уровня ОС. SRWLock был представлен ещё в Windows Vista и призван эффективно балансировать между множеством читателей и единичным писателем.

На практике, однако, есть сценарии, при которых SRWLock может «залипнуть». Например, при частой конкуренции многих потоков, удерживающих shared_lock, и хотя бы одного потока, пытающегося получить unique_lock, возможно возникновение ситуации, когда потоки оказываются в состоянии взаимного ожидания. Отладка такого поведения затруднительна: ваш код может выглядеть абсолютно корректным, но приложение подвисает внутри системного примитива.

Подтверждения и пруфы

std: shared_mutex — стандартный примитив синхронизации, появившийся в C++17, призванный упростить реализацию паттерна «многие читатели — один писатель». Однако, как показывают некоторые практические кейсы, его реализация на Windows, использующая SRWLock (Slim Reader/Writer Lock), может привести к серьёзным проблемам: в определённых ситуациях многопоточное приложение может зависнуть (дедлок).

В этой статье мы разберём суть проблемы, приведём ссылки на обсуждения в open source проектах и на форумах, а также рассмотрим возможные обходные пути. Материал будет полезен разработчикам, которым важно понимать глубинные особенности стандартных примитивов синхронизации под Windows.

В чём суть проблемы?

std: shared_mutex под Windows, в реализации Microsoft STL, опирается на SRWLock — легковесный механизм синхронизации уровня ОС. SRWLock был представлен ещё в Windows Vista и призван эффективно балансировать между множеством читателей и единичным писателем.

На практике, однако, есть сценарии, при которых SRWLock может «залипнуть». Например, при частой конкуренции многих потоков, удерживающих shared_lock, и хотя бы одного потока, пытающегося получить unique_lock, возможно возникновение ситуации, когда потоки оказываются в состоянии взаимного ожидания. Отладка такого поведения затруднительна: ваш код может выглядеть абсолютно корректным, но приложение подвисает внутри системного примитива.

Пруфы

StackOverflow:
Вопрос о std: shared_mutex: unlock_shared () — авторы обсуждают случай, где unlock_shared () блокируется, хотя активных эксклюзивных блокировок нет. Ситуация намекает на потенциальные проблемы внутри реализации std: shared_mutex с SRWLock.

Reddit /r/cpp:
Сообщение о предполагаемом баге в std: shared_mutex на Windows — здесь обсуждается проблема, обнаруженная ещё в ранних релизах реализации shared_mutex. Подчёркивается, что на некоторых системах и под определёнными нагрузками примитив может вести себя некорректно.

GitHub Microsoft STL:
Issue #4448 в репозитории Microsoft STL — обсуждение конкретного бага, связанного с std: shared_mutex и SRWLock. В треде можно увидеть комментарии участников сообщества, инженеров и разработчиков, поднимающих вопросы о том, возможно ли глобально решить проблему в реализации STL или SRWLock.

Все эти источники демонстрируют, что проблема не единична и актуальна не только для устаревших версий ОС, но и для современных окружений, особенно под нестандартными или высоконагруженными сценариями.

Возможные причины и характер проблемы

SRWLock, хоть и предоставляется системой, не является полностью безупречным. Внутреннее состояние блокировки и очередей ожидания может в крайних условиях привести к состоянию, при котором:
— Несколько потоков удерживают shared-блокировку.
— Поток, запрашивающий эксклюзивный доступ (unique), застревает в ожидании.
— Состояния очередей и внутренних флагов SRWLock могут привести к тому, что ни читатели, ни писатель не продвинутся вперёд, создавая дедлок.

Часто такие проблемы всплывают под тяжёлыми нагрузками, в условиях множества работающих потоков и при специфических паттернах захвата и освобождения локов.

Можно ли как-то обойти проблему?

  1. Использовать другие примитивы:
    Если вам нужна надёжность и вы столкнулись с проблемой в реальных проектах, один из вариантов — отказаться от std: shared_mutex. Можно применить классический std: mutex (пусть и с потерей производительности), или же использовать собственную реализацию reader-writer локов, основанную на атомарных операциях, condition_variable и прочих механизмах.

  2. Перепроектировать логику доступа:
    Иногда изменения архитектуры приложения позволяют избежать сценариев, где одновременно много читателей и есть конкурирующие попытки записи. Если читатели и писатели будут обращаться к ресурсу более предсказуемо или по расписанию, вероятность попасть в дедлок снижается.

  3. Следить за обновлениями и тикетами:
    Возможно, в будущих обновлениях Windows или Microsoft STL появятся исправления. Подписывайтесь на соответствующие репозитории (например, microsoft/STL), чтобы быть в курсе актуальных изменений и патчей.

  4. Рассмотреть альтернативные подходы к синхронизации данных:
    Современные высоконагруженные системы нередко выбирают lock-free структуры данных, RCU (Read-Copy-Update) или другие схемы, снижающие вероятность зависания из-за проблем в примитивах синхронизации.

Итоги

std: shared_mutex — полезный и удобный примитив, но, к сожалению, в связке с SRWLock под Windows может привести к нежелательному поведению. Утверждать, что это поголовно всех затронет, было бы неправильно: многие проекты вообще не сталкиваются с этим багом. Однако знание о такой потенциальной проблеме может сэкономить время и нервы при отладке сложных сценариев.

© Habrahabr.ru