Анализ 170 млн утекших паролей: интересные находки03.07.2020 10:02

Специалист по анализу больших данных и независимый ИБ-исследователь Ата Хакчил (Ata Hakçıl) собрал и проанализировал более миллиарда строк с логинами и паролями, дампы которых разрознено находились в сети и были получены в результате различных утечек. Результаты своей работы Хакчил выложил на GitHub под лицензией MIT.
Хакчил отфильтровал из этой большой базы данных из более чем миллиарда записей поврежденные данные, а так же убрал тестовые записи или строки в некорректном формате. В итоге он смог из нее выделить 168 919 919 паролей и 393 386 953 логинов. Причем около 7 миллионов строк были с паролем »123456». По словам специалиста, этот «пароль» является самым распространенным у пользователей последние пять лет.

Дальнейший анализ данных Хакчила показал, что:

самый распространенный пароль — »123456», он встречается примерно в 0,722% случаев, далее идут »123456789», «password», «qwerty»,»12345678»;
1000 самых распространенных паролей, это примерно 6,607% от всех изученных паролей;
8,83% из общей базы паролей являются уникальными, остальные встречаются два и более раза;
средняя длина пароля составляет 9,4822 символа;
только 12,04% паролей содержат специальные символы;
8,79% паролей содержат только буквы;
26,16% паролей содержат символы только в нижнем регистре;
13,37% паролей содержат только цифры;
34,41% всех паролей заканчиваются цифрами, но только 4,522% паролей начинаются с цифр (тут, вероятно, имеются в виду смешанные пароли — с буквами и цифрами).

Вдобавок Хакчил выложил на GitHub четыре выборки с данными о частоте применения типовых паролей, а также и файлы, содержащие сборники (1 тыс., 10 тыс., 100 тыс., 1 млн и 10 млн) самых популярных паролей. Эти данные можно использовать для различных исследований и ускорения подбора паролей, например, при работе с некоторыми инструментами в Kali Linux.

Также Хакчил опубликовал списки из 150-ти самых слабых паролей среди пользователей, которые говорят на различных языках, например, на русском, украинском и других 27-ми языках.

Исследователь пообещал, что будет и далее проводить анализ данных из дампов и выкладывать их регулярные обновления на GitHub.