Чей это текст, Линуса или Грега?

Праздник к нам приходит, все труднее писать и даже читать про планировщики и алгоритмы. Благо в мире открытого ПО есть и более отвлеченные темы. Почему бы например не сравнить стиль деловой переписки Линуса Торвальдса и Грега Кроа-Хартмана?


Линус и Грег


Предлагаю читателям Хабра поупражняться в физиогномике и задаться вопросом, с кем бы из двух командиров проекта Linux ядра вы бы предпочли обсуждать прогресс вашего патча?


Параметры Линус Торвальдс Грег Кроа-Хартман
Временной интервал 1995–2015 1995–2015
Количество емайлов 21,746 24,145
Количество слов в емайле 132 53
Лексическое разнообразие .08 .27


Предупреждение, под катом ненормативная лексика на английском языке, использованная в контексте деловой переписки и научного исследования.


Если Линус Торвальдс все время на слуху, то имя второго человека в проекте разработки ядра гораздо реже всплывает в новостных лентах. А между тем он никто иной, как мейнтейнер -stable ветки ядра. Является автором linux-hotplug, udev и Linux Driver Project. Работал в Novell SUSE Linux, а с 2012 г. перешел в Linux Foundation. ГКХ присущи фантастическая продуктивность и работоспособность, фраза maintainers don’t scale к нему имеет лишь условное отношение.


Трое ученых их Университета Элон в Северной Каролине Соединенных Штатов Америки, провели исследование переписки Линуса Торвальдса и Грега Кроа-Хартмана, взяв архив LKML за 20 лет с 1995 по 2015 гг. Целью было исследование стилей переписки двух руководителей проекта и методом машинного обучения научиться различать их тексты.


Для тех, кто в теме не секрет, что Линус Торвальдс, будучи вполне дружелюбным и обаятельным в реальной жизни, практикует довольно жесткий и бескомпромиссный стиль в деловой переписке с разработчиками ядра. В связи с эти обстоятельством, он неоднократно становился объектом критики со стороны приверженцев более строгих стандартов деловой этики.


За примерами далеко ходить не надо. Недавно на орехи досталось Kees Cook-у — программисту из команды Google Pixel, который пытался протащить обновления безопасности, которые могли иметь негативные последствия для ПО в пользовательском пространстве. Чертовы кретины (f**ing morons), так Линус охарактеризовал специалистов в области безопасности в лице настойчивого разработчика из Гугл.


Страсти вокруг SecureBoot и правил хорошего тона


В июле 2013 г. из проекта ушли Мэтью Гарретт и Сара Шарп. Честно говоря потеря была невелика и чрезмерная готовность Метью идти навстречу интересам крупных корпораций неоднократно вызывало вопросы. Сама же Сара в своем блоге демонстрирует явно не тот стиль общения, который желает видеть по отношению к себе.


As this is my blog, not a government entity, I have the right to replace any comment I feel like with «fart fart fart fart» © Sarah Sharp

И все же я не уверен, что даже более толстокожие разработчики могли бы выдержать то, что Линус высказал Мэтью по поводу патчей, которые должны были обеспечить загрузку Linux на рабочих станциях, изготовленных под Windows 8+ и использующих UEFI с технологией SecureBoot.


Guys, this is not a dick-sucking contest.

Далее лидер проекта излагал свою почку зрения о том, что такие прогибы под Microsoft неуместны со стороны разработчиков кернела, а RedHat и другие вендоры вольны делать то, что им вздумается. В целом эта переписка была слишком экспрессивной даже для LKML, и Гарретт решил, что с него хватит.


В ходе этого спора Линус подзуживал ГКХ в духе: «соберись уже и хватит быть тряпкой», еще один из ключевых мейнтейнеров Инго Мольнар высказывал ему то же самое, утверждая, что иногда разработчиков можно и послать по известному адресу.


Склоки продолжались какое-то время, а затем участники проекта договорились о том, что нужен некий общий свод правил хорошего тона, что и было документально зафиксировано в /usr/src/linux/Documentation/CodingStyle


Автороведческая экспертиза Линуса и Грега


Исследование проводилось методом НЛП известным, как  Naïve Bayes Classifier с использованием «мешка слов» (bag-of-words). Для определения частей речи использовалась библиотека Python NLTK. Симуляция методом Монте-Карло показала хорошие прогностические способности установить авторство текста с помощью данного алгоритма машинного обучения. Как утверждают авторы исследования точность прогноза достигает 97%.


Приведенная ниже таблица использования ненормативной лексики английского языка думаю не нуждается в комментариях.


Лексика Линус Грег
Всего 3090 150
crap 1204 107
hell 725 22
damn 682 2
shit 126 1
anal 54 0
bullshit 50 2
ass 46 6
god 34 1
screw 33 0
bastard 29 0
bitch 17 0
piss 17 4
retard 14 0


Тренировочная таблица для алгоритма машинного обучения так же говорит сама за себя.


Слова-маркеры для авторов текста


Исследование учитывает лишь словарный запас английского языка, что исключает элементы финского фольклора, как этот.


There aren’t enough swear-words in the English language, so now I’ll have to call you perkeleen vittupää just to express my disgust and frustration with this crap.

Как видно из исследования создатель Linux гораздо охотнее прибегает к ненормативной лексике и гораздо реже бывает изысканно учтив и тем не менее я считаю, что чувство меры до сих пор ему не изменяло, и его жесткость не переходило ту черту, за которой начинается самодурство. А что думают по этому поводу читатели?

© Habrahabr.ru