[Перевод] Анализ email-сообщений за 18 лет: Неудачный эксперимент по путешествию во времени
В нашем блоге мы много пишем о создании email-рассылок и работе с электронной почтой. Мы уже обсудили сложности борьбы со спамом, будущее email, вопросы защиты почтовой переписки, а также техники работы с email, а также разобрались, почему с течением времени темы почтовых сообщений становятся длиннее.
Многие люди пользуются электронной почтой уже на протяжение десятилетий —, а значит, возникает вопрос о том, что анализ данных писем за долгое время может рассказать об эволюции конкретной личности. Журналист и создатель сервиса для разработки веб- и мобильных приложений Postlight Пол Форд в своем блоге на Medium опубликовал результаты эксперимента, в ходе которого он пытался создать динамическую систему поиска писем в своем почтовом ящике, в котором за 18 лет скопилось более 450 тыс. email-сообщений. Мы представляем вашему вниманию адаптированный перевод этой заметки.
Идея: путешествие во времени
Идея исследователя заключалась в следующем: если бы он смог быстро просматривать все свои старые сообщения, то это бы позволило проследить, как со временем менялись его собственные взгляды и мысли.
Это должно было позволить мне узнать о себе нечто важное, увидеть свой рост, как личности — например, сравнивая себя 20-летнего и себя 40-летнего.
Однако результаты эксперименты расстроили Форда.
Электронная почта и крупные корпорации
Во-первых, ему нужно было урегулировать некоторые технические вопросы. Форд пользуется аккаунтом Gmail, но система поиска в почтовом сервисе Google очень специфична. С её помощью можно легко найти любое из недавно полученных электронных писем, словно иголку в стоге сена. Но исследователь собирался со всего маху прыгнуть в этот стог, и для этого ему нужна была быстрая и эффективная поисковая система, которая могла бы просканировать десятки тысяч писем в одно мгновение. А интерфейс поиска Gmail в таких случаях выглядит вот так:
Учитывая, что также Форд использует компьютер Macintosh, он бы мог скачать всю свою переписку с помощью Apple Mail и воспользоваться встроенным поиском Apple Spotlight. Но дело вот в чём.
В 1996 году пользователь мог нажать клавишу ⌘-F, затем ввести название файла в строке поиска, и компьютер находил нужный файл за несколько секунд. Сегодня, в результате полнотекстового поиска человек в аналогичной ситуации получает 5 000 файлов, которые никак не связаны с тем, который он на самом деле искал.
Вы повторяете попытку… и получаете тот же результат. Моим отношениям с Mac OSX Spotlight уже десять лет, и я с уверенностью могу сказать, что это одни из самых сложных отношений в моей жизни. Я не понимаю эту программу. Очевидно, проблема во мне, поэтому я должен двигаться дальше.
Форд пришел к выводу о том, что ни поисковая корпорация Google, оцениваемая в 375 миллиардов долларов, ни технологическая компания Apple, оцениваемая в 700 миллиардов долларов, не в состоянии сортировать его электронные письма.
И это нормально. Даже если в супермаркете нет штанов моего размера, я все равно хожу туда за моющим средством.
Электронная почта и бесплатное программное обеспечение
Бесплатное программное обеспечение стало причиной возникновения проблемы с электронной почтой, поэтому Форд предположил, что оно же может стать и решением. И, как оказалось, был прав. С помощью инструмента под названием offlineimap исследователь скачал всю переписку со своего аккаунта Gmail. На это у него ушло несколько дней, после чего нужно было заняться обработкой писем. Сделать это можно разными способами, но Форд предпочитает пользоваться программами mairix и mu. Раньше он использовал mairix, но в mu больше дополнительных возможностей для составления списков писем и их отображения, поэтому окончательный выбор пал на него. Чтобы начать поиск в mu, нужно набрать:
mu find waffles
и программа создает специальную папку, в которой собраны все электронные письма, содержащие слово «waffles». В случае Форда там оказалось 99 писем.
Электронная почта и человек
Итак, теперь у исследователя была лаборатория для изучения своего прошлого. В ходе исследования он выяснил, что за 18 лет отправил 82 865 электронных писем, в среднем по 4 600 писем в год. Немало.
Затем он стал искать письма по определенным словам, чтобы увидеть, как со временем менялось его отношение к определенным вещам. Например, когда Форд только начал этот проект, то закончил статью о хороших манерах и вежливости. И чтобы узнать, что он сам думал о манерах и вежливости раньше, ввел в строку поиска:
mu find from:ford@ftrain.com polite
По запросу было найдено 196 писем, каждое из которых содержало в тексте (в том числе и в цитируемой части) заданное слово. Форд просмотрел все эти письма.
На протяжении 18 лет он писал о манерах и вежливости приблизительно одно и то же. Во всех найденных письмах было написано нечто вроде «я изо всех сил старался быть вежливым», или «вежливость важна для меня», или «я старался вести себя вежливо и почтительно, когда встретил людей с радио». Мое мнение по этому вопросу, мои основополагающие убеждения, предположения и манеры не изменились.
Конкретно эта тема не очень интересна. Но что действительно изменилось за эти 20 лет, так это сеть. Форд пишет, что многое узнал о программировании, о создании систем управления контентом. Его представление о технологиях должно было измениться, ведь так? Поэтому он решил выяснить, насколько улучшилось его понимание сети. С помощью запроса «HTML» Форд сумел обнаружить давно забытый инструмент для ведения блогов, который сам написал для своих друзей в 1999. У него не было названия.
С таким же успехом он быть написан вчера. За это время Форд многое узнал о программировании и базах данных, потратил уйму времени на изучение информатики. И всё это для того, чтобы делать одни и те же вещи, а потом забывать об этом, и делать их снова. Это словно фильм День сурка о фильме День сурка. Он продолжал читать свои письма и понимал, что все двадцать лет говорил о:
- Ведении блогов;
- Контент-менеджменте;
- Написании писем;
- Будущем журналов;
- Природе технологий.
И все двадцать лет спорил о:
- Политике;
- Расовой дискриминации;
- Самоопределении;
- Сексизме;
- Различии полов.
Иногда он говорил другим людям, как нужно себя вести, иногда они говорили ему. Само содержание этих споров не сильно изменилось.
До того, как исследователь провел этот эксперимент, он был уверен, что раньше занимал пассивную позицию и старался не ввязываться в конфликты, и что у него ушло много времени на то, чтобы научиться доказывать свою правоту –, но теперь он намного охотнее защищает свои взгляды. Но это было бы неправдой. Судя по архиву, Форд постоянно участвовал в каком-либо споре по электронной почте, и, очевидно, поднаторел в этом деле. А поскольку он долгое время верил, что в прошлом недостаточно твёрдо отстаивал свои взгляды, то в настоящем, занимал пассивно-агрессивную позицию потерпевшего чаще, чем другие люди.
Осознав это, я больше не испытывал ощущение прогресса.
Слово «привет» тысячу раз встречалось в заголовках писем и шесть тысяч раз — в содержании. Форд написал простой скрипт, запустив который из командной строки, можно узнать, сколько раз за 18 лет было отправлено писем со словом «кофе». Каждая »*» равна десяти словам «кофе».
$ mu find from:ford@ftrain.com coffee|perl -ne '/(\d{4})/; print "$1\n";'|sort|uniq -c|perl -ne '/(\d+) (\d{4})/; print "$2 " . ("*" x ($1/10)) . "\n"'
2000 *
2001 ***
2002 *****
2003 *******
2004
2005
2006 *
2007
2008
2009 *
2010 ****************
2011 ********************
2012 ***********************************
2013 **************************************
2014 ***********************
2015 ********
И тут можно проследить некоторую закономерность. До 2005 года Форд ходил на свидания, занимался внештатной работой и пил много кофе. Затем он стал редактором и встретил свою жену — в итоге почти пять лет жил без кофе. В 2010 году он уволился и стал в основном работать на себя, поэтому стал пить кофе литрами. Это, конечно, интересная информация, но она не несет в себе пользы и не отражает никаких внутренних изменений. Это просто структура потребления.
Следует также отметить тот факт, что все эти годы Форд жаждал изменений. Конечно, он не единственный, кто рассылает электронные письма. В архиве Форда хранятся письма от сотен других людей, и он говорит, что до сих пор общается с некоторыми из них.
Очень странно перечитывать нашу переписку, потому что многие из нас до сих пор одержимы теми же идеями, что десять или пятнадцать лет назад. Мы взрослеем, женимся и разводимся. Кто-то из нас богат, кто-то беден, одни читают комиксы, другие пишут стихи, третьи — рассказы, а некоторые носят всё те же футболки.
Дети меняют нас, ради них мы меняемся на протяжении всей жизни. Развод меняет нас. Мы стараемся поймать момент, стать лучше, но в итоге возвращаемся к привычному для нас образу жизни. Время бежит, как вода. Но, как говорится, вода камень точит. Изменение приходит извне.
Именно поэтому Форд считает, что его эксперимент окончился провалом. Это эпоха самоанализа и радикальной трансформации. Он составлял таблицы, производил расчеты и искал закономерности. Теперь исследователь может назвать 20 самых часто употребляемых собою слов в каждом году или количество писем, в которых он писал о потере веса, может сказать, когда впервые задумался о том, чтобы стать отцом. По большому счету всю жизнь можно представить в цифрах — актуарных таблицах, банковских выписках, принадлежащих человеку квадратных метрах, количестве детей. Но подсчет вещей не меняет их.
В процессе написания этой статьи я наткнулся на один email 11-летней давности. Оказалось, что именно эту статью — которую вы читаете в данный момент — я пытался продать Национальному Общественному Радио в качестве дикторского текста под названием «Сбор и анализ данных о себе».
«В архиве моей электронной почты хранятся письма, которые я получал на протяжении последних 8 лет, — писал я в 2003, — и я давно хотел написать программу для поиска и…»Остальное вы знаете.
Они ее одобрили.
«Чтобы в этом разобраться, — сказал я им, — потребуется время».