Twitter передал шести университетам всю базу твитов с 2006 года

4527d60a06596c1df02acbd1f6b8c803.jpgКаждый день в Twitter публикуется 500 млн сообщений. Такой массив информации с персональными данными — настоящая золотая жила для дата-майнинга. На базе твитов учёные изучают паттерны в человеческом поведении, социальные связи, распространение инфекционных болезней, факторы риска для организма человека и многое другое, пишет июньский выпуск журнала Scientific American.Например, исследователи из Microsoft разработали алгоритм, который по содержимому твитов беременной женщины определяет риск развития послеродовой депрессии. Геологическая служба США отслеживает твиты, чтобы определять эпицентр землетрясения.

До сих пор учёные были вынуждены работать с весьма ограниченной выборкой данных. Единственной возможностью для поиска по всем твитам было обращение к стандартному Twitter API, а он даёт доступ лишь к 1% всех сообщений.

Но теперь Twitter повернулся лицом к научному сообществу. В феврале компания объявила, что предоставит им для анализа полную базу со всеми сообщениями, начиная с 2006 года.

В апреле Twitter сообщил о поступлении более 1300 заявок из 60+ стран на доступ к базе данных в научных целях, при этом более половины запросов поступило из-за пределов США. После отбора кандидатов компания выбрала шесть университетов из четырёх стран, которым согласилась предоставить информацию.

Хотя доступ получили лишь избранные университеты, но всё равно это очень позитивная новость. В будущем база станет доступна более широкому кругу исследователей, что может привести к взрывному росту количества научных работ на основе дата-майнинга твитов. Имея больше данных, учёные могут отслеживать более сложные и специфические закономерности. В конце концов, база может попасть и в открытый доступ.

Правда, неизбежно возникает ряд вопросов. Например, получит ли Twitter какие-то права на результаты научных исследований? Нужно ли спрашивать разрешения у пользователей на использование их данных для дата-майнинга?

Чтобы заранее договориться о нюансах, группа учёных из Политехнического университета Виргинии предложила Правила этического использования данных Twitter, под которыми могут подписаться все, кто собирается использовать данные от Twitter. Среди прочего, правила содержат запрет на публикацию имён пользователей и ников, а также требование открыто заявлять о целях исследования. Авторы документа считают, что важно договориться о таких правилах, прежде чем в печати появится множество научных работ, сделанных с использованием этой базы данных.

fcb9c1f00e3ae326b87b6dbcac4c1080.jpgПрограмма Maltego

Нужно добавить, что уже разработаны программные инструменты, которые прямо противоречат Правилам этического использования данных Twitter, а именно — автоматически собирают данные о конкретных пользователях и организациях. Среди таких программ — Maltego и Creepy.

© Habrahabr.ru