Глубокое обучение в экологии: прогнозирование вспышек численности жука-короеда

Решение текущих глобальных проблем, таких как утрата биоразнообразия, глобальные изменения и растущий спрос на экосистемные услуги, требует улучшения экологического прогнозирования. Рост доступности данных и увеличение вычислительных мощностей способствуют разработке количественных подходов в области экологии. Однако, чтобы использовать эти разработки в экологическом прогнозировании необходимы гибкие методологические рамки. Глубокое обучение (Deep Learning, DL) является быстро развивающейся отраслью машинного обучения (Machine Learning, ML), однако, на сегодняшний день оно мало применяется в экологии. Это относится и к обучению глубоких нейронных сетей (Deep Neural Networks, DNNs), т.е. искусственных нейронных сетей, состоящих из многих слоев и большого количества нейронов. В данной статье приводится пример (включая код и данные) создания, обучения и применения DNNs в рамках экологического прогнозирования. Используя в качестве примера вспышки короеда в лесах с преобладанием хвойных деревьев, авторы показывают, что DNNs вполне способны прогнозировать как риск заражения в краткосрочной перспективе и на местном уровне, так и долгосрочную динамику в более крупном масштабе. Также, в статье показано, что DNNs имеют лучший результат, по сравнению со стандартными подходами к прогнозированию динамики вспышки короеда, и имеют высокий потенциал для формирования комплексной системы прогнозирования в данной сфере.

Введение

Экология — относительно молодая дисциплина, и многим ее теоретическим основам меньше века. В последние десятилетия в экологии произошли значительные продвижения, что, в частности, отражается в более активном применении экологических знаний, данных и методов, а также в продвижении прогностической экологии. Экологическое прогнозирование применяется для создания проверяемых количественных оценок будущего состояния экосистемы. Повышенное внимание к прогнозированию объясняется ростом осознания того, что экология играет центральную роль в решении ряда наиболее насущных проблем, с которыми сталкивается человечество в 21 веке, таких как последствия изменения климата и утрата биоразнообразия.

Сегодня сделать точные экологические прогнозы более реально, чем когда-либо прежде. Это результат трех процессов. 

Во-первых, резко возрастает доступность экологических данных. Этому способствует распространение дистанционного зондирования, появление крупных международных исследовательских сетей, таких как NEON и Fluxnet и использование гражданской науки.

Во-вторых, недавние методологические достижения в области экологического моделирования, анализа данных и статистики значительно повысили способность использовать растущие объемы данных для понимания экологических систем. 

В-третьих, увеличение вычислительных мощностей в целом и растущая доступность высокопроизводительной инфраструктуры для научных вычислений в частности обеспечивают технологическую основу.

Все три описанных процесса являются важными факторами внедрения машинного обучения в экологию.

Машинное обучение — это семейство вычислительных алгоритмов, предназначенных для определения закономерностей в сложных, часто нелинейных данных и создания точных прогностических моделей на основе таких данных. По сравнению с классическими статистическими подходами, такими как регрессия, машинное обучение фокусируется на определении и описании сложных отношений и обладает предсказательной силой в оценке параметров и доверительных интервалов. Машинное обучение, находящееся на пересечении компьютерных наук и статистики и составляющее основу искусственного интеллекта и науки о данных, является быстро растущей областью.

Глубокое обучение — относительно недавно развившаяся сфера ML. Главный инструмент DL — глубокая нейронная сеть (DNN). Она основана на искусственных нейронных сетях (Artificial Neural Networks, ANNs), придуманных еще в середине прошлого века. По сути, DL представляет из себя набор методов, которые позволяют обучать большие (больше нейронов) и более глубокие (больше слоев) нейронные сети. Такие сети стали возможными благодаря разработке улучшенных алгоритмов для оптимизации весов, соединяющих нейроны (например, стохастический градиентный спуск), увеличению доступной вычислительной мощности и обучающих данных. Хотя такие улучшения могут показаться незначительными, современные DNNs не только превосходят своих более простых предшественников ANNs, но часто показывают лучший результат, чем другие подходы ML в стандартизированных тестах точности прогнозов.

Еще десять лет назад ML редко использовалось в экологии, но в последние годы его популярность сильно возросла. Тем не менее, потенциал ML используется далеко не полностью, а приложений глубокого обучения в экологии на сегодняшний день совсем мало (Рис. S1). Цель этой статьи — поспособствовать более широкому распространению глубокого обучения в экологии путем демонстрации его потенциала в прогнозировании. В качестве примера авторы статьи выбрали задачу предсказания возникновения очагов вспышек жука короеда в лесах с преобладанием хвойных пород.

k6hhpgeqxbtdz0e0ssas0zkpqju.jpeg

Рисунок S1. (Приложение)

Количество статей, найденных в Scopus по запросу «deep learning», «deep neural networks» или «dnn» в предметных областях: экология, сельское хозяйство и биологические науки, а также науки о Земле и планетах. Категория «Другое» (Other) относится к статьям, в которых либо прогнозирование (Prediction) сочетается с классификацией (Classification), либо DNN применяется для разных задачи (Дата поиска: 8.11.2018).

Жуки-короеды являются серьезными возбудителями в лесах по всему миру. Ожидается, что в результате изменений климата активность короеда в будущем возрастет. Нашествие короеда может оказать негативное влияние на доступность чистой воды, древесины и на регулирование климата. Зная заранее расположение будущих очагов, можно предотвратить распространение, удаляя уязвимые деревья и используя феромонные ловушки. Однако, определение возможных очагов делается исходя из видения специалистов на местах, а не на основе данных и количественных оценок.

Далее в статье показано, как спрогнозировать динамику вспышек короеда на основе доступных источников информации с использованием глубокого обучения. DNN в данном случае используется для решения 2-х задач:

• Оценка вероятности вспышек короеда на основе данных ближайшего прошлого

• Прогнозирование временной динамики волн вспышек короеда.

Материалы и методы

Нейронные сети и глубокое обучение

Базовая структура искусственной нейронной сети и глубокой нейронной сети смоделирована по аналогии с тем, как биологическая нервная система обрабатывает информацию. Сеть состоит из взаимосвязанных вычислительных блоков (нейронов), которые организованы в слои. Слои подразделяются на следующие группы (рис. 1):

• входной слой (с количеством нейронов, соответствующим количеству входных переменных) 

• скрытые слои

• выходной слой (где каждая зависимая переменная соответствует нейрону).

vnrqgua-efx5j8ghhy-mocxrm0s.jpeg

Рисунок 1. Схематическая структура глубокой нейронной сети прямого распространения.

Каждый из k слоев состоит из переменного числа нейронов. Сеть имеет столько нейронов во входном слое, сколько входных переменных (n), и столько выходных нейронов, сколько классов в данных (m). Нейрон связан со всеми нейронами в двух соседних слоях с помощью взвешенных связей (w).

Наиболее широко используемым типом DNN является нейронная сеть прямого распространения. В такой сети каждый нейрон связан со всеми нейронами в соседних слоях, но нейроны внутри слоя не связаны (рис. 1). Сила связи между двумя нейронами задается регулируемым весом w. Каждый нейрон передает на выход значение, вычисляемое как функция активации от взвешенной суммы входных данных.

Разновидностью нейросети, которую часто используют для распознавания образов на изображениях или данных временных рядов, является сверточная нейронная сеть (Convolutional Neural Network, CNN). В дополнение к полносвязным слоям CNN включает в себя сверточные и пуллинговые слои. На сверточном слое фильтры применяются последовательно ко всем частям входных данных с использованием одних и тех же весов. Последующие пуллинговые слои объединяют выходные данные со сверточных слоев, делая их менее чувствительными к незначительным сдвигам и искажениям в данных. Последовательность таких слоев свертки и пуллинга может извлекать из данных довольно высокоуровневые свойства.

На этапе обучения DNN веса итеративно обновляются, чтобы минимизировать ошибку предсказания. Чтобы измерить точность предсказаний на новых входных данных, данные разделяют на обучающий и тестовый наборы. Детали сетевой архитектуры, такие как размер сети, выбор конкретных типов слоев и параметры процесса обучения, во многом определяют точность предсказания и обычно зависят от конкретной задачи. Раздел S2 в Приложении предоставляет руководство по проектированию и обучению DNN, а также практические соображения по применению DNN.

Глубокая нейронная сеть для прогнозирования вспышек короеда

В данном разделе представлен пример применения глубокого обучения в сфере экологии леса, в частности, для прогнозирования вспышек короеда. Пример демонстрирует шаги, необходимые для использования DNN: подготовку данных, проектирование и обучение сети, прогнозирование. Весь код и данные, необходимые для воспроизведения представленного примера, доступны по ссылке.

Был использован 23-летний период заражения короедом (Ips typographus L.) в Национальном парке Баварский лес (Германия), определенный в результате ежегодных авиаучетов участка общей площадью 13 319 га. Полный набор данных, дополнительная информация, а также статистический анализ данных предоставлены Seidl et al., 2016.

Цель состояла в том, чтобы спрогнозировать риск вспышки короеда для каждого участка леса размером 30 × 30 m на основе климатических данных и информации о вспышках в данной местности за предыдущие два года. В исследовании использовалась DNN со следующими переменными:

• Потенциально опасные участки в непосредственной близости от целевого участка (т. е. такие участки, которые находятся в границах 19 × 19 участков от целевого, и которые содержат взрослые деревья вида, подверженного короеду (Picea abies (L.) Karst.))

• Участки, атакованные короедом в последние два года, находящиеся в непосредственной близости от целевого участка 

• Средние показатели климатических условий (т.е. долгосрочная среднегодовая температура для целевого участка) 

• Характер вспышек в окружающем регионе (лесные массивы Австрии, Чешской Республики и Баварии) за предыдущие два года, которые были поделены на три класса по степени тяжести, определенные с использованием 33-го и 66-го процентилей испорченной за год древесины.

Таким образом, в моделировании использовались как постоянные, так и изменяющиеся во времени предикторы и было намеренно использована только такая информация, которая была ранее опубликована и легко доступна.

Набор данных для обучения DNN состоял из 1,87 миллиона наблюдений. Каждый обучающий пример xi состоял из клеток размером 19 × 19 участков вокруг целевого участка. Для каждого из участков было указано текущее состояние и активность вспышек в предыдущие два года, а также две другими переменные: среднегодовая температура и характер вспышки. Таким образом, каждый xi содержит 19 × 19 = 361 + 2 = 363 входные переменные. Размер 19 × 19 участков представляет собой прямоугольную область с расстоянием от целевого участка от 270 до 382 м в каждом направлении, что соответствует дальности распространения более 95% короедов. В качестве yi выдавалось предсказание для данного участка — зараженный / здоровый.

Эксперименты

Эксперимент 1: Прогнозирование вероятности вспышек в определенный год

В этом эксперименте проверялась способность DNN предсказывать вероятность заражения в определенный год. В целом, это выглядит как попытка предсказать будущие вспышки на основе данных о вспышках, наблюдаемых в прошлом. Чтобы включить широкий диапазон в тестовый набор данных, случайным образом было выбрано по одному году в каждой из трех стадий (1993, 1997, 2005). Все остальные годы были использованы для обучения DNN. Обучающая выборка для этого эксперимента состояла из 1,58 миллиона наблюдений, а тестовая выборка — из 292 559 наблюдений (15,7% от всех данных).

Эксперимент 2: Прогнозирование временной динамики

Целью второго эксперимента было проверить способность DNN моделировать временную динамику вспышек, наблюдаемых в национальном парке Баварский лес. В качестве тестового набора случайным образом были выбраны 373 817 наблюдений (20%) из полного набора данных. Остальные 80% были использованы для обучения DNN. Этот эксперимент не отражает перспективного прогноза, а скорее направлен на изучение способности DNN улавливать динамику импульсов вспышек короедов.

Построение модели и оценка

Прогнозирование вспышек короеда по картам заражения (рис. 2) можно рассматривать как частный случай задачи классификации изображений, когда от сети требуется классифицировать целевой участок изображения как зараженный или здоровый. Сверточные нейронные сети часто применяются для классификации изображений, и поэтому были выбраны для данного эксперимента. Чтобы настроить архитектуру сети, были использованы данные из эксперимента 1 (не считая отдельных годов). Итеративно оценивались гиперпараметры: пропускная способность сети (количество слоев и нейронов на слое), применяемые методы регуляризации, а также используемые функция потерь и оптимизатор. Обучение сети останавливалось, когда точность (accuracy) в тестовом наборе данных больше не увеличивалась. Выбранная архитектура также использовалась в эксперименте 2. Все эксперименты и прогнозы проводились с использованием фреймворка TensorFlow и выполнялись на настольном ПК с процессором Intel QuadCore CPU (Intel i5–6600) и графическим процессором NVidia GTX 1070 GPU.

o7vktebs1ysidc5rnj48kwdm9fu.jpeg

Рисунок 2.

Выбранные примеры размером 19 × 19 участков (размер каждой клетки-участка: 30 × 30 м) из тестового набора данных, для которых состояние целевого участка (focal cell) было предсказано правильно (верхний левый и нижний правый углы) и неправильно (верхний правый и нижний левый углы).

Производительность сети оценивалась по ряду различных показателей на основе сравнения предсказаний с данными тестового набора. Accuracy (определяемая как соотношение правильно классифицированных примеров к общему числу примеров) имеет здесь лишь ограниченную пользу в качестве метрики, так как распределение классов очень несбалансированное (только 3,48% классифицируются как зараженные). Поэтому также были вычислены Precision, Recall, F1 Score, Conditional Kappa, True Skill Statistic (таблица 1). 

Conditional Kappa и True Skill Statistic варьируются от -1 до +1, где +1 указывает на идеальное соответствие с тестовыми данными, а значения > 0 означают, что модель работает лучше, чем случайное предсказание. На выходе нейросеть выдавала вероятность заражения и преобразовывала ее в один из 2-х классов, выбрав в качестве пороговой вероятность, которая дает наивысший F1 Score на наборе тренировочных данных. 

Во втором эксперименте вычислялся также показатель Gleichlaeufigkeit, который является мерой сходства двух временных серий на основе знака разницы между двумя годами, идущими подряд (таблица 1). 

Чтобы лучше оценить производительность DNN, эксперименты 1 и 2 были проведены повторно с использованием других широко распространенных алгоритмов классификации, таких как случайный лес, градиентный бустинг, обобщенная линейная модель, и с использованием платформы H2O.

iyocycdmyev-n-vvfl7ta2gmjas.jpeg

Таблица 1. Меры оценки эффективности DNN.

N — количество примеров

tp — истинно положительное

tn — истинное отрицательное

fp — ложное положительное

fn — ложно отрицательное

Результаты

DNN для прогнозирования вспышек короеда

В эксперименте была использована сверточная нейронная сеть с пятью сверточными слоями, за которыми следовали пять полносвязных слоев и слой softmax; категориальная кросс-энтропия в качестве функции стоимости, сокращение веса (weight decay), метод исключения (dropout), батч-нормализация (batch normalization). На рисунке S2 показана схематическая структура архитектуры DNN. Представленная сеть эффективно работает с изображениями, с числовыми (климатические) и категориальными (характер вспышек) переменными. Окончательный вариант нейросети был обучен на 60 эпохах, что заняло примерно один час на используемом оборудовании. После, была выбрана эпоха с наивысшей точностью (accuracy). Репозиторий GitHub содержит полный исходный код для повторения этого эксперимента, а также дополнительные сведения о предварительной обработке данных и архитектуре сети.

p_vp5sfaqezemxpputn3jaqtjnm.jpeg

Рисунок S2. (Приложение). Схематическая структура применяемой сети глубокого обучения.

Предсказания

Эксперимент 1: Прогнозирование вероятности вспышек в определенный год

Обученные DNN смогли хорошо предсказать общий уровень вспышек и пространственную картину, наблюдавшуюся в 1993, 1997 и 2005 годах (рис. 3). Достигнутые показатели: Accuracy — 0.966, Precision — 0.652, Recall — 0.392 (таблица 2). Conditional kappa и True skill statistic, которые менее чувствительны к неравномерному распределению классов, составили 0.637 и 0.626 соответственно. На рисунке 2 показаны примеры как успешной, так и неудачной классификаций, иллюстрирующие стохастический характер активности короеда на уровне клеток-участков.

5bqq6arsi0fvezbenebwoou9rta.jpeg

Рисунок 3. Наблюдаемые (Observed) и предсказанные (Predicted) вспышки короеда в Национальном парке Баварский лес в 1993, 1997 и 2005 годы.

oeep8hxv8sk8vruzvmbenvv7afi.jpeg

Таблица 2. Показатели эффективности для двух экспериментов.

Эксперимент 2: Прогнозирование временной динамики

В эксперименте 2 Accuracy имеет более низкий показатель (таблица 2). На рисунке 4 показано сравнение прогнозируемой и наблюдаемой площади, подвергнутой атаке короеда. В то время как общая картина двух отдельных волн вспышек в течение 23-летнего периода исследования была хорошо воспроизведена DNN, нейросеть испытывала трудности с предсказанием начального года вспышки (начало 1990-х годов) и постоянно недооценивала площадь, атакованную короедом в период 2003–2007 гг. Для лучшей иллюстрации эффективности модели на рисунке S3 показано аналогичное сравнение наблюдаемой и предсказанной вероятностей для статистической модели, разработанной Seidl et al. (2016). Показатель Gleichlaeufigkeit в текущем исследовании с применением DNN составил 0.750, что немного выше, чем у статистической модели (0,727).

-1m-ty8y9k3nrmuto96zvebfqha.jpeg

Рисунок 4. Наблюдаемая и предсказанная площади, подвергшиеся атаке короеда в эксперименте 2 (N = 373 817).

zlxopifdylfgm6vm3mhfva-sk4e.jpeg

Рисунок S3. (Приложение).

Наблюдаемая и предсказанная вероятности вспышек на основе статистического моделирования, опубликованного в статье Seidl et al., 2016.

Сравнение с другими алгоритмами машинного обучения

DNN работает лучше, чем другие протестированные алгоритмы в пяти из шести случаев; только алгоритм случайного леса (random forest) превзошел DNN в эксперименте 2 (таблица S1). Как правило, ансамблевые методы (градиентный бустинг и случайный лес) очень эффективны в извлечении значимой информации из данных. По сравнению с ансамблевыми моделями обобщенная линейная модель имела значительно более низкую предсказательную силу.

ojzp0vdf4hwfyvurumisyvzeuw8.jpeg

Таблица S1. (Приложение).

Сравнение эффективности DNN с другими методами машинного обучения.

DNN — deep neural network / глубокая нейронная сеть 

DRM — distributed random forest / случайный лес

GBM — gradient boosting machine / градиентный бустинг

GLM — generalized linear model / обобщенная линейная модель

Обсуждение

Глубокое обучение — это новый мощный подход машинного обучения к моделированию сложных данных. Этот подход активно разрабатывается растущим исследовательским сообществом и все чаще применяется в самых разных областях. Тем не менее, до сих пор он редко применяется в экологии. В частности, при написании данной статьи не было найдено ни одного исследования с использованием глубокого обучения, опубликованного в ведущих экологических журналах, таких как Ecology, Journal of Ecology, Ecology Letters, BioScience, Ecological Applications, Journal of Applied Ecology, Diversity and Distributions или Global Ecology and Biogeography. Однако, глубокое обучение может стать мощным инструментом для экологов, особенно по мере того, как эта область движется в сторону более количественного и прогностического подхода.

Глубокое обучение хорошо подходит для обобщения за пределами тестовых данных, что важно при прогнозировании в сфере прикладных экологических проблем. Особенно сильная сторона DL — способность достигать высокого уровня абстракции при использовании необработанных данных. Кроме того, глубокое обучение может также внести вклад в развитие традиционных подходов экологического моделирования для задач прогнозирования. Другим многообещающим подходом является совмещение глубокого обучения с process-based моделями, что поможет продвинуться в понимании экологических процессов.

Часто ML в целом и DNN в частности критикуется за то, что они имеют характер «черного ящика» — обученную модель и ее веса трудно интуитивно интерпретировать. Следовательно, более традиционные модели останутся важным средством, особенно для улучшения понимания взаимосвязей между причинами и следствиями в природе. Однако, следует отметить, что такие классические подходы делают априорные допущения относительно базовой модели данных, что не обязательно отражает истинную взаимосвязь между причиной и следствием. Хотя традиционные модели приводят к более интерпретируемым результатам и имеют более строгую основу для проверки гипотез, они часто менее точно отражают реальность. ML может точнее описать взаимосвязь между причиной и следствием, не делая априорных предположений.

DNNs особенно хорошо работают с экологическими данными из-за их способности эффективно сочетать различные типы данных (например, изображения, числовые и категориальные переменные). Кроме того, их иерархическая многослойная структура отражает тот факт, что экосистемы часто регулируются множеством процессов, находящихся в иерархической взаимосвязи. В данном исследовании было продемонстрировано, что DNNs превзошли все другие подходы к моделированию динамики вспышек короедов (за исключением алгоритма случайного леса).

Вспышки жуков-короедов значительно увеличились во многих частях земного шара и, как ожидается, еще больше увеличатся в связи с изменением климата. Точная и своевременная информация о вероятности новых заражений короедами будет ключевым преимуществом в борьбе со вспышками, так как это позволит целенаправленно применять меры, такие как санитарная вырубка и установка феромонных ловушек. В данном исследовании было показано, что DNNs имеют высокий прогностический потенциал в контексте прикладных экологических проблем. Следует отметить, в исследовании из набора предикторов специально были исключены данные о погоде, поскольку такие данные не всегда доступны. С использованием только доступных данных, которые легко поддаются количественной оценке (таких как заражение за последние два года), было показано, что даже небольшое количество предикторов может привести к высокой предсказательной способности при использовании DNN. В будущем этот подход может быть объединен с картированием в режиме реального времени на основе фенологических моделей, что позволит учитывать перемещения короеда, обусловленные погодой. Кроме того, информация дистанционного зондирования о прошлых вспышках становится более доступной, что позволяет задуматься о ее применении в будущих исследованиях. DNN представляют собой идеальную платформу для построения комплексной системы прогнозирования вспышек короеда, поскольку она хорошо подходит для синтеза информации из самых разных источников.

Глубокое обучение — это быстро развивающаяся область, и DNNs обладают большим потенциалом, помимо их применения в экологическом прогнозировании. DNN — это, кроме того, многообещающий подход в обучении без учителя, в смысле поиска закономерностей в данных. Это особенно важно в контексте больших данных в экологии, преобладающая часть которых не размечена. Следовательно, можно ожидать, что подходы в обучении без учителя, в которых DNNs используются для поиска закономерностей, в будущем приобретут большее значение. В целом, подходы машинного обучения можно применять на всех этапах научного процесса, от наблюдения до создания и проверки гипотез, построения моделей и прогнозирования. Таким образом, более глубокая интеграция ML в экологию может привести к достижениям, которые значительно выходят за рамки простого улучшения прогнозов. Растущее распространение машинного обучения, и особенно глубокого обучения, происходит в науке и технологиях, что способствует быстрой разработке методов, программного обеспечения и специализированного оборудования. Учитывая значительный потенциал глубокого обучения в экологическом прогнозировании, его включение в арсенал экологических методов может дать существенный импульс в развитии количественной экологии.

Примечание

Перевод статьи «Harnessing Deep Learning in Ecology: An Example Predicting Bark Beetle Outbreaks» Werner Rammer and Rupert Seidl. 

Ссылка на оригинал

Ссылка на Приложение

Ссылка на GitHub

© Habrahabr.ru