Как фермеры 21 века используют математику

Интервью с профессором «Сколтеха» Иваном Оселедцом о проблемах анализа больших массивов данных.

Когда дело касается больших массивов данных, охватывающих множество переменных, то прямой пересчет всех возможных комбинаций и условий может занимать не минуты, часы или дни, а месяцы и годы вычислений. Для записи таких данных может потребоваться объем всех серверов, например, компании Google.

С такими вызовами столкнулись математики, ищущие алгоритмы вычислений при работе с большими массивами во всем мире. Решение нашел российский ученый Иван Оселедец, опубликовавший в 2009 году работу о тензорных поездах (последовательность математических разложений и вычислений — vc.ru).

e3d3b33c8054d7.jpg
Иван Оселедец

Математические методы разложения больших массивов данных полезны во всех областях науки: физике, химии, биологии и других.

Иван Оселедец — российский математик, выпускник МФТИ, доктор математических наук, профессор «Сколтеха», автор работ по тензорным поездам.

Под его руководством проводится работа по применению математических методов разложения больших массивов в биологии, химии, физике, промышленности, сельском хозяйстве и телекоммуникациях.

Как начинался ваш путь в науку?

Когда на первом курсе Физтеха надо было выбирать базовую кафедру, я посмотрел и по принципу «минимального зла» (в восторге я не был ни от чего), я выбрал кафедру математического моделирования физических процессов, которая базировалась в институте вычислительной математики РАН (ИВМ РАН).

Когда я пришел туда, увидел, что это совершенно потрясающее место — замечательно сохранившийся исследовательский институт на 50 человек. Институт был сделан Гурием Ивановичем Марчуком по образцу европейских университетов. Там нет никаких лабораторий и отделов: люди хотят делать проект, и они его делают. ИВМ до сих пор соответствует всем современным стандартам — не только российским, но и мировым.

12a6838b4618fe.jpg

Придя в ИВМ, я нашел научного руководителя — Евгения Евгеньевича Тыртышникова. На мой вопрос, чем он занимается, ответил: «Мы умножаем матрицу на вектор». Мне показалось, что это какой-то откровенный бред, но потом оказалось, что это до сих пор самая сложная вычислительная задача. Я начал работать над этим направлением на третьем курсе и продолжаю эту работу и сегодня.

Что это за задача?

Существует такая вещь, как Гауссовское разложение — это замечательный метод матричного анализа, который позволяет представить матрицу таким образом, что нам не надо считать все элементы матрицы, а достаточно посчитать величины только в опорных строках и столбцах. Выбираются они по принципу вырожденности, чтобы значение ячеек столбцов было как можно более независимым.

Например, в телекоммуникациях есть задача обслуживания абонентов. Базовая станция решает такие задачи с матрицами, чтобы выдавать максимальную емкость канала для подключенного клиента.

Другой пример использования матриц — в рекомендательных системах. По одной оси у нас разные пользователи, а по другой оси — продукты. Единица ставится, если пользователь купил продукт, ноль, если не купил. Если продукт куплен, то нужно порекомендовать оценить этот товар. Это кажется простым, но посчитать матрицу, например, миллион на миллион уже непросто.

d94629d762caa1.png

Какое решение вы придумали?

Мы в 2009 году придумали алгоритм приближения многомерных массивов. Этому предшествовала интересная история.

Когда мы были в Гонконге на конференции, профессор из Германии делал доклад про тензоры. Доклад был, прямо скажем, скучный — посвященный каноническому разложению.

Я подумал, надо делать по-другому, набросал идею решения и показал профессору Тыртышникову. Он ответил, что это отличная идея и надо попробовать. У нас ушло около месяца, чтобы сделать все базовые расчеты и описания.

Концептуальная идея была в том, чтобы свести всё опять к матрицам. Мы взяли многомерный массив и превращаем его в матрицу разными способами — этих способов не так много. Оказалось, что такой подход отлично работает.

После получения практических результатов, наши немецкие коллеги сказали: «Ну вот, вы уже всё сделали». Они очень расстроились, потому что думали работать над оптимальным решением несколько лет, брали аспирантов, чтобы делать это разложение, доказывать его, а мы всё сделали за месяц.

У вас есть совместный проект с «РусАгро». Какие задачи вы решаете там?

Основной задачей для нас и для холдинга является повышение плодородия почв. На этот процесс влияет множество факторов — нужно принять во внимание их все.

Почва — сложная система, в которой одновременно происходят химические, физические и биологические процессы, и все они связаны друг с другом.

0a0bb84319eb36.jpg

Нас интересуют физические свойства, например, пористость почвы, потому что она влияет на способность удерживать влагу, доступную для растений. Эта пористость образуется благодаря деятельности целых сообществ разных микроорганизмов, перерабатывающих остатки и образующих самое важное органическое вещество почвы — гумус.

Наша цель сделать целостную модель, подходящую именно для полей, с нашим типом почв, климатом, видами микроорганизмов и уровнем осадков.

Для этого необходимо понять, что измерять, как это делать и зачем. Последнее не менее важно, потому что всех возможных параметров не собрать. Скорее всего, это и бессмысленно, так как параметры могут быть связаны с другими или быть их следствием, либо практически никак не влиять на результат.

Наш проект стартовал недавно, он рассчитан на два года. Так как я математик, я выполняю функцию менеджера.

Мы определили следующие ключевые факторы, по которым собираем данные:

  • Рельеф.
  • Физика почвы.
  • Химия и микроэлементный состав почвы.
  • Биологическая составляющая, включая разнообразие сообществ бактерий, животных, грибов и растений.

Мы собираем исторический опыт, поднимаем данные советских исследований. Во многом, делаем это для того, чтобы впоследствии не выяснить, что мы два года что-то измеряем, сеем: сначала одну, потом другую культуру —, а в итоге получаем погибший урожай.

91f729a55530f4.jpg

Все такие вещи хочется предусмотреть и определить до, а не после. Поэтому мы привлекаем множество людей и пытаемся объединить их опыт и знания. Проект не фиксирован: мы вольны корректировать план, задачи, вводить новые данные, измерения и результаты.

Почему вы начали именно с рельефа?

Это один из базовых параметров, который мы могли относительно легко получить и обработать. У нас были спутниковые данные по рельефу, пусть и не очень точные, были европейские данные по погоде, которые мы повторно проанализировали. В общем, всё то, что можно получить, не выходя из кабинета.

Недостатки точности спутниковых данных по рельефу мы компенсируем использованием специального дрона компании «Геоскан», точность которого намного выше. Один дрон может собрать нужные нам данные с целого поля меньше чем за час.

Кажущееся на первый взгляд ровным поле легко может иметь перепад высот в 20 и более метров. Это влияет на то, как растекается влага, как тает снег и каков запас питательных веществ для растения.

1c9a9c0feae2b3.jpg

Мы не ограничились только рельефом: два раза выезжали в поля, собрали более 360 образцов, каждый образец проанализировали десятью способами. В сравнении с данными по климату, полевых данных намного меньше, зато они высокоточные. Мы точно знаем, сколько в каждой пробе влаги и каждого из важных микроэлементов.

Мы не забываем, что в нашей команде есть профессора, агрономы, которые безо всякого моделирования могут предсказать, например, неурожай. Мы уже выяснили, что на опытных полях агрокомпания использовала очень грубую технику, которая перемалывала верхний слой почвы почти в порошок, из-за чего в почве не было крупных комков.

Вода в такой почве не задерживается, а местный агроном в такой ситуации говорит: «У нас засуха». Даже сделав простейшие действия, изменив тип обработки, мы могли бы повысить урожайность. С этого мы и начали первый полевой сезон.

Все лабораторные исследования мы проводим в Почвенном институте им. Докучаева. Там же мы создаем кафедру агроинформационного анализа. Большую роль играет поддержка директора института академика А.Л. Иванова.

В будущем планируем оптимизировать процесс — всё станет намного мобильнее. Приедет мобильная лаборатория на базе «КамАЗа», встанет у поля и сделает всё, что нужно на месте. Вместе с дроном можно будет проводить массовые исследования за достаточно короткий срок.

Пока приходится работать без передвижной лаборатории. Это непросто и трудоемко: брать бур, пробы, привозить все в Москву и там уже проводить анализы.

Что вы будете делать со всеми этими данными?

Пока биологические данные будут учитываться в простейшем виде, как набор переменных разного типа. Всё это мы переработаем в уравнения и в лабораторную модель, чтобы дальше можно было ответить на вопросы: что будет, если мы добавим больше удобрений, изменим режим осадков и так далее.

5964dae4ff110d.jpg

Это очень грубая и нечеткая модель, но она даст представление о том, за какими параметрами надо больше следить, а за какими, наоборот, следить не стоит. Чтобы работать с такой моделью, её необходимо откалибровать, а для этого нужны многолетние полевые опыты. Но у нас нет такого количества времени, поэтому мы готовимся к созданию лабораторных моделей в новом кампусе «Сколтеха», который скоро откроется, это даст нам чуть больше данных и косвенных признаков.

Вы ориентируетесь на другие проекты?

В MIT есть проект, который мне очень нравится. Он называется MIT Open Agriculture (OpenAg). Он чрезвычайно прост, но когда собирают камеру, сажают туда растение, расставляют датчики, получается очень информативное исследование.

В Германии мы планируем заказать лизиметр. Это лабораторная установка, в которую можно погрузить монолит почвы и проанализировать происходящие в ней процессы.

О лизиметре есть история прямо из Сколково. На его месте когда-то были опытные поля НИИ «Немчиновка», которые получали рекордные урожаи. И по сей день там есть остатки лизиметрической станции. Обычно о ней говорят, что она была единственная в союзе, по крайней мере, единственная с огромными газовыми шапками.

Насколько ваши исследования затратны по сравнению с классическими лабораторными?

Агропроект может длиться бесконечно, можно вкладывать любые суммы, но мы пытаемся в условиях ограниченного бюджета сделать разностороннюю работу.

До биологов по затратам нам далеко. Как говорят про биологов: «В любой непонятной ситуации — купи себе секвенатор».

Мы, как и они, тратим много сил и времени на лабораторное и полевое оборудование. Уже упомянутый дрон для сбора данных по рельефу стоил почти полтора миллиона рублей.

07d291671e8c02.jpg

Для анализа данных нужны компьютеры с мощными графическими картами — чем их больше, тем лучше. У нас сейчас 14 графических карт, мы скоро купим еще минимум 20 — до насыщения нам еще далеко. Какими именно будут карты, решать будем исходя из задачи: карты TESLA поддерживают двойную точность, а TITAN дешевле и в задачах на одинарную точность почти ничем не уступают.

Как обстоят дела с финансированием? Есть ли у вас гранты?

Благодаря возможностям «Сколтеха» у нас есть внутреннее финансирование. Это важный момент, особенно в начале проекта. У нас есть гранты российских научных фондов, до этого у меня был грант от Министерства образования и науки. Есть и внешние источники финансирования. Например, мы анализируем данные для коммерческих проектов.

5fd1be495ac0f9.jpg

В «Сколтех» часто идут за экспертизой, анализом, обработкой данных и находят то, что искали. И даже с учетом того, что «Сколтех» не самое дешевое место по сравнению с обычным академическим институтом, компании все равно приходят к нам.

Подать заявку

©  vc.ru