Краткий гайд для самых маленьких по Tensor Flow

TensorFlow — один из самых мощных и популярных фреймворков для машинного обучения, разработанный компанией Google Brain в 2015 году. 

Изначально фреймворк создавали как платформу для внутреннего использования в Google, заменив предшествующую библиотеку DistBelief, которая была ограничена возможностями только для небольших исследований. 

TensorFlow, в отличие от DistBelief, задумывался как кросс-платформенное решение с возможностью гибкой и масштабируемой настройки. 

Первая версия TensorFlow использовала концепцию графа вычислений и статической компиляции, что хотя и требовало большего количества ресурсов для разработки, позволяло проводить распределённое обучение и значительно ускоряло процесс выполнения.

С выпуском TensorFlow 2.x фреймворк претерпел значительные изменения, ориентированные на упрощение разработки за счёт поддержки динамических графов (Eager execution) и интеграции Keras как стандартного API высокого уровня. 

280abfbf3e399be7361d5f9a47179b50.png

Эти улучшения сделали TensorFlow более доступным для разработчиков, сосредоточенных на быстрой итерации и разработке гибких моделей. Короче говоря, превратили фреймворк в удобный инструмент для продакшена. 

TensorFlow поддерживает полный цикл разработки и применения моделей машинного обучения — от подготовки данных и обучения до развертывания и оптимизации. 

TensorFlow поддерживает интеграцию с XLA (Accelerated Linear Algebra), что позволяет ускорить вычисления на CPU и GPU. Плюсом всегда можно подключить TPU (ускорители с тензорными процессорами). Если еще говорить о скорости, то TensorFlow позволяет использовать стратегию распределённого обучения. 

Фреймворк предоставляет несколько решений для развертывания моделей, включая TensorFlow Serving для облака, TensorFlow Lite для мобильных устройств и IoT, а также TensorFlow.js для работы в браузере.

Эта статья — небольшой гайд по основным возможностям Tensor Flow с примерами и краткими инструкциями. 

В основе TensorFlow лежат ключевые концепции, которые делают его универсальным и гибким инструментом для машинного обучения и глубокого обучения: вычислительные графы, сессии и операции. 

На уровне низкоуровневого API TensorFlow работает с вычислительным графом — направленным ациклическим графом (DAG), представляющим потоки данных и управления.

В TensorFlow 2.x добавлен режим Eager Execution, который позволяет работать с графами динамически, делая разработку моделей интуитивнее, а код — более читаемым. Эти изменения, наряду с интеграцией API Keras, упростили использование TensorFlow, сократив количество абстракций, необходимых для создания моделей.

Архитектура TensorFlow: устройство и базовые концепты

26bb445893bfd793557ecee686c41944.png

Вычислительный граф TensorFlow представляет собой структуру, в которой узлы — это операции (определённые функции или вычисления), а рёбра — данные (тензоры), передаваемые между узлами. 

Такой подход позволяет TensorFlow разбивать задачи на подзадачи и выполнять их параллельно на разных устройствах, что существенно увеличивает скорость и производительность, особенно при работе с GPU и TPU. 

Граф направленный и ациклический, что означает отсутствие циклов, а данные перемещаются в одном направлении — от входов к выходам. Основные элементы вычислительного графа:

Операции (Operations): базовые блоки, такие как матричные умножения или свёртки.

Тензоры (Tensors): многомерные массивы данных, представляющие входные и выходные значения для операций.

Переменные (Variables): тензоры, чьи значения могут изменяться в процессе обучения (например, веса нейронной сети).

Dataflow (поток данных) управляет передачей значений между узлами графа. 

Например, значения передаются от одного слоя нейронной сети к следующему в виде тензоров. Control flow (поток управления) включает конструкции, такие как условные операторы и циклы, обеспечивая гибкость и адаптивность графа, что позволяет строить более сложные структуры, такие как рекуррентные нейронные сети. 

Раньше работа с вычислительными графами в TensorFlow требовала запуска сессий для выполнения операций. Однако в TensorFlow 2.x эту необходимость устранили, что позволило сосредоточиться на логике модели и упростило взаимодействие с данными.

TensorFlow 2.x и Eager Execution

С введением TensorFlow 2.x фреймворк поддерживает режим Eager Execution по умолчанию, что позволяет исполнять операции сразу, а не откладывать их до построения всего графа. 

Это значит, что код становится проще для чтения и отладки. Eager Execution делает TensorFlow более похожим на стандартный Python, так как все операции выполняются в режиме реального времени, что упрощает написание и тестирование кода.

Приведем пример, где создадим и выполним граф с использованием как Eager Execution, так и классов переменных и операций для выполнения основных вычислений:

import tensorflow as tf

# Включение режима Eager Execution (в TensorFlow 2 он включен по умолчанию)
print («Eager execution:», tf.executing_eagerly ())

# Создадим простые тензоры и выполним базовую операцию
a = tf.constant (3.0)
b = tf.constant (4.0)
c = tf.add (a, b)  # Складываем два тензора

print (f«Результат сложения: {c.numpy ()}»)  # Выводим результат операции

# Создание переменной и выполнение нескольких операций
x = tf.Variable (5.0)
with tf.GradientTape () as tape:   # Отслеживаем градиенты
    y = x * x + b  # Операция, которая выполняется немедленно благодаря Eager Execution

dy_dx = tape.gradient (y, x)  # Рассчёт градиента функции y по x
print (f«Градиент функции y по x: {dy_dx.numpy ()}»)

# Пример создания пользовательской функции
def my_model (x):
    return 2 * x ** 2 + 3 * x + 1

# Вычисляем градиенты для пользовательской функции
with tf.GradientTape () as tape:
    tape.watch (x)
    y = my_model (x)
grad = tape.gradient (y, x)
print (f«Градиент пользовательской функции по x: {grad.numpy ()}»)

При Eager Execution тензоры a и b объединяются в сумму, которая вычисляется немедленно. Это упрощает процесс отладки и позволяет увидеть результаты на каждом этапе.

Использование GradientTape: контекстный менеджер GradientTape помогает автоматически отслеживать операции с тензором x, что полезно для вычисления градиентов. 

В конце приведён пример определения функции my_model и использования GradientTape для нахождения производной по x.

Переход к API Keras

С переходом на TensorFlow 2.x для создания моделей нейронных сетей разработчики получили возможность использовать стандартный API Keras, который интегрирован в TensorFlow. 

Этот API позволяет упростить определение слоев, функций активации и компиляцию моделей, избегая низкоуровневого кода. Вот пример использования Keras для создания последовательной модели:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# Создаем простую модель с Keras API
model = Sequential ([
    Dense (32, activation='relu', input_shape=(10,)),   # Первый слой с 32 нейронами и активацией ReLU
    Dense (1)  # Выходной слой
])

# Компилируем модель
model.compile (optimizer='adam', loss='mean_squared_error')

# Входные данные и их предсказание
import numpy as np
data = np.random.rand (10).reshape (1, -1)  # Пример входного вектора размером (1, 10)
prediction = model (data)  # Eager Execution позволяет немедленно получить предсказание
print (f«Предсказание модели: {prediction.numpy ()}»)

TensorFlow использует тензоры в качестве основной структуры данных. Эти многомерные массивы представляют собой обобщение скалярных значений, векторов и матриц. Понимание типов данных и форматов тензоров — это просто база. 

Типы данных и форматы тензоров в TensorFlow

1f0c2ce2c5e98a341f3f3022c2e0eff1.png

TensorFlow поддерживает несколько типов данных для тензоров, что позволяет пользователям выбирать наиболее подходящие для своих задач. Наиболее распространённые типы данных включают:

  • float32: широко используется для хранения значений с плавающей запятой. Этот тип обеспечивает хороший баланс между точностью и объемом памяти.

  • float64: используется для более точных вычислений, хотя требует больше памяти.

  • int32 и int64: целочисленные типы, подходящие для работы с индексами и счётчиками.

  • bool: логический тип, используемый для работы с булевыми значениями.

Тензоры могут быть одномерными (векторы), двумерными (матрицы) или многомерными, в зависимости от количества измерений, которые они содержат. Например, цветное изображение может быть представлено тензором размерности 3 (ширина, высота, цветовые каналы).

Определение и создание тензоров

Создание тензоров в TensorFlow осуществляется с помощью нескольких удобных функций, таких как tf.constant (), tf.zeros (), tf.ones (), tf.random.uniform () и tf.random.normal (). Приведём примеры:

import tensorflow as tf

# Создание тензоров
scalar = tf.constant (3.14)  # Скалярный тензор
vector = tf.constant ([1, 2, 3])  # Вектор
matrix = tf.constant ([[1, 2, 3], [4, 5, 6]])  # Матрица
tensor_3d = tf.random.uniform (shape=(2, 3, 4), minval=0, maxval=1)  # 3D тензор

print («Скаляр:», scalar.numpy ())
print («Вектор:», vector.numpy ())
print («Матрица:\n», matrix.numpy ())
print (»3D тензор:\n», tensor_3d.numpy ())

Трансформация тензоров

TensorFlow предоставляет множество операций для трансформации тензоров, включая изменение формы, объединение и разделение тензоров. 

Рассмотрим несколько операций:

# Изменение формы тензора
reshaped_tensor = tf.reshape (tensor_3d, (6, 4))  # Изменяем размерность
print («Изменённый тензор:\n», reshaped_tensor.numpy ())

# Объединение тензоров
tensor_a = tf.constant ([[1, 2], [3, 4]])
tensor_b = tf.constant ([[5, 6]])
concatenated_tensor = tf.concat ([tensor_a, tensor_b], axis=0)  # Объединение по первому измерению
print («Объединённый тензор:\n», concatenated_tensor.numpy ())

# Разделение тензора
splits = tf.split (concatenated_tensor, num_or_size_splits=2)  # Разделяем на 2 части
print («Разделённые тензоры:\n», [s.numpy () for s in splits])

Основные операции над тензорами

TensorFlow предоставляет множество операций для работы с тензорами, включая арифметические операции, свёртки, операции активации и многое другое. Например:

# Арифметические операции
a = tf.constant ([1, 2, 3])
b = tf.constant ([4, 5, 6])

addition = tf.add (a, b)  # Сложение
multiplication = tf.multiply (a, b)  # Умножение
print («Сумма:», addition.numpy ())
print («Произведение:», multiplication.numpy ())

# Операции активации
x = tf.constant ([-1.0, 0.0, 1.0])
relu = tf.nn.relu (x)  # Функция активации ReLU
softmax = tf.nn.softmax (x)  # Функция активации softmax
print («ReLU:», relu.numpy ())
print («Softmax:», softmax.numpy ())

Управление вычислениями с использованием tf.GradientTape ()

tf.GradientTape () позволяет пользователям отслеживать операции над тензорами для вычисления градиентов. Это очень полезно для оптимизации, особенно в процессе обучения моделей. Вот пример:

# Пример использования tf.GradientTape для отслеживания градиентов
# Определяем простую функцию y = x^2
def simple_function (x):
    return x ** 2

# Создаем переменную
x = tf.Variable (3.0)

# Используем GradientTape для отслеживания градиентов
with tf.GradientTape () as tape:
    y = simple_function (x)  # Вычисляем y

# Вычисляем градиент функции y по x
dy_dx = tape.gradient (y, x)
print (f«Значение функции: {y.numpy ()}, Градиент: {dy_dx.numpy ()}»)

# Теперь изменим значение x и повторим
x.assign (5.0)
with tf.GradientTape () as tape:
    y = simple_function (x)

dy_dx_new = tape.gradient (y, x)
print (f«Значение функции: {y.numpy ()}, Новый градиент: {dy_dx_new.numpy ()}»)

Оптимизация и обучение моделей

TensorFlow предлагает богатый набор встроенных оптимизаторов, которые управляют процессом настройки весов модели с целью минимизации функции потерь. Короче говоря, сейчас мы говорим про обучение моделей. 

Правильный выбор оптимизатора и функции потерь — основа успешного обучения моделей, и TensorFlow поддерживает такие популярные оптимизаторы, как стохастический градиентный спуск (SGD), Adam и RMSprop. 

Каждый из них имеет свои преимущества для различных типов данных и задач. Например, стохастический градиентный спуск, являясь базовым методом, обновляет параметры, перемещаясь по направлению градиента функции потерь. 

Несмотря на свою простоту, SGD может замедлять процесс обучения при резких изменениях градиента и трудностях с локальными минимумами.

Пример использования стохастического градиентного спуска с небольшим шагом обучения:

import tensorflow as tf

# Создание простой линейной модели
model = tf.keras.models.Sequential ([
    tf.keras.layers.Dense (1, input_shape=(1,))
])

# Использование оптимизатора SGD
optimizer = tf.keras.optimizers.SGD (learning_rate=0.01)

# Компиляция модели с функцией потерь и метрикой
model.compile (optimizer=optimizer, loss='mean_squared_error', metrics=['mae'])

Adam (адаптивный момент градиента) устраняет многие проблемы SGD, регулируя скорость обучения для каждого параметра. Он использует экспоненциально взвешенные средние значения первого и второго моментов градиента, что стабилизирует процесс оптимизации. Adam подходит для более сложных задач, поскольку его адаптивный шаг обучения ускоряет процесс сходимости. Пример настройки Adam выглядит следующим образом:

# Заменяем оптимизатор на Adam
optimizer = tf.keras.optimizers.Adam (learning_rate=0.001)

model.compile (optimizer=optimizer, loss='mean_squared_error', metrics=['mae'])

RMSprop, в отличие от Adam, более эффективен при нестабильных градиентах. Он корректирует скорость обучения путем добавления коэффициента сглаживания, что помогает при обработке данных с сильной разреженностью или с резко изменяющимися значениями. Такой подход делает RMSprop полезным для задач, где градиенты могут быстро изменяться или быть разреженными:

# Заменяем оптимизатор на RMSprop
optimizer = tf.keras.optimizers.RMSprop (learning_rate=0.001)

model.compile (optimizer=optimizer, loss='mean_squared_error', metrics=['mae'])

Настройка функций потерь и метрик позволяет отслеживать качество обучения и направлять оптимизатор в сторону минимизации потерь. 

Для задач регрессии популярна функция `mean_squared_error`, которая измеряет среднюю квадратную ошибку предсказаний. Для классификационных задач, например, в задачах бинарной классификации, часто выбирают функцию `binary_crossentropy`. Она измеряет различия между истинными и предсказанными вероятностями:

# Использование функции потерь binary_crossentropy для бинарной классификации
model.compile (optimizer=optimizer, loss='binary_crossentropy', metrics=['accuracy'])

Для кастомных задач часто требуются пользовательские функции потерь и оптимизаторы. TensorFlow позволяет определять собственные функции потерь. Например, можно создать функцию абсолютной ошибки для отслеживания более значительных отклонений между предсказанными и истинными значениями, избегая сглаживания больших ошибок, как это делает `mean_squared_error`:

# Определение пользовательской функции потерь
def custom_loss (y_true, y_pred):
    return tf.reduce_mean (tf.abs (y_true — y_pred))

# Компиляция модели с пользовательской функцией потерь
model.compile (optimizer=optimizer, loss=custom_loss, metrics=['mae'])

Также возможна реализация пользовательских оптимизаторов, наследующих базовый класс `tf.keras.optimizers.Optimizer`. Пользовательский оптимизатор можно адаптировать для специфических задач, например, с собственным подходом к обновлению весов или специфической обработкой градиентов. 

Подобные решения повышают гибкость и дают возможность создавать уникальные методы обучения, соответствующие особенностям задачи. В примере ниже представлен простой оптимизатор с использованием специального коэффициента ускорения:

# Создание пользовательского оптимизатора
class CustomOptimizer (tf.keras.optimizers.Optimizer):
    def __init__(self, learning_rate=0.01, name=«CustomOptimizer», **kwargs):
        super ().__init__(name, **kwargs)
        self.learning_rate = learning_rate

    def _resource_apply_dense (self, grad, var, apply_state=None):
        var.assign_sub (self.learning_rate * grad)

# Использование пользовательского оптимизатора
optimizer = CustomOptimizer (learning_rate=0.01)
model.compile (optimizer=optimizer, loss='mean_squared_error', metrics=['mae'])

Кастомизация функций потерь и оптимизаторов в TensorFlow позволяет тонко настраивать процесс обучения под конкретные условия задачи и тип данных. В этом большая часть фреймворка. 

Модельные API TensorFlow: Keras и Subclassing API

TensorFlow предлагает два основных подхода для создания моделей через высокоуровневое API Keras: это Sequential API и функциональное API. Эти подходы ориентированы на простую и быструю разработку моделей, что позволяет гибко настраивать архитектуру нейронных сетей и сокращать время на создание прототипов. 

Sequential API идеально подходит для задач, где модель представляет собой простой стек слоев, подключенных последовательно, тогда как функциональное API позволяет строить модели с более сложными связями, например, многовходные и многовыходные архитектуры, где каждый слой может получать входные данные от нескольких предыдущих слоев или передавать результаты сразу в несколько последующих слоев.

Sequential API интуитивно прост и используется для последовательных моделей. Каждый слой добавляется друг за другом, и архитектура строится на основе линейного потока данных. Пример нейронной сети с двумя полносвязанными слоями можно создать так:

import tensorflow as tf

# Определение модели с использованием Sequential API
model = tf.keras.Sequential ([
    tf.keras.layers.Dense (64, activation='relu', input_shape=(32,)),   # первый слой с 64 нейронами
    tf.keras.layers.Dense (10, activation='softmax')                   # выходной слой с 10 нейронами для классификации
])

# Компиляция модели
model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

Функциональное API предоставляет больше гибкости, так как позволяет подключать слои нелинейным образом. Это полезно для сложных архитектур, таких как модели с параллельными ветвями. 

Оперирует понятием «графа», где каждый слой может быть представлен как узел, и поэтому может быть подключен к нескольким другим слоям или принимать на вход несколько источников данных. Рассмотрим пример создания модели с параллельными слоями:

# Входные данные с размерностью 32
inputs = tf.keras.Input (shape=(32,))

# Первый параллельный слой
x1 = tf.keras.layers.Dense (64, activation='relu')(inputs)
x1 = tf.keras.layers.Dense (32, activation='relu')(x1)

# Второй параллельный слой
x2 = tf.keras.layers.Dense (64, activation='relu')(inputs)
x2 = tf.keras.layers.Dense (32, activation='relu')(x2)

# Объединяем параллельные ветви
x = tf.keras.layers.Concatenate ()([x1, x2])

# Выходной слой
outputs = tf.keras.layers.Dense (10, activation='softmax')(x)

# Создание модели с параллельной архитектурой
model = tf.keras.Model (inputs=inputs, outputs=outputs)

# Компиляция модели
model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

Sequential и функциональное API идеально подходят для большинства случаев, но когда необходимо создать модель с кастомной логикой, специфическим поведением, или реализовать нетривиальные алгоритмы, становится полезным Subclassing API. 

Этот подход требует создания класса, наследующего `tf.keras.Model`, что позволяет переопределять методы `call` и гибко управлять тем, как данные проходят через слои. 

Это необходимо для сложных сценариев, таких как рекуррентные слои с состоянием, при настройке собственной логики на каждом этапе или при интеграции нескольких моделей.

Пример реализации модели с Subclassing API показан ниже. Здесь реализуется кастомная логика обработки данных, позволяющая менять поведение модели при каждом вызове:

# Определение кастомной модели с Subclassing API
class CustomModel (tf.keras.Model):
    def __init__(self):
        super (CustomModel, self).__init__()
        self.dense1 = tf.keras.layers.Dense (64, activation='relu')
        self.dense2 = tf.keras.layers.Dense (32, activation='relu')
        self.out = tf.keras.layers.Dense (10, activation='softmax')

    def call (self, inputs, training=False):
        # Кастомная логика: например, условное использование слоев
        x = self.dense1(inputs)
        if training:
            x = tf.nn.dropout (x, rate=0.5)  # добавляем dropout только при обучении
        x = self.dense2(x)
        return self.out (x)

# Создание экземпляра кастомной модели
model = CustomModel ()

# Компиляция модели
model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

Этот подход дает полную свободу в настройке обучения, управления процессом прохода данных и использования сложной логики для обработки входов и состояний. 

Например, вы можете легко реализовать условное включение слоев, разные пути вычислений в зависимости от параметров, переключение поведения между режимами обучения и предсказания и более гибко обрабатывать динамическую размерность данных.

Обучение и распределённое вычисление: стратегии и параллелизация

При распределённом обучении ключевой задачей является организация вычислений и данных таким образом, чтобы параллельное исполнение задач шло с минимальными накладными расходами, сохраняя эффективность вычислений. 

Основные стратегии TensorFlow включают MirroredStrategy, MultiWorkerMirroredStrategy и TPUStrategy, каждая из которых подходит для различных типов вычислительных сред и вариантов распределения нагрузки.

MirroredStrategy используется для локального распределения вычислений, то есть параллельного выполнения на нескольких GPU в одной машине. 

Она дублирует (mirrors) модель на каждый доступный GPU и распределяет мини-пакеты данных между этими устройствами, что позволяет сократить время обучения за счёт использования всех доступных вычислительных ресурсов. Настроить MirroredStrategy достаточно просто. Достаточно указать её как стратегию и обернуть определение модели и процесс обучения:

import tensorflow as tf

# Определяем стратегию для распределения обучения между несколькими GPU
strategy = tf.distribute.MirroredStrategy ()

# Определяем модель и компиляцию в рамках стратегии
with strategy.scope ():
    model = tf.keras.Sequential ([
        tf.keras.layers.Dense (64, activation='relu', input_shape=(32,)),
        tf.keras.layers.Dense (10, activation='softmax')
    ])
    model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# Обучение модели с распределением на несколько GPU
model.fit (train_dataset, epochs=5)

Здесь стратегия MirroredStrategy автоматически создаёт копии модели на каждом GPU и синхронизирует градиенты после каждого шага обучения. 

Параллелизация происходит по принципу data parallelism: данные распределяются между устройствами, и каждый GPU обрабатывает часть пакета данных. При этом потери и градиенты синхронизируются и агрегируются после каждой итерации.

MultiWorkerMirroredStrategy позволяет распределить обучение на несколько машин, где каждая машина может иметь один или несколько GPU. 

Эта стратегия особенно полезна в случае кластеров, так как она организует синхронное распределение данных и вычислений между рабочими узлами (workers). Чтобы использовать MultiWorkerMirroredStrategy, необходимо настроить кластер и определить переменные окружения, которые указывают TensorFlow на конфигурацию узлов, участвующих в процессе:

# Определяем стратегию MultiWorkerMirroredStrategy для распределенного обучения
strategy = tf.distribute.MultiWorkerMirroredStrategy ()

with strategy.scope ():
    model = tf.keras.Sequential ([
        tf.keras.layers.Dense (64, activation='relu', input_shape=(32,)),
        tf.keras.layers.Dense (10, activation='softmax')
    ])
    model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model.fit (train_dataset, epochs=5)

MultiWorkerMirroredStrategy автоматически обеспечивает синхронизацию параметров модели между узлами, что позволяет добиться сходимости модели. 

Однако нужно учитывать, что такая стратегия накладывает определённые ограничения, например, на пропускную способность сети, которая может стать узким местом, если количество узлов слишком велико. 

Синхронные стратегии, такие как MultiWorkerMirroredStrategy, требуют точного согласования работы между узлами, что при ошибках конфигурации может приводить к потере производительности или зависаниям.

Для высокопроизводительных кластеров, оснащённых тензорными процессорами (TPU), TensorFlow предлагает TPUStrategy. 

Эта стратегия позволяет масштабировать обучение с использованием тензорных процессоров, которые оптимизированы для выполнения операций, характерных для нейронных сетей. 

TPU кластеры предоставляют уникальные возможности для скоростной обработки данных и подходят для задач глубокого обучения, требующих больших вычислительных ресурсов. Настроить TPUStrategy можно следующим образом:

# Подключаем TPU и определяем стратегию
resolver = tf.distribute.cluster_resolver.TPUClusterResolver (tpu='')
tf.config.experimental_connect_to_cluster (resolver)
tf.tpu.experimental.initialize_tpu_system (resolver)

strategy = tf.distribute.TPUStrategy (resolver)

with strategy.scope ():
    model = tf.keras.Sequential ([
        tf.keras.layers.Dense (64, activation='relu', input_shape=(32,)),
        tf.keras.layers.Dense (10, activation='softmax')
    ])
    model.compile (optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model.fit (train_dataset, epochs=5)

TPUStrategy выполняет аналогичное распределение данных по TPU-ядрам, где каждая мини-партия обрабатывается параллельно на доступных ядрах TPU. Однако в отличие от GPU и CPU, TPU требуют более тщательной настройки данных и параметров. Также TPU могут иметь ограничения в поддержке некоторых специфических функций TensorFlow, что важно учитывать при адаптации моделей.

Работа с данными и их подготовка: Dataset API и трансформации данных

В TensorFlow API для работы с данными tf.data позволяет эффективно обрабатывать и подготавливать данные для обучения моделей. 

С помощью Dataset API можно создавать конвейеры обработки данных, которые не только загружают и обрабатывают данные, но и оптимизируют их под конкретные задачи. 

В TensorFlow доступно несколько ключевых классов и функций для работы с данными: Dataset для создания потоков данных, Iterator для итерации по этим данным, а также трансформации, такие как batch, shuffle, map и другие, для манипуляций над данными.

Создание и использование датасетов начинается с объекта tf.data.Dataset, который принимает данные в различных форматах, включая массивы, списки, тензоры, файлы и другие источники. Например, для загрузки данных из массива можно использовать from_tensor_slices, чтобы создать объект Dataset, который разбивает массив на отдельные элементы. 

Важно отметить, что Dataset API поддерживает ленивые вычисления: операции над данными выполняются только при вызове их, что позволяет экономить память и улучшает производительность при работе с большими объёмами данных.

import tensorflow as tf

# Пример массива данных
data = tf.range (10)

# Создаем датасет из массива
dataset = tf.data.Dataset.from_tensor_slices (data)

# Просмотр содержимого
for element in dataset:
    print (element.numpy ())

Когда данные загружены в виде датасета, можно использовать несколько стандартных методов трансформации для их подготовки к обучению. 

Ключевые методы включают batch, который группирует элементы по указанному размеру, и shuffle, который перемешивает данные для случайного порядка, что помогает избежать переобучения. 

Метод batch особенно важен, поскольку он задаёт размер мини-пакетов, используемых для оптимизации и обновления весов модели на каждом шаге обучения. Пример использования:

# Перемешиваем данные и группируем в батчи по 3 элемента
dataset = dataset.shuffle (buffer_size=10).batch (3)

for batch in dataset:
    print (batch.numpy ())

В этом примере shuffle принимает параметр buffer_size, который определяет количество элементов, удерживаемых в буфере для случайного выбора, что позволяет достичь достаточного уровня перемешивания. 

Использование buffer_size, равного размеру датасета, обеспечивает максимально случайный порядок, однако это может потребовать больше памяти, поэтому размер буфера стоит выбирать с учетом возможностей системы.

С помощью метода map можно применять преобразования к каждому элементу датасета, что полезно для выполнения операций, таких как нормализация, масштабирование, кодирование меток и другие виды предобработки данных. Допустим, нужно удвоить каждый элемент в датасете:

# Применяем преобразование к каждому элементу датасета
dataset = dataset.map (lambda x: x * 2)

for batch in dataset:
    print (batch.numpy ())

При работе с большими и сложными наборами данных, такими как изображения или текстовые данные, tf.data API предоставляет дополнительные возможности для оптимизации конвейера данных. Например, prefetch позволяет загружать следующий батч данных, пока текущий батч обрабатывается на GPU, что сокращает время простоя между шагами обучения. Это делается с помощью метода prefetch, в который можно передать параметр tf.data.AUTOTUNE для автоматической настройки количества предзагружаемых элементов, что оптимизирует работу с учётом доступных ресурсов.

# Добавляем предзагрузку данных
dataset = dataset.prefetch (buffer_size=tf.data.AUTOTUNE)

Для более сложных сценариев подготовки данных можно использовать tf.data.experimental, который включает дополнительные функции и расширения для работы с данными. 

Например, если нужно выполнить агрессивную оптимизацию или подстроить конвейер данных под более сложные требования, такие как смешивание данных или фильтрация, tf.data.experimental предоставляет специальные утилиты для этих задач. Например, для фильтрации элементов в датасете:

# Фильтрация элементов по условию
dataset = dataset.filter (lambda x: x % 2 == 0)

for element in dataset:
    print (element.numpy ())

Таким образом, Dataset API в TensorFlow предоставляет гибкость и контроль над конвейером данных, позволяя настроить его под нужды конкретной модели и инфраструктуры. Сочетание таких операций, как batch, shuffle, map и prefetch, в связке с продвинутыми методами оптимизации из tf.data.experimental, позволяет создать высокоэффективный и параллельно исполняемый конвейер данных для любого сценария, включая обучение на больших наборах данных и реальное время.

Сохранение и развертывание моделей

c48a5894c1e174ef7398fee556628959.png

TensorFlow предоставляет несколько способов сохранения моделей и контроля версий, начиная с SavedModel и HDF5-формата и заканчивая оптимизацией для продакшена с помощью TensorFlow Lite и TensorFlow Serving. SavedModel — универсальный формат, поддерживающий хранение архитектуры, весов, метаданных и графа вычислений, который широко используется для экспорта моделей и их дальнейшего разворачивания. 

Сохранение в формате HDF5 также является опцией для некоторых моделей, особенно при разработке с использованием Keras. В первую очередь стоит рассмотреть, как сохранить модель для последующего развертывания.

Чтобы сохранить модель, созданную на основе Keras, можно воспользоваться методом model.save. Например, при сохранении модели в формате SavedModel, TensorFlow сохраняет её структуру, веса и оптимизатор, что позволяет использовать модель для различных платформ и сценариев развертывания. Код для этого выглядит так:

import tensorflow as tf

# Создаем простую модель для примера
model = tf.keras.models.Sequential ([
    tf.keras.layers.Dense (128, activation='relu'),
    tf.keras.layers.Dense (10)
])

# Сохраняем модель в формате SavedModel
model.save («path_to_saved_model»)

TensorFlow автоматически создаёт директорию с метаданными, которые содержат структуру модели, веса и служебные данные, что позволяет легко загружать её для inference или дообучения. Также поддерживается HDF5-формат, который можно выбрать, указав параметр save_format=«h5». HDF5 формат удобен при переносе на другие системы и интеграции с библиотеками, которые могут не поддерживать SavedModel:

# Сохраняем модель в формате HDF5
model.save («model.h5», save_format=«h5»)

После сохранения модели следующим этапом является её оптимизация для продакшена. TensorFlow Lite позволяет сжать и ускорить модель для мобильных и встраиваемых устройств, таких как смартфоны или IoT устройства. Оптимизация с помощью TensorFlow Lite включает этапы квантования, которые уменьшают размер и ускоряют вычисления модели. Преобразование модели в TensorFlow Lite формат происходит с помощью tf.lite.TFLiteConverter, который создаёт сжатую версию модели, удобную для развертывания на устройствах с ограниченными ресурсами.

# Конвертация модели в TensorFlow Lite
converter = tf.lite.TFLiteConverter.from_saved_model («path_to_saved_model»)
tflite_model = converter.convert ()

# Сохраняем TensorFlow Lite модель
with open («model.tflite», «wb») as f:
    f.write (tflite_model)

Для сервисов, которые требуют масштабируемого развертывания, TensorFlow Serving предоставляет готовый сервер для модели, поддерживающий высокопроизводительный inference на CPU и GPU. TensorFlow Serving — это решение для развёртывания модели в веб-сервисе, который обрабатывает запросы с предсказаниями в реальном времени. 

TensorFlow Serving поддерживает горячую замену модели без перезапуска сервиса и версионирование, что позволяет управлять несколькими версиями модели параллельно. 

Развертывание модели через TensorFlow Serving обычно требует Docker-контейнера или отдельного сервера, и можно воспользоваться REST или gRPC API для выполнения предсказаний.

Для развертывания на облачных платформах, таких как Google Cloud AI Platform или Amazon SageMaker, SavedModel-формат также является оптимальным, поскольку поддерживается для серверного инференса и позволяет быстро разворачивать масштабируемые ML-приложения. 

Например, на Google Cloud, загрузка модели в SavedModel формате позволяет использовать платформенные инструменты для автошкалирования, автоматического управления версиями и мониторинга.

Оптимизация также может включать квантование и прайнинг (удаление нерелевантных частей модели) для работы на мобильных устройствах и IoT, что выполняется через TensorFlow Model Optimization Toolkit. 

Квантование может сократить размер модели в 4 раза и ускорить производительность, что существенно важно для приложений с ограниченной вычислительной мощностью.

© Habrahabr.ru