Аналоговые микропроцессоры с искусственным интеллектом. Насколько это реально?

zh0kh2-rrcpfb_lrug9wpaxi8tk.png


Первые компьютеры были аналоговыми и представляли собой массивные мейнфреймы, заполненные электронными лампами. Они были очень громоздкие, сложные в программировании, дорогие в обслуживании и ограниченные в точности. Позже интегральные микросхемы сделали вычисления более дешёвыми и надёжными. С 1970-х годов XX века аналоговая технология начала постепенно отмирать, поскольку точность аналоговой электроники всегда ограничивалась её компонентами. Независимо от того, в оборудовании использовались ли зубчатые колеса, вакуумные трубки или химическая плёнка: точность была ограничена производственными допусками и ухудшалась со временем.

Сегодня миром правят цифровые устройства. ПК, ноутбуки, смартфоны, электромобили, камеры наблюдения, устройства для умного дома и другая цифровая электроника формирует будущее. Никто не ожидает, что дисковые телефоны или арифмометры приползут из небытия. Дискеты, VHS-кассеты, электронно-лучевые трубки — покоятся с миром. Точно так же не используют старые аналоговые компьютеры в центрах обработки данных.

Но аналоговая технология может вернуться. Возвращение аналоговых компьютеров в гораздо более продвинутых формах, чем их исторические предки, радикально и навсегда может изменить мир вычислений. У компаний Кремниевой долины есть секретные проекты по созданию аналоговых чипов для ИИ. Компания Mythic разработала «первый аналоговый матричный процессор с искусственным интеллектом».

Мур и Нейман


Две основные проблемы тормозят темпы развития цифрового оборудования: конец закона Мура и архитектура фон Неймана. В течение 60 лет люди пользовались постоянно растущим мощным аппаратным обеспечением, как и предсказывал Гордон Мур в 1965 году, но по мере того, как человечество приближается к минимальному теоретическому размеру транзисторов, его хорошо продуманный закон, подходит к концу. Другой хорошо известной проблемой является необходимость в архитектуре фон Неймана перемещать данные из памяти в процессор и обратно для выполнения вычислений. Этот подход всё чаще заменяется вычислениями в памяти (compute-in-memory, CIM) или вычислениями рядом с памятью, которые значительно снижают пропускную способность и задержку памяти при одновременном повышении производительности.

Современные цифровые системы искусственного интеллекта используют тип памяти, называемая статической оперативной памятью или SRAM, которая требует постоянного электропитания для хранения данных. Её схема должна оставаться включённой, даже когда она не выполняет задачу. Инженеры много сделали для повышения эффективности SRAM, но этому есть предел.

Типичные архитектуры фон Неймана и ИИ плохо сочетаются, поскольку большие объёмы данных, перемещаемых в память и из неё, наряду с высокими тактовыми частотами, не способствуют маломощной и высокопроизводительной обработке ИИ. Это представляет серьёзную проблему для аппаратного обеспечения ИИ.

___hohs9tx-sab8ghxmkj5yezr0.png


Перемещение данных из памяти в процессор может потреблять в 200 раз больше энергии, чем само вычисление.
ALU — арифметико-логическое устройство. PE — processing element. RF — reg file.

Компания Mythic утверждает, что создала уникальное решение, меняющее парадигму, которое обещает преодолеть ограничения цифровых технологий, обеспечивая при этом улучшенные характеристики по сравнению с лучшими в своем классе цифровыми решениями: аналоговый вычислительный движок (Analog Computing Engine, ACE). Исторически аналоговые компьютеры были заменены цифровыми из-за меньшей стоимости и размера последних, а также их универсальности. Однако в нынешнем ландшафте ИИ преобладают глубинные нейронные сети (DNN), которые не требуют предельной точности и, что более важно, большая часть вычислительного объёма приходится на одну операцию: умножение матриц. Прекрасная возможность для аналоговых вычислений.

Мифический чип


mzenxmmdbqr5pb56zta4jhkklu0.png


Аналоговый чип Mythic потребляет меньше энергии за счёт хранения нейронных синапсов не в SRAM, а во флэш-памяти, которая не потребляет энергию для сохранения своего состояния. Флэш-память встроена в процессорный чип, конфигурацию, которую Mythic называет «compute-in-memory». Вместо того, чтобы потреблять много энергии, перемещая миллионы байтов туда и обратно между памятью и процессором (как это делает цифровой компьютер), некоторая часть вычислений выполняются локально. Традиционно вычисление необработанных векторных матриц выполняется в аналоговой области чипа. Всё остальное обрабатывается в цифровой области.

uxwgbnklofy1bi12vacmkwz5umg.png


Разница между стандартной архитектурой и CIM

ei9gtcyw8afumvdvauyubnnp6sy.png


Что вызывает беспокойство, так это то, что Mythic снова вводит проблемы с точностью аналогового сигнала. Флэш-память не хранит данные в виде последовательности 1 и 0, как логические микросхемы старой школы. Флэш хранит промежуточные значения напряжения (а их целых 256!), чтобы имитировать различные состояния нейронов в мозгу, и встаёт вопрос, не будут ли эти значения дрейфовать со временем. Mythic, кажется заинтересована в аналоговых вычислениях постольку, поскольку конкретные аналоговые процессы могут снизить требования к энергии и памяти для ИИ, а не выполнять фундаментальные битовые вычисления.

Со своим первым коммерческим чипом, M1076, Mythic удвоила возможности использования компьютерного зрения, создав систему, которая может помочь обнаруживать небольшие объекты на дальних расстояниях менее чем за 33 миллисекунды. Возможно, именно эти возможности привлекли на сегодняшний день крупнейшего клиента Mythic, Lockheed Martin, чье корпоративное подразделение, Lockheed Martin Ventures, стало крупным инвестором стартапа.

Аналоговый матричный процессор M1076 (Mythic AMP™) выпускается в нескольких форм-факторах: автономный процессор; сверхкомпактный модуль PCIe M.2; и модуль PCIe до 16 AMP. M1076 AMP может поддерживать до 25 TOPS вычислений при мощности 3 Вт, потребляя до 10 раз меньше энергии, чем типичное решение SoC или GPU. В конфигурации с 16 чипами плата M1076 AMP PCIe обеспечивает до 400 TOPS вычислений при потреблении всего 75 Вт. M1076 AMP был оптимизирован для масштабирования от периферийных конечных точек до серверных приложений, охватывая несколько рынков, включая умные города, промышленные приложения, корпоративные приложения и потребительские устройства.

M1076 AMP подходит для рабочих нагрузок видеоаналитики, включая обнаружение объектов, классификацию и оценку глубины для промышленного машинного зрения, автономных дронов, камер наблюдения и сетевых видеорегистраторов (NVR). M1076 AMP также может поддерживать передовые приложения AR/VR с оценкой позы человеческого тела с малой задержкой, что будет способствовать будущим интеллектуальным устройствам для фитнеса, игр и совместной робототехники.

Чип использует Mythic AMP, представляющую собой архитектуру потока данных, состоящую из массива из 112 «плиток» (tiles). Каждая плитка содержит аналоговый вычислительный механизм, цифровой векторный механизм SIMD, 32-разрядный нанопроцессор RISC-V, маршрутизатор NoC и локальную SRAM. Внешняя DRAM не требуется.

nyzdeg0n5dhwrbmbukxrucwh11g.png


Плиточная архитектура Mythic

Кроме того, Mythic использует преимущества CIM и архитектуры потоков данных. Разработчики довели CIM до предела, выполняя вычисления непосредственно в ячейках флэш-памяти. Их аналоговые матричные процессоры принимают входные данные как напряжение, синаптические веса сохраняются как сопротивление, а выходной сигнал представляет собой результирующий ток. Кроме того, конструкция потока данных обеспечивает параллельную работу этих процессов, что позволяет выполнять чрезвычайно быстрые и эффективные вычисления при сохранении высокой производительности. Умное сочетание аналоговых вычислений, CIM и архитектуры потоков данных определяет Mythic ACE, основную отличительную технологию компании.

Чипы AMP можно масштабировать, обеспечивая поддержку больших или нескольких моделей. Однокристальный процессор M1076 AMP (76 элементов AMP), может работать со многими периферийными приложениями и может масштабироваться до 4 AMP или даже 16 AMP на одной экспресс-карте PCI, что достаточно для высокой производительности на уровне периферийного сервера. Есть способы сделать довольно много производных от этого продукта, либо добавляя чипы в восходящем порядке, либо уменьшая количество плиток, чтобы достичь меньших ценовых категорий и размеров.

Аппаратное обеспечение дополняется программным стеком, который обеспечивает плавный переход от графа (ONNX и PyTorch) к готовому AMP пакету через процесс оптимизации (включая квантование до аналогового INT8) и компиляции. Платформа Mythic также поддерживает библиотеку готовых DNN, включая обнаружение/классификацию объектов (YOLO, ResNet и т. д.) и модели оценки позы (OpenPose).

2oto32chqoorklriqmso5ldfu5a.jpeg


M1108 объединяет 108 плиток AMP, каждая из которых оснащена Mythic ACE с массивом флэш-ячеек и АЦП, 32-разрядным нанопроцессором RISC-V, векторным механизмом SIMD, SRAM и маршрутизатором Network-on-Chip (NOC). Кроме того, четыре плитки управления обеспечивают высокоскоростной интерфейс PCIe 2.0 для главного процессора системы. Типичное энергопотребление M1108 при работе сложных моделей ИИ с пиковой производительностью составляет примерно 4 Вт. А с присущими ценовыми преимуществами использования 40-нанометровой технологии и отсутствием необходимости в какой-либо внешней DRAM или SRAM M1108 имеет 10-кратное преимущество по стоимости по сравнению с сопоставимыми цифровыми архитектурами.

3ksiepfpjmbo2ovbshbkeri2aqi.png


Mythic M1108 против NVIDIA Xavier AGX

Запустив ResNet-50 с максимальной частотой кадров, чип M1108 показал пиковое значение 35 TOPS, 870 кадров в секунду и энергопотребление всего 4 Вт. По сравнению с Xavier AGX от NVIDIA, M1108 продемонстрировал лучшую производительность, меньшее энергопотребление, меньшую площадь и более низкую цену.

Новые возможности


Запуск моделей искусственного интеллекта на периферии, а не в облаке, даёт производителям значительные преимущества: проектирование может быть проще, а конфиденциальность значительно улучшена. Это означает, что развертывание миллионов устройств вызывает потребность в недорогих устройствах малого форм-фактора с малой задержкой, высокой производительностью и низким энергопотреблением. Решения для цифрового логического вывода, основанные на SOC, TPU, CPU, GPU и FPGA, могут решить некоторые из этих проблем, но присущие им ограничения, связанные с памятью, тактовой частотой и технологией обработки, создают многочисленные и сложные компромиссы, в результате чего только высокопроизводительны аналоговые процессоры, такие как M1108 Mythic AMP, могут справиться со всеми этими задачами.

o3caycdjtztprugqi5z5pw9qz8i.png


Это важный переломный момент. Модуль Analog Compute Engine устраняет узкие места в памяти, которые мешают цифровым решениям, эффективно выполняя умножение матриц непосредственно внутри самого массива флэш-памяти. Высокая производительность и низкое энергопотребление Mythic AMP в сочетании открывают технологии искусственного интеллекта для более широких областей применения и охватывают категории продуктов, которые в настоящее время недоступны для сопоставимых цифровых решений.

Эти чипы необходимы на периферийных сетях, таких как датчики IoT, камеры видеонаблюдения, лидары, радары и системы безопасности, которые производят так много данных, что их затратно обрабатывать цифровыми процессорами. Таким образом, Mythic обрабатывает вычисления с помощью небольшого чипа и упаковывает в него большой объём флэш-памяти, устраняя лишние компоненты в системе. Чип Mythic может поместиться на площади размером с почтовую марку. Напротив, для графических процессоров и других вариантов требуются компоненты, такие как система охлаждения.

Масштабируемая однокристальная аналоговая архитектура вычислений в памяти обеспечивает высокопроизводительные логические выводы, не потребляя мощности и энергии, которые требуются цифровым решениям для перемещения данных с высокой скоростью между отдельными компонентами обработки и хранения.

Однокристальная конструкция без DRAM соответствует ограниченным требованиям к пространству. Видеоаналитика высокого разрешения с малой задержкой, сравнимой с графическим процессором (GPU), обеспечивается искусственным интеллектом, но потребляет в 10 раз меньше энергии, чем обычная система на кристалле (SoC) или GPU. Типичное энергопотребление в 4 Вт соответствует ограниченному бюджету мощности для питания через Ethernet (PoE). Пассивный отвод тепла не требует активного управления температурой.

Для видеоприложений чип обеспечивает более высокую скорость, чтобы поддерживать больше камер с более высоким разрешением и детализацией изображения. Помимо обеспечения масштабируемости, чип поддерживает различные хост-платформы, включая X86, NVIDIA Jetson Xavier NX/TX2, Qualcomm RB5 и NXP i.MX8M. Он поддерживает операционные системы Linux Ubuntu 18.04 и Linus for Tegra (NVIDIA).

Интеграция технологии в камеры и другие продукты проста — она просто подключается к слоту расширения M.2, и загружается программное обеспечение для управления алгоритмами искусственного интеллекта. Чип может расширить возможности процессора без его замены или полной переделки продукта, фактически обеспечивая мгновенное улучшение производительности.

Поскольку Mythic использует более старую технологию, недостатков по сравнению с некоторыми чипами более позднего поколения нет. 40-нанометровые чипы — это зрелая технология, производимая в Японии, в то время как новые процессоры меньше по размеру и составляют 5 или 7 нанометров. Более новые чипы, скорее всего, будут в дефиците.

Для сравнения, платформа искусственного интеллекта Nvidia Jetson для роботов и дронов может потреблять 30 Вт и стоить от 700 до 800 долларов, а недорогая версия — 100 долларов. Но Mythic нацелена на более низкую стоимость, меньшее энергопотребление и 10–20-кратное повышение производительности.

mzenxmmdbqr5pb56zta4jhkklu0.png


Mythic готовится к выпуску своего чипа следующего поколения M2000. Поскольку M2000 имеет меньший размер, вес и стоимость, то технологию можно применять в большем количестве приложений. Поскольку Mythic продолжает совершенствовать свое аппаратное и программное обеспечение, необходимо дождаться тестов, которые могут продемонстрировать возможности и эффективность платформы.

Успех аналогового ИИ будет зависеть от достижения высокой плотности, высокой пропускной способности, малой задержки и высокой энергоэффективности при одновременном предоставлении точных прогнозов. По сравнению с чисто цифровыми реализациями аналоговые схемы по своей природе шумные, но, несмотря на эту проблему, преимущества аналоговых вычислений становятся очевидными, поскольку процессоры, такие как M1076, могут запускать более крупные модели DNN, которые отличаются более высокой точностью, более высоким разрешением и меньшей задержкой.

w14wtfimm68ns8grugvmcslzgmi.jpeg

© Habrahabr.ru