[Перевод] Нейроимпланты преобразуют мозговые волны в слова
Нейротехнологии могут вернуть радость общения людям, потерявшим способность говорить.
«Хочешь воды?» — появляется вопрос на экране.
Мигают три точки, а потом по одному всплывают слова:
«Нет, я не хочу пить».
Эти слова порождены активностью мозга человека, который не говорил более 15 лет. Перенесённый инсульт повредил связь между мозгом и остальным телом.
Этот человек пытался «заговорить» самыми разными способами. Например, совсем недавно он использовал указку, прикреплённую к его бейсболке, чтобы «печатать» слова на сенсорном экране. Эффективный, но слишком медленный метод. Хотелось найти что-то более быстрое, поэтому он согласился участвовать в клинических испытаниях исследовательской группы в Калифорнийском университете Сан-Франциско. Их цель: превратить испытуемую технологию в бытовой инструмент, которым смогут пользоваться другие люди, лишённые способности говорить.
В пилотном исследовании учёные поместили тонкую гибкую электродную решётку на поверхность мозга добровольца. Электроды записывали нейронные сигналы и отправляли их на декодер речи, который переводил сигналы в слова. Это был первый случай, когда парализованный человек, который не мог говорить, использовал нейротехнологии для передачи целых слов, а не только букв.
Как работают нейропротезы
Первая версия интерфейса мозг-компьютер давала волонтеру словарный запас из 50 практических слов
За последние два десятилетия нейропротезирование прошло долгий путь. Протезы-имплантаты для слуха продвинулись дальше всех, их конструкции взаимодействуют с кохлеарным нервом внутреннего уха или провоцируя слуховую реакцию ствола мозга. Также проводятся исследования имплантов сетчатки и мозговых имплантов для возвращения зрения, предпринимаются попытки дать людям с протезами рук чувство осязания. Все эти сенсорные протезы берут информацию из внешнего мира и преобразуют её в электрические сигналы, которые поступают в центры обработки информации в мозге.
Противоположный тип нейропротеза записывает электрическую активность мозга и преобразует её в сигналы, которые управляют чем-то во внешнем мире, например роботизированной рукой, контроллером видеоигры или курсором на экране компьютера. Этот последний способ управления позволил парализованным людям набирать слова — побуквенно, но с использованием функции автозаполнения для ускорения процесса.
Для печатания с помощью мозговых сигналов имплант обычно помещают в моторную кору — это часть мозга, которая контролирует движение. Затем пользователь представляет определённые физические действия, чтобы управлять курсором, перемещающимся по виртуальной клавиатуре. Другой подход, впервые предложенный в статье 2021 года, заключался в том, что пользователь представлял, как он пишет буквы от руки на листе бумаги. Это порождало сигналы в моторной коре, которые преобразовывались в текст. Такой подход установил новый рекорд скорости, позволив добровольцу писать около 18 слов в минуту.
Исследовательская группа Калифорнийского университета выбрала более амбициозный подход. Вместо того, чтобы считывать намерение пользователя переместить курсор или ручку, они стали искать возможность управлять голосовым аппаратом, языком и губами.
Простой на первый взгляд диалог обеспечивается сложным нейротехнологическим оборудованием и системами машинного обучения, которые расшифровывают сигналы мозга парализованного человека.
Мышцы, участвующие в речи
Речь является одним из видов поведения, которое отличает людей от других видов. Многие животные издают звуки, но только люди комбинируют набор звуков бесчисленным множеством различных способов, чтобы представить окружающий их мир. Это также чрезвычайно сложный двигательный акт — некоторые эксперты считают, что это вообще самое сложное двигательное действие, которое совершает человек. Речь — это результат прохождения модулированного потока воздуха через голосовой тракт. С каждым звуком мы определённым образом формируем дыхание, создавая слышимые вибрации в голосовых связках гортани и изменяя форму губ, челюсти и языка.
Многие мышцы голосового тракта совершенно не похожи на мышцы суставов (например, рук и ног), которые могут двигаться только несколькими предписанными способами. Например, мышца, контролирующая губы, представляет собой сжиматель, а мышцы языка управляются в большей степени гидравликой — язык состоит из фиксированного объёма мышечной ткани, поэтому движение одной части языка меняет его форму в другом месте. Физика, управляющая движениями таких мышц, полностью отличается от физики бицепсов или подколенных сухожилий.
Поскольку задействовано так много мышц, и у каждой из них так много степеней свободы, существует, по сути, бесконечное количество возможных конфигураций. Но когда люди говорят, оказывается, что они используют относительно небольшой набор основных движений (которые несколько различаются в разных языках). Например, когда носители английского языка произносят звук «д», они кладут язык за зубы. Когда они произносят звук «к», корень их языков поднимается, чтобы коснуться верхнего нёба. Мало кто осознает точные, сложные и скоординированные мышечные движения, необходимые для произнесения самого простого слова.
Член команды Дэвид Мозес просматривает показания мозговых волн пациента [левый экран] и отображение активности системы декодирования [правый экран].
Исследовательская группа занимается изучением частей моторной коры головного мозга, которые посылают команды для движений мышц лица, горла, рта и языка. Эти области мозга выполняют несколько задач: они управляют движениями мышц, которые воспроизводят речь, а также движениями тех же мышц, которые отвечают за глотание, улыбку и поцелуй.
Изучение нейронной активности этих областей требует как пространственного разрешения в масштабе миллиметров, так и временного разрешения в масштабе миллисекунд. Исторически сложилось так, что неинвазивные системы визуализации могли обеспечить или одно, или другое, но не оба одновременно. В начале исследования учёные обнаружили очень мало данных о том, как паттерны мозговой активности связаны даже с простейшими компонентами речи: фонемами и слогами.
Помогли волонтёры. В центре эпилепсии Калифорнийского университета пациентам, готовящимся к операции, на поверхность мозга хирургически накладывают электроды. Они держатся несколько дней, чтобы исследователи могли составить карту областей, задействованных во время припадков. В течение этих дней вынужденного бездействия многие пациенты добровольно участвуют в неврологических исследовательских экспериментах, где используются записи с электродов. Исследователи с позволения пациентов изучали их паттерны нейронной активности во время произнесения слов.
Аппаратное обеспечение, которое при этом используется, называется электрокортикографией (ЭКоГ). Электроды в системе ЭКоГ не проникают в мозг, а лежат на его поверхности. Массивы могут содержать несколько сотен датчиков-электродов, каждый из которых записывает информацию с тысячи нейронов. До сих пор использовались массивы с 256 каналами.
Исследователи сначала искали паттерны корковой активности, когда люди произносят простые слоги. Добровольцев попросили произносить определённые звуки и слова, в то время как их нейронные паттерны фиксировались, а движения языка и рта записывались. Иногда добровольцев просили носить цветную краску для лица и использовали систему компьютерного зрения для извлечения кинематических жестов; в других случаях использовался ультразвуковой аппарат, расположенный под челюстями пациентов, чтобы получить изображение их движущихся языков.
Гибкая матрица электродов накладывается на мозг пациента и улавливает сигналы от моторной коры. Массив фиксирует команды движения, направленные в голосовой тракт пациента. Порт, прикрепленный к черепу, направляет провода к компьютерной системе, которая расшифровывает сигналы мозга и переводит их в слова, которые хочет сказать пациент. Затем его ответы появляются на экране дисплея.
Эти системы были использованы для сопоставления нейронных паттернов с движениями голосового тракта. Сначала появилось много вопросов о нейронном коде. Одна из возможностей заключалась в том, что нейронная активность кодировала направления для определённых мышц, и мозг, по сути, включал и выключал эти мышцы, как если бы нажимал клавиши на клавиатуре. Другая идея заключалась в том, что код определяет скорость мышечных сокращений. Ещё один вариант — что нейронная активность соответствовала скоординированным паттернам мышечных сокращений, используемых для воспроизведения определённого звука. (Например, чтобы произнести звук «ааа», язык и челюсть должны опуститься.) Оказалось, что существует карта репрезентаций, которая контролирует различные части речевого тракта, и что различные области мозга координируются, чтобы человек мог бегло говорить.
Роль ИИ в современной нейротехнологии
Собранные в ходе исследования данные о нейронной активности и кинематике речи передаются нейронной сети, а затем алгоритм машинного обучения ищет закономерности между двумя наборами данных. Можно установить связь между нейронной активностью и воспроизводимой речью, а потом использовать эту модель для создания компьютерной речи или текста. Но обучить нейросеть для парализованных людей не получалось, потому что недоставало половины данных: нейронные паттерны были, а информации о соответствующих движениях мышц — нет.
Более разумным способом использования машинного обучения показалась возможность разбить задачу на два этапа. Сначала декодер переводит сигналы из мозга в предполагаемые движения мышц голосового тракта, а затем переводит эти предполагаемые движения в синтезированную речь или текст.
Исследователи назвали это биомиметическим подходом, потому что он копирует биологические процессы. В человеческом теле нейронная активность непосредственно отвечает за движения голосового тракта и лишь косвенно — за производимые звуки. Большое преимущество этого подхода заключается в обучении декодера второму этапу преобразования движений мышц в звуки. Поскольку отношения между движениями голосового тракта и звуком довольно универсальны, получилось обучить декодер на больших наборах данных, полученных от людей, которые не были парализованы.
Клинические испытания речевого нейропротеза
Следующей большой задачей было донести технологию до людей, которые могли бы извлечь из неё реальную пользу.
Национальные институты здравоохранения (NIH) финансируют пилотное испытание, которое началось в 2021 году. Уже есть два парализованных добровольца с имплантированными массивами ЭКоГ, и в ближайшее время их должно стать больше. Основная цель — улучшить их общение, и производительность измеряется количеством слов в минуту. Средний взрослый, печатающий на стандартной клавиатуре, может набирать 40 слов в минуту, а самые быстрые машинисты — более 80 слов в минуту.
Использование речевой системы может улучшить результаты. Человеческая речь намного быстрее набора текста: носитель английского языка может легко произнести 150 слов в минуту. Цель исследования — помочь парализованным людям общаться, со скоростью 100 слов в минуту.
Процедура имплантации стандартная. Хирург удаляет небольшую часть черепа и аккуратно помещает гибкий массив ЭКоГ на поверхность коры головного мозга. Затем небольшой порт фиксируется на кости черепа и выходит через отверстие в скальпе. Сейчас этот порт необходим. чтобы подключаться к внешним проводам для передачи данных с электродов, но в будущем планируется сделать эту систему беспроводной.
Исследователи рассматривали возможность использования проникающих микроэлектродов, потому что они могут записывать данные с небольших популяций нейронов и, следовательно, могут предоставить более подробную информацию о нейронной активности. Но проникающие микроэлектроды пока не такие надёжные и безопасные, как ЭКоГ. Кроме того, чтобы преобразовать нейронные сигналы в чёткие команды, проникающие электроды обычно требуют ежедневной повторной калибровки. При этом скорость настройки и надёжность работы являются ключевыми факторами для применимости нейронных устройств. Вот почему при создании системы для долгосрочного использования первоочередное внимание уделяется стабильности.
Исследование, изучающее изменчивость нейронных сигналов добровольца с течением времени, показало, что декодер работает лучше, если он использует шаблоны данных в течение нескольких сеансов и нескольких дней.
Учёные попросили их первого добровольца попробовать два разных подхода. Он начал со списка из 50 слов для повседневной жизни, таких как «голоден», «хочу пить», «пожалуйста», «помогите» и «компьютер». В течение 48 сеансов его иногда просили просто представить, что он произносит каждое слово из списка, а иногда просили попытаться именно произнести их. Оказалось, что попытки говорить генерировали более четкие мозговые сигналы, и их было достаточно для тренировки алгоритма декодирования. Затем доброволец мог использовать эти слова из списка для составления предложений, например: «Нет, я не хочу пить».
Теперь исследователи пытаются расширить словарный запас. Для этого нужно и дальше улучшать текущие алгоритмы и интерфейсы, что, скорее всего, произойдёт уже в ближайшие месяцы и годы. Теперь, когда доказательство принципа установлено, целью является оптимизация. Можно сосредоточиться на том, чтобы сделать систему быстрее, точнее и, что важнее всего, безопаснее и надёжнее.
Вероятно, самые большие прорывы произойдут, когда удастся понять системы мозга и то, как паралич изменяет их активность. Исследователи уже выяснили, что нейронные паттерны парализованного человека, который не может посылать команды мышцам голосового тракта, сильно отличаются от аналогичных у больного эпилепсией, который может это делать. Ещё многое предстоит узнать и понять, но исследователи уверены, что смогут вернуть своим пациентам их утерянные голоса.
Что ещё интересного есть в блоге Cloud4Y
→ Информационная безопасность и глупость: необычные примеры
→ It’s Alive! Аккордеон из двух Commodore 64 и дискет
→ Как распечатать цветной механический телевизор на 3D-принтере
→ WD-40: средство, которое может почти всё
→ Подержите моё пиво, или как я сделал RGBeeb, перенеся BBC Micro в современный корпус
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем только по делу. А ещё напоминаем про второй сезон нашего сериала ITить-колотить. Его можно посмотреть на YouTube и ВКонтакте.