Слова из машины: преобразование нейронной активности пациента с анартрией в текст

-nxyggpl2islz25uyfedc5dtybs.jpeg

Одним из важнейших аспектов выживания вида является общение между его представителями. Информация, передаваемая от одного организма к другому, может быть закодирована в виде химических сигналов, визуальных стимулов или звуковых волн. Дабы общаться между собой животным необходимы голосовые связки (или аналогичные им по функционалу органы), а также достаточно развитая ЦНС, способная не только воспринимать звуки, но и декодировать заложенное в них послание. Человека от его соседей по планете отличает не только развитый интеллект, умение пользоваться и создавать инструменты, прямохождение и т.д., но и очень развитая звуковая коммуникация — другими словами, речь. С помощью речевого общения мы получаем друг от друга львиную долю информации, посему возможность крайне важна. Однако в некоторых случаях человек ввиду травмы, заболевания или врожденных дефектов лишен возможности воспроизводить слова, несмотря на то, что в его мозге они формируются вполне нормально. Один из вариантов такой патологии является анартрия, т.е. расстройство речи ввиду нарушения артикуляции, вызванного поражением мышц или нервов. Ученые из калифорнийского университета (Сан-Франциско, США) создали систему нейропротезирования, преобразующую сигналы мозга в текст, отображаемый на экране. Какие фундаментальные техники были использованы для реализации системы, кто стал первым ее пользователем, и насколько эффективна система преобразования речи? Ответы на эти вопросы мы найдем в докладе ученых. Поехали.

Основа исследования


Тело человека это удивительный механизм, в котором все работает по определенной схеме. Сложные процессы протекают практически мгновенно, позволяя нашим конечностям двигаться, органам чувств воспринимать внешние сигналы, мозгу обрабатывать и хранить информацию и т.д. Однако, как и в любом механизме, в теле человека могут возникнуть поломки, нарушающие его работу. Некоторые травмы или заболевания могут приводить к полному отказу какой-либо системы, в других же случаях лишь часть системы перестает работать так, как положено.

К таким случаям относится и анартрия, когда человек не может артикулировать слова, хотя в подновляющих случаях способен формировать их у себя в мозге и даже производить ограниченные оральные движения и недифференцированные звуки при попытке говорить. Анартрия может быть результатом различных заболеваний и травм, в том числе инсульта* или бокового амиотрофического склероза*.

Инсульт* — острое нарушение кровоснабжения головного мозга.
Боковой амиотрофический склероз* — прогрессирующее, неизлечимое дегенеративное заболевание центральной нервной системы, когда поражены верхние и нижние двигательные нейроны, что приводит к параличам и атрофии мышц.

За последние годы было достигнуто немало успехов в создании интерфейсов мозг-компьютер, позволяющих людям с нарушениями речи составлять сообщения по буквам, управляя курсором компьютера. Однако такой вариант, который работает за счет записей нейронных сигналов, крайне медленный и требует от пользователя больших усилий. По мнению авторов исследования, куда проще и эффективнее было бы прямое декодирование целых слов (а не отдельных букв) из областей мозга, контролирующих речь.

Проблема многих методик преобразования нейронных сигналов в слова заключается в том, что записи нейронной активности не могут быть точно согласованы с предполагаемой речью из-за отсутствия речевого вывода, что усложняет машинное обучение. Кроме того, остается неясно сохраняются ли нейронные сигналы, связанные с контролем речи, у пациентов, которые не говорили в течение нескольких лет, а то и десятилетий.

Чтобы выяснить, можно ли напрямую декодировать речь из нейронной активности человека, авторы рассматриваемого нами сегодня труда протестировали декодирование слов и предложений в реальном времени на основе корковой активности человека с параличом конечностей и анартрией, вызванной инсультом ствола головного мозга.

Подготовка к исследованию


Участником исследования стал мужчина в возрасте 36 лет (правша). В возрасте 20 лет у него был обширный инсульт, связанный с расслоением правой позвоночной артерии, что привело к тяжелому спастическому квадрипарезу и анартрии. При этом когнитивные функции остались практически невредимы, что было подтверждено тестированием по методике MMSE (mini mental state examination). Балл пациента составил 26 по шкале от 0 до 30 (чем выше балл — тем лучше умственные способности). Ввиду паралича достичь 30 баллов было физически невозможно. Пациент мог издавать некоторые звуки, но не мог говорить. Движение глаз было нормальным.

До проведения исследования пациент общался с помощью компьютерного интерфейса с набором текста, контролируемого остаточными движениями головы. Скорость набора составляла примерно правильных 5 слов (или правильных 18 символов) в минуту.

Для проведения тестов был использован нейронный имплант: электродная решетка (6.7×3.5×0.51 мм), на которой были размещены 128 плоских дискообразных электрода по решетчатой схеме 16×8 (расстояние между соседствующими электродами — 4 мм).

Массив электродов имплантировался на пиальную поверхность мозга в субдуральном пространстве сенсомоторной коры левого полушария. Размеры массива позволяли получить сигналы сразу от нескольких важных областей: левая прецентральная извилина, постцентральная извилина, задняя средняя лобная извилина и задняя нижняя лобная извилина. Чрескожный соединитель вводили экстракраниально на противоположную выпуклость черепа и прикрепляли к черепу. Этот соединитель передавал кортикальные сигналы от имплантированного электродного массива через доступные извне контакты к съемному цифровому каналу и кабелю, обеспечивая передачу полученной мозговой активности на компьютер.

Для сбора и обработки сигналов использовалась система цифровой обработки сигналов NeuroPort System. Сигналы от всех 128 электродов поступали на компьютер, где с помощью специального программного обеспечения проводился их анализ в реальном времени.

Само тестирование состояло из 50 сеансов на протяжении 81 недели. Участник выполнял задания двух типов: с отдельными словами и с предложениями. После проведения тестов было получено примерно 27 минут нейронной активности во время выполнения заданий за каждый сеанс. Во время теста участнику показывали слово (или предложение) на экране, после чего он должен был попытаться произнести его.

В заданиях с отдельными словами участнику был предоставлен набор из 50 бытовых слов на английском языке. Во время теста на экране показывалось одно из этих слов, затем следовала пауза в 2 секунды, а потом участник должен был попытаться его произнести. Суммарно было собрано данных по 9800 попыткам.

В заданиях с предложениями участник должен был создать последовательность слов из вышеописанного набора. В начале каждого теста участнику предоставлялось целевое предложение, которое он должен был воспроизвести максимально быстро без (важно) дополнительных усилий. Всего было собрано данных по 250 попыткам с предложениями.

Собранные в ходе вышеописанных тестов данные послужили базой знаний для создания моделей распознавания речи и классификации слов, которые использовали методы глубокого обучения для прогнозирования нейронной активности. Дабы распознавание речи по активности мозга работало в режиме реального времени дополнительно была использована модель естественного языка и декодер Витерби.

_24bdo3er0vzkneempnm-s0imcc.jpeg
Изображение №1

Модель обнаружения речи обрабатывала каждый момент времени нейронной активности во время тестов и обнаруживала начала и флуктуации в активностях во время попыток произношения слов участником.

Для каждой обнаруженной попытки модель предсказывала набор вероятных слов путем обработки нейронной активности, охватывающей от 1 секунды до начала попытки произношения и до 3 секунд после обнаруженного начала попытки произношения слова. Прогнозируемая вероятность, связанная с каждым словом в наборе из 50 слов, количественно определяла, насколько вероятно, что участник пытался сказать то или иное слово во время обнаруженной попытки.

В английском языке слова в предложении имеют определенную последовательность. Модель учитывала данную лингвистическую структурированность для определения вероятности какого-либо слова вслед за предыдущим в последовательности (т.е. в предложении).

Заключительной частью моделирования был декодер Витерби — система, которая определяет наиболее вероятную последовательность слов с учетом вероятностей предсказанных слов из классификатора и вероятностей последовательности слов из модели естественного языка.

Таким образом в результирующей системе были задействованы сразу три модели: распознавание отдельных слов, распознавание предложений и совмещающий в себе элементы предыдущих двух декодер Витерби.

Результаты исследования


Во время декодирования предложений в реальном времени средний коэффициент ошибок в словах для 15 блоков предложений (каждый блок состоял из 10 сеансов) составил 60.5% без языкового моделирования и 25.6% с языковым моделированием (вверху на 2A).

u2b5sw71idxwievbumaggrovsfc.jpeg
Изображение №2

Самый низкий коэффициент ошибок в словах, наблюдаемый для блока с одним предложением, составил 7.0%. Суммарно во всех 150 сеансах за 1 минуту декодировалось 15.2 слов либо 12.5 слов в минуту, если учитывать только совершенно правильные слова (по центру на 2A). В 92.0% сеансов количество обнаруженных слов было равно количеству слов в целевом предложении (снизу на 2A).

Во время тестов с использованием целевых предложений практически не наблюдалось ошибок. Использование модели естественного языка (2B) позволило верно декодировать слова в 80 из 150 сеансов. Также использование модели естественного языка во время декодирования улучшило производительность за счет исправления грамматически и семантически неправдоподобных последовательностей слов в предсказанных предложениях (2C).

Демонстрация работы системы: тесты со словами и с предложениями.

После тестов был проведен анализ данных из 9000 попыток произношения отдельных слов без использования модели естественного языка. Точность классификации составила 47.1% с использованием детектора речи и классификатора для прогнозирования целевого слова на основе корковой активности мозга. Точность меньше половины кажется недостаточной, однако точность системы без каких-либо разработанных моделей (т.е. контрольная модель) составила всего лишь 2%.

В общей сложности успешно обнаружено было 98% из всех попыток произношения слов: 191 — не обнаружены вообще, а 968 — ложно обнаружены (не были связаны с попытками произнести слова).

Дополнительно анализ данных показал, что электроды в самой вентральной части вентральной сенсомоторной коры способствовали классификации слов куда сильнее, чем электроды в дорсальной части вентральной сенсомоторной коры, которые больше влияли на способность распознавания речи ().

gaoihlzwpvywzeo8tw1wrkpazhe.jpeg
Изображение №3

При этом точность классификации была практически постоянной для всех целевых слов (средняя точность для 50 слов составила 47.1 ± 14.5%; 3B).

Как уже упоминалось ранее, сеансы тестирования проводились периодически в течение 81 недели. За счет столь длительного времени ученые могли проверить, насколько их система стабильна при продолжительном использовании. В результате система работала стабильно и не требовала каждодневной (или даже еженедельной) калибровки.

cpgxs52y5yvtfndw9yrui5b1yee.jpeg
Изображение №4

Также был получен вполне ожидаемый эффект — система в конце периода тестирования была точнее, так как использовала набор данных по нейронной активности, собранный за весь этот период времени (график выше).

Для более детального ознакомления с нюансами исследования рекомендую заглянуть в доклад ученых и дополнительные материалы к нему.

Эпилог


В данном труде ученые создали систему, способную преобразовывать нейронную активность речевых областей коры головного мозга в реальные слова и предложения. Авторы исследования отмечают, что подобные труды уже проводились ранее, но тогда роль испытуемого играли пациенты, которые могли говорить и без интерфейса мозг\компьютер. В данном же случае в тестировании принимал участие парализованный мужчина с анартрией. В результате между нейронной активностью и фактическим произношением слов (т.е. попытками это сделать) существует некая задержка, усложняющая процесс декодирования и классификации слов. Однако ученым удалось решить эту проблему путем объединения в своей системе сразу трех моделей, способных распознавать отдельные слова и/или предложения, а также декодировать их, основываясь на имеющихся данных по нейронной активности. Другими словами, система использовала данные активности мозга для предсказания того или иного слова, дополнительно используя лингвистическую структуру предложений на английском языке для предсказания слов на основе предыдущих в цепочке.

В результате система позволила значительно повысить точность определения слов с 2% (без внедрения моделей) до 47.1%. Система, работающая в реальном времени за счет прямого подключения электродного массива к коре головного мозга, позволяла декодировать примерно 12 правильных слов в минуту. Эти показатели, хоть и кажутся не особо впечатляющими, все же не так малы, как можно подумать.

Одним из самых очевидных ограничений проведенного исследования является факт того, что в нем участвовал лишь один человек. В будущем авторы труда намерены расширить свое исследования, включив в него больше пациентов с разной степенью паралича и/или речевой дисфункцией. Мозг имеет определенные особенности которые варьируются от человека к человеку. Потому большее число испытуемых позволит лучше настроить систему и расширить ее базу данных по нейронной активности.

Разработанная методика пока еще на зачаточной стадии, однако в ней есть немалый потенциал. Когда речь заходит о том, чтобы дать людям с ограниченными речевыми возможностями инструменты, позволяющие им коммуницировать с родными и близкими, можно только пожелать ученым удачи в таком благом деле.

Благодарю за внимание, оставайтесь любопытствующими и хорошей всем рабочей недели, ребята. :)

Немного рекламы


Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5–2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).

Dell R730xd в 2 раза дешевле в дата-центре Maincubes Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5–2697v3 2.6GHz 14C 64GB DDR4 4×960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5–2430 2.2Ghz 6C 128GB DDR3 2×960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5–2650 v4 стоимостью 9000 евро за копейки?

© Habrahabr.ru