Нейробиологи обучили нейросеть переводить сигналы мозга в членораздельную речь

Используя технологию сканирования мозговой активности, искусственный интеллект и синтезатор речи ученые из Колумбийского университета (США) создали устройство, способное переводить мысли человека в членораздельную речь. Результаты исследования, опубликованные в журнале Scientific Reports, представляют собой важный шаг в совершенствовании интерфейсов «мозг — компьютер». В будущем подобные устройства смогут использовать людьми, потерявшими способность говорить в результате травмы или болезни.

Для разработки прибора, соединяющего возможности синтезатора речи и искусственного интеллекта автор исследования нейробиолог Нима Месгарани и его коллеги обратились к самым последним достижениям в области глубокого машинного обучения и технологиям синтеза речи. Результатом их работы стал вокодер на базе искусственного интеллекта, способный довольно точно интерпретировать мозговую активность непосредственно из слуховой коры головного мозга, а затем переводить ее в различимую речь. Авторы работы отмечают, что речь в этом случае получается весьма компьютеризированной, однако люди могут распознать слова в большинстве случаев.

По словам создателей, в основе нового прибора, использующегося для воспроизведения получающейся речи, применяются та же технология, которая используется в цифровых ассистентах, таких как Alexa, Siri и Google Assistant.

Сначала специалисты обучили вокодер правильно интерпретировать мозговую активность человека. Для этого ученые пригласили поучаствовать в эксперименте пять добровольцев, которые на то время проходили лечение от эпилепсии. Всем пятерым в слуховую кору головного мозга были вживлены электроды для считывания электроэнцефалограммы.

«Мы попросили пациентов, страдающих эпилепсией, которые уже проходят хирургическое лечение на мозге, послушать предложения, которые произносят разные люди. Одновременно мы анализировали закономерности в мозговой активности пациентов. На полученных нейронных моделях и обучался вокодер», — объясняет Месгарани.

Пациентов попросили прослушать записи, в которых актеры зачитывали последовательности цифр от 0 до 9. Одновременно ученые фиксировали сигналы мозга, после чего пропускали их через вокодер, сигналы для которого для повышения четкости корректировала нейросеть, анализировавшая звуки самого вокодера, издававшего звуки в ответ эти сигналы. В результате можно было услышать роботизированный голос, повторяющий последовательность произнесенных чисел. Для оценки результатов ученые пригласили 11 человек с отличным слухом.

«Оказалось, что люди могут распознать слова примерно в 75% случаев, что значительно превосходит любые предыдущие попытки. Чувствительный вокодер и мощные нейронные сети сгенерировали звуки, которые слушали пациенты, с удивительной точностью», — комментирует Месгарани.

В дальнейшем команда Месгарани собирается научить нейросеть произносить более сложные слова, фразы и даже целые предложения. После этого они хотят разработать имплантат, способный переводить мысли человека в полноценную речь.

«К примеру, если владелец импланта подумает: «Мне нужен стакан воды», — наша система считает сигналы мозга и переведет их в речь. Это даст любому, кто потерял способность говорить из-за травмы или болезни, новую возможность общаться с окружающим миром», — добавляет Месгарани.

Обсудить разработку американских ученых можно в нашем Telegram-чате.

hi-news.ru

Похожие записи

Автор admin