УГАРНЫЕ ГЛАДИАТОРЫ ♦ Gladihoppers
目次:
火曜日に発表された研究によると、ニューロエンジニアは人工知能と音声合成装置を使用して、簡単な考えを認識可能な音声に翻訳することができる新しいシステムを作成しました。
ニューヨークを拠点とする研究者チームは、脳の活動だけを使って単語を再構築することができました。これは、たとえば、あなたの考えをテキストメッセージに変換できるスマートフォンのような脳制御技術への道を開くことができます。
コロンビア大学の准教授であるNima Mesgarani博士が研究を主導し、 逆 脳卒中から回復したり、筋萎縮性側索硬化症(ALS)を患って生活している人々への発話の回復を助ける大きな可能性を見いだしたと。さらに言えば、この種の技術は頭脳に接続されたスマートフォンへの扉を開くこともでき、それはユーザーの心を使ってテキストを書くことを可能にしましたが、それでもまだ方法はありません。彼の作品はジャーナルに掲載されました 科学レポート.
「この作品の動機の1つは、ユーザーとスマートフォンの間のインターフェースの可能性など、代替的な人間とコンピュータのやり取り方法です」と彼は言います。 「しかし、それはまだ現実からかけ離れており、現時点では、非侵襲的な方法を使用して抽出できる情報は、音声ブレイン - コンピュータインターフェースアプリケーションには十分ではありません。」
ブレインコンピュータインターフェースによって生成されたスピーチを聞いてください。
新しい技術を開発するために、Northwell Health Physician Partners Neuroscience InstituteのMesgaraniと彼の同僚であるDr. Ashesh Dinesh Mehtaは、彼らの研究のためにてんかん患者の脳活動を調べることから始めました。これらの患者は、発作を監視するために脳内に電極インプラントをすでに持っていました。メスガラニとMehtaは彼らの研究のためにデータを集めるためにそれを使用することができました。
デュオは、参加者がスピーカーに耳を傾けるよう依頼し、0から9までの数字を暗唱し、それからその相互作用からの脳の信号を録音しました。次に、彼らは信号のパターンを認識し、ボコーダーとして知られている音声合成装置を使用してロボットに聞こえる言葉にそれらを翻訳するために - ニューラルネットワーク - 人間の脳の中のニューロン構造を模倣するプログラム - を訓練した。
その結果、Microsoft Samがゼロから9まで数えたような短い音声クリップが得られました。印象的な部分は、スピーチが研究者がテストした他の方法と比べてどれほど明確かということです。しかし、やるべきことはまだたくさんあります。
「この技術が利用可能になるまでに10年かかるかもしれません」とMesgaraniは言います。 「我々は、長期的な生体適合性の植え込み型電極および/または非侵襲性神経記録法における画期的な技術の両方において、さらなる進歩が必要です。デコード方法を洗練させるためには、脳が音声をどのように表現しているかについても理解を深める必要があります。」
例えば、この研究の一部であった患者は全員、皮質撮影モニターを埋め込むための脳外科手術を受けました。これは、脳の外科手術を必要とする非常に侵襲的なプロセスであり、たとえ彼らの言語能力のいくつかを回復する可能性があったとしても、大部分の人々は受けたくないかもしれません。
今のところ、この研究では脳の信号を音声にデコードする方法を紹介しました。手術をせずに脳の活動を正確に検出する方法を考え出したら、言語療法に革命を起こすだけでなく、脳に接続されたスマートフォンをもたらす可能性に一歩近づくことができます。
ブレイン - コンピュータインターフェース研究はここ数年で新たな関心を集めています。 2017年4月、FacebookはF8の年次総会でBCIに取り組んでいると発表しました。そしてElon Muskは2018年11月に彼自身のBCIのスタートアップであるNeuralinkが雇っていると発表した。
抽象
聴覚刺激再構成は、誘発された神経活動の母集団から音響刺激の最良の近似を見つける手法です。人間の聴覚皮質からの発話の再構築は、脳との直接的なコミュニケーションを確立するための発話神経人工装具の可能性を生み出し、そして明白な状態と隠れた状態の両方で可能であることが示されてきた。しかしながら、低品質の再構成音声は、ブレイン - コンピュータインターフェース(BCI)アプリケーションに対するこの方法の有用性を著しく制限してきた。音声ニューロプロテーゼの最先端技術を進歩させるために、我々は人間の聴覚皮質からのクローズドセットの理解可能な音声を再構築するために音声合成技術における最新の深層学習における進歩を組み合わせた。線形および非線形(ディープニューラルネットワーク)回帰法と聴覚スペクトログラムと音声合成パラメータを含む再構成のターゲットとして使用される音響表現への再構成精度の依存性を調べた。さらに、我々は低と高の神経周波数範囲から再構成精度を比較した。すべての神経周波数から音声合成装置のパラメータを直接推定するディープニューラルネットワークモデルがディジット認識タスクで最高の主観的および客観的スコアを達成し、線形回帰を用いたベースライン法よりも明瞭度を65%改善することを示した。聴覚スペクトログラムを再構築します。これらの結果は、麻痺患者のコミュニケーションを回復できるだけでなく、人間とコンピュータのインタラクション技術を変革する可能性もある次世代の音声BCIシステムを設計するためのディープラーニングおよび音声合成アルゴリズムの有効性を示しています。
関連ビデオ:脳波センシングロボットは人体の拡張として機能する