[AI/機械学習] MITの研究者らが会話からうつ病を見つけ出すモデルを開発

株式会社プライムストラクチャーの若手エンジニアのSayaです。

今回は先日MITの研究者らが発表した「会話からうつ病を見つけ出すニューラルネットワークモデル」についてMIT NEWSから翻訳してまとめたいと思います。

概要

MITの研究者らは、インタビューから生テキストおよび音声データを分析してうつ病を示す音声パターンを発見することができるニューラルネットワークモデルを開発しました。
この方法は、自然な会話におけるうつ病の徴候を検出でき、臨床医のための診断補助のために使用することができます。

本文

うつ病を診断するために臨床医は患者にインタビューをし、過去の精神疾患、生活習慣、気分などの特定の質問をし、患者の反応に基づいて症状を特定します。

近年、機械学習は診断のための有用な助けとして支持されてきました。
例えば、うつ病を示す可能性のある言葉や言葉のイントネーションを検出できる機械学習モデルが開発されています。
しかしこれらのモデルは、特定の質問に対する特定の回答に基づいて、うつ状態にあるかどうかを予測する傾向があります。
これらの方法は正確ですが、尋ねられる質問のタイプに依存することにより、どこでどのように使用できるかが制限されています。

国際会議で発表された論文では、MITの研究者らはインタビューから生テキストおよび音声データを分析して、うつ病を示す音声パターンを発見することができるニューラルネットワークモデルについて詳述しています。
新しい被験者が与えられると、質問と回答に関する他の情報を必要とせずに、その個人がうつ状態にあるかどうかを正確に予測することができます。

研究者らは、この方法が自然な会話のうつ病の徴候を検出するツールを開発するために使用できることを期待しています。
将来的にはこのモデルが、例えばモバイルアプリによってユーザーの精神的苦痛をテキストと声によって監視してアラートを送信できます。
これは最初の診断へ、距離、コスト、または気のせいかもしれないという意識のために、臨床医に行くことができない人にとって特に有用です。

「うつ病などの人が幸せ、興奮、悲しい、または重篤な認知状態を抱いているという最初のヒントは、彼らの発言である」
とコンピュータサイエンスと人工知能研究所(CSAIL)の研究者、本論文の筆頭著者であるTuka Alhanai氏が言います。
うつ病検出モデルを幅広い方法で展開したい場合は、使用しているデータに与える制約を最小限に抑えたいと考えています。通常の会話に展開し、自然なやりとりから個人の状態をモデルに収めたいとします。」

CSAILの上級研究員である共同研究者のジェームス・グラス氏は、この技術は、臨床現場においてカジュアルな会話による精神的苦痛を特定するために使用できることはもちろんであると語った。
「すべての患者さんが違う言葉で話をして、そしてもしモデルが変化を見たら、それは医者にとって助けとなるでしょう。これは臨床医を助けるために何ができるかどうかを見るのに一歩前進しました。」

この論文の他の共著者は、医療技術科学研究所(IMES)のメンバーであるMohammad Ghassemiです。

コンテキストフリー(文脈自由)モデリング

モデルのキーとなる革新は、うつ病を示すパターンを検出し、そのパターンを追加情報なしに新たな個人にマップする能力にあります。
「探している質問の種類やその回答の種類に制約を課さないため、我々はそれをコンテキストフリー(文脈自由)と呼んでいる」と Alhanai氏は言います。

他のモデルには特定の質問があり、うつ病のない人がどのように反応するか、うつ病のある人がどのように反応するかの例が示されています。
例えば「あなたはうつ病の病歴がありますか?」と直接聞き、それに対する正確な回答を用意して、それによって新しい人物がうつ病かどうかを判断します。 「しかし、それは自然な会話の仕方ではない」とAlhanai氏は語ります。

一方、研究者らはシーケンスモデリングと呼ばれる技術を使用しました。これはしばしば音声処理に使用されていました。
この手法を用いて、彼らは質問と回答のテキストと音声データのモデルシーケンスを、うつ病患者とうつ病患者の両方から順番に得ました。
蓄積されたシーケンスとして、モデルはうつ病の有無にかかわらず出現した音声パターンを抽出しました。
「sad」「low」「down」などの言葉は、より平坦で単調な音声信号と一緒になることがあります。
うつ病を患っている人もまた、よりゆっくりと話し、単語間でより長い間を空けるようになります。
これらのテキストおよびオーディオ識別子は、精神的苦痛のための以前の研究で探求されてきました。
いずれのパターンもうつ病の予測因子であるかどうかを判断するのは最終的にモデルに依存していました。

「このモデルは、言葉や話すスタイルのシーケンスを見て、これらのパターンがうつ病の人に見られるか、うつ病ではない人に見られるかを判断する」とAlhanai氏は言います。
「そして、新しい被験者で同じシーケンスが見られるならば、それがうつ病かどうかを予測することができます」

このシーケンシング技法は、会話全体をモデルで見て、うつ病のある人とそうでない人とが話す方法の違いに注意するのにも役立ちます。

うつ病の検出

研究者らは、メンタルヘルスの問題を持つ患者の音声、テキスト、ビデオのインタビュー、および人間によって制御される仮想患者を含む苦痛分析インタビューコーパスからの142の対話データセットでモデルを訓練し、テストしました。
各被験者は、パーソナルヘルスアンケートを使用して0〜27の尺度でうつ病に関して評価されます。
中程度(10〜14)の間のカットオフと中等度に重度(15〜19)以上のスコアはうつ病と考えられ、その閾値以下の他のスコアはうつ病ではないとみなされます。
データセット内のすべての被験者のうち、28人(20%)がうつ状態にあると表示されました。

実験では、精度とリコールのメトリックを使用してモデルを評価しました。
モデルによって同定されたうつ状態の被験者のうちのどれがうつ病と診断されたかについての正確な尺度です。
リコールは、データセット全体でうつ病と診断されたすべての被験者を検出する際のモデルの精度を測定します。
精度では、モデルは71%を獲得し、リコール時には83%を獲得しました。
エラーを考慮したこれらのメトリックの合計平均スコアは77%でした。大部分の試験では、研究者らのモデルは他のほとんどすべてのモデルより優れていました。

Alhanai氏によると、研究中の1つの重要な見識は、実験中に、テキストよりも音声からうつ病を予測するために、モデルがより多くのデータを必要としていたことです。
テキストでは、モデルは平均7つの質問 – 回答シーケンスを用いてうつ病を正確に検出することができました。
音声では、このモデルは約30のシーケンスが必要でした。
「これは、うつ病を予測する人の言葉のパターンが、音声よりもテキストの方が短い時間で起こることを意味している」とAlhanai氏は語ります。
このような見識は、MITの研究者やその他の人々がモデルをさらに洗練させるのに役立ちます。

しかし現在、研究者らはモデルが生データのスコア全体でどのような特定のパターンを特定するのかを発見しようとしています。
「今は少しブラックボックスです」とGlass氏は言います。
「しかしこれらのシステムは、彼らが何を拾っているのかについての説明があれば、より信頼できます。次の課題は、どのデータが押収されたかを知ることです。」

研究者らはまた、認知症などの他の認知条件を持つより多くの被験者からの追加データについて、これらの方法を試験することを目指しています。
「それはうつ病を検出するようなことではないが、誰かが認知障害を持っているかどうかを、スピーチの日常的なシグナルから評価するのと同じ概念である」とAlhanai氏は語りました。

まとめ

従来の定型文的な診断手法に取って代わり、患者との自由な文脈での会話によってAIが高い精度でうつ病の診断が出来るようになるのは、手軽でかつ誤診も防げそうだと感じました。

またスマホアプリ等に導入することで病院に行くのが億劫な人でも手軽にうつ病傾向を知ることができ、より重篤な症状の予防にもなると思いました。

近頃はAIで病気を診断する技術が多く研究されています。
医療分野でのAIの発展がますます楽しみに感じられました。

参考文献

Model can more naturally detect depression in conversations | MIT News