AppleのスピードチームがSiriがどのように新しい言語を学習するか解説

2017年3月15日

1468

Appleがパーソナルアシスタントでトップにいるの1つがローカリゼーションです。 Siriは36の国の方言で24の言語をサポートしています。対照的に、Googleのアシスタントは、英語とドイツ語の2つの言語とAlexa（アマゾンエコで普及している）の5つの言語しか理解できません。

iOS 10.3は、国際的な利点をさらに広げる、上海語という別の言語を導入しています。 Reutersとのインタビューで、Appleのスピーチで、Siriが全く新しい言語を学ぶ方法を説明しています。

Alex Aceroは現在、2013年にAppleに入社したAppleのスピーチチームをリードしています.Siriの音声認識はNuanceによって強化されました.Appleは数年前に、数年前にマシンに大きく依存しているカスタム内蔵の音声プラットフォーム単語の理解を向上させることを学びます。

Aceroは、新しい言語を習得するという観点から、新しい言語を話すことができる現実の人をさまざまな段落や単語リストを読み込んで、さまざまな方言やアクセントに広げることによってプロセスが始まると説明しています。

人間の発声は、他の人間によって記録され、転写される。これは、単語の正規表現と、それらがどのようにして大声で声を出して、正確さを保証するために実際の人々によって指示されるかを形成する。この生の訓練データは、その後、アルゴリズム機械訓練モデルに供給される。

コンピュータ言語モデルは、単語の任意の文字列の転記を予測しようと試みる。アルゴリズムは、より多くのデータで訓練されるので、時間の経過とともに自動的に改善することができます。 Appleはデータを内部的に少し調整し、次のステップに移ります。

Siriに直接ジャンプするのではなく、iOSとMacOSディクテーションの機能として新しい言語をリリースする。これはiPhoneのキーボードでスペースバーの隣にあるマイクキーを押すことで利用できる。これにより、Appleはより広範な人々の基盤からより多くの音声サンプル（匿名で送信された）を得ることができます。

これらの現実世界のオーディオクリップには、バックグラウンドノイズや咳、一時停止、スラーリングなどの完璧ではない音声が自然に組み込まれています。アップルは、サンプルを取り込んで人間によって転写し、言語モデルのための入力データとしてこの新たに検証されたオーディオとテキストのペアリングを使用します。報告書によれば、この二次的なプロセスは口述の誤り率を半減させます。

アップルは、システムを見出しのSiri機能として展開し、この手順を繰り返します。これとは別に、声優は音声シーケンスを記録して、Siriは音声を合成し、返信でテキスト読み上げを行うことができます。

その言語は、ShanghaineseがiOS 10.3とmacOS 10.12.4の一部と同じように、ソフトウェアアップデートでリリースされます。 Siriには、「最も一般的なクエリ」に対するプリセット回答があります。これにより、シリは「冗談を教えてください」のような質問に答えることができます。「近くのレストランを探す」のような質問はもちろん、動的に処理されます。

最終的に、人工知能は、人間が書いた応答のスクリプト化されたデータベースを必要とせずに一般的な会話の質問に答えることができます。今日はそれが本当に可能ではありません。 Siriとそのすべての競合会社は現在、ジョークと短い答えを書くために人間に頼っています。

Aceroによると、AppleはSiriが新しい言語で配備されてから現実のユーザーが何を求めているかを見て、2週間ごとに人の回答のデータベースを更新するという。