ニュース

Googleが「Gboard」の最新技術を解説 ~あのAndroidアプリで一番よく使われる絵文字も紹介

会話の内容に触れることなく、流れに沿った返事を提案する「Android 11」の最新技術

「Android 11」の「Gboard」における処理の流れ

 Android端末で利用できる「Google キーボード」(通称「Gboard」)は、入力履歴をもとに次に入力する単語の候補を挙げたり、クラウドから旬のキーワードを取得してサジェストしてくれる優れものだ。最近ではチャットの内容を読み取り、会話の流れ(コンテクスト)に沿った返事を提案することまでできる。しかし、そうなると心配になるのがプライバシーの保護だ。よもや「Gboard」が勝手に入力内容を第三者に売り渡すことはないだろうが、他のアプリに盗み見られたりする恐れはないだろうか。10月7日(現地時間)付けで公開された米Googleの公式ブログ“Google Online Security Blog”では、「Gboard」に組み込まれている最新のプライバシー保護技術が解説されている。

 以前のコンテクストサジェストの扱いには一貫性がなかったが、「Android 11」では管理が一元化されており、「Gboard」のサジェストストリップの上に設けられた透明なレイヤーにレンダリングされる。つまり、サジェストの内容はユーザーが選択するギリギリまでOS側で管理され、「Gboard」が知りうるのは選択した候補だけだ。「Gboard」がチャットの会話を取得したり、選ばれなかったサジェストの候補を知ることはできない。こうした仕組みの採用が進めば、信頼できるか定かではないキーボードを試したい場合などに心強い。

 さらに、「Gboard」は“フェデレーション ラーニング”と呼ばれる技術でサジェストの品質向上に努めている。標準的な機械学習のアプローチではトレーニングデータは1台のマシンやデータセンターに集中させる必要があるが、“フェデレーション ラーニング”はそれぞれのスマートフォンでトレーニングデータの学習を進め、そのアップデートだけを暗号化してクラウドに送信する。送信されたアップデートは他のユーザーのアップデートと合わせて平均化され、共有モデルの改善に使われる。こうすることで、トレーニングデータが分散していても、サジェスト品質の底上げが可能となるわけだ。個々人のトレーニングデータは端末上から外に出ることはなく、プライバシーも保たれる。

それぞれの端末でトレーニングしたデータ(A)は差分のみがクラウドに送られ、共有モデルの改善に役立てられたのち(B)、端末にフィードバックされサジェスト品質の底上げに用いられる(C)

 このような技術は、副次的に興味深い事実を明らかにしている。それぞれのユーザーがどんな絵文字を愛用しているのかはプライバシー保護により知りようがないが、データを組み合わせることでそれぞれのアプリでどのような絵文字がよく使われるのかは集計データを分析することで明らかにすることができる。Googleによると、「WhatsApp」で一番よく使われるのは「😂」で、「Google ドキュメント」の場合は「✔」であるという。また、「😷」という絵文字は新型コロナウイルス感染症(COVID-19)の流行拡大で、利用頻度ランキングで119位から42位にまで大きく順位を上げている。

 同社は今後もプライバシー原則を守りつつ、Androidにおけるスマート入力技術を改善していくとしている。