フェイスブックが希少言語に適用可能な「教師なし学習」用いた翻訳技術を公開

ロボティア編集部2018年9月11日(火曜日)
Photo by FAIR HP

フェイスブック(Facebook)がプラットフォーム上でのコンテンツの翻訳に斬新な手法を採用したと海外メディアは報じた。教師なし学習で行うアプローチであり、英語から希少言語であるウルドゥー語といった、翻訳サンプルの少ない言語ペアに適用可能であるという。

注目の翻訳手法は、フェイスブックAIリサーチ(Facebook AI Research=FAIR)が開発。FAIRは2013年、機械学習やコンピュータの視覚情報処理などの研究を加速化させることを目的に立ち上げられたフェイスブック社の人工知能研究部門である。

機械翻訳分野の同業他社は単一言語コーパスとパラレルコーパスの両方を活用している。一方、FAIRは単一言語コーパスのみに頼り、データを訓練させるという手法を採用した。

「パラレルコーパスの構築が必ずしもスムーズにいくとは限らない。例えば翻訳データの少ないポルトガル語‐ネパール語の場合、ポルトガル語、ネパール語に堪能な人をそれぞれ見つけ出すことは困難である。一方で、単一言語コーパスの場合、各々の言語で書かれたウェブサイトへアクセスし、ウェブページをダウンロードするだけで良いため、作業に手を煩わすことはない」(FAIRフランス研究所代表 アントワン・ボルデ氏)

気になるのは翻訳精度の高さだ。テクノロジーを専門に扱う海外メディアの報道によると、10万件の翻訳データを使って教え込まれた教師ありモデルと同等レベル。少なくとも、既存の希少言語ペア向け機械翻訳システムを凌駕するという。

「十分なデータが得られない言語ペアの場合には、教師ありモデルよりも我々のシステムが向いていることが証明された」(アントワン・ボルデ氏)

研究内容の詳細については、今秋ベルギー・ブリュッセルで開催される自然言語系国際会議「2018 Conference on Empirical Methods in Natural Language Processing」にて発表予定である。

希少言語の翻訳事情をめぐっては、日本国内で深刻な問題を抱えている。近年の訪日ブームにより、ベトナムやタイ、インドネシアなどの東南アジア諸国を中心に訪日観光客が急増。なお、今年4月には、来日外国人の犯罪件数に関してベトナム人が中国人を抜いたというニュースが報じられている。今後、特に東南アジア諸国からの入国者が増えるにつれ、彼らを言語面でサポート可能な人材のニーズは今後も増えていくことが予想される。