ニュース

日本語テキストの折り返しを自然に ~Googleが分かち書き器「BudouX」を紹介

「Google Chrome」や「Android」に標準搭載へ

「GitHub」でホストされている「BudouX」

 単語と単語の間をスペースで空けて書く英語などの言語と異なり、日本語や中国語をはじめとするアジア圏の一部の言語は分かち書きをしない。そのため、スクリーンサイズによっては意図しないところで改行(テキストの折り返し)が発生し、読みにくくなったり、デザインを損なったりすることがある。かといって、すべての改行や禁則処理を人の手で管理するのも現実的ではない。そこで用いられるのが「分かち書き器」と呼ばれるライブラリだ。米Googleは9月24日、公式ブログ「Google Developers Japan」で分かち書きライブラリ「BudouX」を紹介している。

「BudouX」の元となった「Budou」。日本語などの環境でテキストの折り返しを改善する

 「BudouX」は、2021年末ごろからオープンソースで開発が継続されているライブラリ。2016年に公開された「Budou」の後継として位置付けられており、以下の3つを基本方針としている。

  • Small:機械学習を利用しつつも、サイズはモデルを含めて20KB程度。Webサイトに組み込むのも難しくはない
  • Standalone:特定のツールに依存せず、単体で利用可能
  • Language Neutral:「BudouX」の学習スクリプトにデータセットを与えれば、どの言語のモデルも学習できる

 「BudouX」は現在、日本語と中国語(簡体字、繁体字)で利用可能。プログラミング言語としてはJavaScript、Python、Javaが公式にサポートされている。同社によると、実際に「adobe.com」などで活用されているようだ。

「BudouX」使用前
「BudouX」使用後

 「BudouX」は「ICU」(International Components for Unicode)となっており、今後はWeb以外での活用が見込まれている。「Google Chrome 119」以降では「lang」属性として「ja」が指定された要素でCSSの「word-break: auto-phrase」を利用すると、「BudouX」による分節区切りが適用される。また、「Android 14」以降でも「BudouX」が使われているとのこと。