リクルート、解析精度を向上した日本語自然言語処理ライブラリ 「GiNZA version 5.0」公開
- 2021/8/26
- 教育
- AI研究機関, オープンソースライブラリ, 日本語自然言語処理, 検索エンジン
リクルートは25日、同社のAI研究機関であるMegagon Labsから、国立国語研究所との共同研究成果として、Transformers事前学習モデルを用いることで、解析精度を大幅に向上させた日本語自然言語処理オープンソースライブラリ(OSSライブラリ)「GiNZA version 5.0」を無料公開したと発表した。
自然言語処理技術とは、日常的に使っている言語(自然言語)をコンピュータに処理させる一連の技術を指し、検索エンジンや機械翻訳、対話システム、顧客の声分析など、生活・ビジネスにおけるさまざまなシーンで利用されている。
リクルートのAI研究機関・Megagon Labsが開発・提供する「GiNZA」は、機械学習を利用した日本語の自然言語処理に関心があり解析を行いたいと考えている研究者やエンジニア、データサイエンティストに向けて開発された、無料で利用可能なライセンスの下で公開されたOSSライブラリ。ビジネスの現場で広く利用されることを想定し、ワンステップでの導入や高速・高精度な解析処理、単語依存構造レベルの国際化対応などの特長を備えている。
「GiNZA」を使えば、構文構造の解析から、人名・組織名・地名・商品名・数値といった固有表現抽出まで統合的に解析でき、また、日本語文法に根ざした、日本語の文節を単位とする解析結果が容易に得られる。
2020年1月のversion 3.0公開以降、19カ月で10万ダウンロードを超え、Universal Dependencies(UD)の日本語解析系として、学術機関だけでなく、頑健かつ柔軟な応用が可能な実用的ライブラリを望む産業界の多くの人々にこ利用されている。
Megagon Labsは今後も「GiNZA」をアップデートしていくことで、より速く、高精度な日本語の自然言語処理を可能にし、あらゆる産業において自然言語処理の活用が促進される世界を目指し、研究活動を進めていくとしている。