研究事例紹介

レビュー中の記述が、何について書かれているかを整理しよう


レビューの中で、自分が注目している観点に関する部分だけを読みたい。

この研究では、「宇宙空間での爆発がリアルだった!」や「実物大とミニチュアとCGの区別がつかなかった」という表現を「特撮技術」とまとめるように、あるレビュー文が実際には何について語っているかを簡潔にまとめる手法を提案しています。

研究背景

最近は、各種配信プラットフォームで大量の映画が見放題になっていて、さらに多くのプラットフォームで気軽にレビューが投稿されるようになってきています。 誰もが、様々な観点から、自分なりのレビューを投稿しています。

このような現代において、たとえば「自分は映画について、とくに『時代考証』に注目して鑑賞している」という人がいたとします。 この人は、他人の映画レビューを読むときにも、『時代考証』について書かれたレビューだけを読みたいはずです。

・・・ところが、現状のレビューサイトだと、全部のレビューは「新しい順」や「評点順」で並び替えられていて、自分の読みたいレビューを探せません。 かといって、『時代考証』というキーワードを含むレビューだけをフィルタリングすると、今度は全然欲しいレビューを見つけられません。 『時代考証』に関するレビューでは、「この時代にこの電車は走っていないはずだ」、「服が戦後のものだ」などと書かれる場合が多く、『時代考証』という単語は含まないからです。

提案内容

そこでこの研究では、あらかじめレビューを文単位に分割して、1つ1つの文が何に対して言及している文であるかを判別することにしました。 こうすることで、○○という観点に注目したレビューだけ探したり、○○という観点から好評な映画を探す、などのさまざまな応用的な検索が可能になります。

実際には、大規模生成言語モデル「T5」を活用し、文を入力すると観点名を出力するシステムを開発しました。

具体的には、

最終的には、任意の文を入れると、それが何について言及している文であるかを1~2単語で言い表すようなシステムが完成しました。

実験と分かったこと

評価実験では、Yahoo!映画から収集したレビューを使用し、生成された観点名の正確性、粒度、独自性を評価しました。 その結果、提案手法は、従来の分類や抽出ベースのアプローチでは難しい「抽象的で細分化された観点名」を高い精度で生成できることが確認されました。 一方で、学習データに依存した観点名が生成されやすいという課題も明らかになりました。

文献情報