研究事例紹介
レビュー中の記述が、何について書かれているかを整理しよう
この研究では、「宇宙空間での爆発がリアルだった!」や「実物大とミニチュアとCGの区別がつかなかった」という表現を「特撮技術」とまとめるように、あるレビュー文が実際には何について語っているかを簡潔にまとめる手法を提案しています。
最近は、各種配信プラットフォームで大量の映画が見放題になっていて、さらに多くのプラットフォームで気軽にレビューが投稿されるようになってきています。 誰もが、様々な観点から、自分なりのレビューを投稿しています。
このような現代において、たとえば「自分は映画について、とくに『時代考証』に注目して鑑賞している」という人がいたとします。 この人は、他人の映画レビューを読むときにも、『時代考証』について書かれたレビューだけを読みたいはずです。
・・・ところが、現状のレビューサイトだと、全部のレビューは「新しい順」や「評点順」で並び替えられていて、自分の読みたいレビューを探せません。 かといって、『時代考証』というキーワードを含むレビューだけをフィルタリングすると、今度は全然欲しいレビューを見つけられません。 『時代考証』に関するレビューでは、「この時代にこの電車は走っていないはずだ」、「服が戦後のものだ」などと書かれる場合が多く、『時代考証』という単語は含まないからです。
そこでこの研究では、あらかじめレビューを文単位に分割して、1つ1つの文が何に対して言及している文であるかを判別することにしました。 こうすることで、○○という観点に注目したレビューだけ探したり、○○という観点から好評な映画を探す、などのさまざまな応用的な検索が可能になります。
実際には、大規模生成言語モデル「T5」を活用し、文を入力すると観点名を出力するシステムを開発しました。
具体的には、
- 正解データの作成:クラウドソーシングで、1000人くらいの人に、10万件くらいレビュー文を読んでもらって、「この記述はこの観点について語っている」という正解データを作りました。
- 追加の事前学習: 映画レビューのデータを使用して、T5が映画に関連する語彙や知識を学習しました。
- 中間タスクでのファインチューニング: 学習時に、2つの経由タスクを追加し、モデルの精度を向上しました。
- レビュー文が観点を含むかどうかの二値分類
- 2つの文が同じ観点に関連しているかの判定
- 観点名生成: 任意のレビュー文を入力すると、対応する観点名を生成するタスクで、実際に文から観点名への変換をさせました。
最終的には、任意の文を入れると、それが何について言及している文であるかを1~2単語で言い表すようなシステムが完成しました。
評価実験では、Yahoo!映画から収集したレビューを使用し、生成された観点名の正確性、粒度、独自性を評価しました。 その結果、提案手法は、従来の分類や抽出ベースのアプローチでは難しい「抽象的で細分化された観点名」を高い精度で生成できることが確認されました。 一方で、学習データに依存した観点名が生成されやすいという課題も明らかになりました。
文献情報
- タイトル:
- Generating Fine-Grained Aspect Names from Movie Review Sentences Using Generative Language Model
- 著者:
- Tomohiro Ishii, Yoshiyuki Shoji, Takehiro Yamamoto, Hiroaki Ohshima, Sumio Fujita, Martin J. Dürst
- 書誌情報:
- The 25th International Conference on Information Integration and Web Intelligence (iiWAS 2023)
- 掲載サイト(Springer)