ニュース要約は、どういうロジックなのか調べてみた

yahoo3

Yahoo!に3000万ドルで買収されたニュース要約


アメリカの17歳の高校生が作ったニュースの自動要約サービス「summly」が、Yahoo!に買収されて話題になりました。日本でもつい最近「vingow」が要約機能を追加したバージョンをアップデートしたそうですが、どういう要約のロジックなのか調べてみました。

「summly」の開発者、ニック・ダロイジオさんは、“オートマティック・サマライゼーション=自動要約”に関する研究論文を読み漁ってアルゴリズムを作ったそうです。買収後は「summly」の要素技術がYahooのアプリに搭載されています。
私は英語が全く分からないので、なんとなくニュアンスですが、とりあえず2本のニュースについて調べてみました。

まず1本目。

Yahooのアプリを見ると、冒頭の画像のように要約された文章が出てきます。元のニュースサイトを見て、要約されている文章に水色の線を引いてみました。

yahoo1
まず、文章を単語や文節ごとにズタズタに分断して繋ぎ合わせてたりはしてないようです。文章中から2~3つのセンテンスを抜いて繋ぎ合わせています。

このニュースは、アメリカのアメフトチーム、イーグルスの監督のチップ・ケリーさんが、クオーターバックのポジションに誰を配置するか迷ってるという記事(だと思います多分)。
抜き出されている箇所をならべると、

1.冒頭のタイトル
2.3センテンスめの段落まるまる
3.最後から2番目のセンテンスの1文章という感じです。

で、とりあえずこれを見て思った仮説は

・冒頭の文章を抜いてる?
・文章を強調している箇所を抜いてる?
・文章中に多数登場する主語(この場合はチップ・ケリー)を含む文章を抜いてる?

ということです。まず、ニュースって冒頭に概要が書かれているところが多いし、強調が入っている場合は重要センテンスである場合が多いですね。で、たいてい人かモノゴトについて書いているので文章中に登場回数が多い名詞を主語にとっているところは要約の可能性が高いです。

なんとなく見えてくる3つの法則!?



で、もう1個見てみました。今度はもっと長いやつです。
yahoou2

で、長いのですが要約箇所は前半に集中しています。

yahoou3

このニュースは、ハサン・ロウハーニーさんというイランの次期大統領を応援する催しについてです。要約されている箇所に線を引いてみましたが、冒頭のセンテンスまるまると、数段下の一文ですね。

一個めの記事でも共通していた

・冒頭の文章を抜いてる?
・文章中に多数登場する主語(この場合はハサン・ロウハーニー)を含む文章を抜いてる?

がこちらでも適応されてる気がします。

なので、まとめると、

1.冒頭のセンテンスを抜いている傾向があるかも
(が、一番目のニュースはタイトルそのものが抜いてあったので、ソース内のtitleタグなどを読んでいる気がします。)
2.文章の強調箇所を抜いている傾向があるかも
(まあ、1個しかなかったので他も複数見てみないと分からないですが)
3.文章中に登場する主語をカウントして登場回数の多いものを主語に取るセンテンスを抜いてるかも
(この場合、複数回そういうセンテンスは登場するので、それを絞る必要条件がありそうです)

というような条件がいくつかあって、接続詞等を見て除外する条件もつけてるのかなーという気もします。(ちなみに、ではじまる文章は文中の主要部にはならないので)

「vingow」についても今度時間があるとき、チラっと見てみようかなと思います。
いずれにしろ、使い手側にとってはとっても便利ですね。

Applit 〜チャットで好みのアプリやiPhoneの使い方が聞ける〜
iPhoneアプリ/無料 

ダウンロードする

▼ソーシャルマーケティングやオウンドメディア企画支援を承っております。
お問い合わせはこちらから。
https://torino-inc.jp/
▼良かったらTwitterをフォローしてください
https://twitter.com/toriaezutorisan

Bookmark this on Google Bookmarks
Pocket

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です