Wikipediaで多言語版から翻訳の必要な記事を抽出する「Wikipedia GapFinder」
タレコミ by headless
headless 曰く、
Wikimedia Foundationとスタンフォード大学がサーバーログを用いてWebサイトのハイパーリンク構造を改善する共同研究を行い、研究成果に基づいて開発した「Wikipedia GapFinder」のベータ版を公開している(Stanford Newsの記事、 VentureBeatの記事)。
全言語版合計で4千万件近い記事を持つWikipediaだが、言語別では最も多い英語版の記事が500万件を超えているのに対し、2位のスウェーデン語版は300万件弱、13位の日本語版は100万件強であり、言語間のギャップが大きい。
研究では対応する記事がフランス語版に存在しない英語版記事のうち、文化的・地理的な関連性からフランス語版でも重要と考えられる記事を選択し、翻訳が必要な記事として編集者1人に5件ずつ通知するという実験を行ったそうだ。
実験開始時点で過去1年間に英語版・フランス語版の両方で1回以上編集した編集者を2グループに分け、1つのグループにはランダムな5件を割り当て、もう1つのグループには過去に編集した記事から興味のありそうな5件を割り当てた。1か月後の記事作成率を通知しなかった場合と比較したところ、ランダムな記事で2倍、興味のありそうな記事で3倍の記事作成率になったとのこと。
GapFinderでは翻訳元の言語と翻訳先の言語を指定することで、翻訳先の言語版に存在しない記事をリストアップする。検索語句を指定して記事を絞り込むことも可能だ。リストアップされた記事を選択すると翻訳元記事の内容が表示され、ここから翻訳や新規記事作成が可能(要ログイン)となっている。
Wikipediaで多言語版から翻訳の必要な記事を抽出する「Wikipedia GapFinder」 More ログイン