yasuokaの日記: 簡体字中国語コーパスUD_Chinese-GSDSimpと繁体字中国語コーパスUD_Chinese-GSD
岩本蘭・金山博『Universal Dependenciesの変遷と評価表現抽出への影響』(言語処理学会第27回年次大会発表論文集(2021年3月), pp.706-711)を読んでいたところ、現代中国語Universal Dependenciesに関して、微妙に気になる記述があった。
本稿では,23言語のUDコーパスver. 2.0 (2017年3月)-ver. 2.7 (2020年11月)を対象にし,コーパスの更新状況と傾向について分析する.
という目的で書かれている論文なのだが
簡体字中国語のコーパスUD2.0, UD2.2は存在しないため評価から外した.
となっていたり
簡体字中国語はリリース時期が今回分析した言語の中では比較的遅く,UD2.5から正式にリリースされた.そのため,UD2.4の公開時にプレリリースされdevブランチに存在した簡体字コーパスとの比較を行なった.
となっていたりする。それは「更新状況と傾向について分析」という点では、微妙にまずい。
UD2.4 (2019年5月公開)の時点では、現代中国語Universal DependenciesはUD_Chinese-GSD・UD_Chinese-PUD・UD_Chinese-HK・UD_Chinese-CFLの4つがあったが、前者3つが繁体字で、UD_Chinese-CFLだけが簡体字だった。この状態に苦慮したスタンフォード大学の齐鹏(Qí Péng)は、2019年8月(確か19日)に、私(安岡孝一)と共同でUD_Chinese-GSDの簡体字化に着手し、次のUD2.5 (2019年11月公開)でUD_Chinese-GSDSimpとしてリリースした。また、この際に見つかったUD_Chinese-GSDの問題点は、UD2.5において出来る限り解消(UD_Chinese-GSDSimpと同期)した。
ここまでの事実を考え合わせると、「UD2.4の公開時にプレリリースされdevブランチに存在した簡体字コーパス」というのは、どう考えても辻褄が合わず、何か別のモノを見ている可能性がある。というか、元々は繁体字中国語コーパスだったものを、簡体字中国語コーパスに変換して、その検討結果を繁体字中国語コーパスへも反映しているわけだから、「更新状況と傾向について分析する」のなら、繁体字中国語コーパスの方を分析すべきだと思うのだが。
簡体字中国語コーパスUD_Chinese-GSDSimpと繁体字中国語コーパスUD_Chinese-GSD More ログイン