yasuokaの日記: GoogleのBERTの元データは本当にWikipediaなのか 2
日記 by
yasuoka
11月12日の日記に書いた「しにはとんとんワークケートを」が、どうにもこうにも気になったので、少し探してみた。端的にはBERTのChineseモデルのvocab.txtにある、以下の7行だ。
せからこ
してくたさい♪この
しにはとんとんワークケートを
するとあなたにもっとマッチした
ならワークケートへ
もみつかっちゃうかも
ワークケートの
私(安岡孝一)が調べた限りでは、これら7つのvocabularyは、ワークゲートの求人情報から取られたものだ。濁点が落ちている上に、漢字との間にムリヤリ「語境界」が入れられているため、かなり探しにくかったのだが、以下の文の一部だろう。
お問い合せからご連絡ください。
お仕事探しにはどんどんワークゲートを利用してください♪ この条件の求人/求人情報以外にも
検索するとあなたにもっとマッチした求人/求人情報もみつかっちゃうかも。
求人情報ならワークゲートへ!
ワークゲートの求人はすべて募集中。
そう思って、当該vocab.txtの中を捜してみると、ちゃんと「くたさい」も「はすへて」も含まれていた。素晴らしい。でも、どうしてChinese(中国語)モデルのvocab.txtに、ワークゲートの求人情報が入ってるんだろ。
これはアレゲ案件 (スコア:1)
タレコミ向きかも…
Re:これはアレゲ案件 (スコア:2)
Chineseモデルのvocab.txtには、他にも
なんてのも含まれてるのですけど、こっちは日本語Wikipedia [wikipedia.org]からなのかなぁ…