パスワードを忘れた? アカウント作成
13771836 journal
中国

yasuokaの日記: GoogleのBERTの元データは本当にWikipediaなのか 2

日記 by yasuoka

11月12日の日記に書いた「しにはとんとんワークケートを」が、どうにもこうにも気になったので、少し探してみた。端的にはBERTのChineseモデルのvocab.txtにある、以下の7行だ。

せからこ
してくたさい♪この
しにはとんとんワークケートを
するとあなたにもっとマッチした
ならワークケートへ
もみつかっちゃうかも
ワークケートの

私(安岡孝一)が調べた限りでは、これら7つのvocabularyは、ワークゲートの求人情報から取られたものだ。濁点が落ちている上に、漢字との間にムリヤリ「語境界」が入れられているため、かなり探しにくかったのだが、以下の文の一部だろう。

お問い合せからご連絡ください。
お仕事探しにはどんどんワークゲートを利用してください♪ この条件の求人/求人情報以外にも
検索するとあなたにもっとマッチした求人/求人情報もみつかっちゃうかも。
求人情報ならワークゲートへ!
ワークゲートの求人はすべて募集中。

そう思って、当該vocab.txtの中を捜してみると、ちゃんと「くたさい」も「はすへて」も含まれていた。素晴らしい。でも、どうしてChinese(中国語)モデルのvocab.txtに、ワークゲートの求人情報が入ってるんだろ。

この議論は、yasuoka (21275)によって「 ログインユーザだけ」として作成されている。 ログインしてから来てね。
typodupeerror

長期的な見通しやビジョンはあえて持たないようにしてる -- Linus Torvalds

読み込み中...