SentencePieceによる「単語」分割 (#3969853) | タンパク質のアミノ酸鎖を「文」とみなすなら、その「単語」はどう決めるべきか | スラド

この議論は、yasuoka (21275)によってログインユーザだけとして作成されたが、今となっては新たにコメントを付けることはできません。

「タンパク質のアミノ酸鎖を「文」とみなすなら、その「単語」はどう決めるべきか」記事へのコメント

記事ページを表示すべてのコメント取得

検索3コメント Log In/Create an Account

アミノ酸は (スコア:1)

by M-FalconSky (8868)

DNA上でコドン=3塩基対で1つの翻訳ですし、その場合、文字という単位にすると膨大なタンパク質があるので、単語境界の不明さがでちゃう。
ので、そこを仮に置くのは、トライアルとしてはまあまあしょうがない気がしますね...
(アミノ酸それぞれに表現の1文字があるのは習慣の問題なのでそれだけでなにかじゃないだろうし)
# むろん考え不足ってのはあるだろうとは思いますが

--
M-FalconSky (暑いか寒い)
- SentencePieceによる「単語」分割 (スコア:2)
  
  by yasuoka (21275) on 2021年01月31日 19時49分 (#3969853) 日記
  
  実は、このあたりの「単語」をどうするかっていう研究は、既にいくつか発表されてまして、私(安岡孝一)個人としては『A High Efficient Biological Language Model for Predicting Protein–Protein Interactions』 [doi.org]のアイデア(SentencePieceを改造)が、「未知の言語」に対しても、まあまあ効くんじゃないかと思ってるのです。でも、↑の『Science』の論文は、そのあたりのサーベイを全くおこなってないみたい…。
  
  シェア
  
  親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

アレゲは一日にしてならず -- アレゲ見習い