アカウント名:
パスワード:
DNA上でコドン=3塩基対で1つの翻訳ですし、その場合、文字という単位にすると膨大なタンパク質があるので、単語境界の不明さがでちゃう。
ので、そこを仮に置くのは、トライアルとしてはまあまあしょうがない気がしますね...(アミノ酸それぞれに表現の1文字があるのは習慣の問題なのでそれだけでなにかじゃないだろうし)
# むろん考え不足ってのはあるだろうとは思いますが
実は、このあたりの「単語」をどうするかっていう研究は、既にいくつか発表されてまして、私(安岡孝一)個人としては『A High Efficient Biological Language Model for Predicting Protein–Protein Interactions』 [doi.org]のアイデア(SentencePieceを改造)が、「未知の言語」に対しても、まあまあ効くんじゃないかと思ってるのです。でも、↑の『Science』の論文は、そのあたりのサーベイを全くおこなってないみたい…。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲは一日にしてならず -- アレゲ見習い
アミノ酸は (スコア:1)
DNA上でコドン=3塩基対で1つの翻訳ですし、その場合、文字という単位にすると膨大なタンパク質があるので、単語境界の不明さがでちゃう。
ので、そこを仮に置くのは、トライアルとしてはまあまあしょうがない気がしますね...
(アミノ酸それぞれに表現の1文字があるのは習慣の問題なのでそれだけでなにかじゃないだろうし)
# むろん考え不足ってのはあるだろうとは思いますが
M-FalconSky (暑いか寒い)
SentencePieceによる「単語」分割 (スコア:2)
実は、このあたりの「単語」をどうするかっていう研究は、既にいくつか発表されてまして、私(安岡孝一)個人としては『A High Efficient Biological Language Model for Predicting Protein–Protein Interactions』 [doi.org]のアイデア(SentencePieceを改造)が、「未知の言語」に対しても、まあまあ効くんじゃないかと思ってるのです。でも、↑の『Science』の論文は、そのあたりのサーベイを全くおこなってないみたい…。