アカウント名:
パスワード:
もしかするとAIの進化で仕事を奪われるのはクリエイターの方が先かもしれない
昔から作曲できるプログラムは沢山あって珍しくはない、作曲はイメージと違ってコード進行とかが結構理論的なのでプログラムと相性がいいが、誰かが深層学習を使って90年代風とかロボットアニメ風の聞いたことあるようなメロディーを無限に作り出すAIを作ることは出来るかもしれないでもそれを楽曲にしようとすると音楽の知識が無いと無理なので今は難しいと思う
視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。音楽の知識を明示的に使おうが使わなかろうが、それが楽曲として完成度が高いほど、既存の何かを想起させることになるだろう。
> 視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。
なぜでしょう?視覚と聴覚で何が違うんでしょうか?
例えば60秒の音声ファイルがあるとします。CD音質だとすると、 16bit/ch * 44.1K * 2ch * 60 で約8400万ビットになります
つまり可能な組み合わせは 2^8400万。10の2500万乗ぐらいの数です
一生かかっても全パターンを聴くことはできません
まだ聞いたことのない音楽がたくさん存在するとおもいます。
> 視覚と聴覚で何が違うんでしょうか?この疑問自体はすごくいいと思うんだが、CD音質の例は微妙かな。ラジオで聴いていた曲をCDで初めて聴いたときに、音質が良くなったとは思っても、聞いたことがないものとは思わないですよね。
それどころか、楽器を変えても、テンポを変えても、移調しても、「オリジナル」を認識できる。一方で、(時間波形を)逆再生すると認識できなかったりする。
素人考えだが、声がコミュニケーションツールとしてヒト以前から発達していたのに対して、コミュニケーションツールとして人体以外の視覚メディアを利用したのが最近であることが関係していると思う。
イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
予想に反してって言うけどクリエイター分野というかPCで作れる分野はAIに取って代わられるって前から言われてるよね。予想に反してるのはハードウェアの方が代替が難しい、人間の方が単価が安いって事の方でその点ではブレードランナー2049はなかなか鋭いSFだったね。
> イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。> あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
「それっぽい」物が限度でしょうね。その「トッピング」をモデルに組み込む方法がさっぱりわからないから、データ集めてパターン認識させてるのが現状なので。適当にいくつも生成させて、その中から「トッピング」が載っているように聞こえるものを実際に聞いて探すぐらいが関の山じゃないですかね。
ゲームアプリ用の音楽とか店内用BGMなど、創作性は特に問われないような分野だと活躍できると思いますが、それ以外だと厳しいんじゃないですかね。
感情とか意識とか身体性とかその人なりの記憶なんかが定義されていないと結局”それっぽいのをまとめた”ようにしか聴こえないと思う。こういったものの正しい使い方は素材として使うとかアシスタントとしてして使うとかかな。鼻歌は思いつくけど知識がなくてまとめられないとか。
でもそれっぽい曲が量産できた方が予算に悩むゲームプロデューサーなんかは喜ぶかもしれない。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
アレゲはアレゲ以上のなにものでもなさげ -- アレゲ研究家
予想に反して (スコア:1)
もしかするとAIの進化で仕事を奪われるのはクリエイターの方が先かもしれない
Re: (スコア:0)
昔から作曲できるプログラムは沢山あって珍しくはない、作曲はイメージと違ってコード進行とかが結構理論的なのでプログラムと相性がいい
が、誰かが深層学習を使って90年代風とかロボットアニメ風の聞いたことあるようなメロディーを無限に作り出すAIを作ることは出来るかもしれない
でもそれを楽曲にしようとすると音楽の知識が無いと無理なので今は難しいと思う
Re: (スコア:0)
視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。
音楽の知識を明示的に使おうが使わなかろうが、それが楽曲として完成度が高いほど、既存の何かを想起させることになるだろう。
Re: (スコア:0)
> 視覚メディアと違って、音楽で難しいのはオリジナリティだと思う。
なぜでしょう?視覚と聴覚で何が違うんでしょうか?
例えば60秒の音声ファイルがあるとします。
CD音質だとすると、 16bit/ch * 44.1K * 2ch * 60 で約8400万ビットになります
つまり可能な組み合わせは 2^8400万。10の2500万乗ぐらいの数です
一生かかっても全パターンを聴くことはできません
まだ聞いたことのない音楽がたくさん存在するとおもいます。
Re: (スコア:0)
> 視覚と聴覚で何が違うんでしょうか?
この疑問自体はすごくいいと思うんだが、CD音質の例は微妙かな。
ラジオで聴いていた曲をCDで初めて聴いたときに、音質が良くなったとは思っても、聞いたことがないものとは思わないですよね。
Re:予想に反して (スコア:1)
それどころか、楽器を変えても、テンポを変えても、移調しても、「オリジナル」を認識できる。
一方で、(時間波形を)逆再生すると認識できなかったりする。
素人考えだが、声がコミュニケーションツールとしてヒト以前から発達していたのに対して、
コミュニケーションツールとして人体以外の視覚メディアを利用したのが最近であることが関係していると思う。
Re: (スコア:0)
イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。
あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
予想に反してって言うけどクリエイター分野というかPCで作れる分野はAIに取って代わられるって前から言われてるよね。
予想に反してるのはハードウェアの方が代替が難しい、人間の方が単価が安いって事の方で
その点ではブレードランナー2049はなかなか鋭いSFだったね。
Re: (スコア:0)
> イラストや脚本の自動生成もそうだけど平均化された「それっぽい」物までは出来る。
> あとは「納得できるオチ」というか「受ける個性」のような多くの人に刺さる要素をトッピングできれば完成しそう。
「それっぽい」物が限度でしょうね。その「トッピング」をモデルに組み込む方法がさっぱりわからないから、データ集めてパターン認識させてるのが現状なので。適当にいくつも生成させて、その中から「トッピング」が載っているように聞こえるものを実際に聞いて探すぐらいが関の山じゃないですかね。
ゲームアプリ用の音楽とか店内用BGMなど、創作性は特に問われないような分野だと活躍できると思いますが、それ以外だと厳しいんじゃないですかね。
Re: (スコア:0)
感情とか意識とか身体性とかその人なりの記憶なんかが定義されていないと結局”それっぽいのをまとめた”ようにしか聴こえないと思う。
こういったものの正しい使い方は素材として使うとかアシスタントとしてして使うとかかな。
鼻歌は思いつくけど知識がなくてまとめられないとか。
でもそれっぽい曲が量産できた方が予算に悩むゲームプロデューサーなんかは喜ぶかもしれない。