元論文はこちら. J. Serrà et al., "Measuring the Evolution of Contemporary Western Popular Music" Scientific Reports, 2, 521 (2012). [doi.org] DOI:10.1038/srep00521
背景:20世紀に入って以降,言語などの統計分析が進んだ.近年になり計算機の能力が上がったおかげで音楽などのよりデータ量の多い対象に対しても同様な手法が適用出来るようになったこと,また最近コロンビア大とEcho Nest(MITメディアラボからのスピンアウト企業.音楽等の機械解析等を専門とする)により,100万曲以上の楽曲(から抽出されたデータ)を元にした研究に使用出来る巨大なデータセット(Million Song Dataset)が作成されたため,これを用いた分析を行った.
用いたデータ:Million Song Datasetの中から,分析に必要な十分なデータを持つ46万曲以上の楽曲(1955-2010).また,経時変化の分析においては±2年の窓を設定する.例えば「1965年と1995年の比較」といった場合は,1963-1967年のデータをまとめて解析したものと,1993-1997年のデータをまとめて解析したものの比較となる.含まれる楽曲はロック,ポップス,ヒップホップ,エレクトロニック,フォーク,ジャズ etc.と幅広い.
日記を諦めてこちらに長文 (スコア:4, 参考になる)
誤:Science Reports,正:Scientific Reports
Scientific Reportsは,やたらと新雑誌を創刊しまくっているNature Publishing Groupのオープンアクセスジャーナルです.つまり誰でも無料で読めます.
日記に書こうと思っていたけど,うまくまとまらなかったのでこちらに長文で記述.
元論文はこちら.
J. Serrà et al., "Measuring the Evolution of Contemporary Western Popular Music"
Scientific Reports, 2, 521 (2012). [doi.org]
DOI:10.1038/srep00521
背景:20世紀に入って以降,言語などの統計分析が進んだ.近年になり計算機の能力が上がったおかげで音楽などのよりデータ量の多い対象に対しても同様な手法が適用出来るようになったこと,また最近コロンビア大とEcho Nest(MITメディアラボからのスピンアウト企業.音楽等の機械解析等を専門とする)により,100万曲以上の楽曲(から抽出されたデータ)を元にした研究に使用出来る巨大なデータセット(Million Song Dataset)が作成されたため,これを用いた分析を行った.
用いたデータ:Million Song Datasetの中から,分析に必要な十分なデータを持つ46万曲以上の楽曲(1955-2010).また,経時変化の分析においては±2年の窓を設定する.例えば「1965年と1995年の比較」といった場合は,1963-1967年のデータをまとめて解析したものと,1993-1997年のデータをまとめて解析したものの比較となる.含まれる楽曲はロック,ポップス,ヒップホップ,エレクトロニック,フォーク,ジャズ etc.と幅広い.
解析法:まず,楽曲の調を揃え,拍で分解する.拍内に含まれる音を抜き出し,それをその拍の「ピッチ」と定義する.例えばその拍がCの音しか含まなければその拍のピッチは{C},CとDの音を含めば{C,D},BとE#とFなら{B,E#,F},といった具合である.楽曲中でのそれぞれの「ピッチ」の出現頻度をカウントする.
また,ある拍のピッチが,次の拍でどうなったかというのをネットワークと捉え,曲全体のピッチのネットワーク構造を解析する.例えばある拍が{C},続く拍が{C,D}であったら,{C}というノードから{C,D}というノードへのリンクを一本足す.当たり前だが,ノードとして捉える際には,曲の10拍目の{C}も55拍目の{C}も同じノードと見なす(要は,あるピッチは,どんなピッチとの繋がりが深いか?という分析).またここから,各ノードの持つ平均のリンク数も測定出来る.
同じ事を,各拍の音色(フーリエ変換したものの時間方向スペクトル)であるとか,音量(各拍の音量)に関しても行う.
結果1_ピッチ:ピッチの出現頻度分布は年代を問わず冪乗則に乗る.つまり,この冪乗の指数をαとすると,1番多く出現した「ピッチ」に比べ,n番目に多く出現した「ピッチ」の出現率はn-αとなる.またこのαの値は年代を問わず同じであった.楽曲中で使用される「ピッチ」の出現頻度は,年代を問わず変わっていない,つまり,「最近ほど使われるピッチが少ない」わけでは無い.
ただしネットワーク構造には変化が見られる.年代の経過とともに,各ノード(=特定のピッチ)の持つリンクの数は減少し,さらにクラスタ性が強まっている.要するに,{C}というピッチが来たら次はこれ,というようなパターンが限定される方向になっており(リンク数が少ないと言うことは,そのピッチから移動する先のピッチの種類が少ないことを意味する),さらに特定のいくつかのピッチ間をぐるぐる回りやすい(クラスター性が高い=特定ノード集団内でのリンクの比率が高い).
結果2_音色:音色に関しては,1955年から1965年頃にかけて前述の指数αが小さくなる(=n-αの減衰が遅い.登場頻度でn番目の音色が,1番登場してる音色に比べ登場回数が極端に少ないわけでは無い,という方向.様々な音色が近い頻度で使用されるような,分散が大きい状況に対応)傾向が見えるが,それ以降は1980年にかけて大きく増加.1990年頃までほぼ横ばいで,1995年に向け心持ち減少,その後漸増傾向にある(実際の論文中のグラフはβ=1+1/αがプロットされているので,増減方向は逆).これは,1955-1965年にかけて様々な音色を取り入れる試みが行われ,その後音色の数が減少,1995年前後にいくらか新系統の音色の導入が試みられ,ここ最近はまた音色の分散がどんどん狭くなっている,つまり使用される音色の種類が減少しているというように捉えられるかも知れない.
もう一点興味深い点は,分散が減って使われる音色が減りながらも,その分布の中心自体は年代とともに大きく変わっているという点である.つまり,過去に使われていた音色の集団から使われる音色が選別されてきたわけでは無く,使われる音色の種類自体が大きく変遷しながら,しかし数を減らすような変化になる.
(極端な例で書けば,オケのような雑多な楽器からなる楽曲から,そこに含まれていなかった単一の電子楽器に変わる,というような方向だ.もちろんこの例は誇張しすぎであり,そのまま捉えるのは不適切である)
結果3_音量:こちらは単調に増大していく変化だ.レコーディング時の音量で見ると,MxもMinも同じように大音量側にシフトしており,ダイナミックレンジを保ちながら音量を上げている様子が見える.ただし,再生側では0dBで頭打ちにされる可能性があり,聞いている側からするとダイナミックレンジが狭くなっている(小音量側が底上げされる一方,大音量側は頭打ち)可能性もあるかも知れない,と指摘している.
こういった変化を元に,著者らは,「現代風の楽曲にしたかったら,昔の曲をもっと単純なコード進行にして,使う楽器を最近の楽曲で多用されてるものに置き換え,大音量でレコーディングすれば良い」と書いている.まあもちろんジョークとしてだが.