昨年、ユーザーが入力したテキストに応じて、AIが画像を生成するMidjourneyやStable Diffusionといった画像生成AIが大きな注目を集め、画像分野でのクリエイティブとAIの関係が一気に深まった。一方、今年は同様のAIを活用した生成AIが音楽の分野でも台頭している。
音楽の分野において、AIはこれまで音楽プラットフォームのパーソナライズや音楽クリエイターの楽曲制作におけるアシスタントツールとして使用されてきた。今年はAIによる実在アーティストの音声カバーや、ChatGPTにも採用されているGPT-4を搭載したDAW(音楽制作ソフト)「WavTool」の登場など、音楽クリエイティブの現場に新たに大きなインパクトを与える音楽AIが登場している。
こうしたクリエイター向けの能力を拡張させるAIツールの存在感が高まる一方、これまで音楽を作ったことがない人でもAIによって簡単に音楽を作成できる作曲サービスも次々と現れている。今回は、そのようなAIによる自動作曲サービスの中でも、特に注目のサービスを紹介したい。
音楽の分野において、AIはこれまで音楽プラットフォームのパーソナライズや音楽クリエイターの楽曲制作におけるアシスタントツールとして使用されてきた。今年はAIによる実在アーティストの音声カバーや、ChatGPTにも採用されているGPT-4を搭載したDAW(音楽制作ソフト)「WavTool」の登場など、音楽クリエイティブの現場に新たに大きなインパクトを与える音楽AIが登場している。
こうしたクリエイター向けの能力を拡張させるAIツールの存在感が高まる一方、これまで音楽を作ったことがない人でもAIによって簡単に音楽を作成できる作曲サービスも次々と現れている。今回は、そのようなAIによる自動作曲サービスの中でも、特に注目のサービスを紹介したい。
入力したテキストから高音質楽曲を作成できる「Stable Audio」
「Stable Audio」は、画像生成AIの「Stable Diffusion」の開発元として知られるStability AIが、2023年9月に公開した音楽生成AIによるAI作曲サービスだ。その特徴は、ユーザーがテキストで入力した指示に応えるかたちで、音楽やサウンドエフェクトを自動で作成してくれるところにある。同様の仕組みを持つサービスでは、先行して試験公開されていたGoogleの「MusicLM」がよく知られているが、Stable Audioはサンプリング周波数44.1 kHzの高音質な音楽を商用に作成できる点を強みとしている。
また、Stable Audioの基礎となるAIモデルは、同社とパートナーシップを結ぶ音楽ライブラリの「AudioSparx」の音楽とメタデータを使用して訓練されているため、AIは著作権をクリアした楽曲を作成できる。
Stable Audioでは、45秒までの楽曲を作成してダウンロードできる無料プランと、商用利用も可能な楽曲が作成できる2種類の有料プランが用意されている。有料プランのうち「Pro」プランは、月額11.99ドル(約1800円)で利用でき、90秒の楽曲を毎月500曲まで作成できる。また企業向けの「Enterprise」プランでは、制作数やトラックの長さを自由に調整可能だ(価格は要問い合わせ)。
実際に楽曲を作成する際、ユーザーはプロンプト入力画面に、例えば「Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM」(ポストロック、ギター、ドラムキット、ベース、ストリングス、ユーロフィック(トランス)、アップリフティング(トランス)、ムーディー、流れるような、Raw(データ)、荘厳な、センチメンタルな、125BPM(毎分125ビートのテンポ))と曲調、楽曲に入れてほしい音源や雰囲気などをテキストで入力。すると、その内容に合わせた楽曲がAIによって自動で作成される。
また、Stable Audioの基礎となるAIモデルは、同社とパートナーシップを結ぶ音楽ライブラリの「AudioSparx」の音楽とメタデータを使用して訓練されているため、AIは著作権をクリアした楽曲を作成できる。
Stable Audioでは、45秒までの楽曲を作成してダウンロードできる無料プランと、商用利用も可能な楽曲が作成できる2種類の有料プランが用意されている。有料プランのうち「Pro」プランは、月額11.99ドル(約1800円)で利用でき、90秒の楽曲を毎月500曲まで作成できる。また企業向けの「Enterprise」プランでは、制作数やトラックの長さを自由に調整可能だ(価格は要問い合わせ)。
実際に楽曲を作成する際、ユーザーはプロンプト入力画面に、例えば「Post-Rock, Guitars, Drum Kit, Bass, Strings, Euphoric, Up-Lifting, Moody, Flowing, Raw, Epic, Sentimental, 125 BPM」(ポストロック、ギター、ドラムキット、ベース、ストリングス、ユーロフィック(トランス)、アップリフティング(トランス)、ムーディー、流れるような、Raw(データ)、荘厳な、センチメンタルな、125BPM(毎分125ビートのテンポ))と曲調、楽曲に入れてほしい音源や雰囲気などをテキストで入力。すると、その内容に合わせた楽曲がAIによって自動で作成される。
プロンプト画面に自分が作りたい音楽の要素となるキーワードをテキストで入力する
現在のところ、日本語には対応しておらず英語対応のみだが、キーワードとなるテキストを入力するだけで、AIが楽曲を作成してくれる。そのため楽器の演奏やDAW(音楽制作ソフト)の使用経験がない人でも、自分がイメージする音楽を簡単に作成できる点は大きな魅力といえる。
しかしStable Audioでは、少ない指示だけで自分のイメージする音楽を作れるわけではない。楽曲をより自分のイメージに近いものにしたい場合は、やはりある程度の音楽的知識が必要になる。
例えば、単純に「Ambient house, bpm125」(アンビエントハウス、BPM125)とだけテキストで入力したときと、「Ambient house, meditation, 808 kick, claps, shaker, synthesizer, synth bass, synth pad, melodic piano, beautiful, bpm125」(アンビエントハウス、瞑想、808キック(リズムマシンTR-808のキックドラム)、拍手、(パーカッションの)シェイカー、シンセサイザー、シンセベース、シンセパッド、メロディックピアノ、美しい、BPM125)とより具体的な指示を入力した場合とでは、AIが作成する楽曲の仕上がりはかなり違う。
Stable Audioで楽曲を作成する場合は、単純な指示よりも、楽曲の雰囲気や使われる楽器など、楽曲に含まれる要素を明確にテキストで指示することが、自分がイメージする楽曲に近いものを作成するコツだと感じた。
しかしStable Audioでは、少ない指示だけで自分のイメージする音楽を作れるわけではない。楽曲をより自分のイメージに近いものにしたい場合は、やはりある程度の音楽的知識が必要になる。
例えば、単純に「Ambient house, bpm125」(アンビエントハウス、BPM125)とだけテキストで入力したときと、「Ambient house, meditation, 808 kick, claps, shaker, synthesizer, synth bass, synth pad, melodic piano, beautiful, bpm125」(アンビエントハウス、瞑想、808キック(リズムマシンTR-808のキックドラム)、拍手、(パーカッションの)シェイカー、シンセサイザー、シンセベース、シンセパッド、メロディックピアノ、美しい、BPM125)とより具体的な指示を入力した場合とでは、AIが作成する楽曲の仕上がりはかなり違う。
Stable Audioで楽曲を作成する場合は、単純な指示よりも、楽曲の雰囲気や使われる楽器など、楽曲に含まれる要素を明確にテキストで指示することが、自分がイメージする楽曲に近いものを作成するコツだと感じた。
入力したテキストの内容にあった楽曲が作成される
Jun Fukunaga
ライター・インタビュワー
音楽、映画を中心にフードや生活雑貨まで幅広く執筆する雑食性フリーランスライター・インタビュワー。最近はバーチャルライブ関連ネタ多め。DJと音楽制作も少々。