Когда я только начал разбираться с генерацией музыки через нейросеть, я делал то же самое, что делают все: вбивал в поле стиля десяток слов через запятую и надеялся на лучшее.
pop, emotional, sad, piano, vocal, beautiful, slow, romantic, soft, cinematic
Результат был... примерно никакой. Что-то среднее между всем сразу и ничем конкретным. Нейросеть честно пыталась угодить каждому слову из списка и в итоге не угождала ни одному.
Потом я понял, в чём проблема. И теперь хочу объяснить это нормальным языком, без воды.
Представьте, что вы нанимаете живую группу музыкантов и пытаетесь объяснить им, что хотите сыграть. Вы же не будете кричать им: "грустно! тихо! красиво! медленно!" — они просто растеряются.
Вы скажете что-то вроде: "Играйте неторопливо, как будто уже поздно и все устали. Гитара — на заднем плане, почти шёпотом. Вокал — близко к микрофону, немного с хрипотцой."
Именно так и надо общаться с Suno AI, особенно в версии V5.5, которая вышла в этом году.
Новая модель понимает контекст и манеру исполнения — это принципиально другой уровень по сравнению с предыдущими версиями.
В Custom Mode есть три поля. Большинство людей пользуются только одним. Это ошибка.
Style — сюда идёт всё про звук: жанр, темп, атмосфера, характеристики голоса. Лимит 1000 символов, но вам хватит 200-300 если писать точно.
Lyrics — текст песни плюс структурные команды в квадратных скобках: [Verse], [Chorus], [Bridge], [Guitar solo]. Нейросеть воспринимает их как разметку — что где петь и что играть.
Title — название. На генерацию напрямую не влияет, но помогает вам самим не запутаться когда накопится 50 вариантов.
Вот плохой пример:
indie rock, vintage, analog, emotional, warm, nostalgic, heartfelt, organic, raw
Это девять слов, которые говорят примерно одно и то же. Модель не становится умнее от количества — она начинает усреднять.
Хороший вариант:
barroom rock, loose, ragged, late-night energy
Четыре слова — и вы уже слышите, как это должно звучать. Нейросеть достраивает остальное сама.
Это одна из ключевых фич V5.5 — можно прописывать разное поведение для разных частей трека прямо в поле Style:
Verse: restrained, talk-sung, conversational Chorus: louder, sloppier, borderline shouted Band: slightly behind the beat, never tight
Раньше такое работало плохо или не работало вообще. Теперь — работает.
Отдельное поле для того, чего вы не хотите:
no glossy production, no modern vocal polish, no bright digital shimmer
Если вам нужен сырой гаражный звук, но нейросеть постоянно полирует всё до блеска — это ваш инструмент.
Называть конкретных исполнителей нельзя — модерация режет такие запросы. Но это не проблема, потому что можно описать голос точнее, чем через имя.
Несколько примеров:
Хотите голос в духе альтернативного рока 2000-х:
[Grit Tenor], [Angelic to Scream transition], [Emotional Fry], [High-pitched Raspy Vocals]
Инди-поп с интимным звучанием:
[Whisper Pop], [Breathy Female Vocals], [ASMR quality], [Close Proximity]
Агрессивный скоростной рэп:
[Nasal Male Vocals], [Aggressive Flow], [Supersonic Speed Rap]
Для дуэтов — пол вокалистов прописывается не в Style, а прямо в тексте перед каждой строфой: [Female Vocal] или [Male Rap]. В поле Style в этом случае пол не указывается.
Можно писать 120 BPM — модель понимает числа. Но можно использовать и классическую итальянскую терминологию:
Если хотите, чтобы темп менялся в процессе — вписывайте [Accelerando] (ускорение) или [Ritardando] (замедление) прямо в текст песни.
Вот полный промпт для поля Style — тяжёлый атмосферный трек с живым звучанием:
Barroom rock, loose and ragged, loud swagger, late-night energy. Fuzzy overdriven guitars playing crooked blues riffs. Rhythm section heavy and slightly behind the beat. Energy: reckless, half-celebratory, half-falling-apart. Verse: talk-sung, restrained, conversational. Chorus: louder, sloppier, controlled unraveling. Weathered male baritone, narrow range, close-mic, slight overload. Breath and grit audible. Raw, early-era analog feel. Room bleed present, worn tube amps.
Негативный промпт:
no glossy production, no modern vocal polish, no bright digital shimmer
Это не магия — это просто точное техническое задание, которое нейросеть умеет читать.
Если не хочется разбираться с нуля — вот рабочие варианты для поля Style:
Progressive House: Driving basslines, crisp snares, layered leads, vocal hooks, uplifting melodies, progressive build-ups
Synthwave: Synthwave retro futures, neon pads, driving basslines, arpeggiated melodies, cinematic flair
Drum & Bass: Drum and dnb breaks, fast tempo, heavy bass, intricate rhythms, energetic patterns, jungle roots
Minimal Techno: Minimal techno rhythms, deep bass, ambient pads, sparse vocals, hypnotic loops, dark club sounds
Hardstyle: Hardstyle energy, distorted kicks, aggressive synths, raw leads, climactic builds, intense drops
Теги в квадратных скобках ([Chorus], [Guitar solo] и т.д.) пишутся только на английском — это не опция, а требование. Сам текст песни может быть на русском, нейросеть справляется с кириллицей без акцента. Но разметка структуры — только латиница.
И попробуйте сочетать несочетаемое. Lo-fi + Death Metal + Jazz — это не шутка, это реально интересный эксперимент. Нейросети с такими комбинациями обычно выдают что-то неожиданно хорошее.
Всё вышеперечисленное можно попробовать прямо сейчас на SUNO NEXT — российский сервис с полным доступом к актуальным моделям Suno, включая V5.5.