Задача выглядит технически понятной: берёшь тексты издания, раскладываешь на паттерны, формулируешь правила, система им следует. Мы так и сделали – 76 статей Фонтанки, 12 аспектов стиля, от тона до заголовков.
Первый рерайт выглядел корректно. Читался – как РИА.
Разбираясь, где именно всё сломалось, нашли конкретную точку. Новость про задержанного подростка в Уфе. Наша система написала «подросток» – как в источнике. Фонтанка написала «мальчик». Детское слово рядом с «был завербован» создаёт столкновение регистров, которое говорит больше любой авторской оценки.
Ни один из 12 аспектов это не захватывает. Аспекты описывают стиль на уровне структуры – длина предложений, залог, атрибуция. Голос существует на уровне конкретного слова в конкретном контексте, и упаковать его в инструкцию для модели – задача нерешённая.
Для большинства региональных изданий аспектного подхода хватает – их стилевые различия именно структурные. Для изданий с сильной авторской интонацией нужны обширные тематические примеры и скромные ожидания. Мы с этим работаем, но обещать чудес было бы враньём.