Использование ICU Message Format в PHP

74e9ad0cfbdaef634fbe23f474732cc4

Данный функционал является частью стандартного модуля php-intl, то есть доступен «из коробки» и реализуется с помощью класса MessageFormatter. По сути, это такой printf () на стероидах, с добавлением оператора ветвления и некоторых других возможностей.

Установка модуля intl не должна вызывать сложностей, это стандартное sudo apt install php-intl, либо раскомментировать extension=intl в php.ini под Windows.

Основы

В самом базовом варианте форматтер используется для простой замены плейсхолдеров:

echo msgfmt_format_message("ru", "Привет, {0}!", ['Вася']);
echo msgfmt_format_message("ru", "Привет, {name}!", ['name' => 'Вася']);

Как видно, поддерживаются как нумерованные, так и именованные плейсхолдеры.

Но, разумеется, ради таких простых замен не стоило и затеваться, в этом случае проще использовать обычный sprintf (). ICU message formatter используется из-за развитых возможностей форматирования, и — в частности — с учётом локали:

echo msgfmt_format_message(
    "ru", 
    "Сегодня {0, date, long} или, коротко, {0, date, short}", 
    [new DateTime()]
);
// выведет:
// Сегодня 7 июня 2023 г. или, коротко, 07.06.23

На этом примере видно, что плейсхолдер может содержать от одного до трех аргументов, и в общем виде вызывается, как

{argNameOrNumber, argType, argStyle} 

где argNameOrNumber — это имя или номер плейсхолдера, argType — его тип, и argStyle — дополнительные настройки.

Использование

Перед началом работы зададим режим выброса исключений, чтобы сразу видеть ошибки, которые неизбежно будут возникать при экспериментах с форматами:

ini_set('intl.use_exceptions', true);

Для получения готовых сообщений можно либо сначала создать формат и затем применить его, либо сделать все в одном вызове. Также можно использовать как объектный, так и процедурный интерфейсы. Я буду использовать в статье функцию msgfmt_format_message(), чтобы код примеров был короче и не вызывал горизонтальный скроллинг.

Типы

К сожалению, внятной документации по этой библиотеке я не нашел. Приходится собирать по крохам и экспериментировать методом тыка, выясняя, как примеры из официальной документации применить к РНР.

К примеру, список из 10 основных типов я взял в статье по Yii: t (), ссылка на которую дана выше. Первые 4 из них требуют обязательного наличия всех трех параметров, а остальные позволяют обойтись двумя.

plural
select
selectordinal
choice (объявлен устаревшим)
number
date
time
spellout
ordinal
duration

Дополнительные настройки

Дополнительные настройки, насколько я понял, делятся на два типа: обычные и начинающиеся с двойного двоеточия, которые называются скелетонами. Обычных настроек всегда немного, например для date и time поддерживаются четыре: short, medium, long, full, а для number — три: integer, currency, percent. Но вот скелетонов может быть сколько угодно, причем они могут быть составными, как в последнем примере (group-off отключает разбивку по тысячам):

echo msgfmt_format_message('ru', '{0, number, percent}', [.50]),"\n";
// 50 %
echo msgfmt_format_message('ru', '{0, number, ::currency/RUR}', [9999.99]),"\n";
// 9 999,99 р.
echo msgfmt_format_message('ru', '{0, number, ::unit/kilogram group-off}', [1000]);
// 1000 кг.

К слову, отдельные числа можно форматировать и с помощью другого класса этого же модуля, NumberFormatter:

echo (new NumberFormatter('@numbers=roman', NumberFormatter::DECIMAL))
    ->format(date('Y'));
// MMXXIII

Интересным типом, относящимся к форматированию чисел, является spellout, который выводит число прописью:

echo msgfmt_format_message('ru', '{0, spellout}', [100500]);
// сто тысяч пятьсот

Ветвление

Но самой, пожалуй, интересной возможностью форматтера является встроенный оператор ветвления (аналогичный конструкции switch), который представлен в нескольких вариантах:

  • plural, для образования множественного числа

  • select, обычно используется для склонения по родам

  • selectordinal для перечислений (поддержка русского языка ограничена)

В шаблонах игнорируются пробельные символы, и благодаря этому их можно форматировать для удобства восприятия сложных конструкций:

$message = 'Всего {files, plural, 
    one{загружен}
    other{загружено}
} {files, number, ::group-off} {files, plural, 
    one{файл}
    few{файла}
    many{файлов}
    other{файла}
}'; 
echo msgfmt_format_message('ru', $message, ['files' => 9991]),"\n";
// Всего загружен 9991 файл
$message = '{host} {host_gender, select, 
        female{будет счастлива} 
        male{будет счастлив}
        neuter{будет счастливо}
        other{будут счастливы}
    } видеть вас на {event},
{event_gender, select, 
        female {которая состоится}
        male{который состоится}
        neuter{которое состоится}
        other{которые состоятся}
    } {date, date} в {date, time, short} {place}
по адресу {address}.';
$data = [
    'host' => 'Мария Ивановна Заподдубная',
    'host_gender' => 'female',
    'event_gender' => 'neuter',
    'event' => 'праздновании дня рождения',
    'date' => new DateTime('2023-05-01 18:00'),
    'place' => 'в кафе "Голубка"',
    'address' => 'улица Садовая, дом 2',
];
echo msgfmt_format_message('ru', $message, $data),"\n";

выведет

Мария Ивановна Заподдубная будет счастлива видеть вас на праздновании дня рождения,
которое состоится 1 мая 2023 г. в 18:00 в кафе "Голубка"
по адресу улица Садовая, дом 2.

Соответственно, с другими данными

$data = [
    'host' => 'Полковник Васин',
    'host_gender' => 'male',
    'event_gender' => 'other',
    'event' => 'посиделках',
    'date' => new DateTime('2023-05-01 18:00'),
    'place' => 'у него дома',
    'address' => 'Коммунистический тупик, дом 2',
];

выведет

Полковник Васин будет счастлив видеть вас на посиделках,
которые состоятся 1 мая 2023 г. в 18:00 у него дома
по адресу Коммунистический тупик, дом 2.

Также поддерживаются вложенные конструкции, например в каждую ветку select можно добавить свой plural, но если честно, то я не смог придумать жизненный пример, и поэтому просто скопирую из документации:

Вложенные конструкции

{gender_of_host, select,
  female {
    {num_guests, plural, offset:1
      =0 {{host} does not give a party.}
      =1 {{host} invites {guest} to her party.}
      =2 {{host} invites {guest} and one other person to her party.}
      other {{host} invites {guest} and # other people to her party.}}}
  male {
    {num_guests, plural, offset:1
      =0 {{host} does not give a party.}
      =1 {{host} invites {guest} to his party.}
      =2 {{host} invites {guest} and one other person to his party.}
      other {{host} invites {guest} and # other people to his party.}}}
  other {
    {num_guests, plural, offset:1
      =0 {{host} does not give a party.}
      =1 {{host} invites {guest} to their party.}
      =2 {{host} invites {guest} and one other person to their party.}
      other {{host} invites {guest} and # other people to their party.}}}}

Экранирование

Сделано довольно занятно, одинарными кавычками. Любой текст, заключенный в них, интерпретируется, как есть. Чтобы экранировать саму кавычку, её надо удвоить:

echo msgfmt_format_message("ru", "Как есть '{0, date}' O''Neal '{time} {1}'", []);

Заключение

Как видно из приведенных выше примеров, данный механизм позволяет легко решать стандартные задачи, связанные со склонениями и перечислениями в русском (и других языках), а также форматировать текст с учётом локали, причем без подключения дополнительных библиотек. Некоторым минусом является отсутствие примеров конкретно для РНР, но я надеюсь что данная публикация немного восполнит этот пробел.

Если у вас есть опыт использования данной библиотеки, то прошу поделиться им в комментариях. В частности, очень хочется научиться выводить римские цифры не отдельным классом, а прямо через MessageFormatter.

Дополнительные материалы

© Habrahabr.ru