[Перевод] Как работать с метками времени (timestamp) в PostgreSQL?
Тема работы с временными метками в PostgreSQL плохо раскрыта в русскоязычных профильных публикациях в Интернете и служит частым источником проблем в работе программистов. Предлагаю вашему вниманию перевод материала от Hubert Lubaczewski, автора популярного зарубежного блога depesz.com. Надеюсь, статья будет для вас полезна!
Время от времени в IRC или в почтовых рассылках кто-нибудь задает вопросы, которые показывают глубокое непонимание (или недостаток понимания) меток времени, особенно тех, которые учитывают часовые пояса. Так как я уже сталкивался с этим ранее, позвольте мне рассказать, что такое timestamps, как с ними работать и с какими наиболее распространенными загвоздками вы можете столкнуться.
У нас есть два типа данных, которые мы можем использовать:
- timestamp
- timestamp с часовым поясом (или timestamptz)
Тип timestamp содержит только дату и время, никакой другой информации. С одной стороны, может показаться, что это неплохо (в конце концов, в повседневной жизни мы используем только дату и время, не так ли?), но с другой — это полнейший ужас.
Давайте представим, что у вас есть временная метка »2014–04–04 20:00:00». О чем она вам говорит? К сожалению, не о многом. Всё зависит от того, о какой точке планеты идет речь. Восемь вечера 4-го апреля — это разный момент времени в Лос Анджелесе, Чикаго, Лондоне, Варшаве или Москве. В этом проблема часовых поясов.
Конечно, вы можете подумать: «Я всегда буду в одном часовом поясе, мне не нужно заморочек с поддержкой разных временных зон. В моем часовом поясе даты и времени будет вполне достаточно, чтобы отметить какой-либо момент времени, ведь именно так мы делаем в «реальной жизни».
Но так ли это на самом деле?
Представим, что у вас есть метка »2013–10–27 02:00:00', и вы знаете, что ваше приложение привязано к польскому времени. В этом случае, вам уже не повезло, потому что это может быть 2 часа ночи по центрально-европейскому летнему времени (CEST) или на час больше, по обычному центрально-европейскому времени. Всё из-за сезонного перевода часов.
Я считаю, что использование временных меток без часового пояса почти всегда является багом, и его нужно исправлять. Проблем становится еще больше, если, записи в вашем приложении поступают из разных часовых поясов (например, приложение-планировщик).
Так что самое очевидное решение — использовать метки времени с часовыми поясами (timestamptz).
Во-первых, это не займет больше места на диске:
$ select typname, typlen from pg_type where typname ~ '^timestamp';
typname | typlen
-------------+--------
timestamp | 8
timestamptz | 8
(2 rows)
Как же это работает? Метка должна знать часовой пояс, так почему же для этого не требуется больше места?
Дело в том, что она не знает часовой пояс. Внутри, все значения в колонках timestamptz указаны в формате UTC (всемирное координированное время).
У UTC есть приятные особенности: у него нет смещения (он сам является отправной точкой, от которой считаются смещения других часовых поясов), и у него нет разницы между летним и зимним временем. Так что любая временная метка в формате UTC всегда гарантированно указывает только на одну точку во времени.
Но если всё время указывать по UTC, то как я узнаю время в нужном мне часовом поясе?
Каждый раз, когда речь идет о значениях timestamptz, если часовой пояс не указан, то PostgreSQL использует заранее сконфигурированное время. И вы можете конфигурировать его разными способами:
- параметр timezone в postgresql.conf
- alter database… set timezone = »…'
- alter user… set timezone = »…'
- SET timezone = »…'
Первый параметр применяется для того, чтобы указать, в каком часовом поясе находится ваш сервер. Другими словами, часовой пояс по-умолчанию, который будет использоваться при отсутствии других изменений.
Следующие два способа меняют значение по-умолчанию для выбранной базы данных и пользователя.
Последний способ можно использовать, если вы хотите, чтобы ваше соединение с базой данных работало с иными настройками.
Примите во внимание, как при этом меняется вывод now ():
$ select now();
now
-------------------------------
2014-04-04 20:32:59.390583+02
(1 row)
$ set timezone = 'America/New_York';
SET
$ select now();
now
-------------------------------
2014-04-04 14:33:06.442768-04
(1 row)
Так что каждый раз, когда вы просматриваете или меняете значения timestamptz, PostgreSQL конвертирует их в/из UTC.
Это значит, что значения можно легко сравнивать (все они в одном часовом поясе, нет сдвигов на летнее или зимнее время, так что сравнение всегда возможно).
А теперь давайте представим, что у вас есть значение »2014–04–04 20:00:00'. И вы знаете, что это время в Лос Анджелесе, но вы хотите сохранить его в своей базе данных, которая функционирует в другом часовом поясе. Вы можете проверить, что текущее смещение составляет -7 часов, и использовать значение таким образом:
$ select '2014-04-04 20:00:00-07'::timestamptz;
timestamptz
------------------------
2014-04-05 05:00:00+02
Что произошло? Почему не показывается 8 вечера?
Причина проста — в запрос я вставил timestamp в каком-то часовом поясе. Внутри, метка была сконвертирована в UTC, а затем, снова сконвертирована (возможно, даже без UTC, я не уверен) в мой обычный часовой пояс, которым является:
$ show timezone;
TimeZone
----------
Poland
(1 row)
Если бы у меня был установлен часовой пояс Лос Анджелеса, то результат запроса был бы таким:
$ set timezone = 'America/Los_Angeles';
SET
$ select '2014-04-04 20:00:00-07'::timestamptz;
timestamptz
------------------------
2014-04-04 20:00:00-07
(1 row)
Важно понимать, что выводимое значение всегда принимает во внимание настройку часового пояса.
Есть еще один способ получить 20:00 в Лос Анджелесе:
$ set timezone = 'Poland';
SET
$ select '2014-04-04 20:00:00'::timestamp at time zone 'America/Los_Angeles';
timezone
------------------------
2014-04-05 05:00:00+02
(1 row)
Очень важно добавлять »:: timestamp» после значения, иначе мы получим что-то странное:
$ set timezone = 'Poland';
SET
$ select '2014-04-04 20:00:00' at time zone 'America/Los_Angeles';
timezone
---------------------
2014-04-04 11:00:00
(1 row)
Что здесь произошло? Откуда взялось 11:00?
Значение в кавычках (2014–04–04 20:00:00) воспринимается как timestamptz, что значит 8 вечера в моём часовом поясе:
select '2014-04-04 20:00:00'::timestamptz;
timestamptz
------------------------
2014-04-04 20:00:00+02
(1 row)
И только после перевода значения в мой часовой пояс PG считывает «at time zone…», которая используется для отображения времени в выбранном часовом поясе.
Таким образом, timestamp at time zone выдаёт значение timestamptz, которое показывает момент, когда местное время в выбранном часовом поясе было таким, как указано в команде.
А timestamptz at time zone выдаёт значение timestamp, которое показывает, каким было время в выбранном часовом поясе в указанный момент времени.
Это звучит немного путанно, поэтому давайте я приведу примеры:
select '2014-04-04 20:00:00'::timestamptz at time zone 'UTC';
timezone
---------------------
2014-04-04 18:00:00
(1 row)
select '2014-04-04 20:00:00'::timestamp at time zone 'UTC';
timezone
------------------------
2014-04-04 22:00:00+02
(1 row)
Интересно то, что мы можем использовать это для перевода времени из одного часового пояса в другой, даже если Pg не находится ни в одном из них.
Допустим, мы хотим узнать, который час в Лос Анджелесе, когда в Москве — 8 утра. Моё местное время следующее:
$ show timezone;
TimeZone
----------
Poland
(1 row)
Пользы от него мало.
Для начала нам нужно определить точку во времени (в формате timestamptz), которая показывает 8 утра в Москве:
$ select '2014-04-04 08:00:00'::timestamp at time zone 'Europe/Moscow';
timezone
------------------------
2014-04-04 06:00:00+02
(1 row)
Это говорит мне о том, что она соответствует 6 утра в моём часовом поясе. Но мы хотим узнать время в Лос Анджелесе. Я мог бы написать »2014–04–04 06:00:00+02' в часовом поясе «LA', но можно сделать по-другому:
$ select ('2014-04-04 08:00:00'::timestamp at time zone 'Europe/Moscow') at time zone 'America/Los_Angeles';
timezone
---------------------
2014-04-03 21:00:00
(1 row)
Так как выражение «timestamp at time zone …' — это то же самое, что timestamptz, мы можем использовать «at time zone» еще раз, чтобы перевести его обратно в метку времени (без указания часового пояса), относящуюся к какому-то другому месту.
Надеюсь, теперь вам всё ясно. Я сам довольно долго пытался разобраться в этом вопросе, и наконец-то всё понял :)
У всего этого есть один интересный побочный эффект: не так-то просто добавить индексы к функциям, работающим с timestamptz. Например, вы не можете создать индекс, который будет использоваться для получения дня недели:
$ create table test (i timestamptz);
CREATE TABLE
$ create index q on test (to_char(i, 'Day'));
ERROR: functions in index expression must be marked IMMUTABLE
Как показано в примере выше, причина очень проста — одна и та же точка во времени может относиться к разным дням недели в зависимости от часового пояса. А поскольку to_char () использует текущий часовой пояс, он может выдавать разные значения для одних и тех же исходных данных в зависимости от настроек часового пояса в системе:
$ set timezone = 'Europe/Warsaw';
SET
$ insert into test (i) values ('2014-04-04 06:00:00');
INSERT 0 1
$ select i, to_char(i, 'Day') from test;
i | to_char
------------------------+-----------
2014-04-04 06:00:00+02 | Friday
(1 row)
$ set timezone = 'Europe/Moscow';
SET
$ select i, to_char(i, 'Day') from test;
i | to_char
------------------------+-----------
2014-04-04 08:00:00+04 | Friday
(1 row)
$ set timezone = 'America/Los_Angeles';
SET
$ select i, to_char(i, 'Day') from test;
i | to_char
------------------------+-----------
2014-04-03 21:00:00-07 | Thursday
(1 row)
Одна и та же точка во времени, но разные дни. Это могут быть разные месяцы или даже разные года, в зависимости от того, где это было.
Временная метка (без часового пояса) здесь «проявляет» сильную сторону — так как в ней не указан часовой пояс, её можно спокойно использовать для извлечения информации.
Но мы же знаем, как переводить timestamptz в timestamp. Нужно просто указать ей часовой пояс. Поэтому мы можем попробовать сделать так:
create index q on test (to_char(i at time zone 'Poland', 'Day'));
Но, к сожалению, ничего не выходит. Дело в том, что to_char слишком разносторонний. Вы можете использовать to_char вот так:
$ select to_char(now(), 'TMMonth');
to_char
---------
April
(1 row)
$ set lc_time = 'pl_PL.UTF-8';
SET
$ select to_char(now(), 'TMMonth');
to_char
----------
Kwiecień
(1 row)
На этот раз мы получаем другие результаты не из-за часового пояса, а из-за локали.
Правильным решением проблемы индексирования будет написать свою собственную функцию, которая будет вызывать to_char в абсолютно постоянной «среде», а затем ее уже индексировать. Вот так:
create function day_from_ts(timestamptz) returns text as $$
select to_char( $1 at time zone 'Poland', 'Day' );
$$ language sql immutable;
CREATE FUNCTION
А теперь мы можем использовать ее для индексирования:
create index q on test (day_from_ts( i ));
CREATE INDEX
Это безопасно, потому что сама функция заставляет часовой пояс принимать значение «Poland», и она вызывает to_char таким образом, чтобы игнорировать значение локали (другими словами, в формате to_char нет префикса TM).
Естественно, чтобы воспользоваться этим индексом, все запросы должны также использовать эту функцию:
select * from test where day_from_ts(i) = 'Friday';
Еще одна важная вещь при работе с часовыми поясами — получение времени Unix, или так называемой эпохи. В целом, это просто:
$ select extract(epoch from now());
date_part
------------------
1396638868.57491
(1 row)
Интересно то, что оно не зависит от часового пояса:
$ begin;
BEGIN
$ show timezone;
TimeZone
----------
Poland
(1 row)
$ select now(), extract(epoch from now());
now | date_part
-------------------------------+------------------
2014-04-04 21:15:27.834775+02 | 1396638927.83477
(1 row)
$ set timezone = 'America/Los_Angeles';
SET
$ select now(), extract(epoch from now());
now | date_part
-------------------------------+------------------
2014-04-04 12:15:27.834775-07 | 1396638927.83477
(1 row)
$ commit;
COMMIT
Причина, известная не всем, кроется в том, что время Unix всегда принимается в часовом поясе UTC. Это значит, что, когда вы извлекаете эпоху из временной метки timestamp, PG предполагает, что она находится в UTC. Из чего вытекают следующие потенциальные проблемы:
$ select now(), extract(epoch from now());
now | date_part
-------------------------------+-----------------
2014-04-04 21:19:01.456205+02 | 1396639141.4562
(1 row)
$ select extract(epoch from '2014-04-04 21:19:01.456205'::timestamp);
date_part
-----------------
1396646341.4562
(1 row)
В первом случае Pg получает «точку во времени», которая внутренне конвертируется в UTC (а когда отображается — преобразовывается в мой часовой пояс, +2).
Во втором случае временная метка находится в моём часовом поясе, но предполагается, что это UTC (без конвертации!), и эпоха берется от значения »2014–04–04 21:19:01.456205 UTC', а не »2014–04–04 21:19:01.456205+02'.
Мудрёно.
Короче говоря, старайтесь избегать timestamp и используйте timestamptz.
Последнее, о чём я хотел бы сказать — это не баг или потенциальная проблема, а скорее функциональность, о которой многие не знают.
Как вы видели, PostgreSQL использует timestamp (и timestamptz) с точностью до микросекунд. Многие люди настаивают на том, чтобы точность была только до секунды, хотя лично мне это не нравится.
И timestamp, и timestamptz (и другие виды данных, относящиеся ко времени) могут иметь дополнительную точность («precision»).
Давайте я приведу простой пример:
$ select now(), now()::timestamptz(0), now()::timestamptz(1);
now | now | now
-------------------------------+------------------------+--------------------------
2014-04-04 21:23:42.322315+02 | 2014-04-04 21:23:42+02 | 2014-04-04 21:23:42.3+02
(1 row)
Конечно, вы можете использовать это и в таблицах:
$ create table test (i timestamptz(0));
CREATE TABLE
$ insert into test(i) values (now());
INSERT 0 1
$ select * from test;
i
------------------------
2014-04-04 21:24:16+02
(1 row)
Отлично! Вам не нужно менять «now ()» или что-либо еще, просто добавьте точность к типу данных, и она всё скорректирует.
Я упомянул, что мне это не нравится. Причина проста — в любой достаточно нагруженной системе секунда — слишком низкий уровень точности. Тем более, что хранение данных с точностью до микросекунды ничего мне не стоит, но может быть полезным. С другой стороны, если данные до микросекунд, то как мне сделать, чтобы значения отображались без долей секунды?
Все просто: я использую (в запросах SELECT) фунуции to_char (), или date_trunc, или даже приведение к типу timestamptz (0):
$ select now(),
to_char(now(), 'YYYY-MM-DD HH24:MI:SS TZ'),
date_trunc('second', now()),
now()::timestamptz(0);
now | to_char | date_trunc | now
-------------------------------+--------------------------+------------------------+------------------------
2014-04-04 21:28:20.827763+02 | 2014-04-04 21:28:20 CEST | 2014-04-04 21:28:20+02 | 2014-04-04 21:28:21+02
(1 row)
Более подробно о том, как работать с timestamps, мы собираемся рассказать на конференции PG Day'16 Russia в июле 2016 года! Готовьте свои вопросы, мы постараемся на них ответить.