Выпуск распределённой СУБД TiDB 2.0
Состоялся релиз распределённой СУБД TiDB 2.0, развиваемой под впечатлением от технологий Google Spanner и F1. TiDB относится к категории гибридных систем HTAP (Hybrid Transactional/Analytical Processing), способных как обеспечивать выполнение транзакций в реальном времени (OLTP), так и применяться для обработки аналитических запросов. Проект написан на языке Go и распространяется под лицензией Apache 2.0.
Особенности TiDB:
- Поддержка SQL и предоставление клиентского интерфейса, совместимого с протоколом MySQL, что упрощает адаптацию для TiDB существующих приложений, написанных для MySQL, или позволяет задействовать распространённые клиентские библиотеки. Кроме протокола MySQL для обращения к СУБД можно использовать API на базе JSON и коннектор для Spark.
- Из возможностей SQL поддерживаются индексы, агрегатные функции, выражения GROUP BY, ORDER BY, DISTICT, слияния (LEFT JOIN / RIGHT JOIN / CROSS JOIN) и простые подзапросы. Предоставляемых возможностей достаточно для организации работы с TiDB таких web-приложений, как PhpMyAdmin, Gogs и Wordpress.
- Возможность горизонтального масштабирования и обеспечения отказоустойчивости: размер хранилища и вычислительную мощность можно наращивать простым подключением новых узлов, данные распределяются по узлам с избыточностью, позволяющей продолжить работу в случае сбоя отдельных узлов. Сбои обрабатываются автоматически.
- Система гарантирует непротиворечивость и для клиентского ПО выглядит как одна большая СУБД, несмотря на то, что фактически для выполнения транзакции привлекаются данные со множества узлов.
- Для физического хранения данных на узлах могут применяться разные бэкенды, например, локальные движки хранения GoLevelDB и BoltDB или собственный движок для распределённых хранилищ TiKV.
- Возможность асинхронного изменения схемы хранения, позволяющая на лету добавлять столбцы и индексы без остановки обработки текущих операций.
Ключевые улучшения в TiDB 2.0:
- Внесён большой набор улучшений в оптимизатор SQL-запросов:
- Для сокращения потребления памяти для хранения статистики задействованы более компактные структуры данных.
- Ускорена загрузка статистики при запуске сервера.
- Добавлена возможность динамического обновления статистики.
- Оптимизирована модель вычисления веса запроса.
- Улучшен анализ сложных запросов на предмет возможности применения индексов.
- Добавлена возможность ручного определения порядка слияния таблиц при помощи конструкции STRAIGHT_JOIN.
- Увеличена производительность выполнения запросов с пустым «GROUP BY».
- Добавлена поддержка использования индексов для функций MAX/MIN;
- Улучшена оптимизация подзапросов и их преобразования в слияния «LEFT OUTER JOIN».
- В движке обработки SQL-запросов:
- Добавлена поддержка TLS;
- Расширена поддержка синтаксиса SQL, улучшена совместимость с MySQL, добавлена поддержка дополнительных типов данных и функций;
- Добавлена поддержка протокола Proxy;
- Расширено число предоставляемых метрик для мониторинга;
- Добавлена проверка корректности файлов конфигурации;
- Добавлена возможность получения настроек через HTTP API;
- Добавлена поддержка многопоточной сборки мусора. Ускорен процесс сборки мусора и оптимизировано выставление блокировок при пакетном выполнении операций (Batch mode);
- Проведён рефакторинг всех операторов с использованием архитектуры Chunk, увеличена производительность аналитических запросов и сокращено потребление памяти. Существенно улучшены результаты прохождения тестов TPC-H;
- Добавлена поддержка операторов потокового агрегирования данных;
- Более чем в 10 раз увеличена скорость загрузки данных оператором «LOAD», операций «INSERT … IGNORE» и обновления данных с дублирующимися ключами;
- Предложена возможность ограничения размера памяти, которая может быть израсходована в процессе обработке одного SQL-запроса;
- Улучшена совместимость с инструментом управления СУБД Navicat;
- Улучшена совместимость с JDBC;
- Добавлена поддержка дополнительных режимов работы SQL;
- Оптимизирована производительность операции добавления индекса и предоставлена возможность добавления индекса в низкоприоритетном режиме, минимизирующем влияние на другие операции;
- Реализована возможность восстановления данных индекса при помощи команды «ADMIN RECOVER INDEX»;
- Появилась возможность изменения опций таблицы при помощи выражения ALTER.
© OpenNet