Виды и типы индексов в MS SQL Server для начинающих

e329fbb236bcee14de1e19a38890b10e.jpg

Привет, Хабр и его читатели!  

Меня зовут Дарья Четыркина, я программист SQL в IT-компании «Автомакон». Сегодня мы поговорим об индексации в MS SQL Server. Если вам хочется сделать работу с базой данных более быстрой и эффективной, то индексы — идеальное решение! Индексы помогают моментально находить нужные данные, минимизируют время обработки запросов и уменьшают нагрузку на сервер. В этой статье я расскажу о том, какие бывают индексы в MS SQL Server.

Что такое индекс?

Индекс в базе данных — это некая структура данных, помогающая быстро находить нужные записи. Представьте его как оглавление в книге, благодаря которому можно сразу попасть на нужную страницу, минуя остальные разделы. Индекс в MS SQL Server хранит ссылки на строки таблицы, упорядоченные по ключевым полям, что значительно ускоряет выполнение запросов.

Основные виды индексов

В MS SQL Server есть два основных вида индексов — кластеризованные и некластеризованные. Рассмотрим их подробнее.

Кластеризованный индекс. Кластеризованный индекс определяет физическое расположение строк в таблице. При создании кластеризованного индекса данные физически сортируются по ключам этого индекса. Каждая таблица может иметь только один кластеризованный индекс, поскольку строки могут быть отсортированы только одним способом.

Пример создания кластеризованного индекса:


CREATE CLUSTERED INDEX IX_Employee_Name ON Employee(Name);

В этом примере создается кластеризованный индекс IX_Employee_Name на столбце Name таблицы Employee. Это означает, что строки будут физически отсортированы по имени сотрудника.

Некластеризованный индекс. Некластеризованный индекс содержит логически отсортированные ключи вместе со ссылками на соответствующие строки в таблице. Данные в самой таблице остаются несортированными. Одна таблица может содержать несколько некластеризованных индексов.

Пример создания некластеризованного индекса


CREATE NONCLUSTERED INDEX IX_Employee_Age ON Employee(Age);

Здесь создается некластеризованный индекс IX_Employee_Age на столбце Age таблицы Employee.

Типы индексов в MS SQL Server

Рассмотрим основные типы индексов

1. Уникальный индекс. Уникальный индекс гарантирует, что значения в индексе не повторяются. Это полезно для полей, таких как идентификаторы (ID), номера телефонов или адреса электронной почты.

Пример уникального индекса:

CREATE UNIQUE INDEX UX_Employee_ID ON Employee(ID);

2. Индекс с включенными колонками. Индекс с включенными колонками позволяет хранить дополнительные столбцы вместе с ключевыми полями индекса. Это особенно полезно, когда вам нужно возвращать несколько столбцов из таблицы, но не все эти столбцы участвуют в условиях поиска.

Пример индекса с включенными колонками:

CREATE NONCLUSTERED INDEX IX_Product_CategoryPrice ON Product(Category) INCLUDE (Price);

В данном случае создается некластеризованный индекс на столбец Category, а столбец Price включается в индекс для быстрого доступа.

3. Покрывающий индекс. Покрывающий индекс — это специальный случай индекса с включенными колонками, когда все необходимые для запроса поля находятся внутри самого индекса. Такой индекс позволяет избежать обращения к основной таблице, что существенно ускоряет выполнение запроса.

Пример покрывающего индекса:

CREATE NONCLUSTERED INDEX IX_OrderDetails_OrderIDProductIDQuantity ON OrderDetails(OrderID, ProductID) INCLUDE (Quantity);

4. Композитный индекс. Композитный индекс состоит из нескольких столбцов. Он полезен, когда часто выполняются запросы, содержащие условия на несколько столбцов одновременно.

Пример композитного индекса:

CREATE INDEX IX_SalesOrderDateCustomerID ON Sales(OrderDate, CustomerID);

5. Фильтруемый индекс. Фильтруемые индексы создаются для подмножества данных в таблице. Они полезны, когда требуется индексировать только определенные значения или диапазоны значений.

Пример фильтруемого индекса:

CREATE NONCLUSTERED INDEX IX_ActiveCustomers ON Customers(CustomerStatus) WHERE CustomerStatus = 'Active';

6. Колончатый индекс (Columnstore Index)

Колончатые индексы оптимизированы для обработки больших объемов данных и аналитики. Они хранят данные в столбчатом формате, что позволяет значительно ускорить запросы, работающие с большими объемами данных.

Пример колончатого индекса:

CREATE COLUMNSTORE INDEX CS_Orders ON Orders(OrderID, OrderDate, TotalAmount);

Где и как хранятся индексы в MS SQL Server

Представьте индекс как своеобразную карту, которая помогает SQL Server быстрее находить нужные данные, не просматривая все подряд. При этом SQL Server размещает индексы отдельно от основной таблицы, но связывает их между собой. Разберем подробнее, как именно происходит хранение индексов.

Физическое размещение индексов
Индексы сохраняются в особых блоках памяти — экстентах, где каждый такой блок состоит из восьми страниц по 8 КБ каждая. Если индекс небольшой, он умещается в одном экстенте, а крупные индексы могут занимать сразу несколько экстентов.

Логическая организация индексов
Индексы организованы в виде B-деревьев (Balanced Tree), которые обеспечивают быстрый доступ к данным за счет равномерного распределения ключей. Структура B-дерева состоит из:

  • Корневого узла (Root Node) — самой вершины дерева, которая указывает на промежуточные узлы.

  • Промежуточных узлов (Intermediate Nodes), которые содержат ссылки на страницы с данными.

  • Листовых узлов (Leaf Nodes), которые хранят сами данные (в случае кластеризованных индексов) или ссылки на строки таблицы (в некластеризованных).

Хранение кластеризованного индекса

Как уже упоминали ранее, кластеризованный индекс определяет физическое расположение строк в таблице. Поэтому данные в таблице фактически являются частью кластеризованного индекса. Когда создается кластеризованный индекс, строки таблицы физически сортируются по ключам этого индекса.

Например, если создать кластеризованный индекс на столбце ID, то строки будут расположены в порядке возрастания или убывания значений ID. Таким образом, сам индекс и данные таблицы занимают одно и то же пространство в файле базы данных.

Хранение некластеризованых индексов

Некластеризованные индексы содержат ссылки на строки таблицы, но сами данные остаются несортированными. Такие индексы хранятся отдельно от таблицы и содержат следующие элементы:

Ключи индекса

Указатель на строку данных (RID — Row Identifier) для хэширования или кластеризацию ключа для кластеризуемых таблиц

При выполнении запроса, использующего некластеризованный индекс, сначала находится нужный ключ в индексе, затем по указателю осуществляется переход к соответствующей строке в таблице.

Оптимизация хранения индексов

Для эффективного управления памятью и ускорения доступа к данным SQL Server использует ряд механизмов:

  • Фрагментация индексов — при частых обновлениях данных индексы могут фрагментироваться. Реорганизация и перестроение индексов помогают справиться с этим.

  • Сбор статистики — SQL Server собирает данные о том, как часто используется индекс. Это помогает серверу оптимально планировать запросы.

  • Кэширование — активно используемые индексы SQL Server хранит в оперативной памяти, ускоряя доступ к ним.

Ограничения, связанные с индексами в MS SQL Server

Индексы — это мощный инструмент для ускорения запросов, но важно правильно подходить к их созданию и размещению. Соблюдение ограничений, о которых я расскажу ниже, поможет избежать проблем с производительностью и дисковым пространством.

Ограничения на количество индексов

  1. Максимальное количество индексов на таблицу:

  2. Количество индексов для уникальных ограничений:

Размер и количество колонок

  1. Размер ключа индекса:

    • Суммарный размер всех колонок, входящих в индекс, не должен превышать 900 байт для некластеризованного индекса и 1700 байт для кластеризованного.

  2. Ограничение на количество колонок:

Типы данных

  1. Типы данных, поддерживаемые индексами:

    • Не все типы данных могут быть включены в индекс. Например, такие типы данных, как ntext, text, image, xml, varchar (max), nvarchar (max) и varbinary (max), не могут быть индексированы напрямую.

  2. Длина данных в индексе:

    • Максимальная длина ключа индекса ограничена 900 байтами для некластеризованного и 1700 байтами для кластеризованного. Это значит, что даже если тип данных поддерживает большие размеры, например, varchar (8000), в индекс можно включить только первые 900 или 1700 байтов.

Уникальность

  1. Уникальные индексы:

    • Уникальные индексы требуют, чтобы значения в колонках были уникальны. Попытка вставить дублирующиеся значения приведет к ошибке.

  2. Частичная уникальность:

    • Частичные уникальные индексы (фильтруемые индексы) должны удовлетворять условиям фильтра, иначе они не смогут гарантировать уникальность.

Производительность

  1. Вставка и обновление данных:

    • Чем больше индексов создано на таблице, тем дольше будут выполняться операции вставки, обновления и удаления данных, так как каждый индекс требует поддержания актуальности.

  2. Объем дискового пространства:

    • Индексы занимают дополнительное место на диске, что может стать проблемой для больших таблиц с множеством индексов.

Другие ограничения

  1. Индексация вычисляемых колонок:

    • Вычисляемые колонки могут быть проиндексированы, но только если они определены как детерминированные и точные. Неде-терминированные выражения (например, вызывающие функции даты/времени) не могут использоваться в индексах.

  2. XML-индексы:

    • XML-колонки могут быть индексированы, однако это возможно только с помощью специализированных XML-индексов, которые имеют свои собственные ограничения.

  3. Полные текстовые индексы и полнотекстовый поиск:

    • Полные текстовые индексы имеют специфические требования и ограничения, касающиеся языка, стоп-словарей и синтаксиса запросов.

Когда стоит использовать индексы

Индексы в Microsoft SQL Server целесообразно создавать в случаях, когда они способны значительно ускорить выполнение запросов. Вот несколько примеров, когда индексация оправдана:

Частые запросы с условиями по конкретным столбцам
Если запросы часто обращаются к одним и тем же столбцам в условиях WHERE, JOIN или ORDER BY, имеет смысл добавить индексы на эти столбцы.

Пример:
SELECT * FROM Employees WHERE DepartmentID = 5;

  1. Индекс на столбце DepartmentID ускорит выполнение запроса.

Запросы с объединениями таблиц (JOIN)
При объединении таблиц по ключевым столбцам индексы на этих столбцах значительно ускоряют выполнение запроса.

Пример:
SELECT e.EmployeeID, e.Name, d.DepartmentNameFROM Employees eINNER JOIN Departments d ON e.DepartmentID = d.DepartmentID;

  1. Индексы на e.DepartmentID и d.DepartmentID повысят производительность.

Поиск уникальных значений
Если столбец содержит уникальные значения (например, идентификаторы), создание уникального индекса позволяет быстро находить нужные записи.

Пример:
SELECT * FROM Products WHERE ProductID = 12345;

  1. Уникальный индекс на ProductID ускорит данный запрос.

Сортировка данных (ORDER BY)
При частой сортировке по определённому столбцу индекс на этом столбце ускоряет выполнение запроса.

Пример:
SELECT * FROM Orders ORDER BY OrderDate DESC;

  1. Индекс на OrderDate улучшит производительность при сортировке.

Агрегация и группировка (GROUP BY)
Запросы с агрегацией или группировкой выигрывают от наличия индексов.

Пример:
SELECT DepartmentID, COUNT(*) AS NumberOfEmployeesFROM EmployeesGROUP BY DepartmentID;

  1. Индекс на DepartmentID ускорит выполнение этого запроса.

Поиск по диапазонам значений (BETWEEN, >, <)
Если запросы часто включают поиск по диапазону значений, индекс на соответствующем столбце сократит время выполнения.

Пример:
SELECT * FROM Sales WHERE SaleDate BETWEEN '2022-01-01' AND '2022-12-31';

  1. Индекс на SaleDate улучшит производительность поиска по дате.

Индексы — эффективный инструмент для ускорения запросов, но важно помнить, что чрезмерное их количество может снизить производительность операций вставки, обновления и удаления данных. Поэтому выбирать, какие столбцы индексировать, нужно с учетом характера запросов и их частоты.

В комментариях поделитесь, с какими трудностями вы сталкивались, когда начали использовать индексы?

© Habrahabr.ru