Как подружить Linq-to-Entities и Regex

Entity Framework сильно облегчает разработку систем, использующих базы данных. Не будем сейчас спорить о достоинствах и недостатках этого фреймворка (коих, конечно, немало), а рассмотрим одну из практических задач, которую мне пришлось решать при разработке такой системы.

Предположим, у нас есть база данных SQLite с довольно большим количеством записей, и эта база используется в нашем .NET приложении через System.Data.SQLite и Entity Framework 6.0. И вот приходит заказчик и сообщает, что ему нужна новая функция поиска записей в базе, да такая, чтобы можно было искать с использованием стандартных регулярных выражений.

В этой статье я расскажу, как я добился того, что процессинг регулярного выражения, задаваемого в Linq-запросе, происходит на стороне сервера, что позволяет ускорить его обработку и не допустить бессмысленного раздувания памяти клиентского приложения из-за предварительного скачивания всех данных.


А проблемы, вообще говоря, две.
Во-первых, Linq-to-Entities по умолчанию не умеет переводить вызовы стандартных .NET методов регулярных выражений (классы Regex и Match) в SQL-запросы. Оно и понятно — не все СУБД умеют регулярные выражения вычислять. Можно было бы написать свой Linq-провайдер, но хочется всё же обойтись «малой кровью» (ведь в System.Data.SQLite уже есть готовый провайдер).

Во-вторых, можно было бы вообще не углубляться в такие дебри и выполнять обработку локально, на стороне клиента. Но очевидно, что решение неудачное — для выполнения простой фильтрации придётся скачивать все данные из таблицы, чтобы в худшем случае потом отбросить все записи. А это — использование памяти и потеря производительности на стороне клиента.


В SQLite есть специальный оператор REGEXP, который есть не что иное как синтаксический сахар для пользовательской функции regexp (). По умолчанию эта функция не реализована, и её вызов вызовет ошибку, так что пользователь обязан определить эту функцию, прежде чем использовать её в своих запросах.

Именно от этого мы и будем отталкиваться. Задача сводится к следующему:

  • зарегистрировать функцию regexp () на SQLite-сервере;
  • заставить Linq-to-Entities переводить наш Linq-запрос таким образом, чтобы использовался оператор REGEXP или функция regexp ().

Итак, приступим.

System.Data.SQLite уже имеет функционал для регистрации пользовательских функций, вот им-то мы и воспользуемся.
Создадим класс, реализующий функцию:

[SQLiteFunction(Name = "REGEXP", Arguments = 2, FuncType = FunctionType.Scalar)]
public class RegExSQLiteFunction : SQLiteFunction
{
    public static SQLiteFunctionAttribute GetAttribute()
    {
        return (SQLiteFunctionAttribute)typeof(RegExSQLiteFunction).GetCustomAttributes(typeof(SQLiteFunctionAttribute), false).Single();
    }

    public override object Invoke(object[] args)
    {
        try
        {
            // Обратите внимание, что аргументы передаются в обратном порядке
            return Regex.IsMatch((string)args[1], (string)args[0]);
        }
        catch (Exception ex)
        {
            // Согласно документации System.Data.SQLite, исключение нужно вернуть как результат
            return ex;
        }
    }
}

Чтобы зарегистрировать эту функцию, вызываем соответствующий метод у объекта подключения:

var connection = new SQLiteConnection(connectionString);
connection.Open();
connection.BindFunction(RegExSQLiteFunction.GetAttribute(), new RegExSQLiteFunction());    

Всё! Теперь при использовании оператора REGEXP в любом SQL-запросе, выполняемом сервером, будет вызываться наша реализация. Удобно, не правда ли?


Вот тут начинается «чёрная магия».
При создании модели Entity Framework нам необходимо зарегистрировать в ней новое соглашение, описывающее нашу новую функцию. Для этого, например, можно в классе контекста данных при его создании добавить такой вызов метода:

protected override void OnModelCreating(DbModelBuilder modelBuilder)
{
    // Здесь происходит настройка модели при использовании Code First

    // Добавляем соглашение в модель
    modelBuilder.Conventions.Add(new RegexpFunctionConvention());
}

А сам класс соглашения описывает нашу функцию и делает её «понятной» Linq-адаптеру System.Data.SQLite:

public class RegexpFunctionConvention : IStoreModelConvention
{
    public void Apply(EdmModel item, DbModel model)
    {
        // Два входных строковых параметра
        var patternParameter = FunctionParameter.Create("pattern", this.GetStorePrimitiveType(model, PrimitiveTypeKind.String), ParameterMode.In);
        var inputParameter = FunctionParameter.Create("input", this.GetStorePrimitiveType(model, PrimitiveTypeKind.String), ParameterMode.In);

        // Возвращаемое значение            
        var returnValue = FunctionParameter.Create("result", this.GetStorePrimitiveType(model, PrimitiveTypeKind.Boolean), ParameterMode.ReturnValue);

        var function = this.CreateAndAddFunction(item, "regexp", new[] { patternParameter, inputParameter }, new[] { returnValue });
    }

    private EdmFunction CreateAndAddFunction(EdmModel item, string name, IList parameters, IList returnValues)
    {
        EdmFunctionPayload payload = new EdmFunctionPayload 
        { 
            StoreFunctionName = name, 
            Parameters = parameters, 
            ReturnParameters = returnValues, 
            Schema = this.GetDefaultSchema(item),             
            IsBuiltIn = true  // Сообщаем, что эта функция известна СУБД
        };
            
        EdmFunction function = EdmFunction.Create(name, this.GetDefaultNamespace(item), item.DataSpace, payload, null);
        item.AddItem(function);
        return function;
    }

    // Часть методов опущена
}

И последнее, что нужно сделать, — это создать «метод-заглушку» для компилятора, чтобы на её основе Linq-провайдер генерировал уже настоящую функцию в SQL-запросе.

internal static class R
{
    [DbFunction("CodeFirstDatabaseSchema", "regexp")]
    public static bool Regexp(string pattern, string input)
    {
        // Этот метод никогда не будет вызываться
        throw new NotImplementedException();
    }
}


Проделав всю подготовительную работу, мы, наконец, можем пожинать плоды и писать лаконичные Linq-запросы, которые к тому же будут выполняться на стороне сервера (правда, используя реализацию пользовательской функции на стороне клиента, но это отнюдь не то же самое, что обработка запроса с помощью Linq-to-Objects локально).

// Найдём все entities типа Item, у которых значение свойства Name удовлетворяет регулярному выражению pattern
using (MyDataContext context = new MyDataContext(myConnection))
{
    var filteredItems = context.Items.Where(i => R.Regexp(pattern, i.Name);
}

Таким образом мы получаем IQueryable, выполняемый на сервере, со всеми его достоинствами и преимуществами!
Буду рад, если моя небольшая статья поможет вам при решении похожих задач.

© Habrahabr.ru