Spring Data JPA: доводим напильником
Приветствую, это вторая заметка о Spring Data JPA. Первая часть была целиком посвящена подводным граблям, а также советам бывалых. В этой части мы поговорим о том, как заточить фреймворк под свои нужды. Все описанные примеры доступны здесь.
Графы
Начнём, пожалуй, с несложной и вместе с тем распространённой задачи: при загрузке некой сущности необходимо выборочно загружать её «дочку». Рассмотрим несложный пример:
@Entity
public class Child {
@Id
private Long id;
@JoinColumn(name = "parent_id")
@ManyToOne(fetch = FetchType.LAZY, cascade = CascadeType.ALL)
private Parent parent;
}
@Entity
public class Parent {
@Id
private Long id;
}
Дочерняя сущность в нашем примере ленивая: мы не хотим подгружать лишние данные (и присоединять ещё одну таблицу в SQL-запросе) при получении Child
. Но в некоторых случаях в нашем приложении мы точно знаем, что нам понадобится и ребёнок, и его родитель. Если оставить сущность ленивой — получим 2 отдельных запроса. Если применить быструю загрузку убрав FetchType.LAZY
— то обе сущности будут всегда загружаться при первом же запросе (а мы этого не хотим).
Хорошее решение предоставляет из коробки JPQL — это ключевое слово fetch
:
public interface ChildRepository extends JpaRepository {
@Query("select c from Child c join fetch c.parent where c.id = :id")
Child findByIdFetchParent(@Param("id") Long id);
}
Этот запрос прост и понятен, но у него есть недостатки:
- мы фактически продублировали логику
JpaRepository::findById
добавив явную подгрузку - каждый запрос, описанный с помощью
@Query
проверяется при запуске приложения, что требует синтаксического разбора запроса, проверки аргументов и т. д. (см. org.springframework.data.jpa.repository.query.SimpleJpaQuery: validateQuery). Всё это работа, требующая времени и памяти - использование подобного подхода в большом проекте с десятками репозиториев и переплетённых между собой сущностей (порой с десятком«дочек») приведёт к комбинаторному взрыву.
На помощь нам приходят графы:
@Entity
@NamedEntityGraphs(value = {
@NamedEntityGraph(
name = Child.PARENT,
attributeNodes = @NamedAttributeNode("parent")
)
})
public class Child {
public static final String PARENT = "Child[parent]";
@Id
private Long id;
@JoinColumn(name = "parent_id")
@ManyToOne(fetch = FetchType.LAZY, cascade = CascadeType.ALL)
private Parent parent;
}
Сам по себе граф описать несложно, трудности начинаются при его использовании. Spring Data JPA на своей странице предлагает делать это так (применительно к нашему случаю):
public interface GroupRepository extends JpaRepository {
@EntityGraph(value = Child.PARENT)
@Query("select c from Child c where c.id = :id")
Child findByIdFetchParent(@Param("id") Long id);
}
Здесь мы видим всё те же проблемы (разве что писанный запрос стал чуть проще). Покончить с ними одним махом можно с помощью тонкой настройки. Создадим свой интерфейс, который будем использовать для построения репозиториев вместо коробочного JpaRepository
:
@NoRepositoryBean
public interface BaseJpaRepository
extends JpaRepository {
T findById(ID id, String graphName);
}
Теперь реализация:
public class BaseJpaRepositoryImpl
extends SimpleJpaRepository
implements BaseJpaRepository {
private final JpaEntityInformation entityInfo;
private final EntityManager entityManager;
public BaseJpaRepositoryImpl(JpaEntityInformation ei, EntityManager em) {
super(ei, em);
this.entityInfo = ei;
this.entityManager = em;
}
@Override
public T findById(ID id, String graphName) {
Assert.notNull(id, "The given id must not be null!"); //сохраняем поведение
EntityGraph> graph = entityManager.getEntityGraph(graphName);
Map hints = singletonMap(QueryHints.HINT_LOADGRAPH, graph);
return entityManager.find(getDomainClass(), id, hints);
}
Теперь обяжем Спринг использовать BaseJpaRepositoryImpl
в качестве основы для всех репозиториев нашего приложения:
@EnableJpaRepositories(repositoryBaseClass = BaseJpaRepositoryImpl.class)
public class AppConfig {
}
Теперь наш метод будет доступен из всех репозиториев, унаследованных от нашего BaseJpaRepository
.
Данный подход имеет один недостаток, который может подложить очень жирную свинью.
Проблема в том, что Хибернейт (по крайней мере во время написания статьи) не сопоставляет имена графов и собственно сами графы. Из-за этого возможна ошибка времени выполнения, когда мы выполняем что-то вроде
Optional entity = repository.findById(id, NON_EXISTING_GRAPH);
Проверить работоспособность решения можно с помощью теста:
@Sql("/ChildRepositoryGraphTest.sql")
public class ChildRepositoryGraphTest extends TestBase {
private final Long childId = 1L;
@Test
public void testGraph_expectFieldInitialized() {
Child child1 = childRepository.findOne(childId, Child.PARENT);
boolean initialized = Hibernate.isInitialized(child1.getParent());
assertTrue(initialized);
}
@Test
public void testGraph_expectFieldNotInitialized() {
Child child1 = childRepository
.findById(childId)
.orElseThrow(NullPointerException::new);
boolean initialized = Hibernate.isInitialized(child1.getParent());
assertFalse(initialized);
}
}
Когда деревья были большими
А мы были маленькими и неопытными, то часто приходилось видеть вот такой код:
public List findBetweenDates(Date from, Date to) {
StringBuilder query = new StringBuilder("from Record ");
if (from != null) {
query.append(" where date >=").append(format(from)).append(" ");
}
if (to != null) {
if (from == null) {
query.append(" where date <= " + format(to) + " ");
} else {
query.append(" and date <= " + format(to) + " ");
}
}
return em.createQuery(query.toString(), DailyRecord.class).getResultList();
}
Этот код собирает запрос по кусочкам. Недостатки такого подхода очевидны:
- многое приходится делать руками
- там где ручная работа — там и ошибки
- нет подсветки синтаксиса (опечатки всплывают уже при выполнении)
- очень сложно расширять и поддерживать код
Чуть позже появилась Criteria API, что позволило немного ужать вышеописанный код:
public List findBetweenDates(Date from, Date to) {
Criteria criteria = em
.unwrap(Session.class)
.createCriteria(DailyRecord.class);
if (from != null) {
criteria.add(Expression.ge("date", from));
}
if (to != null) {
criteria.add(Expression.le("date", to));
}
return criteria.list();
}
Использовании критериев имеет ряд преимуществ:
- возможность использования метамодели, вместо «зашитых» значений вроде «date»
- некоторые ошибки построения запроса оказываются ошибками компиляции т. е. обнаруживаются уже при написании
- код получается короче и вразумительнее, чем при тупом склеивании строк
Есть и недостатки:
- код достаточно сложен для понимания
- чтобы научится писать подобные запросы нужно набивать руку (хорошо помню дичайшую боль, когда впервые пришлось столкнуться с исправлением ошибок в подобных запросах, состоящих порой из 100–150 строк, имеющих ветвление и т. д.)
- сложный запрос получается достаточно громоздким (50 строк далеко не предел)
Хочется разрабатывать легко и с удовольствием, поэтому оба указанных способа мне не нравятся.
Обратимся к уже рассмотренной нами сущности:
@Entity
public class Child {
@Id
private Long id;
@JoinColumn(name = "parent_id")
@ManyToOne(fetch = FetchType.LAZY, cascade = CascadeType.ALL)
private Parent parent;
//...
@OneToMany(mappedBy = "owner", cascade = CascadeType.ALL)
@LazyCollection(value = LazyCollectionOption.EXTRA)
private List toys = new ArrayList<>();
}
Хочется иметь возможность загружать сущность в разных режимах (и их сочетаниях):
- загружать (или нет) родителя
- загружать (или нет) игрушки
- упорядочивать детей по возрасту
Если решать эту задачу в лоб, т. е. путём написания множества запросов, соответствующих выбранному режиму загрузки, то очень быстро это приведёт к комбинаторному взрыву:
@Query("select c from Child c join fetch c.parent order by c.age")
List findWithParentOrderByAge();
@Query("select c from Child c join fetch c.toys order by c.age")
List findWithToysOrderByAge();
@Query("select c from Child c join fetch c.parent join fetch c.toys")
List findWithParentAndToys();
//...
Существует простой и элегантный способ решения этой задачи: сочетание SQL/HQL и движков шаблонов. На моих проектах использовался «Фримаркер», хотя можно использовать и другие решения, («Тимлиф», «Мусташ» и т.п.).
Приступим к созданию. Перво-наперво нам необходимо описать запрос в файле, которые получает расширение *.hql.ftl
или *.sql.ftl
(если используется «чистый» SQL):
#* @vtlvariable name="fetchParent" type="java.lang.Boolean" *#
#* @vtlvariable name="fetchToys" type="java.lang.Boolean" *#
#* @vtlvariable name="orderByAge" type="java.lang.Boolean" *#
select child
from Child child
#if($fetchParent)
left join fetch child.parent
#end
#if($fetchToys)
left join fetch child.toys
#end
#if($orderByAge)
order by child.age
#end
Теперь потребуется обработчик:
@Component
@RequiredArgsConstructor
public class TemplateParser {
private final Configuration configuration;
@SneakyThrows
public String prepareQuery(String templateName, Map params){
Template template = configuration.getTemplate(templateName);
return FreeMarkerTemplateUtils.processTemplateIntoString(template, params);
}
}
Ничего сложного. Приступаем к репозиторию. Очевидно, что интерфейс наследующий JpaRepository
нам не подходит. Вместо этого воспользуемся возможностью создания собственных репозиториев:
public interface ChildRepositoryCustom {
List findAll(boolean fetchParent, boolean fetchToys, boolean order);
}
@RequiredArgsConstructor
public class ChildRepositoryImpl
extends BaseDao
implements ChildRepositoryCustom {
private final TemplateParser templateParser;
@Override
public List findAll(boolean fetchParent, boolean fetchToys, boolean order) {
Map params = new HashMap<>();
params.put("fetchParent", fetchParent);
params.put("fetchToys", fetchToys);
params.put("orderByAge", orderByAge);
String query = templateParser.prepareQuery(BASE_CHILD_TEMPLATE.name, params);
return em.createQuery(query, Child.class).getResultList();
}
@RequiredArgsConstructor
enum RepositoryTemplates {
BASE_CHILD_TEMPLATE("BaseChildTemplate.hql.ftl");
public final String name;
}
}
Чтобы метод findUsingTemplate
стал доступен из ChildRepository
нужно сделать вот так:
public interface ChildRepository
extends BaseJpaRepository, ChildRepositoryCustom {
//...
}
Спринг свяжет наш класс и интерфейсы воедино только при условии правильного наименования:
- ChildRepository
- ChildRepositoryCustom
- ChildRepositoryImpl
Помните об этом, т. к. в случае ошибки в имени будет брошено невразумительное исключение, из которого невозможно понять причину ошибки.
Теперь используя этот подход можно решать более сложные задачи. Предположим, нам необходимо делать выборку на основании выбранных пользователем признаков. Иными словами, если пользователь не указал даты «от» и «до», то фильтрации по времени не будет. Если указана только дата «от» или только дата «до», то фильтрация будет односторонней. Если же указаны обе даты, то в выборку попадут только записи между указанными датами:
@Getter
@RequiredArgsConstructor
public class RequestDto {
private final LocalDate from;
private final LocalDate to;
public boolean hasDateFrom() {
return from != null;
}
public boolean hasDateTo() {
return to != null;
}
}
@Override
public List findAll(ChildRequest request) {
Map params = singletonMap("request", request);
String query = templateParser.prepareQuery(TEMPLATE.name, params);
return em.createQuery(query, Child.class).getResultList();
}
Теперь шаблон:
<#-- @ftlvariable name="request" type="полное.имя.пакета.RequestDto" -->
select child
from Child child
<#if request.hasDateFrom() && request.hasDateTo()>
where child.birthDate >= :dateFrom
and child.birthDate <= :dateTo
<#elseif request.hasDateFrom()>
where child.birthDate >= :dateFrom
<#elseif request.hasDateTo()>
where child.birthDate <= :dateTo
#if>
Оракл и nvl
Рассмотрим сущность:
@Entity
public class DailyRecord {
@Id
private Long id;
@Column
private String currency;
@Column(name = "record_rate")
private BigDecimal rate;
@Column(name = "fixed_rate")
private BigDecimal fxRate;
@Setter(value = AccessLevel.PRIVATE)
@Formula("select avg(r.record_rate) from daily_record r where r.currency = currency")
private BigDecimal avgRate;
}
Эта сущность используется в запросе (СУБД, как мы помним, у нас Оракл):
@Query("select nvl(record.fxRate, record.avgRate) " +
" from DailyRecord record " +
"where record.currency = :currency")
BigDecimal findRateByCurrency(@Param("currency") String currency);
Это рабочий, годный запрос. Но с ним есть одна небольшая проблема, на которую наверняка укажут знатоки SQL. Дело в том, что nvl
в Оракле не является ленивым. Иными словами, когда мы вызовем метод findRateByCurrency
в журнал запросов будет выведено
select nvl(
dr.fixed_rate,
select avg(r.record_rate) from daily_record r where r.currency = dr.currency
)
from daily_record dr
where dr.currency = ?
Даже если значение dr.fixed_rate
присутствует, СУБД всё равно вычисляет значение, возвращаемое вторым выражением в nvl
, что в нашем случае
select avg(r.record_rate)
from daily_record r
where r.currency = dr.currency)
Читатель наверняка уже знает, как увернуться от ненужного утяжеления запроса: конечно же, это ключевое слово coalesce
, которое выгодно отличается от nvl
своей ленивостью, а также умением принимать на вход более 2 выражений. Поправим наш запрос:
@Query("select coalesce(record.fxRate, record.avgRate) " +
" from DailyRecord record " +
"where record.currency = :currency")
BigDecimal findRateByCurrency(@Param("currency") String currency);
И тут, что называется, внезапно:
select nvl(dr.fixed_rate,
select
avg(r.record_rate)
from
daily_record r
where
r.currency = dr.currency)
from daily_record dr
where dr.currency = ?
Запрос остался тем же. Всё потому, что оракловый диалект из коробки превращает coalesce
в цепочку nvl
.
Если нужно воспроизвести это поведение, то удалите вторую строку в конструкторе класса CustomOracleDialect и запустите тест DailyRecordRepositoryTest::findRateByCurrency
Чтобы увернуться от этого нужно создать свой диалект и использовать его в приложении:
public class CustomOracleDialect extends Oracle12cDialect {
public CustomOracleDialect() {
super();
registerFunction("coalesce", new StandardSQLFunction("coalesce"));
}
}
Да, вот так просто. Теперь подвяжем созданный диалект к приложению:
spring:
jpa:
database-platform: com.luxoft.logeek.config.CustomOracleDialect
spring:
jpa:
properties:
hibernate.dialect: com.luxoft.logeek.config.CustomOracleDialect
Повторное выполнение запрос даёт заветный коалеск:
select coalesce(dr.fixed_rate,
select
avg(r.record_rate)
from
daily_record r
where
r.currency = dr.currency)
from daily_record dr
where dr.currency = ?
Оракл и постраничные запросы
Вообще допиливание диалекта даёт богатые возможности для манипуляций запросами. Часто при разработке приложение и веб-мордой встречается задача постраничной выгрузки данных. Иными словами в БД у нас лежит несколько сотен тысяч записей, но отображаются они пачками по 10/50/100 записей на странице. Спринг Дата из коробки даёт разработчику подобный функционал:
@Query("select new com.luxoft.logeek.data.BriefChildData(" +
"c.id, " +
"c.age " +
") from Child c " +
" join c.parent p " +
"where p.name = 'папа'")
Page browse(Pageable pageable);
Этот подход имеет существенный недостаток, а именно выполнение двух запросов, первый из которых достаёт данные, а второй — определяет их полное количество в БД (это нужно для того, чтобы отобразить в объекте Page
общее количество данных). В нашем случае вызов этого метода даёт такие запросы (журналирование с помощью p6spy):
select *
from (
select c.id,
c.age
from child c
inner join parent p
on c.parent_id = p.id
where p.name = 'папа'
)
where rownum <= 3;
select count(c.id)
from child c
inner join parent p
on c.parent_id = p.id
where p.name = 'папа'
Если запрос тяжеловесный (много таблиц присоединяется по неиндексируемой колонке, просто много присоединений, сложное условие выборки и т. п.) то это может стать проблемой. Но так как у нас Оракл, то с помощью псевдоколнки rownum можно обойтись одним запросом.
Для этого нужно допилить наш диалект, и описать функцию, использующуюся для подсчёта всех записей:
public class CustomOracleDialect extends Oracle12cDialect {
public CustomOracleDialect() {
super();
registerFunction("coalesce", new StandardSQLFunction("coalesce"));
registerFunction("total_count", new TotalCountFunc());
}
}
public class TotalCountFunc implements SQLFunction {
@Override
public boolean hasArguments() {
return true;
}
@Override
public boolean hasParenthesesIfNoArguments() {
return true;
}
@Override
public Type getReturnType(Type type, Mapping mapping) {
return StandardBasicTypes.LONG;
}
@Override
public String render(Type type, List arguments, SessionFactoryImplementor factory) {
if (arguments.size() != 1) {
throw new IllegalArgumentException("Only 1 argument acceptable");
}
return " count(" + arguments.get(0) + ") over () ";
}
}
Теперь напишем новый запрос (в классе ChildRepositoryImpl
):
@Override
public Page browseWithTotalCount(Pageable pageable) {
String query =
"select " +
" c.id as id," +
" c.age as age, " +
" total_count(c.id) as totalCount" +
" from Child c " +
"join c.parent p " +
"where p.name = 'папа'";
List list = em.unwrap(Session.class)
.createQuery(query)
.setFirstResult((int) pageable.getOffset())
.setMaxResults(pageable.getPageSize())
.setResultTransformer(Transformers.aliasToBean(BriefChildData.class))
.getResultList();
if (list.isEmpty()) {
return new PageImpl(Collections.emptyList());
}
long totalCount = list.get(0).getTotalCount();
return new PageImpl<>(list, pageable, totalCount);
}
При вызове этого кода выполнится один запрос
select *
from (select c.id,
c.age,
count(c.id) over () -- <-----
from child c
inner join parent p
on c.parent_id = p.id
where p.name = 'папа')
where rownum <= 3
С помощью выражение count(c.id) over ()
можно получить общее количество данных и достать его из дата-класса для передачи в конструктор PageImpl
. Есть способ сделать это более элегантно, без добавления ещё одного поля в дата-класс, считайте это домашним заданием :) Протестировать решение можно с помощью теста ProjectionVsDataTest.
Подводные камни кастомизации
У нас есть крутой проект с Ораклом и Спринг Датой. Перед нами поставлена задача улучшить производительность подобного кода:
List ids = getIds();
ids.stream()
.map(repository::findById)
.filter(Optional::isPresent)
.map(Optional::get)
.forEach(this::sendToSchool);
Недостаток лежит на поверхности: количество запросов к БД равно количеству уникальных ключей. Известен и способ преодоления этого затруднения:
List ids = getIds();
repository
.findAllById(ids)
.forEach(this::sendToSchool);
Преимущество множественной выборки очевидно: если раньше у нас было множество похожих запросов вида
select p.* from Pupil p where p.id = 1
select p.* from Pupil p where p.id = 2
select p.* from Pupil p where p.id = 3
то теперь они схлопнулись до одного
select p.* from Pupil p where p.id in (1, 2, 3, ... )
Вроде бы полегчало и стало хорошо. Проект растёт, развивается, данные множатся и однажды наступает неизбежное:
ERROR - ORA-01795: maximum number of expressions in a list is 1000
Нужно снова искать выход (не к старой же версии возвращаться). Раз «Оракл» не позволяет скармливать ему более 1000 ключей, то можно разделить весь набор данных на равные доли размером не более 1000 и выполнять кратное количество запросов:
List> idChunks = c.g.c.c.Lists.partition(ids, 1000); //*
idChunks.forEach(idChunk ->
repository.findAllById(idChunk).forEach(this::sendToSchool)
);
//* c.g.c.c.Lists = com.google.common.collect.Lists
Этот способ работает, но слегка (слегка ли?) попахивает: при возникновении подобных сложностей в других местах придётся городить этот же огород. Попробуем решить задачу более элегантно, а именно путём допиливания BaseJpaRepositoryImpl
. Простейший способ сделать это — перенести описанную выше логику внутрь, скрыв её от пользователя:
@Override
public List findAllById(Iterable ids) {
Assert.notNull(ids, "The given Iterable of Id's must not be null!");
Set idsCopy = Sets.newHashSet(ids);
if (idsCopy.size() <= OracleConstants.MAX_IN_COUNT) {
return super.findAllById(ids);
}
return findAll(idsCopy);
}
private List findAll(Collection ids) {
List> idChunks = Lists.partition(new ArrayList<>(ids), 1000);
return idChunks
.stream()
.map(this::findAllById)
.flatMap(List::stream)
.collect(Collectors.toList());
}
Стало лучше: во-первых, мы очистили рабочий код от инфраструктурных наслоений, а во-вторых расширили область действия нашего решения на все репозитории проекта, расширяющие BaseJpaRepository
. Есть и недостатки. Главный из них — несколько запросов вместо одного, а также (проистекает из главного) — необходимость фильтровать ключи, ведь если этого не сделать, то в разных idChunks
может оказаться один и тот же ключ. Это в свою очередь означает, что одна и та же сущность попадёт в список дважды, и, соответственно, дважды будет обработана. Этого нам не нужно, поэтому вот другое, более мудрёное решение:
@Override
public List findAllById(Iterable ids) {
Assert.notNull(ids, "The given Iterable of Id's must not be null!");
ArrayList idsCopy = Lists.newArrayList(ids);
if (idsCopy.size() <= OracleConstants.MAX_IN_COUNT) {
return super.findAllById(ids);
}
return findAll(idsCopy);
}
private List findAll(ArrayList ids) {
CriteriaBuilder cb = entityManager.getCriteriaBuilder();
CriteriaQuery query = cb.createQuery(getDomainClass());
Root from = query.from(getDomainClass());
Predicate predicate = toPredicate(cb, ids, from);
query = query.select(from).where(predicate);
return entityManager.createQuery(query).getResultList();
}
private Predicate toPredicate(CriteriaBuilder cb, ArrayList ids, Root root) {
List> chunks = Lists.partition(ids, OracleConstants.MAX_IN_COUNT);
SingularAttribute super T, ?> id = entityInfo.getIdAttribute();
Predicate[] predicates = chunks.stream()
.map(chunk -> root.get(id).in(chunk))
.toArray(Predicate[]::new);
return cb.or(predicates);
}
Здесь используется Criteria API, что даёт возможность построить один итоговый запрос вида
select p.*
from Pupil p
where p.id in (1, 2, ... , 1000)
or p.id in (1001, ... , 2000)
or p.id in (2001, ... , 3000)
Тут есть тонкость: подобный запрос может выполнятся дольше обычного из-за громоздкости условия, поэтому первый способ может (иногда) оказаться более предпочтительным.
На этом всё, надеюсь примеры были вам полезны и пригодятся в повседневной разработке. Замечания и дополнения приветствуются.