ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Spring] 컬렉션 조회 최적화
    Spring 2021. 11. 25. 14:20

    컬렉션인 일대다 관계는 *대일 관계보다 최적화 방법이 조금 더 까다롭다.

    이는 데이터가 뻥튀기 되기 때문인데, 때문에 좀더 디테일한 방법으로 최적화 해야한다.

     

    1. 엔티티를 DTO로 변환 - 페이징과 한계 돌파

    페이징과 한계돌파

    - 컬렉션을 페치 조인하면 페이징이 불가능하다.

        - 컬렉션을 페치 조인하면 일대다 조인이 발생하므로 데이터가 예측할 수 없이 증가한다.

        - 일다대에서 일(1)을 기준으로 페이징을 하는 것이 목적이다. 그런데 데이터는 다(N)를 기준으로 row가 생성된다.

        - Order를 기준으로 페이징 하고 싶은데, 다(N)인 OrderItem을 조인하면 OrderItem이 기준이 되어버린다.

        - (더 디테일한 내용은 김영한 선생님의 자바 ORM 표준 JPA 프로그래밍 - 페치 조인 한계에 있답니다...)

    - 이 경우 하이버네이트는 경고 로그를 남기고 모든 DB 데이터를 읽어서 메모리에서 페이징을 시도한다. 최악의 경우 장애로 이어질 수 있다.

    한계돌파

    그러면 페이징 + 컬렉션 엔티티를 함께 조회하려면 어떻게 해야할까?

     

    - 먼저 *대일 관계를 모두 페치조인한다. *대일 관계는 row수를 증가시키지 않으므로 페이징 쿼리에 영향을 주지 않는다.

    - 컬렉션은 지연 로딩으로 조회한다.

    - 지연 로딩 성능 최적화를 위해 hibernate.default_batch_fetch_size, @BatchSize를 적용한다.

        - hibernate.default_batch_fetch_size : 글로벌 설정

        - @BatchSize : 개별 최적화

        - 이 옵션을 사용하면 컬렉션이나, 프록시 객체를 한꺼번에 설정한 size만큼 IN 쿼리로 조회한다.

     

    domain

    public class Order {
    
        @Id @GeneratedValue
        @Column(name = "order_id")
        private Long id;
    
        @ManyToOne(fetch = FetchType.LAZY)
        @JoinColumn(name = "member_id")
        private Member member;
    
        @OneToMany(mappedBy = "order", cascade = CascadeType.ALL)
        private List<OrderItem> orderItems = new ArrayList<>();
    
        @OneToOne(cascade = CascadeType.ALL, fetch = FetchType.LAZY)
        @JoinColumn(name = "delivery_id")
        private Delivery delivery;
    
        private LocalDateTime orderDate; // 주문시간
    
        @Enumerated(EnumType.STRING)
        private OrderStatus status; // 주문상태 [ORDER, CANCEL]
    }

    Repository

    public List<Order> findAllWithMemberDelivery(int offset, int limit) {
    
            return em.createQuery(
                    "select o from Order o" +
                            " join fetch o.member m" +
                            " join fetch o.delivery d", Order.class)
                    .setFirstResult(offset)
                    .setMaxResults(limit)
                    .getResultList();
        }

    Controller

    @GetMapping("/api/orders")
        public List<OrderDto> ordersV3_page(
                @RequestParam(value = "offset", defaultValue = "0") int offset,
                @RequestParam(value = "limit", defaultValue = "100") int limit)
        {
    
            List<Order> orders = orderRepository.findAllWithMemberDelivery(offset, limit);
    
            List<OrderDto> collect = orders.stream()
                    .map(o -> new OrderDto(o))
                    .collect(Collectors.toList());
    
            return collect;
        }

     yml

    spring:
      jpa:
        properties:
          hibernate:
            default_batch_fetch_size: 100

    - 개별로 설정하려면 @BatchSize를 적용하면 된다. (컬렉션은 컬렉션 필드에, 엔티티는 엔티티 클래스에 적용)

    - 장점

        - 쿼리 호출 수가 1+N -> 1 + 1로 최적화 된다.

        - 조인보다 DB 데이터 전송량이 최적화 된다. (Order와 OrderItem을 조인하면 Order가 OrderItem 만큼 중복해서          조회된다. 이 방법은 각각 조회하므로 전송해야할 중복 데이터가 없다.)

        - 페치 조인 방식과 비교해서 쿼리 호출 수가 약간 증가하지만, DB 데이터 전송량이 감소한다.

        - 컬렉션 페치 조인은 페이징이 불가능 하지만 이 방법은 페이징이 가능하다.

    - 결론

        - *대일 관계는 페치 조인해도 페이징에 영향을 주지 않는다. 따라서 *대일 관계는 페치조인으로 쿼리 수를 줄여 해      해결하고, 나머지는 hibernate.default_batch_fetch_size로 최적화 하자.

     

    참고 : default_batch_fetch_size의 크기는 적당한 사이즈를 골라야 하는데, 100~1000 사이를 선택하는 것을 권장한다. 이 전략을 SQL IN 절을 사용하는데, 데이터베이스에 따라 IN 절 파라미터를 1000으로 제한하기도 한다.
    1000으로 잡으면 한번에 1000개를 DB에서 애플리케이션에 불러오므로 DB에 순간 부하가 증가할 수 있다.
    하지만 애플리케이션은 100이든 1000이든 결국 전체 데이터를 로딩해야 하므로 메모리 사용량이 같다.
    1000으로 설정하는 것이 성능상 가장 좋지만, 결국 DB든 애플리케이션이든 순간 부하를 어디까지 견딜 수 있는지로 결정하면 된다.

    2. JPA에서 DTO 직접 조회 - 컬렉션 조회 최적화

    Repository

    public List<OrderQueryDto> findAllByDto_optimization() {
    
            List<OrderQueryDto> result = findOrders();
    
            List<Long> orderIds = toOrdersIds(result);
    
            List<OrderItemQueryDto> orderItems = findOrderItemMap(orderIds);
    
            Map<Long, List<OrderItemQueryDto>> orderItemMap = orderItems.stream()
                    .collect(Collectors.groupingBy(orderItemQueryDto -> orderItemQueryDto.getOrderId()));
    
            result.forEach(o -> o.setOrderItems(orderItemMap.get(o.getOrderId())));
    
            return result;
        }
    
        private List<OrderItemQueryDto> findOrderItemMap(List<Long> orderIds) {
            return em.createQuery(
                            "select new jpabook.jpashop.repository.order.query.OrderItemQueryDto(oi.order.id, i.name, oi.orderPrice, oi.count)" +
                                    " from OrderItem oi" +
                                    " join oi.item i" +
                                    " where oi.order.id in :orderIds", OrderItemQueryDto.class)
                    .setParameter("orderIds", orderIds)
                    .getResultList();
        }
    
        private List<Long> toOrdersIds(List<OrderQueryDto> result) {
            return result.stream()
                    .map(o -> o.getOrderId())
                    .collect(Collectors.toList());
        }
    
        private List<OrderQueryDto> findOrders() {
            return em.createQuery(
                    "select new jpabook.jpashop.repository.order.query.OrderQueryDto(o.id, m.name, o.orderDate, o.status, d.address)" +
                            " from Order o" +
                            " join o.member m" +
                            " join o.delivery d", OrderQueryDto.class)
                    .getResultList();
        }

    - query : 루트 1번, 컬렉션 1번

    - *대일 관계들을 먼저 조회하고, 여기서 얻은 식별자 orderId로 *대다 관계인 OrderItem을 한꺼번에 조회

    Map을 사용해서 매칭 성능향상(O(1))

     

     

    권장 구현방법

    1. 엔티티 조회 방식으로 우선 접근

        a. 페치조인으로 쿼리 수를 최적화

        b. 컬렉션 최적화

            A. 페이징 필요 hibernate.default_batch_fetch_size, @BatchSize로 최적화

            B. 페이징 필요 x -> 페치 조인 사용

    2. 엔티티 조회 방식으로 해결이 안되면 DTO 조회 방식 사용

    3. DTO 조회 방식으로 해결이 안되면 NativeSQL or JDBCTemplate

     

    참고: 엔티티 조회 방식은 페치 조인이나, hibernate.default_batch_fetch_size , @BatchSize 같이 코드를 거의 수정하지 않고, 옵션만 약간 변경해서, 다양한 성능 최적화를 시도할 수 있다.
    반면에 DTO를 직접 조회하는 방식은 성능을 최적화 하거나 성능 최적화 방식을 변경할 때 많은 코드를 변경해야 한다.
    > 참고: 개발자는 성능 최적화와 코드 복잡도 사이에서 줄타기를 해야 한다.
    항상 그런 것은 아니지만, 보통 성능 최적화는 단순한 코드를 복잡한 코드로 몰고간다.
    > 엔티티 조회 방식은 JPA가 많은 부분을 최적화 해주기 때문에, 단순한 코드를 유지하면서, 성능을 최적화 할 수 있다.
    > 반면에 DTO 조회 방식은 SQL을 직접 다루는 것과 유사하기 때문에, 둘 사이에 줄타기를 해야 한다.

     

     

    실전! 스프링 부트와 JPA 활용2 - API 개발과 성능 최적화 - 인프런 | 학습 페이지 (inflearn.com)

    댓글

Designed by Tistory.