네로개발일기

개발자 네로의 개발 일기, 자바를 좋아합니다 !

반응형

Batch Insert 

여러 건의 데이터를 입력할 때 아래와 같이 insert 구문을 실행하지 않고,

INSERT INTO test_data (user_id, uuid, created_at)
values ('jiyoon', '2efd2159-471d-4727-8eb0-20ae5a9810d3', '2022-03-19 04:41:12.59');
INSERT INTO test_data (user_id, uuid, created_at)
values ('nero', '49294b38-8afe-48a0-ab4b-4975ac333e56', '2022-02-05 09:14:00.04');

아래와 같이 멀티라인 insert 구문이 훨씬 효율적이다. 이를 Batch Insert라고 한다.

INSERT INTO test_data (user_id, uuid, created_at) values
('jiyoon', '2efd2159-471d-4727-8eb0-20ae5a9810d3', '2022-03-19 04:41:12.59'),
('nero', '49294b38-8afe-48a0-ab4b-4975ac333e56', '2022-02-05 09:14:00.04');

Batch Insert With JPA

- Hibernate의 Batch Insert 제약 사항

식별자 생성에 IDENTITY 방식을 사용하면 Hibernate가 JDBC 수준에서 batch insert를 비활성화한다.

Hibernate disables insert batching at the JDBC level transparently if you use an identity identifier generator.
출처: https://docs.jboss.org/hibernate/orm/5.4/userguide/html_single/Hibernate_User_Guide.html#batch-session-batch-insert

비활성화를 진행하는 이유는 새로 할당할 Key 값을 미리 알 수 없는 IDENTITY 방식을 사용할 때 Batch Support를 지원하면 Hibernate가 채택한 flush 방식인 ' Transactional Write Behind'와 충돌하기 때문에 IDENTITY방식에서는 Batch Insert는 동작하지 않는다.

 

그렇다고 Batch Insert를 적용하기 위해 IDENTITY 방식말고 섣불리 SEQUENCE 방식이나 TABLE 방식을 잘못 사용하면 더 나쁜 결과를 불러올 수 있다. 채번에 따른 부하가 상당히 큰 SEQUENCE 방식이나 TABLE 방식을 별다른 조치 없이 사용하면 Batch Insert를 쓸 수 없는 IDENTITY 방식보다 더 느리다. (참고: JPA GenerationType에 따른 INSERT 성능 차이)

 

Spring Data JDBC

- jdbcTemplate.batchUpdate()

JdbcTemplate에는 Batch를 지원하는 batchUpdate() 메서드가 마련되어 있다. 여러가지로 Overloading 되어있어 편리한 메서드를 골라서 사용하면 된다. 여기서는 batch 크기를 지정할 수 있는 BatchPreparedStatementSetter를 사용하는 아래 메서드를 구현해보자.

batchUpdate(String sql, BatchPreparedStatementSetter pss);

 

- ItemJdbc 객체를 ITEM_JDBC 테이블에 Batch Insert로 저장한다고 가정하자.

- batchSize 변수를 통해 배치 크기를 지정하고 전체 데이터를 배치 크기로 나눠서 Batch Insert를 실행하자.

 

ItemJdbcRepository.java

public interface TestDataJdbcRepository {
    void saveAll(List<TestData> dataList);
}

 

ItemJdbcRepositoryImpl.java

@Repository
@RequiredArgsConstructor
public class TestDataJdbcRepositoryImpl implements TestDataJdbcRepository {

    private final JdbcTemplate jdbcTemplate;

    @Value("${batchSize}")
    private int batchSize;

    @Override
    public void saveAll(List<TestData> dataList) {
        int batchCount = 0;
        List<TestData> subItems = new ArrayList<>();
        for (int i = 0; i < dataList.size(); i++) {
            subItems.add(items.get(i));
            if ((i + 1) % batchSize == 0) {
                batchCount = batchInsert(batchSize, batchCount, subItems);
            }
        }
        
        // 나머지 subItems를 insert
        if (!subItems.isEmpty()) {
            batchCount = batchInsert(batchSize, batchCount, subItems);
        }
        
        System.out.println("batchCount: " + batchCount);
    }

    private int batchInsert(int batchSize, int batchCount, List<TestData> subItems) {
        // batchUpdate(String sql, BatchPreparedStatementSetter pss) 사용
        jdbcTemplate.batchUpdate("INSERT INTO TEST_DATA (`USER_ID`, `UUID`) VALUES (?, ?)",
                new BatchPreparedStatementSetter() {
                    @Override
                    public void setValues(PreparedStatement ps, int i) throws SQLException {
                        ps.setString(1, subItems.get(i).getUserId());
                        ps.setString(2, subItems.get(i).getUuid());
                    }
                    @Override
                    public int getBatchSize() {
                        return subItems.size();
                    }
                });
                
        subItems.clear();
        batchCount++;
        return batchCount;
    }
}

 

요약

- 많은 데이터를 batch insert 하고 싶을 때는, Spring Data JDBC의 batchUpdate()를 활용하자.

- Sprind Data JPA를 사용해야 한다면 IDENTITY 방식 말고 SEQUENCE 방식을 사용하는 것이 좋다.

728x90
반응형
blog image

Written by ner.o

개발자 네로의 개발 일기, 자바를 좋아합니다 !