해시(Hash) 충돌 해결법 심화 (체이닝 vs 개방 주소법 성능 분석)

카테고리 없음

해시(Hash) 충돌 해결법 심화 (체이닝 vs 개방 주소법 성능 분석)

kguidebook0001 2026. 2. 23. 09:56

해시 테이블(Hash Table)은 '키(Key)' 문자열만 알면 그 즉시 해당되는 '값(Value)'을 뽑아낼 수 있는 O(1)의 기적 같은 성능을 보여주는 현대 컴퓨터 과학의 결정체입니다. 하지만 비둘기집 원리에 의해 유한한 한정된 메모리 공간에서 해시 함수가 내뱉는 숫자가 우연히 겹쳐버리는 '해시 충돌(Hash Collision)'은 피할 수 없는 절대적인 숙명과도 같습니다. 백엔드 기술 면접관이 "해시 충돌을 어떻게 해결합니까?"라고 물었을 때, 단순히 "체이닝과 개방 주소법이 있습니다"라고 교과서적으로 나열하는 것에 그친다면 좋은 점수를 받기 어렵습니다. 두 기법이 컴퓨터의 하드웨어(CPU 캐시 메모리) 자원을 어떻게 효율적으로 사용하고 최적화하는지, 그리고 Java 같은 모던 언어들은 이 한계를 어떻게 극복했는지에 대한 성능 분석 관점의 깊이 있는 심화 지식을 지금부터 낱낱이 파헤쳐 보겠습니다.

1. 체이닝(Chaining): 연결 리스트의 한계와 완벽한 진화

체이닝 기법은 충돌이 발생한 배열의 방(Bucket)에 연결 리스트(Linked List) 포인터를 매달아, 새롭게 들어오는 데이터들을 기차처럼 줄줄이 엮어버리는 가장 전통적이고 대중적인 방식입니다. 충돌이 나더라도 새로운 배열 공간을 뒤지며 찾을 필요 없이 외부 메모리를 동적 할당받아 계속 이어 붙이기만 하면 되므로 로직이 매우 단순하고 직관적입니다.

1-1. 최악의 시나리오와 O(N)의 치명적 함정

하지만 만약 악의적인 해커가 교묘하게 서버의 해시 함수를 역산하여, 수만 개의 데이터가 전부 '7번 방' 단 한 곳으로만 향하도록 해시 충돌 공격(Hash DoS)을 가한다면 어떻게 될까요? 7번 방 아래에는 수만 개의 노드가 연결 리스트로 길고 무겁게 늘어지게 됩니다. 이제 데이터를 찾으려면 7번 방에 가서 이 긴 끈을 처음부터 끝까지 순차 탐색(Linear Search)해야 하므로, O(1)을 자랑하던 해시 테이블의 속도는 O(N)으로 폭망해버리며 서버는 과부하로 다운됩니다.

1-2. 자바(Java) 8의 천재적인 최적화: 레드-블랙 트리(Red-Black Tree) 전환

이러한 보안 취약점과 심각한 성능 저하를 막기 위해 Java 8부터는 HashMap 내부에 엄청난 진화를 도입했습니다. 하나의 버킷(방)에 연결 리스트 형태로 데이터가 8개 이상 주렁주렁 매달리게 되면, 자바는 이 미련한 연결 리스트의 끈을 과감히 끊어버리고 구조를 스스로 '레드-블랙 트리(Red-Black Tree, 자가 균형 이진 탐색 트리)'로 변환시켜 버립니다.
트리로 변환된 덕분에 특정 방에 데이터가 아무리 비정상적으로 많이 쏠리더라도 검색 속도는 O(N)이 아닌 O(log N)의 빠른 속도를 확정적으로 보장받게 되었습니다. (이후 데이터가 지워져서 다시 6개 이하로 줄어들면, 트리 유지 오버헤드를 줄이고 메모리를 절약하기 위해 원래의 가벼운 연결 리스트로 다시 돌아가는 치밀함까지 보여줍니다.)

2. 개방 주소법(Open Addressing): 빈방을 찾아 떠나는 치열한 여정

체이닝과 달리 개방 주소법은 외부 연결 리스트를 일절 쓰지 않고, 오직 주어진 해시 테이블 배열 내부의 빈 공간만 어떻게든 100% 활용하여 충돌을 해결하려는 방식입니다. 포인터(메모리 주소)를 추가로 저장할 필요가 없으므로 메모리 효율이 극강입니다.

2-1. 선형 탐사(Linear Probing)와 군집화(Clustering)의 끔찍한 저주

충돌이 났을 때 "바로 옆방(+1)을 확인하고 비어있으면 들어가는" 선형 탐사 기법은 CPU 캐시 지역성(Cache Locality)이 어마어마하게 좋다는 강력한 장점이 있습니다. 데이터가 물리적으로 바로 옆에 다닥다닥 붙어 있으므로 CPU가 메모리에서 데이터를 뭉텅이로 읽어오는 속도가 빛의 속도입니다.
하지만 치명적인 부작용인 1차 군집화(Primary Clustering)가 발생합니다. 데이터들이 한 구역에 찐득하게 뭉쳐 거대한 덩어리를 형성하게 되고, 이 덩어리가 커질수록 새로운 데이터가 빈방을 찾기 위해 점프하며 검사해야 하는 횟수가 기하급수적으로 늘어나 성능이 급감합니다.

2-2. 이중 해싱 (Double Hashing): 완벽한 난수 분산

선형 탐사의 뭉침 현상을 근본적으로 막기 위해 등장한 궁극의 기법이 바로 이중 해싱입니다. 해시 함수를 아예 독립적인 2개로 준비하는 전략입니다.

첫 번째 해시 함수: 데이터가 처음 들어갈 방 번호(Index)를 결정합니다.
두 번째 해시 함수: 만약 1차 시도에서 충돌이 났을 때, 몇 칸씩 건너뛰며(Jump Step Size) 빈방을 찾을지 보폭을 새롭게 결정합니다.

데이터마다 두 번째 해시 함수의 결과(보폭)가 완전히 다르기 때문에, 처음 우연히 같은 방에서 충돌이 났더라도 어떤 놈은 3칸씩 띄고, 어떤 놈은 5칸씩 띄어 빈방을 찾습니다. 이중 해싱 덕분에 데이터가 테이블 전체에 아주 고르게 흩어지게 되어 군집화 문제가 완벽하게 해결됩니다.

3. 실무에서의 선택: 언제 무엇을 써야 아키텍처가 견고할까?

그렇다면 우리는 시스템 아키텍처를 설계할 때 어떤 방식을 취해야 할까요? 해시 테이블에 전체 방 대비 데이터가 꽉 차 있는 비율인 로드 팩터(Load Factor)가 그 결정적인 해답입니다.

데이터 개수가 적고 배열의 크기가 넉넉하여 로드 팩터가 낮다면: 개방 주소법(특히 선형 탐사)이 포인터 연산 오버헤드가 없고 CPU 캐시 적중률이 극도로 높아 체이닝보다 훨씬 빠르고 좋습니다.
데이터가 폭발적으로 많아지고 삭제(Delete) 연산이 빈번하게 일어나는 거대 비즈니스 시스템이라면: 개방 주소법은 중간에 데이터가 삭제되면 연결이 끊긴 것으로 인식되어 탐색이 조기 종료되는 버그를 막기 위해 툼스톤(Tombstone, 삭제 표시 더미 데이터) 처리가 매우 까다롭고 검색이 갈수록 느려집니다. 따라서 자바의 HashMap처럼 트리를 결합한 체이닝(Chaining) 방식이 안정성과 유지보수 면에서 압도적으로 우수하며, 대부분의 언어 표준 라이브러리도 이를 채택합니다.

[핵심 요약]
1. 해시 충돌을 막는 체이닝(Chaining)은 한 방에 데이터가 몰리면 O(N)으로 느려지는 약점이 있지만, Java 8 등은 이를 레드-블랙 트리로 자동 전환하여 최악의 경우에도 O(log N)을 방어해냅니다.
2. 개방 주소법(Open Addressing) 중 선형 탐사는 CPU 캐시 효율이 극강이지만 데이터가 뭉치는 군집화 문제가 있어, 보폭을 다르게 하는 이중 해싱(Double Hashing)으로 이를 완벽히 방어합니다.
3. 데이터 삭제 처리가 복잡한 개방 주소법 대신, 대용량 트래픽을 다루는 현대 애플리케이션에서는 통상적으로 메모리 관리가 안정적인 체이닝 기법을 표준 아키텍처로 채택합니다.