포커 전략: 게임 이론 및 솔버에 대한 오해 및 괴담

kevinhan 1 5,418 2023.04.28 13:13

포커 전략: 게임 이론 및 솔버에 대한 오해 및 괴담

2023년 4월 12일 기사

Steve Zolotow가 포커 솔버로 어떻게 하면 실제적인 도움을 얻을 수 있는 지 설명합니다

게임이론은 수학자인 폰 노이만이 창안한 개념이며 경제학자인 Oscar Morgenstern 와 함께 공동저자로써 그의 첫번째 책에도 담긴 주제입니다. (사실 전 NYU에서 MBA 과정을 수료중에 Morgenstern의 게임 이론 수업을 들었습니다.) 해당 책은 Theory of Games and Economic Behavior으로 1947년에 쓰여졌으며 포커 및 블러프에 대해 잠깐 언급하기도 합니다.

책이 나온 이후로 게임 이론은 정치, 선거, 경제(특히 회사간의 가격담화 등의 콜루젼), 스포츠(농구에서 핫 한 선수를 찾는 방법, 골키퍼가 어느 방향으로 점프하는 지에 대한 측면), 옥션 등 여러 흥미로운 상황 분석에 쓰여졌습니다. 게임 이론의 응용은 여러 주제에 대해 더욱더 쓰이기 시작 했습니다. 특히나 복잡한 계산을 위한 컴퓨터를 사용하는 것과 내쉬 평형의 컨셉 사용이 쉬워진 덕분 입니다.

포커에 이를 응용한 프로그램, 일반적으로 솔버라 불리는 프로그램은 여전히 초기 단계에 있지만 평범한 스타팅 핸드 선택이나 4벳 팟 리버 전략 등 일반적이지 않은 여러 상황에 대한 흥미로운 아이디어를 제공했습니다.

이제 제가 솔버 및 게임이론에 대한 괴담이나 오해를 어느정도 정리할 수 있기를 바라는 차원에서 몇 가지 확실히 짚고 넘어가고 싶습니다.

오해 1 – 포커는 답이 나온 게임이다

게임은 어떠한 무브가 나와도 이에 대한 최상의 대응이 계산되어 최상의 결과가 도출 되었을 때 해결되었다고 간주합니다. 현재까지는 틱택톡, 가위바위보, 체커와 같은 상대적으로 간단한 게임이 해결되었는데요, 체스나 바둑과 같은 게임은 아직까지는 완전히 해결되지는 않았지만 컴퓨터는 현재 최고의 인간 플레이어보다 훨씬 더 뛰어난 실력을 보이고 있습니다.

오해 2 – 모든 솔버는 각각의 상황에 대해 같은 솔루션을 제공한다

솔버를 만들려면 제작자는 일련의 가정 및 단순화를 무조건 해야 됩니다. 이러한 대다수의 가정 및 단순화는 컴퓨팅 자원을 엄청 많이 사용하지 않으면서도 꽤나 정확한 답을 도출 할 수 있게끔 하기 위한 것입니다. 노리밋 홀덤에서는 매 순간마다 가져갈 수 이는 베팅 사이즈가 엄청나게 많지만 솔버는 각 상황에 대해 소수의 베팅 사이즈를 선택하는 경향을 보이지만 그렇다고 해서 모두 동일한 선택을 하지 않습니다.

예를 하나 들어보면 바로 오픈 레이즈 사이즈(RFI)입니다. 대다수의 솔버의 선택은 2나 2.2x로 고정되어 사용되어야 합니다. 하지만 몇몇은 림프가 가능하며 몇몇은 그렇지 않습니다. 또한 포지션이나 스택 사이즈, 혹은 두 요소를 토대로 여러 사이즈를 가져가기도 합니다.

오해 3 – 솔버는 모든 일반적인 상황에 대한 답을 제공한다

대다수의 라이브 플레이어들은 솔버가 제안하는 베스트 사이징보다 계속해서 더 큰 사이즈를 사용합니다. 예를 들어 $2-5 라이브 캐쉬게임에서는 대다수가 $20이나 $25(4 ~ 5bb)로 오픈 레이즈 하는데요, 반면 대다수의 솔버는 최대 3x를 사용합니다. 라이브 캐쉬게임은 대부분의 경우 굉장히 딥한 스택을 플레이 하는 데요, 300 ~ 500bb 스택을 가지는 게 전혀 이상하지 않기에 일반적으로 솔버의 솔루션에서 다루는 스택 사이즈보다 훨씬 더 큰 사이즈를 플레이 한다는 것입니다. 또한 캐쉬게임은 무조건, 혹은 옵션을 통한 스트래틀이 나오기도 하지만 솔버는 이 또한 고려치 않을테구요.

일반적으로 더 큰 RFI 사이즈는 작은 사이즈보다 좀 더 타이트한 레인지를 생산합니다. 이와 마찬가지로 3벳 사이즈에 대한 결정이 내려질 때도 그래야 하구요. 하지만 직관적으로 이해하기 어려울 수도 있지만 리버 스팟에서는 베팅이 크면 클수록 더 많은 블러프 %를 포함할 수 있습니다.

예을 들어 손으로 계산해보면 50% 팟 사이즈 리버 베팅은 전체 레인지 중 25%의 블러프를 포함해야 된다는 걸 입증했습니다. 팟 사이즈 베팅은 33%의 블러프, 2x 팟 사이즈 베팅은 40%의 블러프가 필요로 하구요. 이론적으로 봤을 때 베팅 사이즈가 얼마나 크던지 간에 50% 이상의 블러프를 가질 수는 없습니다. 그럴 경우 상대가 매번 콜을 하는 게 수익이 나는 선택이니까요. 하지만 실제 게임에서는 폴드를 너무 자주 하는 플레이어를 상대로 블러프를 자주하는 익스플로잇을 가져갈 수 있습니다.

여기에 더해 모든 솔루션에 앤티나 레이크의 존재 여부에 대한 선택이 포함되지는 않습니다. 토너먼트 솔루션의 경우 페이아웃 구조 및 ICM이 포함되어야 하며 캐쉬게임의 경우 엄청나게 큰 SPR을 고려해야 될 것입니다. 이러한 이유 및 다른 이유로 인해 각각의 솔버는 해당 솔버만의 레인지 및 전략을 생산하고 도출합니다.

오해 4 – 게임 이론이 최적화 전략으로 이어진다

여러 게임 이론적 솔루션들(포커에 국한되지 않는)은 내쉬 균형으로 이어집니다.

내쉬 균형은 최적화 솔루션에 무조건적으로 필요치는 않으며 오직 한 쪽의 플레이어가 독립적으로 자신의 전략을 변경함으로써 결과를 나아지게 할 수 없는 상태를 뜻합니다.

예를 들어 어떠한 플레이어 그룹이 카지노에서 매일 정오에서 오후 6시까지 $2-5 캐쉬게임을 플레이 한다고 가정해 보겠습니다. 해당 카지노는 팟 마다5%의 레이크를 가져가며 최대 $100까지 가져갑니다. 거기에 주차비까지 차징하구요. 하지만 옆에 있는 포커룸은 더 나은 딜을 제공합니다. 같은 게임을 돌리지만 레이크는 4% 밖에 안되며 주차도 공짜입니다. 그렇다고 해도 더 좋지 못한 장소에서 플레이 하는 게 내쉬 균형입니다. 포커룸에서는 테이블이 돌아가지 않기에 어느 한 명이 자신의 전략을 바꿔 해당 포커룸에 모습을 비춰도 이득을 가질 수 없습니다. 물론 만약 전체 그룹이 바꾼다면 새로운 내쉬 균형 및 더 최적화된 솔루션을 얻게 될 수 있지만요.

오해 5 – 솔버는 모든 스트럭쳐에 대해 쉽게 풀어낼 수 있습니다

솔버는 SB가 BB의 정확히 절반이라는 가정을 사용합니다. 하지만 라이브 플레이에서는 항상 그렇지 않습니다. 라이브 캐쉬게임의 일반적인 블라인드 셋팅을 보면 $1-1, $1-3, $2-3, $2-5, 혹은 $3-5도 있습니다. 캐쉬게임은 또한 종종 쓰리 블라인드 스트럭쳐를 가집니다. 저는 종종 $10-20-40 노리밋 캐쉬게임을 플레이 할 때면 $40 BB 앤티까지 포함합니다. 또한 몇몇 플레이어가 스트래틀을 하는 게임도 있을테구요. 심지어 토너먼트에서도 다수의 장소가 100 블랙칩을 없애고 블라인드 레벨을 1,000-1,500으로 설정하기도 합니다. 솔버는 이를 고려할 수 없겠죠.

오해 6 – 솔버의 솔루션은 매우 정확하다

이는 결과가 보고 되거나 아웃풋이 나올 때 표기되는 정확성으로 인해 만들어진 환상입니다. 일반적인 솔버는 하나의 라인에 대한 에퀴티를 계산했을 때 +4.21bb이 나왔고 굉장히 다른 라인의 에퀴티가 +4.22bb로 나왔을 때 당연히 두번째 라인을 선택합니다. 하지만 실제로는 이러한 아주 작은 차이는 특정 프로그램의 일부로써 우연적인 측면이기에 무시해야 됩니다.

몇몇 학생들은 이러한 미세한 차이를 기반으로 어떠한 플레이가 최적화된 플레이인지 배우려는 실수를 하는데요, 동일한 일이 레인지를 스플릿 할 때에도 일어납니다. 솔버는 엄청난 샘플 사이즈를 통해 익스플로잇 당하지 않기 위해 레인지를 스플릿 합니다. 파켓 6을 3.3 BB 20%, 2.4 BB 43%, 2 BB 17% 그리고 폴드 20%로 플레이 해야 된다는 생각에 사로잡히시면 안됩니다. 해당 스팟에서 파켓 6이 거의 0에 가까운 EV를 가진다고 여겨 이를 토대로 적절한 무브를 가져가시면 됩니다.

오해 7 – GTO는 쉽게 배우고 적용시킬 수 있는 전략이다

솔버의 결과는 굉장한 디테일을 보이며 복잡합니다. 인간은 모든 상황에 대한 컴퓨터의 추천 전략을 원격적으로 배울 수가 없습니다. 특히나 상대적으로 하나의 요소에 작은 변화만 일어나도 완전히 다른 전략으로 이어짐을 고려한다면 말입니다.

예를 들어 토너먼트에서 18bb를 가졌다면 솔버는 어느정도의 폴ㄷ, 림프, 민-레이즈 그리고 올인 무브가 포함된 버튼 전략을 추천할 것입니다. 스택 사이즈가 줄어들면 림프 및 민-레이즈 빈도가 줄어들테구요. 결국 8bb 스택에 가까워지면 우리가 가질 수 있는 옵션은 폴드나 올인 밖에 없습니다.

모든 걸 배울 수는 없지만 모든 포지션에 대한 적절한 오픈 레이즈 레인지는 배워야만 합니다. 오직 하나의 사이즈, 혹은 여러 사이즈를 가져가는 전략을 배우고 싶은 지 결정해야 됩니다. 또한 각각의 포지션의 레이즈를 상대하는 디펜스 전략도 배워야 합니다. 여러분이 보통 플레이 하는 게임에서 이러한 전략을 어느정도 기억하고 숙지해야 될 것입니다. 물론 이러한 기억 작업은 꽤나 힘들 것입니다.

캐쉬게임 및 토너먼트를 병행한다면 최소한 2배 이상의 양을 배워야 하구요. 그렇기에 저는 너무 정확한 레인지 플레이 등을 먼저 배우기 보다는 무엇이 대략적으로 맞는 지에 대한 느낌부터 키워나가는 걸 추천드리고 싶습니다. 이는 또한 토너먼트에서의 머니 버블 근접 스팟이나 매니악이 테이블에 있는 특정 상황에 대한 적응을 좀 더 쉽게 가져갈 수 있게 해줄 것입니다.

오해 8 – GTO 솔루션을 마스터 하면 크나큰 수익을 낼 수 있다

이러한 솔루션은 상대가 여러분들을 익스플로잇하지 못하게 해줍니다. 엄청난 실수를 가져가는 플레이어들을 상대로도 어느정도의 이점을 제공할테구요. 하지만 이러한 엄청난 실수는 사실 거의 해서는 안되는 레벨의 실수입니다.

예를 들어 프리플랍에서 AA를 폴드하는 건 당연히 엄청난 실수입니다. 아쉽게도 전업을 하는 플레이어들은 AA를 폴드하는 이러한 말도 안되는 실수를 당연히 하지는 않을 것입니다. 좀 더 일반적인 실수라 한다면 주어진 상황에서 무조건 폴드해야 되는 몇몇 핸드를 더 플레이 하는 정도겠죠.

게임에서 크나큰 수익을 내고 싶은 플레이어가 되고 싶다면 상대를 익스플로잇 하는 방법을 무조건 배워야 합니다. 솔버 솔루션은 이를 가르쳐 주지 않으며 그저 어떻게 하면 익스플로잇 당하는 걸 피하는 지만 알려줍니다. 손실을 피하는 방법 말이죠. 하지만 위닝을 생산해내지는 않습니다. 익스플로잇은 빈도 실수를 이용하는 것입니다.

빈도 실수가 뭘까요? 말 그대로 가져가야 되는 빈도보다 훨씬 더 자주, 혹은 훨씬 적게 액션이 실행 됐음을 말합니다. 예를 들어 우리가 리버에서 1/2 팟 베팅을 했다고 가정하겠습니다. 상대는 블러프 캐쳐를 가지고 있습니다. GTO는 베팅을 한 우리의 레인지는 75%의 벨류 및 25%의 블러프로 구성되어야 한다고 말합니다.

또한 블러프 캐쳐는 콜(디펜스)을 67% 해야 된다고 말하고 있구요. 만약 양 쪽 플레이어 모두 이를 행한다면 서로가 익스플로잇 당하지 않습니다. 하지만 우리가 리버에서 블러프 하는 걸 매우 좋아해서 베팅 레인지의 25%가 아닌 절반이 블러프라고 한다면 우리는 빈도 실수를 하는 것입니다. GTO 전략에 따라 67% 빈도로 콜(디펜스)하면 상대는 엄청난 수익을 내게 되는 것이구요. 게임에서 많은 수익을 내는 플레이어는 이 같은 상황에서 자신의 블러프 캐쳐로 매번 콜할 것입니다. (물론 현실적으로 매번 콜하지 않거나 혹은 상대가 블러프를 멈출 때까지만 계속 콜 할 것입니다.)

Comments

대전애귀 2024.08.27 11:52

좋은자료

로그인한 회원만 댓글 등록이 가능합니다.

이전 다음 목록