[HR/팀장교육] HRD의 영원한 고민, 교육 ROI - 심리적 안전감 교육 사례로 풀다

콘텐츠 상세

1. 교육 효과를 증명하기 위한 시도

2. 《Measurement Demystified》가 제시하는 해법

3. 교육 전, '측정 기준' 설계를 위한 3가지 질문

4. Google Project Oxygen 사례

5. 응용 사례 - 팀장 커뮤니케이션 교육

6. 교육 ROI, 매년 같은 고민을 반복하고 있는 분들께 드리는 3가지 조언

HRD 담당자가 신임 팀장 교육 ROI를 심리적 안전감 5단계 측정 지표로 경영진에게 보고하는 방법을 설명

리더십

[HR/팀장교육] HRD의 영원한 고민, 교육 ROI - 심리적 안전감 교육 사례로 풀다

By 김원우

•

2026. 5. 11.

#코칭리더십 #HRD #교육ROI #신임팀장교육 #심리적안전감 #팀장교육 #리더십교육 #MeasurementDemystified #커크패트릭 #학습분석 #HR #인재개발 #교육효과측정 #경영진보고 #팀장리더십 #조직문화 #AI롤플레잉 #HRD담당자 #TIPP

"신임 팀장 교육, 참석자 만족도 4.3점, 강사의 전문성에서 높은 점수를 받았고, 재수강 희망 응답도 높게 나왔습니다."
발표를 마친 강 팀장이 본부장의 반응을 기다립니다.
"어떤 부분이 좋아졌다는 거죠?"
"개발팀 이 팀장은 교육 후 팀원들과 처음으로 대화했고,
구매팀 허 팀장은 '이제야 내가 뭘 해야 하는지 알 것 같다'고 했습니다."
"그렇군요. 수고했어요."
본부장은 고개를 끄덕였고, 보고는 무사히 끝났습니다.
하지만 연말 평가에서 인사팀의 평가는 늘 비슷합니다. 그냥 중간…
그 이유가 무엇일까요?
경영진에게 중요한 것은 내가 승인한 예산이 조직에 어떤 가치를 만들었는지,
즉 ROI이기 때문입니다.
교육에는 강사비, 교재 및 교구 제작, 장소 확보 등의 비용이 들어가고,
참가자 업무 공백까지 포함하면 무시할 수 없는 숫자입니다.
그리고, 경영진은 그 숫자에 민감하죠.
하지만, ROI는 HRD에게 있어 매우 도전적인 과제입니다.
복귀 후, 업무 성과나 태도가 확연하게 달라졌다는 것을 증명하기가 쉽지 않기 때문이죠. 많은 HRD 직원들이 오늘도 머리를 싸매고 있는 이유입니다.
이 글에서는 David Vance와 Peggy Parskey의 《Measurement Demystified》가 제시하는 HRD 측정 전략을 기반으로, 강 팀장의 보고가 왜 경영진에게 와닿지 않는지, 그리고 무엇을 어떻게 바꿔야 하는지에 대해 살펴봅니다.

1. 교육 효과를 증명하기 위한 시도

교육의 ROI를 증명하려는 노력은 오래전부터 있어왔습니다.
그 과정을 HRD가 이 문제를 얼마나 진지하게 다뤄왔는지 알 수 있습니다.

📌 커크패트릭 모델 (1950년대)

가장 먼저, 가장 오래 쓰인 프레임워크입니다.
Donald Kirkpatrick은 교육 효과를 4단계로 나눠 측정하자고 제안했습니다.

✓ 1단계 반응(Reaction): 교육이 만족스러웠나?
✓ 2단계 학습(Learning): 실제로 배운 것이 있나?
✓ 3단계 행동(Behavior): 현업에서 달라진 행동이 있나?
✓ 4단계 결과(Results): 조직 성과에 영향을 미쳤나?

✅ 장점
• 교육 효과를 4단계로 구조화해"행동과 성과까지 봐야 한다"는 인식을 심어줌
• 단계가 명확해서, 현재 어디까지 측정하고 있는지 진단이 용이함
• 70년이 지난 지금도 가장 널리 인용되는 측정 프레임워크

❌ 한계
• 현실에서 대부분의 HRD는 1~2단계에서 멈춤
• 3~4단계는 교육 전에 기준점을 잡아야 하는데, 그 방법을 알려주지 않음
• 교육이 끝난 후 측정하려 하면 이미 늦음

📌 필립스 ROI 방법론 (1990년대)

커크패트릭의 한계를 넘으려는 시도로, Jack Phillips는 5단계를 추가했습니다.

ROI(%) = (순이익 ÷ 교육비용) × 100

✅ 장점
• 재무적 수치로 환산해 경영진이 이해할 수 있는 언어로 말하려 한 첫 시도
• "교육도 투자, 투자에는 수익률이 있어야" 개념을 HRD에 도입
• ROI를 수치로 제시할 수 있다면 경영진 설득력은 세 모델 중 가장 강력

❌ 한계
• 교육 효과를 매출이나 비용 절감으로 환산하는 과정이 지나치게 복잡
• 교육 효과가 성과에 영향을 미쳤더라도, 다른 요인 때문인지 분리하기 어려움
• 통제할 수 없는 변수가 너무 많아, 실제로 도입한 기업이 많지 않음

📌 학습분석 Learning Analytics (2010년대~현재)

디지털 학습 플랫폼이 확산되면서 데이터 기반 측정이 가능해졌습니다.
학습 완료율, 반복 학습 패턴, 퀴즈 정답률, 학습 시간 등을 실시간으로 추적합니다. LMS(학습관리시스템)와 HR 데이터를 연동하면 성과와의 상관관계 분석도 가능합니다.

✅ 장점
• 데이터가 자동으로 수집 및 학습자 행동 패턴을 실시간으로 볼 수 있음
• 어떤 콘텐츠에서 이탈, 어떤 부분을 반복 학습 등 교육 설계 개선에 즉각 활용
• LMS와 HR 데이터를 연동하면 학습과 성과의 상관관계 분석도 가능
• 규모가 클수록, 온라인 교육 비중이 높을수록 강력

❌ 한계
• 집합 교육이나 현업에서의 행동 변화는 여전히 측정하기 어려움
• 직원과의 관계와 리더의 행동 변화를 보여줄 수 없음(예: 소통 교육)
• "얼마나 학습했는가"는 알 수 있지만, "현업에서 무엇이 달라졌는가"는
여전히 별도 설계 필요

그래서, HRD 여전히 머리를 싸매고 있습니다.
왜 이러한 시도들이 현장에 뿌리내리지 못할까요.
한 가지 공통된 이유는 교육이 끝난 후 측정하려 했기 때문입니다.

🖍️ 측정은 교육의 마지막 단계가 아니라, 첫 번째 단계가 되어야 합니다.

2. 《Measurement Demystified》가 제시하는 해법

커크패트릭, 필립스, 학습분석의 공통된 한계는 모두
"교육이 끝난 후 측정하려 했다는 것"입니다.

2020년, David Vance와 Peggy Parskey는 《Measurement Demystified》를 통해 이 문제를 정면으로 다뤘는데, 핵심 주장은 단순합니다.

"측정이 어려운 게 아니다.
무엇을 왜 측정해야 하는지 모르는 게 문제다."

📌 업무 순서

• 기존: 교육 필요성 분석 → 설계 → 운영 → (끝나고 나서) 효과 측정
• 제안: "무엇이 달라져야 하는가?" 정의 → 측정 기준 설계 → 교육 설계 → 운영 → 이미 설계된 기준으로 측정

📌 이 순서가 만들어내는 변화

• 측정 기준이 먼저 있으면 → 교육 목표가 선명해짐
• 교육 목표가 선명하면 → 현업에서 관찰 가능한 변화를 설계 가능
• 관찰 가능한 변화가 있으면 → 데이터가 만들어짐
• 데이터가 있으면 → 경영진이 납득하는 ROI 보고가 가능해짐
🖊️ 즉, "이 교육이 끝나면 무엇이 달라져야 하는가" 질문 하나로
교육의 처음과 끝을 모두 바꿀 수 있습니다.

📌 커크패트릭과의 차이점

구분	커크패트릭 모델	Measurement Demystified
출발점	교육 후, 4단계 평가	교육 전, 측정 전략 설계
핵심 질문	교육 효과는 무엇인가?	무엇을, 왜 측정하는가?
관점	교육 중심	비즈니스 성과 중심
실무 적용	3~4단계 측정이 어려움	그 한계를 처음부터 넘는 방법 제시

🖍️ Efficiency와 Effectiveness, 혼동하지 마세요

• Efficiency(효율) — 교육을 얼마나 잘 운영했나
- 1인당 교육비용, 수료율, 참가 인원
- 강사 만족도, 교재 완성도, 일정 준수율 → 측정이 쉬움
* 자동 생성 및 보고서에 포함

• Effectiveness(효과) — 교육이 실제로 작동했나
- 현업에서 팀장의 행동이 달라졌나
- 팀원들이 변화를 느끼나
- 팀 성과 지표가 움직였나 → 측정이 어려움
* 교육 전부터 설계해야 하고, 대부분의 보고서에 포함되지 않는 경향

본부장의 "어떤 부분이 좋아졌다는 거죠?" 질문은 Effectiveness를 묻는 말이었습니다.

3. 교육 전, '측정 기준' 설계를 위한 3가지 질문

교육을 기획하기 전에, 3가지 질문을 먼저 적어보세요.

1️⃣ "이 교육이 끝나면, 참가자들이 어떤 행동을 하면 성공인가?"

"역량이 향상된다"는 답이 아닙니다. 관찰 가능한 행동으로 적어야 합니다.
• 팀원들과 월 2회 이상 1on1을 하는 것
• 회의에서 팀원 발언이 50% 이상이 되게 하는 것
• 한 달에 한 번 이상 직원 피드백을 제공할 것

교육 전 수준을 측정하고, 교육 후 8주차에 다시 측정합니다.

2️⃣ "교육 대상자 주변 사람들이 무엇을 다르게 느끼면 효과가 있다고 볼 수 있나?"

교육 전후 팀원 익명 설문 2~3문항입니다.
• "팀장에게 솔직하게 말할 수 있다"
• "내 의견이 회의에서 반영된다"
• "팀장이 내 성장에 관심을 갖는다"

교육 전 측정하고, 8주 후 다시 측정합니다.

3️⃣ "경영진은 어떤 숫자를 보면 납득할까?"

이미 조직에서 관리하는 지표 중 연결할 수 있는 것을 찾습니다
• 팀 목표 달성률 변화
• 팀원 이탈 의향 감소
• 내부 몰입도 지수

직접 인과관계 증명이 어려울 경우에는
교육받은 팀장의 팀에서 보이는 패턴을 찾는 것도 방법입니다.

4. Google Project Oxygen 사례

교육 전에 측정 기준을 설계하는 것이 말처럼 쉽지는 않습니다.
Google의 Project Oxygen 사례로 살펴보겠습니다.

📌 배경 — "관리자가 정말 필요한가?"

• Google 내부의 불편한 질문
- "관리자가 정말 필요한가?"
- "관리자를 없애면 어떻게 될까?"

• 내부 데이터 분석 결과, 관리자의 역량이 팀 성과, 팀원 만족도, 이직률
모든 면에서 유의미한 차이를 만들고 있었음
- "좋은 관리자란 무엇인가?"가 Project Oxygen의 출발점

• 교육을 만들기 전에 "좋은 관리자의 행동이 무엇인가"를 먼저 정의

📌 질문 1: "3개월 후, 팀장들이 어떤 행동을 하면 이 교육은 성공인가?"

• Google의 답: "좋은 관리자는 어떤 행동을 하는가?"

• 고성과, 저성과 관리자를 비교한 결과, 차이를 만드는 행동 8가지를 도출
- 좋은 코치가 된다.
- 팀에 권한을 위임하고 마이크로매니지먼트를 하지 않는다.
- 팀원의 성공과 웰빙에 관심을 갖는다.
- 생산적이고 결과 지향적이다.
- 잘 소통하고 팀의 이야기를 경청한다.
- 경력 개발을 돕는다.
- 팀의 명확한 비전과 전략을 갖는다.
- 팀을 조언할 수 있는 핵심 기술을 보유한다.

• 이 8가지가 측정 기준이 됨
- "관리자 역량 향상"이라는 추상적 목표가 아니라,
- 관찰하고 점수를 매길 수 있는 행동으로 정의한 것
• 교육 내용도 이 8가지를 중심으로 설계

📌 질문 2: "팀원들이 무엇을 다르게 느끼면 효과가 있다고 볼 수 있나?"

• Google의 답: "팀원들이 무엇을 다르게 느끼면 되는가?"

• 팀원들이 반기마다 관리자를 평가하는 upward feedback 설문 설계
- 8가지 행동 각각에 대해 팀원이 점수를 매기는 방식
- 교육 전 점수를 기준점으로, 교육 후 같은 설문을 반복
🖊️ 자기평가가 아닌, 팀원이 느끼는 변화를 측정 기준으로 삼은 것
(팀장이 달라졌는지는 팀원이 가장 먼저)

📌 질문 3: "경영진은 어떤 숫자를 보면 납득할까?"

• Google의 답: "경영진은 어떤 숫자를 원하는가?"

• 3가지 지표 설계(이미 Tracking하고 있는 데이터)
- 팀원 만족도 점수
- 팀 성과 달성률
- 팀원 이탈률
* 경영진이 보고 있는 숫자와 교육 효과를 연결

📌 결과 "그래서 무엇이 달라졌는가?"

• 교육 후, 관리자 역량 점수 하위 그룹에 속했던 관리자들의 팀에서 가장 큰 변화
- 팀원 만족도 점수가 유의미하게 상승
- 이탈률 감소
- 역량이 높은 관리자 그룹과의 격차가 줄어듦

⚠️ Google은 교육 효과를 사후에 설명하지 않고,
교육을 설계하기 전에 "무엇이 달라지면 성공인가"를 정의했기 때문에,
교육이 끝난 후 그 기준으로 결과를 읽을 수 있었습니다.

5. 응용 사례 - 팀장 커뮤니케이션 교육

TIPP에서 진행한 사례 중, 리더 대상의 심리적 안전감(커뮤니케이션) 교육 기획의 일부분을 예로 들어 소개합니다.
교육 후, "소통이 중요하다는 걸 알았어요." 만족도 4.3점이 아닌,
조직 차원에서, 좀더 근본적인 리더의 변화를 지향합니다.

3가지 질문으로 성공의 기준을 먼저 잡고, 그것을 측정할 지표를 설계한 후 교육을 구성합니다.

📌 질문 1: "교육이 끝나면 팀장들이 어떤 행동을 하면 성공인가?"

• "커뮤니케이션 역량 향상"같은 추상적 목표가 아니라
• 팀원과의 관계에서 실제로 관찰되는 행동 변화로 정의
• 측정 지표: 20여 개의 심리적 안전감 지표를 활용한 사전 진단 실시(직원)
- 교육 과정에서 AI 직원과의 면담 점수(커트라인 70점)

📌 질문 2: "팀원들이 무엇을 다르게 느끼면 효과가 있다고 볼 수 있나?"

• 교육 후, 사후 진단 실시
• 직원이 느끼는 심리적 안전감 설명

레벨	명칭	의미
1	위축(Inhibited)	접촉을 피하고 감정·의견 표현을 억제. 신뢰가 끊긴 상태
2	불안정(Fragile)	대화는 가능하지만 형식적·방어적. 솔직한 이야기를 꺼내기 어려움
3	보통(Functional)	실무 협업은 가능하지만 정서적 신뢰는 부족. 피드백이 제한적
4	안정(Constructive)	비교적 자유롭게 피드백·감정 표현 가능. 솔직한 의견과 우려를 말함
5	파트너십(Partnering)	상호 존중과 신뢰를 바탕으로 미래와 전략까지 공유하는 동반자 관계

📌 질문 3: "경영진은 어떤 숫자를 보면 납득할까?"

• 정량 데이터: 부서, 본부 별 심리적 안전감 레벨 및 점수 분포 + 교육 만족도 등 기본 성과
• 정성 데이터: 리더들의 주요 변화 패턴

📌 사후·정기 진단 — 레벨의 변화로 말합니다

• 교육 후 x주 시점에 동일한 심리적 안전감 진단을 팀원·팀장 대상으로 재실시
• 이후 분기마다 정기 진단으로 변화를 지속 추적
• 결과는 숫자가 아니라 레벨의 변화로 표현(예: 레벨 2:불안정 팀 xx%가 레벨 3:보통으로 이동)

🎯 리포트 예시

• "교육 전, 전체 xx팀 중 11개 팀이 심리적 안전감 레벨 2 구간이었습니다."
• "팀원들이 형식적인 대화만 하고 솔직한 이야기를 꺼내기 어려운 상태였습니다."
• "교육 후 8주 시점에 11개 팀 중 8개 팀이 레벨 3 이상으로 이동했고, 이 중 3개 팀은 레벨 4에 도달했습니다."
• AI 롤플레잉 70점 이상 달성 횟수가 많은 팀장일수록 팀의 레벨 이동폭이 컸습니다."
→ 본부장: "레벨 4에 도달한 3개 팀, 어떤 팀인가요?"

🖍️ 보고서 작성 역량이 아닌, 교육을 설계하는 첫날, 3가지 질문에 먼저 답했느냐의 차이입니다.