본문 바로가기
교육학 (교육학 개론 정리)_ haffiness

좋은 평가 도구의 기준

by 해vl니스 2024. 6. 11.
반응형

좋은 평가 도구가 되기 위한 기준은 객관성, 타당성, 신뢰성

교육을 진행하는 과정 중에는 수많은 형태의 평가도구들이 사용되는데, 이러한 검사들이 적합한 기준에 정말로 알맞은 방법들인가에 대해 막연한 의문을 가져보게 한다. 도구의 형태들로는 환경조사 또는 인성적 검사, 평가 결과에 대한 검사일 수도 있는가 하면, 자기 스스로가 그러한 역할을 해야 할 때도 있다. 하나의 도구가 좋은 평가도구가 될 수 있도록 필요한 것에는 해당 평가가 객관성과 타당성, 신뢰성을 가졌는지를 필수적으로 요구하고 있다.

 

좋은 평가 도구의 기준
좋은 평가 도구가 되기 위한 기준

 

 

◆ 객관성에 대하여

일반적으로 객관성이라고 말하지만, 채점하거나 평가하는 자가 근원인 신뢰도의 문제라고 말하는 것이 좀 더 적절한 표현일 수 있겠다. 이것은 평가하는 사람의 채점이 얼마나 신뢰를 가지고 일관성 있게 행동하느냐로 규정할 수 있다. 자연과학 분야와 관련된 관측에서는 객관성의 문제가 크게 심각한 논점이 되진 않는데, 관찰하는 사람에 따라 측정하여 얻어진 수치를 해석하는 부부에서 변동이 잘 발생하지 않기 때문이다. 하지만 교육 분야에서는 한 가지의 학생 반응을 두고도 채점자가 누구냐에 따라 각각 다른 결과물이 생길 뿐만 아니라, 동일한 채점자의 결과라도 시간이 지남에 따라 차이가 발생한다. 한 명의 학생이 도출한 반응의 결과에 대하여 여러 명의 평가나 채점이 일치하는 정도를 평가자 간 객관의 정도라고 하며, 한 사람의 평가자가 상황의 차이 또는 시간적 간격에 따라 한 사람에 대해 서로 다른 평가 결과들을 도출해 내는 것은 평가자 내 객관의 정도라고 말할 수 있다. 고전적 연구 예시 중 똑같은 수학 답지를 백여 명의 수학 선생님들에게 100점 만점을 기준으로 한 평가를 요청했더니 그 점수가 28점에서부터 92점까지 나왔다는 결과를 도출해 냈는데 이는 전자의 경우가 없는 상황이라고 할 수 있다. 그리고 교사 한 명이 한 학생의 시험지를 어제 채점한 결과와 다음 날 채점한 것에 차이가 있다면 그건 후자가 없는 경우다.

 첫째, 객관성이 없게 되는 가장 주요한 원인으로 평가를 하는 기준과 도구들이 객관적이지 못한 경우를 들 수 있다. 논문형식의 검사가 대표적인 예지만 그 외에 각종 수행 및 제작품이 평가 대상이거나 단답형 검사의 경우에도 해당할 수 있다. 교육을 진행하는 과정에서는 이처럼 구조적으로 조직되지 않은 평가 수단을 이용해야 할 경우가 많으며 독특한 방식으로 측정할 수 있는 목표들도 많다. 그래서 기왕에 활용해야 하는 것이라면 평가에 대한 그 기준점을 확실히 의식한 후에 해야 함이 필수 조건이다.
 
둘째, 혹여나 구조화와 객관성의 정도가 낮은 평가도구일 경우에는 가능하면 다수가 공동으로 평가를 진행하여 그에 관한 결과를 종합적으로 정리하는 것이 다소 객관성의 정도를 올리는 데 도움을 줄 수 있다. 평가자에게 평가에 긍정적 영향을 주는 그 소양이 아무리 많다고 해도 단독으로 평가할 때 반드시 거기엔 오차가 생기기 마련이다. 따라서 학문의 정도가 비록 좀 낮더라도 여러 명이 공동 평가하고 그것을 평균 내거나 종합함으로써 그 객관성을 높일 수 있는 최선의 방식이 될 수 있다. 

셋째, 객관적이지 못한 그 원인은 평가하는 사람의 견식이 부족한 까닭에 있다. 상대적으로 객관적이라고 볼 수 있는 수단이라고 하더라도 평가자 스스로 활용 능력이 모자라면 그 결과물에서 일관성 있는 모습을 예상하기가 힘들어진다. 따라서 평가하는 자는 반드시 교육적 목표에 관한 깊게 이해하고 평가 기능을 높이도록 훈련하는 것은 물론, 사람이라면 무릇 가지기 쉬운 감정이나 편견, 인상 등으로 자유로울 수 있는 태도를 가져야 할 것이다.

 

 

◆ 타당성의 정의 및 개념

타당성이라고 하는 것은 하나의 평가 수단이나 검사가 측정을 위해 의도한 부분을 얼마나 충실하게 측정하고 있는지의 정도로 정의 내릴 수 있다. 진행하고 있는 검사가 실제로 확인하고 있는 것은 무엇인지, 그러한 타당도는 어떠한 조건이나 상태 속에서 생기는지 하는 것은 전부 타당성에 관한 물음이다. 다시 말해서 타당성은 무엇을 측정하고 있는지에 관련한 개념이다. 관측에 있어서 조금의 오차가 있다고 하더라도 국어와 연관된 검사라면 국어의 능력인 읽고 말하며 쓰는 능력 등으로 정의된 특징들을 확인해야지 아이러니하게 사회력을 계측하고 있어서는 그 타당성이 있다고 말할 수 없다. 그래서 타당도의 명칭을 다른 말로는 검사의 정직성 또는 진실성이라고 하기도 한다.

타당성의 개념 속에는 필수적으로 근거의 의미가 포함된다. 타당도를 가진다고 하는 표현 뒤에는 무엇에 빗대어 본 것이냐고 하는 물음이 함께 동반되기 마련이다. 수학과 관련한 검사는 수학능력을 확인하는 것에는 그 타당성이 있지만, 국어 능력과 연관되어서는 타당도가 없다. 사회성 검사는 사회적 특성과 관련해서는 타당하지만, 지능검사에서는 타당하지 못하다. 이처럼 타당성은 어떠한 근거와의 연관 속에서만 그 본질의 의미가 표현되는 개념이며 어떠한 조건과 상태 하에서나 타당도가 있는지 없는지 하는 원리는 성사되지 않는다. 따라서 측정의 대상과 측정하고자 하는 것을 어느 정도로 착실하게 수행하고 있는지의 두 가지 논점으로 타당성을 요약할 수 있겠다.

 

 

◆ 신뢰성의 의미

신뢰성을 설명하기 전에 타당성의 의미가 앞서 설명했던 두 개의 문제를 포함하는 것에 반해, 신뢰성은 어느 정도로 오차 없이 그리고 정확히 측정하는지를 의미한다. 다시 말해, 측정을 진행하는 그 수준에 오차가 얼마나 적었는지 그리고 일관성을 가졌는지를 묻는 셈이 되는 것이다. 어떤 계측이든지 이론상 절대적으로 완벽한 세밀함이 있기는 불가하다. 더더욱 그 대상이 우리 인간의 행위와 관련된 특성일 경우엔 필연적으로 일정 수준의 오차가 발생하기 마련이다. 작동이 안 되는 체중계로 몸무게를 확인할 수가 없듯이 신뢰를 얻지 못하는 평가 수단으로 확실한 결과물을 얻을 수는 없는 노릇이다. 특히나 사람과 관련된 부분들은 어차피 일정 한도 속에서의 오류는 허용할 수밖에 없긴 하지만 이 같은 오류의 정도가 최소화될 수 있도록 할 필요성은 절실히 존재한다. 

타당성이 평가 수단에 있어서 필요불가결한 요소이긴 하지만, 신뢰성이 낮다면 타당성은 이것과 비례해서 낮아지므로 신뢰도는 타당도의 선행조건이라고 말할 수 있다. 반대로 말해서, 높은 신뢰도의 부재와 함께 타당도가 높은 도구는 있을 수 없다는 점이다. 하나의 검사에서 측정되는 모든 영역 중에는 그것이 적든 많든 오차가 생겨나는 부분들이 있다. 따라서 관측하는 전 영역 중에서 오차가 차지하는 부분들을 제거해 버리면 그 남은 영역들이 신뢰를 가진 채로 측정하는 신뢰성이 된다. 그리하여 이 신뢰성을 가지고 측정한 영역 중에서 일정 부분들이 타당성을 가지고 측정하는 영역이 되는 것이다. 타당성과 신뢰성이 일치되는 것이 가장 이상적인 모습이지만, 우리 실생활에서 관측하는 상황 중에서 이렇듯 완벽한 관계가 성사되는 경우는 대부분 없다고 보는 것이 좋을 것이다. 그리고 측정되는 전체 영역과 신뢰성 간의 관계가 100% 일치하는 상황이 무엇보다 이상적인 모형이긴 하지만 지구상 인간의 행위 또는 일상 사회 속에서 발생하는 상황에서 이처럼 완벽함이란 존재하기 힘들다. 이 같은 양상 덕분에 교육 등을 측정하는 부분에 있어서 고민이 많이 있으며 동시에 이런 고민이 새롭게 탐구적 가능성을 생기게 하거나 흥미로운 상황 속으로의 문을 개방되기도 한다.

신뢰성을 판정하는 방법은 여러 가지 부류로 나누어 볼 수 있다. 일단 똑같은 대상에 대해서 두 번의 검사를 진행하여 얻은 두 가지의 수치 사이가 얼마나 일관성을 가지느냐를 신뢰성의 추정치로 판정하는 경우다. 이 경우엔 검사 하나를 시간 간격을 적절하게 두고 두 번 정도 실시하여 그것들의 상관 정도를 통해 신뢰성을 확정하는 재검사 신뢰성, 검사 내 문제 항목들의 반응을 바탕으로 전체 변화량에서 오차 부분을 없앰으로써 진짜 변화량을 예측하여 신뢰성의 추정치로 확인하는 문항 내적 합치도, 하나의 검사를 절반으로 나눈 뒤 각각 분류된 반쪽짜리 검사들 간의 일관성을 확인하는 반분 검사 신뢰성, 같은 집단에서 대체로 비슷하게 구성된 두 가지의 동형 검사를 진행하여 얻는 동형 검사 신뢰성 등이 있다, 


loading