본문 바로가기
Insight/education

ChatGPT로 학생 글쓰기 평가하기

by yooonlp 2023. 7. 2.

*본 포스트는 다음 원문 사이트를 참고하여 작성되었습니다.

https://ditchthattextbook.com/chatgpt-ai-assess-student-writing/

 

 

Image Source: Freepik

 

학생들의 글쓰기에 점수를 매기고, 알맞는 피드백을 제공하는 것은 매우 중요한 일인데요, 선생님들에게 수많은 학생들의 글에 직접 피드백을 주는 것은 엄청난 부담으로 다가옵니다. ChatGPT가 학생 글쓰기 평가를 돕고, 의미있는 피드백을 빠르게 제공해줄 수 있을까요? 이번 포스트에서는 실제 선생님들이 ChatGPT를 학생 글쓰기 평가에 활용하고 있는 사례를 소개합니다. 거대 언어 모델(LLM)을 교육 분야, 특히 평가 분야에서 어떻게 활용할 수 있는지에 대한 인사이트를 얻어갈 수 있을 것 같습니다. 

 

 

Step 1. 전반적인 점수 매기기

먼저 학생 글을 주고 채점해달라고 하여, 전반적인 점수와 피드백을 받을 수 있습니다.

USER: 3학년 글쓰기 과제를 채점해줘. " There are many kinds of squids. The giant deep-sea squid can be longer than a city bus, and they are cousins of the octopus. A squid has a long body and ten arms. They live in the Caribbean. The Squid protects itself by hiding. A Squid can squirt out a blob of inky stuff. The inky blob may confuse hungry creatures. Its eggs come in handy because it surrounds itself with eggs and protects itself that way. Isn’t this amazing that it can be camouflaged in one second? They hide by moving with jet propulsion. If a shark tries to attack a squid, it will shoot out ink so it confuses the shark and zips away. Remember about the eggs? This is something like it. They swim together to protect themselves. They squirt out dark liquid to hide themselves from enemies. They change their colors and patterns to blend in with their surroundings. Therefore you can see that the squid have many ways of hiding."

ChatGPT:
평가 피드백:
1. 조직성 (3/5): 글의 시작 부분에 명확한 주제 문장이 있지만, 나머지 문단들에서는 아이디어 간의 명확한 전환 부분이 부족합니다. 글의 흐름을 더욱 매끄럽게 만들기 위해 전환 단어나 구문을 사용해 보세요.
2. 내용 (4/5): 글에는 오징어의 크기, 팔, 서식지, 방어 메커니즘과 같은 관련 정보가 포함되어 있습니다. 그러나 좀 더 포괄적인 설명을 위해 일부 세부 사항을 더 설명하거나 확장할 수 있습니다.
3. 문법과 구문 (3/5): 문장부호, 대문자 사용, 동사 시제에 여러 가지 오류가 있습니다. 문장은 적절한 부호로 끝내고, 글 전체에서 일관된 동사 시제를 사용하는 등, 올바른 문법과 구문을 위해 검토하고 수정하세요.
4. 어휘 (4/5): 글에는 "squirt," "camouflaged," "jet propulsion" 등 3학년 수준에 적합한 어휘가 포함되어 있습니다. 더 많은 서술적인 단어를 사용하고 문장 구조를 다양화하여 글쓰기를 향상시키는 것을 고려해 보세요.
5. 전체 (4/5): 글은 주제에 대한 좋은 이해를 보여주고, 오징어에 관한 관련 세부 사항을 포함하고 있습니다. 조직성, 문법과 구문, 어휘 사용에 약간의 개선이 있으면, 글은 아이디어를 전달하는데 더 효과적이고 완성도 있게 될 수 있습니다.

 

하지만 이 경우에는 모델이 어떤 기준으로 채점했는지 분명하지 않습니다. 채점 기준을 확실히 하고 나서 채점을 해보도록 합시다.


Step 2. 루브릭(채점 기준) 만들기

존재하는 루브릭이 있다면 Chatgpt의 입력으로 넣어도 되고, 없다면 모델과 함께 루브릭을 만들어볼 수 있습니다. 루브릭을 만들도록 명령을 넣어봅시다.

USER: 3학년 학생을 위한 글쓰기용 루브릭을 만들고, 그 루브릭을 사용하여 글의 "등급"을 매기고 학생에게 피드백을 제공해줘.

ChatGPT: AI 언어 모델로서, 저는 당신이 3학년 학생을 위한 글쓰기 루브릭를 만들고 그 루브릭를 기반으로 한 글에 대한 피드백을 제공하는 것을 도울 수 있습니다. 그러나 AI에 의해 생성된 피드백은 참조용으로만 사용되어야 하며 인간의 평가와 피드백의 대체물이 되어서는 안 됩니다.

기준:

조직:
(4점) 문단을 적절히 활용하여 서론, 본문, 결론이 명확합니다.
(3점) 서론과 결론이 명확하지만 단락에서 다소 모순이 있을 수 있습니다.
(2점) 조직화 시도는 있지만 명확한 서론, 본문 또는 결론이 부족합니다.
(1점) 흐트러지고 명확한 구조가 부족합니다.

내용:
(4점) 주요 아이디어를 뒷받침하는 관련 세부 사항, 사실 또는 예제를 포함합니다.
(3점) 관련된 세부 사항, 사실 또는 예를 포함하지만 일관성이나 구체성이 부족할 수 있습니다.
(2점) 제한적이거나 관련이 없는 내용, 사실 또는 예문을 포함합니다.
(1점) 관련 내용이 부족하거나 주제에서 벗어납니다.

문법과 구문:
(4점) 구두점, 대문자, 동사 시제의 올바른 사용을 보여줍니다.
(3점) 구두점, 대문자, 동사 시제 등에서 약간의 오류가 있으나 가독성에는 큰 영향을 미치지 않습니다.
(2점) 가독성에 영향을 미칠 수 있는 구두점, 대문자 또는 동사 시제의 오류가 자주 발생합니다.
(1점) 가독성에 상당한 영향을 미치는 구두점, 대문자 또는 동사 시제의 오류가 만연합니다.

어휘:
(4점) 정확한 단어 선택과 함께 나이에 맞는 다양한 어휘를 사용합니다.
(3점) 나이에 맞는 어휘를 사용하지만 다양성이나 정확성이 부족할 수 있습니다.
(2점) 나이에 맞지 않을 수 있는 제한적이거나 기본적인 어휘를 사용합니다.
(1점) 적절한 어휘나 단어 선택이 부족합니다.

전체:
(4점) 매력적이고, 잘 만들어졌으며, 강한 노력과 창의력을 보여줍니다.
(3점) 일반적으로 흥미를 유발하고 노력을 보여주지만 개선해야 할 부분이 있을 수 있습니다.
(2점) 다소 매력적이지만, 세련미나 노력이 부족합니다.
(1점) 매력적이지 않거나, 서투르거나, 노력이 부족합니다.

예시에서는 프롬프트에 “3학년 학생을 위한”이라고만 조건을 명시하였지만, 좀 더 명확한 기준을 세우는 것을 돕기 위해, 각 항목에서 어떤 요소에 집중해야할지 선생님들이 추가적으로 입력으로 명시해줄 수도 있습니다.

 

 

Step 3. 루브릭에 기반하여 점수 매기기

만들어진 루브릭을 기반으로 점수를 매기도록 해봅시다.

USER: 이 루브릭를 사용하여 쓰기 샘플의 등급을 지정하고 이 학습자 글에 대한 피드백을 제공해줘.
"the giant deep-sea squid can be longer than a city bus, and they are cosins of the octopus. a squid has a long body and ten arms. They live in the Caribbean. The Squid protects itself by hiding. a Squid can squirt out a blob of inky stuff. The inky blob may confuse hungry creatures Its eggs come in handy because it surrounds itself with eggs and protects itself that way. Isn’t this amasing that it can be camouflaged in one second They hide by moving with jet propulsion. If a shark tries to attack a squid, it will shoot out ink so it confuses the shark and zips away. Remember about the eggs this is something like it. They swim together to protect themselves. They squirt out dark liquid to hide themselves from enemies. They change their colors and patterns to blend in with their surroundings."

ChatGPT
제공된 루브를 기반으로 쓰기 샘플의 등급을 지정하고 학습자에게 피드백을 제공하는 방법의 예시입니다:

기준

조직 3
내용 3
문법과 구문 2
어휘 2
전체 2

전체 점수: 12/20

피드백:

1. 조직: 점수 3 - 글은 서론과 결론이 명확하지만, 각 아이디어에 맞는 문단을 적절하게 사용하면 본문을 더 잘 구성할 수 있습니다.
2. 내용: 점수 3 - 글에는 오징어의 특징과 행동에 대한 관련 세부 사항이 포함되어 있지만, 일부 문장은 명확성이 부족하고 주요 아이디어와 더 잘 연결될 수 있습니다.
3. 문법과 구문: 점수 2 - 가독성에 영향을 미치는 구두점과 대문자화에 몇 가지 오류가 있습니다. 명확성을 높이기 위해 글에 적절한 구두점과 대문자를 사용해야 합니다.
4. 어휘: 점수 2 - 사용된 어휘는 적절하지만, 쓰기를 향상시키기 위해 단어 선택에 더 다양성과 정확성이 있을 수 있습니다.
5. 전체: 점수 2 - 글쓰기는 흥미롭지만, 더 세련되고 효과적인 글쓰기를 위해 더 나은 조직, 명확성, 문법과 구문에 집중해주세요.

 

 

Step 4. 틀린 부분에 대한 피드백 받기

전체적인 점수 외에도 부족한 부분에 대한 피드백을 요구할 수 있습니다. 각 항목에 대해서 피드백을 요구한다면, 자세한 답변을 얻을 수 있습니다.

USER: 어떤 문법과 구문 오류를 발견할 수 있을까?

ChatGPT: 제공된 글 샘플을 기준으로 문법 및 구문 오류 중 일부는 다음과 같습니다:

1. 대문자화 불일치: "Squids"는 고유명사인 만큼 대문자화되어야 하고, "it self"는 단일 단어인 만큼 "itselt"여야 합니다.
2. 잘못된 단어 사용: "color"은 주어-동사 일치를 유지하기 위해 "colors"이어야 하며, "in jet propulsion"은 명확성과 적절한 표현을 위해 "with jet propulsion"이어야 합니다.
구두점 오류: 문장 뒤에 마침표를 제거하고, "Isn't this amazing that it can be camouflaged in one second?", "Remember about the eggs?"와 같은 의문문 뒤에 물음표를 제거합니다.
3. 철자 오류: "misperspelling"은 "misspelling"이고 "grammer"는 "grammar"여야 하며 "themselves"는 철자가 정확하지만 텍스트에서는 "themself"가 사용됩니다.
4. 동사 시제의 일관성 없는 사용: "Squid protects"는 동사 시제의 일관성을 위해 "Squid protect"여야 합니다.

 

예시에는 간단한 프롬프트를 입력으로 넣었지만, 교육과 평가와 관련된 전문 지식을 추가하여 넣는다면 더 정확하고 믿을 수 있는 결과를 얻을 수 있습니다. 하지만 원문에서도 지적하듯, 특정 영역의 점수가 높아야하는 것이 명확한데 낮거나, 잘못된 오류를 지적하거나, 매번 다른 채점을 하는 등의 경우들이 많습니다. ChatGPT로 대량의 채점을 빠르게 할 수는 있지만, 피드백 결과를 100% 신뢰해서는 안되고 반드시 전문가 또는 선생님의 피드백이 반영되어야합니다.

 

의견

기존의 자연어처리에서는 글쓰기 평가 시 한정적인 피드백을 제공해줄 수 밖에 없었습니다. 문법 오류, 단어 사용 평가, 전체 에세이에 대한 점수 매기기 등 특정 과제에만 맞추어 데이터를 수집하고, 모델을 훈련해왔기 때문인데요. 이렇게 훈련된 모델은 실제 학생들이 선생님들에게 받는 에세이 피드백과는 조금 동떨어져 있었기 때문에, AI 기반 글쓰기 평가가 의미있는 서비스로 운영되기는 힘들었습니다.

별도의 훈련 없이도 사람의 언어를 이해하고 복잡한 태스크를 수행하는 ChatGPT와 같은 거대 언어모델을 활용한다면, 학생들에게 직접 글에 대한 자세한 피드백을 제공하고, 선생님들이 글쓰기 채점을 할 때에도 수고를 덜게끔 하는 서비스가 가능할 것입니다. 물론, 성능이 좋은 언어 모델들도 잘못된 피드백이나 이해하기 힘든 결과를 보여주는 등의 한계점이 너무 많기 때문에, 교육 서비스에 맞는 데이터 수집과 추가 모델 훈련 및 보정이 필요합니다. 서비스를 위해서는 어떤 피드백을 학생에게 주는 것이 맞는지, 어떤 기능을 제공하고, 어떤 모델을 어떻게 훈련하여 적용할지 많은 고민이 필요할 것 같습니다.