논문 리뷰

Prerequisite Relation Learning(2025.06): A Survey and Outlook

cch8ii 2026. 1. 24. 01:21
논문 링크: https://dl.acm.org/doi/10.1145/3733593

 


선수지식 관계(Prerequisite relation)은 학습 자원 사이 내재된 의존성을 말한다. 이는 학습자가 새로운 주제를 접할 때 필요한 사전 지식을 간춘 상태에서 접근하도록 보장함으로써 이해를 돕고 해당 분야의 자신감을 높인다.

선수지식 관계 학습은 교육 공학에서 중요한 task로 학습 자료들 간의 의존 관계를 식별해 개인화 학습 경험을 지원하게끔 한다.

본 논문에서는 선수지식 관계를 식별하기 위한 기존 접근법을 체계적으로 정리하고 기술적 한계를 언급한다. 또한 데이터셋과 평가 지표도 다룬다.

KC? LO?

본 논문에서는 학습 자원을 2가지로 나눈다. 하나는 지식 개념(knowledge concepts, KCs)이고, 다른 하나는 학습 객체(learning objects, LOs)이다.

KC A와 B를 고려할 때 A가 B의 선수 지식임을 나타내기 위해 A → B로 정의한다.

신기하게도 선수지식 구조는 보편적이지 않다. 동일한 KC라도 교육 자료나 문맥에 따라 서로 다른 선수지식 구조를 가질 수 있다는 것이다. 예를 들어서 어떤 자료에서는 가장 기초적인 KC를 상세하게 다루지만 다른 자료에서는 이미 알고 있다고 가정하는 선수지식으로만 등장할 수 있다. 학습자는 여기에서 잠재적인 지식 공백을 느껴버린다.

좀 더 자세히 KC와 LO에 대해 정의해보자.

KCs는 교육적 맥락에서 지식의 원자적 단위를 의미하며 K = {k_1, k_2, …, k_n}의 집합으로 표현할 수 있다. 여기서 각각의 k_i 의 경우는 특정 교육 맥락 내의 단일 지식 단위를 나타낸다. 예시를 들어보면 수학이라는 도메인에서 KC는 분수, 소수 등이 될 수 있고 프로그래밍에서는 변수 선언, 반복문 구조, 함수 호출 등이 될 수 있다.

LOs의 경우는 좀 더 큰 단위이다. O = {o_1, o_2, …, o_m}으로 정의되며 각 o_i는 여러 개의 KC를 포함하는 독립적으로 완결된 교육 단위를 의미한다. 예를 들어보자면 ‘분수와 소수 간 변환’ 이라는 LO는 {진분수, 소수 표기, 퍼센트 이해} 등과 같은 KC를 포함할 수 있다. LO는 이러한 단원? 챕터와 같은 개념을 포함하기도 하며 더 넓게 “학습, 교육 또는 훈련에 사용될 수 있는 모든 개체(디지털 또는 비디지털)”로 공식 정의된다고 한다.

그렇다면 KCs와 LOs의 관계는 어떻게 매핑이 될 수 있을까?

논문에서는 O → P(K) 라는 매핑 함수로 형식화한다. 여기서 P(⋅)는 KC의 멱집합을 의미하며 각 LO가 자신이 포함하는 KC의 부분집합에 대응됨을 나타낸다.

 

위 그림 2에서 표현된 것처럼 선수지식 관계는 주로 두 레벨에서 나타날 수 있다.

① KC-to-KC prerequisites: 하나의 LO 내부에서 KCs 사이의 엣지로 표현되며 개념 간 기본 의존성을 보여줌

→ ex) 분수 이해가 소수 학습의 선수지식이다.

② LO-to-LO prerequisites: LO 간의 연결로 나타나며 모듈 수준의 의존성이라고 이야기할 수 있음

→ O_1이 O_2 보다 선행되어야 한다.

이러한 두 유형의 선수지식 관계는 서로 다른 학습 접근으로 다가가야 한다. KC 수준의 선수지식 학습은 미세한 개념 관계를 강조하며 도메인 지식 그래프 또는 교육 데이터로부터 추론되는 경우가 많다. 하지만 LO 수준의 선수지식 학습은 보통 교육 자원 내의 의미적 특징, 콘텐츠 구조, 메타데이터를 활용한다.

KC를 제대로 구축한다면 정확한 선수지식 관계가 학습 경로를 정밀하게 최적화할 수 잇게 하며 학습자가 복잡한 KC로 넘어가기 전에 기초 KC를 먼저 숙달하도록 보장한다.

LO를 제대로 구축한다면 선수지식 관계가 더 큰 교율 모듈을 조직할 수 잇으며 예를 들어 내가 원하는 강의 자료의 최적 학습 순서를 결정하는 데에 사용할 수 있다.

하지만 이러한 관계를 뽑아내는 것은 쉽지 않고 이러한 어려움은 선수지식 관계 학습에 대한 폭넓은 연구 (multi-source feature extraction, semantic representation, KC-LO의 구조적 상호작용을 활용하는 강화학습 등) 로 이어졌다고 한다.

선수지식 관계(Prerequisite relation)

선수지식 관계는 어떻게 정의되는 것일까?

학습 자원 쌍 (A, B)가 주어졌을 때 A를 이해하거나 숙달하는 것이 B를 효과적으로 학습하거나 이해하는 데에 필요하다면 A는 B의 선수지식이며 앞에서 언급한 바와 같이 A → B로 표기한다. 이 관계를 Preq(A, B) 로 형식화할 수 있다.

 

선수지식 관계 학습의 task는 대체로 binary classification 문제로 정의되며 목표가 이제 A가 B의 선수 지식인지 (= Preq(A, B) = 1)를 예측하는 것이다. 일부 연구들에서는 위 그림과 같이 3-class classification으로 확장하기도 하며 0~1 사이 연속 점수를 출력해서 선수지식 관계의 강도를 반영하는 방법론도 존재한다.

선수지식 관계의 성질은 다음과 같다.

① 비반사성(Non-reflexivity): 하나의 학습 자원은 자기 자신의 선수지식이 될 수 없다.

즉, 선수지식 관계는 반드시 서로 다른 학습 단위에서만 발생한다는 것이다.

② 반대칭성(Anti-symmetry): 임의의 학습 자원 쌍(A,B)에서 A가 B의 선수지식이라면, B는 A의 선수지식이 될 수 없다. 이러한 성질을 통해 학습 순서가 순환되지 않고 단방향으로 진행되게 된다.

③ 추이성(Transitivity): 서로 다른 세 학습 자원 A, B, C가 있을 때, A가 B의 선수지식이고 B가 C의 선수지식이라면, A는 C의 선수지식이 된다.

선수지식 관계 학습은 어떻게 하지?

KC 사이의 선수 관계를 학습하려면 개념에 대한 정보가 필요하다. 그렇다면 어떤 데이터나 어떤 feature로 선수관계를 예측할 수 있을까?

기존의 방법론은 총 4가지 유형으로 분류할 수 있다.

  1. KCs 간 선수지식 관계 학습을 위한 다중 출처 지식 특징(multi-source knowledge features)
    1. Link-based features (링크 기반)
      • 장점: 구조가 명확해서 관계 그래프를 뽑기 쉬움
      • 단점: 교육적 선수관계와 단순 관련 링크가 섞여있을 수 있음
    2. 위키피디아 같은 곳에서의 하이퍼링크 구조를 사용한다. 예를 들어서 Backpropagation 문서가 Gradient descent 를 많이 링크한다면 Gradient descent 가 Backpropagation의 선수 개념일 가능성이 커진다.
    3. Semantic features (의미 기반)
      • 장점: 진짜로 필요한 개념을 잘 찾을 수 잇음
      • 단점: 문장이 어려우면추출 난이도가 올라가고 도메인에 따라 표현이 다양함
    4. 교재나 강의 자료의 텍스트 내용 자체에서 의미를 뽑는 방식으로 만약 Attention 설명에 softmax, dot product라는 개념이 반복적으로 등장하면 softmax/dot product가 선수지식일 가능성이 커진다.
    5. Behavioral features (행동 기반)
      • 장점: 현실 학습 흐름을 반영해 신뢰도 높은 경우가 많음
      • 단점: 로그 데이터가 존재해야 할 수 있음
    6. 클릭, 시청 순서, 문제 풀이 기록 등 학습자의 로그를 사용한다. 예를 들어 학생들이 개념 A를 학습한 후에야 개념 B를 성공적으로 푸는 로그가 있다면 A가 B의 선수지식일 가능성이 커진다.
  2. LOs 간 선수지식 관계 학습을 위한 의미 기반 지식 특징(semantic knowledge features)
    1. Text-based LOs (텍스트 기반 LO)
    2. 강의 노트, 슬라이드, 교재 챕터 같은 텍스트를 활용해 토픽/내용 유사도/전개 순서 등을 뽑는다.
    3. Multimedia-based LOs (멀티미디어 기반 LO)
    4. 영상 LO와 같은 멀티미디어 기반으로 멀티 모달로 분석해 영상 A에서 B의 핵심 개념들을 미리 설명한다면 B가 A의 선수지식일 가능성이 크다.

그렇다면 KC와 LO를 같이 쓸 때는 어떻게 해야 할까?

  1. LOs로 강화된 KCs 선수지식 관계 학습(LOs-enhanced learning)
    1. Optimization-based methods (최적화 기반)
    2. 강의나 코스 같은 LO가 있다면 그 안의 의존성을 활용해 최적화 기법을 통해 KC의 관계를 추론하는 방식이다. LO 수준의 의존성과 KC 수준의관계를 align 해서 전체적으로 논리적 일관성을 보존할 수 있다.
    3. Graph-based models (그래프 기반)
    4. LO와 KC를 하나의 그래프로 구축해서 선수지식 관계를 학습하는 것이다. 그래프 모델은 local, global 적인 의존 패턴을 동시에 포착할 수 있어서 LO와 KC 사이의 관계를 따로 나누지 않더라도 통합적으로 표현할 수 잇게 된다.
    5. Pre-trained models (사전학습 모델 기반)
    6. 사전 학습된 LM을 활용해 LO에서 의미 관계를 추출하는 동시에 지식 그래프의 구조 정보에 통합한다. 즉, 문맥적인 표현과 그래프 구조 정보를 동시에 활용해서 성능을 향상시키는 방식이다.
  2. KC의 선수관계를 더 잘 맞추기 위해 LO를 보조로 사용하는 방법이다. KC는 작고 정교한 단위라 정보가 부족할 수 있다. 땜누에 그 KC가 포함된 컨텐츠인 LO를 같이 보면서 근거를 늘리는 전략을 말한다.
  3. KCs로 강화된 LOs 선수지식 관계 학습(KCs-enhanced learning).
    1. Dependency-based inference (의존성 기반 추론)
      LO1: {A,B}
      LO2: {B,C}
      KC 관계가 A→B→C 라면 LO1이 LO2의 선수일 확률이 큼
      
    2. 이미 확립된 KC 의존성을 이용해 LO 수준의 선수지식 관계를 직접 추론하는 방식이다. 즉, LO 안 KC들이 이미 선수지식 관계를 갖는다면 그 KC를 더 많이 포함하는 LO가 선수지식으로 추론될 수 있다는 것이다.
    3. Cross-domain transfer (도메인 전이)
    4. KC 관계를 활용해 서로 다른 도메인이나 교육 맥락 간 선수지식 학습을 돕는 방법이다. 예를 들어 수학에서 미분 → 최적화는 머신러닝에서도 똑같다는 것을 이용한다.
  4. 이는 반대로 LO의 선수관계를 더 잘 만들기 위해 KC 구조를 사용하는 방법이다. LO의 선수지식 관계는 LO를 구성하는 KC들의 의존성으로부터 추론될 수 있으며 리는 LO를 더 세밀하게 분석하고 구조화된 학습 경로를 생성하는 데에 유리하다.

지금까지 본 것을 간단하게 요약해보자면 KC는 링크 / 의미 / 행동 로그로 학습되며 LO는 텍스트 / 멀티미디어 의미로 학습될 수 있다. 서로 어떻게 도와주는지에 대해서는 LO가 KC의 학습을 보강하거나 KC가 LO의 학습을 보강할 수 있다는 것을 알 수 있다.

그렇다면 위에서 간단하게 알아본 4가지 범주에 대해 어떻게 학습하는지에 대해서 좀 더 자세히 살펴보고자 한다.

선수지식 관계 학습 방법에는 어떤 것들이 있을까?

 

(1) KCs 간 선수지식 관계 학습을 위한 다중 출처 지식 특징(multi-source knowledge features)

 

위 그림에서 볼 수 있다시피 KC는 너무나 복잡한 구조를 가지기 때문에 선수지식 관계를 충분히 포착하기 위해서는 지식 베이스, 교육 자원, 로그 데이터에서 얻는 증거를 통합하는 multi-source 접근이 필요하다.

① 위키피디아 기반 특징(Features from Wikipedia)

위키피디아는 하이퍼링크 시스템과 지식 조직화를 통해 포괄적인 지식 네트워크를 구축한다. 지식 베이스에서 KC들은 하이퍼링크를 통해 관련 KC들과 연결된다.

예를 들어 곱셈이라는 KC는 종종 덧셈, 뺄셈 KC들과 연결된다. 이러한 연결은 노드가 KC를 나타내고 엣지가 이제 인용 관계를 나타내는 방향 그래프를 형성하게 된다.

이 링크 구조를 바탕으로 KC 쌍의 잠재적 선수지식 관계를 포착하기 위한 머신 러닝 방법들이 막 나오기 시작했다. Crowdsourced Comprehension: Predicting Prerequisite Structure in Wikipedia (2012) 에서는 위키피디아 내 선수지식 관계를 방향 그래프 구조로 정식화한 최조의 연구이다. KC 쌍을 여러 위키피디아 특징 (하이퍼링크, 편집 이력, 문서 내용)을 이용해 분석하고 최대 엔트로피(MaxEnt) classifier를 사용하여 관계를 식별했다고 한다. 이후 연구들은 좀 더 고급 feature들을 사용하는데 크게 세 가지 범주로 나뉜다.

(1) 구조적 특징(예: 노드 차수, KC의 카테고리, 이웃 개수)

(2) 의미적 관련도(semantic relatedness) 지표

(3) 구조적 유사도(structural similarity) 지표

이 세 가지가 각각 선수지식 관계를 더 정확히 식별하는 데에 기여했다고 언급한다.

특히 본 논문에서는 여러 링크 기반 특징 중에서도 위키피디아에서 KC들 사이의 참조(인용) 패턴(reference patterns) 은 특히 중요한 신호를 제공한다고 주장한다. 만약 개념 A와 관련된 대부분의 개념들이 B를 참조하는 반면, B와 관련된 개념들은 A를 거의 참조하지 않는다면 B가 A의 선수지식일 가능성이 높다는 해석이 가능하기 때문이다.

이를 통해 Measuring prerequisite relations among concepts (2015) 에서는 참조 거리(reference distance, RefD) 라는 링크 기반 지표를 제안했다고 한다. RefD는 위키피디아 KC들 사이의 참조 패턴 비대칭성을 정량화하여 선수지식 관계를 모델링한다.

 

 

여기서 I_B는 KC B와 관련된 개념의 수를 의미하고 R_{B,A}는 B와 관련된 개념들 중 KC A를 인용하는 개념의 수를 의미한다. 따라서 {R_{A,B} / I_A} 는 A의 관련 개념들 중 B를 참조하는 비율을 말한다.

RefD(A, B) 의 값이 1에 가까울수록 B의 관련 개념들이 A를 훨씬 더 자주 인용함을 의미하기 때문에 A가 B의 선수지식일 가능성이 크다고 할 수 있을 것이다. 그렇다면 반대로 RefD(A, B) 의 값이 -1에 가깝다면 B가 A의 선수지식일 가능성이 커지는 것이다.

이는 연속값이기 때문에 임계값을 도입한다.

 

여기서 \theta는 [0, 1) 범위의 양의 임계값이며 선수지식 관계 식별 정확도를 최대화하도록 경험적인 실험을 통해 최적값이 결정된다.

하지만 이 방법은 의미적인 관계를 충분히 모델링하지 못한다는 한계가 존재한다.

이를 보완하기 위해 이후 연구들에서는 딥러닝을 통해 위키피디아 문서 내용에서 의미 feature를 추출하는 방법을 탐구했다고 한다. Linguistically-driven strategyfor concept prerequisites learning on italian (2019) 에서는 수작업으로 feature를 봅고 KC 쌍으로부터 얻은 의미 representation을 함께 입력하는 LSTM 기반 하이브리드 접근도 제안했다고 한다.

2020년이 지나고 XGBoost, GRU, BERT 같은 최신 모델들이 의미 특징과 링크 기반 특징을 동시에 처리하는 데 활용되었으며 링크와 같은 구조적인 특징과 의미의 결합은 KC의 선수지식 관계 모델링을 강화하는 접근이라고 언급한다.

② 교육 자원 기반 특징(Features from Education Resources)

여기서 말하는 교육 자원이란 도메인 전문가가 설계한 챕터가 존재하는 것들, 예를 들어 교과서, 강의 계획서이다. 이런 구조화된 순서와 학습 효과 검증을 위한 풍부한 데이터는 선수지식 관계 학습에 중요한 기반을 형성한다.

크게 두 가지 접근이 있을 수 있는데 공동 최적화(joint optimization) 방법과 버스트 분석(burst analysis) 방법이다.

joint optimization 방법 중 하나인 Usingprerequisites to extract concept maps from textbooks (2016)은 KC 추출과 선수지식 식별을 결합하여 위키피디아 지식과 교과서 구조 정보를 함께 활용한다. 예를 들어 교과서로 일단 KC 추출을 하고 단어가 진짜 KC인지 확실하지 않을 때 위키피디아로 보강하는 방법인 것이다. burst analysis에 기반한 비지도 방법을 제안한 Towards the identifi cation of propaedeutic relations in textbooks (2019) 에서는 KC가 밀집되는 구간을 찾고 구간 대수(interval algebra)를 이용해 선수지식 관계를 추론한다. 만약 어떤 개념이 갑자기 많이 등장하는 구간이 있ㅇ면 그 구간이 그 개념을 집중적으로 가르치는 파트일 가능성이 높다는 것이다. 여기서 말하는 구간대수란 시간적인 개념에서 A 구간ㅇ B보다 완전 앞에 설명되어 있냐 아니면 겹치냐 이런 걸 따져서 선수 개념을 따지는 방식이다. 이 방법의 단점은 항상 선수 개념이 앞에 나오지 않는데 (ex. B를 알려면 A를 배워야 하는데 A는 나중에 설명하겠다~) 이런 상황을 반영하지 못한다는 것이다.

이제 강의 자료들이 온라인으로 이동하게 되면서 MOOC 자료(영상 자막, 강의 노트, 디지털 슬라이드 등)를 활용하여 KC 선수지식 관계를 탐구할 수 있게 되었다. Prerequisite Relation Learning for Concepts in MOOCs (2017) 에서는 영상 transcript와 위키피디아 지식을 결합해 의미적 관련도, 문맥 참조 패턴, 자막 기반 구조적 특성을 이용해 KC 선수지식 관계를 분석하는 머신러닝 모델을 제안했으며 Extracting prerequisite relations among concepts from the coursedescriptions (2022)에서도 KC 빈도·순서·학습 시퀀스 같은 강의 기반 특징과, 위키피디아 카테고리 계층·사용자 로그 같은 위키피디아 기반 특징을 통합한 하이브리드 프레임워크를 제안했다.

위키피디아 같은 외부 지식 베이스 의존성을 줄이려는 관점에서 Modeling Concept Dependencies in a Scientific Corpus (2016)에서는 과학 논문의 인용 구조를 통해 선수지식 관계를 내재적으로 표현하는 방식을 분석했다.

하지만 이러한 접근들은 특정 자원에는 좋은 결과를 보이더라도 단일 데이터 출처에 제한되는 문제가 발생해 Inferring Concept Prerequisite Relations from Online Educational Resources (2019) 는 여러 교육 데이터 출처를 체계적으로 합성하는 PREREQ 모델을 제안했다. 구체적으로 pairwise-link-LDA 모델을 활용해 강의 데이터와 MOOC 영상으로부터 KC의 latent representation을 추출하며, 이 표현은 개념 간 의미 관계와 교육 자원 내부 조직 구조를 동시에 반영한다. 이후 이러한 표현은 Siamese 신경망에 입력되어 알려진 선수지식 관계에서 일반화하여 새로운 관계를 예측한다.

 

(2) LOs 간 선수지식 관계 학습을 위한 의미 기반 지식 특징(semantic knowledge features)

KC는 비교적 구조화된 지식 단위인 반면 LO는 강의 노트, 연습 문제 같은 비정ㅎㅇ 텍스트 자료부터 강의와 같은 멀티미디어 콘텐츠까지 ㅐㅁ우 다양한 형식을 가진다. 따라서 LO의 representation learning은 선수지식 관계 학습에서 핵심적인 역할을 한다. representation learning에서는 서로 다른 모달리티와 세분화 수준에 걸쳐 LO들 사이의 의미적 관계를 포착할 수 있는 효과적인 feature를 학습하는 것을 목표로 한다.

위키피디아가 LO 내의 핵심 KC를 충분히 표현하지 못하는 한계를 완화하기 위해 Discovering prerequisite relations from educational documents through word embeddings (2022) 에서는FastText 모델을 사용해 LO의 저차원 latent representation을 생성하고 이를 binary classifier에 입력해 교육 문서 간 선수지식 관계를 식별하는 방법으로 LO들 사이의 선수지식 관계를 직접 예측했다.

Auto req Automatic detection of pre requisite dependencies between academic videos (2023)은 학술 영상에 특화된 feature 기반 학습 방법을 제안했다.

여기에서 중요하게 생각해야 하는 건 LO 간의 의미적 간극이 존재하기 때문에 통합된 representation 학습이나 방법을 구축하는 것이 어렵다는 것과 LO 내에서도 너무 다양한 구조를 가지고 있기 때문에 그 구조에 맞게 알아서 feature를 추출하는 전략이 필요하다.

(3) LOs로 강화된 KCs 선수지식 관계 학습(LOs-enhanced learning)

① LO 통합 최적화 기반 방법(Optimization-based Methods with LO Integration)

Recovering Concept Prerequisite Relations from University Course Dependencies (2017) 에서는 미국 11개 대학의 컴퓨터과학 강의 설명을 수집하고, 강의 간 의존성을 수작업으로 주석(Ω = { i → j | i, j ∈ N })을 달았다. 이후 위키피디아 miner 툴킷을 이용해 강의 설명에서 위키피디아 개념을 KC로 추출하고 각 강의를 KC 공간에서 TF-IDF 벡터로 표현했다. 이 연구를 통해 선수지식 예측이 최적화 문제로 바뀌었으며 최적의 KC 선수지식 행렬 A = (a_{s,t})를 찾는 것이 공식화되었다.

Concept Extraction and Prerequisite Relation Learning from Educational Data (2019) 는 이를 기반으로 조금 개선한 방법론을 제시했다.

  1. 도메인 특화 개념 추출(DsCE) 방법: 교육 자료에서 고품질 구문을 먼저 식별한 뒤 관계 분석을 통해 도메인 특이성을 평가하여 기존 개념 추출의 한계를 보완
  2. 반복적 선수지식 관계 학습(iPRL) 방법: 최적화 기반 + 학습 기반 접근을 반복적으로 결합하는 방식으로 확장 → 교과서와 위키피디아에서 콘텐츠 기반 특징을 추가하고 KC 관계와 학습 패턴을 함께 고려하는 통합 모델을 구축

② LO 강화 그래프 기반 모델(Graph-based Models with LO Enhancement)

개별적인 KC 쌍이 아니라 KC 그래프로 보고 선수지식 관계 학습을 KC 그래프 상의 link prediction 문제로 전환하는 방법론이다.

 

R-VGAE: Relational-variational Graph Autoencoder for Unsupervised Prerequisite Chain Learning (2020) 에서는 LO 정보를 활용한 비지도 학습 방법인 R-VGAE(relational-variational graph autoencoder) 를 제안했다. LO–LO 및 LO–KC 관계를 포함하는 KCs–LOs 이종 그래프를 구축하고, LO가 제공하는 풍부한 문맥 정보를 효과적으로 활용하는 방식이다. VGAE 모델은 그래프 인접 행렬과 노드 표현을 입력으로 받아 누락된 KC–KC 관계를 식별한다(그림 4). 이 접근은 단일 도메인에서 LO 통합이 선수지식 체인 학습을 강화할 수 있음을 보여준다. 이후 저자들은 서로 다른 도메인 간 비지도 선수지식 체인 학습을 가능하게 하는 CD-VGAE(cross-domain VGAE)로 확장되었다고 한다.

Heterogeneous Graph Neural Networks for Concept Prerequisite Relation Learning in Educational Data (2021)는 CPRL 모델을 제안했다. 이는 (1) KCs–LOs 이종 그래프로 복합 자원 관계를 모델링하고, (2) R-GCN으로 KC 표현을 학습한 뒤, (3) Siamese 네트워크로 KC 간 선수지식 관계를 예측한다. 라벨 데이터 확보 비용이 높다는 점을 고려하여 두 가지 weak supervision 변형을 제안했다.하나는 LO 의존성으로부터 학습하는 CPRL_{lo} 이고 다른 하나는 data programming을 통해 확률적 학습 데이터를 생성하는 CPRL_{dp}이다.

Weakly supervised setting for learning concept prerequisite relations using multi-head attention variational graph auto-encoders (2022) 와 Learning Concept Prerequisite Relations from Educational Data via Multi-Head Attention Variational Graph Auto-Encoders (2022) 는 일부 수작업 주석 관계를 포함해 KC–LO 그래프에서 선수지식 관계를 학습하는 end-to-end 모델 MHAVGAE를 제안했다. 이 모델은 멀티헤드 어텐션으로 정점의 은닉 표현을 계산하고, gated fusion 메커니즘으로 KC 특징을 강화한다. 이후 KC 임베딩을 추출해 VGAE에 인접 행렬과 특징을 입력하고, 주석이 없는 KC 쌍의 선수지식 관계를 추론한다.

A graph neural network model for concept prerequisite relation extraction (2023)은 GNN 기반 KC 선수지식 관계 추출 프레임워크 HGAPNet을 제안했다. 이는 이종 그래프 노드(KC, LO)를 단어 임베딩으로 표현하고, 그래프 어텐션 네트워크로 엣지 중요도를 가중치화한다. 예측 네트워크는 어텐션 네트워크에서 얻은 KC 표현을 비선형 변환과 결합해 선수지식 관계를 예측한다.

하지만 이러한 방법은 구조적인 관계를 포착하는 데에는 효과적이지만 LO에 담긴 풍부한 의미 정보를 춘분히 활용하지 못할 수 있다는 단점이 존재한다.

③ LO 강화 사전학습 모델(Pre-trained Models with LO Enhancement)

그렇다면 사전 학습 모델로 LO 텍스트 의미를 모델링하면서 그래프 구조를 통해 KCs와 LOs의 구조적 관계를 함께 활용해 KC 선수지식 관계를 식별할 수 있을까?

Prerequisite Learning with Pre-trained Language and Graph Embedding Models (2021)에서는 BERT와 Node2Vec(구조 표현)을 동시에 사용하는 이중 사전학습 프레임워크를 제안했다. BERT는 KC 설명(LO 텍스트)에서 latent feature를 인코딩하고, Node2Vec은 KC 인용 그래프에서 구조적 특징을 생성한다. 두 모델을 공동 최적화하여 텍스트+구조 정보를 포함하는 표현을 학습한다. 다만 이 방법은 교육용으로 설계된 자료가 아니라 위키피디아에 의존한다는 한계가 있다고 한다.

Heterogeneous Information Enhanced Prerequisite Learning in Massive Open Online Courses (2022)는 HIEPL 모델을 제안했는데, BERT 기반 텍스트 처리에 더해 다음을 통합한다: (1) 강의 콘텐츠의 의미 정보 (2) KC–강의 영상–코스 간 계층적 공동 표현 학습 (3) 영상 출현 및 학습자 시청 행동에서의 순차 패턴 모델링 (4) 다양한 LO 간 복잡 관계를 포착하기 위한 이종 그래프 기반 추론

Proceedings of the 2022 SIAM International Conference on Data Mining (SDM) (2022) 는 강의 코퍼스로 도메인 특화 파인튜닝을 수행하여 문맥 표현을 강화하는 ConLearn을 제안했다. 구조적 측면에서는 KC 선수지식 그래프를 구축하고 게이트드 그래프 신경망을 적용한다. 또한 개념 관계의 중요성을 고려해, 유사한 선수지식 관계를 공유하는 관련 개념들의 정보를 self-attention으로 융합한다.

Predicting Prerequisite Relations for Unseen Concepts (2022) 에서는 보지 못한 KC를 처리하는 사전학습 모델의 한계를 개선하기 위해 검색 증강(retrieval-augmented) 접근을 제안했다. KC 이름을 사용해 관련 위키피디아 페이지를 검색하여 KC 설명을 확장하고, 콘텐츠 기반 모델과 그래프 기반 모델이 교사/학생 역할을 번갈아 수행하는 lternating knowledge distillation 전략을 도입했다. 이 반복 과정은 이전에 등장하지 않았던 지식 요소까지 효과적으로 처리할 수 있는 더 견고한 모델을 만들 수 있게끔 한다고 한다.

(4) KCs로 강화된 LOs 선수지식 관계 학습(KCs-enhanced learning)

그렇다면 KC가 LO의 선수지식 관계 학습을 어떻게 향상시킬 수 있을까?

KC는 더 구조화된 지식 단위로서 정의가 비교적 명확하다. 이렇게 잘 정의된 단위들은 서로 다른 LO들을 연결하는 다리 역할을 수행할 수 있으며 특히 LO들 간 직접 관계를 설정하기 어려운 상황에서 유용하다.

LO를 구성하는 KC들이 있기 때문에 이를 활용해 LO 간의 관계를 추론할 수 있는 것이다.

Discovering prerequisite relationships among learning objects: a coursera-driven approach (2016) 은 위키피디아의 카테고리 계층 구조와 다양한 지표를 활용해 LO들 사이의 일반성–특수성 관계를 판단하고, 이를 기반으로 LO의 학습 순서와 선수관계를 구성했다. 이후 Investigating learning resources precedence relations via concept prerequisite learning (2018)과 Extracting precedence relations between video lectures in moocs (2022)의 연구는 한 단계 더 나아가, LO를 이루는 대표 KC들(principal KCs) 사이의 선수관계를 종합하여 LO 간 선수관계를 직접 정량화했다. 특히 Investigating learning resources precedence relations via concept prerequisite learning (2018)은 DBpedia 기반 특징을 사용했고, Extracting precedence relations between video lectures in moocs (2022)은 트랜스포머 기반 모델로 KC 쌍의 관계를 더 정교하게 학습하는 방식으로 발전시켰다.

Datasets

  1. CrowdComp
    • 위키피디아 기반으로 구축된 데이터셋
    • Global Warming(지구온난화), Meiosis(감수분열), Newton’s Laws(뉴턴의 법칙), Parallel Postulate(평행공준), Public-Key Cryptography(공개키 암호) 의 다섯 개 도메인
    • 총 1600개의 KC 쌍
  2. RefD Course
    • 대학교 강의 설명(course description)에서 추출한 KC 선수지식 관계 쌍으로 구성된 데이터셋
    • 강의–위키피디아 페이지 매핑을 제목 매칭과 유사도 계산 기법을 통해 구축
    • 컴퓨터과학 분야에서 678개의 KC 쌍, 수학 분야에서 658개의 KC 쌍을 포함
  3. AL-CPL
    • 교과서 기반 KC 선수지식 관계 학습을 위해 개발된 데이터셋
  4. MOOC
    • Coursera 강의 영상 자막에서 추출한 KC 선수지식 관계를 포함하는 데이터셋
    • Machine Learning, Data Structures and Algorithm(DSA), Calculus(CAL) 과목을 포괄
    • 13개의 머신러닝 및 DSA 강의에서 수집된 997개 영상으로부터 2,883개의 KC 선수지식 관계 쌍을 포함
  5. University Courses
    • 미국 11개 대학의 컴퓨터과학 학과 강의들에서 KC 선수지식 관계를 추출하여 구성됨
    • 구성 과정
      1. 강의 ID, 이름, 설명, 선수과목 의존 관계 등 강의 관련 데이터를 추출
      2. 다음으로 Wikipedia Miner Toolkit을 적용해 강의 설명에서 위키피디아 개념을 식별하여 각 도메인의 핵심 KC들을 구축
      3. 투표 절차를 통해 KC 쌍 사이의 관계를 검증
    • 654개 강의를 포함하며, 639개의 강의 의존성 쌍과 검증된 KC 선수지식 관계 1,008쌍을 포함
  6. NPTEL MOOC
    • 인도의 온라인 교육 플랫폼 NPTEL에서 제공하는 MOOC 강의들로부터 구축된 데이터셋
    • 38개의 컴퓨터과학 강의에 포함된 382개 영상을 포함하며, 자막 텍스트 추출 및 주석(annotation)을 통해 1,455개의 영상 의존 관계 쌍과 1,008개의 KC 선수지식 관계 쌍을 구축
    • only 컴퓨터 과학 도메인
  7. Metacademy
    • 오픈소스 학습 플랫폼 Metacademy에서 비롯된 데이터셋
    • 플랫폼에 전문가가 주석한 머신러닝 KC들과 그 선수지식 관계를 추출 → DuckDuckGo 검색 엔진을 활용해 해당 개념들과 위키피디아 문서 간 매핑을 구축
    • 3,201개의 KC 선수지식 관계 쌍이 생성
  8. TutorialBank and LectureBank
    • TutorialBank
      • NLP 분야 교육 연구를 지원하기 위해 구축된 데이터셋
      • 305개 토픽에 걸쳐 분류·주석된 6,300개의 학습 자원을 제공
      • 200개 토픽 사이의 의존 관계를 주석하여 794쌍의 토픽 의존 관계를 식별함
    • LectureBank
      • TutorialBank를 확장한 형태
      • 미국 여러 대학에서 수집한 5개 도메인(NLP, 머신러닝, 인공지능, 딥러닝, 정보검색)의 60개 강의로부터 1,352개의 슬라이드 자료를 포함
      • 208개의 토픽과 921개의 라벨된 토픽 선수지식 관계 쌍을 포함
      • 데이터셋의 주요 목적은 토픽 선수지식 관계를 검색 엔진에 활용하여 학습 순서에 맞게 검색 결과의 배열을 최적화하는 것으로, 교육적 문제 해결을 목표로 함
      • 추가적으로 계속 확장되고 있음
  9. MOOCCube and MOOCCubeX
    • MOOCCube: 강의(course), 개념(concept), 학습자 참여(student engagement) 정보를 통합
      • 중국 MOOC 플랫폼 XuetangX에서 24개 분야에 걸친 706개의 강의를 수집했고, 38,000개 이상의 영상 세그먼트를 포함
      • 영상 자막 분석을 통해 약 100,000개의 코스 개념과 17,686개의 개념 선수지식 관계를 도출
    • MOOCCubeX: MOOCCube 확장 버전
      • 4,216개 강의와 230,000개 영상 세그먼트를 포함
      • 333만 명의 학생, 35만 8천 개의 연습 문제, 2억 9천 6백만 건의 학습 활동 데이터를 포함