대조학습을 활용한 비지도 토픽 모델링
Unsupervised Topic Modeling Using Contrastive Learning
Article information
Trans Abstract
Purpose
This study aims to propose an unsupervised topic modeling algorithm utilizing contrastive learning to overcome the limitations of existing methods.
Methods
The proposed algorithm incorporates contrastive learning into topic modeling and employs an end-to-end learning process. This approach embeds documents, topics, and words into a unified space, identifying their relationships and providing more intuitive topic modeling results. The algorithm was applied to scientific and technical literature data and its performance was evaluated against existing topic modeling methods.
Results
The proposed algorithm demonstrated comparable or superior quantitative metrics in terms of consistency and diversity when compared to existing topic modeling approaches on scientific and technical literature datasets. These results indicate that the embeddings learned through contrastive learning effectively capture the relationships between documents and topics.
Conclusion
The unsupervised topic modeling algorithm leveraging contrastive learning provides more intuitive results compared to traditional topic modeling approaches and proves to be a valuable tool for large-scale text data analysis. Future research can explore its application in various domains and evaluate the algorithm using additional quantitative and qualitative metrics to further expand its applicability.
1. 서 론
1.1 연구의 배경 및 목적
인터넷, 스마트폰, 소셜 미디어 플랫폼의 확산으로 텍스트 데이터의 양이 기하급수적으로 증가하면서 이를 효과적으로 분석하고 활용하는 것이 중요한 과제가 되었다. 그러나 텍스트 데이터는 비정형적이고 비구조적이어서 분석과 해석이 어렵다. 최근 인공지능, 특히 딥러닝의 발전으로 텍스트 데이터를 효율적으로 분석할 수 있게 되었으며, 이를 통해 비구조적인 텍스트에서 내재된 의미를 파악하고 자연어처리 작업을 수행할 수 있게 되었다.
딥러닝은 문맥을 고려한 텍스트 표현 학습이 가능해 텍스트 데이터의 복잡한 관계를 이해하고 분석할 수 있다. 이 중 토픽 모델링은 대규모 텍스트 데이터에서 내재된 주제를 추출하는 비지도 학습 알고리즘으로, 문서 분류, 문서 요약, 키워드 추출 등 다양한 텍스트 마이닝 작업에 활용되고 있다. 토픽 모델링은 문서와 단어 간의 관계를 구조화하여 효율적인 정보 추출과 의사결정을 지원하며, 대규모 데이터 환경에서 더욱 그 중요성이 강조된다.
본 연구는 신경망 기반의 표현 학습 방법인 대조학습을 활용하여 텍스트 데이터를 구성하는 문서, 토픽, 단어의 표현을 학습하고, 이들 간의 관계를 식별할 수 있는 새로운 토픽 모델링 알고리즘을 개발하는 데 목적이 있다. 제안된 알고리즘은 문맥적 의미를 반영한 학습을 통해 텍스트 데이터 내 문서, 토픽, 단어 간의 의미적 관계를 잠재공간에서 명시적으로 나타낼 수 있다. 이를 통해 텍스트 데이터 분석의 효율성과 활용성을 높이고자 한다.
1.2 관련 문헌 연구
1.2.1 토픽 모델링
토픽 모델링은 대규모 텍스트 데이터에서 주제를 추출하고 관련 단어들의 패턴을 분석하는 자연어처리 기법이다. 확률적 접근법과 신경망 기반 접근법을 활용하여 문서와 단어 간의 관계를 모델링하며, 이를 통해 문서의 내용을 파악하고 유사성을 분석할 수 있다. 정보 검색, 문서 요약, 문서 분류, 키워드 추출 등 다양한 분야에서 활용되며, 대량의 텍스트 데이터에서 의미 있는 정보를 효과적으로 정리하고 분석하는 데 중요한 역할을 한다.
초기 토픽 모델링은 잠재 의미 분석(latent semantic analysis, LSA)(Deerwester et al., 1990)와 같은 대수적 접근법에서 출발했으나, 통계적 근거가 부족한 한계가 있었다. 이를 극복하기 위해 베이지안 확률 기반의 접근법이 도입되었으며, 대표적으로 잠재 디리클레 할당(latent dirichlet allocation, LDA)(Blei et al., 2003)을 사용된다. 하지만 베이지안 방법은 추론 프로세스의 자동화가 어렵다는 단점이 있다. 이후 신경망 기반 접근법이 개발되어 자동화와 확장성이 뛰어나지만, 매개변수 해석이 어려운 문제가 있다. 최근에는 거대언어모델(LLM)을 활용한 방법이 등장하여 더욱 정교한 토픽 탐색이 가능해지고 있다. 본 논문에서는 토픽 모델링 알고리즘을 대수적 접근법, 베이지안 확률기반 접근법, 신경망 기반 접근법의 3가지로 분류하여 살펴보고자 한다.
(a) 대수적 접근법
대수적 접근법은 수학적 행렬 분해 기법을 활용하여 문서 내 단어의 관계를 파악하고 토픽을 도출하는 방식이다. 대표적인 방법으로 잠재 의미 분석(LSA)(Deerwester et al., 1990)과 비음수 행렬분해(non-negative matrix factorization, NMF)(Lee and Seung, 1999)가 있다. 잠재 의미 분석(LSA)(Deerwester et al., 1990)은 문서 내 등장 단어들의 출현 빈도를 바탕으로 문서-단어 행렬(document-term matrix, DTM)을 구성하고, 이를 특이값 분해(singular value decomposition, SVD)라는 수학적 기법을 적용하여 숨겨진 의미적 관계를 추론하는 방식이다. 이 과정에서 문서-단어 행렬(DTM)은 단순히 단어의 출현 빈도를 기반으로 하기 때문에 단어의 순서나 문맥적 의미를 반영하지 못하는 한계를 가진다. 이를 해결하기 위해 특이값 분해(SVD)를 활용하여 행렬을 세 개의 행렬로 분해하며, 이때 중요한 정보만 남기고 불필요한 요소를 제거하기 위해 절단된 특이값 분해(truncated SVD)를 적용한다. 사용자가 지정하는 하이퍼파라미터 k값에 따라 추출할 토픽의 개수가 결정되며, k값이 클수록 다양한 토픽 정보를 포함할 수 있지만 잡음이 증가할 수 있는 반면, 너무 작으면 중요한 정보까지 삭제될 위험이 있다. 잠재 의미 분석(LSA)은 비교적 단순하고 빠르게 구현할 수 있는 장점이 있지만, 새로운 데이터가 추가될 경우 기존 결과를 업데이트하는 것이 어렵다는 단점이 있다.
비음수 행렬분해(NMF)(Lee and Seung, 1999)는 문서-단어 행렬(DTM)을 두 개의 비음수 행렬로 분해하여 각각 단어-토픽 행렬과 토픽-문서 행렬을 생성하는 방법이다. 잠재 의미 분석(LSA)(Deerwester et al., 1990)과 달리 모든 행렬 요소가 0 이상(비음수)이어야 한다는 제약 조건이 적용되기 때문에, 결과 해석이 더욱 직관적이다. 이때 단어-토픽 행렬의 각 행은 특정 단어가 각 토픽에서 얼마나 중요한지를 나타내는 가중치 역할을 하며, 토픽-문서 행렬의 각 열은 개별 문서를 토픽의 조합으로 표현한 것이다. 두 행렬의 곱이 원본 문서-단어 행렬(DTM)과 최대한 유사하도록 반복적으로 최적화하는 방식이며, 이를 위해 행렬 차이를 최소화하는 Frobenius Norm을 활용한다. 비음수 행렬분해(NMF)(Lee and Seung, 1999)는 해석 가능성이 뛰어나며 특정 문서에서 중요한 토픽을 식별하거나 특정 토픽에서 중요한 단어를 도출하는 데 유용하다. 결론적으로, 대수적 접근법은 비교적 구현이 쉽고 연산 속도가 빠르지만, 새로운 데이터를 추가 반영하는 것이 어렵고 의미적 한계가 존재한다는 점에서 한계가 있다. 이러한 단점을 보완하기 위해 베이지안 확률기반 접근법과 신경망 기반 접근법이 발전하게 되었다.
(b) 베이지안 확률기반의 접근법
베이지안 확률기반 접근법은 문서에서 토픽을 추론하기 위해 확률적 모델을 활용하는 방식으로, 대표적인 알고리즘으로는 잠재 디리클레 할당(LDA)(Blei et al., 2003)이 있다. 잠재 디리클레 할당(LDA)(Blei et al., 2003)은 문서-단어 행렬(DTM)을 입력으로 받아 각 문서의 토픽 분포와 각 토픽의 단어 분포를 추정하는 방법이다. 이 알고리즘은 전체 문서에 대해 사전에 정해진 개수의 토픽이 존재한다고 가정하며, 각 문서는 하나 이상의 토픽을 가질 수 있다. 또한, 문서 내 모든 단어는 무작위로 할당된 토픽을 가지며, 이러한 과정을 반복적으로 수행하여 단어와 토픽 간의 관계를 최적화한다. 잠재 의미 분석은 문서, 토픽, 단어 간의 확률적 관계를 고려하기 때문에 대수적 접근법보다 정교한 토픽 추출이 가능하다. 하지만 문맥적 의미를 충분히 반영하지 못하고, 모든 토픽이 독립적으로 발생한다고 가정하기 때문에 종종 관련 없는 토픽이 추론되는 한계가 존재한다.
이러한 문제를 해결하기 위해 몇 가지 변형된 알고리즘이 제안되었다. Sentence-LDA(Jo and Oh. 2011)는 문장 내 단어의 순서를 고려하지 못하는 잠재 디리클레 할당의 단점을 보완하기 위해, 하나의 문장 내 모든 단어가 동일한 토픽에서 생성된다는 제약을 추가함으로써 문맥적인 토픽 분석을 가능하게 했다. 또한, correlated topic model(CTM)(Blei and Lafferty, 2006)은 잠재 의미 분석(LSA)(Deerwester et al., 1990)이 모든 토픽을 독립적으로 다루는 문제를 해결하기 위해, 특정 토픽이 발생할 때 연관된 다른 토픽이 함께 나타날 가능성을 고려하는 방식을 도입하였다. 이를 위해 기존의 디리클레 분포 대신 로지스틱 정규 분포를 활용하여 토픽 간 상관관계를 분석하고, 공분산 행렬을 통해 서로 관련된 토픽들을 그룹화할 수 있도록 하였다. 이처럼 베이지안 확률기반 접근법은 확률적 모델을 활용하여 문서 내 주요 주제를 효과적으로 도출할 수 있도록 발전해 왔다. Sentence-LDA(Jo and Oh, 2011)을 비롯한 다양한 변형 모델들은 문서의 의미를 더욱 정밀하게 분석하고 토픽 간의 관계를 고려하는 방향으로 개선되었으며, 이를 통해 보다 정확하고 실용적인 토픽 모델링이 가능해졌다.
(c) 신경망 기반 접근법
신경망 기반 접근법은 문서와 단어를 저차원 벡터 공간에 임베딩하여 의미적 정보를 효과적으로 표현하고, 최적화된 벡터 값을 통해 토픽을 추론하는 방식이다. 기존의 희소 표현(sparse representation)과 달리, 신경망 기반의 분산표현(distributed representation)은 단어와 문서 간 유사성을 보다 정교하게 분석할 수 있다는 특징이 있다.
Top2Vec 알고리즘(Angelov, 2020)은 신경망을 활용한 토픽 모델링 기법으로, Doc2Vec(Le and Mikolov, 2014)을 사용해 문서와 단어를 의미 공간(semantic space)에 임베딩한 후, 서로 유사한 문서와 단어를 가까운 위치에 매핑하는 방식으로 토픽을 추출한다. 이후, uniform manifold approximation and projection(UMAP)(McInnes et al., 2018)을 활용하여 차원을 축소하고, hierarchical density-based spatial clustering of applications with noise(HDBSCAN)(Malzer and Baum, 2020)을 사용해 문서를 군집화하여 토픽을 결정한다. 이 과정에서 군집의 중심이 토픽 벡터로 정의되며, 특정 단어가 여러 문서에 걸쳐 등장할 경우 이를 잡음(noise)으로 간주한다. Top2Vec(Angelov, 2020)의 강점은 별도의 데이터 전처리 없이 자동으로 토픽 개수를 결정할 수 있다는 점이지만, 각 문서에 단일 토픽만 할당된다는 제한이 있다.
BERTopic(Grootendorst, 2022)은 Top2Vec(Angelov, 2020)을 확장한 모델로, 문서 임베딩에 Sentence-BERT(Reimers and Gurevych, 2019)를 활용하고, class-based TF-IDF(c-TF-IDF)을 도입하여 토픽 내 단어 분포를 보다 정밀하게 분석한다. Sentence-BERT(Reimers and Gurevych, 2019)는 BERT(Devlin et al., 2018)기반의 문장 임베딩 모델로, 트랜스포머 인코더를 사용해 문맥 정보를 반영하며, 문장 간 유사성을 효과적으로 분석할 수 있도록 설계되었다. 또한, c-TF-IDF 기법은 기존 term frequency-inverse document frequency(TF-IDF) (Joachims et al., 1997)를 변형하여 개별 문서가 아닌 토픽 단위로 단어의 중요도를 평가하는 방법이다. 이를 통해 특정 토픽에서 중요한 단어들을 식별하고, maximize marginal relevance(MMR)과정을 거쳐 의미적으로 중복되지 않는 단어를 선별하여 최종 토픽을 도출한다. BERTopic(Grootendorst, 2022)은 Top2Vec(Angelov, 2020)과 마찬가지로 각 문서에 단일 토픽을 할당하고 자동으로 토픽 개수를 지정할 수 있지만, c-TF-IDF를 활용해 보다 정교한 토픽-단어 관계를 반영할 수 있다는 장점이 있다. 신경망 기반 접근법은 기존의 대수적 및 베이지안 확률기반 접근법보다 유연성과 확장성이 뛰어나며, 특히 대규모 텍스트 데이터에서도 강력한 성능을 발휘하는 것이 특징이다.
1.2.2 대조학습
대조학습(contrastive learning)은 딥러닝의 표현학습(representation learning)에서 효과적인 데이터 표현을 도출하기 위한 학습 방법이다. 이 방법은 데이터 간의 유사성을 조정하는 방식으로, 유사한 데이터 쌍(positive pair)은 더욱 유사하게, 비유사한 데이터 쌍(negative pair)은 더욱 다르게 표현되도록 학습하는 것이 핵심 목표이다(Jaiswal et al., 2020). 이러한 과정을 통해 데이터의 내재된 특성을 효과적으로 이해하고, 서로 다른 데이터 간의 차이를 명확히 구별할 수 있다. 대조학습은 일반적으로 자기 지도학습(self-supervised learning) 방법에 속하며, 이미지, 텍스트, 영상 등 다양한 형태의 데이터에서 활용될 수 있다. 특히, 최근에는 서로 다른 형태의 데이터를 결합하여 학습하는 멀티모달 학습(multimodal learning)(Radford et al., 2021; Guzhov et al., 2022; Jia et al., 2021)에서도 사전학습 모델로 사용되며, 다양한 응용 분야에서 높은 유연성을 제공한다.
자기 지도학습 기반 대조학습은 주어진 데이터에 대해 다양한 증강(augmentation) 기법을 적용하여 변형된 데이터를 생성하고, 원본과 변형된 데이터가 같은 경우 양성 관계로, 서로 다른 데이터일 경우 음성 관계로 정의하여 학습하는 방식이다. 이 과정에서 모델은 데이터 간의 상대적인 관계를 학습하며, 비교할 데이터 쌍이 많을수록 더 효과적으로 중요한 특징을 학습할 수 있다. 최근 연구에서는 이러한 방법을 활용하여 이미지 분류, 객체 인식 등의 작업에서 지도학습 기반 알고리즘과 유사한 성능을 달성했다(Caron et al., 2020; He et al., 2020; Chen et al., 2020). 그러나 자기 지도학습(self-supervised learning) 기반 대조학습(contrastive learning)은 동일한 라벨을 가진 데이터라도 원본 형태가 다르면 음성 관계로 간주하는 한계가 있어, 사전학습 후 미세조정(fine-tuning) 과정에서 학습이 어려운 문제가 발생할 수 있다.
이러한 한계를 해결하기 위해 지도학습 기반 대조학습(contrastive learning) 방법이 제안되었으며, 기존의 손실 함수에 라벨 정보를 통합하여 동일한 라벨을 가진 데이터는 모두 양성 관계로 재정의하는 방식이 사용되었다(Khosla et al., 2020). 이를 통해 모델은 학습된 특징 공간에서 라벨 정보를 함께 고려할 수 있게 되었으며, 이미지 세분화, 객체 인식 등의 다운스트림 작업에서 일반적인 지도학습 모델보다 더 우수한 성능을 보였다. 결론적으로, 대조학습(contrastive learning)은 데이터 간의 관계를 학습하여 효과적인 표현을 도출하는 기법으로, 자기 지도학습(self-supervised learning)과 지도학습을 결합한 방법이 발전하면서 다양한 응용 분야에서 활용되고 있다.
2. 대조학습을 활용한 비지도 토픽 모델링 알고리즘 개발
2.1 대조학습을 활용한 비지도 토픽 모델링 알고리즘
2.1.1 전체 프로세스 개요
본 절에서는 대조학습(contrastive learning)을 활용한 end-to-end 방식의 신경망 기반 비지도 토픽 모델링 알고리즘을 제안하고자 한다. 제안하는 알고리즘의 전체 프로세스는 Figure 1과 같으며, 전체 프로세스는 진행 과정에 따라 4가지 단계(전처리 단계, 임베딩 단계, 대조학습 단계, 군집분석 단계)로 구분된다.
우선, 전처리 단계를 통해서 텍스트에 대한 전처리를 수행(전처리 단계)한 후, 개별 문서에 대해 문맥 기반의 문서 임베딩과 단어기반의 문서 임베딩을 수행(임베딩 단계)하고 이를 대조학습을 통해 동일한 문서들의 표현을 일치(대조학습 단계)시키게 된다. 그리고 잠재공간에 표현된 문서들에 대해 군집분석을 수행(군집분석 단계)하여 토픽을 도출하게 된다. 위의 일련의 과정을 신경망을 통해 일괄적으로 처리하고, 적절한 손실함수를 정의하여 end-to-end 방식으로 학습을 수행하게 된다.
2.1.2 전처리 단계
전처리 단계에서는 Figure 1의 우측에 해당하는 단어기반의 임베딩을 위한 전처리 작업과 TF-IDF 기반의 키워드 추출 작업을 수행한다. 해당 단계에서는 주어진 텍스트 데이터가 모두 영문으로 구성되었다고 가정하며, 전처리 프로세스는 3단계로 구성되어 있다.
첫째, 불용어 처리 과정에서는 텍스트 데이터를 분석에 용이하도록 소문자로 변환한 뒤, 분석에 기여하지 않은 특수문자와 불용어를 제거한다. 둘째, 표제어 추출과정에서는 동일한 의미의 단어가 다양한 요인에 의해 표기가 달라지는 문제를 해결하기 위해 표제어 추출(lemmatization) 작업을 수행한다. 표제어 추출은 단어의 원형을 찾아가는 작업으로, 단어가 다른 표기로 존재하더라도 해당 단어의 원형으로 변환하여 단어의 개수를 단순화하는 작업이다. 효과적인 표제어 추출을 위해 일반적으로 문장에서 핵심 정보를 담고 있는 명사에 해당하는 품사만을 고려한다. 표제어 추출은 단어의 어미를 잘라서 변환하는 어간 추출(stemming)과 비교하였을 때, 변환된 단어의 형태가 적절히 보존되기 때문에 해석이 쉽다는 장점이 있다. 셋째, 키워드 추출과정에서는 이전 단계를 통해 정제된 데이터에 대해 TF-IDF(Joachims et al., 1997) 값을 기반으로 단어기반의 임베딩에 사용할 키워드를 선정한다. TF-IDF에서 대다수 문서에서 자주 등장하는 단어는 낮게 평가되고, 일부 문서에서만 자주 등장하는 단어는 높게 평가된다. 이를 통해 문서의 특징을 나타낼 수 있는 핵심적인 단어를 추출하게 된다.
전처리 단계를 통해서 선정된 w 개의 키워드에 대해서 전체 n개의 문서에서 등장한 단어를 나타내는 n × w 크기의 이진 문서 단어 행렬(DTMB)을 생성하고, 이를 선정된 w개의 키워드 집합과 함께 임베딩 단계의 입력으로 사용한다.
2.1.3 임베딩 단계
임베딩 단계에서는 개별 문서에 대해 Figure 1의 좌측에 해당하는 문맥 기반의 임베딩과 우측에 해당하는 단어기반의 임베딩을 수행한다. 먼저, 문맥 기반의 임베딩을 위해 제안알고리즘에서는 BERTopic과 동일하게 사전학습된 Sentence-BERT(Reimers and Gurevych. 2019)를 활용하여 전체 n개의 문서에 대한 ds 크기의 문서 임베딩 벡터(vSBERT)를 생성한다. 이때, dS 는 Sentence-BERT(Reimers and Gurevych, 2019)에 의해 출력된 특징의 크기를 의미한다. 그리고, 생성된 vSBERT 는 본 논문에서 제안하는 대조학습 방법을 통해 학습되기 위해 별도로 구성된 문맥 임베딩 신경망에 입력함으로써 최종적으로 각 문서의 문맥적 표현을 나타내는 d크기의 문맥 기반(context-based)의 문서 임베딩 벡터(vContext)를 생성한다. 이때, d 는 문맥 임베딩 신경망에 의해 최종 출력된 문맥적 표현 벡터의 특징의 크기이다.
단어기반의 임베딩은 전처리 단계에서 생성한 키워드 집합과 binary-DTM을 활용한다. 먼저, 전처리 단계에서 선정한 w개의 키워드 집합에 대해 문맥 기반의 임베딩 방법과 동일하게 별도로 구성된 단어 임베딩 신경망을 통해 워드 임베딩을 수행하여 d 크기의 단어 임베딩 벡터(vw)를 생성한다. 그리고, Equation (1)과 같이 문서 내 출현단어를 나타내는 DTMB 와 생성한 vw에 대해 내적 연산(inner product)을 수행하여 d 크기의 단어기반(word-based) 문서 임베딩 벡터(vWord)를 생성한다. 내적 연산을 통해 생성된 단어기반 문서 임베딩 벡터는 해당 문서에서 등장하는 단어 임베딩 벡터만을 고려하여 개별 문서를 표현한 벡터로 이해할 수 있다.
2.1.4 대조학습 단계
대조학습 단계에서는 임베딩 단계에서 생성한 문맥 기반의 문서 임베딩 벡터(vContext)와 단어기반의 문서 임베딩 벡터(vW or d)에 대해 동일한 문서 간에 동일한 표현을 갖도록 학습한다. 본 연구에서는 서로 다른 형태의 데이터 간에 유사성을 학습하는 멀티모달 자기 지도 대조학습 알고리즘 중 하나인 CLIP(Radford et al. 2021)을 기반으로 한 대조학습 방법을 사용한다. 우선, n개의 문서에 대해 두 종류의 임베딩 방법으로 생성된 문맥 기반의 문서 임베딩 벡터(vContext)와 단어기반의 문서 임베딩 벡터(vWord) 간의 관계를 정의한다. 동일한 문서로부터 생성된 임베딩 벡터 쌍을 양성 관계(positive pair)로, 서로 다른 문서로부터 생성된 임베딩 벡터 쌍을 음성 관계(negative pair)로 정의하고, 학습을 진행한다. 개별 문서는 정의된 n개의 관계 중에서 1개의 양성 관계의 유사도는 높게, 나머지 n - 1개의 음성 관계의 유사도는 낮게 측정되도록 개별 문서의 표현(벡터)에 대한 학습이 진행된다. 두 종류의 임베딩 벡터 간의 유사도는 코사인 유사도(cosine similarity)를 활용하여 측정되며, 측정된 유사도는 각 문서 단위로 소프트맥스(softmax) 함수를 사용하여 확률값으로 변환된다. 해당 최적화 과정의 상세내용은 2.2절에서 손실함수와 함께 설명한다. 대조학습을 통해 알고리즘이 학습됨에 따라 양성 관계로 정의된 동일한 문서의 두 종류의 임베딩 벡터는 의미 공간에서 동일하게 표현되어 가까워지고, 음성 관계로 정의된 벡터는 서로 다르게 표현되어 멀어지게 된다. 결과적으로, 대조학습을 통해서 문맥 및 단어기반의 임베딩 벡터들이 하나의 동일한 공간상에 표현되도록 학습된다.
2.1.5 군집분석 단계
군집분석 단계는 대조학습을 통해 학습된 문맥 기반의 문서 임베딩 벡터(vContext)에 대해 사전에 정의된 k개의 군집 수를 적용하여 군집분석을 수행한다.
본 연구에서는 군집분석을 위해 딥러닝 기반의 군집분석 알고리즘인 DCCO(Ha and Kim. 2022)를 활용한다. DCCO는 클러스터링을 위해 신경망 내 마지막 층의 군집 노드를 사전에 정의된 군집의 수 만큼 구성하고, 각 군집 노드로 연결된 가중치를 개별 군집의 중심으로 설정한다. 신경망이 학습됨에 따라 각 군집 노드의 가중치가 업데이트되면, 군집의 중심도 업데이트되게 된다. 제안 알고리즘에서는 의미 공간에서 개별 토픽에 속하는 모든 문서 임베딩 벡터의 중심을 찾고자 한다. DCCO의 학습을 통해 모든 토픽의 중심이 일정한 값으로 수렴하게 되면, 수렴된 해당 벡터를 토픽 벡터로 활용한다.
도출된 각 군집의 중심은 d 크기의 학습 가능한 매개변수로 지정되고, 이를 토픽 벡터(vTopic)로 정의한다. 또한, 정의된 토픽 벡터는 d 크기의 문맥 기반의 문서 임베딩 벡터와 내적 연산을 통해 n개의 문서와 k개의 토픽 간의 유사도를 나타내는 n × k 크기의 문서-토픽 유사도 행렬을 생성한다. 이 유사도 행렬은 소프트맥스(softmax) 함수를 통해 각 문서에 포함된 토픽의 비율을 의미하도록 변환되고, 이를 통해 각 문서에 포함된 토픽의 비율을 알게 된다. 또한, 각 문서에서 최대 비율을 갖는 토픽이 각 문서가 속한 토픽이 된다. 이러한 방식을 통해 제안 알고리즘은 각 문서의 토픽 분포와 문서가 속한 토픽을 찾고, 동시에 토픽의 위치를 식별하는 토픽 임베딩을 수행하게 된다.
2.2 대조학습을 활용한 비지도 토픽 모델링 알고리즘 학습
본 절에서는 대조학습을 활용한 비지도 토픽 모델링 알고리즘의 학습에 필요한 손실함수들에 대해서 살펴보고자 한다. 먼저, 문장의 문맥적 표현과 출현단어 기반의 표현 간의 유사성을 학습하는 대조학습을 위한 대조 손실함수(contrastive loss)를 소개하고, 다음으로 토픽 임베딩을 위한 군집분석 과정에서 토픽 벡터를 업데이트하기 위한 손실함수를 설명한다.
2.2.1 제안 알고리즘의 대조학습 손실함수
제안 알고리즘에서는 대조학습을 위한 별도의 라벨이 존재하지 않기 때문에 자기 지도 대조학습에서 주로 활용되는 손실함수인 InfoNCE loss(Chen, Kornblith, Norouzi, and Hinton. 2020; Radford, Kim, Hallacy, Ramesh, Goh, Agarwal, Sastry, Askell, Mishkin, Clark et al. 2021)를 활용하여 해당 손실함수를 최소화하는 방향으로 학습이 진행된다. 제안 알고리즘에서 사용한 대조학습 손실함수는 Equation (2)와 같으며, 오른쪽 항의 분모는 개별 문서에 대해 음성 관계(negative pair)와 양성 관계(positive pair)를 모두 포함한 유사도를 의미하고, 분자는 개별 문서에 대해 동일한 문서로부터 생성된 양성 관계인 벡터(vWord+)의 유사도를 의미한다. 해당 손실함수가 최소화되기 위해서 동일한 문서로부터 생성된 양성 관계인 두 표현 벡터 간의 유사도는 높게, 서로 다른 문서로부터 생성된 음성 관계인 두 표현 벡터 간의 유사도는 최대한 낮게 측정되도록 vContext와 vWord 가 학습된다.
2.2.2 제안 알고리즘의 군집분석 손실함수
제안 알고리즘의 군집분석 단계에서는 의미 공간 내 각 문서가 속하는 주요 토픽이 찾아지고, 각 토픽에 속한 모든 문서의 중심을 탐색한다. 이를 통해 의미 공간 내 각 토픽을 나타내는 벡터를 얻는 토픽 임베딩이 수행된다. 이러한 과정은 Equation (3)의 이진 교차 엔트로피 손실함수(binary cross entropy loss, BCE loss)를 활용하게 된다. 무작위로 주어진 d 크기의 토픽 벡터(vTopic)는 대조학습을 통해 의미 공간에서 어느 정도 유사한 표현끼리 수렴된 d 크기의 문맥 기반의 문서 임베딩 벡터(vContext)와 내적을 통해 n × k 크기의 문서-토픽 유사도 행렬을 생성한다. 생성된 문서-토픽 유사도 행렬의 값은 문맥 기반의 임베딩 벡터와 각 토픽의 중심 간의 유사도를 의미한다.
문서-토픽 유사도 행렬에서 개별 문서마다 가장 큰 유사도 값을 갖는 토픽과의 유사도를 1, 그 외의 토픽과의 유사도는 0을 갖는 one-hot 형태의 행렬을 생성하고, one-hot 형태의 유사도 행렬을 활용한 이진 교차 엔트로피 손실함수를 통해 개별 문서마다 모든 토픽과의 관련 여부를 학습한다. 이를 위한 손실함수는 Equation (3)와 같으며, 해당 손실함수가 최소화되도록 학습된다. 이때,
2.3 제안 알고리즘 특징
제안된 알고리즘은 기존의 토픽 모델링 접근법 중 대수적 접근법과 신경망 기반의 접근법을 통합적으로 고려하여 각 접근법의 한계점을 상호 극복한다. 대수적 접근법에서 주로 사용되었던 출현단어를 기반으로 문서 표현을 얻어내고, 신경망 기반의 접근법에서 활용되었던 사전학습된 언어 모델을 통해 문맥 기반의 문서 표현을 얻어낸다. 이러한 두 가지 문서 표현에 대해, 토픽 모델링에서 일반적으로 활용되지 않는 대조학습을 통해 두 가지 접근법을 통합한 새로운 학습 방법을 제안한다. 앞서 살펴본 바와 같이 기존 토픽 모델링 연구는 대표적으로 LDA(Blei, Ng, and Jordan, 2003)와 E-LDA(Breuer, A., 2025) 같은 LDA 기반의 접근법과, BERTopic(Grootendorst, 2022), U-BERTopic(Albarrak et al., 2024), LLM-ITL(Le et al. 2024)와 같은 LLM을 활용한 신경망 기반 접근법으로 구분할 수 있다. 대수적 접근법은 단어의 순서나 문맥 정보를 반영하지 못하여, 다의어 처리나 문맥에 따른 의미 변화를 포착하는 데 한계가 있다. 즉, 단어의 통계적 동시 출현만을 고려하기 때문에 언어의 복잡한 의미 구조를 충분히 반영하지 못하는 문제가 존재한다. 반대로 신경망 기반 접근법은 문서·단어·토픽 간 관계를 각각 (문서, 토픽), (토픽, 단어)와 같은 쌍으로 분리하여 처리하는 방식을 채택하기 때문에, 이들 간의 복합적이고 통합적인 상호작용을 해석하고 시각화하는 데 어려움이 있다. 즉, 신경망 기반 방법은 문맥 정보 활용에는 강점을 가지지만, 토픽 모델링 결과를 사용자가 직관적으로 이해하고 해석하는 데는 아직 한계가 존재한다.
본 논문은 이 두 접근법의 출현 기반 표현과 문맥 기반 표현을 대조학습을 통해 통합 학습하는 방식을 제안한다. 이를 통해 문서-토픽-단어 간 관계를 하나의 공간에 반영하며, 잠재공간 내 위치 기반으로 시각화가 가능하다. 또한, 제안 알고리즘은 개별 문서에 대해 복수의 토픽을 가정하여 여러 토픽과의 연관성을 고려한다. 즉, 개별 문서가 속하는 주요 토픽을 도출할 뿐만 아니라 그 외의 모든 토픽과의 의미적 연관성을 고려한다. 그리고 기존 연구들과 같이 주어진 코퍼스에 대해 문서별 토픽 분포, 토픽별 단어 분포 등 잠재된 구조적 관계도 제시하여 사용자에게 해석 가능성도 제공할 수 있다. 또한, 제안 알고리즘은 입력된 문서, 단어에 대해 관련된 토픽 벡터를 제공하기 때문에 신규 데이터에 대한 토픽 모델링 역시 가능하며, 데이터의 입력부터 토픽 모델링 결과 추론까지의 모든 과정을 end-to-end 방식으로 수행한다. 제안 알고리즘과 기존 알고리즘의 차이점은 Table 1과 같이 정리될 수 있다.
3. 실험 및 결과
3.1 실험 데이터 및 실험 환경
3.1.1 실험 데이터
본 연구에서는 Digital Science가 2018년 1월부터 운영 중인 과학기술 성과 통합 데이터베이스 Dimensions(Hook, Porter, and Herzog, 2018)에서 1980년부터 2022년 사이에 영어로 작성되었고, 제목(Title)과 초록(Abstract), 호주·뉴질랜드 표준 연구분류체계(Fields of Research, FoR) 분류 코드가 포함된 논문 중에서 FoR 중분류(4-digit)별로 균등하게 논문을 추출한 뒤, 추출된 논문의 Title, Abstract, FoR 필드를 활용해 다양한 토픽 모델링 알고리즘을 비교·실험하였다. Fields of Research(FoR) 분류 코드는 호주 및 뉴질랜드의 연구 및 실험 개발(R&D) 통계 수집, 분석 및 보급을 위해 개발된 표준 연구 분류체계로, 공학, 의료, 교육, 경제 등 다양한 분야의 23개의 대분류와 각각의 대분류가 세분화된 152개의 중분류로 구성되어 있다. 사용되는 데이터가 하나의 주제에 편중되지 않도록 전체 데이터베이스에서 중분류마다 약 1000개씩 총 152,925개를 논문을 수집하였다. 이 중 제목 또는 초록 정보가 결측되거나 중복된 논문을 제외하고 99,918개의 논문 데이터를 최종 학습 데이터로 선정하였으며, 토픽 모델링을 위해 논문의 제목과 초록 정보만을 활용하였다. 선정된 데이터의 예시는 Table 2와 같다.
3.2 실험 설계 및 구성
3.2.1 실험 프로세스
제안된 알고리즘의 성능을 검증하기 위해 기존의 토픽 모델링 알고리즘과의 비교실험을 수행하였다. 비교실험을 위해 동일한 데이터 세트에 대해 베이지안 확률기반의 접근법인 LDA(Blei and Jordan, 2003)와 신경망 기반의 접근법인 BERTopic(Grootendorst, 2022)을 활용하였다. 모든 비교 알고리즘에 대해 토픽의 수를 22개로 동일하게 지정하였다. 이는 3.2.3 하이퍼파라미터 최적화 실험을 통해 찾아진 최적의 토픽 수이며, 이는 비교대상이 되는 BERTopic에서 탐색된 결과와 일치한다. 또한, 전처리를 수행하지 않는 모델의 경우, 도출된 토픽 내 단어 분포에서 불용어가 다수 포함되어 올바른 성능 측정에 어려움이 발생하고, 각 모델에 따라 사용한 전처리 방법이 다를 경우, 성능 비교가 어려우므로 이러한 불일치를 방지하기 위해 동일한 전처리 방법을 적용하였다.
3.2.2 성능 평가 지표
비교실험에서 알고리즘의 성능을 정량적으로 평가하기 위해 토픽 모델링 결과에 대해 두 가지 평가 지표인 일관성(coherence) 점수와 다양성(diversity) 점수를 측정하였다. 토픽 모델링의 결과로 도출된 토픽은 일반적으로 여러 단어로 구성된 단어 집합으로 표현된다. 이때, 단어 집합 내 각 단어는 개별적으로 하나의 의미적 특성과 관련되어 있어야 한다. 일관성 점수는 각 토픽 내 단어 간의 의미적 일관성을 정량적으로 평가하여 해당 토픽이 특정 주제를 명확하게 대표하는 정도를 판단하는 중요한 지표로 해석될 수 있다. 본 논문에서는 일관성 점수를 측정하기 위해 Equation (4)과 같이 코퍼스 내 복수의 단어 간의 동시 발생 확률을 고려하는 normalized pointwise mutual information(NPMI) 기반의 측정 메트릭인 cv를 활용하였다. NPMI에서의 k개의 토픽 벡터(t)는 해당 토픽을 구성하는 n개의 단어 벡터(w)의 합으로 계산된다. cv는 NPMI로부터 도출된 각 토픽 벡터(tk)와 각 토픽에 속하는 단어 벡터(wn,k) 간의 코사인 유사도(scos)의 평균을 통해 일관성 점수를 계산한다. 본 논문에서는 일관성 점수를 측정하기 위해 Gensim 패키지의 coherencemodel 함수를 활용하였다.
다양성 점수는 도출된 토픽의 의미적 다양성을 고려하는 정량적 지표로서, 각 토픽을 구성하는 모든 대표 단어의 집합에서 고유한 대표 단어의 비율을 계산하여 측정할 수 있다(Dieng, Ruiz, and Blei, 2020). 낮은 다양성 점수는 해당 알고리즘이 주어진 코퍼스에 대해 토픽을 다양하게 분류하지 못했음을 의미하며, 이는 다양한 의미적 특성을 제공하지 못한다고 간주할 수 있다. 다양성 점수는 정의된 토픽의 수에 따라 과도하게 정의되면 상위의 단어가 중복된 유사한 토픽이 생성되고, 정의된 토픽의 수가 너무 적으면 토픽이 지나치게 일반적인 주제로 구성될 우려가 있다. 본 논문에서는 사전에 정의된 토픽의 수를 22개로 지정하고, 상위 20개의 단어에 대해 토픽의 다양성 점수를 측정한다. 다양성 점수를 측정하기 위해 Octis 패키지의 TopicDiversity 함수를 활용하였다. 또한, 제안 알고리즘에서는 Dieng, Ruiz, and Blei(2020)가 제안한 결합 지표인 토픽 품질을 함께 측정한다. 토픽 품질은 일관성 점수와 다양성 점수의 곱으로 두 가지 지표를 종합적으로 고려할 수 있다.
3.2.3 하이퍼파라미터 최적화
하이퍼파라미터는 알고리즘의 훈련 이전에 사용자가 지정해야 하는 값으로, 대다수의 신경망 기반의 모델은 지정된 하이퍼파라미터 값에 따라 다른 결과를 도출하게 되고, 결과적으로 모델의 성능에 직접적인 영향을 미치게 된다. 따라서 모델의 최적 성능을 달성하기 위해서는 최적의 하이퍼파라미터를 탐색하고 설정하는 과정이 필수적으로 요구된다. 본 논문에서 탐색에 사용한 하이퍼파라미터는 총 5가지로, 임베딩 레이어별 노드의 크기, 학습률(learning rate), 가중치 감쇠(weight decay) 비율, 드롭아웃(dropout) 비율 그리고 토픽의 수이며 이에 대한 세부 내용은 Table 4에서 확인할 수 있다. 학습률은 신경망의 매개변수가 훈련을 통해 업데이트될 때, 업데이트 비율을 결정하는 하이퍼파라미터로써, 훈련의 안정성과 관련되어 있다. 가중치 감쇠와 드롭아웃은 신경망이 과도하게 훈련 데이터에만 적합해지는 과적합(overfitting) 문제를 방지하기 위한 정규화 효과를 제공하는 방법이다. 이 중, 가중치 감쇠는 학습 시, 신경망의 가중치가 지나치게 커지는 것을 방지하기 위해 가중치의 크기에 페널티를 부여하여 모델이 간결하고, 일반화된 특성을 갖도록 하는 방법으로, 가중치 감쇠 비율은 감쇠시킬 가중치의 비율을 조절하는 하이퍼파라미터이다. 그리고 드롭아웃은 학습 중인 신경망에서 일부 뉴런을 무작위로 비활성화하여 일반화 성능을 향상시키는 방법으로, 드롭아웃의 비율은 비활성화되는 뉴런의 비율을 의미한다. 또한 토픽 모델링의 성능은 토픽 수 설정에 따라 크게 달라질 수 있으므로, 본 연구에서는 토픽 수를 고정값으로 설정하지 않고 하이퍼파라미터로 간주하여 최적의 값을 탐색하였다. 다양한 후보 토픽 수에 대해 실험을 수행함으로써 모델의 적합도를 극대화하고자 하였으며, 이를 통해 토픽 수에 따른 결과의 변동성을 최소화하고 분석의 신뢰성을 제고하였다. 각 하이퍼파라미터는 탐색 범위 내에서 2.2.2절에서 정의한 손실함수의 값을 최소화하는 데 중점을 두고 최적화된다. 제안된 알고리즘은 Optuna 패키지를 이용하여 탐색 범위 내 하이퍼파라미터 값의 다양한 조합을 고려하여 훈련되며, 결과적으로 최적의 조합을 찾아내어 모델의 성능을 측정한다. Table 5는 Dimensions 데이터베이스로부터 수집된 과학기술 논문 데이터 세트에 대한 제안된 알고리즘의 최적 하이퍼파라미터를 나타낸다.
3.3 실험 결과
본 절에서는 Dimensions 데이터베이스로부터 수집된 과학기술 논문 데이터 세트를 활용한 토픽 모델링 알고리즘들의 비교실험 결과를 살펴보고자 한다. 비교실험은 정량적/정성적 평가로 나누어 진행하였으며, 각각의 평가 방법을 통해 제안된 알고리즘과 기존 토픽 모델링 알고리즘 간의 성능 차이를 확인하였다. 정량적 평가는 3.2.2절에 언급한 세 가지 지표를 활용하여 제안된 알고리즘과 기존 알고리즘의 성능을 분석하였다. 정성적 평가는 각 알고리즘의 토픽 모델링 결과를 비교하기 위해 문서의 토픽 분포, 토픽의 단어 분포를 고려하였다. 또한, 제안하는 대조학습을 활용한 비지도 토픽 모델링 알고리즘에서는 학습이 완료된 의미 공간을 시각화하여 문서, 토픽, 단어 간의 관계를 명시적으로 확인한다. 이러한 평가를 통해 제안된 알고리즘이 기존의 토픽 모델링 알고리즘과 어떤 차이를 보이는지에 대해 직관적인 이해를 제공하였다.
3.3.1 정량적 결과
본 절에서는 토픽 모델링을 위해 보편적으로 사용되며, 높은 성능을 제공하는 알고리즘인 LDA(Blei et al., 2003), BERTopic(Grootendorst, 2022)에 대해 제안 알고리즘과 정량적 평가 결과를 비교하였다. 비교 결과는 Table 6에 명시되어 있으며, 세 가지 주요 평가 지표를 기반으로 각 알고리즘을 비교하여 지표별 상위 2개의 성능은 진하게, 가장 좋은 성능은 밑줄로서 표기하였다. 토픽 품질은 (Dieng, Ruiz, and Blei. 2020)에서 제안된 평가 지표로서, 두 가지 평가 지표의 곱으로 산출된다. 모든 지표는 값이 클수록 토픽 모델링의 성능이 우수함을 의미한다. 별도의 표기가 없는 모든 알고리즘은 전처리 과정에서 불용어 제거와 표제어 추출을 수행하였으며, 표제어 추출을 통해 명사에 해당하는 단어를 추출하였다.
일관성 점수를 살펴보면, 베이지안 확률기반의 접근인 LDA(Blei et al., 2003)가 가장 우수한 성능을 보이며, 다음으로 제안 알고리즘이 높게 측정되었다. 반면, 다양성 점수는 제안 알고리즘이 가장 우수한 성능을 보여주었으며, 다음으로 BERTopic(Grootendorst, 2022)이 높게 측정되었다. 특히, 제안 알고리즘은 기존 토픽 모델링 알고리즘 수준의 토픽의 일관성을 유지하면서도 생성된 22개의 토픽을 구성하는 키워드에 중복 단어가 존재하지 않아 더 높은 다양성을 제공할 수 있다. 이는 제안 알고리즘에서는 문서별 출현단어의 표현을 고려할 때, 중복을 허용하지 않고 워드 임베딩을 수행하기 때문에 개별 단어의 관점에서 가장 의미적으로 유사한 토픽과 의미 공간에서 가깝게 위치하게 되고, 결과적으로 명확하게 유사한 토픽을 구별해낸다고 볼 수 있다. 또한, 앞의 두 가지 평가 지표를 결합한 토픽 품질의 측면에서도 제안 알고리즘이 가장 우수한 성능을 달성하였다.
반면, BERTopic(Grootendorst, 2022)의 경우, 전처리 과정에 따라 성능 편차가 크게 측정되어 이를 구분하여 평가하였다. 여기서 †표기는 전처리를 전혀 수행하지 않은 BERTopic(Grootendorst, 2022)의 결과이며, ⁑표기는 불용어 제거만을 수행한 결과이다. 결과적으로, 전처리를 수행하게 되면 토픽의 일관성은 다소 낮아지는 경향이 있으나 종합적인 성능이 높게 측정되었으며, 일관성을 제외한 다른 지표에서는 LDA(Blei et al., 2003)보다 우수하지만, 제안된 알고리즘보다는 낮은 성능을 보여주었다.
3.3.2 정성적 결과
본 절에서는 제안 알고리즘의 토픽 모델링 결과를 정성적으로 평가하기 위해 학습된 의미 공간을 2차원으로 투영하여 문서, 토픽, 단어의 관계를 시각화하고, 시각화 결과를 기반으로 문서별 토픽 분포, 토픽별 단어 분포를 살펴보았다. 제안 알고리즘은 기존 토픽 모델링 분야에서는 주로 활용되지 않는 대조학습을 도입하여 동일한 문서에 대한 문맥적 표현과 출현단어를 고려한 표현이 일치하도록 문서 표현을 학습한다. 해당 과정을 통해 제안 알고리즘은 하나의 의미 공간에서 두 가지 표현을 동시에 시각화할 수 있게 되고, 문맥적으로 혹은 출현단어를 공유하는 유사한 문서들은 가깝게, 유사하지 않은 문서들은 멀게 위치하게 된다. 또한, 유사한 문서끼리 뭉쳐진 의미 공간에서 군집분석 과정을 통해 생성된 문서 군집의 중심을 활용하여 토픽 임베딩을 수행하게 되고, 이를 기반으로 토픽 벡터를 도출하게 된다. 결과적으로, 학습이 완료된 제안 알고리즘의 의미 공간에서는 유사한 문맥적 표현과 출현단어의 유사도를 기반으로 개별 문서들이 벡터로 표현되며, 이들의 유사도를 기반으로 토픽이 탐색된다. 또한, 제안 알고리즘에서는 출현단어를 고려하여 대조학습을 수행하였으므로 출현한 개별 단어를 의미 공간에 표현하는 것이 가능하고, 이를 통해 토픽과 단어를 함께 시각화하여 개별 토픽과 관련된 단어를 확인할 수 있다.
Figure 2는 학습이 완료된 제안 알고리즘의 의미 공간을 2차원으로 투영한 시각화 결과로서, 이를 바탕으로 각 문서의 문맥적 표현, 출현단어 표현 그리고 사전에 정의한 22개의 토픽 표현을 확인할 수 있다. 먼저, 색상을 보유한점은 각 문서의 문맥적 표현을 의미하며, 개별 문서 내 가장 많은 비율을 차지하는 토픽에 의해 색상이 결정된다. 즉, 색상은 서로 다른 22개의 토픽을 의미하며, 붉은색 별은 해당 토픽을 주요 토픽으로 갖는 문서의 문맥적 표현의 중심을 나타내는 토픽 벡터이다. 검은색 점은 전체 문서에서 출현한 단어의 표현으로 대조학습을 통해 단어의 문맥적 의미가 고려되어 의미 공간 내에 표현된다. 즉, 특정 문서/토픽과 의미적으로 유사한 단어는 해당 문서/토픽 근처에 위치하게 된다.
LDA(Blei et al., 2003)와 같은 기존의 일부 토픽 모델링에서는 알고리즘이 찾아낸 코퍼스 내 잠재된 구조적 특징을 확인하기 위해 문서별 토픽 분포, 토픽별 단어 분포 등을 고려하여 해석 가능성을 제공한다. 제안 알고리즘 역시 학습된 의미 공간을 기반으로 문서별 토픽 분포, 토픽별 단어 분포를 고려할 수 있다. 또한, 제안 알고리즘에서는 신경망 기반의 Top2Vec(Angelov, 2020)과 BERTopic의 문서별 단일 토픽을 할당하는 가정을 필요로 하지 않아 각 문서에서 주요 토픽뿐만 아니라 연관된 다양한 토픽의 존재를 확인할 수 있다. 각 문서는 의미 공간에서 사전에 정의된 모든 토픽과의 의미적 유사성을 고려하고, 소프트맥스(softmax) 함수를 통해 모든 토픽과의 유사도를 확률값으로 변환한다. 결과적으로, 의미 공간에서의 거리를 통해 개별 문서의 주요 토픽을 파악할 수 있으며, 문서별 토픽 분포를 도출할 수 있다.
제안 알고리즘의 문서별 토픽 분포는 Table 7에서 확인할 수 있으며, 무작위로 선정된 일부 문서의 결과를 제시한다. 선정된 689번째 문서와 19170번째 문서에서는 한 개의 토픽이 비율의 대부분을 차지하고 있으며, 이는 단일 토픽에 의해 해당 문서가 대부분 설명될 수 있음을 의미한다. 3652번째 문서와 12770번째 문서에서는 복수의 토픽을 고려하고 있는 것을 확인할 수 있다. 각 문서와 토픽이 올바르게 할당되었는지를 확인하기 위해서는 개별 토픽의 의미를 유추해야 한다.
제안 알고리즘에서 생성한 토픽의 의미를 유추하기 위해 토픽별 단어 분포를 고려하여 토픽을 구성하는 주요 키워드를 찾아내고, 해당 정보를 기반으로 토픽에 대한 라벨링을 수행하였다. 제안 알고리즘을 통해 도출된 22개의 토픽에 대한 주요 단어의 분포이며 기설정한 것과 같이 20개의 키워드로 토픽을 표현하였다. 토픽 라벨링을 위해서는 도메인 지식을 활용하는 것이 일반적이나, 활용한 데이터의 특성상 다양한 분야의 전문적인 지식과 용어가 다수 포함되어있으므로 사전 학습된 거대언어모델을 활용하였다. 본 논문에서는 Chat-GPT를 활용하여 20개의 키워드를 기반으로 해당 토픽의 라벨을 부여하였다.
제안 알고리즘에 의해 도출된 문서별 토픽 분포 및 토픽별 단어 분포를 평가하기 위해 Table 2의 예시 문서와 라벨링된 키워드를 활용하여 비교하였으며, 해당 문서들에 대한 제안 알고리즘의 예측 결과는 Table 8과 같다. 제안 알고리즘에 따르면, 689번째 문서는 주요 토픽으로 Topic 9(생물학 및 단백질 연구)가 선정되었으며, 해당 문서의 실제 키워드는 세포 배양 및 생명 공학 등과 관련되어 있으므로 적절하게 매칭된 것을 확인할 수 있다. 3652번째 문서는 주요 토픽으로 두 가지 Topic 16(수학 및 수리 물리학 연구)과 Topic 18(의학 및 의료 기술)이 선정되었으며, 이를 통해 제안 알고리즘이 개별 문서 내 복수의 토픽을 정상적으로 고려하는 것을 확인할 수 있다. 또한, 해당 문서가 다루고 있는 신약 개발, 대사성 질환 등이 선정된 Topic 18(의학 및 의료 기술)과 Topic 16(수학 및 수리 물리학 연구)과 밀접하게 관련되어 있음을 알 수 있다. 그리고 12,770번째 문서는 세포가 아미노산을 감지하여 성장 신호를 조절하는 메커니즘을 다룬 논문으로, 이는 암, 대사질환, 노화 등과의 연관성을 제시한다. 제안 알고리즘은 해당 문서의 주요 토픽으로 Topic 3(바이오 분석 기술)과 Topic 7(고체 화합물 및 자성 물질 연구)을 선정하였으며, 실제 키워드인 ‘암세포’, ‘뇌종양’, ‘신경 발달 및 분화’ 등과 높은 정합성을 보이는 것을 확인할 수 있다. 또한, 19,170번째 문서는 무선 센서 네트워크에서 에너지를 효율적으로 사용하면서도 보안을 유지하는 방법을 제안한 논문으로, 제안 알고리즘은 주요 토픽으로 Topic 14(정보 보안 및 통신기술)를 선택하였다. 실제 키워드인 ‘무선 센서 네트워크’, ‘시뮬레이션’, ‘인공지능’ 등이 문서의 주요 내용과 일치함을 통해 알고리즘의 주제 분류 정확성을 확인할 수 있다.
4. 결론 및 향후 과제
본 연구에서는 대조학습을 활용한 비지도 토픽 모델링 알고리즘을 제안하였다. 제안된 방법은 신경망 기반의 접근법과 대수적 기반의 접근법을 결합하여 문서의 문맥적 표현과 출현단어의 표현을 동시에 고려한다. 특히, 이미지에 활용되는 대조학습을 자연어처리에 적용하여 대조학습 기반의 토픽 모델링 방법을 제안하였다. 의미 공간에서 의미가 유사한 문서들을 잘 설명하는 토픽을 명시적으로 식별하기 위해 신경망 기반의 군집분석을 통해 토픽 임베딩을 수행하고, 하나의 공간에서 문서, 토픽, 단어를 모두 고려하는 방법을 제안하였다.
결과적으로, 하나의 통합된 의미 공간에 시각화함으로써 문서, 토픽, 단어를 식별하면서 그들 간의 관계를 파악할 수 있으므로 더욱 직관적인 이해가 가능하다. 이러한 전체 과정을 신경망 기반으로 end-to-end 학습이 가능하도록 하여 단순하고 효율적인 모델 구현이 가능하며, 입력과 출력 간의 관계를 직접 학습하여 특징 추출과 일반화 성능을 향상시키도록 하였다. 또한, 제안 알고리즘은 기존 토픽 모델링 알고리즘과 비교하였을 때, 토픽의 일관성을 유지하면서 토픽의 다양성 측면에서 더욱 우수한 성능을 달성하였다. 더불어, 개별 문서에 대해 다수의 토픽을 갖는 것을 허용하고, 문서의 주요 토픽을 도출할 뿐만 아니라 그 외의 모든 토픽과의 연관성을 고려할 수 있도록 문서별 토픽 분포를 제시하였다. 이외에도 토픽의 의미를 유추할 수 있도록 의미 공간 내 토픽과 연관된 단어를 보여주는 토픽별 단어 분포를 제시하였다.
그러나, 여전히 제안된 알고리즘은 분석의 편의성 측면에서 한계점이 존재한다. 제안하는 알고리즘은 스스로 토픽의 수를 학습할 수 없으며, 번거로운 텍스트 전처리 과정을 자동으로 수행하지 못하기 때문에 사용자의 개입이 요구된다. 따라서 이러한 한계점을 극복하기 위한 추가적인 연구가 필요하나, 자동화된 방법이 토픽 모델링의 성능을 저하시키지 않도록 주의를 기울여야 할 것이다. 향후 연구에서는 추가 데이터를 확보하여 제안된 알고리즘의 일반적인 성능을 평가할 예정이며, 더 나아가 알고리즘이 스스로 학습하여 최적의 토픽의 수를 제공하면서도 토픽의 정량적/정성적 지표를 향상하는 방안에 관해 추가적인 연구를 진행할 예정이다.
또한, 본 연구에서는 자원 및 실험 환경의 제한으로 인해 최신 대형 언어 모델(LLM)과의 직접적인 비교는 이루어지지 않았으나, 향후 연구에서는 최신 LLM 모델을 포함한 다양한 비교 실험을 수행함으로써 제안 기법의 성능과 적용 가능성을 보다 종합적으로 평가하고자 한다. 아울러 본 연구에서 제안한 알고리즘은 Dimensions 기반의 과학 기술 논문 데이터를 중심으로 개발 및 검증되었으며, 이 과정에서 해당 데이터의 구조적 특성과 분야별 전문 용어 사용 등의 언어적 표현 특성이 활용되었음을 부인할 수 없다. 그 결과 해당 데이터에는 높은 성능을 보였지만, 뉴스 기사, 특허, 보고서 등과 같이 문체나 정보 구조가 상이한 데이터에서는 성능 저하가 발생할 수 있다. 따라서 제안 알고리즘은 현재로서는 Dimensions 데이터와 같은 과학기술 논문에 특화되어 있으며, 타 도메인에 대한 적용 가능성은 향후 연구를 통해 추가적으로 검증될 필요가 있다.