1. 서 론
농산물의 품질과 안전성은 국민 건강과 식품 산업의 신뢰성과 직결되는 핵심 요소로 이를 위한 과학적 평가와 기술 개발은 국가 R&D 전략에서 중요한 비중을 차지한다. 국립농산물품질관리원(이하 ‘농관원’)은 국민에게 안전하고 우수한 품질을 가진 농산물을 안정적으로 공급하기 위해 생산단계 안전관리와 유통단계 품질관리에 필요한 검정과 과학적 기반의 연구개발 사업을 수행하는 기관이다. 농관원 시험연구소는 농산물, 가공식품, 사료 등을 대상으로 잔류물질 분석, 원산지 판별, 성분 검정, 정부양곡 도정수율시험, 표준규격 자료 조사 등 농식품 관리분야에서 현장 활용 중심의 실증 기반 연구를 수행하며 농산물 안전성과 품질 향상에 기여해왔다. 이러한 연구는 과학기술의 발전, 사회적 요구 및 정책 변화에 따라 시기별로 주제와 초점이 달라지며 장기간 동안 축적된 연구 주제 분석을 통해 R&D 변화 양상과 미래 방향성을 파악할 수 있다. 특히 연구 주제에 포함된 단어적 특징을 분석한다면 시대적 이슈와 기술 트렌드를 파악하고 정책 기획의 기초자료로 활용할 수 있다.
2011년부터 운영된 미래성장포럼은 농림축산식품부와 농촌진흥청 등이 참여하는 민관 협력 기구로서 스마트 농업, 기후변화, 디지털 전환 등 농림식품 산업 전반의 미래 전략을 논의하며 R&D 정책 방향과 융합 기술 활용 방안 모색에 중점적인 역할을 해왔다. 이에 농산물 안전 품질 관련 연구개발 주제와 정책 중심 미래성장포럼의 포럼 주제를 함께 분석한다면 농식품 분야 연구의 기술적·정책적 흐름을 종합적으로 조망할 수 있다.
토픽 모델링은 문서 내 잠재된 토픽을 추출하고 식별하여 텍스트의 구조적 해석을 가능하게 하는 대표적인 텍스트 마이닝 기법이다(Park et al., 2025). 텍스트 마이닝 기법을 적용한 연구사례로 Kim and Kim(2021)은 TF-IDF(Term Frequency-Inverse Document Frequency) 기반으로 농업 R&D 키워드를 분석하였고, Park et al.(2024)은 논문 초록을 기반으로 LDA를 활용하여 경영 및 비즈니스 부문의 혁신 관련 탐색적 데이터 분석을 수행한 바 있다. 그리고 Montes-Escobar et al.(2023)은 LDA와 HJ-Biplot(Hill–Juan Biplot)을 결합하여 임업 연구 분야의 핵심 주제와 발전 경로를 시각화하였다.
한편, Liu and Wan(2024)은 Google에서 개발한 인공지능 학습 기반 BERT(Bidirectional Encoder Representations from Transformers) 사전학습 언어 모델(Devlin et al., 2019)인 BERTopic 기반 텍스트 마이닝을 활용하여 정밀농업 연구의 시계열적 동향과 공간적 연구 패턴을 분석하는 등 최근 토픽 모델링 분야에서도 머신러닝과 딥러닝 기반 텍스트 분석 알고리즘을 각자의 도메인 분야에 적용하는 사례가 나타나고 있다.
선행 연구를 종합적으로 판단해보면, 선행연구에서는 분석 데이터를 국가 연구개발사업 과제 정보, 연구논문 데이터베이스 정보 및 정밀농업 관련 데이터를 활용하였고, 분석 기법은 전통적인 통계기반의 텍스트 분석 기법인 LDA와 TF-IDF 기반 토픽 모델링 또는 머신러닝과 딥러닝 기반의 텍스트 분석 기법인 BERTopic을 각각 적용하였다. 하지만 농산물 안전 품질과 관련된 연구주제를 토대로 LDA, TF-IDF, BERTopic 모델링을 수행한 사례는 거의 없는 실정이다. 따라서 농산물 안전과 품질관리를 위하여 오랜 기간 동안 수행된 대량 문서의 연구 과제 제목으로부터 의미 있는 패턴과 정보를 신속하고, 자동적으로 추출하기 위해서는 전통적인 통계기반의 분석 기법부터 활용하여 연구동향을 기본적으로 분석할 필요가 있다. 그리고 모델링 결과의 신뢰성을 검증하기 위해 보완적으로 최신 연구에서 적용중인 인공지능 기반의 최신 모델링 기법을 함께 적용해 볼 필요성이 있다. 한편 Das et al.(2016)은 논문 제목만을 대상으로 한 토픽 모델링을 적용하여 유의미한 결과를 도출하였다고 보고한 바 있다. 또한 빈번하게 등장하지만 토픽 분석에 영향을 미치지 않는 키워드를 불용어로 처리한 Woo and Lee(2020)의 선행 연구를 볼 수 있다.
따라서 본 연구에서는 농산물 안전과 품질 연구 동향을 파악하기 위하여 농관원 고유의 연구 주제 데이터와 미래 성장포럼의 농식품 R&D 및 정책 관련 주제 데이터를 대상으로 LDA 기법을 적용하여 농산물 분야 연구과제 주제를 분석한 후, 농산물 분야 연구과제와 농식품 정책포럼의 연구주제 간의 토픽 차이가 어떻게 나타나는지를 살펴보고자 하였다. 구체적으로는 시기에 따른 R&D 주제의 추세를 비교 분석함으로써 농산물 안전과 품질관리 강화를 위한 농식품 R&D 정책 수립과 연구과제 기획에 필요한 기초 자료를 생성해보고자 한다.
2. 재료 및 방법
2.1 데이터: 농산물 품질관리 시험연구과제
농관원 시험연구소는 농산물 유해물질 분석법, 원산지 판별법, 사료 및 식품 성분 분석법 등을 개발하고 농산물의 안전성, 원산지, 성분 등에 대한 검정을 신속하고 정확하게 제공함으로써 농산물의 안전성과 품질 향상을 지원하고 있다(NAQS ERI, 2025). 연구개발사업을 통해 농식품 분야의 안전성 확보와 품질 향상을 목표로 최신 분석기술 개발, 시험법 표준화, 위해요소 모니터링, 신속 검정기술 보급 등을 추진하고 있다.
본 연구에서는 농관원 시험연구소가 주축이 되어 1963년부터 2025년까지 수행한 농산물 안전 품질 분야의 시험 연구개발 과제를 수집하여 연구과제 제목을 분석대상으로 하였다. 최종적으로 연구개발과제 제목 데이터는 1963년부터 2025년까지 63년간 수행한 총 942건을 수집하였다.
2.2 데이터: 미래성장포럼(STCA) 발표자료
미래성장포럼은 농림식품산업의 과학적 발전과 정책 방향을 논의하기 위한 민관 협력의 장으로 2011년 시작되어 2013년 ‘농림식품산업 미래창조포럼’으로 확대 개편된 이후 2017년 ‘미래성장포럼’으로 명칭이 변경되었다. 본 포럼의 주요 기능은 농림식품산업과 관련된 미래 전략 수립, 연구개발 정책 방향 제시, 주요 이슈 발굴 및 융합기술 활용 방안 모색 등이다. 연 2~4회 개최되는 포럼에서는 식량안보, 탄소중립, 바이오산업, 디지털농업 등 시의성 있는 주제를 중심으로 전문가 발표와 종합토론이 이루어진다(STCA, 2025). 본 연구에서는 미래성장포럼에서 2011년부터 2025년까지 발표된 포럼 주제를 분석 대상으로 삼았다. 최종적으로 미래성장포럼(STCA)의 포럼 주제 데이터는 2011년부터 2025년까지 15년간 추진된 총 173건을 확보하였다.
2.3 분석 방법
R&D 제목과 주제 데이터를 Microsoft Excel 2016을 사용하여 정리하였으며 데이터 분석은 Python 3.11 기반의 Jupyter Notebook 환경에서 수행하였다. 텍스트 데이터 전처리 및 토픽 모델링 분석을 위해 pandas, KoNLPy, PyKoSpacing, Gensim 등 주요 라이브러리를 활용하였으며 분석과 결과의 시각화를 위해 matplotlib 및 pyLDAvis를 함께 사용하였다.
LDA 기반 토픽 모델링 수행을 위한 데이터 분석 절차는 <Figure 1>과 같다. 데이터는 역대 보고서를 수집한 후 연구 과제 제목을 엑셀 파일에 raw data로 입력하였다. 데이터 전처리를 위하여 데이터의 결측값과 공백 셀은 제거하여 유효한 텍스트 만을 선별한 이후, 먼저 특수문자와 숫자 등 분석에 불필요한 문자를 제거하였다. 이어서 Lee et al.(2021)이 온라인 소셜미디어 데이터를 대상으로 적용한 것과 같이 자동 띄어쓰기 라이브러리 PyKoSpacing을 활용하여 문장의 띄어쓰기 오류를 보정하였다. 이후 한국어 문장을 형태소 단위로 분리하고 품사를 태깅할 수 있는 도구인 KoNLPy의 Okt(Open Korean Text) 형태소 분석기(Kim and Yu, 2022)를 활용해 명사 만을 추출하였다. 추출된 토큰 중에서 '곰팡이 독소', '유해 물질', '원산지 검정법' 과 같이 의미 단위가 분리되지 않아야 하는 단어에 대해서는 복합명사 형태로 병합하여 의미를 보존하였다. 불용어와 의미 없는 한 글자 단어를 제거하고 '연구', '개발', '조사', '분석', '시험' 등 연구 제목에서 반복적으로 등장하는 행위형 명사를 제거한 후 분석에 적합한 명사 리스트를 구축하여 전처리를 완료하였다.
텍스트 데이터를 LDA에 적합하게 활용하기 위해서는 특징 추출을 위한 수치화(벡터화) 과정이 선행되어야 한다. 본 연구는 Python Gensim 라이브러리의 Dictionary 및 Corpus 구조를 채택하여, 각 문서를 단어와 해당 단어의 출현 빈도를 짝지은 리스트 형태로 변환함으로써 LDA 모델의 입력 구조에 최적화된 방식을 구현하였다. 이는 Scikit-learn의 기본적인 벡터화 기법인 CountVectorizer나 TfidfVectorizer보다 LDA와의 호환성이 높아 효율적인 것으로 보고된 바 있다(Rehurek and Sojka, 2010).
다음으로 토픽 모델링(Topic Modeling)을 통해 문서 집합에 내재된 주제를 비지도 학습 방식으로 분석하였다. 이때 적용한 알고리즘은 Blei et al.(2003)이 제안한 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)으로 각 문서를 다수의 토픽 분포로, 각 토픽은 단어의 확률 분포로 표현함으로써 문서 집합의 의미적 구조를 효과적으로 모델링하는 기법이다. <Figure 2>는 Blei(2012)가 제안한 LDA 모델 구조를 도식화한 것으로, 전체 문서 수(D), 각 문서의 단어 수(N), 토픽 수(K), 문서-토픽 분포(θ), 토픽-단어 분포(φ), 각 단어의 토픽(Z), 실제 단어(W) 간의 관계를 보여준다. 이때 θ는 α(알파) 매개변수를 갖는 Dirichlet 분포에서 추출되며, 이는 문서별로 어떤 토픽이 얼마나 분포하는지를 결정한다. 마찬가지로 φ는 β(베타) 매개변수를 갖는 Dirichlet 분포에서 추출되어 각 토픽이 특정 단어를 선택할 확률을 정의한다. 각 단어는 먼저 Z를 통해 토픽이 선택되고, 이후 해당 토픽의 φ에 따라 실제 단어 W가 생성된다. 여기서 W는 모델에서 직접 관측 가능한 유일한 변수로 나머지 θ, φ, Z는 잠재 변수(latent variables)로부터 추론 과정을 통해 얻어진다. 하이퍼파라미터 α와 β는 기존 문헌인 Cui and Jung(2023), Blei et al.(2003) 등에서 설명하는 α와 β 범위를 참고하였고, 본 데이터의 특성이 과제명과 정책 주제 등 짧은 텍스트 중심임을 고려하여 여러 값을 비교하고 가장 안정적인 토픽 분포를 보여준 α=0.05, β=0.01을 설정 값으로 채택하였다. 토픽 모델링에서는 최적의 토픽 수(K)를 결정하기 위해 Coherence Score(일관성 점수)와 Perplexity 값을 활용하였다. Coherence Score산출에는 Cui and Jung(2023)이 활용한 Python Gensim 라이브러리의 CoherenceModel을 적용했다. Coherence Score는 각 토픽 내 단어 간 의미적 일관성을 평가하며, Perplexity는 모델이 전체 문서를 얼마나 잘 예측하는지 측정하는 지표이다.
그리고 pyLDAvis 패키지를 활용하여 LDA 토픽 모델링의 결과를 직관적으로 해석하고 토픽 간 관계를 시각적으로 확인하였다. pyLDAvis는 LDA 모델의 학습 결과를 시각적으로 해석하기 위한 Python 라이브러리로 Sievert and Shirley(2014)는 각 토픽의 특성과 토픽 간 차이를 전체적으로 조망하는 동시에 개별 토픽과 가장 밀접하게 연관된 용어를 심층적으로 분석할 수 있는 시각화 모델을 제안하였다. 또한 연구기관과 정책 포럼 간 토픽별 연구 흐름을 직관적으로 비교하기 위해 Sankey Diagram을 활용하여 각 주체가 집중하는 연구 영역의 차이를 확인하였으며 아울러 BERTopic 기반 계층적 클러스터링을 적용함으로써 서로 다른 분석 기법에 따른 데이터 분석 결과를 비교하여 데이터 분석 결과의 신뢰성을 강화하고자 하였다.
3. 기초 데이터 분석 결과
3.1 농산물 연구사업 데이터 자료 분석
농산물 품질 연구사업 데이터 총 942건을 분석한 결과, 1970~2000년대까지는 연 평균 약 10건 내외로 유지되다가, 2010년 이후 급격히 증가하여 2015년에 42건으로 정점을 찍는 등 뚜렷한 증가 추세를 나타내었다. 농식품부 미래성장 포럼 주제는 2011년을 시작으로 연평균 11.5건 수준을 유지하며 비교적 안정적인 규모로 정책 포럼이 개최되고 있다.
이러한 연도별 과제와 발표 건수의 흐름을 <Figure 3>과 같이 시각화하였으며, 두 주체에 따라 자료 수집 및 정책·연구 활동의 주기적 차이가 존재함을 확인할 수 있다. 특히, 두 주체의 데이터는 수집 기간에서 차이를 보이기 때문에 동일한 분석 기준으로 비교하거나 일관된 추세를 도출하기에는 한계점이 존재한다. 따라서 제 3장에서는 농산물 품질 연구사업 데이터 전체 기간을 대상으로 연구 주제의 흐름을 분석하고 다음 장에서 두 주체의 데이터가 같이 존재하는 기간인 2011년부터 2025년까지에 대한 연구동향을 비교 분석하였다.
농산물 품질 연구사업에 대한 토픽 모델링을 수행한 결과, ‘조사’(326회), ‘연구’(289회), ‘분석’(239회) 등의 단어가 가장 빈번하게 200회 이상 등장함을 확인할 수 있었다. 이러한 단어들은 모두 연구개발 활동의 기초를 이루는 핵심 행위를 나타내는 용어로서 해당 데이터가 주로 농산물 분야의 연구 과제 제목이나 이슈 주제로 구성되어 있다는 점을 알 수 있었다. 그 다음으로 ‘개발’(172회), ‘시험’(123회), ‘원산지’(112회), ‘방법’(111회), ‘이용’(110회) 등의 단어 순으로 100회 이상 빈번하게 나타났으며 이는 현장업무 활용을 목적으로 연구사업을 수행함에 따른 자연스럽고도 의미 있는 결과로 해석된다. 다시 말해, 해당 키워드의 높은 출현 빈도는 연구개발 활동의 목적과 과정을 직접적으로 반영하는 언어적 특성에 기인한 것으로 판단되며, 이는 이후 수행될 토픽 모델링에서도 이들 단어가 중심 주제로 형성될 가능성을 시사한다.
3.2 농산물 품질관리 연구 토픽 모델링
토픽 수(K)를 결정하기 위해 2부터 7까지 다양한 토픽 수에 대해 LDA 모델을 학습하고, 각 토픽 수에 대한 Coherence Score와 Perplexity를 함께 평가하였다. 그 결과, K=4일 때 Coherence Score가 가장 높게 나타났으며, Perplexity는 K=2에서 가장 낮게 나타나 두 방법 간의 토픽 수에서 다소 차이가 있음을 보여준다. 이는 토픽 수가 적을수록 모델의 예측력은 높아지지만 주제 간 구분이 모호해질 수 있음을 의미하며, 반대로 토픽 수가 증가할수록 주제의 의미적 일관성이 향상됨을 시사한다. 또한 pyLDAvis 시각화를 통해 K=4의 4개 토픽은 서로 명확히 분리되어 분포하고 있어 토픽 간 독립성과 고유성이 유지됨을 확인할 수 있었다. 이러한 Coherence Score, Perplexity, pyLDAvis 시각화 결과를 종합하여 의미 있는 주제 구조 해석에 초점을 두고 농산물 품질 연구사업에 대한 LDA 모델 토픽 수를 4개로 설정하였다.
LDA 토픽 모델링 결과 총 4개의 토픽과 키워드들이 <Table 1>과 같이 도출되었으며, 각 토픽은 농산물 안전 품질 분야 연구의 주요 이슈를 반영하는 것으로 나타났다. 다만, 2020년 이후 ‘컬러 및 초분광 드론을 이용한 작물 판독 기술 고도화’ 연구에서 ‘드론’ 키워드가 3년간 지속적으로 나타났으며, ‘빅데이터 분석을 통한 잔류농약 부적합 요인 예측 연구’에서 ‘빅데이터 분석’ 키워드, ‘농산물 안전관리 정책수립 지원을 위한 데이터 분석 및 시각화 연구’에서 ‘데이터 분석’, ‘시각화’ 키워드가 2년간 관찰되는 등 최근 새롭게 부상하는 연구 분야는 상대적으로 출현 빈도가 낮아 본 토픽 및 키워드 분석에서 상위 키워드로는 뚜렷하게 부각되지 않았다. 이는 해당 주제가 기존 연구와는 다소 다르게 빅데이터를 기반으로 한 연구 방향성을 지니고 있어 아직까지는 신기술 개발 및 빅데이터 분석과 관계된 연구 데이터 축적이 충분히 이루어지지 않았기 때문으로 해석될 수 있다. 그러나 농업·식품 분야의 디지털 전환과 스마트농업 확산이 본격화됨에 따라 이러한 연구들이 향후 농산물 품질과 안전 연구에서 중요한 연구 축으로 자리잡을 가능성이 크며 중장기적으로는 핵심 주제로 발전할 것으로 전망된다.
시계열에 따른 키워드의 상대적 출현 빈도와 변화 양상을 직관적으로 파악하기 위해 각 키워드의 연도별 변화를 분석하였다. 시계열 분석 결과, R&D 활동 내에서 주제의 초점이 ‘조사’에서 ‘연구’로 이동하고 있음을 알 수 있었다. Table 1에서 토픽 1의 ‘분석’, ‘연구’, ‘개발’ 등의 항목은 2010년 이후 활발히 다루어지며 빈도가 증가하는 경향을 보였으며, 특히 전(全) 연도에 걸쳐 공통적으로 등장하는 핵심 용어인 ‘연구’는 시간이 지남에 따라 점차 빈도가 증가하는 경향을 보이는 반면, ‘조사’는 상대적으로 빈도가 감소하는 양상을 보였다. 이는 농업 환경의 변화에 따라 신규 유해물질 등장, 분석 건수가 증가하는 등의 실태를 반영한 결과로 사료된다. 이러한 연도별 분석 결과는 단순한 키워드 분포를 넘어 농관원 시험연구소의 연구 업무가 농식품 안전 관리의 발전 단계를 따라 시대적 요구와 환경 변화에 맞추어 어떻게 발전해 왔는지를 보여준다. 특히, 기관 설립부터 PLS(Positive List System) 도입, 분석법 고도화에 이르는 제도적 법적 변화와 환경변화가 연구 주제의 방향과 성격을 결정하는 주요 요인임을 알 수 있다. 이는 곧 농산물 안전성과 품질 관리 연구가 국가적 정책 방향과 긴밀히 맞물려 발전해 왔음을 시사한다.
한편, 지금까지 연구에서 나타난 ‘조사’, ‘연구’, ‘분석’, ‘시험’ 등과 같은 행위형 명사는 문서의 핵심 주제를 직접적으로 설명하기보다는 연구 행위나 절차를 나타내는 기능적 단어이기에 토픽 해석의 정확성을 저해할 수 있다고 판단하였다. 이러한 단어들은 문맥상 ‘무엇을 조사하였다’나 ‘무엇을 연구하였다’와 같은 행위 기술을 이루지만 실제 주제적 의미를 형성하는 것은 ‘무엇’에 해당하는 대상이다. 이는 Klavans and Kan(1998)의 주장처럼, 텍스트에서 행위(동사)는 사건 중심의 의미 흐름을, 대상(명사)은 개념적 지식적 구조를 드러낸다는 언어학적 근거에 기반한다. 이러한 관점에서 행위형 명사를 제외하고 분석을 수행한 결과, 연구의 실제 대상이나 핵심 주제를 직접적으로 나타내는 대상형 명사들이 주요 키워드로 부각되었다. 이는 텍스트의 의미 초점이 행위나 절차보다 연구 대상 중심으로 재편된 결과로 해석된다. 행위형 명사를 제외한 후 토픽 수 변화<Figure 4>를 분석한 결과, Coherence Score와 Perplexity 값을 통하여 기존 4개의 토픽이 2개로 재구조화 되는 것을 확인하였다. 이는 행위 중심의 일반적 표현이 제거되면서 유사 주제가 통합되고 의미적으로 밀접한 키워드들이 하나의 주제 내에서 더 명확히 응집된 결과로 해석된다.
행위형 명사를 제거한 경우 토픽별 주요 키워드 <Table 2>의 연도별 트렌드 변화를 살펴본 결과 <Figure 5>와 같이 ‘자료’, ‘검사 규격’, ‘잔류’와 곡식 저장의 의미를 가지는 ‘저곡’ 등의 키워드를 가지는 토픽 0는 전반적으로 감소세를 보였으며 ‘원산지’, ‘판별’, ‘농산물’ 등의 키워드를 중심으로 한 토픽 1은 점차 증가하는 경향을 나타내었다. 이러한 변화는 특정 시점 이후 국민 관심이 단순한 식량 확보에서 안전하고 신뢰할 수 있는 식품 소비로 이동했음을 반영하며, 국내 식생활 트렌드가 점차 안전성과 품질 중심으로 전환되고 있음을 시사한다. 또한 이러한 경향은 글로벌 수준에서도 식품 안전과 지속가능성을 중시하는 추세와 같이하고 있다. 정리해보면, 행위형 명사를 제거한 경우 토픽 간의 구분이 명확해지고 각 토픽의 핵심어가 실제 연구 분야의 주요 대상을 중심으로 수렴하는 경향이 나타났다. 이러한 결과는 토픽 모델이 단순한 어휘 빈도 분석을 넘어 대상 중심의 의미 구조를 반영하는 방향으로 확장될 수 있음을 시사한다. 본 연구에서의 이러한 접근은 단순한 단어 빈도 분석을 넘어 연구 주제 간 의미적 관계를 반영하는 방향으로 토픽 해석을 시도했다는 점에서 방법론적 의의를 갖는다.
4. 최신 연구 동향과의 비교 분석
농산물 안전 품질 연구를 기술적 정책적 동향과 비교하기 위하여 2011년부터 2025년까지 수행한 농산물 품질 연구사업 399개 과제와 농식품부 미래성장 포럼 주제 173개 과제를 활용하여 두 주체간 행위형 명사를 제외한 R&D 주제를 비교·분석하였다. K값이 4~5인 경우 Coherence Score가 유사한 수준을 보였으나 K=5에서 가장 높은 값을 나타내고 Perplexity 값 또한 K=5에서 가장 낮아 모델의 예측 성능 또한 향상된 것을 보여준다<Figure 6>. 이는 데이터 내 주요 주제 구조가 비교적 응집된 형태를 이루고 있어 K값이 2~3일 때는 주제 구조가 지나치게 단순화되어 세부 주제의 분화가 충분하지 않고 K값이 4~5로 증가하면서 세부 주제 간의 구조가 안정적으로 구분되어 최종적으로 K=5에서 가장 높은 일관성을 확보한 것으로 해석된다. 즉, 농산물 품질 연구사업 단독 분석에서는 2개 토픽이 도출되었으나 통합 분석에서는 연구 주제의 세분화와 구조적 다양성을 반영한 5개 토픽으로 확장된 것이다.
pyLDAvis를 활용한 데이터 시각화 결과 <Figure 7>에서 각 토픽의 연관과 분포를 확인할 수 있다. 이러한 차이는 미래성장 포럼의 분석 대상이 산업, 정책, 전략, 미래 전망 등 상대적으로 다양한 주제를 포함하고 있기 때문에 나타난 결과로 사료된다. 그 결과, 단독 분석에서 하나의 큰 주제로 포괄되었던 키워드들이 통합 분석에서는 보다 세분화되어 독립적인 토픽으로 부각된 것으로 해석할 수 있다.
결정된 5개의 토픽을 대상으로 도출된 토픽 별 상위 키워드를 <Table 3>에 제시하였으며 이를 통해 연구기관과 정책 포럼 간 중점적으로 다루는 연구 영역과 관심 분야의 차이를 파악할 수 있다. 또한, <Figure 6>에서 Coherence Score가 4와 5로 유사하게 나타난 점과 <Figure 7>에서 토픽 1과 3이 일부 중복되는 양상은 토픽 별 상위 키워드에서도 확인되었다. 특히 ‘원산지’, ‘판별’, ‘검정’ 세 단어가 공통적으로 등장하는데 이는 기초적인 연구 단계에서 구별 및 식별 모형을 개발할 때 사용되는 용어인 ‘판별’과 의뢰되는 시료에 대한 수치적 결과를 도출하는 ‘검정’이 원산지 관련 업무 수행에서 중요한 비중을 차지하기 때문으로 판단된다. 이러한 점을 종합하면, 5개의 토픽 중 일부를 통합하여 4개의 토픽으로 분석을 수행해도 무리가 없을 것으로 보인다.
<Table 3>의 probability는 특정 토픽에서 해당 단어가 나타날 확률을 의미하며 각 토픽은 전체 단어에 대한 확률 분포를 가진다. ‘농산물’의 경우 토픽 0에서 0.021, 토픽 1에서 0.021, 토픽3은 0.024 값을 가지며 이는 특정 토픽에서 해당 단어가 나타날 확률이 각각 2.1%, 2.1%, 2.4%이다. 또한 각 토픽에 대한 주체별 기여도 분포를 <Figure 8>과 같이 시각화하여 비교한 결과, 토픽 4는 미래성장 포럼에서 상대적으로 높은 수준을 보였으며 토픽 0, 1, 2, 3은 농산물 품질 연구사업에서 더 높은 수준을 나타냈다.
<Figure 9>에 제시된 Sankey Diagram 시각화 결과에서 연구기관과 정책 포럼 간 토픽 별 연구 흐름의 뚜렷한 차이가 확인되었다. ‘농업’, ‘식품’, ‘기술’ 등의 키워드를 중심으로 하는 토픽 4는 미래성장 포럼에서 상대적으로 높은 비중을 차지하는 것으로 분석되었다. 반면, ‘잔류’, ‘농약’, ‘성분’ 등과 관련된 토픽 0과 ‘원산지’, ‘판별’, ‘검정’ 키워드가 포함된 토픽 1에서는 농산물 품질 연구사업의 비중이 상대적으로 높게 나타났다. 이러한 결과는 두 주체가 중점적으로 다루는 연구 주제와 관심 분야에 차별화된 특성이 있음을 보여주며 각 주체의 연구 방향성과 연구 관심사의 차이를 파악할 수 있는 근거 자료가 될 것이다.
본 연구에서는 보완적으로 LDA 기반 토픽 모델링 결과의 신뢰성을 검증하기 위해 문맥 정보를 활용하는 BERTopic 기반 모델링을 추가적으로 시도하였고, 그 결과를 <Figure 10>에 시각화하였다. 특히, 계층적 클러스터링 결과에서 X축의 값은 토픽 간의 분리 정도를 나타내며 값이 높을수록 상이한 주제군으로 분리됨을 의미한다. BERTopic 분석 결과를 살펴보면 약 0.9 지점에서 미래성장포럼 관련 주제군과 농관원 시험연구소 관련 주제군이 명확히 구분되었고 이는 두 그룹이 상호 독립적인 연구 관심사와 주제적 특성을 지니고 있음을 의미한다. 이를 통해 선행연구에서 활용된 BERTopic 기반 텍스트 분석이 연구 영역 간의 주제 차이를 파악할 수 있는 분석 방법이 될 수 있음을 확인하였다. 본 연구는 기본적으로 LDA에 기반한 토픽 모델링을 중점적으로 살펴보았지만 향후에는 BERTopic 기반 모델링도 데이터 분석 전반에 적용해 볼 필요가 있을 것으로 사료된다.
5. 결론
본 연구에서는 국립농산물품질관리원(NAQS)의 연구개발 과제와 미래성장포럼(STCA)의 정책 주제 데이터를 통합하고, LDA 기반 토픽 모델링을 적용하여 농식품 분야의 장기적인 연구 흐름과 시계열적 변화를 분석하였다. 정량적 실적 중심 분석에서 벗어나 비정형 텍스트 데이터를 활용함으로써 주제 간 의미 분포와 정책 기술 이슈의 변화를 체계적으로 분석하는 새로운 방법론적 접근을 시도하였다.
분석 결과, 두 주체의 데이터 통합을 통해 농산물 품질 연구사업 단독 분석에서 드러나지 않았던 정책 산업 미래 전략 등의 다층적인 연구 맥락이 명확하게 포착되었다. 특히, 토픽별 키워드 시각화를 종합해보면 두 주체의 역할이 농산물 관리 현장의 실용적 기술 개발 연구와 중장기 정책 중심 활동으로 명확히 분화됨을 확인하였다. 이는 두 주체의 상호 보완을 통해 현장 중심 연구와 미래지향적 연구가 함께 고려될 수 있음을 시사한다. 즉 서로 다른 성격의 데이터를 통합하여 농식품 R&D 주제 변화와 주체 간 역할 분화를 분석한 실증적 사례로서 큰 의의가 있다. 이러한 통합 분석은 단순한 현황 파악을 넘어, 연구와 정책의 접점을 규명하고 농식품 R&D의 미래 연구 방향과 전략 수립을 위한 기초 자료로 활용될 수 있다. 최근 농산물 품질 관리를 위한 R&D 환경 변화를 고려할 때, 본 연구의 결과는 정책 및 연구 기획자에게 협력 촉진 프로그램 설계, 연구 자원 배분 우선순위 설정, 그리고 혁신 중심의 과제 발굴 등 구체적인 시사점을 제공할 수 있다. 첫째, 농식품 정책 아젠다와 현장의 문제해결을 위한 기술 개발을 연계하는 협력형 R&D 포트폴리오를 구축할 수 있다. 둘째, 연구 자원의 우선순위를 농식품 현장의 기술 수요와 정책 수요를 반영함으로써 현장 연구 비율과 정책 지원 연구 비율을 조정하는 등 전략적으로 자원을 투입하게 할 수 있다. 또한 이를 통해 연구 예산의 효율적인 활용을 기대할 수 있을 것이다. 셋째, 현장 검정과 단속 중심의 전통적인 분석법 개발 연구 이외에 미래 전략 분야(예: 데이터, AI 기반 농산물 안전 및 품질 관리)에 대한 과제 발굴을 지원할 수 있다. 과제 발굴 시 최신 연구 트렌드를 접목함으로써 농산물 안전과 품질 관리를 위한 현장 검정 업무를 효율화 하고, 데이터 분석과 같은 정책 수립 지원 연구를 활성화시킬 수 있을 것으로 기대된다.
다만, 본 연구가 제목 데이터만을 활용함에 따라 세부 내용의 맥락적 정보가 일부 반영되지 않았을 가능성은 한계로 남는다. 그러나 제목이 연구 주제의 초점을 가장 명확히 드러낸다는 점에서 주제 간 상관성과 변화 흐름 탐지에는 충분한 타당성을 갖는다. 향후 연구에서는 초록 또는 주요 키워드 영역을 병행 분석하여 연구 결과를 보완 확장해 갈 필요성이 있다. 나아가, 농업 혁신 주체들 간의 연결고리와 결속 관계가 혁신 확산에 미치는 영향을 분석하는 소셜 네트워크 연구(Tombe and Smuts, 2023) 등을 시도한다면 보다 정밀하고 전략적인 R&D 과제 기획이 가능할 것으로 기대된다. 또한, 본 연구의 텍스트 마이닝 기법은 농산물 외 타 분야 연구 동향 분석에도 확장 적용될 수 있을 것이다.












