인공지능 기반 지능형 함정 전투체계를 위한 학습용 데이터 품질 향상 연구

A Study on Improvement of Training Data Quality Management for AI-based Intelligent Naval Combat Management System

Article information

J Korean Soc Qual Manag. 2026;54(1):1-27
Publication date (electronic) : 2026 March 31
doi : https://doi.org/10.7469/JKSQM.2026.54.1.1
*Hanwha Systems, AI Team
**Hanwha Systems, R&D Quality Assurance Team
김현모*, 장원석*, 윤지석*, 박주미*, 문우현*, 이서호*, 허형조**,
*한화시스템 AI팀
**한화시스템 개발품보팀
Corresponding Author(welchs@naver.com)
Received 2025 November 4; Revised 2025 December 4; Accepted 2025 December 19.

Trans Abstract

Purpose

The purpose of this study was to suggest the metrics that manage the quality of train datasets for artificial intelligence in order to support quality management activities of intelligent naval combat management system. Furthermore, the study demonstrates how enhancing datasets can lead to measurable improvements in artificial intelligence performance based on the proposed metrics. It involves observing how quality control on the evaluated dataset relates to the performance of artificial intelligence.

Methods

Practical datasets mimicking data structure of naval combat management system were constructed to reflect operational contexts of intelligent naval combat systems. The proposed 17 metrics for managing dataset quality were applied to these datasets for quantitative evaluation, called operation definition.

Results

The metrics quantified key quality attributes of the training datasets for intelligent combat system. By using different quality datasets, we conducted metric-based and AI model-based experiments and found that the metrics are suitable for naval combat system applications. According to the two types of experiments, it was found that the model trained using a high-quality dataset demonstrated superior performance compared to the model trained on a low-quality one. Overall, these results support the possibility of applying our framework to real-world defense scenarios.

Conclusion

Through the quality management activities considering the functions of AI-centric weapon system, it becomes possible to ensure data-level quality control that supports the stable operation of key functions within AI-based intelligent naval combat systems.

1. 서 론

국내에서는 범정부 차원의 데이터 중심 행정 구현을 위해 공공데이터의 품질 향상과 인공지능 기반 활용 확대를 주요한 정책 방향으로 설정한 바있다. 더불어 4차 산업혁명으로 사물인터넷(IoT), 빅데이터(Big Data), 로봇(Robot), 특히 인공지능과 같은 최첨단 신기술의 등장은 주된 연구 분야로 자리잡았다. 그 중 인공지능은 최근 가장 각광받는 기술이며, 민간 뿐만 아니라 국방에서도 이를 활용하여 디지털 전환(DX)을 넘어 인공지능 전환(AX)을 위한 다양한 기초연구가 수행되고 있다. 인공지능은 국방에서는 무기체계의 성능과 미래강군 육성을 위한 효과적인 기반 기술로 자리잡고 있다. 기존의 규칙 기반 시스템보다 높은 유연성을 갖는 것은 분명한 강점이나, 특히 군 내의 병력감축 문제와 무인체계, 유·무인 복합체계, 드론체계 등 고차원의 복잡한 미래전장에 대비하기 위한 핵심기술로 손 꼽히고 있다. 『123대 국정과제』 국정목표에 따르면, 국방AI 첨단기술 활용을 위하여 국방 데이터 관리 체계의 개선에 대해 언급된 바 있으며, 국방부 주관 수립된 『국방전략서』 하위의 『국방혁신 4.0』 내 AI 과학기술강군 육성 목표 강조는 정부와 관계없이 인공지능과 데이터의 중요성을 시사하고 있다. 국방부 및 방사청은 주변국 대비 부족한 기술력을 확보하기 위하여 『국방과학기술혁신 기본계획(2023)』의 추진계획에서 미래전장 대비 첨단기술 분야에 집중 투자하는 전략을 계획하였다. 이에 따라, 2027년까지 인공지능과 빅데이터에 대한 연구개발이 활발하게 수행될 것으로 예상된다.

인공지능은 관점에 따라 규칙 기반의 전문가 시스템부터 생성형 AI에 이르기까지 폭넓은 스펙트럼을 갖는다. 기계 학습은 대량의 데이터를 요구하는 급격하게 발전하고 있는 기술 중 하나이다. 기계학습은 복잡한 데이터로부터 발견된 패턴과 규칙을 학습하여 명시된 지시가 없이도 새로운 상황에 대하여 스스로 일반화하는 능력을 갖는다. 이러한 강점으로 예측(Lee et al., 2025), 탐지(Jung et al., 2025), 생성(Park et al., 2024) 등과 같은 다양한 분야에서 연구되어 왔다. 지도학습은 입력과 이에 상응하는 정답을 함께 포함하는 ‘데이터셋(Dataset)’을 인공지능 모델에 학습시킴으로써 입력과 정답 간의 관계를 함수화하는 방법을 말한다. 이러한 특징으로 무기체계 혹은 전력지원체계(Hong et al., 2025)의 기존 시스템 고도화나 새로운 시스템의 개발 시 설계에 따라 지능화 요소들이 다양하다고 할 수 있다. 함정 전투체계는 해양 무기체계 중 하나로써, 표적의 탐지부터 적과의 교전까지의 일련의 절차를 효과적으로 수행하기 위한 센서와 무장 기반의 통합시스템으로써 인공지능 기술을 적용한 다양한 교전 알고리즘들이 연구되어 왔다(Baek et al., 2023; Shin et al., 2025).

전술한 바와 같이, 국방정책과 최근 연구 동향에 따라 국방 분야에서는 복잡한 전장 환경과 빠른 의사결정이 요구되는 상황에서 데이터 기반 인공지능 기술 적용이 전투체계의 지능화와 자동화에 결정적인 기여를 할 것으로 예상된다. 따라서, 대량의 정형 데이터와 비정형 데이터가 실시간으로 발생할 것이며 이에 대한 체계적이고 명확한 관리가 필요하다. 지능형 함정 전투체계는 다양한 센서와 무기 시스템의 통합 운용을 통해 고속·고정밀의 전투 수행을 가능하게 하며, 이를 위한 인공지능 학습에는 고품질의 데이터셋이 필수적이다. 그러나, 함정 전투체계에서 활용되는 실험용 시나리오 기반 모의데이터나 훈련 및 전투간 수집되는 실전장 데이터는 정형·비정형 형태로 다양하게 존재하며, 이를 위한 체계적인 품질 관리 기준은 아직 미흡한 실정이다. 수집된 학습용 데이터가 부정확하거나 불완전할 경우, 인공지능 모델의 신뢰성을 저해하므로 전투체계 데이터에 대한 명확한 품질 관리 기준이 필요하며, 이러한 이유로, 일부 연구에서는 프레임워크 제안과 가이드라인을 제시하였으나 국방 도메인의 특성에 맞춘 최신의 기법이 요구되거나 함정 전투체계의 정형 및 비정형 데이터 품질 관리를 위한 지표가 추가적으로 필요하다. 본 연구는 인공지능 기술이 적용된 지능형 함정 전투체계 데이터 기반의 학습용 데이터셋에 대한 품질 관리를 위한 지표를 제안하며 실험을 통한 그 효과를 입증하고자 한다. 본 연구의 기여는 다음과 같이 세 가지로 요약된다.

(1) 미래 전장을 고려한 인공지능 기반 지능형 함정 전투체계의 기능을 정의하고, 모델 학습 시 요구되는 데이터셋의 품질 관리를 위한 대상 데이터를 정의한다.

(2) 지능형 함정 전투체계를 고려한 인공지능 학습용 데이터의 품질 관리 지표 17개와 측정을 위한 운영정의를 제안한다.

(3) 수상함 교전 절차 중 핵심 절차를 선정하여, 이를 위한 학습용 데이터셋을 대상으로 제안된 지표 기반의 실험을 수행하고, 대표적인 회귀모델의 성능 실험을 통하여 저품질 및 고품질 학습용 데이터셋이 모델의 성능에 미치는 영향을 확인한다.

본 절 이후의 절에서는 다음과 같이 논문이 구성된다. 2절에서는 이론 및 연구 배경에 대한 사전지식과 관련 선행 연구가 설명된다. 3절은 본 연구의 제안 내용을 포함하며, 기존 연구와의 차이점이 기술된다. 품질 관리 지표와 더불어 널리 활용되는 모델을 선정하여 서로 다른 품질의 데이터셋을 실험한 결과가 4절에 나타난다. 마지막으로, 본 연구의 한계와 향후 연구에 대한 고무적 시각이 결론에 서술된다.

2. 배경 및 관련 연구

2.1 국방혁신 4.0

2.1.1 해군 군사혁신

2023년 3월 국방부는 정부 및 군 주요 기관의 심의를 통해 ‘국방혁신 4.0 기본계획’과 AI과학기술강군 육성 목표를 발표하였다. 그간 국방 개혁은 변화하는 정세에 발맞추어 수차례의 수정이 있었으나, 최근 군은 신기술 중심의 산업구조 변화와 국외 전쟁 사례 분석을 통해 인공지능 중심의 첨단전력확보와 미래 전장에 대응하고자 노력하고 있다. 대한민국 해군은 ‘해군 비전 2045’를 중심으로 미래 해양작전환경에 대응하기 위한 군사혁신을 본격화하고 있다. 유·무인 복합전력 확보, 인공지능 기반 지휘통제체계 구축 등이 그 예이다. 한편, 함정 전투체계는 해군의 핵심 무기체계 중 하나로 무장, 통신, 및 지휘통제 기능을 통합하여 공중, 수중, 해상의 위협에 대응하기 위한 시스템이다. 특히, 수상함의 경우 센서 체계를 통한 표적 획득과 탑재된 무장을 활용한 위협 대응까지 일련의 교전 절차를 내재하고 있다. 최근, 군사혁신에 발맞추어 예상되는 해군의 소요를 해소하기 위해 전투체계에 적용 가능한 다양한 인공지능 기술이 연구되고 있며, 이에 따라 인공지능 기술 적용을 위한 체계 내 다양한 형태의 데이터를 효율적으로 관리하고 훈련 및 추론을 위한 데이터셋 구축 기술이 요구된다. 본 논문은 함정 전투체계의 지능화를 위한 함 내에 탑재된 다양한 센서 및 무장 간 연동데이터에 초점을 맞추고 있다. 이러한 군사혁신은 단순히 전력 증강에 그치지 않고, 무기체계의 신뢰성과 성능을 위하여 품질 관리와도 밀접하게 연계될 필요가 있다.

2.1.2 국방품질 4.0

국방혁신 4.0에 기반한 해군의 군사혁신과 더불어, 국방의 품질 분야에서도 첨단 기술에 발맞춘 목표를 제시하였다. 국방 분야에서 무기체계는 점차 첨단기술을 기반으로 지능화되고 있음에 따라 품질 분야에서도 ‘국방품질 4.0’이라 불리는 새로운 개념이 등장하였다. 2022년 9월 국방기술품질원은 국방품질 종합학술대회와 12월 국방품질 4.0 포럼에서 국방혁신 4.0 시대 국방품질의 발전방향을 모색하였다. 품질 4.0(Seo et al., 2021)은 본래 4차 산업혁명 기술을 활용한 효율적인 공정 관리에 그 핵심을 담고 있으나, 국방분야의 군수품 품질관리 특성을 고려하여 국방품질 4.0의 개념이 등장하였다. 국방품질 4.0은 데이터 기반의 예측 및 진단 활동이라는 점에서 데이터 기반의 학습, 추론, 배포, 운영 측면이 주요한 관심사인 인공지능 기술과 밀접한 관련이 있다고 할 수 있다. 특히, 지능형 함정 전투체계의 인공지능 기능은 고품질 데이터셋에 의존하며, 데이터의 품질 저하는 곧 전술적 의사결정의 결함으로 작용될 수 있다. 최근에는 4차 산업혁명 기술에 대비하여 국방에서 효과적인 품질 관리를 위한 다양한 접근 방법이 연구되고 있다(Huh et al., 2023, Huh et al., 2025).

2.2 기계학습

2.2.1 회귀와 분류 과업

기계학습은 명시적인 규칙 없이 데이터로부터 패턴을 학습하여 의사결정을 수행하는 인공지능의 핵심 분야로, 지도학습, 비지도학습, 강화학습으로 구분된다. 본 연구에서는 지도학습의 두 주요 과제인 회귀와 분류 과업을 위한 데이터 품질 관리 방안을 다루며, 본 절에서는 데이터셋을 통한 추론 기능 구현에 활용 가능한 선형 모델부터 최신 딥러닝 아키텍처까지 다양한 알고리즘의 특성을 비교 분석한다.

회귀 모델은 독립변수와 종속변수 간의 관계를 정량적으로 모델링하여 연속적인 수치 값을 추론하는 지도학습 기반의 방법론이다. 입력 특징 벡터 x∈ℝd 가주어졌을 때, 연속적인 목표 변수 y∈ℝd 를 추정하기 위한 함수 f : ℝd → ℝ 를 학습한다. 전통적인 선형 회귀에서부터 비선형 관계 학습을 위한 심층 신경망에 이르기까지, 회귀 모델은 다양한 복잡도 수준에서 설계가 가능하기 때문에, 금융 분야의 주가예측, 부동산 가격 추정, 의료 분야의 환자 예후 예측 등 다양한 분야에서 활용된다. 회귀 모델의 핵심 과제는 과적합(overfitting)을 방지하면서 데이터의 기저 패턴을 정확하게 포착하는 것이며, 이를 위해 정규화, 교차 검증, 앙상블 기법 등의 다양한 기법이 적용된다. 이와 달리, 데이터가 연속적인 값이 아니라 범주형 클래스에 속하는 경우에는 분류 과업이 핵심적인 역할을 담당한다. 또한, 분류 모델은 입력 데이터를 미리 정의된 K 개의 범주형 클래스 중 하나로 할당하는 지도학습 방법론이다. 분류 문제는 일반적으로 추론하고자 하는 클래스의 수에 따라 이진 분류(K = 2)와 다중 분류(K ≥ 3)로 구분되며, 각각 두 개 그리고 그 세 개 이상의 클래스를 예측한다. 수학적으로, 분류 모델은 입력 특징 벡터 x∈ℝd 를 이산적인 레이블 y∈{1,2, ..., K - 1, K }로 매핑하는 함수 f : ℝd→{1,2,...,K - 1,K }를 학습한다. 분류 모델은 의료 진단, 스팸 메일 필터링, 고객 이탈 예측 등 광범위한 실무 문제에 적용된다. 따라서 회귀와 분류는 지도학습의 대표적인 두 축을 형성하며, 이러한 문제를 해결하기 위해 다양한 기계학습 모델이 개발되어 왔다.

전술된 두 과업 기반의 문제를 해결하기 위해서 다양한 기계학습 모델이 사용되어 왔으며, 대표적으로 선형 모델, 앙상블 모델, 신경망 모델, 트랜스포머 기반 모델이 있다. 선형 모델은 입력과 출력 간의 선형 관계를 가정하며, 최소 제곱법이나 최대우도 추정을 통해 학습되어 해석이 용이하나 비선형 관계 포착에 한계가 있다는 특징이 있다. 앙상블 모델은 배깅과 부스팅으로 나뉘며, 배깅은 부트스트랩 샘플링을 통해 여러 모델을 독립적으로 학습하여 분산을 감소시키고, 부스팅은 약한 학습기를 순차적으로 학습하여 편향을 감소시킨다. 신경망 모델은 다층 구조와 비선형 활성화 함수를 통해 복잡한 패턴을 학습하며, 특히 트랜스 포머 기반 모델은 셀프-어텐션(self-attention) 메커니즘을 활용하여 특징 간 상호작용을 효과적으로 학습한다. Table 1에는 선형 모델부터 트랜스포머 기반 모델까지 대표적인 모델들이 나열되어 있다. 그러나 이러한 다양한 모델들이 충분한 성능을 발휘하기 위해서는 단순히 알고리즘 구조의 우수성 뿐만아니라, 학습에 사용되는 데이터의 품질이 높은 영향을 미친다.

Representative Models for Machine Learning

2.2.2 인공지능 학습용 고품질 데이터셋

2.2.1 절에서 설명한 바와 같이, 기계학습 기반의 인공지능 기술은 대규모 데이터를 기반으로 내재된 패턴을 학습한다. 특히 전술된 인공지능 기술들은 학습 데이터를 통해 입력과 출력 간의 관계를 추정함으로써 학습과정에서 사용되지 않은 데이터(unseen data)에 대한 일반화된 추론 능력을 획득할 수 있다. 이러한 능력 향상을 위해서 알고리즘 구조를 개선하기위한 노력들이 수행되었다. 그러나, 이러한 모델 중심의 접근방법 다르게 데이터 중심의 접근방법은 학습과정에 직접적인 영향을 미치는 데이터의 품질을 개선함으로써 인공지능의 성능을 개선한다. 데이터 중심의 모델 개선 활동에는 데이터의 중복, 노이즈, 라벨 오류 처리가 포함된다. Northcutt et al.(2021)은 라벨 오류를 교정하여 분류 정확도를 향상 시켰으며, Zhang et al.(2021)은 데이터의 잡음이 신경망의 성능을 저하시킴을 실험을 통하여 입증하였다. 이 외에도 데이터 증강 기법을 활용하여 모델의 과적합을 완화하거나 일반화 성능을 향상시키는 연구도 수행되었다(Cho et al., 2019; Jo et al., 2025).

국방에서는 중장기적인 관점에서 인공지능 기반 무기체계의 도입을 가속화하고 있으며, 핵심기술개발 사업이나 미래도전개발 사업 추진을 통해 기존 무기체계의 지능화가 예상되는 바이다. 이를 위한 다양한 대비로써, 무기체계로부터 획득한 데이터에 대한 품질 관리 기준 수립을 위한 많은 시도가 있었다. Seo et al.(2023)은 표적탐지 및 추적분야에서 데이터 품질을 고려하기 위한 네 가지 지표를 도출하였다. Bak et al.(2024)은 데이터의 신뢰성을 중심으로 비정형 데이터의 품질 향상을 위한 프레임워크를 제안했다. 한편, 민수 분야에서는 인공지능 기술을 고려한 학습용 데이터 품질 관리를 위하여 기관을 중심으로 방안들이 제시되어 왔다. 다음 절에서는 과학기술정보통신부, 한국지능정보사회진흥원(이하 NIA), 한국정보통신기술협회(이하 TTA), 그리고 국제표준화기구 ISO의 선행 연구를 다룬다.

2.3 선행 연구

전술한 바와 같이 인공지능 기술의 활용을 위해서는 고품질의 데이터가 요구됨에 따라, 인공지능과 데이터 간의 유기적인 융합을 위한 기관차원의 다양한 노력이 진행되어 왔다. 2019년 정부의 ‘데이터·AI경제 활성화 계획’을 통해 과학기술정보통신부, NIA, TTA는 다양한 분야의 인공지능 학습용 데이터셋과 더불어 ‘인공지능 데이터셋 구축 가이드북’(NIA and TTA, 2019)과 ‘데이터 분석 및 머신러닝을 위한 데이터 품질 표준화’(TTA, 2020)를 발간한 바 있다. 해당 안내서는 실제 인공지능 학습용 데이터셋을 구축하며 구축 단계-세부 절차-작업 순서로 일련의 가이드를 제공한다. 이미지, 말뭉치 등 비정형 데이터의 활용예시 뿐만 아니라, 부속서를 통하여 시나리오와 그 데이터의 예시를 언급한다.

2021년 NIA는 ‘인공지능 학습용 데이터 구축사업’과 인공지능 통합플랫폼인 ‘AI-Hub’를 서비스 간 제공하는 인공지능 학습용 데이터의 품질관리 기준의 필요성 제기함과 동시에, 사업 전 생애주기에서 데이터 품질 관리를 위한 가이드라인 ‘인공지능 학습용 데이터 품질관리 가이드라인 v1.0’을 발간하였다. 데이터의 생애주기를 고려하여 품질 관리 체계를 계획, 구축, 그리고 운영·활용 단계에 따라 상세하게 기술하고 있다. 문서에서는 품질관리 지표를 ‘데이터의 품질 수준을 측정하기 위해 무엇을 측정할 것인가에 대한 기준’으로 정의하였고, 7건의 국내·외 데이터 품질 관리 지표 사례를 참고하여 총 103개의 지표를 종합 및 분석하였다. 결과적으로 6가지 지표(준비성, 완전성, 유용성, 적합성, 정확성, 유효성)를 제시하였다. NIA는 이후 매년 내용 수정 및 추가하여 가이드라인을 개정하였고, Table 2에서 보이듯이 현재까지 ‘AI 데이터 품질관리 가이드라인 v3.5’(NIA, 2025)를 유지하고 있다. Figure 1은 가이드라인 내 생애주기 기반의 품질관리 체계의 전반을 보여준다. NIA 뿐만 아니라, 국제표준화기구 ISO 또한 인공지능을 고려한 데이터 품질 평가 모델을 제시하고 있다. ISO/IEC 25000 시리즈인 SQuaRE(Software Quality Requirements and Evaluation)는 시스템 제품, 데이터를 위한 품질과 품질 요구사항과 품질 측정 등 다양한 국제표준을 포함하고 있다. 그 중에서 ISO/IEC 25012는 데이터의 품질을 크게 세 가지 측면에서 제시하며, 이를 총 15개의 품질로 세분화 하였다. 인공지능 국제표준을 담당하는 ISO/IEC JTC 1/SC 42 에서는 2024년부터 기계학습 데이터 품질을 위한 5개의 ISO/IEC 5259 표준을 개발하였다. 해당 표준에서는 ISO/IEC 25012에서 정의한 품질 속성을 기반으로 추가 속성 9개를 정의하였으며, Figure 2 은 ISO에서 개발한 ISO/IEC 25012 및 ISO/IEC 5259 기반의 데이터 품질 모델 표준을 보여준다.

List of Data-driven Quality Management Standards and Guidelines

Figure 1

Life Cycle-based Quality Management System and Quality Management Framework

Figure 2

Data Quality Models of ISO/IEC 25012 and ISO/IEC 5259

한편, 앞선 가이드라인 및 표준 데이터 모델의 경우 넓은 커버리지에 의해 각 분야 혹은 사업에 따라 정제하여 품질관리 활동을 수행해야 한다. 또한, 본 저자가 아는 바에 따르면 해양 무기체계를 중심으로 품질관리 지표를 제시하는 연구는 없으며, 추후 함정 전투체계와 인공지능 기술의 결합을 다루는 연구가 가속화될 것을 고려했을 때 품질관리 체계 수립을 위한 인공지능 학습용 데이터 품질 관리 지표의 필요성은 더욱 대두될 것으로 예상된다.

3. 인공지능 학습용 데이터셋 품질 관리 방안 제안

3.1 연구 방법론

본 연구는 체계적인 연구 절차 수립과 수행을 위하여 인공지능 학습용 데이터셋 구축 및 품질 관리에 적합한 연구 방법론을 선정하였다. KDD(Knowledge Discovery in Database), CRISP-DM(Cross-Industry Standard Process for Data Mining), DMADV(Define, Measure, Analyze, Design, Verify) 은 다양한 연구에서 널리 활용되는 연구 방법론이며, 연구 특성에 따라 선택하거나 적절하게 혼용하여 적용할 수 있다(Lee et al., 2022). 본 연구는 함정 전투체계의 주요 지능화 요소를 식별하고 적절한 데이터셋을 구축한다. 또한, 제안된 지표를 기반으로 구축된 학습용 데이터를 평가했을 때 평가 결과를 기반으로 환류(Feedback)하여 정제 등의 데이터 재구축 과정을 촉구하고, 이를 통해 지능형 함정 전투체계의 고품질 학습용 데이터셋 구축을 목표로 한다. 이러한 이유로 본 연구의 연구 방법은 CRISP-DM의 방법론과 NIA의 데이터 공정 절차와 유사하다. 따라서, 본 연구는 CRISP-DM 절차를 기반으로 하되, NIA 공정 절차를 반영하여 전투체계 데이터셋 구축 공정 절차를 투영할 수 있도록 하였다. 앞선 두 절차가 Figure 3에 표현되어 있으며, 본 연구가 따르는 변형된 CRISP-DM 절차 Figure 4에서 보여진다.

Figure 3

CRISP-DM Methodology and Data Life Cycle-based Procedure

Figure 4

Research Model for the Proposed Method based on Revised CRISP-DM Methodology

3.2 문제 정의

본 연구는 지능형 함정 전투체계에 인공지능 기술을 적용하기 위한 학습용 데이터셋의 품질 관리 지표를 제안하고자 한다. 함정 내에서 생성되는 다양한 센서 및 운용 데이터를 활용한 연구와 품질 관리를 위한 다양한 노력이 수행되었으나, 인공지능 학습을 위한 데이터셋의 품질을 체계적으로 관리하기 위한 기준은 아직 명확히 수립되어 있지 않다. 특히, 학습 데이터의 품질은 인공지능 모델의 성능과 신뢰성에 직접적인 영향을 미치며, 실전 적용을 위해서는 고품질 데이터셋의 구축과 관리가 필수적이다. 이에 본 연구는 함정 전투체계의 주요 기능을 인공지능 기반으로 재정의하고, 해당 기능에 적합한 학습용 데이터셋을 구축하기 위한 품질 관리 지표를 제안함으로써, 지능형 전투체계의 실효성과 신뢰성을 제고하는 것에 목적이 있다.

3.3 지능형 함정 전투체계 인공지능 학습용 데이터셋 품질 관리 방안

3.3.1 지능형 함정 전투체계

함정 전투체계는 다양한 센서와 무장, 그리고 전투관리체계로 구성되어 센서로부터 식별된 적 표적에 대하여 적절한 무장을 할당하여 명령을 통한 위협을 효과적으로 제거하는 함정 무기체계이다. 표적이 식별된 이후부터 위협제거까지의 일련의 절차를 본 논문에서는 ‘교전절차’로 지칭하며, 함정 전투체계(CMS, Combat Management System)의 일반적인 교전 절차는 Figure 5 와 같다. 함정 전투체계는 각 기능이 장비 성능, 규칙, 운용자에 의존하여 운용되는 것이 일반적이나, 지능형 함정 전투체계는 각 기능을 부분적으로 인공지능을 활용하여 기능을 고도화할 수 있다. 해당 기술은 현재까지도 연구가 진행중이나, 본 연구에서는 함정 전투체계의 교전 절차에 지도학습 기반 인공지능을 적용하여 새롭게 주요 기능을 정의하고 인공지능 학습용 데이터셋 구축을 위한 기반을 마련하였다. Table 3에는 지능형 함정 전투체계의 주요 기능 6가지를 기존 함정 전투체계와 비교하여 보여준다.

Figure 5

Engagement Flow of CMS

Major Functions of Traditional CMS and Pre-defined Intelligent CMS

함정 전투체계는 체계 운용 간 발생하는 메시지가 통합된 네트워크상에 부유하며 콘솔을 통해 운용자에게 전시되며, 전시된 정보를 활용하여 운용자는 표적 선택, 무장 발사, 위협 설정 등 명령 입력이 가능하다. 본 연구에서는 사전에 마련된 가상화 콘솔을 활용하여 데이터를 수집 하는 방식을 취한다. 또한, 각 기능에 필요한 인공지능 학습용 데이터셋과 인공지능 모델 구축이 가능하다. 그러나 이러한 데이터셋이 실제로 효과적인 학습과 추론을 지원하기 위해서는 데이터의 품질을 체계적으로 관리할 필요가 있다. 따라서 다음 절에서는 지능형 함정 전투체계 인공지능 학습용 데이터셋의 품질 관리 지표를 정의하고, 이를 통해 데이터의 신뢰성과 활용성을 확보하는 방안을 제시한다.

3.3.2 품질 관리 지표

본 절에서는 지능형 함정 전투체계의 인공지능 학습용 데이터셋 품질 관리 지표와 각 지표의 설명과 운영정의(Operational definition)가 서술된다. 본 연구에서 운영정의는 품질 지표를 활용하여 데이터를 평가하기 위한 기준과 정의를 의미한다. 운영정의는 각 지표의 설명과 함께 제시된다. 품질 관리 지표는 특성에 따라 내재적 품질, 의존적 품질, 그리고 운영적 품질로 구분된다. ISO/IEC 25012에서는 평가 목적과 활용 관점에 따라서 내재적 품질과 시스템 의존적 품질로 구분하였다. 내재적 품질은 데이터 자체의 고유한 특성을 의미하며, 데이터의 활용처 혹은 시스템과 상관없이 항상 일관된 기준으로 관리된다. 반면에, 의존적 품질은 데이터의 사용 측면에서 적합한가를 판단하기 위한 기준으로 사용된다. 함정 전투체계는 여러 체계의 집합이기 때문에 이를 운용하기 위한 여러 개의 다기능콘솔(Multi Functional Console)를 포함한다. 따라서, 역할과 목적에 따라 특정 임무를 부여받은 운용자가 존재한다는 것을 알 수 있다. 본 연구에서 제안하는 지표는 운용자 역할에 따라 3가지로 구분 되며, 지표 특성에 따라 구분하기 위하여 11가지로 구분된다. 이러한 분류는 실적용에 있어서 체계적인 품질 관리 수행에 도움이 될 수 있다. 결과적으로 총 17가지의 지표가 Table 4에서 확인된다.

Categories and Metrics for Intelligent CMS Train Data Quality Management

지표 1(Accuracy). ‘정확성’은 데이터의 값이 현실을 정확하게 반영하고 있는지를 의미하는 지표이다. 다시 말해 서 값의 도메인과 형식이 사전에 정의되어 있는 형식에서 벗어나는지를 확인한다. 정확성은 데이터의 수집이나 정제 등의 과정에서 발생된 저품질 요소를 관찰하기 위해 활용될 수 있다. 정확성은 수식을 통해 정량적으로 계산되며, 이는 수식(1)과 같다.

(1) Accuracy(%)=NumberofAccurateDataTotalNumberofData×100

지표 2(Integrity). ‘정합성’은 데이터 값이 논리적으로 적절한지를 의미하는 지표이다. 데이터 수집 환경에 따라, 생성기로 수집된 모의 데이터나 예기치 못한 오류로 인해 수집된 데이터 값에 모순이 발생한 경우가 있다. 데이터 생성기는 설계 시 현실의 논리를 반영하지 못하거나 네트워크의 오류에 의해서 정합성을 만족하지 못하는 경우가 있을 수 있으며, 실환경에서 수집되었음에도 사전에 정제하여 처리되지 않은 경우, 데이터의 노이즈에 의해 정합성이 낮게 평가될 수 있다. 정합성에 대한 정량적인 평가는 수식(2)에 의해 수행된다.

(2) Integrity(%)=NumberofLogicalDataTotalNumberofData×100

지표 3(Formatvalidity). ‘형식 적합성’은 수집된 데이터의 파일 포맷과 메타데이터(라벨값)를 포함하는지를 평가하며, 파일포맷과 메타데이터는 모두 정량적으로 평가 가능하나, 파일 포맷의 경우 측정 단위가 파일 그 자체가 될 수 있다. 그러나, 메타데이터의 경우 정형 혹은 비정형 데이터 상관없이 데이터포인트가 측정 단위가 된다. 수식(3)과 수식(4) 각각 측정 단위에 따른 형식 적합성 기반의 계산 수식을 보여준다.

(3) (4) Formatvalidity{Formatdata(%)=NumberofFittedDataTotalNumberofData×100Formatfile(%)=NumberofFittedFilesTotalNumberofFiles×100

지표 4(Generality). ‘일반성’은 전투체계 데이터의 통합 정도를 의미한다. 서로 상이한 베이스라인 상에서 건조된 함형의 경우, 전투체계 데이터의 형태와 도메인 등 특성에 차이가 있다. 또한, 탑재된 센서와 무장, 그리고 연동 가능한 체계가 다르기 때문이다. 하지만, 지능형 함정 전투체계로부터 수집된 데이터를 활용해 학습한 모델은 가능한 많은 함정에 적용하여 동일한 기능이 수행되길 기대한다. 데이터 통합용 규칙 혹은 약속을 가정했을 때, 일반성은 수식 (5)와 같이 계산된다.

(5) Generality(%)=NumberofIntegratedDataTotalNumberofDatatobeIntegrated×100

지표 5(Non-Redundancy). ‘비중복성’은 데이터가 서로 중복되지 않은 정도를 나타낸다. 전투체계 내의 메시지 데이터에서는 중복이 완전한 일치를 의미한다. 실제로 다양한 센서로부터 동일한 값이 수집되거나, 수집을 위해 전투체계와 연동한 시스템에서 동일한 데이터가 발생할 수 있다. 한편, 비정형 데이터의 경우 동일한 데이터(가령 전자 광학 센서 이미지)가 아닌 아닌 유사도가 높을 때 중복성이 존재한다고 판별한다. 예를 들어, 고속정을 동일한 계절, 기상환경, 화각에서 EO(Electro-Optical) 데이터로 수집할 경우, 완전히 동일하지 않을지라도 인공지능 학습에는 부적절하며 학습 속도에 영향을 줄 수 있다. 수식(6)은 다음과 같다.

(6) Non-Redundancy(%)=(1-NumberofRedundantDataTotalNumberofData)×100

지표 6(Reliability). ‘신뢰성’은 데이터 수집 출처에 따라 신뢰할 수 있는 데이터인지를 판단하는 지표이다. 지능형 함정 전투체계를 위한 데이터셋 구축 시 수집 가능한 기반 데이터는 다음과 같다. 민간의 공개 데이터, 전투체계 모의데이터(가령 시뮬레이터 혹은 가상화된 전투체계 등), 훈련 간 발생된 전투체계 데이터, 실 전투 간 발생된 전투체계 데이터가 있다. 단, 민간의 공개 데이터의 경우 기관, 연구집단 등 다양하게 구분될 수 있으나, 본 지표는 지능형 함정 전투체계가 활용되는 환경과 가까울수록 높은 점수를 획득할 수 있도록 설계되었다. 신뢰성은 수식(7)과 같이 급간화 하여 {0, 25, 50, 75, 100} 중 하나로 정규화된다.

(7) Reliability(%)={25,ifPublicityAvailableCivilian50,ifCMSSimulationData75,ifCMSDatainTraining100,ifCMSDatainRealOperation}

지표 7(Quantitativeness). ‘정량성’은 학습용 데이터셋 구축 시 요구되는 데이터의 양을 의미한다. 일반적으로 데이터의 양이 많을수록 모델의 일반화 성능, 편향 완화, 복잡성 높은 문제해결 용이 등 다양한 강점이 있다. 하지만, 데이터의 비중복성이 낮아질 수 있으며, 불균형 데이터의 경우 여전한 과적합 문제와 편향을 지니게 된다. 따라서, 이는 전투체계 운용자의 요구사항(작전운용성능 등)과 전투체계 데이터 과학자 간의 적절한 조율이 필요하며, 최초 임계값을 설정하여 수식(8)과 같이 지향하는 데이터 양 대비 현재 데이터의 양을 비율로 계산하여 평가할 수 있다. 이후 환류 과정을 통해 데이터를 추가적으로 수집하는 등의 후속 조치가 가능하다.

(8) Quantitativeness(%)=NumberofCurrentDataDesiredNumberofData×100

지표 8(Completeness). ‘완전성’은 필드값, 레코드와 같은 데이터의 누락으로 인한 결측 정도를 검사하기 위한 지표이다. 최신의 인공지능은 내부에 결측값을 처리하여 학습까지 엔드 투 엔드 방식으로 처리하나, 결측으로 인한 데이터의 불완전성은 모델에 영향을 줄 수 있다. 완전성은 수식(9)에 의해 계산된다.

(9) Completeness(%)=(1-NumberofIncompleteDataTotalNumberofData)×100

지표 9(Environmental Diversity). ‘환경다양성’은 데이터 수집 간 공간 및 시간 등 환경조건들이 충분히 다양한지를 검사한다. 해상 환경에서 계절 혹은 날씨에 따라 온도, 습도, 풍향, 풍속 등이 다르며, 해무에 따른 광학장비의 표적 식별률 변화 등은 충분히 다양하게 고려될 필요가 있다. 따라서, 정의된 기능에 맞도록 충분히 합의된 기준을 마련하고, 이에 대한 데이터셋을 대상으로 만족한 기준의 개수의 비율을 계산한다. 수식(10)은 정규화된 환경다양성을 보여준다.

(10) EnvironmentDiversity(%)=NumberofFulfilledConditionsNumberofAgreedEvaluationConditions×100

지표 10(Distributional Diversity). ‘분포다양성’ 데이터의 편향성을 방지하기 위해, 구축된 데이터셋에 통계적으로 충분히 다양한 데이터가 반영되었는지를 평가하기 위한 지표이다. 분포다양성의 운영정의는 특성값(입력)과 타겟값(출력)에 따라 별도로 계산될 필요가 있으며, 변수의 타입에 따라 독립적으로 고려되어야 한다. 이는 수식(11)수식(12)에 의해 계산된다.

(11) EnvironmentalDiversity(%)=NumberofFulfilledConditionsNumberofAgreedEvaluationConditions×100
(12) EnvironmentalDiversity(%)=NumberofFulfilledConditionsNumberofAgreedEvaluationConditions×100

지표 11(Freshness). ‘최신성’은 학습에 사용되는 데이터가 실제 환경 또는 현재 시점과 시간적으로 얼마나 근접한지를 나타내는 지표이다. 모델의 현실 적합성, 개선된 일반화 성능, 시의성 있는 의사결정을 위해 사용된다. 데이터 포인트 단위의 최신성은 수식(13)에 의해 계산될 수 있다. tnow 는 품질 관리 활동 수행일자로 기준 시점을 의미하며, tpast는 데이터포인트(sample)의 수집 일자를 나타낸다. T 는 합의된 최대 경과 시간을 의미한다. 예를 들어, 당일과 데이터 첫 번째 데이터포인트의 수집 일자의 차이가 1일 이며, 합의된 최대 경과 시간이 7일 이라고 가정할 경우, Freshness1 = 1 - 1/7 = 6/7 ≈ 0.857이다.

(13) Freshnessi=1-tnow-tpastT

예를 들어, 당일과 데이터 첫 번째 데이터포인트의 수집 일자의 차이가 1일이며, 합의된 최대 경과 시간이 7일이라고 가정할 경우, Freshness1 = 1 - 1/7 = 6/7 ≈ 0.857이다. 데이터셋의 최신성은 결과적으로 데이터포인트의 최신성의 평균으로 계산된다. 카디널리티가 N인 데이터셋의 최신성은 수식(14)와 같이 계산된다.

(14) Freshness(%)=(1Ni=1NFreshnessi)×100

지표 12(Usefulness). ‘유용성’은 사전 정의된 전투체계 인공지능 모델의 기능에 대해서 주어진 데이터가 얼마나 유용한지를 평가하기 위한 지표이다. 기계학습 특성 상 학습용 데이터의 특징(feature) 변수와 목표(target) 변수 간의 관계가 성능으로 이어질 가능성이 높다. 또한, 특성이 서로 독립적일수록 모델 학습에 유용하다. 이를 위해 특성 기여도(C) 와 특성 독립성(I)을 동시에 고려하여 유용성을 평가한다. 특성 기여도는 상호정보량(Mutual Information)을 적용하며, 특성 독립성은 상관계수(σ)를 활용한다. 수식(15)수식(16)는 특성 기여도와 특성 독립성을 계산하는 방법이며, 수식(17)은 앞선 두 가지를 종합하여 고려한 유용성에 대한 운영정의를 보여준다. 수식(17)에서 w는 정의된 모델 기능에 따라 조정 가능한 가중치를 의미한다.

(15) Ci=MutualInformation(Xi,y)max(MutualInformation(Xi,y),whereiindicatesafeature
(16) Ii=1-avg(σ(Xi,Xj)),wherejindicatesafeature,noti
(17) Usefulness(%)=(1Ni=1NUsefulnessi)×100=1Ni=1N(wc1Ci+wc2Ii)×100

지표 13(Understandability). ‘이해가능성’은 데이터에 대한 설명과 그 메타정보가 명확하고 운용자로 하여금 이해가능한지를 정성적으로 평가하기 위한 지표이다. 일반적인 경우, 관리와 검색을 목표로 하기 때문에 색인(index)이 중요시 되지만, 지능형 함정 전투체계는 인공지능 학습을 목표로 하므로 이를 위한 충분한 설명과 메타정보가 제공되어야 하며, 전문가 입장에서 해당 데이터는 직관적으로 이해가능 하여야 한다. 따라서, 수식(18)을 기반으로 메타정보 중심 평가로 점수(Umeta)를 산출하며, 수식(19)을 기반으로 전문가에 의해 설계된 항목에 따라 운용자 중심 평가의 평가에 의하여 점수(Uuser)를 산출한다. 마지막으로 두 평가 방식의 중요도에 따라 가중치를 설정하여 수식(20)과 같이 평가할 수 있다.

(18) Umeta=NumberofFeatureswithDescriptionTotalNumberofFeatures
(19) Uuser=1Ni=1NScoreimax(LikertScore)
(20) Understandability(%)=(wc1Umeta+wc2Uexpert)×100

운용자 중심 평가는 지표 기반의 데이터셋 평가 전에 명목집단법(NGT, Nominal Group Technique) 혹은 초점집단인터뷰(FGI, Focus Group Interview) 등을 통하여 다수의 전문가들의 토론을 통하여 평가 항목을 사전에 정의하고 평가할 수 있도록 한다. 전문가에는 품질 측정/품질 평가/품질 관리 전문가, 데이터 분석가, 전투체계 도메인 전문가가 포함될 수 있다. 전문가들의 논의를 통하여 설계된 평가 항목은 리커트 척도(Likert Score)에 기반하여 평가되며 수식(19)가 계산된다.

지표 14(Traceability). ‘이력성’은 데이터의 변경 이력을 추적 가능한지를 평가하기 위한 지표이다. 학습용 데이터셋을 구축하는 과정은 대게 단발성에 그치지 않는다. 모델의 테스트, 데이터 분석 과정 등 환류를 통한 데이터가 재구축되거나 정제될 수 있다. 특히, 지능형 함정 전투체계에서는 교전 절차에 따른 다양한 인공지능 모델의 기능 정의가 수행될 것이며, 이를 위한 데이터셋이 다양한 버전으로 관리될 수 있다. 또한, 전문가는 데이터의 이력을 참고하여 불필요한 과정을 지양하고, 이는 효과적인 작전수행을 동반할 것이다. 이력성을 계산하기 수식은 수식(21)에 보여진다.

(21) Traceability(%)=NumberofTraceableDatasetsTotalNumberofDatasets

N개의 데이터셋을 포함하는 데이터셋집합 D가 존재하고, i번째 데이터셋을 Di 라고 표현해보자. 특정 목적(재수집, 정제, 재구축 등)에 의해 서로 관계되어 있는 경우는 다음과 같이 표현된다: ∀ Di, DjD,∃R : DiDj. 여기서 R은 관계를 의미한다. 어떤 데이터셋을 선택하더라도 D의 모든 데이터셋으로의 경로(관계)가 존재하다면 추적성은 100%로 계산된다.

보안성(Security)은 전투체계 뿐만 아니라 국방 도메인에서 중요시되어야할 특성이다. 다음 세 가지 지표를 기반으로 품질 관리 수행하기 위해서는 다음의 가정이 필요하다. 품질 관리 계획 수립 시 데이터셋에 접근하는 운용자에 따라, 데이터셋에 대한 접근권한이 부여되어 있으며, 접근권한에 따라 데이터셋 생성, 수정, 삭제 등의 작업이 제한될 수 있다. 운용자마다 상이한 권한을 부여하는 것은 보안측면에서 중요하다. 그러므로, 본 연구에서도 전술된 바를 가정하였다.

지표 15(Accessibility). ‘접근통제성’은 데이터 접근 시 운용자의 권한에 따른 접근통제 정책이 수립되어 있는지를 평가하기 위한 지표이다. 인공지능 학습에 필요한 데이터는 다양한 소스로부터 수집되기 때문에, 학습용 데이터는 서로 상이한 보안 등급의 데이터의 집합이다. 학습용 데이터는 구축 후 단일 모델을 위한 목적으로 한정되지 않을 것이며, 공유를 통해 복수 개의 모델을 위한 기반 데이터가 될 수 있다. 즉, 다양한 운용자로부터 접근 가능하기 때문에 이를 위한 통제 정책이 필수이다. 평가를 위해서 접근 통제 정책 수립을 평가하기 위한 체크리스트의 제작이 필요하며, 이에 기반한 접근통제성의 운영정의는 수식(22)와 같다.

(22) Accessibility(%)=NumberofPassedItemsTotalNumberofItems×100

지표 16(Classification). ‘등급분류성’ 은 데이터에 지정된 보안등급이 부여되어 있는지를 평가하기 위한 지표이다. 「국방규격 기술자료 등급별 분류기준」, 「군사기밀보호법」 등에 따르면 자료 수준에 따라 등급을 분류(A/B/C/비공개)하고 있다. 전투체계 데이터 또한 군 내 특정 네트워크에서 발생하는 데이터이기 때문에, 보안에 의해서 철저하게 관리되어야 한다. 인공지능 학습 시 데이터는 하나의 소스(가령 특정 함의 네트워크)를 활용하는 것보다, 다양한 소스로부터 수집된 데이터를 통합하여 활용될 수 있다. 민간의 공개된 데이터를 통해 데이터셋을 보강하거나 인공지능 추가 학습에 사용하는 것도 다른 예시가 될 수 있다. 지능형 함정 전투체계의 등급분류성은 전술된 상황을 고려하여 보안 측면에서 철저한 품질 관리를 고려한다. 수식(23)은 데이터포인트를 측정 단위로 하는 운영정의를 보여준다.

(23) Classification(%)=(1-NumberofUnclassifiedDataTotalNumberofData)×100

지표 17(Disposability). ‘폐기성’은 구축된 데이터셋의 폐기 후 복구되는 것을 차단하기 위한 지표이다. 비밀정보 포함, 학습 불가 저품질, 보존기간 만료, 보안 기준 미충족 등의 이유로 학습용 데이터의 폐기가 가능하다. 폐기성은 보안 측면에서 중요하지만, 본 연구에서 폐기성의 경우, 데이터 폐기를 위한 절차가 수립되어 있는지를 검사하기 위한 전문가의 체크리스트를 통해 평가한다고 가정한다. Figure 6은 체크리스트 예시를 보여준다. 결과적으로 폐기성은 전체 항목에 대한 Pass 항목의 비율로 계산되며, 이는 수식(24)와 같다.

Figure 6

A Practical Example of Disposability Checklist

(24) Disposability(%)=NumberofPassedItemsTotalNumberofItems×100

3.3.3 지능형 함정 전투체계 인공지능 학습용 데이터셋 품질 관리

본 절에서는 제안된 품질 관리 방안에 대한 전반적인 구성을 설명한다. 지능형 함정 전투체계를 위한 인공지능 학습용 데이터셋 구축 공정 과정에는 기능정의-CMS데이터 수집-데이터 정제-데이터 처리-학습 및 평가 단계로 구성된다. 본 연구에서는 제안된 지표를 통해 데이터셋의 품질을 점수화하여 관리한다. 3.3.2절에서 제시된 지표를 활용하여 데이터셋 구축 공정 과정의 각 세부 과정에서 파생되는 데이터에 대한 품질 관리를 수행하고, 이 결과를 바탕으로 환류를 통해 고품질 데이터셋을 생성하도록 돕는다. 지표를 활용하여 평가 시 평가자는 임계값(threshold)을 설정하여, 품질의 수준을 측정할 수 있다. 지표들은 각 공정 단계마다 유연하게 적용 가능하며, 지능형 함정 전투체계 기능 정의에 따라 각 공정 단계에서 적용하는 지표를 품질 관리 전 설정하도록 한다. 해당 품질 지표는 일회성 평가가 아닌 환류를 통한 지속적 평가를 지향한다.

Figure 7은 지능형 함정 전투체계의 주요 기능과 제안된 지표를 중심으로 인공지능 학습용 데이터셋 품질 관리 과정을 전반적으로 도시하며, 각 과정에 표기된 번호는 흐름을 나타낸다. 먼저, 1) 사전에 설계된 지능형 함정 전투체계 기능에 따라, 플랫폼(함정)에서 CMS 데이터가 수집된다. 2) 수집된 데이터는 일관적인 형태로 변환되어 별도의 데이터 집합으로 구성되며, 이는 저품질 데이터로 분류된다. 구체적으로, CMS에서 수집된 메시지 데이터의 경우, 헤더 내의 메타데이터와 페이로드(payload)를 분리하여 데이터 저장소에 저장된 형태가 저품질 데이터로서 여겨질 수 있다. 혹은, 플랫폼마다 상이한 형태를 띄는 메시지를 통합하여 저장된 형태가 될 수 있다. 3) 설계된 지능형 함정 전투체계 주요 기능에 의해서 데이터 정제와 전처리가 수행되며, 구축된 인공지능 학습용 데이터셋은 모델 생성을 위한 훈련과 평가에 사용된다. 4) 데이터 정제(data cleansing)는 모델 학습에 불필요한 요소를 제거하거나 완화하기 위한 절차 포함된다. 결과적으로 중복된 데이터를 제거하거나 편향성을 제거하는 기능에 의해서 데이터 집합이 생성된다. 5) 데이터 처리(data processing)에서는 학습피쳐와 라벨값(label)을 지정하거나 생성하여 지도학습 기반 인공지능 모델이 학습 가능한 형태의 데이터셋이 생성된다. 6) 제안된 품질 지표 중에서 사전에 지정된 지표의 운영정의와 임계값을 기반으로 데이터셋 품질이 측정된다. 7) 앞선 과정의 측정 결과를 바탕으로 환류(feedback)가 수행된다. 환류에는 데이터 수집, 데이터 정제, 데이터 처리에 대한 정책이나 기법을 보완하는 과정이 포함될 수 있다. 8) 결과적으로 제안된 품질 지표를 기반으로 고품질 데이터셋이 구축되며, 이것은 학습을 통하여 지능형 함정 전투체계 주요 기능 수행을 위한 인공지능 모델 구축에 활용된다. 과정 6)에서의 지표 선정, 품질 관리 활동 등은 사전에 기획 및 수립된 지능형 함정 전투체계 기능 및 품질 관리 절차에 따라 유연하게 적용된다.

Figure 7

Overall Architecture of the Proposed Method

4. 실험 결과 및 분석

4.1 실험 개요

본 실험에서는 지능형 함정 전투체계 데이터셋 품질 평가를 위해, 제안된 지표 기반의 품질 평가와 고품질 및 저품질 데이터셋을 구축하여 일반적으로 알려진 기계학습 모델과 딥러닝 모델을 활용하여 데이터셋 품질이 인공지능에 미치는 영향을 확인한다. 사전 정의된 지능형 함정 전투체계 인공지능 기능을 정의하였으며, 각 모델을 위한 학습용 데이터셋을 구축 후 지표 기반의 평가와 학습 모델 기반의 평가를 수행하였다. 이후 절에서는 실험을 위한 설계와 해당 환경에서 수행된 실험의 결과를 상세하게 서술한다. 또한, 광범위한 실험 결과를 바탕으로 실험 결과를 분석하여 고품질 데이터셋이 지능형 함정 전투체계에 미치는 영향을 평가한다. 다음 절에서는 실험 결과를 분석하기 전, 설계된 데이터셋 구성과 실험 환경에 대해서 설명한다.

4.2 실험 설계

본 연구에서는 함정 전투체계에서 발생하는 표적 및 무장에 대한 DDS(Data Distribution Service) 메시지 기반의 인공지능 학습용 데이터셋을 구축하기 위해서 모의데이터 생성기로부터 실험데이터를 수집하였다. 실제 함내에 축적된 전투체계 데이터를 수집하는 것은 제약이 있기 때문에, 본 연구에서는 전투체계 메시지 구조와 유효값을 모사하는 생성기를 활용하였다. 그러나, 가상의 환경에서 수집된 데이터는 이상적으로 발생하기 때문에, 실제 환경에서 발생가능한 불확실성(센서문제, 휴먼에러, 네트워크 문제 등)을 반영하기 위한 모듈을 생성기에 탑재하였다. Figure 8은 모의데이터 생성기의 구조를 보여준다. 운용자의 행동(무장발사, 장비조작 등)과 같은 전문가 행위 기반의 어노테이션 데이터셋 또한 앞선 사유로 수집의 제한으로 다양한 분기에 의한 규칙과 물리 기반 모델을 활용하여 출력(target)을 모사하였다. 게다가, 휴먼에러를 주입함으로써 데이터에 노이즈를 추가하여 데이터셋을 실환경과 유사하도록 변형하였다. Table 5는 지능형 함정 전투체계의 주요 기능 중 센서 탐지와 관련된 기능을 위한 데이터셋의 구성을 보여준다. 입력은 전투체계 데이터의 구조를 전처리하여 구성하였으며, 출력은 정의된 기능에 맞도록 필드를 식별하였다.

Figure 8

Configuration of Synthetic Data Generator Equipped with Intelligent CMS Module

Features of Intelligent CMS Datasets for Sensor Detection Function

후속 절에서 언급될 실험 결과에는 총 세 가지 종류의 데이터셋이 사용되었다. 구축된 지능형 센서 탐지 기능을 위한 데이터셋이 모의데이터 생성기로부터 수집되었으며, 제안된 지표를 활용한 비교실험을 위해서 임의로 실세계에서 발생 가능한 오염(이상치 주입, 결측값 생성, 스케일링 등)을 주입하였다. 또한, 정제 기법(이상치 제거, 결측값 보간)을 통하여 이를 완화하였으며, 각 데이터셋은 각각 저품질 및 고품질 데이터셋으로 활용되었다. 고품질 데이터셋은 20,000개의 샘플을 포함하고 있으며, 저품질 데이터셋은 10,000개의 샘플을 포함한다. 실험을 위한 하드웨어 환경은 다음과 같다: Windows 11(OS), Intel Core i5-1240P@1.7GHz(CPU), 그리고 16GB(RAM). 프로그래밍 언어는 파이썬이 사용되었으며, 실험 간 활용된 오픈소스 라이센스 기반 라이브러리는 다음과 같다: numpy 2.3.4, pandas 2.3.3, scikit-learn 1.6.1, xgboost 3.1.1, lightgbm 4.6.0, catboost 1.2.8, 그리고 tabpfn 2.2.1. 앞선 저품질 및 고품질 데이터셋은 기계학습 모델에 대한 학습용 데이터로 활용된다. 이 과정에서 6가지 모델이 채택되었으며, 데이터셋의 품질에 따라 각 모델의 성능 변화를 비교할 목적으로 사용되었다. Table 6는 실험에 사용된 6가지 모델에 대한 주요 하이퍼파라미터를 보여주며, 그 외 파라미터 설정은 기본 설정값을 따르도록 실험 환경이 구성되었다.

Model Parameters for Experimental Evaluation

4.3 실험 결과

본 절에서는 두 가지 실험에 대한 결과가 서술된다. 4.3.1 절에서는 연구에서 제안된 17가지 지표를 기반으로 저품질 및 고품질 데이터셋에 대한 평가가 수행되고 결과를 표로 기술한다. 4.3.2 절에서는 평가된 두 가지 데이터셋을 기반으로 학습을 수행하고, 세 가지 성능 평가 지표를 통하여 모델의 성능을 확인한다. 또한, 각 절에서는 실험 결과에 대한 분석이 포함된다.

4.3.1 품질 관리 지표 기반 실험

본 연구에서는 Table 5의 지능형 함정 전투체계 주요 기능 중, 교전의 첫 번째 절차인 센서 탐지 기능을 선정하였고, 전술된 데이터셋을 파생하여 품질 평가를 수행하였다. Table 7은 각 지표별로 품질 평가를 수행한 결과를 보여준다. 이때, 각 지표별 임계값들을 임의로 설정함으로써 등급을 확인하고, 저품질 데이터셋에 대해 어떠한 조치가 필요한지를 함께 도출하였다. 이것은 본 연구의 품질 지표 수립의 목적이 전투체계 데이터 기반의 학습용 데이터 품질 향상을 위한 지속적인 품질 개선 통찰 제공을 포함하기 때문이다. 한편, 실제 군에서 운용하는 데이터를 기반으로 구축된 데이터셋이 아니므로 일부 지표, 즉, Operational Quality와 같이 생성기를 통해 모사할 수 없는 지표의 정량화는 생략되었다.

Results of Experiments based on Intelligent Dataset(Intelligent Sensor Detection)

저품질 데이터셋에는 데이터가 도메인 불일치, 타입 불일치, 결측치, 중복데이터, 모순, 이상치가 주입되었기 때문에, 고품질 데이터셋 대비하여 낮은 품질 점수가 확인된다. ‘정량성’ 지표 기반의 평가의 경우, 지향하는 데이터셋의 크기를 20,000 으로 가정하였을 때, 각 데이터셋의 크기가 20,000 및 10,000 이므로 고품질 데이터셋의 경우 ‘정량성’을 100% 만족하는 반면에 저품질은 50%의 점수로 평가되었다. ‘비중복성’의 경우, 저품질 데이터셋에 대한 운영 정의에서 분모의 크기가 고품질의 것보다 작기 때문에, 저품질의 ‘비중복성’이 더 높은 점수로 평가되었다. 그럼에도 다른 지표에서는 고품질 데이터셋에 대한 품질 점수가 높다는 것을 알 수 있다. 70%로 설정된 임계값을 만족하지 못하는 항목은 FAIL로 표기되었으며, 이 경우 학습용 데이터셋 품질 관리를 위하여 최우측 열의 활동(가령 품질 개선 활동)을 수행하는 것이 권고된다. 본 실험 결과를 도출하기 위해서 정량적 수식을 활용하였으나, 지능형 함정 전투체계의 인공지능 기능 수행을 위해서는 기계학습 모델을 활용한 성능도 함께 관찰할 필요가 있다.

4.3.2 기계학습 모델 기반 실험

본 연구에서는 인공지능 학습용 데이터 품질이 모델 성능에 미치는 영향을 검증하기 위하여, 동일한 구조를 가지되 품질 수준이 상이한 두 개의 데이터셋을 구성하였다. 첫 번째는 저품질(low-quality) 데이터셋으로, 4.3.1 절의 품질 측정 결과와 같이 정확성(Accuracy), 정합성(Integrity), 완전성(Completeness), 분포다양성(Distribution Diversity) 등이 낮은 데이터셋이다. 두 번째는 고품질(high-quality) 데이터셋으로, 저품질 데이터셋을 개선하여 결측값 제거, 형식 일관성 확보, 분포 균등화를 통해 품질을 극대화한 데이터셋이다. 선정된 모델은 다음의 회귀모델을 채택하여 실험에 활용하였다: Random Forest, XGBoost, LightGBM, CatBoost, MLP, 그리고 TabPFN. 데이터 분할은 학습용 80%, 검증용 20%로 진행하였으며, 학습용 데이터에 대해 5-Fold 교차검증을 수행하였다. 성능평가 시 회귀 문제에 적합한 지표 RMSE(Root Mean Squared Error)와 MAE(Mean Absolute Error)를 통해 성능을 측정하였다.

Table 8은 저품질 데이터셋과 고품질 데이터셋 각각에 대하여 6가지 모델의 평균 성능을 비교한 결과를 보여준다. 모든 모델에서 고품질 데이터셋의 성능이 저품질 데이터셋과 비교하여 우수한 것이 나타났다. 최신의 모델인 TabPFN은 정형데이터 처리에서 우수한 성능을 보여준 모델이며, 본 실험에서도 데이터셋의 품질과 관계없이 세 가지 평가지표에서 모두 다른 모델에 비해 높은 성능을 보였다. 이에 반해, 랜덤포레스트는 가장 낮은 성능을 보였다. 이를 통해서, 높은 품질 점수의 데이터셋은 전반적으로 지능형 센터 탐지 기능 수행에 있어서 유리하며, 학습용 데이터의 품질 관리가 인공지능 성능과 연관 있음을 확인할 수 있다.

Performance Results for two types of datasets

5. 결론 및 향후 연구

본 연구에서는 지능형 함정 전투체계의 효과적인 인공지능 학습용 데이터셋 구축을 위한 품질 지표와 운영정의를 제안하였다. 품질 관리를 위해서 지능형 함정 전투체계의 교전 절차를 기반으로 지능화 요소를 식별하고 적합한 인공지능 기능을 정의하였으며, 이를 기반으로 품질 관리하기 위한 방안을 연구에 포함하였다. 수상함 전투체계 기반의 데이터를 수집하기 위해서, 전투체계 데이터와 유사한 기능의 모의데이터 생성기를 활용하였으며, 실세계의 불확실성을 포함하기 위해서 가정된 데이터 오염을 주입하였다. 이를 통해 저품질과 고품질의 데이터셋을 구축하였으며, 지표 기반의 실험과 널리 활용되는 정형데이터 중심의 기계학습 모델의 학습과 평가에 사용하였다. 데이터 정제를 통해 개선된 데이터셋은 그렇지 않은 데이터셋 대비하여 지표 평가 점수가 비교적 높다는 것을 확인함으로써 설계된 지표와 운영정의의 활용 가능성을 확인하였다. 게다가, 6가지 회귀 모델을 통해 RMSE, MAE, 그리고 MAPE를 측정한 결과 명확한 성능 차이를 확인할 수 있었다.

본 연구는 신기술 국방혁신 4.0을 통한 무기체계의 급격한 기술변화를 품질 측면에서 대응하기 위한 방법을 제시한 것에 의의가 있다. 특히, 함정 전투체계의 지능화를 고려한 인공지능 학습용 품질 관리 방법 설계, 지표 제안, 그리고 평가를 수행했다는 점에서 학술적으로 의의가 있다. 또한, 지표 중심의 정량적인 인공지능 학습용 데이터셋 품질 관리 결과를 통하여 품질 개선 활동에 적용이 가능하다. 본 연구는 품질 보증을 위한 사전단계를 지원할 수 있기 때문에 품질보증계획서(DQAP)와 같은 품질 보증 계획 프로세스에도 높은 활용성을 기대할 수 있다는 점에서 실용적인 의의를 지닌다.

반면에, 본 연구에서의 지표는 학습용 데이터셋 전 생애주기를 고려하여 공정단계 별로 적용 시 유효한지를 검증할 필요가 있다. 센서 탐지 뿐만 아니라 최근 활발히 연구되고 있는 위협분석과 무장제어 중심의 인공지능을 추가로 고려해야 한다. 게다가, 설계 단계에서부터 고객의 요구사항을 반영하는 것은 효과적인 품질 보증 프로세스 수립을 위한 중요한 요소이다. 이는 품질기능전개(QFD, Quality Function Deployment) 중심의 향후 연구를 통해 연구될 필요가 있으며, 고객 요구사항과 품질 지표 간의 구조적인 연결을 기대할 수 있다. 추가로, 제안된 지표를 활용하여, 실제 환경에서 수집된 함정 전투체계 기반의 데이터셋과 민간에 공개된 데이터셋을 복합적으로 활용하여 지표에 대한 실효성과 인공지능 성능에 미치는 영향성을 심도 있게 분석할 필요가 있다. 이에 따라, 향후에 실증을 중심으로 지표들의 객관성을 명확하게 입증할 계획이다.

References

Baek S. J., Bae H. Y.. 2023;A Study on Force Development of AI-based Integrated Manned & Unmanned Combat System. Journal of the Korea Association of Defense Industry Studies 30(3):69–83.
Bak Y., Shin Y.. 2024;Proposal of a data quality management framework for contructing military learning data. Journal of The Korea Society of Information Technology Policy & Management 16(3):3617–3623.
Breiman L.. 2001;Random forests. Machine Learning 45(1):5–32.
Chen T., Guestrin C.. 2016. XGBoost: A scalable tree boosting system. In : Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD); Aug 13–17; New York, NY, USA: Association for Computing Machinery; p. 785–794.
Cho H. C., Moon J. S.. 2019;A layered-wise data augmenting algorithm for small sampling data. Journal of Internet Computing and Services 20(6):65–72.
Cox D. R.. 1958;The regression analysis of binary sequences. Journal of the Royal Statistical Society: Series B 20(2):215–232.
Geurts P., Ernst D., Wehenkel L.. 2006;Extremely randomized trees. Machine Learning 63(1):3–42.
Gorishniy Y., Rubachev I., Khrulkov V., Babenko A.. 2021. Revisiting deep learning models for tabular data. In : Proceedings of the Advances in Neural Information Processing Systems (NeurIPS). Dec 6–14. Curran Associates Inc; Red Hook, NY, USA: p. 18932–18943.
Hinton G. E., Osindero S., Teh Y. W.. 2006;A fast learning algorithm for deep belief nets. Neural Computation 18(7):1527–1554.
Hollmann N., Müller S., Eggensperger K., Hutter F.. 2023. TabPFN: A transformer that solves small tabular classification problems in a second. In : Proceedings of the International Conference on Learning Representations (ICLR); May 1–5; Kigali, Rwanda. [Internet]. Available from: https://openreview.net/forum?id=cp5PvcI6w8_&utm_source=copilot.com.
Hong C. W., Baek H. M.. 2025;A Study of the Concept of AI-based Unmanned System Maintenance for the Efficient Operation of Naval Manned-unmanned Teaming. Journal of the Korea Society for Naval Science and technology 8(3):592–602.
Huh H. J., Hwang I. K., Baek S. H.. 2025;A Study on the Computerization of Military Supplies Test Reports with Open Source OCR. Journal of Korean Society for Quality Management 53(3):435–460.
Huh H. J., Ko S. J., Baek S. H.. 2023;A Study on the Big Data Analysis and Predictive Models for Quality Issues in Defense C5ISR. Journal of Korean Society for Quality Management 51(4):551–571.
Jo S. M.. 2025;A Study on Generalization Performance Analysis of Artificial Intelligence Data Learning Techniques. Journal of artificial intelligence convergence technology 5(2):55–60.
Jung H. J., Lee W. H., Hur Y. B.. 2025;Deep Learning Based Steel Plate Surface Defect Detection with Precise RoI Pooling. Journal of Korean Society for Quality Management 53(3):249–264.
Ke G., Meng Q., Finley T., Wang T., Chen W., Ma W., Ye Q., Liu T. Y.. 2017;LightGBM: A highly efficient gradient boosting decision tree. Proceedings of the Advances in Neural Information Processing Systems (NeurIPS) :3146–3154.
Lee M. S., Oh J. H., Kim C. Y., Bae J. H., Kim Y. D., Jee C. K.. 2022;The Development of Rule-based AI Engagement Model for Air-to-Air Combat Simulation. Journal of the Korea Institute of Military Science and Technology 25(6):637–647.
Lee R., Han D. I., Jung N. H.. 2025;LLM-based Hyper parameter Tuning Framework for Time Series Forecasting: A Case Study on Seoul Air Quality Data. Journal of Korean Society for Quality Management 53(3):343–360.
Legendre A. M.. 1805. Nouvelles méthodes pour la détermination des orbites des comètes Paris: F.Didot.
National Information Society Agency (NIA). 2025. AI training dataset quality management guideline v3.5 [Internet] Sejong (KR): NIA. [cited 2025 Oct 28]. Available from: https://www.nia.or.kr/site/nia_kor/ex/bbs/View.do?cbIdx=26537&bcIdx=28106&parentSeq=28106.
Northcutt C., Jiang L., Chuang I.. 2021;Confident learning: Estimating uncertainty in dataset labels. Journal of Machine Learning Research 22(1):1–64.
Park J. S., Park H. J.. 2024;Enablers and Inhibitors of Generative AI Usage Intentions in Work Environments. Journal of Korean Society for Quality Management 52(3):509–527.
Prokhorenkova L., Gusev G., Vorobev A., Dorogush A. V., Gulin A.. 2018. CatBoost: unbiased boosting with categorical features. In : Proceedings of the Advances in Neural Information Processing Systems(NeurIPS); Dec 3–8; Curran Associates Inc; Red Hook, NY, USA: p. 6638–6648.
Rumelhart D. E., Hinton G. E., Williams R. J.. 1986;Learning representations by back-propagating errors. Nature 323(6088):533–536.
Seo H. J., Byun J. H., Kim D. H.. 2021;Quality 4.0: Concept, Elements, Level Evaluation and Deployment Direction. Journal of Korean Society for Quality Management 49(4):447–466.
Seo S. H., Park J. Y., Jeong M. K., Lee W. Y., Choi E. J.. 2023;A Study on AI-based Weapon System Data Quality Evaluation Indicators. Journal of the Korea Academia-Industrial cooperation Society 24(9):539–546.
Shin Y. K., Roh J. H., Ahnm S. B., Jang H. W., Jeon H. C.. 2025;Probabilistic AI-Based Prediction of Missile Target Selection, Launch Intent and Post-Engagement Behavior. Journal of The Korea Society of Computer and Information 30(5):59–68.
Zhang C., Bengio S., Hardt M., Recht B., Vinyals O.. 2021;Understanding deep learning (still) requires rethinking generalization. Communications of the ACM 64(3):107–115.

Article information Continued

Figure 1

Life Cycle-based Quality Management System and Quality Management Framework

Figure 2

Data Quality Models of ISO/IEC 25012 and ISO/IEC 5259

Figure 3

CRISP-DM Methodology and Data Life Cycle-based Procedure

Figure 4

Research Model for the Proposed Method based on Revised CRISP-DM Methodology

Figure 5

Engagement Flow of CMS

Figure 6

A Practical Example of Disposability Checklist

Figure 7

Overall Architecture of the Proposed Method

Figure 8

Configuration of Synthetic Data Generator Equipped with Intelligent CMS Module

Table 1

Representative Models for Machine Learning

Category Model Year Description Study
Linear Linear Regression 1805
  • - A regression model that assumes a linear relationship between independent and dependent variables and estimates the parameters using the method of least squares

Legendre, A.M. (1805)
Logistic Regression 1958
  • - A probabilistic model applying a sigmoid function to a linear combination of inputs to resolve binary classification

Cox, D.R. (1958)
Bagging Random Forest 2001
  • - An ensemble model that trains multiple decision trees generated through bootstrap sampling

  • - It aggregates their predictions via averaging for regression tasks or voting for classification tasks

Breiman, L. (2001)
Extra Trees 2006
  • - A variant of the Random Forest model that introduces greater randomness by employing randomly selected split thresholds at each node during tree construction

Geurts, P. et al. (2006)
Boosting XGBoost 2016
  • - An optimized implementation of gradient boosting that maximizes performance and computational efficiency

Chen, T. et al. (2016)
LightGBM 2017
  • - A gradient boosting method that employs a leaf-wise tree growth strategy and a histogram-based algorithm for efficient training and enhanced accuracy

Ke, G. et al. (2017)
CatBoost 2018
  • - A gradient boosting algorithm that incorporates Ordered Target Statistics for efficient handling of categorical variables and employs Ordered Boosting to mitigate prediction bias

Prokhorenkova, L. et al. (2018)
Neural Network ANN 1986
  • - A feedforward neural network composed of an input layer, one or more hidden layers, and an output layer

Rumelhart, D.E. et al. (1986)
DBN 2006
  • - A generative model and deep neural network constructed by stacking multiple Restricted Boltzmann Machines

Hinton, G.E. et al. (2006)
Transformer FT-Transformer 2021
  • - A model that tokenizes all features, including categorical and numerical ones, and processes them using a Transformer architecture

Gorishniy, Y. et al. (2021)
TabPFN 2023
  • - Meta-learning a pretrained Transformer to approximate Bayesian inference on large-scale synthetic datasets

Hollmann, N. et al. (2023)

Table 2

List of Data-driven Quality Management Standards and Guidelines

No. Group Number Guideline/Standard Name Year
1 Ministry of Science and ICT, NIA Guideline v1.0
  • - Guideline for Quality Management of AI Training Data

  • - Handbook for Building Artificial Intelligence Training Dataset

2021
2 Guideline v2.0
  • - Guideline for Quality Management

  • - Handbook for Building Data

2022
3 Guideline v3.0
  • - Guideline for Quality Management

  • - Construction Guideline – Prepare Deliverables

2023
4 Guideline v3.1
  • - Guideline for Quality Management

  • - Guideline for Data Quality Management in Foundation Models

2024
5 Guideline v3.5
  • - Guideline for Quality Management of Training Data for AI

  • - Guide for Constructing AI Data v3.5

  • - Guideline for Quality Management of Generative AI Data

2025
6 ISO/IEC JTC 1/SC 7 ISO/IEC 25012:2008
  • - Software engineering — Software product Quality Requirements and Evaluation (SQuaRE) — Data quality model

2008
7 ISO/IEC JTC 1/SC 42 ISO/IEC 5259:1
  • - Data quality for analytics and ML — Part 1: Overview, terminology, and examples

2024
8 ISO/IEC 5259:2
  • - Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 2: Data quality measures

2024
9 ISO/IEC 5259:3
  • - Data quality for analytics and ML — Part 3: Data Quality Management Requirements and Guidelines

2024
10 ISO/IEC 5259:4
  • - Data quality for analytics and ML — Part 4: Data quality process framework

2024
11 ISO/IEC 5259:5
  • - Artificial intelligence — Data quality for analytics and machine learning (ML) — Part 5: Data quality governance

2025

Table 3

Major Functions of Traditional CMS and Pre-defined Intelligent CMS

Category Sequence Major Function Definition
Traditional CMS Intelligent CMS
Detect 1 Target Detection Intelligent Sensor Detection
  • - Automatic adjustment of sensor(EOTS, IRST, Radar, IFF, Sonar, etc.) data transferred to CMS in order to enhance target detection efficiency

2 Target Identification Intelligent Target Classification
  • - Perform classifying various target classes detected and reporting to CMS

Control 3 Threat Analysis Intelligent Threat Assessment
  • - Automatic assessment score of the identified targets based on the ship's operational context (engage capabilities, available weapon, etc.) instead of operator’s decision

4 Weapon Assignment Intelligent Weapon Assignment
  • - Assignment of optimal available weapons to targets for effective engagement among the weapons on own ship

Engage 5 Engagement Intelligent Weapon Control
  • - Automated weapon control to maximize hit probability, including gunfire trajectory adjustment and reassignment of weapons to targets

6 Hit Assessment Intelligent Hit Assessment
  • - Assessment of enemy engage capabilities during fight to determine own ship’s next action(re-engagement, evasion maneuvers, surveillance, etc.)

Table 4

Categories and Metrics for Intelligent CMS Train Data Quality Management

Category (High-level) Category (Mid-level) No. Intelligent CMS Train Data Quality Management Metric
Inherent Quality Consistency 1 Accuracy
2 Integrity
Validity 3 Formatvalidity
4 Generality
Uniqueness 5 Non-Redundancy
Credibility 6 Reliability
Availability 7 Quantitativeness
8 Completeness
Dependent Quality Fairness 9 Environmental Diversity
10 Distribution Diversity
Timeliness 11 Freshness
Usability 12 Usefulness
Operational Quality Clarity 13 Understandability
Traceability 14 Traceability
Security 15 Accessibility
16 Classification
17 Disposability

Table 5

Features of Intelligent CMS Datasets for Sensor Detection Function

Function/Task Input (feature) Type Output (target) Type Train Size Test Size
Intelligent Sensor Detection/Regression temperature Numeric sensor_adjust Numeric (Continuous) 8000 2000
humidity Numeric
wind_dir Numeric
wind_speed Numeric
air_pressure Numeric
wave_height Numeric

Table 6

Model Parameters for Experimental Evaluation

Model Parameters Description Value
Random Forest n_estimators
  • - Number of trees in the forest.

200
max_depth
  • - Maximum depth of each tree.

None
max_features
  • - Fraction of features considered when splitting.

1.0
min_samples_split/leaf
  • - Minimum samples required to split a node and minimum samples required at a leaf node.

2/1
XGBoost n_estimators
  • - Number of boosting trees.

200
max_depth
  • - Maximum depth of each tree.

6
learning_rate
  • - Step size shrinkage.

0.3
gamma
  • - Minimum loss reduction required to make a further partition on a leaf node of the tree.

0.0
LightGBM n_estimators
  • - Number of boosting trees.

200
num_leaves
  • - Maximum number of leaves per tree.

31
learning_rate
  • - Step size shrinkage.

0.1
min_data_in_leaf
  • - Minimum number of samples in a leaf.

20
CatBoost iterations
  • - Number of boosting trees.

200
depth
  • - Maximum depth of each tree.

6
learning_rate
  • - Step size shrinkage.

0.1
l2_leaf_reg
  • - L2 regularization term on leaf weights.

3.0
MLP hidden_layer_sizes
  • - Number of neurons in the hidden layer.

(128, 64)
activation
  • - Activation function.

‘relu’
solver
  • - Optimizer used.

‘adam’
learning_rate_init
  • - Initial learning rate for weight updates.

0.001
TabPFN device
  • - Device(GPU/CPU) used.

CPU
model_path
  • - Path to the stored model file.

// Pre-trained

Table 7

Results of Experiments based on Intelligent Dataset(Intelligent Sensor Detection)

No. Metric Quality Score (High-Quality) Quality Score (Low-Quality) Threshold Grade Training Data Quality Management (Recommendation Activity)
1 Accuracy 58.826 50.742 ≥70% (PASS) FAIL
  • - Re-evaluate after performing an inspection to see if it violates the predefined type, range, etc.

2 Integrity 60.000 42.138 FAIL
  • - Re-evaluate after performing inspections to see if it violates real-world constraints.

3 Formatvalidity (Format is assumed fulfilled) -
  • - Continue to verify compliance with the format and metadata (label) of the data file

4 Generality (Generality is assumed fulfilled) -
  • - Continue to verify that data collected from different types is well integrated based on schema

5 Non-Redundancy 50.000 70.240 PASS -
6 Reliability (Diversity is assumed fulfilled) -
  • - Aiming to build a dataset using actual military-owned data for intelligent combat system performance

7 Quantitativeness 100.00 50.000 FAIL
  • - Re-evaluate after additional or re-collection of 50% deficient data

8 Completeness 100.00 76.184 PASS -
9 Environmental Diversity (Diversity is assumed fulfilled) -
  • - Continue to verify that the diversity of agreed environment is fully considered

10 Distributional Diversity 85.885 69.829 PASS
  • - Additional data is collected and re-evaluated to satisfy input and output diversity

11 Freshness 53.708 00.000 FAIL
  • - Re-evaluate after building a new dataset, not exceeded maximum elapsed time

12 Usefulness 76.823 43.750 FAIL
  • - Review additional inputs in the dataset and re-evaluate defined features and output selection are correct

13 Understandabilit y (Understandability is assumed fulfilled)
  • - View detailed descriptions of each feature and continue with an expert-based checklist

14 Traceability (Traceability is assumed fulfilled)
  • - Continuous traceability management for data taxonomy and the AI model’s efficiency

15 Accessibility (Accessibility is assumed fulfilled)
  • - Continue to verify that appropriate access controls are being performed on the dataset according to operator privileges

16 Classification (Classification is assumed fulfilled)
  • - Ensure security levels are classified for each data

17 Disposability (Disposability is assumed fulfilled)
  • - Establish checklists for data disposal and verify continuity

Table 8

Performance Results for two types of datasets

Model Quality RMSE (↓) MAE (↓) MAPE(%) (↓)
Random Forest High 0.928439 0.587602 4.82625
Low 5.762843 4.714635 40.07908
XGBoost High 0.892832 0.54348 4.474684
Low 5.219491 4.333006 37.78831
LightGBM High 0.792369 0.452767 3.682943
Low 5.145779 4.283232 37.69055
CatBoost High 0.754714 0.399592 3.333539
Low 5.10109 4.253075 37.63206
MLP High 0.652749 0.277596 2.413616
Low 5.093923 4.249972 37.60291
TabPFN High 0.622477 0.208251 1.790118
Low 5.089796 4.247974 37.57011