토픽모델링을 이용한 러닝 앱 리뷰 감성분석

Sentiment Analysis of Running App Reviews Using Topic Modeling

Article information

J Korean Soc Qual Manag. 2025;53(1):19-32
Publication date (electronic) : 2025 March 31
doi : https://doi.org/10.7469/JKSQM.2025.53.1.19
*Department of Industrial Engineering, Konkuk University
박준성*, 남수연*, 이찬호*, 구성모*,
*건국대학교 산업공학과
Corresponding Author(koo010223@gmail.com)
Received 2024 December 13; Revised 2025 January 2; Accepted 2025 January 23.

Trans Abstract

Purpose

This study aims to identify the reasons behind the lower ratings of ‘Nike Run Club’ in the Korean market and suggest enhancements to improve its competitive edge.

Methods

A total of 17,764 Google Play Store reviews were collected and analyzed through web scraping. LDA topic modeling and sentiment analysis were applied, with the results integrated into the Kano model and PCSI index.

Results

The LDA analysis identified four main topics: Error (App Stability), Workout Features, App Features/Compatibility, Beginner. These topics revealed key customer requirements, which were prioritized to compare and analyze Nike Run Club against competing applications.

Conclusion

This study highlights essential requirements and preferences of running app users, offering insights that support future development and service improvements. These findings are relevant not only to the running app market but also have broader applicability across similar sectors.

1. 서 론

2020년대 초부터 시작된 달리기 열풍으로 2024년 현재까지 해가 거듭될수록 국내 달리기 시장은 눈에 띄게 성장하고 있다. 이 트렌드에 맞춰 러닝포인트에서 출시한 ‘랭킹마라톤’, JTBC 마라톤 주관사 러너블에서 출시한 ‘러너블’, 스타트업 킵고잉에서 제작한 ‘런잇’, 서울시 러너스테이션 운영사 (주)프라이빗에서 제작한 ‘RUNPLE’ 등 다양한 러닝 전용 앱이 한국 시장에 출시되어 한국 러너(Runner) 이용자들을 붙잡기 위해 경쟁을 벌이고 있다.

이 중 ‘Runday’와 ‘Nike Run Club’은 대표적인 러닝 앱으로, 많은 한국인 사용자들의 리뷰를 통해 그 유용성을 평가받고 있다. ‘Nike Run Club’은 글로벌 스포츠 의류 브랜드 ‘Nike’가 2014년 글로벌 시장에 출시하여 한국에서 주류 러닝 앱으로 자리 잡았고, ‘Runday’는 2015년 한국의 게임개발사 한빛소프트에서 출시하여 주로 한국 러너들을 대상으로 하고 있다. 그러나 ‘Nike Run Club’은 한국 구글 플레이스토어 러닝 앱 중 1위로 한국에서 많이 사용되는 러닝 앱임에도 불구하고, 구글 플레이스토어에서 별점 4.1점으로 ‘Strava(4.3점)’나 ‘Runday(4.7점)’ 앱에 비해 별점이 낮고 상대적으로 불만이 많은 한국어 사용자 리뷰를 확인할 수 있었다. 따라서 본 연구에서는 텍스트 리뷰 데이터를 활용하여 사용자 요구사항을 분석하고 이를 제품 설계에 반영하는 방법론을 제시하고자 한다. 이를 실증적으로 검증하기 위해 ‘Nike Run Club’과 ‘Runday’를 사례로 활용하였다.

사용자 리뷰는 소비자의 직접적인 경험을 반영하는 중요한 정보원으로, 이들을 분석하여 제품과 서비스의 개선점을 도출하는 것은 매우 중요하다. 본 연구에서는 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 활용하여 ‘Runday’와 ‘Nike Run Club’의 구글 플레이스토어 리뷰에서 다중 토픽을 추출하고, 각 토픽 별로 리뷰에 드러난 이용자의 감성을 분석한다. 이를 통해 사용자들이 앱에 대해 느끼는 긍정적 및 부정적 감정을 세부적으로 파악하고, 카노 모형(Kano Model)과 잠재적 고객 만족 개선지수(Potential Customer Satisfaction Improvement Index, PCSI Index)를 적용하여 도출된 고객 요구사항과 만족도를 분석해 러닝 앱의 품질 개선 방향을 제시하고자 한다.

카노 모형은 1980년대 일본의 품질 관리 전문가 노리아키 카노(Noriaki Kano)가 제안한 이론으로, 고객 만족과 제품 또는 서비스의 품질 요소 간의 관계를 체계적으로 분석하는 데 사용된다. 이 모형은 고객 요구를 당연적 요구, 일원적 요구, 매력적 요구의 세 가지 범주로 분류하여, 기업이 고객 만족도를 높일 수 있는 전략적 방향을 제시한다. 이를 통해 기업은 고객의 다양한 요구를 이해하고, 이를 바탕으로 제품과 서비스를 개선하여 경쟁력을 강화할 수 있다.

또한 사용자 리뷰에서 도출한 고객 만족도의 종합적인 이해를 위해 PCSI Index 모형도 적용한다. PCSI Index 모형은 제품(Product), 콘텐츠(Content), 서비스(Service), 이미지(Image)라는 네 가지 핵심 요소를 통해 고객 만족도를 평가하는 다차원적 접근법으로, 현재의 만족 수준을 바탕으로 고객의 만족도가 어느 정도까지 높아질 수 있을지를 계산하여 정확하고 실질적인 고객 만족도 개선 방안을 제공할 수 있다(Lim and Park, 2010).

따라서 본 연구에서는 LDA 기반 감성분석 기법으로 한국에서 가장 많이 사용되는 러닝 앱 ‘Nike Run Club’과 ‘Runday’의 구글 플레이스토어 한글 리뷰에서 추출한 고객 요구사항과 만족도를 바탕으로 앱의 강점과 약점을 파악하고, 한국 사용자들을 대상으로 한 러닝 앱의 품질 개선 전략을 제시하고자 한다.

이를 통해 본 연구에서는 다음과 같은 세 가지 연구 목표를 달성하고자 한다. 첫째, ‘Runday’와 ‘Nike Run Club’ 앱의 사용자 리뷰를 분석하여 주요 토픽과 감성의 패턴을 파악한다. 둘째, 카노 모형과 PCSI Index 모형을 적용하여 각 앱의 강점과 약점을 체계적으로 비교한다. 셋째, 분석 결과를 토대로 품질 개선 방향을 제시하여, 한국 사용자들의 만족도를 높이고 시장 경쟁력을 강화할 수 있는 방안을 모색한다.

2. 이론적 배경 및 선행연구

2.1 Latent Dirichlet Allocation(LDA)

토픽모델링(Topic Modeling)은 주어진 문서 집합 내에서 잠재된 토픽을 자동으로 추출하고 식별하는 텍스트 마이닝(Text Mining) 기법으로, 주로 대규모 텍스트 데이터에서 패턴을 찾아내고, 문서들이 어떤 토픽들로 구성되어 있는지 분석하는데 사용된다. 이때 토픽모델링은 두 가지 기법으로 분류된다. 먼저, 잠재 의미 분석(Latent Semantic Analysis, LSA)은 단어-문서 행렬에 특이값 분해(SVD)를 활용해 문서와 단어의 잠재적 의미 관계를 추출하는 기법으로 주로 정보 검색과 자연어 처리에 사용된다(Deerwester et al., 1990). LDA는 토픽모델링 기법 중 가장 널리 사용되는 방법으로 Blei et al.(2003)에 의해 제안되었으며, 문서 내 잠재된 토픽을 발견하고 단어별 관련성에 따라 토픽별로 단어를 구분하는 방법이다. 특히 LDA를 사용하면 대규모의 비구조화된 텍스트 데이터에 잠재되어있는 주요 토픽을 효과적으로 추출할 수 있다.

LDA는 두 가지 주요 변수인 토픽의 단어 분포와 문서의 토픽 분포를 결합하여 확률 분포를 모델링한다. 두 변수 모두 양의 실수를 요소로 가지며, 모든 요소를 더한 값이 1이 되는 사전 분포인 디리클레 분포(Dirichlet Distribution)를 따른다고 가정한다. 각 문서는 여러 토픽의 혼합으로 구성되어 있으며, 각 토픽은 특정 단어 분포를 따른다고 정의된다. 디리클레 매개변수인 αβ는 각각 문서와 단어의 분포를 조절하는 역할을 하며, 보통 실험으로 최적의 값을 찾는다.

α는 문서별 토픽 분포에 영향을 주는 k차원 매개변수로, 각 문서별 토픽의 비율을 결정하는 역할을 한다. α값이 크면 문서가 여러 개의 토픽을 골고루 포함하기 때문에 각 문서에 다양한 토픽이 섞여 있게 된다. 반대로 α값이 작으면 문서가 소수의 토픽에 집중되는 경향이 있으므로, 각 문서가 1개 또는 소수의 주요 토픽만을 다루게 된다.

β는 토픽별 단어 분포에 영향을 주는 k × V 크기의 행렬 매개변수로, 각 토픽 별 단어 비율을 결정하는 역할을 한다. β값이 크면 각 토픽이 다양한 단어를 골고루 포함하게 되어 각 토픽 내에서 여러 단어가 고르게 나타나게 된다. 반대로 β값이 작으면 각 토픽이 소수의 단어에 집중되어 각 토픽이 특정 몇 개의 단어로 주로 표현되게 된다.

Figure 1은 LDA가 가정하는 문서 생성과정을 나타낸 것으로 각 변수와 그 상호 관계를 보여준다.

Figure 1.

Graphical model representation of LDA (Blei et al., 2003)

LDA는 단어들이 모여서 문서를 이루고, 문서들이 모여서 말뭉치를 이룬다고 가정한다. 단어, 문서, 말뭉치를 정의하면 다음과 같다.

단어(Word): 데이터의 기본 단위(the basic unit of discrete data, an item from a vocabulary)

{1, …, V}

문서(Document): N개의 단어들의 연속(a sequence of N words)

W = {w1, w2, ... , wN}

말뭉치(Corpus): M개의 문서들이 모인 집합(a collection of M documents)

D = {w1, w2, ... , wM}

또한 LDA는 말뭉치 D내의 각각의 문서 W가 다음과 같은 생성과정에 의해 만들어졌다고 가정한다.

1. 총 단어 개수 N ~ Poisson(ξ)를 선택한다.

2. Topic Mixture θ ~ Dir(α)를 선택한다.

3. 문서 내의 단어 wn∈w에 대해서

a) 토픽 zn ~ Multinomial(θ)를 선택한다.

b) 토픽 zn이 주어졌을 때 단어 wnp(wn|zn, β)로부터 선택한다.

LDA는 세 가지 수준(level)으로 나눌 수 있다. 먼저, 앞서 설명한 매개변수 αβ는 말뭉치 수준의 매개변수로, 말뭉치를 생성하는 과정에서 디리클레 분포에서 한 번만 샘플링(Sampling)된다. 다음으로 k차원 디리클레 벡터 θ는 문서 수준의 변수로 문서마다 한 번씩 샘플링된다. 마지막으로 문서의 n번째 단어를 나타내는 단어변수 wnwn이 어떤 토픽으로부터 나온 것인지를 나타내는 토픽 변수 zn은 각 문서의 각 단어마다 한 번씩 샘플링된다. 이 가정을 바탕으로 LDA는 대규모 텍스트 데이터에서 각 문서가 어떤 토픽들로 구성되어 있는지 추정한다(Blei et al., 2003).

LDA를 활용하기 전에 먼저 결정해야 하는 토픽 개수와 관련하여, Röder et al.(2015)Mimno et al.(2011)는 일관성(Coherence)을 사용하여 최적의 토픽 개수를 선택하는 방법을 제안하였다. 일관성 모형(Coherence Model)은 토픽의 일관성을 측정하는데, 특정 토픽 내 자주 등장하는 단어들이 실제로 의미적으로 연결되어 있다면 일관성 점수(Coherence Score)가 높게 나오며 일반적으로 일관성 점수가 높을수록 더 좋은 성능의 모형임을 의미한다.

LDA 토픽모델링은 다양한 분야에서 활용되고 있는데, Joo et al.(2024)는 네이버 카페에 작성된 다량의 게시물을 기반으로 네이버 스마트 스토어에 대한 소상공인들의 주요 반응을 제시하였고, Oh & Cheong(2022)은 설문조사와 숏폼(Short-form) 광고에 게시된 소비자의 댓글 등 다량의 텍스트 데이터를 기반으로 온라인상의 숏폼 광고의 특성을 분석하였다. 또한, Park(2021)Amazon.com에서 Galaxy S20 스마트폰에 대한 상품평 데이터를 기반으로 고객들이 만족한 주요한 품질 속성들을 평가하였다. 그러나 앞서 언급한 선행연구에서는 텍스트의 주제를 효과적으로 파악하는 데 중점을 두어 중요한 시사점을 제공하였지만, 해당 주제에 대한 긍정적 또는 부정적 감정은 분석하지 않아 해당 주제의 감성적인 맥락을 깊이 있게 조명하지는 못하였다.

2.2 감성분석(Sentiment Analysis)

오피니언 마이닝(Opinion mining)이라고도 불리는 감성분석(Sentiment analysis)은 텍스트에서 감성 정보를 추출하는 자연어 처리(Natural Language Processing, NLP) 기법이다. 감성분석은 주로 문서 수준, 문장 수준, 토픽 수준에서 이루어지며, 고객 리뷰에 표현된 고객의 감성을 자동으로 식별하고 분류하여 고객들의 제품이나 서비스에 대한 태도, 의견, 호감도, 감정 등을 평가한다. 이는 주로 소셜 미디어 게시물, 제품 리뷰, 고객 피드백, 기사 등에서 텍스트의 주관적인 정보를 추출하고 분석하는데 사용된다(Liu, 2012).

감성분석의 주요 방법에는 감성사전 기반 접근법, 기계 학습 기반 접근법, 딥 러닝 기반 접근법이 있는데, 특히 딥 러닝 기반 접근법은 최근 감성분석에서 가장 활발하게 사용되고 있는 기법이다. 딥 러닝 기반 접근법은 순환 신경망(RNN), 장단기 메모리(LSTM), 게이트 순환 유닛(GRU) 등의 모델과 BERT(Bidirectional Encoder Representations from Transformers)와 같은 인공 신경망을 사용하여 문맥을 이해하고 감정을 분석하는 방법으로, 특히 복잡한 문맥과 비유적 표현을 처리하는 데 강점을 갖고 있기 때문에 최근에 가장 널리 사용되는 감성분석 기법이다(Young et al., 2018). 종합 IT 기업 Google에서 개발한 BERT는 문맥을 단방향으로 이해하는 다른 기법들과 달리 문맥을 양방향에서 이해하여 단어가 문장 내에서 가지는 의미를 더 정확하게 이해하는 강점을 가지고 있어 정확한 감성분석이 가능하여 널리 사용되고 있는 딥 러닝 기법이다(Devlin et al., 2019).

그러나 BERT는 주로 영어를 기반으로 학습된 모델이기 때문에 한국어와 같은 비영어권 텍스트 데이터의 특성을 반영하여 분석하는데 한계가 존재한다. 이를 해결하기 위해 한국의 통신 기업 SK텔레콤에서 한국어에 특화된 BERT 모델인 KoBERT(Korean Bidirectional Encoder Representations from Transformers)를 개발하였다. KoBERT는 뉴스나 위키피디아 등에서 수집한 수백만 개의 한국어 문장으로 구성된 대규모 말뭉치로 학습된 모델로 한국어의 불규칙한 언어 변화의 특성을 반영해주어 한국어 텍스트 감성분석에 널리 사용되고 있다.

한편 최근에는 LDA 기반 감성분석을 이용하여 사용자 의견을 도출하고자 하는 연구들이 진행되고 있다. Cui & Jung(2023)은 LDA를 활용하여 미국 소매업체 사이트의 고객 리뷰에서 고객 요구사항을 추출하고, 감성분석을 통해 러닝화 개발을 위한 지침을 제시하였다. Lee & Moon(2024)은 ‘XIAOMI’ 키워드를 기반으로 다양한 웹사이트에서 데이터를 수집하고, 감성분석을 통해 샤오미에 대한 소비자의 인식을 파악하였다. 또한, Hong et al.(2018)은 ‘TripAdvisor’에서 전 세계 주요 관광지의 호텔 리뷰 데이터를 수집하고, 고객의 주요 감성을 파악하고, 서비스 개선을 위한 전략적 통찰을 제공하였다. 그러나 이들 기존연구에서는 고객 요구사항을 주관적으로 평가한다는 한계가 있다. 본 연구에서는 PCSI Index 모형을 활용하여 고객 만족도를 정량화함으로써 객관적이고 신뢰성 있는 분석을 제시하고자 한다.

3. 앱 리뷰 모델링 및 분석

본 연구에서는 두 러닝 앱에 대한 리뷰 텍스트 데이터를 비교 분석하기 위해 LDA와 감성분석 기법을 적용하였다.

3.1 LDA

3.1.1 데이터 수집

데이터는 구글 플레이 스토어의 리뷰를 크롤링하여 수집하였다. 기간을 2019년 1월 1일부터 2024년 3월 31일까지로 설정해 selenium 패키지를 사용하여 한국어 리뷰만을 추출한 결과, ‘Nike Run Club’에서는 5,780개, ‘Runday’에서는 11,984개의 리뷰를 얻을 수 있었다.

3.1.2 데이터 전처리

수집한 데이터를 바탕으로 전처리 과정을 수행하였다. Konlpy와 Pykospacing 패키지를 사용하여 데이터 정규화, 띄어쓰기 교정, 토큰화, 불용어 제거 및 명사 추출 과정을 통해 텍스트 데이터를 정제하고 가공하였다. 분석 결과는 워드 클라우드(Word Cloud)로 시각화하여 주요 키워드와 그 빈도를 시각적으로 명확히 나타내었다.

워드 클라우드를 통해 ‘Nike Run Club’의 리뷰(Figure 2)에서는 ‘로그인’, ‘기록’, ‘어플’, ‘오류’, ‘계속’, ‘사용’ 등의 단어가 가장 많이 사용되었음을 확인할 수 있었으며, ‘Runday’의 리뷰(Figure 3)에서는 ‘달리기’, ‘운동’, ‘어플’, ‘기록’ 등의 단어가 가장 많이 사용되었음을 확인할 수 있었다.

Figure 2.

‘Nike Run Club’ Word Cloud

Figure 3.

‘Runday’ Word Cloud

3.1.3 LDA 기반 토픽 추출

토픽 개수를 선정하기 위해 일관성 모형(Coherence Model)을 사용하여 토픽 최적화를 진행하였다. 이는 토픽이 얼마나 일관성이 있는지 판단하고자 하는 모델이고, 값이 크게 나타날수록 의미론적 일관성이 높게 나타난다는 것을 의미한다. LDA 모델에서 반복 횟수를 100으로 두었을 때 일관성 점수는 Figure 4와 같고, 일관성 점수가 최대인 0.57에 대응하는 파라미터 값은 α = 0.05, β = 0.01, K = 4이었다. 따라서 토픽 개수가 4개일 때 의미론적 일관성이 높게 나타난다고 판단하여 토픽 개수를 4개로 설정하였다.

Figure 4.

Coherence Chart

3.1.4 토픽모델링 결과 시각화(LDAvis)

LDAvis는 LDA 모델의 학습 결과를 시각적으로 해석하기 위한 라이브러리로, Sievert & Shirley(2014)는 토픽에 대해서와 토픽이 서로 어떻게 다른지에 대한 전체적인 관점을 제공하는 동시에 각 개별 토픽과 가장 연관성이 높은 용어를 심층적으로 분석할 수 있도록 LDAvis 모델을 제안하였다.

Figure 5는 LDA 결과를 LDAvis로 시각화한 자료로 토픽 모델의 전체적인 관점을 제시하며 각 토픽 간의 유사도와 각 토픽이 말뭉치 중 얼마만큼을 차지하는지 원의 크기를 통해 상대 크기를 나타낸다(Sievert and Shirley, 2014). 이때 각 원에 해당하는 토픽은 Table 1과 같다. 토픽 1과 3은 가까운 위치에 있어 앱 자체에 대한 유사한 특성을 공유하고 있으나 각 토픽은 앱의 기술적 오류와 기능 및 호환성이라는 서로 다른 범주로 구분될 수 있어 분류하여 연구를 진행하였다. 반면, 토픽 2와 4는 러닝과 관련된 특성을 보이므로 서로 떨어져 있다.

Figure 5.

Visualization of the results of topic modeling

Results of topic modeling

3.1.5 토픽모델링 결과

‘Runday’와 ‘Nike Run Club’ 서비스에 대한 리뷰 전체(17,764개)를 대상으로 토픽모델링을 실시하였다. LDA 토픽모델링 분석을 통해 최종적으로 도출된 토픽은 총 4개로, 각 토픽은 ‘오류(앱 안정성)’, ‘운동 기능’, ‘앱 기능 및 호환성’, ‘초보자’라는 내용을 포함한다. Table 1은 각 토픽을 구성하는 상위 20개의 키워드를 보여주는 표이다.

토픽모델링 결과는 러닝 앱 관련 특성들을 토대로 각 토픽별로 소비자의 요구사항들을 제시한다. ‘오류(앱 안정성)’ 토픽에서는 ‘로그인’, ‘종료’, ‘로딩’, ‘접속’ 등의 키워드를 통해 예기치 않게 종료되거나 멈추는 현상을 최소화해 안정성을 향상시키는 것이 중요함을 강조한다. ‘운동 기능’ 토픽은 ‘음성’, ‘트레이너’, ‘설명’ 등의 키워드로 사용자가 운동 중 실시간 지도를 받기를 원하는 요구가 높다는 것을 보여준다. ‘앱 기능 / 호환성’ 토픽은 ‘기록’, ‘워치’, ‘연동’ 과 같은 키워드를 통해 스마트 워치와의 연동성뿐 아니라 운동 기능 외 다양한 기능에 대한 소비자의 관심을 반영한다. ‘초보자’ 토픽은 ‘처음’, ‘코스’, ‘프로그램’ 등의 키워드를 통해 사용자별 맞춤 프로그램의 중요성을 강조한다.

3.2 감성분석

3.2.1 훈련데이터 수집

감성분석을 수행하기 앞서 AI Hub에서 모델을 학습시키기 위한 훈련 데이터를 수집하였다. ‘감성대화말뭉치’에서는 train 데이터 51,627개, test 데이터 6,640개를 수집하였는데, 본 연구에서는 긍정/부정/중립의 감정만을 평가할 것이기 때문에 분노/슬픔/불안/상처/당황의 감정은 부정의 감정으로 새롭게 인덱스 해주었고, 기쁨의 감정은 긍정의 감정으로 인덱스 해주었다. 그러나 해당 데이터셋에는 중립의 감정을 포함되어 있지 않아, ‘한국어 감정 정보가 포함된 단발성 대화 데이터셋’에서 train 데이터 30,875개, test 데이터 7,719개를 추가로 확보하였다. 마찬가지로 본 연구에 필요한 감정만을 평가하기 위해 공포/놀람/분노/슬픔/혐오의 감정은 부정의 감정으로, 행복의 감정은 긍정의 감정으로, 중립의 감정은 중립의 감정으로 새롭게 인덱스 해주었다. 최종적으로 두 데이터셋을 감정의 인덱스에 맞추어 병합해, train 데이터 82,502개, test 데이터 14,359개로 사전 학습을 진행하였다.

3.2.2 학습

감성분석은 선행연구에서 언급했던 한국어 기반 성능이 좋은 KoBERT 모델을 사용하였다. 학습 시 사용한 하이퍼 파라미터는 아래 Table 2와 같다. 하이퍼 파라미터는 사용자가 직접 지정하는 초매개변수로, 특히 epoche의 경우는 early stopping 기능을 추가해 정확도가 2번 연속 개선되지 않을 경우 멈추도록 설정하였다. 수집한 리뷰 데이터를 사전 학습된 모델을 이용해 파인 튜닝하여 학습한 결과, 본 연구에서 정확도는 92.4%, 정밀도는 91.8%, 재현율은 92.4%, F1-score는 91.4%를 기록하였다.

Hyperparameters used in training the KoBERT model

3.2.3 감성분석 결과

위 토픽모델링 결과를 중심으로 감성분석을 진행한 결과, 아래 Table 3, Table 4와 같은 결과가 나왔다. 감성 점수는 5점 척도로 (해당 토픽 내 부정 리뷰 비율 x 0) + (해당 토픽 내 중립 리뷰 비율 x 2.5) + (해당 토픽 내 긍정 리뷰 비율 x 5)의 방식으로 도출해냈다.

‘Nike Run Club’ Sentiment score

‘Runday’ Sentiment score

전반적으로 ‘Nike Run Club’의 감성점수가 ‘Runday’의 감성점수보다 뒤쳐지고 있지만, 특히 Topic2(운동기능)와 Topic4(초보자)에서 감성점수가 현저히(1점 이상) 더 낮은 모습을 보이고 있다. 또한 ‘Nike Run Club’과 ‘Runday’에서 공통적으로 Topic1(오류(앱안정성))과 Topic3(앱 기능/호환성)에서 감성점수가 매우 낮은 모습을 보이고 있다.

4. 고객 요구속성 우선순위 결정

4.1 카노 모델(Kano Model)

본 연구에서는 ‘Runday’와 ‘Nike Run Club’의 구글 플레이스토어 리뷰에 대해 LDA 토픽모델링을 진행한 후, 토픽별로 주로 언급된 주요 고객 요구사항을 브레인스토밍하여 Table 5와 같이 8개의 품질 요구사항으로 선정하였다.

Customer requirements for running application

이후 품질 요소들을 분류하기 위해 Kano(1984)가 제안한 설문조사지법을 사용하였다. 설문의 모든 문항은 긍정적, 부정적 질문을 짝으로 하여 조사하였다. 품질 요소에 대한 긍정적, 부정적 질문에 대한 답변은 다음의 평가 이원표를 고려하여 해석할 수 있다. Table 6은 러닝 애플리케이션의 로그인 기능에 대한 설문지 조사 방법의 예이다.

Kano survey method

고객 요구사항에 대한 긍정적 질문과 부정적 질문의 대답은 Table 7과 같은 평가 이원표에 의해 해석할 수 있다. 최종 품질특성은 설문조사 결과를 통해 가장 많은 응답을 해당 품질 요구사항의 품질특성으로 정의한다(Kano et al., 1984).

Kano evaluation two-dimensional matrix (Nam et al., 2023)

본 설문조사는 ‘Runday’, ‘Nike Run Club’, ‘러너블’ 등 러닝 앱을 사용해본 경험이 있는 한국어 사용자 109명을 대상으로 설문을 실시하였다. 설문 결과 ‘로그인'은 109명의 응답자 가운데 58명이 당연적 품질로 가장 많은 답변이 되었음으로 당연적 품질이 된다.

이러한 방식으로 109개의 응답을 분석한 결과, 당연적 품질은 ‘로그인’, ‘튕김’, ‘기록저장’, 일원적 품질은 ‘GPS’, ‘스마트워치’, 매력적인 품질은 ‘챌린지’, ‘맞춤형 훈련 프로그램’, 무관심한 품질은 ‘트레이너’로 분류되었다.

8개의 품질 요구사항 중 당연적 품질로 선정된 항목을 보면, 로그인, 튕김 현상 등 앱 안정성과 관련된 오류에 해당한다. 일원적 품질은 실제 달리기를 할 때 영향을 줄 수 있는 GPS와 스마트 워치 연동성이 포함되었다. 매력적인 품질은 러닝 앱의 기본적인 기능 외에 챌린지, 맞춤형 훈련 프로그램과 같이 부가적인 기능들이 선택되었으며, 운동 중 음성으로 도움을 주는 트레이너 기능은 무관심 품질로 분류되었다.

카노의 품질특성에 대한 이원적 분석은 동일한 품질인식에서 갖는 차이를 구분할 수 있는 방법이 부족했다. 이를 해결하기 위해, 고객이 제품이나 서비스를 접했을 때 고객의 만족 정도가 어느 정도 올라갈 수 있고, 제품의 상태가 불만족 되었을 때 어디까지 떨어질 수 있는지를 파악한 계수인 고객만족계수를 사용하였다(Lim and Park, 2010). 고객만족계수에서 만족 및 불만족의 영향정도를 산출하기 위해 카노 품질분석을 통해 파악한 매력적, 일원적, 당연적, 무관심 품질의 설문 결과를 사용하였다.

물리적 내용이 충족되었을 때 만족의 크기에 영향을 미치는 매력적 품질과 일원적 품질을 더하고 이를 고객의 품질형태에 많은 영향을 미치는 매력적, 일원적, 당연적, 무관심 품질을 합한 값으로 나누어 정규화하였다. 불만족계수를 산정하기 위해서는 만족계수와 분모는 동일하게 사용하고 불만족에 영향을 미치는 일원적 품질과 당연적 품질의 합을 분자로 계산한 후 음의 값을 취한 값으로 불만족계수를 계산하였다. 이를 식으로 나타내면 다음과 같다. A는 매력적 품질로 응답한 수, O는 일원적 품질로 응답한 수, M은 당연적 품질로 응답한 수, I는 무관심 품질로 응답한 수를 나타낸다. 만족계수의 범위는 0에서부터 1까지이고, 불만족계수의 범위는 –1에서 0까지이다(Timko, 1993).

(1) 만족계수: A+OA+O+M+I
(2) 불만족계수: O+MA+O+M+I

4.2 잠재적 고객만족 개선 지수(PCSI Index 모형)

PCSI Index는 현재의 만족위치(P)에서 만족계수(S)까지의 거리를 나타낸다. PCSI Index를 구하는 과정은 다음과 같다. P는 현재의 만족 위치, S는 만족계수, D는 불만족계수, L은 현재의 만족수준, Max는 현재 만족도 수준의 설문 척도 중 가장 큰 값, Min은 현재 만족도 수준의 설문 척도 중 가장 작은 값을 나타낸다. 5점 척도로 현재의 만족도를 조사했기에, Max는 5, Min은 1이 된다. 식(3)은 만족 위치를 파악하기 위한 식으로, 이 값은 만족계수와 불만족계수에서 현재의 만족 위치를 파악한 값이다. 현재 만족 위치에서 만족계수까지의 차이만큼을 개선의 여지로 볼 수 있는 데, 이를 표현하면 식(4)와 같다(Lim and Park, 2010).

(3) P=(SD)(MaxL)MaxMin+D
(4) PCSI Index =SP

본 연구에서의 품질특성 및 만족, 불만족계수 값, PCSI Index값을 한 번에 나타내었을 때 Table 8과 같다.

PCSI Index result

PCSI Index값을 토대로 품질 요인의 우선순위를 나타낼 수 있는데, ‘스마트워치’, ‘기록저장’, ‘GPS’, ‘튕김’, ‘맞춤형 훈련 프로그램’, ‘로그인’, ‘챌린지’, ‘트레이너’ 순으로 나타남을 확인할 수 있다.

가장 마지막에 위치한 ‘트레이너’ 요인의 경우 무관심 품질특성을 갖고 있고, 상위 4개의 요인을 살펴보면 일원적 품질과 당연적 품질이 각각 2개씩으로 나타난다. ‘스마트워치’, ‘기록저장’, ‘GPS’, ‘튕김’은 일원적, 당연적 품질특성에 해당하지만 고객의 요구하는 바를 충족하였을 때, 만족도의 향상 폭이 크게 나타난다 볼 수 있다.

5. 결 론

본 연구에서는 현재 국내에서 가장 많은 사용자 수를 보유하고 있는 ‘Runday’와 ‘Nike Run Club’의 한국어 리뷰 17,764건을 텍스트 비교 분석하였다. LDA 토픽모델링 결과, 러닝 앱의 이용자들은 오류(앱 안정성), 운동 기능, 앱 기능 및 호환성, 초보자의 4가지 토픽에 대해 이야기하고 있었다. 감성분석을 통해 토픽별로 ‘Runday’와 ‘Nike Run Club’ 두 개의 러닝 애플리케이션을 각각 비교한 결과, 오류(앱 안정성)와 앱 기능 및 호환성 부분에서 두 애플리케이션 모두 감성 점수가 매우 낮은 모습을 보였고, 운동 기능과 초보자 부분에서 ‘Nike Run Club’이 ‘Runday’에 비해 크게 뒤처지는 모습을 보였다.

다음으로 토픽모델링을 통해 도출한 4개의 토픽으로부터 ‘로그인’, ‘GPS’, ‘튕김’, ‘트레이너’, ‘챌린지’, ‘스마트워치’, ‘기록 저장’, ‘맞춤형 훈련 프로그램’ 총 8개의 고객 요구사항을 추출하였다. 이를 토대로 109명의 러닝 애플리케이션 사용자를 대상으로 각 고객 요구사항에 대해 설문 조사를 실시하였고, 그 결과를 바탕으로 다음과 같이 분류하였다: ‘로그인’, ‘튕김’, ‘기록 저장’은 당연적 품질, ‘GPS’, ‘스마트워치’는 일원적 품질, ‘챌린지’, ‘맞춤형 훈련 프로그램’은 매력적 품질, ‘트레이너’는 무관심 품질에 해당하였다.

동일한 품질 인식을 갖는 요구사항을 구분하여 우선순위를 결정하기 위해 고객만족계수를 사용하여 PCSI Index 값을 계산한 결과, 우선순위 상위 4개에 해당하는 ‘스마트워치’, ‘기록 저장’, ‘GPS’, ‘튕김’ 항목이 감성 점수가 매우 낮은 토픽 1(앱 안정성)과 토픽 3(앱 기능 및 호환성)에 연관된 고객 요구사항에 해당하였다. 매력적 품질인 ‘맞춤형 훈련 프로그램’과 ‘챌린지’ 항목은 각각 우선순위에서 5위, 7위에 해당하였다.

감성분석과 PCSI Index 결과를 종합할 때 토픽 1과 3에 해당하는 당연적 품질과 일원적 품질의 고객 요구사항을 우선적으로 반영해야 한다. 이러한 품질 요소는 사용자 만족에 직접적인 영향을 미치므로, 단기적인 개선 과제로 설정하는 것이 바람직하다. 특히, 앱의 튕김 현상과 GPS 오작동 문제를 해결하고, 스마트워치와의 연동 기능을 강화하여 안정성을 확보해야 한다.

장기적으로는 러닝 앱의 경쟁력을 강화하기 위해 토픽 2와 4와 관련된 매력적 품질 요소를 발전시킬 필요가 있다. 예를 들어 해당 토픽에서 좋은 평가를 받았던 ‘Runday’와 같이 사용자 맞춤형 훈련 프로그램의 다양성을 확대하여 초보자부터 숙련된 러너에 이르기까지 폭넓은 사용자층의 요구를 충족할 수 있는 기능을 설계할 수 있다. 이러한 전략은 기능적 개선과 함께 사용자 경험의 질적 향상을 도모하고, 러닝 앱의 장기적인 경쟁 우위를 확보하는 데 기여할 것이다. 따라서 본 연구에서는 러닝 앱 사용자들의 요구사항과 선호도를 파악하는데 중요한 결론을 도출하였고, 이는 향후 러닝 앱 개발 및 서비스 향상에 유용한 지침을 제공할 것으로 예상된다.

본 연구의 학문적 시사점은 다음과 같다. 자연어 처리 기반 텍스트 분석(LDA 및 감성분석)과 품질 평가 모델(카노 모형 및 PCSI Index)을 결합함으로써 사용자 요구를 다각적으로 분석하는 틀을 제시하였다. 이러한 융합적 접근은 디지털 플랫폼뿐만 아니라 다양한 산업군에서 소비자 피드백을 기반으로 품질 개선 방안을 도출하는 데 활용할 수 있다. 이러한 결과는 사용자 경험 및 고객 만족도 연구 분야에서 학문적 기여를 확장할 수 있는 가능성을 보여준다.

그럼에도 불구하고, 본 연구는 다음과 같은 한계를 내포하고 있다. 첫째, 분석 데이터가 한국어로 작성된 구글 플레이스토어 리뷰에 국한되었으므로, 다양한 언어로 작성된 리뷰 데이터를 추가적으로 수집하고 분석한다면 결과의 보편성을 강화할 수 있을 것이다. 둘째, ‘Runday’와 ‘Nike Run Club’ 두 앱에 국한된 분석을 수행하였으나, 향후 연구에서는 더 다양한 애플리케이션을 포함하여 시장 전체를 포괄하는 분석이 이루어진다면 결과의 신뢰도와 적용 가능성을 높일 수 있을 것이다. 또한, 분석 방법론 측면에서도 LDA 기반 토픽모델링과 감성분석을 결합한 방식에서 나아가 최신 딥러닝 기반 자연어 처리 기법(Transformer, GPT 등)을 활용하여 리뷰의 문맥적 의미를 보다 정교하게 파악하는 시도를 할 수 있다. 이를 통해 사용자 리뷰의 숨겨진 인사이트를 발견하고, 보다 정교한 품질 개선 방안을 도출할 수 있을 것이다.

References

Blei D. M., Ng A. Y., Jordan M. I.. 2003;Latent Dirichlet Allocation. Journal of Machine Learning Research 3:993–1022.
Cui C., Jung U.. 2023;Topic Modeling-based QFD Framework for Comparative Analysis between Competitive Products. Journal of Korean Society for Quality Management 51(4):701–713.
Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K., Harshman R.. 1990;Indexing by latent semantic analysis. Journal of the American Society for Information Science 41(6):391–407.
Devlin J., Chang M. W., Lee K., Toutanova K.. 2019. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT
Hong T. H., Niu H., Ren G., Park J. Y.. 2018;Multi-Topic Sentiment Analysis using LDA for Online Review. The Journal of Information Systems 27(1):89–110.
Joo S. M., Nam J. W., Park D. B., Lee D. H.. 2024;Analysis of Small Business Owners’ User Experience in Smart Stores Using LDA Topic Modeling. In proceedings of HCI Korea 2024:1080–1084.
Kano N., Seraku N., Takahashi F.. 1984;Attractive Quality and Must-Be Quality. Journal of the Japanese Society for Quality Control 14(2):39–48.
Lee E. J., Moon J. Y.. 2024;Analysis of Xiaomi Trends Using Big Data-Based on Customer Perception at Domestic and Global. Journal of Korean Society for Quality Management 52(2):323–340.
Lim S. U., Park Y. T.. 2010;Potential Customer Satisfaction Improvement Index based on Kano Model. Journal of Korean Society for Quality Management 38(2):248–60.
Liu B.. 2012;Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies 5(1):1–167.
Mimno D., Wallach H. M., Talley E., Leenders M., McCallum A.. 2011. Optimizing Semantic Coherence in Topic Models. In : In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. p. 262–72.
Nam Y. W., Ko D. H., Kim H. M., Lee K. W.. 2023;Analysis of Defence Service Quality using PCSI Index and an Empirical Comparative Analysis - Focusing on Small Businesses less than 100 Employees. Journal of Korean Society for Quality Management 51(1):37–54.
Oh H. R., Cheong Y. J.. 2022;An Exploratory Study on the Characteristics of Short-Form Advertising Using LDA (Latent Dirichlet Allocation) Topic Modeling. Advertising Research 135:51–86.
Park M. H.. 2021;The analysis of customer’s reviews using topic modeling. Global Business Administration Review 18(4):246–260.
Roder M., Both A., Hinneburg A.. 2015. Exploring the Space of Topic Coherence Measures. In : In Proceedings of the 8th ACM International Conference on Web Search and Data Mining. p. 399–408.
Sievert C., Shirley K.. 2014. LDAvis: A Method for Visualizing and Interpreting Topics. In : In Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. p. 63–70.
Timko M.. 1993;An Experiment in Continuous Analysis: Kano’s Methods for Understanding Customer-Defined Quality. Center for Quality of Management Journal 2(4):17–20.
Young T., Hazarika D., Poria S., Cambria E.. 2018;Recent Trends in Deep Learning Based Natural Language Processing. IEEE Computational Intelligence Magazine 13(3):55–75.

Article information Continued

Figure 2.

‘Nike Run Club’ Word Cloud

Figure 3.

‘Runday’ Word Cloud

Figure 4.

Coherence Chart

Figure 5.

Visualization of the results of topic modeling

Table 1.

Results of topic modeling

Topic Definition Keywords
1 오류(앱 안정성) 다시, 업데이트, 오류, 로그인, 실행, 설치, 자꾸, 삭제, 종료, 갑자기, 네트워크, 데이터, 수정, 문제, 화면, 로딩, 가입, 해결, 연결, 버그
2 운동 기능 덕분, 추천, 혼자, 음악, 음성, 체력, 트레이너, 목소리, 응원, 사람, 중간, 설명, 포기, 노래, 코치, 생기, 성우, 기분, 소리, 안내
3 앱 기능/호환성 기록, 워치, 기능, 페이스, 연동, 갤럭시, 측정, 저장, 친구, 설정, 이용, 위치, 표시, 칼로리, 지도, 확인, 플랜, 속도, 정지, 부분
4 초보자 시작, 도움, 처음, 프로그램, 초보자, 코스, 주차, 초보, 걷기, 트레이닝, 동기, 체계, 재미, 부여, 목표, 인터벌, 도장, 훈련, 사진, 인생

Table 2.

Hyperparameters used in training the KoBERT model

max len 64
batch size 64
warmup_ratio 0.1
num epochs 4
max grad norm 1
log interval 200
learning rate 5e-5

Table 3.

‘Nike Run Club’ Sentiment score

Topic Negative Positive Neutral Score
1 1488 61 371 0.64
2 244 112 81 1.74
3 1191 179 471 1.13
4 382 181 171 1.82

Table 4.

‘Runday’ Sentiment score

Topic Negative Positive Neutral Score
1 1248 225 321 1.07
2 1067 1644 447 2.96
3 1264 582 559 1.79
4 1095 1737 649 2.96

Table 5.

Customer requirements for running application

1 Login
2 GPS
3 App Crash
4 Trainer
5 Challenge
6 Smartwatch
7 Record Saving
8 Customized Training Program

Table 6.

Kano survey method

Positive I. How would you feel if there were no issues with logging in while using a running app?
① I like it that way
② It must be that way
③ I am neutral
④ I can live with it that way
⑤ Dislike
Negative II. How would you feel if there were issues with logging in while using a running app?
① I like it that way
② It must be that way
③ I am neutral
④ I can live with it that way
⑤ Dislike

Table 7.

Kano evaluation two-dimensional matrix (Nam et al., 2023)

Customer Requirements Negative
Positive Q A A A O
R I I I M
R I I I M
R I I I M
R R R R Q
A : Attractive quality O : One-dimension quality R : Reverse quality
M : Must-be quality I : Indifferent quality Q : Questionable

Table 8.

PCSI Index result

Quality Factor Kano Factors Survey Result
Satisfaction Coefficient (S) Dissatisfaction Coefficient (D) Current Position (P) PCSI Index Priority
A O M I
Login M 11 26 58 14 0.34 -0.77 -0.3 0.64 6
GPS O 10 50 41 8 0.55 -0.83 -0.34 0.89 3
App Crush M 7 41 55 6 0.44 -0.88 -0.37 0.81 4
Trainer I 46 9 5 49 0.5 -0.13 0.11 0.39 8
Challenge A 66 6 4 33 0.66 -0.09 0.11 0.55 7
Smartwatch O 25 50 26 8 0.69 -0.7 -0.3 0.99 1
Record Saving M 5 49 52 3 0.5 -0.93 -0.4 0.9 2
Customized Training Program A 64 20 3 22 0.77 -0.21 0 0.77 5