| Home | E-Submission | Sitemap | Editorial Office |  
top_img
Journal of Korean Society for Quality Management > Volume 53(2); 2025 > Article
다중 공선성 하에서 버스 승객 수요 예측 모델링

Abstract

Purpose

This study aims to first develop a bus passenger demand prediction model based on industrial factors, population, and traffic dataunder multicollinearity. It can help Busan bus operation.

Methods

In orderto address the multicollinearity issues, the research mainly considers PCA (Principal Component Analysis), MLR (Multiple Linear Regression), machine learning (GBDT (Gradient Boosted Decision Trees), RF (Random Forest), and deep learning (MLP (Multi-Layer Perceptron), LSTM (Long Short-Term Memory)), and variable selection for predictive modeling.

Results and Conclusion

The industrial factors, population and traffic datasignificantly explain the bus passenger demand. The RF provides the best prediction performance.

1. 서 론

현대 도시에서 버스는 시민들의 일상과 도시 기능을 유지하는 필수 인프라이다. 특히 부산과 같은 인구 밀도가 높은 대도시에서는 매일 수십만 명이 버스를 이용해 직장, 학교, 상업지구 등 다양한 목적지로 이동한다. 버스 승객수 예측은 버스의 효율적인 운영을 위해 필수적이다. 버스 승객 수에 대한 예측 실패는 버스 운행 과잉으로 에너지와 자원의 낭비를 초래하거나, 버스 운행 부족으로 시민들이 불편을 겪게 만든다. 특히 버스 운행 부족 시 출퇴근 시간대나 대규모 인구 이동 시 불편이 심화되며, 이는 버스에 대한 신뢰도 저하와 개인 차량 사용 증가를 초래해 교통 체증과 환경 오염을 악화시킬 수 있다.
이에 따라 본 연구의 목표는 다중공선성이 존재하는 상황에서 산업 요인, 인구, 교통 데이터를 활용하여 부산 지역의 월간 버스 승객 수를 예측하는 모델을 개발하는 것이다. 이를 통해 대중교통 운영의 효율성을 높이고, 교통 관리 및 정책 수립에 기여하는 것을 목적으로 한다. 특히 본 연구는 다중공선성 문제를 해결하기 위해 주성분 분석(PCA; Principal Component Analysis)과 변수 선택 기법을 적용하고, 다중회귀분석(MLR (Multiple Linear Regression)), 머신러닝, 딥러닝 모델을 비교하여 최적의 예측 성능을 도출하고자 한다. 기존 버스 승객 수 예측 연구에서는 다중공선성을 효과적으로 해결하고 예측 성능을 개선하는 연구는 전무한 실정이다. 따라서 본 연구에서는 다중공선성을 극복하는 예측 모델링을 수행하고자 한다.
본 연구는 산업 요인, 인구, 교통 데이터 등 다양한 설명 변수들을 고려하였다. 특히 산업 요인과 버스 승객 수의 상관관계 분석에서 사업 시설 관리업, 금융업, 숙박업과 의료업이 버스 승객 수와 높은 양의 상관관계를 보였고, 전기, 가스 및 수도사업, 광업, 제조업과 폐기물 처리 사업은 음의 상관관계를 보였다. 본 연구의 버스 승객 수 예측 모델은 효율적인 버스 운행에 기여할 수 있다. 또한 정확한 버스 승객 수 예측은 교통 서비스 품질을 유지하고 교통 체증을 완화하며, 에너지 소비를 효율적으로 관리해 시민들의 이동 편의를 향상시킬 수 있다. 결론적으로 우리는 산업 요인, 인구, 교통 데이터를 반영한 정교한 버스 승객 수 예측 모델을 제시하여 도시 교통 관리와 정책 수립에 중요한 시사점을 제공할 것으로 기대한다.

2. 선행연구 및 제안되는 연구

2.1 선행연구

Kim et al. (2021)은 경기도 광역버스 승객 수를 예측하기 위해 DNN (Deep Neural Network)과 RNN (Recurrent Neural Network)을 활용하였으며, RNN이 DNN 보다 더 높은 예측 정확도인 91.03%를 기록했다. 이는 시간의 흐름에 따른 예측에서 RNN의 우수성을 입증하며, 버스 수요 예측의 신뢰성을 높이는 데 기여할 수 있음을 보여주었다. Baek (2021)은 스마트카드 데이터를 기반으로 버스 승객 수를 예측하고, 딥러닝 기법을 통해 다양한 건물 용도와 시간적 요인을 고려한 예측 모델을 개발했다. 연구 결과, 출퇴근 피크 시간에 버스 승객 수가 많아지는 경향이 나타났으며, 이는 버스 운영에 실질적인 시사점을 제공했다. McSharry and Paul (2021)은 Lagos 지역의 BRT (Bus Rapid Transit) 시스템의 수요를 분석하고, 요일 및 시간대에 따른 수요 패턴을 세분화했다. 이 연구에서는 월요일과 금요일에 가장 높은 수요를 보였으며, 조건부 평균 예측 모델을 통해 버스 대기 시간을80%까지 단축할 수 있는 방안을 제시했다. Thiagarajan and Kumar (2021)은 DBSCAN (Density-Based Spatial Clustering of Applications with Noise)과 SARIMA (Seasonal Autoregressive Integrated Moving Average) 알고리즘을 활용하여 버스 도착 시간과 버스 승객 수를 예측했다. SARIMA 모델은 GMM (Gaussian Mixture Model)과 ARIMA (Autoregressive Integrated Moving Average)의 하이브리드 모델보다 높은 정확도를 기록하며, 버스 운영 개선의 가능성을 시사했다. Rui et al. (2015)은 IMM (Interactive Multiple Model) 기법을 사용하여 단기 버스 승객 수 예측 모델을 제안했다. IMM은 다양한 환경 데이터를 통합하여 급격한 수요 변화에도 높은 예측 정확도를 보였으며, ARIMA와의 결합 접근법이 실효성을 입증했다. Montero-Lamas et al. (2024)은 GIS (Geographic Information System) 데이터를 활용하여A Coruña 지역의 버스 승객 수를 예측했다. 분석 결과, 병원과 대학이 버스 승객 수에 가장 큰 영향을 미친 것으로 나타났으며, 이는 버스 운영 전략 수립에 중요한 기초 자료로 작용할 수 있음을 시사했다. Khalesian et al. (2024)은 리옹 지역의 GPS (Global Positioning System) 데이터를 기반으로 딥러닝을 활용한 버스 승객 수 예측 모델을 제안했다. LSTM에 대한 최적화된 조정을 통해 예측 정확도를 19.23% 향상시켰으며, 이는 버스 운영의 효율성을 증대시키는 데 기여할 수 있음을 보여주었다.

2.2 제안되는 연구

본 연구는 부산 빅데이터 혁신 센터의 산업 요인, 인구, 교통 데이터를 중심으로, 지역 특성에 최적화된 예측 모델을 제안한다. 또한 예측 모델을 구축하면서 설명변수들에서 발생하는 다중공선성 문제를 확인하고 이를 해결하고자 한다. 다중공선성 문제 해결을 위해 Altman and Krzywinski (2015)는 VIF (Variance Inflation Factor) 검사 및 주성분 분석의 활용을 강조하였다. Montero-Lamas et al. (2024)는 설명 변수들 간 상관관계 분석을 진행하였고, Kim and Kim (2021)은 VIF 검사를 통해 설명 변수들 간 다중공선성을 검사하였다. 본 연구에서도 VIF 검사와 상관 관계 분석을 통해 다중공선성을 확인하고, 이를 해결하기 위해 주성분 분석을 적용한다. 이러한 다중공선성 해결 방안들을 버스 승객 수 예측 모델링에 적용한 사례는 존재하지 않는다. 본 연구에서는 버스 승객 수 예측모델링에서 존재하는 다중공선성을 해결하는 사례를 최초로 제시한다. Chan et al. (2022)은 머신러닝과 변수 선택법이 다중공선성을 줄이는 경우를 설명하며, De Veaux and Ungar (2000)는 신경망이 변수 간 상관관계를 효과적으로 처리한다고 제안했다. 따라서 본 연구에서는 주성분 분석, 다중회귀분석, 머신러닝(GBDT(Gradient Boosted Decision Trees): LightGBM (Light Gradient Boosting Machine), XGBoost (Extreme Gradient Boosting), CatBoost (Categorical Boosting), RF(Random Forest)), 딥러닝(MLP (Multi-Layer Perceptron), LSTM (Long Short-Term Memory)) 및 변수 선택법을 고려하여 상관관계가 높은 데이터에서 다중공선성을 효과적으로 제어하며 버스 승객 수 예측 성능을 향상시킬 수 있는 방법을 제안한다.

3. 이론적 배경

3.1 주성분 분석 & PCR (Principal Component Regression)

주성분 분석은 다중공선성 문제를 해결하고 예측 변수들의 수를 줄이는 통계적 방법으로, 상관관계가 없는 주성분(PC(Principal Component))들을 추출한다(Saikat & Yan, 2008). 주성분들은 원래 변수들의 선형 결합으로 데이터의 분산을 최대한 설명하며, 공분산 행렬 계산, 고유값 분해, 주성분 선택, 주성분 계산의 네 단계로 진행된다(Greenacre et al., 2022). PCR은 주성분들을 설명 변수로 고려하는 다중회귀분석으로, 다중공선성 문제를 극복하며 고차원 데이터에서도 안정적인 예측이 가능하다(Chen & Ma, 2015; Agarwal et al., 2023).

3.2 GBDT & RF

GBDT는 약한 학습기를 다수 결합해 강력한 예측 모델을 형성하는 앙상블 기법으로, CatBoost, XGBoost, LightGBM이 있다. CatBoost는 범주형 데이터 처리에 특화된 앙상블 모델로, Prokhorenkova et al. (2017)의 연구에 따르면, TS (Target Statistics)를 활용하여 범주형 특성을 자동으로 평가하고Target Leakage를 방지할 수 있다. XGBoost는 병렬 처리를 지원하며 메모리 사용을 최적화해 빠른 처리 속도와 높은 확장성을 제공한다(Chen & Guestrin, 2016). 또한, 정보 이득(Information Gain)을 기준으로 최적의 분할을 찾아 트리를 성장시키는 방식으로 성능을 향상시킨다. LightGBM은 대용량 데이터를 효율적으로 처리하기 위해 설계된 알고리즘으로, Ke et al. (2017)의 연구에 따르면, GOSS (Gradient-based One-Side Sampling)와 EFB (Exclusive Feature Bundling) 알고리즘을 통해 학습 속도를 개선하고, 리프 중심(tree-leaf-wise) 방식으로 트리를 성장시킨다. 이러한GBDT 알고리즘들은 범주형 및 수치형 데이터에 효과적으로 적용되며, 과적합 방지 및 학습 속도 개선을 위한 다양한 기술을 도입하여 우수한 성능을 보여준다. RF는Bagging 기반의 앙상블 트리 알고리즘으로, 데이터 샘플을 무작위로 선택해 여러 개의 의사결정 트리를 학습한 뒤, 각 트리의 예측값을 평균하여 최종 결과를 도출한다(Breiman, 2001).

3.3 MLP & LSTM

MLP는 비선형 활성화 함수를 사용하는 다층 구조로, 복잡한 패턴을 학습할 수 있다(Popescu et al., 2009). 역전파 알고리즘을 통해 오차를 최소화하며, 이미지 분류와 음성 인식 등 다양한 분야에서 활용된다. LSTM은RNN의 기울기 소실 문제를 해결한 구조로, 메모리 셀과 게이트를 통해 장기 의존성을 효과적으로 처리한다(Hochreiter & Schmidhuber, 1997). 이를 통해 시계열 데이터의 예측 정확도를 향상시킬 수 있다.

4. 실험 및 결과

4.1 데이터 수집 및 통계적 분석

본 연구는 부산 빅데이터 혁신 센터의 데이터(Busan Big Data Innovation Center, 2022)를 활용하여 2022년 1월부터 12월까지의 산업 요인, 교통, 인구 데이터를 고려한다. 버스 승객 데이터는 정류장 별로 수집하였고, 산업 요인 통계는 지역구 종사자 수와 사업체 수를 확보하였다. 인구 데이터는 국가통계포털(KOSIS, 2022)과 부산 빅데이터 혁신 센터의 유동인구 데이터를 사용하였다. Table 1은 본 연구에서 사용된 데이터 변수들을 보여주고 우리는 교통, 인구 및 산업 요인, 지역, 시계열 변수를 고려하여 버스 승객 수를 예측한다. 전체 데이터는 부산의 15개구와 1개군의 1년간 한달마다 수집된 데이터로 192(12월 데이터 16구/군)개이며, 설명 변수들의 개수는 49이다. 구와 군에 대한 자세한 설명은 Table 1에 기술되어 있다. 데이터는 인구 및 지역별 산업 요인 변수들은 월마다 변화되는 값들을 가진 시계열 수치형 변수이며 지역 면적, 버스 노선 수와 같은 시계열 데이터는 시간에 따라 크게 변화하지는 않지만 중요한 시계열 정보가 있을 수 있음으로 그대로 사용하였으며, 지역명 변수는 인코딩을 사용하여 비시계열 수치형으로 변환하여 사용하였다.
상관관계 분석 결과, 부산의 관광 특성에 따라 버스 승객 수는 휴가철에 증가하였다. 하지만 이러한 특징을 반영하여 휴가철과 비휴가철을 나누어 두 그룹으로 분석한 결과, 두 그룹에서의 상관관계 분석 결과는 큰 차이가 존재하지 않았고 산업별 상관관계의 순위는 동일하였다. 또한, 분석 모델에 있어 두 그룹을 나누어 분석할 경우 데이터 수의 부족으로 인해 정확한 예측이 어려웠으며, 예측 정확도 역시 휴가철, 비휴가철을 합친 모델보다 좋지 않은 성능을 보였다. 따라서 본 연구에서는 휴가철과 비휴가철을 합친1년의 데이터를 사용하여 분석하였다.
산업 요인에서는 사업 시설 관리 산업 종사자 수가 가장 높은 양의 상관관계(0.557)를 보였으며, 금융업 종사자 수(0.472)와 사업체 수(0.477), 숙박업 종사자 수(0.357)와 사업체 수(0.432)와 의료업 종사자 수(0.463)와 사업체 수(0.349)가 높은 양의 상관관계를 보였다. 반면, 전기, 가스 및 수도 사업 종사자 수(0.044)와 사업체 수(-0.575), 광업 종사자 수(-0.635)와 사업체 수(-0.591), 제조업 종사자 수(-0.464)와 사업체 수(-0.302)는 음의 상관관계를 나타냈다. 인구적 측면에서는 여성 인구 수(0.241)가 버스 승객 수와 양의 상관관계를 보였다. 교통적 특성에서는 버스 노선이 많이 지나는 지역이 버스 승객 수 또한 높은 것으로 나타났다. 세부적으로 부산진구와 중구는 금융업 및 숙박업 발달로 버스 이용률이 높았고, 강서구는 제조업 중심으로 버스 의존도가 낮았다. 결론적으로, 1차 산업(광업), 2차 산업(제조업)이 활성화된 지역은 버스 이용률이 낮았으며, 3차 산업(서비스업)이 활성화된 지리적 특성이 버스 이용률에 중요한 영향을 주는 것으로 판단되었다.
부산은 특정 지역에 주요 산업이 밀집된 특성상 다중공선성 문제가 발생할 수 있으며, 이는 상관관계 분석과 VIF 검사에서 확인되었다. 특히 유동인구 및 산업 요인에서 대부분의 설명 변수들이 0.5 이상의 높은 상관관계를 보였고, VIF 값도 대부분 30을 초과하여 심각한 다중공선성이 존재했다. 우리는 이를 해결하기 위해 예측 모델링에서 주성분 분석을 적용하고, 다중공선성에 강건한 머신러닝과 변수 선택 기법을 고려하였다.

4.2 데이터 전처리 및 예측 모델 학습 전략

데이터 전처리 및 예측 모델을 학습하기 위해서 파이썬을 이용하였으며, 데이터 전처리 단계에서는 지역구 명칭을 Label Encoding 기법을 사용하였다. 또한, 데이터 정규화를 통해 변수 크기 차이에 따른 영향을 줄이고, 딥러닝의 Local Minima 문제를 완화하였다. 학습 데이터는 1월~8월, 테스트 데이터는 9월~12월로 분할하였다. 주성분 분석을 적용하여 다중공선성을 제거하기 위해 Horn (1965)의 연구를 참고하여 병렬 분석을 수행하였으며, Glorfeld (1995)의 기준에 따라 95% 설명력을 확보하는 9개의 주성분들을 확인하였다.
다중회귀분석에서의 변수 선택 과정은 중요한 변수를 반복적으로 추가하는 방식인 전진 선택법, 유의성이 낮은 변수를 제거하는 후진 제거법, 추가와 제거를 병행하여 최적의 변수 조합을 찾는 Step-Wise 기법을 고려하였다. 또한 머신러닝에서는 중요도가 낮은 변수를 반복적으로 제거하며 최적의 변수 조합을 찾는 RFE (Recursive Feature Elimination)와 이를 교차 검증하여 안정성을 높인 RFECV (Recursive Feature Elimination with Cross-Validation)를 활용하였다. 딥러닝에서는 가장 예측 성능이 우수한 머신러닝의 변수 선택을 적용하였다. 추가적으로 머신러닝의 하이퍼파라미터는 파이썬 함수의 기본값을 사용하였다. 딥러닝의 하이퍼파라미터는 베이지안 최적화를 이용하여 조정하였다. 베이지안 최적화를 진행할 때는 파이썬 함수의 하이퍼파라미터 기본값을 기준으로 파라미터 범위를 지정하였다. 구체적으로 설명하면 MLP와 LSTM에 공통으로 Dropout, Learning Rate, Batch Size, Epochs, Activation을 조정하였으며, MLP의 경우 추가로 은닉층 수, 뉴런 수, 최적화 알고리즘, Two Norm 규제항을, LSTM의 경우 추가로 Sequence Length, LSTM 층 수, 뉴런 수를 각각 조정하였다. 마지막으로 LSTM에서는 지역구 수에 맞추어 Window Size를 16으로, Shift Size는 데이터 크기를 고려해 1로 조정하였다.

4.3 실험 결과

실험의 예측 정확도는 MSE (Mean Squared Error), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), MAPE (Mean Absolute Percentage Error)를 고려하였고 다중회귀분석에서는 R2, Radj2를 추가적으로 고려하였다. Table 3은 다중회귀분석의 예측 정확도를 나타낸 표이다. 다중회귀분석에서 변수 선택법은 Radj2를 향상시키는 기준으로 선택되었다. 다중회귀분석에서 변수 선택법은 모든 변수를 사용하는 방법과 전진선택법, 후진제거법 그리고 단계별 변수 선택법을 고려하였으며 주성분 분석을 진행한 후 주성분의 변수 선택을 통한 방법을 비교 분석하였다. 주성분 선택은 95%의 설명력을 보이는 주성분 1~9 가장 좋은 예측 정확도를 보이는 주성분 1~19, 그리고 모든 주성분을 고려하였다. 원래 변수들을 단계별 변수 선택법으로 선택했을 때 Radj2가 0.881, MAPE가 약 5.78%의 예측 정확도를 보였다. PCR의 경우 주성분 19개에서 예측 정확도가 최적 성능을 보였으며 MAPE 5.75%를 기록했다. 이를 통해 변수 선택을 고려하면서 다중회귀분석 그리고 주성분 분석을 결합하는 PCR 기법은 다중공선성을 해결하며 예측 성능을 개선한 것으로 사료된다.
Table 4에서 모든 원래 변수들을 고려했을 때 XGBoost는 MAPE 4.679%, LightGBM은 MAPE 4.314% 그리고 RF는 MAPE 2.797%로 가장 우수한 성능을 보였다. 반면, CatBoost는 RFECV변수 선택법을 적용했을 때 가장 좋은 예측 성능을 보였으며, MAPE 3.146%를 기록했다. 또한 변수 선택법이 모델 성능에 미치는 영향이 모델마다 다르지만, 변수 선택법을 적용했을 때와 적용하지 않았을 때의 예측 정확도 차이는 크지 않았다. 또한 주성분 분석 적용 시GBDT와RF의 성능은 원래 변수들을 사용할 때보다 예측 성능이 하락하였다. 이러한 결과는 GBDT와RF의 예측 성능이 다중공선성에 크게 영향을 받지 않았다는 점을 시사한다.
Table 5는 딥러닝의 예측 성능을 비교한 결과를 보여준다. 모든 원래 변수들로 모델링한 경우, 시계열 분석에 특화된LSTM이 MLP보다 더 좋은 예측 성능을 보여주며, LSTM은MAPE 3.979%, MLP은MAPE 7.464%로RF의 변수 선택을 적용한 모델보다 좋은 성능을 기록했다. 그러나 두 모델 모두 주성분 분석을 적용한 결과, LSTM은PC를19개까지 고려했을 때MAPE 3.908%, MLP는RF의 변수 선택을 사용했을 때MAPE는5.876%로, 예측 성능이 크게 향상되었다. 이는 다중공선성을 제거하고 적절한 변수 선택을 적용한 것이 딥러닝 예측 성능 개선에 기여했음을 나타낸다. 결과를 종합하면, 원래 변수들을 고려한 머신러닝 기법들이 전반적으로 뛰어난 예측 성능을 보였으며, 특히RF가 가장 우수한 성능을 나타냈고 주성분과 변수 선택을 고려한 딥러닝 기법들이 예측 성능 향상을 보였다.

5. 결 론

교통 문제 해결을 위해 소형 전기차 등 다양한 연구가 진행되어 왔다(Lim et al., 2024). 버스와 같은 대중교통은 교통 문제 해결 방안 중 하나이며, 중요한 인프라 시설 중 하나이다. 또한, 지역 내 대중교통의 발달 수준은 지역 발전의 중요한 지표로 활용되며, 주차 문제 해결을 위한 공영주차장 군집화 및 수요 예측에서도 중요한 변수로 작용한다(Kim et al., 2021; Hwang et al., 2023). 이처럼 대중교통은 현대 사회에서 필수적인 요소이며, 이를 정확히 분석할 필요가 있다.
본 연구는 부산광역시의 산업 요인, 인구, 교통 데이터와 버스 승객 수 간의 상관관계를 분석하고, 이를 바탕으로 버스 승객 수 예측 모델을 제안하였다. 연구 결과, 사업 시설 관리업, 금융업, 숙박업 그리고 의료업이 버스 승객 수와 높은 양의 상관관계를 보였다. 반면, 전기, 가스 및 수도사업, 제조업, 광업 그리고 폐기물 처리 사업은 교통 접근성과 인구 밀집도가 낮은 지역에 주로 분포하며 버스 승객 수와 음의 상관관계를 나타냈다.
요약하면 1차 산업(광업), 2차 산업(제조업)이 활성화된 지역은 버스 이용률이 낮았으며, 3차 산업(서비스업)이 활성화된 지리적 특성이 버스 이용률에 중요한 영향을 주는 것으로 분석되었다. 본 연구는 지역구 산업 요인, 교통 및 인구 데이터를 시계열 정보와 결합하여 버스 승객 수를 예측하였다. 다중회귀분석의 경우 주성분 분석을 적용했을 때 좋은 예측 성능을 보였지만 가장 예측 정확도가 높은 모델은 변수 선택을 하지 않은 RF이며, MAPE 2.80%의 낮은 오차율을 기록하여 최적의 예측 성능을 보였다. 딥러닝(MLP & LSTM)은 주성분 분석을 통해 다중공선성을 완화하고 변수 선택을 활용하여 예측 정확도를 향상시킬 수 있었다.
본 연구에서 도출된 버스 승객 수 예측 모델은 부산광역시 내 교통망 확충 및 버스 노선 최적화의 기초 자료로 활용 가능하다. 특히, 설명 변수들의 영향에 대해서 도출된 상관관계 분석 결과가 상식적으로도 이미 고려될 수 있으나 추가로 예측 모델링을 통해서 설명 변수들의 변화에 따른 새로운 예측치를 만들어낼 수 있다. 예를 들어 부산광역시 사상구에 신규 아파트 분양이 이루어지는 경우, 인구 수의 변화를 버스 승객 수 예측 모델에 반영하여 새로운 버스 승객 수 예측치를 생성하여 교통 정책에 반영할 수 있다. 또한 교통 수요가 높은 지역에 자원 배분과 교통 인프라를 개선하여, 버스 접근성을 향상시키고 교통 혼잡도를 줄이며 환경 친화적인 교통 시스템을 구축하는 데 기여할 수 있다.

REFERENCES

Agarwal, A., Harris, K., Whitehouse, J., and Wu, Z. S. 2024. Adaptive Principal Component Regression with Applications to Panel Data. In Proceedings of the 37th International Conference on Neural Information Processing Systems. Curran Associates Inc.; Red Hook, USA: 77104-77118.

Altman, N., and Krzywinski, M. 2015. Points of significance: Multiple linear regression. Nature Methods 12(12):1103-1104.
pmid
Baek, J. H. 2016. Bus Demand Prediction with Smart Card Data - A Deep Learning Approach. Master’s thesis. Chung Ang University.

Breiman, L. 2001. Random Forests. Machine Learning 45(1):5-32.
crossref pdf
Busan Big Data Innovation Center 2022. https://busanbigdata.kr/bigdata/list.

Chan, J.Y.-L., Leow, S.M.H., Bea, K.T., Cheng, W.K., Phoong, S.W., Hong, Z.-W., and Chen, Y.-L. 2022. Mitigating the Multicollinearity Problem and Its Machine Learning Approach: A Review. Mathematics 10(1283).
crossref
Chen, M.M., and Ma, J.L. 2015. Application of Principal Component Regression Analysis in Economic Analysis. Proceedings of the 2015 3rd International Conference on Management Science, Education Technology, Arts, Social Science and Economics. Curran Associates Inc.; Qingdao, China: 79-90.
crossref
Chen, Y., and Guestrin, C. 2016. Xgboost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Association for Computing Machinery; San Francisco, USA: 785-794.

De Veaux, R. D., and Ungar, L. H. 2000. Multicollinearity: A Tale of Two Nonparametric Regressions. In Selecting Models from Data, Lecture Notes in Statistics. p 89. Springer. New York, NY. https://doi.org/10.1007/978-1-4612-2660-4_40.

Greenacre, M., Patrick, J. F., Hastie, G. T., d’Enza, A. I., Markos, A., and Tuzhilina, E. 2022. Principal Component Analysis. Nature Reviews Methods Primers 2(100).
crossref pdf
Hochreiter, S., and Schmidhuber, J. 1997. Long Short-term Memory. Neural Computation 9(8):1735-1780.
crossref pmid
Hwang, J. J., Shin, Y. H., Hyo-Sub Sim, H. S., Kim, D. Y., and Kim, D.G. 2023. Clustering of Seoul Public Parking Lots and Demand Prediction. Journal of Korean Society for Quality Management 51(4):497-514.

Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., Ye, Q., and Liu, T. 2017. Light GBM: A Highly Efficient Gradient Boosting Decision Tree. In Proceedings of the 31st International Conference on Neural Information Processing Systems. Curran Associates Inc.; Long Beach, USA: 3149-3157.

Khalesian, M., Furno, A., and Leclercq, L. 2024. Improving Deep-Learning Methods for Area-Based Traffic Demand Prediction via Hierarchical Reconciliation. Transportation Research Part C: Emerging Technologies 159: 104410.
crossref
Kim, B. K., Park, J. S., and Jung, D. J. 2021. A Study on Prediction of Gyeonggi Metropolitan Bus Usage Change Based on Machine Learning. Gyeonggi Research Institute. pp 1-141.

Kim, D. G., Park, K. W., Ha, S. M., and Kim, D. Y. 2021. Development of Regional Balanced Index for Administrative Districts and Dongs in Seoul using Factor Analysis. Journal of Korean Society for Quality Management 49(3):375-392.

Kim, D. H., and Kim, E. C. 2021. Development of a Multiple Linear Regression Model to Analyze Traffic Volume Error Factors in Radar Detectors. Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography 39(5):253-263.

KOSIS (Korean Statistical Information Service) 2022. https://kosis.kr/.

Lim, M. W., Kim, Y. H., Jeon, D. W., Kim, B. J., Kim, J. N., Kim, M. J., Choi, H. S., and Bae, S. J. 2024. User Experience Data-Based Quality Evaluation for Micro Electric Vehicle Mobility Services. Journal of Korean Society for Quality Management 52(4):717-728.

Mcsharry, P., and Paul, O. 2021. Public Transportation Demand Analysis: A Case Study of Metropolitan Lagos. arXiv https://doi.org/10.48550/arXiv.2105.11816.
crossref
Montero-Lamas, Y., Fernández-Casal, R., Varela-García, F.-A., Orro, A., and Novales, M. 2024. A Spatial Statistical Approach to Estimate Bus Stop Demand Using GIS-Processed Data. Journal of Transport Geography 118: 103906.
crossref
Popescu, M. C., Balas, V. E., Perescu-Popescu, L., and Mastorakis, N. 2009. Multilayer Perceptron and Neural Networks. 8(7):579-588.

Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., and Gulin, A. 2018. CatBoost: Unbiased Boosting with Categorical Features. In Advances in Neural Information Processing Systems. Curran Associates Inc.; Montréal, Canada: 6639-6649.

Rui, X., Sun, D. J., and Chen, S. 2015. Short-Term Bus Passenger Demand Prediction Based on Time Series Model and Interactive Multiple Model Approach. Discrete Dynamics in Nature and Society 682390: 11.

Saikat, M., and Yan, J. 2008. Principal Component Analysis and Partial Least Squares: Two Dimension Reduction Techniques for Regression. https://api.semanticscholar.org/CorpusID:14142296.

Shafizadeh-Moghadam, H. 2021. Fully Component Selection: An Efficient Combination of Feature Selection and Principal Component Analysis to Increase Model Performance. Expert Systems with Applications 186: 115678.
crossref
Thiagarajan, R., and Kumar, S. P. 2021. Identification of Passenger Demand in Public Transport Using Machine Learning. Webology 18(02):223-236.
crossref

Table 1.
Variables Used in the Experiments
Category Variable Name
Explanatory Variables Population Total population, male population, female population, Floating population
Regional Industrial Factors Number of employees in total industry, agriculture, mining, manufacturing, electricity, gas, and water supply, waste management, construction, distribution, transportation, lodging, IT, finance, real estate, science, business facility management, administration, education, healthcare, arts, and other industries Number of businesses in total industry, agriculture, mining, manufacturing, electricity, gas, and water supply, waste management, construction, distribution, transportation, lodging, IT, finance, real estate, science, business facility management, administration, education, healthcare, arts, and other industries
Transportation Total number of bus routes in each district
Region District names and areas
* 15 districts (Jung-gu, Seo-gu, Dong-gu, Yeongdo-gu, Busanjin-gu, Dongnae-gu, Nam-gu, Buk-gu, Haeundae-gu, Saha-gu, Geumjeong-gu, Gangseo-gu, Yeonje-gu, Suyeong-gu, Sasang-gu) &1 county (Gijang-gun)
Time-Series Variables Year/Month (from January 2022 to December 2022)
Response Variable Number of bus passengers
Table 2.
Results of Correlation Analysis for Important Variables
Variables Correlation
Number of business facility management employees / Number of business facility management establishments 0.557 / 0.332
Number of finance employees / Number of finance establishments 0.472 / 0.477
Number of healthcare employees / Number of healthcare establishments 0.463 / 0.349
Number of lodging employees / Number of lodging establishments 0.357 / 0.432
Number of distribution employees / Number of distribution establishments 0.171 / 0.322
Number of waste management employees / Number of waste management establishments -0.047 / -0.271
Number of manufacturing employees / Number of manufacturing establishments -0.464 / -0.302
Number of electricity, gas, and water supply employees / Number of electricity, gas, and water supply establishments 0.044 / -0.575
Number of mining employees / Number of mining establishments -0.635 / -0.591
Total population 0.227
Floating population 0.199
Male population / Female population 0.211 / 0.241
Total number of bus routes in each district 0.405
District name 0.294
District area -0.415
Table 3.
Prediction Accuracy of MLR
Model Variable Selection MSE RMSE MAE MAPE
MLR All variables 335,790,617.278 18,324.591 14,245.298 6.654 0.917 0.673
Forward selection 320,339,143.840 17,898.021 13,552.518 5.781 0.921 0.881
Backward elimination 319,938,409.761 17,886.822 13,826.924 6.372 0.921 0.707
Stepwise selection 320,339,143.840 17,898.021 13,552.518 5.781 0.921 0.881
PC (1–9) 810,908,973.043 28,476.463 22,928.190 9.837 0.799 0.766
PC (1–19) 295,978,339.776 17,204.021 12,494.279 5.753 0.927 0.895
PC (1–20) 301,057,610.530 17,351.012 12,751.856 5.741 0.925 0.891
PC (Use All PC) 335,790,617.278 18,324.591 14,245.298 6.648 0.917 0.673
Table 4.
Prediction Accuracy of GBDT & RF
Model Variable Selection MSE RMSE MAE MAPE
XGBoost All variables 336,811,389.810 18,352.422 11,742.021 4.679
RFE 368,364,281.916 19,192.818 12,473.780 4.960
RFECV 667,740,487.824 25,840.675 14,846.448 6.854
PC (Use All PC) 424,614,559.773 20,606.178 13,936.760 6.250
PC + RFE 357,978,005.887 18,920.307 11,802.333 5.186
PC + RFECV 380,206,955.300 19,498.896 13,221.757 5.885
LightGBM All variables 147,894,512.120 12,161.189 9,454.691 4.314
RFE 165,342,729.645 12,858.566 10,211.235 4.989
RFECV 150,346,420.314 12,261.583 9,573.874 4.407
PC (Use All PC) 447,102,948.461 21,144.809 16,400.105 8.297
PC + RFE 697,004,993.568 26,400.852 20,618.062 10.837
PC + RFECV 465,716,394.496 21,580.463 16,679.349 8.519
CatBoost All variables 108,338,214.636 10,408.564 8,112.563 3.870
RFE 102,251,804.067 10,111.963 7,659.990 3.243
RFECV 92,542,264.313 9,619.889 7,367.773 3.146
PC (Use All PC) 460,391,264.541 21,456.730 16,197.617 8.733
PC + RFE 289,711,748.563 17,020.921 13,535.304 6.818
PC + RFECV 332,506,825.741 18,234.770 13,878.697 7.794
RF All variables 77,548,034.781 8,806.136 6,619.849 2.797
RFE 86,696,421.622 9,311.091 7,037.897 2.978
RFECV 86,696,421.622 9,311.091 7,037.897 2.978
PC (Use All PC) 280,110,861.268 16,736.513 12,785.505 5.359
PC + RFE 306,741,416.857 17,514.035 13,528.124 5.661
PC + RFECV 246,039,538.661 15,685.648 11,918.017 4.944
Table 5.
Prediction Accuracy of MLP&LSTM
Model Variable Selection MSE RMSE MAE MAPE
LSTM All variables 106,303,533.390 10,310.360 7,124.882 3.979
RF+RFE 168,703,103.351 9,925.722 12,988.576 4.205
PC (Use All PC) 129,389,972.187 11,374.971 9,505.418 4.970
PC (1~19) 95,269,897.581 9,760.630 7,870.515 3.908
PCA+RF+RFE 199,087,605.472 14,109.841 11,010.097 4.768
MLP All variables 435,998,745.129 20,880.583 15,405.313 7.464
RF+RFE 2,140,265,546.174 46,263.004 34,480.289 16.091
PC (Use All PC) 494,716,367.356 22,242.220 17,758.970 8.014
PC (1~19) 10,748,045,543.685 103,672.781 79,986.682 38.300
PC+RF+RFE 296,495,741.996 17,219.052 14,008.807 5.876
Editorial Office
1806, 310, Gangnam-daero, Gangnam-gu, Seoul, 06253, Korea
TEL: +82-2-563-0357   FAX: +82-2-563-0358   E-mail: ksqmeditor@ksqm.org
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © The Korean Society for Quality Management.                 Developed in M2PI
Close layer
prev next