Accounting & Actuarial Science

[인공지능] 데이터 증강을 이용한 인공신경망 기반 사망률 예측에 관한 연구 (2022)

꿈공장장100 2023. 6. 30. 20:02

* 부족한 부분이 있으나 데이터 증강과 인공신경망(LSTM)을 이용하고 Lee-Carter 모델을 결합하여 사망률 예측에 대한 논문을 작성해 보았습니다. 그러나 나름 국내 이 분야에서는 초기 시도라 할 수 있을 것 같습니다.

 

 

인공신경망에 대한 연구는 많은 발전을 거듭하고 있고 특히 예측 분야에서 연구되고 활용되고 있다. 예를 들어 공학뿐만 아니라 경제·경영 분야에서 주식 가격, 농산물 가격 등 다양한 가격 예측에도 사용되고 있다. 본 논문의 주제인 사망률을 예측하는 경우에도 인공신경망이 이용되고 있고, 기존의 사망률 예측 연구에 비하여 인공신경망을 이용한 연구에서 더 향상된 예측 성능을 보여주었다.

이러한 사망률 예측과 인공신경망을 통한 선행 연구에서는 연 사망률을 이용하였다. 그런데 사망률 예측의 경우 사용된 사망률은 관련 데이터의 수집 및 공개 시점 등에 따른 한계로 대부분 연 단위 사망률로 이산적으로 제공된다. 따라서 국가별로 차이가 있지만 인공신경망을 적용하는 경우 다른 분야에 비하여 데이터가 충분하지 못한 문제점이 있다. 예를 들어 발표되는 기간이 100년이라고 해도 특정 연령별 성별 사망률은 각 100개일 수 있어 데이터 수가 적다.

반면에 인공신경망은 일반적으로 입력 데이터의 수가 많아야 학습 결과가 좋고 적은 경우에는 데이터 증강을 통하여 많은 경우 성능이 더 향상된 결과를 보여 주고 있다.

따라서, 본 논문에서는 사망률 예측(mortality forecast) 분야에 있어 기존의 관련 연구와 달리 사망률 분야의 도메인 지식 및 경험 등에 기반하여 관련 시계열 데이터 증강(time-series data augmentation) 방법을 적용하고 이 증강된 데이터를 통하여 인공신경망을 학습시키는 방법으로 사망률을 예측하였다.

사망률 예측을 위하여 Lee-Carter 모델(LC모델)과 인공신경망 모델 중 하나인 Long Short-Term Memory network(LSTM)을 사용하였고, 관련 시계열 데이터 증강에 따른 성능 변화를 비교 관찰하기 위하여 두 가지 측면에서 실험을 구성하였다. 첫째, 데이터를 증강하지 않은 경우와 증강하는 데이터의 종류에 따라 실험을 구분하였다. 데이터를 증강하지 않는 실험 A에서는 기존 선행 연구와 같이 연 사망률을 이용하고 LC모델과 LSTM을 적용하여 사망률을 예측하였다. 그리고 실험 B는 LC모델에서 산출되는 사망률 개선 정도를 설명하는 사망률 지표 kt를 선형보간법을 통하여 증강하고 LSTM을 이용하여 사망률을 예측하였다. 실험 C는 실험 대상 연 사망률을 계리학 분야의 연중 사망률 추정 방법 응용을 통하여 증강시켜 LC모델과 LSTM을 사용하여 사망률을 예측하였다. 둘째, 상기 실험 A, B, C에 대하여 데이터 증강 수준에 따라 실험 I에서는 월 단위로 증강하고 실험 II에서는 일 단위로 증강하여 실험 I과 실험 II에서 각각 실험 A, B, C를 수행하였다.

실험 결과 해당 도메인과 시계열 데이터의 특성을 고려하여 월 단위 증강한 경우와 일 단위 증강한 경우 모두 데이터 증강을 통한 인공신경망 학습이 데이터 증강을 하지 않은 경우에 비하여 사망률 예측에 있어서 성능이 개선되었다.