[번역] Using machine learning for insurance pricing optimization

출처 : https://cloud.google.com/blog/big-data/2017/03/using-machine-learning-for-insurance-pricing-optimization?1490806008189=1
구글 클라우드 빅데이트와 머신러닝 블로그

보험 가격 최적화에 머신러닝 사용하기

By Kaz Sato, Staff Developer Advocate, Google Cloud

대형 글로벌 보험 회사인 AXA는 POC에서 대규모 손실 사건을 예견하는 머신러닝을 사용해왔습니다.
* POC(Proof of Concept) : 신기술이 적용된 신제품을 직접 보고 어떻게 작동하는지를 시장에 소개하는 사전 검증

TensorFlow 머신러닝의 토대는 2015년 이후 오픈 소스인 것에 있지만, 비교적 짧은 시간에 이곳은 라이브러리를 사용하는 8000개 이상의 오픈 소스 프로젝트로 크기가 폭발적으로 증가했습니다. 또한, 이러한 증대한 관심은 언어 번역같은 자연어 처리 기능뿐만 아니라 이미지 처리를 이용한 앱에서 역할이 더욱 중요시 되는데 일조했습니다.
(피부암 감지, 당노병 성 안구 질환 진단, 오이 분류 등의 사례 포함)

또한 TensorFlow가 가격 최적화와 같은 주요 비즈니스 사용 사례를 이용하여 예측 데이터 분석을 향상시키는데 사용되기 시작했습니다. 이 글은 예를 제시하여 대형 글로벌 보험 회사인 AXA가 TensorFlow를 사용하여 구글 클라우드 머신러닝 엔진의 관리 서비스로 POC를 구축하여 고객과 관련된 대규모 손실 교통사고를 예측하는 이유를 설명하겠습니다.

사용한 경우 이해하기

AXA 고객 중 약 7-10%는 매년 교통사고를 일으킵니다. 대부분은 수백에서 수천 달러의 보험료를 포함한 소규모 사고이지만, 약 1%는 손실이 많은 소송 사건으로 10,000 달러이상의 대금 지급이 필요한 경우입니다. 예상대로 AXA 조정자는 정책의 가격 책정을 최적화하기 위해, 어떤 고객이 높은 위험에 노출되어 있는지 이해하는 것이 중요합니다.

일본에 있는 AXA의 R&D팀은 운전자가 보험 기간동안 큰 손실 사건을 일으킨 경우를 예견하기 위한 머신러닝의 사용 사례를 조사해왔습니다. 처음엔 Random Forest라 불리는 전통적인 머신러닝 기술에 집중해왔습니다. Random Forest는 유명한 알고리즘으로 예측을 위한 모델링에 다중 의사결정 트리를 사용하였습니다. Randmo Forest는 AXA의 경우처럼 특정 응용프로그램에 효율적일 수 있지만, 정확도는 40%보다 낮아서 부적절하다.

상대적으로 클라우드 머신러닝 엔진를 통한 TensorFlow를 사용한 실험적인 딥러닝 모델 개발 이후, 이 팀은 78%의 정확도를 이루어냈습니다. 이 개선을 통해 AXA는 판매 시점에서 실시간 가격 책정과 같은 새로운 보험 서비스를 갖추었을 뿐만 아니라, 보험 비용 및 가격을 최적화하는 데 상당한 이점을 얻었습니다. AXA는 초기 단계에 머물고 있습니다. 신경망을 투명하고 쉽게 디버깅 할 수 있도록 설계하면 더욱 발전 할 수 있습니다. 하지만 이러한 혁신적인 기술을 활용할 수 있다는 점이 큰 기대를 하게합니다.

이 기술은 어떻게 작동할까?

AXA는 좋지않은 테스트를 위한 멋진 데모 UI를 만들었습니다.개선 된 신경망 모델의 세부 사항을 살펴 보겠습니다.

그림1. AXA’s deep learning model demo UI

왼쪽에는 다음 과 같은 값들이 약 70개 가량 입력되어 있다.

  • 운전자의 연령대
  • 운전자의 주소 지역
  • 연간 보험료 범위
  • 자동차의 연식 범위

AXA는 이 자료들을 크기가 70인 단일 벡터에 입력하고 중간에 딥 러닝 모델을 넣었습니다. 이 모델은 ReLU를 활성화 함수로 사용하여 3개의 히든 레이어가 있는 완전히 연결된 신경망으로 모델링 하였습니다. AXA는 구글 Compute 기능의 데이터를 사용하여 TensorFlow 모델을 학습시켰으며, 클라우드 머신러닝 기능의 Hyper Tune 기능을 사용하여 하이퍼 파라미터를 조정했습니다.

다음은 최종 결과입니다. 빨간색 선은 딥 러닝 모델(78%)의 정확도를 나타냅니다.

그림2. Test results for POC

사업 자료의 TensorFlow

AXA의 경우는 머신러닝을 사용하여 사업자료를 분석 예측한 하나의 예시입니다.
다른 예시로 최근 DeepMind는 구글 데이터 센터 냉각 비용을 40% 줄이기 위해 머신러닝 모델을 사용했습니다.
이 팀은 구글 데이터 센터의 IoT센서(온도, 전력, 펌프 속도, 설정 값 등)에서 얻은 수치 값을 딥 러닝 모델에 입력하여, 기존 방법보다 더 나은 결과를 얻었습니다.

머신 러닝의 비즈니스 응용 프로그램에 대해 자세히 알아 보려면 아래 영상을 봐주십시오.
영상1. “Customer successes with machine learning”
영상2. “Transform Retail with Machine Learning: Find & Recommend products”

[번역] Preparing for a Data Science Career in the Video Game Industry with a Master’s Degree

출처 : http://www.datasciencegraduateprograms.com/online-gaming/

석사 학위와 비디오 게임산업에서 데이터 과학 커리어를 준비하기

2012년 여름에 ‘Candy Crush Saga’는 모바일 게임을 재패했다. 각종 블로그와 출판 업계는 “Angry Birds”처럼 가장 중독성있는 게임으로 불렀다. 2013년 말, 간단한 퍼즐 게임은 5억개의 기기에 설치되었다. ‘Developer King Software’는 다른 플랫폼의 게임을 전개하는데 시간을 쓰지않고, 2016년에 거대한 (‘Candy Crush Saga’의 성공에 가장 힘이 있는)액티비전 업계를 얻었다.

세계적으로, PC와 콘솔게임은 천만 달러 가치의 산업이 되었다. 평균적으로, 미국 주민들은 하루에 약 30분을 전자 게임에 소비한다. 그리고 온라인이나 제조자에게 전자 테더 백으로 배포되는 수많은 게임과 그 산업은 무섭게 많은 데이터를 모을 수 있다. 전자 예술은 게임 내 원격 측정법으로 혼자서 하루에 50 TB를 모은다.

사람들이 어떻게 플레이하는지 추적하는 것 하나에도, 변하는 트렌드와 디자인 지침에 따라 데이터 덩어리를 분석하는 일은 가장 재능있는 데이터 과학자에게만 필요하다.

강제적인 게임 플레이의 과학

“Candy Crush Saga”는 왜 이리도 중독성이 있는가? 부분적으로 데이터를 재생하고 보존하여 데이터과학자들은 결합했다. 컴퓨터 매거진 2015년 3월호 기사에 따르면, ‘King Software’의 데이터 과학자들은 플레이어들이 더 많은 것을 위해 돌아오도록 디자인 개조를 유지하는 것이 필수적으로 생각했다. 게임 디자인의 특정 방면에서 변화가 일어났다… 플레이어의 새로운 레벨을 완료하는 데 걸리는 시간과 게임을 다시 재생할지 여부에 대한 정보를 기록하는 알고리즘 (King ‘s 데이터 과학자의 호의)… A/B 테스팅과 데이터 분석을 통해, 그 게임은 강제 관념의 영토에서 더욱이 예리해진다.

‘King’은 혼자가 아니다; Zynga과 Kabam, Valve 소프트웨어들은 모두 게임 디자인에 도움이 되는 게임 내 계측을 활용한다. 오늘날 게임은 더욱 인터넷을 통해 컴퓨터 콘솔이나 모바일로 플레이 되가면서, 게임 개발자가 게임에서 플레이하는 모든 움직임을 추적하는 것이 가능한 것이 목적이다.

게임에 데이터과학을 적용하면 게임 플레이가 훨씬 나아진다. 게임 산업에서 데이터과학은 다음과 같은 효과를 기대한다:
* 도전적이지만 쓸데없는 게임 경험을 보장하기 위해 협동 게임과 대면하는 멀티플레이어 타이틀에서 플레이어간 역학을 분석하기
* 플레이어들이 반복적으로 포기하는 게임에서 “핫 스팟” 찾기
* 멀티 플레이어 매치에서 사기 탐지
* 게임 내 고소비 고객을 확인하고 마케팅하기

재미는 게임디자이너를 평가하는 가장 어려운 평가요소

게임 업계의 데이터과학자들의 도전과제 중 하나는 분석결과가 접근 가능하고 게임 개발자가 직면 한 문제에 적용 할 수있게 해야 한다. 게임디자인 컨설턴트인 Nills Pihl의 힘 있는 게임 업계 블로그 “Game Sutra”에 2014년 5월에 작성된 데이터과학자와 개발자 사이에 필요한 번역 정도를 알려준다. 궁극적으로, 개발자와 데이터 과학자은 둘다 게임의 재미가 목표이지만 매우 어렵다.

재미는 직접 측정할 수 없기 때문에, 데이터과학자들은 버려진 게임 세션과 플레이타임, 재시작같은 수직가능한 자료로부터 이 정보로 보여주어야 한다.

데이터를 사용한 보상과 도전의 적절한 균형 설계하기

“Candy Crush Saga”와 같이 데이터 과학자들은 게임 레벨 디자인에서 점점 더 중요해진다. 레벨을 통해 플레이어는 도전마다 진행상황을 측정 할 수 있습니다. 레벨은 특정 시나리오를 포함 할 수 있으며, 게임의 스토리 라인에 중요한 부분으로 작용한다.

한때 게임 레벨 설계와 어려움은 디자이너의 독자적인 부분이었다. 종종 혼자 일하는 디자이너는 본능과 경험으로 도전적이고 보람있는 상상력을 발휘가능한 경험을 쌓았다. 디자이너는 자신의 재치와 감을 사용하기도하면서 플레이어가 레벨을 진행함에 따라 점차적으로 어려워지고 보람을 느끼도록 스케일을 조정한다.

시간이 지남에 따라 게임 산업이 성장하고 개발팀이 보다 전문화되면서 작은 테스터 팀이 루프에 포함되어 피드백을 제공한다. 그러나 개발자들이 발견한 점은 테스터 수를 늘려도 샘플 수가 너무 부족해서 지구상의 수백만 명의 사용자에 대한 평균 플레이 경험을 대표하지 못한다는 것이다.

원격 측정법이 게임에 설계되면서 데이터과학자는 실제 사용자의 실제 게임플레이를 기반으로 중요한 통찰력을 제공할 수 있다. 레벨 디자이너는 히트 맵 및 기타 게임의 시각적 표현을 통해 플레이어가 고착되는 경향이 있거나 지도의 어떤 부분이 완성하기 쉽지 않은지에 대한 신속하고 정확한 피드백을 얻을 수 있다.

플레이어 유형을 설정하기 위한 데이터 조합

‘Xbox Live’, ‘Battle.net’, ‘Steam’같은 통합 플랫폼을 사용하는 많은 대형 개발자들이 싱글 게임뿐만아니라 멀티플레이 게임에서 플레이어 행동을 조사할 수 있는 새로운 기회를 제공받았다. 개인 게이머 환경에 매우 복잡한 프로파일을 만들 수 있게 되었다. 이 프로파일들을 합쳐서 그럴듯한 유형을 만들 수 있다.

이러한 플레이어 유형에 대한 이해를 확립하면 게임 개발자는 향후 게임 디자인 및 마케팅 전략에보다 구체적인 기반을 제공 할 수있을뿐만 아니라 기존 게임을 즐기는 고객에게도 마케팅 할 수 있다.

게임 산업의 경제적 측면

데이터과학자들은 무료게임에서도 중요한 역할을 한다. 이 게임들은 누구나 설치가능하고 무료로 플레이 가능하기 때문에 게임내 업그레이드 제공이나 VR기어로 수익을 올린다. 특히나, 완전한 게임 시장은 구성되어 있고, 이 경제적인 측면은 개발 비용 도움받기 위해서 적절히 분석하고 구성했다.

무료로 플레이가능한 MMORPG(대규모 멀티플레이 온라인 롤 플레잉 게임)인 Runescape는 플레이어 정보 분석을 기반으로 게임 내 퀘스트 추천 기능이 개발되었다. 추천 엔진은 플레이어가 자신의 플레이 패턴에 가장 관여하고 가장 이득을 볼 수 있는 콘텐츠로 안내하도록 설계되었다.

대규모 멀티플레이어는 또한 대용량 데이터 종속성을 의미

Runescape와 같은 MMORPG는 플레이어 데이터 이상을 생성한다. 거대한 몰입형 세계는 사실 수백만 가지의 퀘스트, 캐릭터 속성, 영역 매개 변수, 주문 및 무기 특성을 갖춘 데이터로 만들어졌다.

모든 환경에서 이 정보를 저장하는 것은 어려움이 될 수 있지만, 게임의 경우 성능이 중요하다. 업무용 사용자는 작년 수익 번호가있는 서버에서 쿼리가 반환되는 몇 초 동안 앉아서 기다릴 수 있지만, 게이머가 중반 검 스윙을 하는데 데이터베이스가 “기회를 잡을 확률”에 대해 질의를하는 동안 게임이 더듬 거리면 굉장히 화가 난다.

데이터 과학자들은 백엔드 게임 데이터베이스에서 밀리 세컨드의 응답 시간을 가능하게하는 아키텍처를 설계하고 모든 것을 보호해 놓고 있다. 고도로 경쟁이 치열한 MMORPG 세계에서 이러한 정보는 고도로 보호된 영업 비밀입니다. 월드 오브 워크래프트 (World of Warcraft)와 같은 게임을위한 고성능 백엔드 데이터베이스를 구축하는 데 사용되는 도구와 기술에 대해서는 수년 간 약간의 차이 밖에 없었지만, 그 점은 석사 학위의 교육을 받은 데이터 과학자가 수행하는 진지한 작업을 암시합니다.