카카오페이 유저 프로파일링, 페이프로파일

카카오페이 유저 프로파일링, 페이프로파일

시작하며

안녕하세요. 카카오페이 데이터실 danna입니다.

‘모든 행동은 반드시 흔적을 남긴다.’
오늘날 존재하는 데이터의 90%는 지난 10년 동안 생성되었다고 합니다. 디지털 서비스 사용자가 증가하는 만큼 데이터 또한 기하급수적으로 증가하고 있는데요. 3,700만 명의 사용자를 보유한 카카오페이는 약 2,000TiB의 분석 데이터를 가지고 있습니다.

수많은 사용자 데이터를 활용해 행동 특성을 분석하고 행동을 예측할 수 있도록 데이터를 다양하게 가공, 분류하는 것을 유저 프로파일링이라고 하는데요. 카카오페이에서는 페이프로파일이 이 역할을 담당하고 있습니다. 그럼 페이프로파일로 사용자 데이터를 어떻게 다루고, 어떻게 활용하고 있는지, 그리고 마이데이터와 어떻게 융화되는지에 대해 소개해볼까 합니다.

페이프로파일이란?

카카오페이는 간편결제, 송금, 자산관리, 내문서함 서비스 뿐만 아니라 모든 금융 생활 전반에 걸친 다양한 서비스를 제공합니다.

카카오페이 서비스
카카오페이 서비스

페이프로파일은 사용자를 보다 잘 이해하고 더 나은 서비스를 제공하기 위해 사용자가 카카오페이를 이용하며 남긴 흔적들을 한 곳에 모아 관리하는 유저 프로파일링입니다. 카카오페이 데이터실에서는 페이프로파일을 ‘많은 데이터 속에서 의미있는 정보를 찾아내고 이를 수치화하여 개인화를 가능하게 하는 작업이다.‘라고 정의하고 있습니다. 페이프로파일이 사용자 분석의 시작점에 위치하고 마지막 목표에 잘 정착하게 하기 위해, 저희는 사용자의 흔적을 가공, 분류, 예측해내는 과정을 아우르고자 합니다.

페이프로파일 데이터가 구성되는 과정은 다음과 같습니다.

페이프로파일 구성
페이프로파일 구성

① Timeline: 사용자 데이터 수집

첫 번째 Timeline 단계는 카카오페이 서비스를 이용하며 수집된 모든 Timeline 정보를 가공하여 적재합니다. 사용자 개개인의 특성을 파악하기 위해 페이프로파일에서는 총 9개로 세분화된 주제 영역에서 695개의 Feature를 산출하고 있습니다. 페이프로파일 데이터는 공통 포맷을 통해 테이블 레이아웃의 통일성을 유지하고, 새로운 Feature들을 추가 개발할 수 있도록 확장성을 고려하여 설계되어 있습니다.

② Profiling: 주제 영역별 Feature 구성

두 번째 Profiling 단계는 수집된 모든 Feature를 다른 사용자 대비 상대적 경향을 파악할 수 있는 값으로 스코어링합니다. 스케일이 다양한 수치를 표준화하여 특정 사용자의 수치가 다른 사용자 대비 높은 수준인지 낮은 수준인지를 쉽게 파악할 수 있게 됩니다. 이렇게 생성된 Feature들은 레고 블럭을 맞추듯 원하는 형태로 조합하여 세그먼트를 추출하거나 다양한 모델링 Feature로 사용할 수 있습니다.

③ Modeling: 성향/상태 예측

세 번째 Modeling 단계는 사용자에게 더 나은 서비스 제공을 위해 인지하지 못하는 니즈까지 발굴합니다. 수집된 정보만으로 알 수 없는 상태를 예측하기 위해 유저 모델링 과정을 거치게 됩니다. 페이프로파일에서는 사용자 라이프 사이클에 맞춘 개인화 서비스가 가능하도록 라이프 이벤트와 관련된 정보를 예측하고 있습니다. 결혼 여부, 자녀 여부, 육아 여부와 같은 기본 정보와 재테크 관심, 자동차 보유 등의 정보를 생산함으로써 사용자의 니즈를 추정하여 타겟팅할 수 있도록 제공하고 있습니다.

④ Segment: 유저 세그먼트 생성 및 활용

네 번째 Segment 단계는 유저 세그먼트를 생성하고 활용합니다. 유저 세그먼트를 만들어 내는 컴포넌트는 크게 두 가지 유형으로 분류합니다. 단일 피처를 의미하는 ‘속성’과 그 속성들을 조합하여 복합 속성으로 정의해 낸 ‘태그’인데요. ‘태그’ 정보는 룰 기반의 복합 속성 조합이 될 수도 있고 유저 모델링 결과값이 될 수도 있습니다. 페이프로파일에서 생성된 컴포넌트는 자체 개발한 CXM 고객분석플랫폼과 연동되어 직접 세그먼트 데이터를 생성하는데 활용할 수 있습니다. CXM 고객분석플랫폼에서는 세그먼트들 간에도 참조 관계를 맺어 사용자가 원하는 방향으로 변환/수정이 가능하고, API를 통해 활용하고 싶은 부서에 제공 가능하도록 운영하고 있습니다. 나아가 개인화 서비스가 가능하도록 마케터/기획자들이 직접 컨트롤 할 수 있는 기능과 사후 세그먼트 집단 분석을 할 수 있는 분석 환경도 지원하고 있습니다. 향후에는 이러한 활용 싸이클을 통해 마케터/기획자들이 페이프로파일을 가지고 더 나은 세그먼트와, 나아가 스코어링까지 생성할 수 있는 자동화를 기대해 볼 수 있을 것 같습니다.

유저 세그먼트
유저 세그먼트

페이프로파일을 지탱하는 기술

카카오페이 데이터실에서는 완성도 높은 페이프로파일 정보를 제공하기 위해 데이터를 가공, 생성하는 기반 기술을 쌓아오고 있습니다. 데이터를 잘 생성하는 작업은 데이터 레이크 표면에서 눈에 띄는 정보만을 활용하느냐, 최대한 많은 데이터를 활용하여 의미 있는 정보를 찾아내느냐의 차이를 결정합니다. 부정확한 데이터의 활용은 데이터 품질에 직접적인 악영향을 미칠 수 있으므로 가공 기술을 개선하기 위해 지속해서 노력하고 있습니다.

① 가맹점 분류 모델

가맹점 분류 모델은 페이프로파일의 다양한 주제 영역에서의 Feature를 추출할 수 있는 중요한 작업입니다.
결제 트랜잭션으로 입수되는 가맹점명과 몇 가지 추가 정보를 기반으로 소비 카테고리, 브랜드, 지역을 추출하는 작업을 진행하고 있습니다.

  • 소비 카테고리 분류 소비 카테고리는 딥러닝 모델을 이용하여 10개의 대분류, 33개의 중분류, 158개의 소분류로 구분하여 구성되어 있습니다. 최근 카테고리를 대폭 개편하여 온라인 결제 트렌드에 맞게 서비스될 수 있도록 운영하고 있습니다.
  • 브랜드 분류 키워드 분류 엔진과 데이터 클렌징으로 879개의 브랜드를 분류하고 있습니다. 결제가 급격히 증가한 가맹점은 클렌징 작업을 거쳐 브랜드를 자동으로 인식해 트렌드를 놓치지 않도록 관리하고 있습니다. 카카오페이는 오프라인 결제 서비스를 운영하고 있어 내부 가맹점 관리 정보를 활용할 수 있는 이점도 존재합니다.
  • 지역 분류 위치 확인이 가능한 가맹점 정보를 활용해 가맹점명과 지역명 조합에 대한 엔트로피 지수를 산출하는 방식으로 지역 색인을 개발하였습니다. 오프라인 가맹점이 아니더라도 가맹점명만으로 지역 정보를 추출할 수 있기 때문에 향후 지역 정보를 알 수 없는 마이데이터와 같은 외부 데이터에 적용할 수 있는 확장성까지 확보했습니다.

② 분석 및 모델링 기술

  • 네트워크 분석 페이스북에서 사명을 변경한 ‘메타플랫폼스’에서 과거에 네트워크 분석으로 3depth의 관계를 거치면 전세계 사용자수에 가까워진다는 분석 결과를 발표한 적이 있습니다. 카카오페이에서도 동일한 현상을 확인할 수 있었는데요. 지인의 지인인 2depth에서 3depth로 확장되는 과정에서 관계망에 포함되는 사용자가 급격히 증가했습니다. 그리고 일정 규모 이상일 때 랜덤하게 크고 작은 사용자수로 추출하더라도 3depth에서 유사한 수로 확장 수렴하고 있었습니다.

    다음과 같이 중앙에 원형 띠를 이루는 1:N 연결 강도가 강한 중심노드 사용자의 군집과 전체 네트워크 중심과의 연결성은 약하나 해당 군집 내 연결이 강한 외각에 머무는 외각군집 등 다양한 형태의 사용자 네트워크도 파악해볼 수 있었습니다.

    머니서비스, 결제서비스, 로그데이터 등 카카오페이 내에 연결성을 가진 정보들이 무궁무진하여 앞으로 네트워크 분석 기술의 활용도가 높을 것이라고 생각합니다.

네트워크 분석
네트워크 분석

  • 자연어 처리 자연어 처리의 언어 모델은 Markov > RNN > Attention, Transformer 모델로 진화하면서 계속해서 개선, 발전되고 있는 연구 분야입니다. 페이프로파일에서도 자연어 처리를 활용해 단순 형태소 분석을 통한 키워드 분석 뿐만 아니라 BERT를 활용한 분류 모델 개선 실험을 진행했습니다. 특히 소비 카테고리 분류 모델에서는 정교화 작업을 위해 딥러닝 모델 인퍼런스 결과와 더불어 키워들 룰 엔진 결과를 적용하게 되는데요. 이때 자연어 처리는 158개 카테고리에 1,148개의 의미있는 키워드를 적용할 수 있는 기반 기술이 되고 있습니다.

  • ML/DL/Statistic 모델 설계 페이프로파일에서 모델링이 활용되는 대표적인 업무 영역은 유저 모델링을 통한 사용자 성향/상태 예측입니다. 콜드 스타트1 사용자의 정보 예측을 위해서는 서비스 활용도가 낮은 사용자의 특성도 유추할 수 있어야 하는데요. 이 과정에서 딥러닝 네트워크 기술인 GNN을 활용할 경우 유저 클러스터링을 보다 정교하게 할 수 있음을 확인하였습니다.

GNN임베딩 클러스터링
GNN임베딩 클러스터링

페이프로파일 데이터의 활용

① 분석플랫폼 연계

  • 프로파일 대시보드 카카오페이는 CXM 고객분석플랫폼을 활용해 세그먼트의 프로파일 현황을 파악할 수 있는 대시보드를 제공하고 있습니다.

프로파일 대시보드
프로파일 대시보드

  • 세그먼트 생성 CXM 고객분석플랫폼의 세그먼트 생성 기능을 활용하여 페이프로파일 정보를 조합할 수 있도록 제공하고 있습니다.
    마케터/기획자가 쿼리를 알지 못해도 조건 적용 기능(필터)을 이용하여 손쉽게 데이터를 직접 추출/분석할 수 있습니다.

② 분석 인사이트 도출

페이프로파일 데이터는 분석 니즈가 있는 모든 분석가, 마케터, 기획자가 권한을 득하여 활용할 수 있습니다. 인사이트 제공을 위해 페이프로파일 리포팅을 진행하기도 하는데요. 과거 페이프로파일을 활용한 리포팅 중 연령대에 따른 선호 브랜드 변화, 특정 브랜드 소비 사용자가 주로 결제하는 다른 브랜드 정보를 파악한 내용에 대해 소개합니다.

연령대별 브랜드 이용
연령대별 브랜드 이용

연령대별 주요 특징으로 20대가 되면서 여성은 남성보다 급격하게 소비 성향이 다양해지고, 활성화됩니다. 젊은 남성의 경우 편의점, 교통, 패스트푸드 이용이 두드러집니다. 여성의 경우 30대 이후 쇼핑 관련 소비가 높고, 특히 50대가 넘어서면서부터 홈쇼핑 소비 선호도가 매우 높은 것을 확인할 수 있습니다. 분석 작업을 통해 짐작하던 내용을 확인하기도 하고 이례적인 특수성을 발견하기도 하는데요. 해당 작업에서는 브랜드 연관 분석과 네트워크를 활용한 시각화로 브랜드 간 상호 연결성이 강한 목록을 리스트업 할 수 있었고, 실제로 사용자 그룹마다 선호하는 브랜드의 명확한 차이를 확인할 수 있었습니다.

③ 서비스 데이터 제공

페이프로파일 정보는 카카오페이 또는 카카오페이증권이 제공하는 서비스에 직접적으로 활용되기도 합니다.

  • 자산관리 서비스 결제 내역에 대한 소비 카테고리 정보를 제공하여 사용자가 지출 현황을 한눈에 파악할 수 있도록 하고 있습니다. 마이데이터 자산관리 서비스는 추가적인 서비스 제공을 위해 관련 부서에서 열심히 준비 중에 있으며 곧 새로운 서비스를 경험하실 수 있습니다.

  • 주식 서비스 카카오페이증권이 제공하는 주식 서비스에서는 소비 브랜드 성향을 반영한 주식 종목을 추천받을 수 있습니다.

자산관리 소비 카테고리와 주식 추천 브랜드 분류
자산관리 소비 카테고리와 주식 추천 브랜드 분류

마치며

일반적인 유저 프로파일링 업무 대비 카카오페이에서만 할 수 있는 페이프로파일의 가치는 전 세대를 아울러 재테크가 주요 관심사로 자리한 요즘, 가장 많은 사용자 정보와 금융 서비스 이용 정보를 확보하고 있다는 점에 있습니다. 카카오페이는 젊은층이 주로 이용하던 시점을 지나 고른 연령대 분포를 이루고 있고, 주요 경제활동 인구로 꼽히는 20~40대 비중이 전체 사용자의 67%를 차지하고 있습니다.

연령대별 사용자 현황
연령대별 사용자 현황

사용자들이 쌓은 데이터를 기반으로 구축해 온 카카오페이 프로파일의 기존 모델과 엔진들은 향후 마이데이터 사용자의 금융 활동을 분석을 하는데 큰 자양분이 될 수 있을 것이라 기대합니다. 대표적으로 가맹점 분류 시스템은 마이데이터에 바로 적용 가능하여 손쉽게 소비, 브랜드, 지역 정보를 얻을 수 있습니다. 또한 카카오페이 서비스를 잘 이용하는 사용자의 내부 정보와 마이데이터 정보가 결합될 경우 예측 모델 추론이 더욱 용이해져 보다 최적화된 서비스를 제공할 수 있게 됩니다.

마이데이터를 보다 잘 이해하고 활용하기 위해서 카카오페이 데이터실에서는 API로 수집된 정보를 재가공하는 총 30여개의 DW 데이터를 구축하고 있고, 페이프로파일에서는 이 정보들을 활용해 유용한 금융 Feature를 발굴하고자 합니다. 2022년 상반기 내에는 이러한 데이터들의 구성이 완료되어 새로운 금융 정보로 더 새롭고 안정적인 서비스에 기여할 수 있기를 기대해봅니다.

Footnotes

  1. 아직 충분한 정보를 수집하지 않은 사용자에 대한 추론을 도출할 수 없는 문제를 뜻합니다.

danna.cho
danna.cho

카카오페이 사용자의 경험을 분석하고 가치를 발굴하는 업무를 담당하고 있는 데이나입니다.

erin.jj
erin.jj

카카오페이 데이터 분석가 그룹 BDA길드장 에린입니다. 카카오페이에서 전사 데이터 분석 업무를 하고 있습니다.

sophia.myy
sophia.myy

데이터로 사용자를 이해하고 예측하여, 편의를 제공하고자 노력 중인 소피아입니다.

태그