순차 패턴 분석이란?
순차 패턴 분석 알고리즘 5단계(Agrawal and Srikant, 1995)
데이터마이닝 분석방법 중 하나인 순차 패턴 분석은 데이터들 속에서 어떤 순차 관계가 들어 있는 패턴을 찾는 것이다. 즉, 연관 규칙 분석에 시간 개념을 추가하여 시계열에 따른 패턴들의 연관성을 탐색하는 분석기법이다.
예를 들어, 소비자가 구입한 물품들 간의 순차적인 관계성은 다음에 구입할 물건을 예측하는데 쓰일 수 있다. 또한 방문 웹 페이지의 순차 패턴은 사용자가 방문하고자 하는 다음 페이지를 예측하는데 중요할 수 있다.
If A then B 형식의 데이터 속에 숨겨져 있는 규칙을 찾아낸다는 면에서는 연관 규칙과 비슷하다. 하지만 순차 패턴 분석의 경우 "What goes AFTER what?"과 같이 시간이나 순서에 따른 사건의 규칙을 찾는다.
연관규칙분석에서는 X → Y와 Y → X가 동시에 성립할 수 있으나, 순차 패턴 분석에서는 시간의 순서가 중요하기 때문에 X → Y가 성립하는 경우, Y → X가 성립하기 어렵다.
데이터셋에 Identity information (Customer Identifier, or Event ID), TimeStamp (Sequence information, or Sequence ID) 변수가 있어야 한다.
순차 패턴 분석에서 사용하는 규칙 흥미도 척도인 Support(s) = Sequence s를 포함하는 고객의 비율이다. 따라서 연관 규칙과 다르게 Support 척도만 제공할 뿐 연관 규칙에서 썼던 Confidence, Lift는 없다.
순차 패턴의 탐색에서는 빈발 시퀀스(large sequence)를 추출하고 이들 가운데 최대 시퀀스(maximal sequence)를 찾는다. 여기서 빈발 시퀀스란 최소 지지도 이상을 갖는 시퀀스를 말하며, 최대 시퀀스는 빈발 시퀀스 S가 다른 시퀀스에 포함되지 않을 경우 최대 시퀀스라 한다. 시퀀스 S에 대한 지지도는 시퀀스 S를 포함하는 고객의 비율로 정의할 수 있다.
정리해보면 특정 최소 지지도(support) 이상을 가지는 sequence를 빈발 시퀀스로, 순차적 패턴 탐사 문제는 빈발 시퀀스 중에서 최대 시퀀스들을 찾는 것이라 할 수 있다.
일반적으로 순차패턴 분석 알고리즘은 다음 5단계로 구성된다.
Agrawal and Srikant(1955)의 순차 패턴 분석 알고리즘 5단계
1) 정렬 단계(sort phase)
트랜잭션 데이터베이스를 고객 시퀀스 데이터베이스로 전환
2) 빈도가 높은 항목 집합 단계(itemset phase)
최소 지지도를 이상의 빈도가 많은 항목 집합을 찾는 단계
3) 변환 단계(transformation phase)
고객 시퀀스 각각의 거래에서 빈도가 높은 항목 집합의 리스트로 변환하는 단계
4) 시퀀스 단계(sequence phase)
주어진 데이터베이스를 이용하여 후보 시퀀스(candidate sequence)에 대한 지지도를 구한 후 최소 지지도를 만족하는 빈발 시퀀스를 도출
5) 최대화 단계(maximal phase)
빈발 시퀀스 집합으로부터 최대 시퀀스 탐색
지금까지 순차패턴분석에 대해 알아보았습니다. 이어서 타켓 마케팅을 위한 연관규칙분석의 개념과 장단점을 아래에서 확인해보세요.
이 글은 추천 시스템, 장바구니 분석으로 이어집니다. 이번 포스팅이 도움이 되었다면 아래의 '공감 ♡'를 눌러주세요. 감사합니다.
'알고싶은' 카테고리의 다른 글
[vr 추천 책]가상현실에서 교사는 무엇을 가르칠까? VR maker? vr pc? vr 360? (0) | 2021.12.23 |
---|---|
팀기반 학습, 팀기반학습 장단점과 팀기반학습 과정 (0) | 2021.11.25 |
[AI교육] 2021 AI 온라인 실무 응용 교육과정 with 엘리스 코딩 (0) | 2021.11.25 |
연관규칙 향상도? 연관규칙 신뢰도? 연관성 분석, 연관규칙학습 측정방법 (0) | 2021.11.05 |
타켓 마케팅을 위한 연관규칙분석의 개념과 장단점 (2) | 2021.11.04 |
연관규칙분석이란? 연관규칙분석 예시 3가지 (0) | 2021.11.01 |