제조 공정에서 발생하는 데이터를 크게 이미지 데이터와 시계열 데이터로 구분을 합니다. 이미지 데이터는 대부분 사람의 눈으로도 볼 수 있어 육안 검사 또는 비전 검사 장비를 활용한 불량 탐지를 하게 됩니다.
반면에 시계열 데이터는 일정하게 반복되는 패턴처럼 보이지만 이를 표준적으로 정의하기에는 어렵습니다. 또한 여러 센서로부터 수집된 데이터인 경우가 사람의 능력으로 복잡한 관련성을 이해하기 불가능한 고차원 데이터가 됩니다. 3차원에서 살고 있는 우리의 능력은 x, y, z축의 3차원 공간까지 인지할 수 있습니다. 시각적으로 표현할 수는 없지만, AI는 수학적으로 x, y, z, w축의 4차원과 그 이상을 유연하게 확장할 수 있습니다.
특히 산업들이 발전하면서 더 많은 시스템, 센서, 툴을 도입하면서 순수 인간의 역량으로는 이해할 수 없는 데이터의 한계점을 극복하기 위해 AI와 시계열 데이터의 무한한 확장성에 집중이 될 수밖에 없습니다.
이미지 데이터는 특정 순간을 포착한 결과를 담은 데이터 셋입니다. 그러므로 특정 이벤트 또는 제품 불량의 발생 유/무를 현재 상태에서만 판단할 수 있습니다. 예를 들어, 제조 현장에서 제품의 불량을 판독하는 비전 검사기는 이미지 데이터를 활용합니다. 비전 검사 결과 제품의 균열로 인한 제품 불량을 판별할 수는 있지만 언제 발생했는지, 원인이 무엇인지, 어떻게 개선을 해야 하는지 알 수 있는 방법은 없습니다. 시계열 데이터는 완제품의 히스토리를 담고 있습니다. 이러한 특성이 있는 시계열 데이터를 분석하면 제조 공정 중 어느 시점에서, 어떠한 이유로 불량 발생했기에 어떻게 개선을 할 수 있는지 방향을 제시할 수 있습니다.
시계열 데이터는 일정 시간 간격으로 측정된 데이터의 시간적 순서를 나타내는 데이터입니다. 이 데이터는 연속된 시간 간격으로 발생한 정보를 나타내며, 예를 들어 일일 주가, 분 단위 센서 데이터, 월간 판매량 등이 시계열 데이터의 예시입니다.
시계열 데이터 분석은 많은 분야에서 중요한 역할을 합니다. 예를 들어 경제학에서는 경제 지표나 주식 시장 등의 시계열 데이터를 분석하여 경제 동향을 예측하고, 기상학에서는 기상 데이터를 분석하여 날씨 변화를 예측하고자 합니다. 또한, 제조업체는 제조 라인의 센서 데이터를 분석하여 제품 품질을 향상시키기 위한 정보를 추출합니다.
다양한 응용만큼 시계열 데이터의 특성에 따라 분류 방법도 다양합니다.
가장 편하고 일반적으로 시계열 데이터를 분류하는 방법은 변수 개수에 따라 단변량 (univariate)과 다변량 (multivariate) 시계열입니다.
단변량 시계열 분석으로 한 가지 변수의 시간적 트랜드를 분석한다면, 다변량 시계열 분석은 여러 변수의 관계성을 파악할 수 있습니다.
데이터가 규칙적으로 발생하는지, 불규칙한 시간 간격으로 발생되는 특성에 따라 메트릭(metric)과 이벤트(event)로 구분할 수 있습니다.
예) 심박수 및 생체 리듬, 주식 차트, 제조 장비의 센서는 일정한 기간동안 측정하며 수집하는 데이터를 메트릭 데이터라고 합니다
예) 은행 입.출금 내역, 하루 트윗 건수, 등 사건 간에 시간이 불규칙하게 예측이 어려운 경우 사건 중심으로 수집하는 데이터를 이벤트 데이터라고 합니다
규칙적인 메트릭 데이터의 측정 간격을 이산형(Discrete)과 연속형(Continuous)으로 세부 정의할 수 있습니다. 이산형 시계열 데이터는 측정 간격이 유한한 값으로 정해져 있는 시계열이며 연속형은 측정 간격의 길이가 무한히 짧은 데이터입니다. 컴퓨터는 모든 데이터를 디지털화해서 저장하기 때문에 연속형 시계열 데이터를 표현할 수가 없습니다. 따라서 컴퓨터를 이용한 분석 관점에서 연속성에 따른 분류는 크게 의미가 없습니다.
데이터 특성을 고려하여 데이터 수집, 처리, 분석 등 접근 방법을 다르게 합니다. 때문에 RTM은 제조 경험과 노하우를 적용하여 공정 시계열 데이터를 반복 공정 데이터 또는 연속 공정 데이터로 분류합니다.
예를 들어, 반도체 제조 공정의 경우 깎고(etch), 쌓고(deposit)을 수백 번 반복합니다. 이러한 공정의 특성을 이해하면 데이터 패턴으로부터 동일 공정이라는 것을 추정할 수 있습니다. 더 나아가 시간대를 추출하면 웨이퍼 및 LOT 정보까지 파악할 수 있습니다.
반복되는 패턴을 하나의 단위로 추출하여 형태적, 통계적으로 분석함으로 정상과 비정상 데이터를 불량 및 이상 감지 신호로도 활용할 수 있습니다.
반면에, 장비 수명을 예측할 경우 연속 공정 데이터를 활용할 수 있습니다. 사례로, 발전소 터빈의 모터의 수명은 24시간 가동한다는 기준에서 평균 2년입니다. 이를 측정하는 센서는 평균 수명 2년간 지속적으로 데이터를 측정 및 수집하는 동시에 데이터 트랜드를 분석하면서 사용자에게 수리, 교체, 등 유지보수 시기부터 장비 이상 경고 알림을 줄 수 있습니다.