Blog

[AI Story] AI 도입을 고민하는 제조 기업, 데이터가 얼마나 필요할까요?

다양한 AI 기술을 활용하여 반복적인 일을 정확하게 수행함으로 업무의 효율과 사용자들의 편의를 극대화하고 있습니다. 특히 제조 산업은 스마트 팩토리 등 지능화 및 자동화를 통해 더 빠르고 정확하게 공정을 진단하기 위한 여러 활동을 펼치는 추세입니다. 그 중에 단연 딥러닝 기반의 AI 기술에 대한 많은 관심이 집중되고 있습니다.

그러나 이런 AI 모델을 도입하는 제조기업들은 아마 같은 고민이 있을 것이라 예상을 합니다. 도대체 어떤 데이터가 얼마나 있어야 AI 솔루션을 도입할 수 있습니까?

모든 데이터 컨설턴트와 연구 보고서에 의하면 ‘모든 케이스에 따라 다르다’입니다. 물론 정답이기도 합니다. 하지만, 반도체, 배터리, LED 등 다양한 하이테크 제조사들의 실제 케이스를 보며 조금 더 구체적인 답변을 찾아보겠습니다.

어떤 데이터가 필요할까요?

알티엠에서는 제조 산업의 문제를 대표적으로 시계열 데이터와 이미지 데이터 타입으로 분류해 분석하고 있습니다.

Case 1

반도체 장비사 'A'의 플라즈마 공정 설비 결함을 탐지하기 위해 20여종의 시계열 센서 데이터를 분석하는 모델

Case 2

반도체 제조사 'B'의 검사 정확도 및 효율을 높이기 위해 기존 육안 검사를 대체하는 제품 x-ray 이미지에서 불량을 검출하는 모델

Case 3

반도체 제조사 'C'의 제품 외관 불량 검사(AOI, Automated Optical Inspection)를 목표로 기존 육안 검사를 대체하는 AI 모델

‍

Conclusion

위 3개 모델의 데이터 개수와 모델 정확도의 관계를 살펴보면 몇 가지 인사이트를 도출할 수 있습니다.

1. 데이터 양은 곧 AI 모델의 품질입니다.

반도체 양산과 같이 정밀한 제조 기술이 요구되는 공정의 경우, 데이터의 파라미터, 차원, 불확실성의 요소들이 많기 때문에 최소 수만건의 데이터를 습득해야 AI 품질을 확보할 수 있습니다.

반면에 상대적으로 불확실성이 낮은 이미지 검사 문제에서는 정상 제품과 불량 유형별 2~3천여의 데이터로 97~99% 정확도의 AI 모델을 생성 가능한 경우를 확인할 수 있었습니다.

2. 수천만 개 이상의 데이터를 보유하고 있는 기업들에게도 신뢰성 높은 데이터를 확보하는 것은 어려운 과제입니다.

이러한 라벨링을 정확하게 습득하기 위해 RTM은 제조 공정별 전문자와 협력적 파트너십을 맺고 있습니다.

3. 소량의 데이터로 모델 퍼포먼스를 개선할 수 있습니다.

이와 같이 적은 데이터 모수를 활용한 초기 AI 모델에 지속적으로 신뢰도 높은 데이터를 학습시키면 솔루션의 퍼포먼스뿐 아니라 시간 단축도 가능해집니다.

4. 차원이 높은 시계열 데이터는 처리와 학습 방법에 따라 성능의 편차가 발생합니다.

반도체 공정 데이터와 같이 차원이 높은 데이터는 충분한 데이터 확보가 특히나 어렵습니다. 이러한 데이터 불균형 문제는 미가공 데이터(raw data)를 딥러닝 모델에 학습 시키는 것이 일반적입니다. 그러나 RTM의 특화된 시계열 데이터 처리 기법을 통해 기존 방식보다 효율적인 학습이 가능하며 10% 이상 높은 모델 퍼포먼스를 구현하였습니다.