스마트 팩토리, 4차 산업혁명, 제조 산업에서도 AI에 대한 관심이 높아지며 다양한 곳에서 이를 도입한 사례가 늘고 있습니다. AI 도입으로 업무 프로세스 개선, 운영 효율 향상 등 많은 성공 효과도 보고 있습니다. 그러나 현실적으로 많은 제조업에서 산업용 AI에 대한 유용함을 알면서도 도입을 망설이고 있는데요. 바로 정형화된 기준이 없어서입니다. AI 도입에 투자 비용은 얼마나 필요한지, 모델 개발에서 실현까지 얼마나 걸리는지, 데이터는 얼마나 필요한지 등 명확한 기준을 알지 못해 어려움을 겪고 있습니다. 이런 기준 없이 막연하게 시작하거나 충분한 데이터의 양이 없다면 PoC 프로젝트의 발전 가능성도 낮아지므로 문제 정의를 확실히 정리하고 도입을 시도하는 것이 좋습니다.
오늘은 그중에서도 ‘데이터의 부족’에 대한 기준을 정리해 보도록 하겠습니다. 예를 들어보겠습니다. A사에서 B 제품에 대한 일별, 지역별 판매량과 매출 데이터를 1억 개 이상 확보하여 AI로 수요 예측을 하기에 충분하다고 판단했습니다. 그래서 AI 솔루션을 도입하기 위해 AI 전문가를 만났는데 “데이터가 부족합니다.”라는 답변을 받았습니다. 솔루션을 도입하기에 충분한 데이터 양인데, 납득할 수 없는 A사였습니다. 이처럼 데이터 부족에 대한 서로 간의 기준이 달라서 발생하는 문제가 있는데요. 그럼 데이터가 부족하다는 것에 정확한 의미가 무엇인지 정리해 보도록 하겠습니다.
해당 불량이 왜 불량인지 정리되지 않은 채 여러 불량 유형이 섞여있을 때 데이터가 부족하다고 판단합니다. 불량에도 깨짐, 오염, 비틀어짐 등 요인은 다양한데 단순히 ‘불량’으로만 표기되었을 때 세밀하게 유형을 나눌 수 없어 높은 퍼포먼스를 구현하기 어렵습니다. 그러므로 불량을 유형 별로 정밀하게 나눠 관리할 수 있도록 불량 데이터에 명확한 라벨링 작업을 해야합니다.
불량에 대한 데이터는 많지만 반대로 ‘정상’ 데이터가 없는 경우에도 데이터가 부족하다고 판단합니다. 불량을 검출하는 인공지능을 학습시킬 때에 불량 데이터만 있으면 된다고 생각할 수 있으나 다양한 불량을 정의하기 위해선 어떤 것이 정상인지에 대한 이해가 전제로 있어야만 합니다. 따라서 불량뿐 아니라 정상 데이터를 보유하고 있는 것이 필요합니다.
특정 문제를 정의할 땐 이에 영향을 미치는 다양한 요인들도 함께 고려되어야 정확한 판단을 할 수 있습니다. 가령, 수요 예측 측면에서 제품 매출액 외에도 경제, 트렌드, 계절성, 브랜드 인지도 등과 같은 요인들도 함께 검토되어야 할 텐데요. 해당 데이터를 정확히 판단할 양질의 연관 데이터가 없는 경우에도 데이터가 부족하다고 여겨질 수 있습니다.
결론적으로 인공지능 도입 전, 어떤 문제를 왜 해결해야 하는지 정의를 내려야 하고 그에 따라 적합한 데이터를 기준에 맞춰 구분할 수 있어야 합니다. 자세한 내용은 알티엠의 전문가들과 상담해 보세요.