LLM과 규칙 기반 문서 추출 성능 비교 결과

안녕하세요, 리키입니다. 오늘은 제가 실제로 해봤던, B2B 주문서에서 정보를 추출하는 두 가지 방법을 비교해 보는 이야기를 좀 하려고 합니다.

우리가 회사 운영팀에서 매일 처리하는 주문서들을 생각해 보세요. PDF 파일 형태로 들어오는데, 고객마다 주문 번호나 날짜가 문서의 여기저기에 조금씩 다르게 적혀 있습니다. 예를 들어 어떤 분은 왼쪽 위에, 어떤 분은 오른쪽 아래에 번호를 적어 놓는 식이죠.

사람 입장에서는 이런 차이가 전혀 문제가 되지 않습니다. 우리는 문맥을 보고 어떤 정보가 무엇을 의미하는지 바로 알아차리니까요. 하지만 전통적인 자동화 시스템에게는 이 차이가 큰 난관이 됩니다. 정해진 규칙(regex)으로 “PO Number: “라는 패턴을 찾으라고 명령하면, 다음 고객이 “Order Reference: “라고 적으면 어떻게 해야 할까요?

이런 상황에서 저는 두 가지 접근 방식을 비교해 보았습니다. 하나는 pytesseract와 정규식을 사용하는 전통적인 규칙 기반 접근 방식이고, 다른 하나는 Ollama와 LLaMA 3 같은 대규모 언어 모델(LLM)을 활용하는 방식입니다.

이 글의 목표는 LLM이 무조건 더 좋다는 것을 보여주는 것이 아닙니다. 오히려 우리가 던져야 할 더 흥미로운 질문은, 복잡성과 문서 레이아웃이 늘어날 때 전통적인 추출 파이프라인이 어디까지 한계에 도달하는지, 그리고 LLM이 실제로 유지보수 노력을 얼마나 줄여줄 수 있는지에 대한 것이더군요.

참고 원문: https://towardsdatascience.com/i-built-the-same-b2b-document-extractor-twice-rules-vs-llm/

Related Posts

댓글 달기 댓글 취소