- Sionic AI의 Intelligent Document Parser - https://www.sionic.ai/ko/parse - 단순히 문서에서 텍스트를 추출하는 것을 넘어서, 문서의 구조와 의미를 이해하고 이를 AI가 효과적으로 활용할 수 있는 형태로 변환하는 것이 핵심목표이다. - 다양한 포맷과 대용량 문서 학습 지원 - PDF, DOCX, XL...
![]()
STORM Parse는 이러한 문제를 2단계 변환 구조를 통해 해결했다.
이 접근법은 전통적 방법의 안정성과 VLM의 이해력을 결합하여 최상의 결과를 도출한다.
"제공된 마크다운 텍스트는 이 문서의 초벌 변환 결과입니다. 원본 이미지를 보고 다음 사항을 검증하고 개선하세요. 첫째, 마크다운에 누락된 텍스트가 이미지에 있는지 확인하고 추가하세요. 둘째, 표의 구조가 올바른지 확인하고, 병합된 셀의 정보를 명확히 하세요. 셋째, 이미지나 차트가 있다면 그 내용을 상세히 설명하는 문장을 생성하세요. 넷째, 여러 단락이나 섹션의 읽는 순서가 논리적으로 올바른지 확인하세요..."STORM Parse의 또 다른 중요한 차별점은 최종 출력 형태이다.
많은 문서 파서들이 마크다운, HTML, JSON 같은 구조화된 형식으로 결과를 반환하지만, STORM Parse는 자연어 텍스트를 생성한다.
이것이 왜 RAG 성능에 큰 차이를 만드는지 기술적으로 분석해보자.
실제 예시로 살펴보자. 다음과 같은 대학 교과 과정 표가 있다고 가정해보자.
| 순번 | 과목명 | 교과목명 | 학수번호 | 학점 | 이론 | 실습 | 이수학년 | 개설학기 |
|------|--------|----------|----------|------|------|------|----------|----------|
| 37 | 전공선택 | 위상수학특강 | MATH4451 | 3 | 3 | | 4 | O | |
| 38 | 전공선택 | 통계학특강 | MATH4501 | 3 | 3 | | 4 | O | |STORM Parse의 자연어 출력:
"37번째 항목인 위상수학특강은 전공선택 과목이며, 학수번호는 MATH4451, 학점은 3점입니다. 이론 시간은 3시간이며, 이수 학년은 4학년입니다. 개설학기는 1학기입니다. 38번째 항목인 통계학특강은 전공선택 과목이며, 학수번호는 MATH4501, 학점은 3점입니다. 이론 시간은 3시간이며, 이수 학년은 4학년입니다. 개설학기는 1학기입니다."이렇게 변환된 텍스트는 다음의 장점이 있다.
차트의 경우 이점이 더 명확하다. 파이 차트를 예로 들어보자.
![]()
STORM Parse의 자연어 출력:
"이 내용은 일-생활균형은 삶의 만족도에 영향을 준다고 생각한다는 질문에 대한 응답을 나타낸 원형 그래프로 요약되어 있습니다. 전체 응답 중 그렇다는 답변이 81.9%로 가장 큰 비중을 차지하며, 보통이다는 16.6%, 그렇지 않다는 1.5%를 차지합니다. 이 그래프는 그림 3으로 명시되어 있습니다."이렇게 변환된 텍스트는 다음의 장점이 있다.
이제 STORM Parse와, Google Gemini File Search, 그리고 다른 경쟁 솔루션들을 비교한 벤치마크 테스트를 살펴보자.
데이터셋은 커머스 및 법률 기반의 실제 고객사 데이터셋을 바탕으로 실무 환경을 반영하여 설계되었다.
다음과 같은 특징을 가진 문서로 구성되어 있다.
전체 문서는 총 6개이며, 페이지 수는 20페이지 이상이다.
각 문서에 대해 평균 45개의 질문이 준비되어, 총 270개의 질의응답 쌍을 만들었다.
![]()
STORM Parse의 또 다른 장점은 클라우드 API 형태뿐만 아니라 온프레미스 또는 프라이빗 클라우드 환경에서도 구축 가능하다는 점이다.
이는 보안과 규제 준수가 중요한 산업에서 특히 중요하다.