2026.01.30 (금)

  • 구름많음동두천 -3.7℃
  • 구름조금강릉 -0.7℃
  • 구름많음서울 -4.3℃
  • 흐림대전 -1.6℃
  • 흐림대구 -0.3℃
  • 구름많음울산 0.0℃
  • 흐림광주 0.6℃
  • 흐림부산 1.1℃
  • 흐림고창 -1.0℃
  • 흐림제주 4.1℃
  • 구름많음강화 -4.4℃
  • 구름많음보은 -1.9℃
  • 흐림금산 -1.9℃
  • 흐림강진군 0.5℃
  • 구름많음경주시 0.3℃
  • 구름많음거제 1.3℃
기상청 제공

산업·유통

AI 학습 가로막던 PDF ‘데이터 감옥’ 해방…한컴, PDF 추출 핵심기술 오픈소스로 공개

 

[뉴스스페이스=조일섭 기자] 한글과컴퓨터(이하 한컴)가 AI 학습 및 활용 과정에서 고질적인 난제로 지적돼 온 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술을 글로벌 오픈소스로 전격 공개했다.

 

이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 한컴이 오랜 기간 축적한 문서 처리 기술력을 바탕으로 개발한 PDF 데이터 추출 엔진으로, 글로벌 AI 생태계 확산을 위한 기술적 기반을 마련했다.

 

최근 허깅 페이스(Hugging Face)는 PDF 문서를 기반으로 한 약 4억7500만건 규모의 대규모 데이터셋 ‘FinePDFs’를 공개했고, 이를 활용하려는 기업들의 움직임도 본격화되고 있다. PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않다. 이로 인해 ‘데이터 감옥’이라 불릴 만큼 AI 개발 과정에서 큰 제약이 따랐다.

 

이번 오픈소스 프로젝트는 이러한 문제를 해결하기 위해 한컴이 지난 7월 PDF 기술 전문 기업 듀얼랩(Dual Lab)과 체결한 업무협약(MOU)의 첫 결실이다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발하며 AI 생태계 확장을 목표로 하고 있으며, 이번 기술 공개를 통해 본격적인 확산에 나섰다.

 

공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출해, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환한다.

 

특히, 기존 경쟁 오픈소스 기술보다 우수한 성능을 입증했다. 공식 홈페이지에 공개된 벤치마크 테스트 결과, 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85%라는 높은 수치를 기록하는 등 다양한 테스트에서 탁월한 성능을 보여줬다.

 

또한 금융·공공기관 등 민감한 데이터를 다루는 환경에서도 네트워크 연결 없이 완전 오프라인으로 작동해, 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 이러한 오프라인 기반 보안성은 기업과 기관 단위 활용에서 중요한 기술적 장점으로 작용할 전망이다.

 

아울러 최근 AI 산업의 주요 화두로 떠오른 학습 데이터 안전성(AI Safety) 문제에 대응하기 위한 전략도 담았다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입을 통한 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이며, 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 보장한다. 이 같은 기능은 보다 안전한 AI 모델 학습 환경을 구축하는 데 기여할 것으로 보인다.

 

한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고, AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진하고 있다. 이를 위해 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하고, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와의 협력을 이어갈 계획이다.

 

정지환 한컴 최고기술책임자(CTO)는 “AI 트랜스포메이션(AX) 시대, 오픈소스는 더 이상 선택이 아닌 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며, “이번 오픈데이터로더 PDF 핵심 기술 공개를 통해 전 세계 개발자들에게 인정받고, 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 말했다.

 

이어 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 덧붙였다.

 

오픈데이터로더 PDF 프로젝트에 대한 자세한 정보와 활용 사례는 공식 홈페이지에서 확인할 수 있으며, 오픈소스 코드는 깃허브 공식 저장소를 통해 제공된다.

배너
배너
배너

관련기사

27건의 관련기사 더보기


[이슈&논란] 스타벅스, 증정용 가습기 39만대 자발적 리콜…"배터리 과열 의심 화재 발생"

[뉴스스페이스=김희선 기자] 스타벅스 코리아는 2025년도 겨울 e-프리퀀시 행사 증정품으로 제공된 가습기 2종에 대해 2월 2일부터 자발적 리콜을 실시한다. 이번 자발적 리콜은 제품의 배터리 과열로 추정되는 국소적 화재 발생 신고가 접수됨에 따라, 고객 안전을 최우선으로 고려해 선제적으로 결정된 조치다. 스타벅스는 「제품안전기본법」에 따라 국가기술표준원에 제품사고 보고를 완료하고, 자발적 리콜 절차를 협의 중이다. 자발적 리콜 대상 제품은 지난해 10월 30일부터 12월 31일까지 e-프리퀀시를 통해 고객에게 증정된 스타벅스 가습기 전량으로 총 수량은 39만3,548개다. 스타벅스는 해당 제품을 보유한 고객은 즉시 사용을 중단할 것을 당부했다. 해당 증정품은 「전기용품 및 생활용품 안전관리법」에 따라 KC 인증을 획득한 배터리를 사용한 제품이다. 스타벅스는 해당 제품 공급처인 한일전기와 함께 관련 기관과 협력해 정확한 사고 원인 조사를 진행하고 있으며, 조사와는 별개로 고객 안전을 위해 선제적 리콜 조치를 결정했다. 스타벅스는 해당 가습기를 보유한 모든 고객에게 제품 반납 시 스타벅스 모바일 카드 3만원권을 온라인으로 일괄 제공할 방침이다. 원활한 회수를

"중동에서도 입증된 앞선 기술력"…오스템임플란트, AEEDC Dubai 2026 호평 속 '성료'

[뉴스스페이스=김혜주 기자] 오스템임플란트가 세계 최대 규모의 치과 기자재 전시회에서 앞선 기술력과 제품을 소개하며 다시 한번 글로벌 덴탈 기업으로서의 위상을 확인했다. 오스템임플란트(대표이사 김해성)는 1월 19일부터 21일까지 UAE 두바이에서 열린 'AEEDC Dubai 2026'(이하 AEEDC 2026)에서 디지털 기반 통합 진료 솔루션과 검증된 임플란트 기술로 호평 받았다고 29일 밝혔다. ‘AEEDC’는 치과기자재 단일 분야 중동·아프리카·서남아시아 지역 최대 규모 글로벌 전시회로 올해도 총 177개국에서 3900여개 기업이 참가했다. 2016년부터 올해까지 11년 연속 AEEDC에 참가 중인 오스템임플란트는 핵심 장비인 유니트체어, 영상진단장비, 구강스캐너를 포함한 ‘디지털 원스톱 진료 워크플로우’를 선보였다. 이 중 독일 iF 디자인 어워드 본상을 수상한 프리미엄 유니트체어 K5는 환자의 편안함과 의료진의 진료 효율성을 동시에 향상시킨 기술력으로 중동 지역 치과의사들로부터 많은 관심을 받았다. 오스템임플란트의 임플란트 라인업도 검증된 임상 데이터에 기반해 주목을 받았다. 특히 라인업 중 혈병 형성과 초기 골 유착을 개선하는 표면처리 기술이 들