데이터바우처는 일반 4,500만 · 공개활용 7,500만으로 학습데이터 구매·가공 비용을 공적 자금으로 해결하는 사업입니다. 다만 산업단지 MES 벤더가 비정형 문서 파싱 99%를 달성한 수준이 품질 기준이라는 걸 놓치면 구매 후에도 학습이 안 됩니다. 이 글은 바우처 3종 비교 가이드의 딥다이브 편입니다.
2026 하반기 9개 사업 + 소상공인 별도 1건을 한 권에
접수일·매칭률·공급사 선택 기준까지 26p 캘린더 PDF로. (본 사업은 p.12)
하반기 지원사업 캘린더 PDF 다운로드1. 데이터바우처란 — 학습데이터 구매를 지원하는 사업
데이터바우처는 과학기술정보통신부 · 한국데이터산업진흥원(KDATA)이 운영하는 수요기업 대상 사업으로, AI 모델 학습·서비스 고도화에 필요한 데이터 구매·가공 비용을 지원합니다. 모델 자체가 아니라 모델 학습 직전 데이터셋 확보가 본 사업의 범위입니다. 이미 사내 데이터가 충분하거나 모델·인프라가 필요한 경우는 다른 트랙(AI 통합바우처 · 혁신바우처 · AI 데이터센터)이 더 적합합니다.
2. 일반(4,500만) vs 공개활용(7,500만) — 무엇이 다른가
두 부문의 가장 큰 차이는 한도가 아니라 "구매·가공 결과물의 공개 의무"입니다.
| 구분 | 일반 부문 | 공개활용 부문 |
|---|---|---|
| 한도 | 4,500만 원 | 7,500만 원 |
| 자부담 | 10% 내외 | 10% 내외 |
| 결과물 공개 | 의무 없음 | 일부 공개 의무 (KDATA · AI Hub) |
| 저작권 귀속 | 수요기업 사내 활용 | 사내 활용 + 공개 범위 별도 |
| 적합 케이스 | 영업비밀 데이터 | 일반 도메인 데이터 |
영업비밀·고객 정보가 핵심이면 일반, 일반 도메인 학습데이터(표준 부품 도면, 공정 매뉴얼 텍스트 등)면 공개활용이 합리적입니다.
3. 신청 자격 · 한도 · 2차 모집 일정
신청 자격은 중소·중견기업, 소상공인, 예비창업자, 비영리법인까지 폭넓습니다. 1기업당 1과제 원칙, 한 과제 안에서 일반·공개활용 중 하나를 선택합니다. 심사는 ① 데이터 활용 계획의 구체성, ② AI/서비스 적용 명확성, ③ 자부담 능력, ④ 공급사 적정성으로 구성됩니다. 2026년 1차는 2~3월에 마감되었고, 2차는 6~7월 관례적으로 열려 왔습니다.
4. 구매한 데이터로 어떤 AI를 만들 수 있나
데이터바우처의 진짜 가치는 한도가 아니라 구매한 데이터의 품질에 달려 있습니다. 한 산업단지 MES/ERP 벤더 사례에서는 비정형 문서를 학습 데이터셋으로 정제해 다음 수치를 실측했습니다.
- 비정형 문서(PDF·DOCX·HWP·XLSX) 파싱 99%
- 한국어 OCR 95%
- 엔티티 추출 Precision 85% · 동의어 해소 90%
- 제조 도메인 온톨로지 6종 + 13관계로 Neo4j 지식그래프 자동 구축
이 수준으로 정제되어야 실서비스 학습이 가능합니다. 다른 현장에서는 주입기 공정 데이터를 학습데이터화해 Bayesian SOR 모델로 R² > 0.95 최적 조건 예측에 도달했습니다. 데이터 품질이 모델 성능의 상한선을 결정합니다.
AX Flow Usecase PDF p.6~8 (§4 산업단지 MES/ERP 벤더) · p.5~6 (§3 주입기 Bayesian SOR) 인용. 본 글의 수치는 PDF에 명시된 실측치이며, 데이터바우처 사업과 직접 무관합니다.
5. 데이터 품질 기준 · 공급사 선택의 3가지
KDATA 공급사 POOL에는 수백 개 업체가 있습니다. 한도를 다 써도 학습이 안 되는 데이터를 피하려면 다음 3가지가 필수입니다.
- ① 메타데이터 완비 — 출처·라벨 정의·스키마 버전·결측 처리 규칙이 모든 레코드에 명시. 부실하면 재가공 비용이 본 사업비를 초과합니다.
- ② 구조 표준 — JSON/CSV/Parquet 표준 포맷, 일관된 필드 타입, 결측 표기 통일. 자체 스키마는 후속 통합 비용을 폭증시킵니다.
- ③ 재사용권·확장권 — 사내 활용·재가공·재학습 권리 계약 명문화. "1회 학습 후 폐기" 조항이 숨어 있으면 갱신 시 다시 사야 합니다.
공급사 후보는 최소 3개 이상 비교가 안전합니다. 학습 인프라가 더 시급하면 AI 데이터센터 GPU 크레딧, 도메인 데이터를 묶어 가려면 지역특화 AI 사업도 검토할 수 있습니다.
우리 AI 프로젝트에 데이터바우처가 적합한지 2분 자가진단
업종·데이터 보유 현황·AI 적용 단계를 입력하면 데이터바우처 적합도와 다음 액션을 즉시 계산합니다.
2분 자가진단 — 데이터바우처 적합도6. 자주 묻는 질문 (FAQ)
Q1. 공개활용 7,500만 부문의 공개 의무는 무엇인가요?
사업 종료 후 결과물 일부를 KDATA 또는 AI Hub에 일정 기간 공개해야 합니다. 영업비밀·개인정보가 포함된 원시데이터는 비식별화·비공개 처리 후 메타데이터·구조 스키마만 공개하는 패턴이 일반적입니다.
Q2. 구매한 데이터는 영구 소유인가요?
사용권은 영구 보유 가능하지만, 저작권·재배포·재판매권은 협약에 따라 제한됩니다. 계약서에서 사용 범위·재가공·재배포 조건을 사전에 명문화해 두어야 안전합니다.
Q3. 2026 하반기 2차 추가모집은 언제 확정되나요?
2차는 관례적 예측이며 확정 일정은 아닙니다. 2024·2025년 모두 잔여 예산이 있을 때 6~7월 2차가 열렸습니다. 정확한 일정은 KDATA·기업마당 공식 공고로 재확인이 필요하며, 2차를 노린다면 5월까지 데이터 요건 정의·공급사 후보 3개 확보가 안전합니다.
한도·자부담·공개 의무 범위는 회차별 공고에 따라 달라집니다. 본 글의 수치는 2026년 1차 공고 기준이며, 2차 신청 직전 KDATA 공식 공고로 재확인이 필요합니다. → 데이터바우처 공식 안내 (KDATA)
다른 바우처 트랙과의 정합도가 궁금하다면 혁신바우처 R&D형이나 소상공인 SP 트랙도 함께 비교 검토할 수 있습니다.
데이터바우처 · 공급사 선택 막막하다면
퓨처워크랩 컨설턴트와 15분 무료 통화로 일반/공개활용 부문 선택, 공급사 비교 기준, 데이터 품질 검수 절차까지 한 번에 정리하세요.
AX Flow 데모 신청 → 15분 무료 진단·맞는 사업 함께 고르기#데이터바우처2026 #학습데이터구매 #KDATA데이터바우처 #공개활용7500만 #제조AI데이터 #학습데이터저작권 #지식그래프구축 #제조AI운영레이어 #퓨처워크랩 #AXFlow