결재문서

인공지능 학습용 데이터 구축사업(2차) 공모 추진계획

문서번호 빅데이터담당관-8891 결재일자 2020.8.5. 공개여부 부분공개(5) 방침번호 시 민 주무관 빅데이터기획팀장 빅데이터담당관 김학준 김재봉 08/05 안정준 한국정보화진흥원 주관 인공지능 학습용 데이터 구축사업 공모 추진계획 2020. 8. 빅데이터담당관 <한국정보화진흥원 주관> 인공지능 학습용 데이터 구축사업 공모 추진계획 국내 AI기반 산업 인프라 확충과 공공 행정문서에 대한 아카이빙을 위해 한국정보화진흥원에서 주관하는 인공지능 학습용 데이터 구축사업 공모에 참여하고자 함 1 추진배경 ?? 추진경위 ○ 빅데이터담당관, `18년 하반기 ‘손글씨 데이터셋’구축 기획 ○ `19년 1월, 한국정보화진흥원(NIA), 한국전자통신연구원과 한글 손글씨 데이터셋 구축 추진 발표 ○ `20년 7월, NIA “인공지능 학습용 데이터 구축 사업(2차)”사업내용 中 한글 데이터셋 구축 부문 포함 확인 ?? 사업 필요성 ○ 국내 인공지능 인재 및 산업 육성을 위한 사회간접자본 데이터 구축을 통한 ‘스마트 시티 서울’이미지 제고 - 인공지능의 기간이라 할 수 있는 한국어 필기체 및 공공 문서 코퍼스 데이터셋을 서울시가 직접 구축, 공개할 필요 - 고품질의 실용적 데이터셋 개발 및 공개를 통한 한국형 뉴딜 촉진 ○ 한글 필기체 문자인식 기술 활용을 통한 혁신행정 - 딥러닝 등 기술적 혁신을 통해 스마트한 서울시 기록관리 및 발굴 필요 - 본 사업을 통해 구축된 데이터를 기반으로 시·자치구 사무에 적용, 단순 반복 업무 경감 등의 혁신행정 박차 작 성 자 빅데이터담당관 : 안정준 ☎ 2133-4260 빅데이터분석팀장 : 김은성 ☎ 4270 담당 : 김학준 ☎ 4271 2 공모 추진계획 ?? 공모사업 개요 ○ 사 업 명 : 인공지능 학습용 데이터 구축 사업(2차) ○ 주관기관 : 한국정보화진흥원(NIA) ○ 추진방법 : 정보화진흥원 사업 공모 - 사 업 명 : 인공지능 학습용 데이터 구축 사업(2차) - 사업기간 : `20.9~`21.2(8.6 공모마감) - 예산규모 : 57억원 - 참여분야 : 자연어 분야 그룹10 ≪OCR AI데이터≫ 3개 과제 ※OCR : 광학 문자 인식(Optical Character Recognition)의 준말로 전자파일 형태의 문서 에서 글자를 인식하여 검색, 편집 등이 가능한 형태로 전환하는 것을 의미 - 세부과제 : (1) 야외 실제 촬영 한글 이미지 데이터셋 구축 (2) 다양한 형태의 한글 문자 이미지 인식 데이터셋 구축 (3) 공공 행정문서 OCR (개별 세부과제 관련, 별첨문서 참고) ?? 추진방향 ○ NIA “인공지능 학습용 데이터 구축사업 공모”를 통한 예산 확보 ○ 한국어 인공지능 연구개발 활성화를 위한 데이터셋 일반공개 추진 ○ 행정용어에 초점을 맞춘 데이터셋 개발을 통한 과학행정 추진 ○ 국내 인공지능 전문기업과의 컨소시엄을 통한 업무 추진 효율성 제고 - 인공지능(딥러닝)기반 OCR모델 개발 추진 경험이 있는 업체 및 기관과의 적극적인 제휴를 통한 사업효과성 극대화 추진 ?? 세부 과업내용 ○ <야외 실제 촬영 한글 이미지>과제 - 사업내용 : 문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 간판, 번호판, 명함, 상품, 도서, 각종 표지판, 광고 등을 인식함으로써 다양한 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터 구축 - 요구조건 : 500,000장 이상 ○ <다양한 형태의 한글 문자 이미지 인식 데이터>과제 - 사업내용 : 한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축 - 요구조건: 최소 50만장 이상의 이미지 데이터를 구축하되 유형(픽셀 크기, 문서 종류, 글자 중요도 등)별 최적화하여 데이터 구성 ○ 공공행정문서 OCR - 사업내용 : 행정, 외교, 문화, 과학기술 등 국가 전반의 주요 공공행정 문서에 특화된 문자 인식 AI 모델을 개발하기 위한 학습용 데이터셋 구축 - 요구조건:1,500만개 이상 단어를 포함한 이미지 10만장 이상 3 공모 추진방안 ?? 추진일정 ○ 제안서 작성 완료 : `20.08.06(목) ○ 제안평가 : `20.08.18(화) ○ 평가결과 공개 : `20.08.19(수) ?? 데이터셋 활용방안 및 기대효과 ○ 스타트업, 초보 데이터과학자를 위한 한글 데이터셋 공개 - 열린데이터광장·빅데이터캠퍼스에 실제 활용 가능한 데이터셋을 적재, 일반공개 추진 - 빅데이터캠퍼스·서울시 공공 깃허브(github)페이지를 통한 코드공개로 인공지능 교육 자료와 유관사업의 기초 자산으로 활용 가능 ○ 공공행정문서 OCR모델 개발을 통한 단순반복 업무 감소 - 본 사업을 통해 확보한 손글씨 인식 모델을 활용하여 서식민원등에 대한 단순기입 등 반복업무 경감으로 시 직원 ‘일버리기’에 일조 참고자료 1 한국어 손글씨 데이터셋 현황 ?? 딥러닝 기반 공개 데이터셋 현황 ○ 인공지능의 한 부류인 딥러닝은 이전의 통계기반 기계학습이 해결하지 못한 다양한 문제를 해결하는 등 현존 최고의 성능을 보이며 실생활 에 적용되고 있음 분류 모델명 오차율(%) 기계학습 Linear classifier 7.6 K-Nearest Neighbors(KNN) 0.52 Support vector machine(SVM) 0.56 딥러닝 Neural network(NN) 0.7 Deep neural network(DNN) 0.35 Convolutional neural network(CNN) 0.23 ※MNIST데이터셋 기반 모델별 성능테스트 결과 ※MNIST데이터셋 샘플 이미지 ○ 딥러닝 연구개발에서 가장 기초가 되는 데이터는 숫자로 이루어진 MNIST 데이터셋임 - 1995년 美국립표준기술연구소 (NIST)가 최초 공개한 이래 인구 조사국 직원들로부터 수집한 자료 등을 추가, 0-9까지의 숫자 총 7만건으로 이루어진 데이터셋 (각 숫자당 7천 벌) - 딥러닝 기법이 개발된 이후 입문 및 테스트용 데이터로 가장 많이 활용됨 ○ IAM(영어), 일본 ELT(한자, 히라가나, 가타가나), 중국 CASIA(한자) 데이터셋 등 문자인식 데이터를 비롯, 안면인식, 동작, 지역 등 다양한 데이터셋이 공개되어 딥러닝 기술 발전의 근간을 이루고 있음 언어 제작연도 제작주체 작성자수 총글자수 IAM database 영어 2002 University of Bern 657 11만 ETLDatabase 일본어 2014 AIST 불명 120만 CASIA-OLHWDB 중국어 2010 NLPR, CASIA 1020 390만 ○ 최근 디스플레이 기술 발전에 힘입어 글자 획, 순서 등을 반영한 글자 데이터 획득이 가능해지며 기존 이미지 기반 데이터보다 높은 인식률 달성 ?? 한국어 필기체 데이터셋 공개 현황 ○ 1997년 KAIST 의미망연구소(SWRC)에서 완성형 한글 1200자 1000세트 공개(약 120만 자) ○ 중앙대학교 박재화 교수팀, 한글 2천여 자에 대한 130여 세트 데이터 구축, 전자정보연구정보센터에 공개(약 26만 자) ○ 기타 2개 데이터셋이 존재하나 데이터 수집 비용 등의 한계로 딥러닝 학습을 위한 데이터 양에 미달하는 한계가 있으며, 여타 자료는 활자체 데이터로 파악됨 구분 문자수 벌수 저장형태 글꼴 KU-1 필기 1,500 1,000 Gray - SERI95a 필기 520 1,000 Gray - PE92 필기 2,350 100 Gray - Kaist DB 필기 422 - Binary - ETRI DB 인쇄 2,350 100 Binary 6종 CBNU한글00 인쇄 2,350 1,200 Binary 2종 PHD08 인쇄 2,350 2,187 Binary 9종 ※한글 문자데이터 구축 현황(출처 : 함대성 등, 2008, “한글 문자 데이터베이스PHD08구축”) ○ 이외에 한국 마이크로소프트, 에버노트 등이 한글 문자인식을 위한 필기체 데이터셋을 보유하고 있고, 특히 삼성전자의 경우 모바일 기기에서의 데이터셋을 보유, 제품화하고 있으나 일반 공개가 불가함 삼성전자주식회사·서울대학교 산학협력단, 2014, <손글씨 인식 방법 및 디바이스>,특허출원번호 1020140042533 참고자료 2 NIA과제 세부사항 ?? 야외 실제 촬영 한글 이미지 과제 1. 과제 개요 문서(font)나 필기체 외에 일상에서 접할 수 있는 다양한 한글 이미지를 이용하여 간판, 번호판, 명함, 상품, 도서, 각종 표지판, 광고 등을 인식함으로써 다양한 솔루션에 사용될 수 있는 text-in-the-wild 이미지 데이터 구축 AI 학습용 데이터 구축량 : 500,000장 이상(LSVT 45만장 이상) 2. 데이터 구축목적 중항목 소항목 요구사항 비고 데이터 구축목적 활용 분야 연구분야 : OCR in-the-wild 산업분야 : 웨어러블카메라, 모바일OCR 등 공공분야 : 시각장애인 보조도구 데이터 형태 원본형태 : 일상 속에서의 다양한 형태의 한글 텍스트(책 표지, 간판, 상품, 로고 등)를 촬영한 고해상도 이미지 (1600x1200 이상) 학습용 데이터 형태 : 이미지 및 이미지 내의 텍스트 정보 (bounding box 및 text) annotation 이미지 내 한글 텍스트의 양, 한글 텍스트 크기, 색깔, 형태 (가로쓰기, 세로쓰기, 곡선형, 비정형 등), 글자체 (serif, sans-serif, 비정형 등) 등 다양성 최대한 확보 데이터 규모 500,000장 이상 (참고: LSVT 45만장, https://rrc.cvc.uab.es/?ch=16) 3. 데이터 획득 중항목 소항목 요구사항 비고 데이터 획득 데이터 수집 직접 촬영 데이터 정제 이미지 사이즈는 1024x768으로 통일 4. 데이터 가공 중항목 소항목 요구사항 비고 데이터 가공 데이터 구축 방법 원천데이터 촬영→bounding-box 만들기→text annotation 작성→전문가 리뷰→베이스모델 리뷰 어노테이션: bounding-box와 text annotation 저작도구 활용 초벌 labeling에 활용 가능하나 반드시 human 검증 거쳐야 함 이미지 내의 모든 한글 text에 100% bounding-box와 text annotation이 달려야 함 글자의 경우 못 읽는 경우, 희미한 글자, 가려진 글자 등 예외 상황존재하는데 이러한 글자는 annoation하지 않고 Don't Care 처리해서 학습, 평가에 사용되지 않도록 처리 5. 데이터 활용 중항목 소항목 요구사항 비고 데이터 활용 AI응용 서비스 개발 간판, 책 표지, 명함, 번호판 등 인식 웨어러블카메라, 모바일OCR, 비디오 캡셔닝, 시각장애인 보조도구 등 ?? 다양한 형태의 한글 문자 이미지 인식 데이터 1. 과제 개요 o 한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축 ※ 네이버, 마이크로소프트, 구글 등 OCR활용 인지서비스를 제공하고 있으나, 한글 인식율은 타 언어에 비해 낮고 공개된 데이터셋이 없어 다양한 형태의 한글 학습데이터가 필요한 상황 AI 학습용 데이터 구축량 : 최소 50만장 이상의 이미지 데이터를 구축하되 유형(픽셀 크기, 문서 종류, 글자 중요도 등)별 최적화하여 데이터 구성 2. 데이터 구축목적 중항목 소항목 요구사항 비고 데이터 구축목적 활용 분야 연구분야 : 문자 인지서비스 및 문자 인지 데이터셋을 기반으로 시각/언어/음성을 연계한 인지서비스 연구 산업분야 : 금융/통신(각종 신청서, 계약서, 청약서, 고지서, 첨부 서류), 제조/유통/무역(발주서, 검수서, B/L 등), 정부공공(각종 민원발급, 청구서, 고지서, 병원서류 등 샘플) 등 개인 활용 분야 데이터 형태 원문형태 : 손글씨와 인쇄체(테이블, 테이블 내 텍스트, 숫자, 문장부호 등 포함) 기계학습용 데이터셋 형태 - 현대 한글에 대한 글자별 손글씨와 인쇄체로 구성 (기본:손글씨 250자, 인쇄체 250자) - 문서 종류: 각종 신청서, 계약서, 청약서, 고지서, 발주서, 검수서, B/L 등 - 글자 어노테이션 정보, 이미지 데이터 데이터 규모 최소 50만장 이상의 이미지 데이터를 구축하되 유형(픽셀 크기, 문서 종류, 글자 중요도 등)별 최적화하여 데이터 구성 제안 요구사항 데이터 포맷은 NIST포맷을 준수하여야 함 단어 단위 어노테이션으로 제공하고 글자 위치정보를 함께 제공 ICDAR 여러 OCR관련 챌린지 데이터셋 참고 3. 데이터 획득 중항목 소항목 요구사항 비고 데이터 획득 데이터 수집 글자 유형별(이미지 사이즈 등), 기본완성형(2,350개)과 구분하여 최적화 방안 글자 이미지 사이즈는 여러 유형으로 분류 구축 ex) 28X28, 54X54, 128X128, Free Size (10개미만) 조합 글자별 단어단위 형태 및 위치 JSON 형태로 제공 지적재산권 해결 방안 및 비용을 포함한 구체적 데이터 획득 방법 마련 손글씨 데이터 편향 방지를 위한 연령별·성별에 따른 구분 및 편향 방지 방안 데이터 정제 데이터 차원 축소 기법(PCA, T-SNE 등)을 활용한 데이터 정제방안 4. 데이터 가공 중항목 소항목 요구사항 비고 데이터 가공 어노테이션 (annotation) 글자 이미지 데이터셋에 필요한 어노테이션 방법에 대한 상세 설명 ex) 인쇄본과 손글씨 취득에서부터 가공단계 등 글자당 분류해야 하는 유형의 기준 설정 ex) 손글씨와 인쇄체 분류 기준 등 저작도구 어노테이션 작업 효율화를 위한 저작 도구의 기능 및 사용방법 설명 오류방지 가공작업 시 오류발생 최소화 방안 제시 검수 데이터 검수 횟수 및 방법 제시 ex) T-SNE , PCA 등을 통해 데이터와 데이터간의 분리도 측정 개선 프로토타입모델과 연계하여 데이터 가공 품질 향상 방안 제시 5. 데이터 활용 중항목 소항목 요구사항 비고 데이터 활용 AI 시범 서비스 구축 구축한 데이터셋을 활용한 추론모델의 개발계획 및 방법 설명 오픈소스를 활용한 지속적인 학습 가능 알고리즘 개발 및 공개(오픈소스 라이센스 정책 준수) 측정 지표로 활용이 다양한 standard 모델 (CRAFT 등)에 대한 결과 제공 ICDAR 챌린지들에 준하는 형태 데이터셋 공개 ?? 공공행정문서 OCR 1. 과제 개요 행정, 외교, 문화, 과학기술 등 국가 전반의 주요 공공행정 문서에 특화된 문자 인식 AI 모델을 개발하기 위한 학습용 데이터셋 구축 공공행정 문서는 생성시점이 매우 오래되고 보관 상태가 좋지 않은 경우, 스캔/촬영 화질이 좋지 않은 경우, 인쇄체, 타자체, 수기 등 다양한 형태의 문자가 등장하는 경우가 많으므로 기존 상용 OCR로는 인식률이 낮으며, 이를 해결하기 위해 학습용 데이터셋을 구축하여 AI 기반 문자 인식 기술 개발을 위한 토대를 마련하고자 함 AI 학습용 데이터 구축량 : 1,500만개 이상 단어를 포함한 이미지 10만장 이상 2. 데이터 구축목적 중항목 소항목 요구사항 비고 데이터 구축목적 활용 분야 연구분야 : 문자 인식 기술 (한글 문자 탐지, 한글 문자 인식, 저화질 문서 인식 등), 문서 구조 인식, 자연어처리 분야 등 산업분야 : 1)관공서, 도서관 등에서 소장 중인 기록물의 전산화를 위한 OCR 기술 2)소장기록물의 OCR결과에 기반한 문서별 주요 키워드 자동 추출 시스템 구축 3)금융?보험 산업과 같이 처리 문서량이 많은 환경에서 OCR을 활용한 문서처리 자동화(신분증, 보험청구용 증빙문서 등) 4)드론?자율주행차량 등의 시각처리 모듈의 문자인식 기능 데이터 형태 원본형태 : 한글 단어 30개 이상을 포함하는 국가행정 문서를 이미지 형태로 수집(jpg, png, tif 등) ※공공행정 문서는 국가기록원이 소장 중인 공개 가능한 기록물을 대상으로 한다 학습용 데이터 형태 : 각 이미지에 대해서 아래 정보를 파일로 저장 (예:json, xml 등) 1)문서 내 단어별 위치 정보 2)단어별 문자열 정보 3)문서의 생성년도, 생성기관, 카테고리, 출처, 제목 등의 메타 정보 데이터 규모 이미지 수 기준: 10만장 이상 단어 수 기준: 1,500만개 이상 ※온전히 식별 가능한 단어의 수 3. 데이터 획득 중항목 소항목 요구사항 비고 데이터 획득 데이터 수집 국가 행정 문서의 생산연도, 생산기관의 실제 분포를 반영하여 데이터셋을 선정하는 방안 제시 인쇄체, 타자체, 수기 비율이 실제 국가행정 문서의 분포를 반영하도록 데이터셋을 선정하는 방안 제시 이미지 수집시 정부의 공개 허용 여부를 확인하여야 하며, 라이센스, 지적재산권, 개인정보가 침해되지 않도록 주의해야 하며 이에 대한 방지 대책을 제시 데이터 정제 동일한 이미지 파일이 없도록 데이터셋을 구성하는 방안 제시 동일한 문서를 재차 촬영하거나 스캔하여 획득한 경우가 없도록 데이터셋을 구성하는 방안 제시 4. 데이터 가공 중항목 소항목 요구사항 비고 데이터 가공 데이터 구축 방법 문자열 입력 대상이 되는 캐릭터셋 제시 ※한글, 영어, 숫자는 모두 포함하되 특수문자는 빈번하게 사용되는 것을 선정하여 제시 아래 항목을 포함하여 데이터의 가공에 대한 상세 규칙 제시 및 공개 1)정의된 캐릭터셋 외에 문자(타언어, 특수기호 등)에 대한 라벨링 방안 2)식별 불가능 문자에 대한 라벨링 방안 3)인쇄체, 타자체, 수기(손글씨), 도장/고무인 내 문자열 라벨링 방안 데이터는 구조화된 데이터 객체 형식(예: json, xml)으로 저장 다수의 작업자에 의한 데이터 생성 후 이를 정제 및 가공하기 위한 프로세스 제시 작업물의 정확도와 작업자 사이의 변동성을 확인하기 위하여 일정 비율의 이미지는 서로 다른 작업자 2명 이상이 동시에 작업하고, 결과 일치성을 계산하는 방안 제시 작업자의 가공 결과에 대해서 다른 작업자 또는 관리자에 의해 그 결과물이 검수되어야 하며, 이러한 프로세스를 구축하고 상세하게 제시 데이터 품질 목표 및 품질 관리 방법 제시 및 공개 데이터 품질을 공인된 외부시험기관에 의뢰하여 객관적인 품질 지표를 관측 및 공개하는 방안 제시 저작도구 활용 오픈소스 저작도구 또는 온라인 협업과 관리가 가능한 저작도구 서비스의 활용 방안을 제시, 적절한 기준에 따라 가장 알맞은 저작도구 선택 또는 제작 및 배포 선택 또는 제작된 저작도구는 다수의 작업자가 어려움 없이 사용할 수 있어야 함 5. 데이터 활용 중항목 소항목 요구사항 비고 데이터 활용 AI응용 서비스 개발 개발 모델의 주요 기능과 성능 목표를 포함한 개발 목표 제시 구축된 데이터셋을 활용하여 AI 문자 인식 모델 개발 및 공개 ※실행파일, 소스코드파일, 실행환경 구축방법 및 소스코드 실행방법에 관한 상세 가이드 문서 공개 구축된 데이터셋의 일부를 비공개 테스트셋으로 지정하여, AI 문자인식 모델의 성능 평가용 공개 테스트베드 및 공개 리더보드 구축 방안 제시 ※AI모델 성능 평가 지표 제시 및 공개 ※성능평가용 비공개 테스트셋 선정방안 제시

문서 보기

문서보기는 문서변환기에 의해 텍스트로 변환된 문서를 보여주며, 스크린리더로 문서내용을 미리 확인하실 수 있습니다. 그러나 일부 문서의 경우(pdf파일) 변환 상태에 따라 스크린리더에서 제대로 읽히지 않을 수도 있습니다. 이때는 다음 헤딩3인 첨부파일 목록으로 바로가서 원문을 다운로드하신 후 이용하시면 스크린리더 이용이 더욱 용이합니다. 첨부파일목록 바로가기

   * 본 문서는 공문서로서의 법적 효력은 없으며, 위조·변조·도용 등 불법적 활용으로 인하여 발생된 모든 책임은 불법적으로 활용한 자에게 있습니다

첨부된 문서

문서 정보

인공지능 학습용 데이터 구축사업(2차) 공모 추진계획 - 문서정보 : 기관명, 부서명, 문서번호, 생산일자, 공개구분, 보존기간, 작성자(전화번호), 관리번호, 분류정보
기관명 서울시 부서명 스마트도시정책관 빅데이터담당관
문서번호 빅데이터담당관-8891 생산일자 2020-08-05
공개구분 부분공개 보존기간 10년
작성자(전화번호) 김학준 (02-2133-4273) 관리번호 D0000040537905
분류정보 행정 > 정보자원관리 > 시스템개발운영 > 행정정보화지원 > 빅데이터활용정책수립및조정같은 분류 문서보기
이용조건Creative Comoons License(저작자표시-변경금지) 3.0 마크