본문 바로가기
반치용/기타 및 저장

[nlp] 데이터 저장소

by Cat.8 2020. 2. 28.

https://korquad.github.io/

 

KorQuAD

What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia article 전체에서 답을 찾아야 합니다. 매우 긴 문서들이 있기 때문에 탐색 시간에 대한 고려가 필요할 것 입니다. 또한 표와 리스트도 포함되어 있기

korquad.github.io

https://ithub.korean.go.kr/user/guide/corpus/guide1.do

 

::: 국립국어원 언어정보나눔터 :::

찾기 말뭉치 메뉴에서 ‘말뭉치 찾기’를 클릭하게 되면, 말뭉치 용례를 검색할 수 있는 화면으로 이동합니다. 1. 검색 조건 설정 말뭉치 검색 조건 설정에는 크게 내부/외부, 말뭉치 분류, 매체, 가공형태, 연도, 제작사, 저자, 제목 등 8가지로 구분하여 입력하여 검색합니다. ① 내부/외부 : 말뭉치 파일 형태가 국어원 내부용 말뭉치 파일인지 아니면 외부용 말뭉치인지를 구분하며, 사용자는 관리자와, 국어원 내부 사용자만 검색에 활용하고 이외의 회원자는 외

ithub.korean.go.kr

https://konlpy-ko.readthedocs.io/ko/v0.5.1/data/

 

데이터 — KoNLPy 0.5.1 documentation

세종 말뭉치로 만들어진 CSV 형태의 사전. (346MB) 컴파일 된 사전은 /usr/local/lib/mecab/dic/mecab-ko-dic (또는 MeCab 설치시 지정한 경로)에 있으며, 원본 사전은 소스코드 에서 확인하실 수 있습니다. CoinedWord.csv 파일의 일부를 아래에서 보실 수 있습니다.: 사용자 사전을 추가하기 위해서는 이 곳 을 참고해주시기 바랍니다. 주석 시스템 사전과 사용자 사전 모두에 새로운 항목을 추가할 수 있지만, 두

konlpy-ko.readthedocs.io

http://aiopen.etri.re.kr/service_dataset.php

 

공공 인공지능 오픈 API·DATA 서비스 포털

과학기술정보통신부의 R&D 과제를 통해 개발한 다양한 인공지능 기술 및 데이터를 누구나 사용할 수 있도록 제공

aiopen.etri.re.kr

 

댓글