본문 바로가기

반치용105

[nlp] 데이터 저장소 https://korquad.github.io/ KorQuAD What is KorQuAD 2.0? KorQuAD 2.0은 KorQuAD 1.0에서 질문답변 20,000+ 쌍을 포함하여 총 100,000+ 쌍으로 구성된 한국어 Machine Reading Comprehension 데이터셋 입니다. KorQuAD 1.0과는 다르게 1~2 문단이 아닌 Wikipedia article 전체에서 답을 찾아야 합니다. 매우 긴 문서들이 있기 때문에 탐색 시간에 대한 고려가 필요할 것 입니다. 또한 표와 리스트도 포함되어 있기 korquad.github.io https://ithub.korean.go.kr/user/guide/corpus/guide1.do ::: 국립국어원 언어정보나눔터 ::: 찾기 말뭉치 메뉴에서.. 2020. 2. 28.
[Power BI] 밋업 후기 2020-02-18 리마인드용 태블로를 써보지 않았으므로, Qlik 대비 경험을 적었음. Qlik도 깊이있게 써보지 않아서 상당히 편향적이고 주관적일 수 있음을 말머리에 미리 적어둠 사족으로 시작! 요즘은 이런것도 있구나... 싶었음. 시간표는 관심있는 사람만 볼 수 있게 접어뒀습니다. 더보기 BI툴을 찾는 사람들이 많아지는 것 같고, 데이터 분석 직무자는 BI툴 사용 경험도 채용시 영향을 주기도 한다. 현재 업계 1위는 태블로 인 것 같고, 2위가 Power BI, 3위가 Qlik 인 것 같다. 업무하면서 (주)미소정보기술 과의 협업을 위해 Qlik을 배워서 간간히 써 왔는데, 오늘 Power BI 밋업 후에 거의 Power BI로 마음이 넘어간 것 같다. (Qlik으로 작업하는 곳 자체가 흔치 않은 것 같은데, 저기서는 이것저것 .. 2020. 2. 18.
[저장] 데이터 둘러보기 https://cloud.trifacta.com/home 2020. 1. 21.
[중요]XGBoost 개념 및 전반적인 내용 https://brunch.co.kr/@snobberys/137 XGBoost 사용하기 지루하고, 재미없기 짝이 없지만 꾸준한 조회수를 보장할 것 같은 글 | 소개 시작은 캐글(kaggle)이었다. 캐글이 무엇인지 처음 읽는 분들을 위해서 잠깐 설명하자면, 은 과학자들이 통계적 문제를 놓고 경쟁하는 온라인 플랫폼이다. 비유하자면 엔지니어들의 랄까. 다만 누가 더 랩을 잘 하는가에 대한 평가는 심사위원이 아니라 수치로 집계된다. 지원자들은 학력, 나이에 관계없이 공개된 데이터를 다운로드하고, brunch.co.kr 얼른 다뤄보고싶다... 제대로 이해하기 위해서는 선행학습할게 많지만, 일단 간단히 전처리된 내용만으로라도 조물조물 해보고싶다. 이 글에 예제까지 있다. 2020. 1. 20.
[저장]자유도에 관해 여러 번 들었지만 제대로 이해도 안되고 와닫지 않던 자유도를 왜 사용하는 잘 설명한 글을 발견했다. https://brunch.co.kr/@zhoyp/174 자유도 통계학에서 자유도(degree of freedom)란 무엇일까요?보통은 이렇게 설명합니다. 표본 n 개를 선택할 때에 마지막 1개는 모집단의 평균과 같아지도록 표본집합을 구성하도록 brunch.co.kr 참 쉽죠라고 하는 건 별로 안 쉽더라. 다만 나한테 필요하던 설명이 더 있었다. 요약하자면 편차를 분산으로 재는 방식으로 인해 모 분산과 표본 분산간의 차이가 생기는데, 그 비율이 (n)/(n-1)이고, 약분 과정에서 (n)이 사라지고 남는 n-1을 자유도라 칭하는 것이다. 결국 모분산에 근접하기 위한 방법이고, 자유도에 따라 편향되는 분산을.. 2020. 1. 20.
[R]DsigDB 전처리 오늘 제 목표는 R을 이용해 이런 데이터에서 compound(d1, d3)와 거기에 해당하는 gene을 추출해 DB화 하는 것입니다. Class compound gene D1 Palbociclib CCND1 D1 Palbociclib CDK4 D3 chelidonine_HL60 CCL2 D3 chelidonine_HL60 CCL3 D3 chelidonine_HL60 TRIM14 ... ... ... (완료시 테이블. (+)- 나 up down 같은 내용도 제거) 이 쪽이 재료 파일입니다. 그리고 전체 소스코드 입니다. 파일을 받으신 후 경로는 수정하는 것을 권해드립니다. # Env setting { library(data.table) library(stringr) options(stringsAsFacto.. 2020. 1. 16.