본문 바로가기
카테고리 없음

[Day-01]데이터 획득 및

by Cat.8 2019. 8. 25.

원래 일은 프로토타입 부터 만드는게 일반적이니까, 초기 형태를 구상해야 한다.

 처음 해보면 구체적인 계획이 떠오르지 않는게 정상이니까 일단은 그 단계를 넘어가도록 한다.

 다음에 기회가 되면 내가 프로세스를 구상하는 방법을 올려봐야겠다. 종이에 그리거나 draw.io 혹은 구글 프레젠테이션 등을 활용하는데... 방법은 크게 상관없다. 한두번 해 보면 머릿속으로 구상되기도 하고, 혼자 혹은 둘이서 하면 굳이 이런 작업이 필요 없을때도 많다.

 그러면 다음 단계는... 데이터 분석을 할 거니, 데이터를 찾자.

 [검색어] 서울시 업무추진비

TMT : 검색어가 정말 중요합니다. 데이터를 찾거나 정보를 찾을때는 검색어가 중요해요. 잘 물어봐야 잘 답변해줍니다. 이건 많이 할 수록 늘어요. 심지어 구글은 질문 하라고 해놓고 질문 많이 한다고 뭐라 하지도 않아요. 궁금한거 마음껏 물어보세요 ㅎㅎ

요태까지 날 미행한고야? 구글신은 모든걸 알고이써

 

지금 내가 서울에 있으니 오늘은 이거다!

[부서별 집행 현황] 보라색을 일단 들어가보면, 

데이터가 나온다!

어느 부서에서, 언제, 어디에서, 뭐하려고, 누구누구가, 뭘로, 얼마나 썼는지가 나온다.

 저걸로 어제 링크로 근 의슐랭 비스무리한 걸 만들 수 있을거다. 서울시장님이 어딜 얼마나 갔는지... 이런건 그냥 엑셀 수작업이 빨라요. (사실 지금 하는것도 데이터 얼마 안되서 그냥 코드 작업 하는거보다 수작업으로 복붙하고 필터하는게 더 빠를지도 모른다.)

 여튼 난 R 쓰는걸 이번에 보여주고싶으니 그냥 R로 해 볼거다.(고집)

 옆으로 샌 것 같은 합리적 의심이 드는데... 일단은 넘어가본다.

컴퓨터로 프로그래밍을 하는 이유는 내가 하는 일은 줄이고, 컴퓨터한테 많은 일을 떠맡기기 위해서다. (내 철학)

그래서 조금이라도 일을 덜 하기 위해, 월별 다운로드를 눌러서 다운로드를 클릭했다!

!!! 2019년 08년 25일 12시 19분 기준으로 다운이 안되더라. 

하... 시작부터 fail....

하고 포기할 순 없다.

★ Debuging 시작 

TMT : 당신이 무언가를 하려고 하면 항상 실패할거다. 왜냐고? 나도 몰라... 그냥 맨날 실패 하더라고... 온갖 이유로 실패하는데... 실패도 많이 해보면 언제 손절해야할지 뭘 시도해봐야 할지 각이 점점 빨리 나오더라... ㅎㅎ... 그니까 그냥 재미로 즐기자.

1. 크롬 문젠줄 알고 익스플로러, 엣지 브라우저로 열어봄, ...Fail...

2. http://opengov.seoul.go.kr/sites/all/blocks/download.php?uri=/git/seoul-opengov/opengov/opengov/expense_list2019/201908_expense_list.csv 라고 주소가 뜨길래... 

보통 웹에서 / / / .... 있는건 경로니까... 앞에 download.php?uri= 이런 부분이 있다. download.php?uri= 이런건 php파일에다가 그 뒤에있는 주소를 던져준다... 뭐 이런건데... 홈페이지 만드는거 조금 깔짝거려보면 눈치챌 수 있다.

일단은 php 부분 지우고 http://opengov.seoul.go.kr/sites/all/blocks/git/seoul-opengov/opengov/opengov/expense_list2019/201908_expense_list.csv 부터

http://opengov.seoul.go.kr/git/seoul-opengov/opengov/opengov/expense_list2019/201908_expense_list.csv 까지 순차적으로 실행했으나... fail

3. 아... 그래도 남잔데 삼세번은 해 봐야지...

어... 근데... 

git을 어디서 본 것 같다?

여러분이 개발을 하다보면 언젠가 접하게 될 'git'이다. 

이쯤되면 github을 의심해 볼 수 있다. 이건 합리적인 의심이다.

1) 구글신께 가르침을 청한다.

가르침을 청하는 용어는 뒤에 있다. seoul open gov 사실 git 몰라도 그냥 보이는 단어 적당히 조합해서 구글신께 빌면 나올거다. 내가 먼저 빌어보겠다.

2) 바로 나온다. 이정도면 원펀맨. 앞에 두 번 fail 했으니 아니라고?

나 쁘로빠시아 먹음. 인정?

정신승리라도 하게 해 주라... 

여튼 들어가보면 있다 ㅎㅎㅎ 야후! (Rest in peace. 2012.12.31 -yahoo korea)

2018년 내용으로 볼거다. 결고 스울 시장님 별명이 ㅅㅂ 아저씨라 그런거 아니다.

! 2019년 데이터는 아직 덜 모였을거고, 그걸 제외한 최신 데이터를 사용하려는거다. 정말 이건 합리적인 이유다.

여튼 들어가보면 이렇다.

201801 음.. 2018년 1월 데이터겠군. expense 단어 몰라도 구글신한테 물어보면 비용이라고 알려줄테니 이것도 해석했다. list 이것도.. 목록. 굳 잡 보이.

 csv? json? xlsx? xml?

 물론 검색하면 나온다. 파일 확장자인데... 데이터다루다 보면 자주 보게 될 확장자들이다.

 1단계 : 그냥 처음이고 잘 모르겠으면 csv 받자. 그냥 익숙한 데이터다.

 2단계 : 각각이 뭔지는 알고 가도 된다. 대충 보고 가자 (굳이 암기할 필요 없다. 이런게 있다 정도로...)

 3단계 : 이해 제대로 하자... 단계는 난 굳이 권하지 않는다. 직접 다뤄보는거 아니면 대충 뭔지만 아는게 비용대비 효율이 좋은 경우가 많다.

TMT : 갱제학(경제학)에서는 이걸 '차선의 법칙'이라는 용어를 쓴다. (일하다보면 내가 경제학과라고 하면 사람들이 ? 를 얼굴로 띄운다. 경제학 학사입니다. 공부를 제대로 안해서 그렇지...)

 여튼 엑셀파일같은거다. 일단은 csv로 받자. 한 폴더에 몰아서 받을거다.

201801_expense_list.csv 링크를 클릭하고..

다운로드를 선택하면! 짜잔!

멍청한 크롬놈이... 내맘도 몰라주고... 다운로드 안하고 지가 열어버린다... ㅠㅠ

구글 이녀석들 알파고로 이세돌도 이기면서 내마음도 몰라주고... 야속하다. 

어떻게 하냐고? 

오른쪽 버튼 눌러서 다른 이름으로 저장 하면 된다. 이런걸 어떻게 다 아냐고?

이전에 실패를 많이 하면 된다. 그럼 다음 번 실패는 점점 더 빠르게 적응한다. 맨날 시키는대로 따라가는데 안된다고? 정상이다. 난 컴퓨터 익숙한 편인데도 내가해도 90%이상은 문제가 생기더라. 한 번에 생기면 불안해진다... 뭔가 잘못한거 아닌지... 프로그래머들 짤 보면 '이게 왜 되는거지?' 라고 하는거 많이 돌아다닐텐데... 리얼 불안해진다.

여튼 파일을 여러개 받아야 되는데... 두 가지 방법이 있다.

1. 열심히 일하는 것 처럼 보이고싶을 때.

- 깃허브 페이지에서 파일 하나 하나 클릭해서, 다운로드 누르고, 오른쪽 버튼 누르고, 다른이름으로 저장하는 작업을 반복한다. 얼굴을 살짝 찡그리며 반복작업을 하면 멋있어 보일지도 모른다. 모르는 사람이 보면 열심히 하고 멋있어 보일거다. 영어로 된 페이지에서 뭔가 열심히 일하고 있으니.

- TV에서 해커들 영상 나오는거 보면 'hello world!' 띄우는 간단한 코드나... 폴더 띄우고 폴더 이동하는 리눅스 창 띄우는 경우가 많다. 나중에 나랑 같이 해 보고 나면 허무할거다. 아참 (TMT였다.)

2. 귀찮고 난 효율충 한국인이다.

내 헛소리에 정신줄을 놓치지 않고, 눈치가 빠르면 저 부분이 보일거다. 숫자만 바꾸면 월별 데이터가 뜬다.

내 글 내가 캡처

유노 왓암쌩?

월별 이름 바꾸고 엔터 -> 컨트롤(키보드 맨 왼쪽 아래) + s 누르면 저장된다는거다.

하... 힘들었다.

다운을 한 폴더에 받고나면...! 드디어 분석을 위한 데이터를 모았다!! ㅜㅜ

열어보자.

(엑셀이 있을 경우만 저런식으로 열립니다.)

어? 내가 찾던 데이터가 아니다. 어느 과가 썼는지만 나오고 우리 ㅅㅂ 아저씨가 쓴 게 안나오네.. ㅜㅜ 다시찾.... 기는 귀찮으니 일단은 이 데이터로 진행하겠다. 꼬우면... 마음속으로만 꼬와 해 줘라. 내가 맘이 좀 여려서... 

찾는건 별로 안어려운데 이거 캡처 해가며 올리는거 너무 힘들다 ㅜㅜ

여튼 간단히 한 번 보자.

첫 행은 보통 각 칸들 ( 정확히는 '열', 'column' ) 의 의미를 설명하니까 일단 첫 행을 고정하고 시작하면 좋음.

(보기->틀 고정->첫 행 고정)

아... 너무 길어지니까 힘이 떨어진다...

저기 녹색 A->T까지 드래그 (A에서 클릭해서 T에서 떼면 된다.)

원래 이번 포스팅 제목 데이터 획득 및 전처리... 였는데 힘들고 호흡도 길어져서 전처리 떼고 왔다. 아... '및' 도 떼야하는데... 귀찮으니 그냥 및 은 놔두겠다. 이번 프로젝트는 그냥 재미로 하는거니 대충할거다. 내 재미를 잃지 않고 가겠다.

여튼 데이터->필터 를 누르면 제일 윗 캇에 세모 버튼이 생긴다. 동그라미가 삐뚤어진것처럼 보이는건 독자의 마음이 삐뚤어져서 그렇다. 

 

위쪽 동그라미 누르고, 사업소, 서울시본청, 소방재난본부 체크를 해제하면 의회 사무처가 어디서 무슨짓을 했는지 볼 수 있다. 

 여기까지만 할 줄 알아도 많은 걸 배워간거다. 이거만 해도 응용할 것이 엄청 많을거다.

 데이터의 세계에 오신 것을 환영하오. 나써니여.

어? 누가썼는지 나오네... 하... 내가 이럴 줄 알고 안버리고 계속 갔던거임... ㅜㅜ 내 무의식은 알고 굳게 믿고 있던거임...

ㅎㅎㅎㅎㅎㅎㅎㅎㅎ 

신난다.

여튼 이걸로 뭘 할 수 있을까? 엑셀로 차트 만들기.. 이런걸로 시각화도 가능할건데... 그런거 남들 다 하는거잖아?

그런거면 그냥 링크 걸고 말지... ㅎㅎㅎ

아.. 원하던 데이터라서 안도감도 들고 기분도 좋고...

시간도 마침 사람이 가장 흉포해지는 새벽 1시 16분이네.

시민 권익담당관이 시민 권익을 담당하기 위해 무엇을 했는지 봐야지...

구글에 각각 검색해 본다.

그만 검색해본다..

여러분도 새벽 1시 19분에 저걸 검색하는 어리석은 짓을 하지 않길 권한다..

점 두개 찍었다..

진지하다는 뜻이다..

오늘은 여기까지만 한다. 내 항마력이 떨어져서 ... 어쩔 수 없다.

그럼 20,000

댓글