본문 바로가기

파이썬17

[저장]파이썬을 이용한 dicom(dcm) 비식별화 설명은 코드로 대체합니다. import os import pydicom # 파일리스트 추출 가장 짧은 코드 (현재폴더안의 파일/폴더명 추출) # 파일은 image 폴더 내에 넣어야 됨 rootdir = './image/' # 해당 폴더 내에 파일/폴더 리스팅 files = os.listdir(rootdir) # 처리 함수 def Fn_di_di(temp_img): # 메타 비식별화 (변경할 내용들 참고) temp_img.SeriesDate='Anonimized' temp_img.StudyDate='Anonimized' temp_img.ContentDate ='Anonimized' temp_img.AccessionNumber='Anonimized' temp_img.PatientName='Anonimized.. 2021. 3. 23.
파이썬으로 하는 차원축소 2016년 건강검진 데이터를 기반으로 차원축소를 해 보겠습니다. 우선 사용할 라이브러리와 데이터를 불러와주고 간단하게 환경설정을 해 줍니다. 데이터 프레임 설정을 해주고 컬럼명을 한글->영어로 바꿔줍니다. 각각의 변수에 남, 녀를 나누어 주고 X축에는 허리둘레, Y축에 키를 넣어 분포가 어떻게 되는지 시각화 해 줍니다. 허리둘레와 키 값을 정규화 시켜 준 후 PCA의 컴포넌트를1로 설정해 주고 정규화 하여 PCA 변환데이터를 반환해줍니다. 이후 타겟값으로 성별을 추가하여 남자는 파랑, 여자는 오렌지 색으로 분포를 표현해 줍니다. LDA를 이용해서 차원축소를 해 본 후 PCA와 비교해보겠습니다. 마지막으로 2016년 건강검진데이터의 피처들 간의 상관계수를 시각화 해 보겠습니다. 각 컬럼명을 영문으로 바꿔주.. 2020. 8. 2.
파이썬으로 하는 클러스터링 판다스의 대표 데이터셋인 붓꽃데이터셋으로 K-Means를 이용하여 클러스터링을 해 보겠습니다. 우선 사용할 라이브러리와 데이터들을 불러와주고 kmeans를 어떻게 수행할 것인지 세팅해줍니다. 데이터프레임에서 타겟와 클러스터를 정해주고 groupby와 .count를 이용하여 정리해주고 fit_transform을 이용하여 평균과 표준편차를 계산하여 정규화 해 줍니다. 각 클러스터별로 별도의 인덱스로 추출하고 해당index로 각 클러스터의 pca_x, pca_y값을 추출하여 세가지 형태의 marker로 표시해 줍니다. 추가로 알고리즘 테스트를 위한 데이터를 생섭합니다 산포도를 marker별로 생성하여 시각화 해 줍니다. 클러스터링을 해준 후 중심위치 좌표 시각화를 위해 센터값을 구한 뒤 군집된 Label 유형.. 2020. 8. 2.
[ML]파이썬으로 하는 선형회귀 선형회귀를 하기 위한 라이브러리를 불러와주고 데이터를 불러와 변수를 설정해줌 seabornt을 이용하여 각 변수들과 PRICE간의 산점도와 선형회귀 직선을 함께 표현해줌. fit으로 정규화 해준 후 MSE와 RMSE값을 구해줍니다. 회귀 계수를 구하여 큰 값순서로 정렬해줍니다. 교차검증점수로 MSE를 구한 뒤 이를 기반으로 다시 RMSE를 구해줍니다. 이 포스팅은 위키북스의 파이썬 머신러닝 완벽가이드를 참고하여 작성하였습니다. 2020. 8. 2.
단순 선형회귀 노트북 2020. 7. 8.
[파이썬]최단경로 알고리즘 import random mat = [[random.choice(range(50)) for _ in range(10)] for _ in range(10)] m = len(mat) len(mat) for i in range(m): print(mat[i]) def matrixPath(i, j): if i == 0 and j == 0: return mat[i][j] if j == 0: return matrixPath(i-1, 0) + mat[i][0] if i == 0: return matrixPath(0, j-1) + mat[0][j] return min(matrixPath(i-1, j) + mat[i][j], matrixPath(i, j-1) + mat[i][j]) %timeit matrixPath(m-1.. 2020. 6. 18.