목록Python (15)
코딩초보 김씨
합성곱 신경망 CNN (Convolutional neural networks) 뇌가 물체를 인식할 때 동작하는 방식에서 영감을 얻은 모델. 이미지 처리에 사용 합성곱 연산 : 가중치를 공유하여 근처에 있는 뉴런들만 연산 이번에도 이 정도로만 알고, 자유 미션때 작성한 코드로 설명하겠다. [ 데이터 수집 및 전처리 ] #이미지 스크래퍼 라이브러리 설치 !pip install -q jmd_imagescraper # directory 설정 base_dir = "/content/images" # 수집할 이미지 개수 num_images_per_class = 500 # 이미지 수집 # res = duckduckgo_search(base_dir, "폴더명", "검색 키워드", max_results=num_images..
딥러닝이란? 인간의 뉴런이 학습하는 방식을 모사하여 만든 기계 학습 방법이다. 예제 코드를 보며 그때그때 필요한 설명을 덧붙일 것이다. [ XOR 분류 ] 1. 먼저 필요한 라이브러리를 모두 import 한다. import tensorflow as tf import tensorflow_datasets as tfds import numpy as np import pandas as pd import matplotlib.pyplot as plt from IPython.display import Image import os, shutil 2. 데이터 생성 및 확인 # random data 생성 tf.random.set_seed(1) np.random.seed(1) # data 조건 지정 x = np.random..
[ 차원 축소란? ]많은 피처로 구성된 다차원의 데이터 셋의 차원을 축소하여 새로원 차원의 데이터 세트를 생성하는 것 아래 이미지가 가장 직관적이고 이해가 쉬워서 가져왔다.각 차원 공간의 25%에 해당하는 데이터가 위치하는 비율이 42%, 14% ..., 3%로 점차 줄어드는 것을 볼 수 있다. [ 차원이 너무 클 때의 문제점 ]1. 차원의 저주에 빠지기 쉽다.2. 다중 공산성 문제 많은 feature 중 몇 feature들끼리는 강한 상관관계를 보이는 경우가 있을 것이다. 이처럼 상관관계가 높은 feature들을 함께 학습 시키면, 모델의 과적합이 발생하여 학습 성능 저하 가능성이 있음. " 따라서 모델에 데이터 셋을 적용하기 전에 어떤 feature가 모델의 성능에 큰 영향..
머신러닝은 크게 1)지도학습, 2)비지도학습, 3)강화학습으로 나눌 수 있으며,지도학습은 분류, 회귀로 나뉘어진다.비지도학습의 경우 군집화까지 배워서 추후 더 추가할 예정이다. 먼저 분류와 회귀의 차이점은,0 또는 1처럼 이산 값으로 label이 정해진다면 분류, 키나 몸무게처럼 연속 값이면 회귀이다. 오늘은 지도학습의 분류에 대해서 정리하는 글을 작성할 것이다. 분류 (Classifier)데이터Feature와 Label로 이루어진 데이터 세트 필요알고리즘데이터 세트 분리(train_test_split) → 트레인데이터로 모델 학습(fit) → 테스트데이터로 예측(predict) ..
데이터 간 유사도를 측정하여 유사한 데이터 객체들을 같은 클러스터에 할당하는 작업n 개의 객체를 대상으로 k 개의 파티션을 구성한다. 1. 전체 데이터 셋에서 k개의 객체를 초기 클러스터 중심점으로 선택2. 각 객체를 가장 가까운 클러스터에 할당(또는 재할당)3. 클러스터의 평균(각 클러스터에 속하는 객체들의 평균 값)을 업데이 트4. 수렴 조건을 만족할 때 까지 2~3을 반복함 이상적인 클러스터링, 분석 시 고려사항, 장단점 등등이 있지만,나는 실습이 재밌으니까 실습 위주로 !! 아래와 같이 데이터가 주어졌을 때, 각 데이터들을 k-means 방법으로 clustering 해보자. 초기 center point는 A1, B1, C1이다. 1. 데이터 확인 2. 첫번째 center point 기..
현재 나는 오래된 언니의 노트북을 물려받아서 사용하는 중이다.그래서 조심스럽고 느려도 넓은 마음으로 기다려줘야겠다는 생각으로 사용하였다. 하지만, 주피터노트북은 기본적으로 C드라이브에서 시작을 하는데,USB (D드라이브)에 있는 파일을 모두 바탕화면에 꺼내놓는 순간, 속도가 미친듯이 느려졌다.나의 인내심을 한계에 다다르게 했고.. 정말 욕이 나올 정도로 답답했다. 그래서!오늘은 주피터노트북 시작 경로를 USB로 바꾸는 작업을 해보았다. 1. C:\Users\MYCOM\.jupyter\jupyter_notebook_config.py를 연다.(그냥 메모장 파일로 열어도 됬다)# c.NotebookApp.notebook_dir = ''위 문구를 찾아서 #을 지우고 ''사이에는 원하는 경로를 적어준다.나는..
집에 와서 복습을 하려고 코드를 돌려보니 에러가 났다. "아, 맞다! 라이브러리를 설치해야되지!" 왠걸.. 라이브러리를 설치하는데에 아주 큰 애를 먹어서다음에 컴퓨터를 바꿨을 때 참고하기 위해 기록용으로 작성! 1. wordcloud!pip install wordcloud아주 간단하다. 2. Graphviz1) Graphviz 설치 : https://graphviz.org/download/ Download graphviz.org 2) anaconda prompt 관리자권한 실행 >pip install graphviz 3) 시스템 환경 변수에 경로 저장사용자변수 path에 경로 추가 : ~~~\bin시스템 변수 path에 경로 추가 : ~~~\bin\dot.exe 4) anaconda pro..
코드 기록용으로 파일만 올려놓기!! 공공데이터를 이용하려면, 본인의 코드 키를 다운받아서 사용해야합니다.
[데이터 확인 1. 행 인덱싱] - df.head() / df.tail() - df.index / df.columns / df.values - df.T - df.sort_index(axis=1) - df.sort_value(by='행') [데이터 확인 2. loc[], iloc[]] - .loc[] / .iloc[] [데이터 확인 3. Boolean] [데이터 추가]
※ 시작하기에 앞서, 코딩 전 꼭 해야하는 작업에 대해 짚고 넘어가야한다.1. pwd 2. pandas와 numpy 불러오기3. 버전 확인하기판다스 데이터저장소의 종류는 series, dataframe 2가지이다.1. series : 1열로 이루어져있고, 리스트와 비슷함. 이름 = pd.Series([요소1, 요소2, 요소 3, 요소 4]) 2. dataframe엑셀 sheet처럼 행,열을 가진 frame을 만드는 것. 이름 = pd.DataFrame(sheet 채울 값, index= , columns= ) 오늘은 피곤해서 여기까지..내일 이어서 dataframe의 data를 선별하여 보는 방법 포스팅 예정!