목록Python/Machine Learning (3)
코딩초보 김씨
[ 차원 축소란? ]많은 피처로 구성된 다차원의 데이터 셋의 차원을 축소하여 새로원 차원의 데이터 세트를 생성하는 것 아래 이미지가 가장 직관적이고 이해가 쉬워서 가져왔다.각 차원 공간의 25%에 해당하는 데이터가 위치하는 비율이 42%, 14% ..., 3%로 점차 줄어드는 것을 볼 수 있다. [ 차원이 너무 클 때의 문제점 ]1. 차원의 저주에 빠지기 쉽다.2. 다중 공산성 문제 많은 feature 중 몇 feature들끼리는 강한 상관관계를 보이는 경우가 있을 것이다. 이처럼 상관관계가 높은 feature들을 함께 학습 시키면, 모델의 과적합이 발생하여 학습 성능 저하 가능성이 있음. " 따라서 모델에 데이터 셋을 적용하기 전에 어떤 feature가 모델의 성능에 큰 영향..
머신러닝은 크게 1)지도학습, 2)비지도학습, 3)강화학습으로 나눌 수 있으며,지도학습은 분류, 회귀로 나뉘어진다.비지도학습의 경우 군집화까지 배워서 추후 더 추가할 예정이다. 먼저 분류와 회귀의 차이점은,0 또는 1처럼 이산 값으로 label이 정해진다면 분류, 키나 몸무게처럼 연속 값이면 회귀이다. 오늘은 지도학습의 분류에 대해서 정리하는 글을 작성할 것이다. 분류 (Classifier)데이터Feature와 Label로 이루어진 데이터 세트 필요알고리즘데이터 세트 분리(train_test_split) → 트레인데이터로 모델 학습(fit) → 테스트데이터로 예측(predict) ..
데이터 간 유사도를 측정하여 유사한 데이터 객체들을 같은 클러스터에 할당하는 작업n 개의 객체를 대상으로 k 개의 파티션을 구성한다. 1. 전체 데이터 셋에서 k개의 객체를 초기 클러스터 중심점으로 선택2. 각 객체를 가장 가까운 클러스터에 할당(또는 재할당)3. 클러스터의 평균(각 클러스터에 속하는 객체들의 평균 값)을 업데이 트4. 수렴 조건을 만족할 때 까지 2~3을 반복함 이상적인 클러스터링, 분석 시 고려사항, 장단점 등등이 있지만,나는 실습이 재밌으니까 실습 위주로 !! 아래와 같이 데이터가 주어졌을 때, 각 데이터들을 k-means 방법으로 clustering 해보자. 초기 center point는 A1, B1, C1이다. 1. 데이터 확인 2. 첫번째 center point 기..