일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 파이썬
- 시뮬링크
- github
- Python
- git
- 연료전지
- reference manager
- matplotlib
- 머신러닝
- 모깎이
- 포스코인턴
- 군집화
- matlab
- 파워포인트
- 열역학
- ppt
- Fusion 360
- simulink
- 포스코
- 비지도학습
- 스틸브릿지
- 매트랩
- 윈도우
- mendeley
- PEMFC
- 클러스터링
- Desktop
- 멘델레이
- 기계공학
- CAD
- Today
- Total
목록Machine Learning (11)
신군의 역학사전

1. 개요(Overview)주성분분석(Principal Component Analysis, PCA)는 고차원 데이터를 저차원 공간에 효과적으로 투영하여 데이터의 주요 변동을 최대한 보존하는 투영 기반 차원 축소 기법으로, 데이터에 가장 가까운 초평면(Hyperplane)을 정의한 다음, 데이터를 해당 평면에 투영시킨다. 이와같은 PCA의 활용을 통해 고차원 데이터 분석에서 발생할 수 있는 문제점들을 효과적으로 해결할 수 있다. 2. 주성분(Principal Component)PCA의 목적은 Raw Data의 데이터의 특성(분포)을 최대한 유지하며 차원을 낮추는 것으로, 저차원의 부분공간에 투영하기 전에 최적의 초평면을 결정해야한다. 여기서 최적의 초평면은 투영한 저차원의 데이터의 분산이 최대가 되도록하는..

1. 차원의 저주(Curse of Dimensionality)차원의 저주(Curse of Dimensionality)란 여러 특성(Feature)을 가진 고차원 데이터를 다룰 때 직면할 수 있는 여러 문제들을 총칭하여 부르는 용어로, 주로 데이터의 차원이 증가할수록 학습 모델의 계산 속도와 정확도가 저하되는 현상을 지칭한다. 데이터의 특성(Feature)의 수가 많아질 수록 계산속도가 기하급수적으로 늘어나는 것은 쉽게 납득이 가능하나, 모델의 정확도 관련해서는 다소 의문이 들 수 있는데, 이는 데이터 희소성(Sparsity) 문제로 설명이 가능하다. 예를 들어, 한 학급의 학생들을 여러 기준에 따라 분류하는 상황을 가정해볼 수 있다. 여기서 키와 몸무게만으로 학생들을 분류하는 경우와 키,몸무게와 더불어 ..

1. DBSCAN 개요DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 데이터가 밀집되어 있는 영역을 클러스터로 보고, 희소 영역(밀도가 낮은 부분)을 노이즈로 간주하는 밀도 기반 군집화 알고리즘이다. DBSCAN은 임의의 형태의 클러스터를 찾을 수 있고, 노이즈를 제거하거나 탐지하는 용도로 활용이 가능하여 다른 클러스터링 기법에 비해 우수한 면이 있다. 2. TheoremDBSCAN 알고리즘의 구현을 위해 정리해야할 몇가지 이론(혹은 정의)이 있는데, 정리하면 다음과 같다.2-1. ε-neighborhood어떤 점 p를 기준으로, 데이터셋 D 안에 있는 점들 중, 거리(dist)가 ε 이하인 점들의 집합을 ε-이웃(ε-neighb..

1. 계층적 군집화(Hierarchical Clustering)계층적 군집화(Hierarchical Clustering)는 데이터 간의 유사성을 기반으로, 각 데이터가 개별 군집에서 시작하여 반복적인 병합 또는 분할 과정을 통해 계층적인 트리 구조(Dendrogram)를 형성하는 비지도학습 기법이다. K-means Clustering과는 달리 클러스터의 수를 사용자가 미리 지정해주지 않아도 된다는 장점이 있으며, 트리 구조를 통해 의미있는 분류 체계를 도출할 수 있다(트리구조의 높이로 taxonomy를 찾아낼 수도 있다). 최종적으로 생성된 덴드로그램을 바탕으로 사용자가 적절한 Cutting Point를 정해 클러스터 수를 나누게 된다. 아래의 그림을 예로들면, 수직선을 어디에 긋냐에 따라 최종 클러스터..

1. K-평균 군집화(K-means Clustering)란?K-means Clustering은 분할 군집화(Partitional Clustering) 알고리즘 중 하나로, 미리 지정된 K개의 클러스터로 데이터를 나누어 각 클러스터 내에서 데이터가 최대한 서로 가깝게 되도록 하는 것을 목표로 한다. 이를 통해, 정답 레이블링이 없는 상황에서 유사한 데이터셋을 하나의 Subset으로 효과적으로 묶어낼 수 있다. 다만, 클러스터의 수(K)는 사용자가 지정해주어야 하는 하이퍼파라미터로 사용자 판단하에 최적값을 모델에 집어넣어주어야 한다. 보통 최적 클러스터 수는 엘보우 방법(Elbow Method)에 따라 선택하며, 관련 내용은 아래의 게시글과 같다.https://ymechanics.tistory.com/ent..

클러스터링 개요 (Overview of Clustering)1. 클러스터링(Clustering)이란?군집 분석(Clsutering)은 주어진 데이터셋에서 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 비지도학습(Unsupervised Learning)기법 중 하나로, 각 데이터의 유사성을 측정하여 다수의 군집으로 나누고 군집 간의 상이성을 확인한다. 이를 통해 데이터의 내재된 구조를 파악하고 숨겨진 패턴을 확인할 수 있으며, 가장 대표적인 기법으로 K-means Clustering, DBSCAN 등이 있다. 2. 클러스터링 프로세스(Standard Clustering Procedure)대표적인 클러스터링의 프로세스를 정리해보면 위의 그림과 같다. 특징 선택(Feature Selection)을 통해 ..

강화학습(Reinforcement Learning, RL)이란?강화학습(Reinforcement Learning, RL)은 에이전트(Agent)가 환경(Environment)과 상호작용하며, 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 기계 학습 방법이다. 시행착오(Trial & Error)를 통해 보상(Reward)을 최대화하는 방향으로 학습이 진행된다. 강화학습은 마치 자전거 타는법을 처음 배울 때와 유사한 방식인데, 처음에는 균형을 잡지 못하고 넘어지기도 하지만, 몸을 이리저리 움직여보며 균형잡는 방법을 학습하여 점점 더 오래 자전거를 탈 수 있게된다. 보상은 넘어지지 않고 트랙을 완주했을때, 부모가 아이에게 간식을 준다던지, 칭찬을 해준다던지.. 등으로 ..
이번 포스팅에서는 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 정의에 대해 정리해보겠습니다. 둘은 다른 개념임에도 이름이 비슷해서 그런지 혼용해서 자주 사용되곤 합니다. 제가 참고하는 텍스트북에는 파라미터(Parameter)와 하이퍼파라미터(Hyperparameter)의 정의에 대해 깔끔하게 정리된 정의가 없어서, 아래 링크의 페이지를 참고하였습니다. https://medium.com/@ompramod9921/model-parameters-and-hyperparameters-in-machine-learning-502799f982d7 Model Parameters and Hyperparameters in machine learningIn machine learning, pa..