ai-creator

Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (119)

ai-creator

[머신러닝 기초] 텍스트분석 - classification (20newsgroups 데이터)

ㅁ 텍스트 분석 주요 영역 1) 텍스트 분류 2) 감정 분석 3) 텍스트 요약 4) 텍스트 군집화와 유사도 측정 ㅁ 텍스트분석 머신러닝 수행 프로세스 "text문서 -> 가공(전처리) -> feature -> ml학습 -> 예측 -> 평가" 과정은 다른 ML 프로세스와 동일 가공(전처리) 1) 클린징(cleansing) : 텍스트 분석에 방해가 되는 불필요한 문자, 기호등을 제거 (ex. HTML, XML 태그) 2) 토큰화(tokeniation) : 문장 토큰화, 단어 토큰화, n-gram 3) 필터링, 스톱워드 제거, 철자 수정 : 분석에 큰 의미가 없는 단어(ex. a, the, is, will), 잘못된 철자 수정 4) stemming / lemmatization : 어근(단어 원형) 추출 (비교..

데이터 분석/왕초보를 위한 머신러닝 2021. 11. 27. 10:27

[머신러닝 기초] 비지도학습(Unsupervised-learning) - 군집화(Clustering)

ㅁ 들어가기 ㅁ 군집화 알고리즘 종류 ㅁ 군집 평가 ㅁ 군집화 알고리즘 - Kmeans ㅁ 군집화 알고리즘 - DBSCAN ㅁ 들어가기 우리가 트럼프 카드를 군집을 만들 때 군집의 수를 과연 둘로 하는 것이 좋을까, 넷으로 하는 게 좋을까? 색깔로 하면 두 개가 될 것이고, 우리가 모양으로 하면 네 개로 나눌 수 있는데, 어떤 것이 좋다는 정답이 존재하는 것은 아니다! 군집화에 가장 직관적인 예시는 MBTI라고 볼 수 있다. 다수개의 질문을 통해 인간의 성격을 16가지로 군집을 지어 놓은 것이다. 각 군집마다 네이밍을 하고(ex. 세상의 소금형) 그 특징을 설명하고 있다. 우리가 MBTI를 하면서 본인의성격유형을 파악하고, 공감을 하고 재밌어 한다. 하지만 여기서 끝나지 않는다. 이성에게 호감을 갖는 방..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 19. 15:02

[머신러닝 기초] 지도학습 - classification (Logistic Regression)

회귀를 통해서 회귀계수를 산출하게 되면, 회귀계수는 각 피쳐에 대한 설명력으로 이해할 수 있다. y = 0.5x + 1 이라는 회귀식이 있다면, 'y를 예측하는데 x의 값이 0.5로 영향을 미치는 구나' 하고 말이다. 즉, x가 2->3으로 1증가를 하면 y는 0.5 상승하겠구나 라고 생각할 수 있다. 로지스틱 회귀는 회귀의 이러한 장점을 살린 분류 알고리즘이다. 로지스틱 회귀가 선형회귀와 다른 점은 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(sigmoid)함수 최적선을 찾고 이 시그모이드 함수의 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것이다. 로지스틱 회귀는 가볍고 빠르지만, 이진 분류 예측성능도 뛰어나다. 이 때문에 로지스틱 회귀를 이진 분류의 기본 모델로 사용하..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 19. 14:59

[머신러닝 기초] 지도학습 - 선형 회귀(Regression) 분석

ㅁ 선형 회귀란? 지도학습은 크게 2가지 유형으로 볼 수 있습니다. 1) 분류 2) 회귀 두가지 기법의 가장 큰 차이는 다음과 같다. 1) 분류 : 예측값이 이산형 클래스 값 2) 회귀 : 예측값이 연속형 숫자 값 데이터를 가장 잘 설명하는 최적의 회귀식를 찾는다. 회귀는 여러개의 독립변수(x)와 한개의 종속변수(y)의 상관관계를 모델링하는 기법을 통칭한다. w0, w1, w2.... 를 회귀계수(regression coefficients)라고하며, 회귀 예측의 핵습은 주어진 피쳐(x, input, 독립변수)와 결정값(y, output, 종속변수)값 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것이다. 독립변수 1개 단일 회귀 독립변수 여러개 다중 회귀 회귀계수의 결합 선형 선형회귀 회귀계수의 결합 ..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 19. 14:57

[머신러닝 기초] 지도학습 - classification (Ensemble, Random Forest)

목차 1. 앙상블 (ensemble) 2. Bagging 2-1) Random Foreset 3. Boosting 4. Staking 1. 앙상블(ensemble) - 여러개의 분류기(classifier)를 생성하고, 그 예측을 결합함으로써 더 정확한 최종 예측을 도출하는 기법 - 어려운 문제를 풀기위해 여러명의 전문가로 구성해 다양한 의견을 수렴하고 결정하는 방법과 유사 1-1) 앙상블 유형 보팅 (Voting) : 서로 다른 알고리즘을 가진 분류기를 결합 배깅 (Bagging, Bootstrap AGGregatING) : 모두 같은 유형의 알고리즘을 사용하지만, 데이터 샘플링(sampling with replacement, 복원추출)을 서로 다르게 가져가면서 보팅을 수행, RandomForest 데이..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 16. 10:13

[머신러닝 기초] 하이퍼파라메터 튜닝을 쉽게! - GridSearchCV

- 하이퍼파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소 이 값을 조정해 알고리즘의 예측 성능을 개선 할 수 있음 Sklearn API 교차검증과 최적의 하이퍼파라메터 튜닝을 한번에 할 수 있다. 이를 위해 sklearn에서는 API를 지원한다. 목적 import API 교차검증 및 하이퍼파라메터 튜닝 from sklearn.model_selection import GridSearchCV DecisionTreeClassifier() 코드에서 보면, import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.tree import Deci..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 16. 10:12

[머신러닝 기초] 지도학습 - classification (decision tree)

지난 시간 복습 더보기 분류와 회귀 비교 분류알고리즘 다양하다. 나이브 베이즈 로지스틱 회귀 의사결정 나무 서포트 벡터 머신 최소 근접 알고리즘 신경망 앙상블 등이 있다. 이번 장에서는 decision tree, 의사결정 나무에 대해서 알아보겠다. ㅁ Decision Tree (의사결정나무) decision tree는 스무고개 게임과 유사하며 룰 기반의 프로그램에 적용되는 if-else 를 자동으로 찾아내 예측을 위한 규칙이라고 이해하면 어렵지 않을 것이다. 가능한한 적은 결정 노드로 높은 예측 정확도를 가지려면 데이터를 분류할때 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정노드의 규칙이 정해져야 합니다. 1) 정보이득 (Gain Information) - 정보이득 지수 = 1-엔트로피 지..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 16. 10:12

[머신러닝 기초] 다중분류(multi-class) 성능평가 - recall과 precision

class가 3개 이상인 경우 다중분류라고 하는데, 이때의 confusion matrix와 recall, precision을 구해보자. 원리는 binary 분류와 동일하다. 기본 개념이 없다면, binary분류부터 확인하고 온다. > https://ai-creator.tistory.com/578?category=875603 1) 다중분류 고양기, 강아지, 물고기 이렇게 3종류를 분류하는 알고리즘이 있다. 그리고, 예측값과 실제값이 아래와 같다고 가정해보자. 다중 클래스는 OvR(One-vs.-Rest) 문제로 자기 클래스는 Positive, 나머지는 모두 Negative로 하여 계산을 하면 된다. 2) Precision, Recall 구하기 지난 시간에 accuracy, precision, recall을..

데이터 분석/왕초보를 위한 머신러닝 2021. 10. 16. 10:12

[머신러닝 기초] 지도학습 - classification 평가척도 (confusion matrix, accuracy, recall, precision, f1-score, ROC, AUC)

목차 1. 오차행렬 (Confusion Matirx) 2. 평가 지표 2-1) Accuracy, Precision, Recall 2-2) F1-Score 2-3) ROC Curve와 AUC 1. 오차행렬 (Confusion Matrix) 의미 알고리즘이 예측을 수행하면서 얼마나 헷갈리고(confused) 있는지 보여지는 지표이다. 매우 혼란스러운 행렬이지만, 모든 값은 "예측"이 기준이다. True Negative (TN) 맞췄다. Negative로 예측해서 False Positive (FP) 틀렸다. Positive로 예측해서 실제는 Negative False Negative (FN) 틀렸다. Negative로 예측해서 실제는 Positive True Positive (TP) 맞췄다. Positive로..

데이터 분석/왕초보를 위한 머신러닝 2021. 9. 25. 01:38

[머신러닝 기초] 지도학습 - 데이터 전처리 (one-hot encoding, label encoding, Standardization, Normalization)

이전 포스팅에서 2가지를 언급했다. 1) 머신러닝이란? (Link) : input ----> [ 패턴인식을 위한 머신러닝 알고리즘 ] ----> output 2) 머신러닝을 도와줄 python 패키지 : Scikit-learn 머신러닝 알고리즘을 사용하기 앞서 해야할 일은 input 가공하는 일이라고 했으며, - 학습/테스트를 위한 데이터 분리 및 이에 맞춘 Sklearn API 사용법과 예시를 알아보았다. (Link) 이번장에서는 '기계'가 더 잘 이해할 수 있는 데이터 가공법에 대해서 알아보겠다. ㅁ 데이터 인코딩 (data encoding) 컴퓨터가 이해하기 위해서는 모든 데이터의 표현이 '숫자'형으로 되어 있어야 한다. 쉽게 풀어서 이야기하면, 텍스트로 이루어진 데이터를 '숫자'로 표현하기를 원한..

데이터 분석/왕초보를 위한 머신러닝 2021. 9. 24. 17:13

Prev 1 2 3 4 5 ··· 12 Next

목록전체 글 (119)

ai-creator

티스토리툴바