일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Python
- STT
- 머신러닝
- 파이썬게임만들기
- 크롤링
- 소스코드
- 파이썬독학
- 웹크롤링
- 딥러닝
- 파이썬간단한게임
- 음성인식
- Ai
- 자동화
- Selenium
- 구글
- 인공지능
- 간단한파이썬게임
- kakao
- 파이썬게임
- 구글일정
- 빅데이터
- Quickstart
- 업무자동화
- 카카오
- 기본기
- OpenAPI
- 파이썬
- 독학
- 구글캘린더
- 오늘배워오늘쓰는
- Today
- Total
목록데이터 분석 (16)
ai-creator
ㅁ Pycaret이란? - pycaret이란 AutoML을 하게 해주는 파이썬 라이브러리 - scikit-learn 패키지를 기반으로 하고 있으며 Classification, Regression, Clustering, Anomaly Detection 등등 다양한 모델을 지원 - 공식문서에 설명이 매우 잘 되어있고, 몇 줄의 코드로 쉽게 구현이 가능하여 유용하게 사용할 수 있음 ㅁ Pycaret API (참고) pycaret 문서 https://pycaret.readthedocs.io/en/latest/api/classification.html Classification — pycaret 2.2.0 documentation Degree of polynomial features. For example, if..
1. 텍스트 분석 - Clustering 앞에서 배운 분류와 마찬가지로, input 데이터의 최초 형태만 다른 것이지 input feature로 만들면 동일하게 clustering 알고리즘을 적용하여 분석할 수 있다. 2. 군집화 실습 (Opinion Review) 실습 : 문집 군집화 실습 - 소스 코드 : (Link) - 데이터셋 : (Link) 2.1) 데이터 설명 51개의 텍스트 파일로 구성 각 파일은 Tripadvisor(호텔), Edmunds.com(자동차), Amazon.com(전자제품) 사이트에서 가져온 리뷰 문서 문서유형을 크게 보면, 전자제품 / 자동차 / 호텔로 되어 있음 전자제품은 네비게이션 / 에어팟 / 킨들 / 랩탑 컴퓨터 등 Amazon.com에서 Garmin nuvi라는 차량..
ㅁ 텍스트 분석 주요 영역 1) 텍스트 분류 2) 감정 분석 3) 텍스트 요약 4) 텍스트 군집화와 유사도 측정 ㅁ 텍스트분석 머신러닝 수행 프로세스 "text문서 -> 가공(전처리) -> feature -> ml학습 -> 예측 -> 평가" 과정은 다른 ML 프로세스와 동일 가공(전처리) 1) 클린징(cleansing) : 텍스트 분석에 방해가 되는 불필요한 문자, 기호등을 제거 (ex. HTML, XML 태그) 2) 토큰화(tokeniation) : 문장 토큰화, 단어 토큰화, n-gram 3) 필터링, 스톱워드 제거, 철자 수정 : 분석에 큰 의미가 없는 단어(ex. a, the, is, will), 잘못된 철자 수정 4) stemming / lemmatization : 어근(단어 원형) 추출 (비교..
ㅁ 들어가기 ㅁ 군집화 알고리즘 종류 ㅁ 군집 평가 ㅁ 군집화 알고리즘 - Kmeans ㅁ 군집화 알고리즘 - DBSCAN ㅁ 들어가기 우리가 트럼프 카드를 군집을 만들 때 군집의 수를 과연 둘로 하는 것이 좋을까, 넷으로 하는 게 좋을까? 색깔로 하면 두 개가 될 것이고, 우리가 모양으로 하면 네 개로 나눌 수 있는데, 어떤 것이 좋다는 정답이 존재하는 것은 아니다! 군집화에 가장 직관적인 예시는 MBTI라고 볼 수 있다. 다수개의 질문을 통해 인간의 성격을 16가지로 군집을 지어 놓은 것이다. 각 군집마다 네이밍을 하고(ex. 세상의 소금형) 그 특징을 설명하고 있다. 우리가 MBTI를 하면서 본인의성격유형을 파악하고, 공감을 하고 재밌어 한다. 하지만 여기서 끝나지 않는다. 이성에게 호감을 갖는 방..
회귀를 통해서 회귀계수를 산출하게 되면, 회귀계수는 각 피쳐에 대한 설명력으로 이해할 수 있다. y = 0.5x + 1 이라는 회귀식이 있다면, 'y를 예측하는데 x의 값이 0.5로 영향을 미치는 구나' 하고 말이다. 즉, x가 2->3으로 1증가를 하면 y는 0.5 상승하겠구나 라고 생각할 수 있다. 로지스틱 회귀는 회귀의 이러한 장점을 살린 분류 알고리즘이다. 로지스틱 회귀가 선형회귀와 다른 점은 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(sigmoid)함수 최적선을 찾고 이 시그모이드 함수의 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것이다. 로지스틱 회귀는 가볍고 빠르지만, 이진 분류 예측성능도 뛰어나다. 이 때문에 로지스틱 회귀를 이진 분류의 기본 모델로 사용하..
ㅁ 선형 회귀란? 지도학습은 크게 2가지 유형으로 볼 수 있습니다. 1) 분류 2) 회귀 두가지 기법의 가장 큰 차이는 다음과 같다. 1) 분류 : 예측값이 이산형 클래스 값 2) 회귀 : 예측값이 연속형 숫자 값 데이터를 가장 잘 설명하는 최적의 회귀식를 찾는다. 회귀는 여러개의 독립변수(x)와 한개의 종속변수(y)의 상관관계를 모델링하는 기법을 통칭한다. w0, w1, w2.... 를 회귀계수(regression coefficients)라고하며, 회귀 예측의 핵습은 주어진 피쳐(x, input, 독립변수)와 결정값(y, output, 종속변수)값 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것이다. 독립변수 1개 단일 회귀 독립변수 여러개 다중 회귀 회귀계수의 결합 선형 선형회귀 회귀계수의 결합 ..
목차 1. 앙상블 (ensemble) 2. Bagging 2-1) Random Foreset 3. Boosting 4. Staking 1. 앙상블(ensemble) - 여러개의 분류기(classifier)를 생성하고, 그 예측을 결합함으로써 더 정확한 최종 예측을 도출하는 기법 - 어려운 문제를 풀기위해 여러명의 전문가로 구성해 다양한 의견을 수렴하고 결정하는 방법과 유사 1-1) 앙상블 유형 보팅 (Voting) : 서로 다른 알고리즘을 가진 분류기를 결합 배깅 (Bagging, Bootstrap AGGregatING) : 모두 같은 유형의 알고리즘을 사용하지만, 데이터 샘플링(sampling with replacement, 복원추출)을 서로 다르게 가져가면서 보팅을 수행, RandomForest 데이..
- 하이퍼파라미터는 머신러닝 알고리즘을 구성하는 주요 구성 요소 이 값을 조정해 알고리즘의 예측 성능을 개선 할 수 있음 Sklearn API 교차검증과 최적의 하이퍼파라메터 튜닝을 한번에 할 수 있다. 이를 위해 sklearn에서는 API를 지원한다. 목적 import API 교차검증 및 하이퍼파라메터 튜닝 from sklearn.model_selection import GridSearchCV DecisionTreeClassifier() 코드에서 보면, import pandas as pd from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.tree import Deci..
지난 시간 복습 더보기 분류와 회귀 비교 분류알고리즘 다양하다. 나이브 베이즈 로지스틱 회귀 의사결정 나무 서포트 벡터 머신 최소 근접 알고리즘 신경망 앙상블 등이 있다. 이번 장에서는 decision tree, 의사결정 나무에 대해서 알아보겠다. ㅁ Decision Tree (의사결정나무) decision tree는 스무고개 게임과 유사하며 룰 기반의 프로그램에 적용되는 if-else 를 자동으로 찾아내 예측을 위한 규칙이라고 이해하면 어렵지 않을 것이다. 가능한한 적은 결정 노드로 높은 예측 정확도를 가지려면 데이터를 분류할때 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정노드의 규칙이 정해져야 합니다. 1) 정보이득 (Gain Information) - 정보이득 지수 = 1-엔트로피 지..
class가 3개 이상인 경우 다중분류라고 하는데, 이때의 confusion matrix와 recall, precision을 구해보자. 원리는 binary 분류와 동일하다. 기본 개념이 없다면, binary분류부터 확인하고 온다. > https://ai-creator.tistory.com/578?category=875603 1) 다중분류 고양기, 강아지, 물고기 이렇게 3종류를 분류하는 알고리즘이 있다. 그리고, 예측값과 실제값이 아래와 같다고 가정해보자. 다중 클래스는 OvR(One-vs.-Rest) 문제로 자기 클래스는 Positive, 나머지는 모두 Negative로 하여 계산을 하면 된다. 2) Precision, Recall 구하기 지난 시간에 accuracy, precision, recall을..