본문 바로가기
728x90

Study (Data Science)121

활성화함수 종류 vanishing gradient 현상이 발생한다. (0과 1에 결과값이 포화 saturate 된다. 포화된다는 말 자체가 kill the gradient. 기울기가 죽어버리면 에포크를 많이 돌려도 더이상 학습되지 않는다. ) exp 함수 사용 시 비용이 크다. 요즘은 ReLU를 더 많이 사용한다. Hyperbolic Tangent : 쌍곡선 함수 중 하나. (쌍곡선함수 hyperbolic tuction : 일반 삼각함수와 유사한 성질을 갖는 함수지만 삼각함수와 달리 주기함수는 아니다. tanh 함수는 함수의 중심값을 0으로 옮겨 sigmoid의 최적화 과정이 느려지는 문제를 해결. vanishing gradient 문제 존재. (값이 1, -1에 포화됨) sigmoid, tanh 함수에 비해 학습이 빠.. 2022. 12. 29.
인공지능, 머신러닝 그리고 딥러닝 인공지능 사람이 직접 프로그래밍 하지 않고, 기계가 자체 규칙 시스템을 구축하는 과학 머신러닝 데이터를 통해 스스로 학습하는 방법론. 데이터를 분석, 패턴학습, 판단,예측을 수행함. 기존의 머신러닝은 데이터를 입력하기 위해 사람이 직접 피처(Feature)를 가공한다. 데이터의 여러가지 표현방식 중 주로 '표' 형태로 된 정형 데이터를 처리하도록 설계되었기 때문. 그래서 데이터 전처리나, 좋은 피쳐를 조합하여 만들거나 하는 피처 엔지니어링(Feature Engineering) 이 중요하다. 그만큼 머신러닝은 더 좋은 모델을 만들기 위해 '사람의 개입'이 많다. 딥러닝 머신러닝의 하위 집합이며, 그 과정의 모델 형태가 신경망인 방법론. Deep learning is inspired by neural net.. 2022. 12. 27.
TF-IDF TF_IDF (TF * IDF) A : " a new car, used car, car review" B : "A friend in need is a friend indeed." Term Frequency Score 어떤단어가 많이 출현할 수록 그 문서와의 관계가 높을 것이다. = 가장 중요한 단어다. 단점 : A friend in need is a friend indeed. 경우, a 와 friend의 tf score가 같아 연관성을 나타내기 부족했음 IDF log (총문장의 갯수 / 이 단어가 출현한 문장의 갯수) 2022. 12. 19.
시계열 개념 / ADF Test / 시계열 분해 /ARIMA 시계열 예측(Time-Series Prediction)을 다루는 여러 가지 통계적 기법 ARIMA(Auto-regressive Integrated Moving Average) 페이스북 Prophet LSTM Layer 시계열 예측의 예시 지금까지의 주가 변화를 바탕으로 다음 주가 변동 예측 특정 지역의 기후데이터를 바탕으로 내일의 온도 변화 예측 공장 센터 데이터 변화 이력을 토대로 이상 발생 예측 예측을 위한 전제 2가지 과거의 데이터에 일정한 패턴이 발견된다. 과거의 패턴은 미래에도 동일하게 반복될 것이다. >>>> 즉, 안정적(Stationary) 데이터에 대해서만 미래 예측이 가능하다. 안정적(Stationary) : 시계열 데이터의 통계적 특성이 변하지 않는다 / 시계열 데이터를 만들어내는 시간.. 2022. 12. 18.
Loss / Metric Loss : 모델 학습시 학습데이터(train data) 를 바탕으로 계산되어, 모델의 파라미터 업데이트에 활용되는 함수 Metric : 모델 학습 종료 후 테스트데이터(test data) 를 바탕으로 계산되어, 학습된 모델의 성능을 평가하는데 활용되는 함수 왜 loss와 metric를 다르게 적용하는가? 분류모델일 경우 loss : crossentropy를 써서 학습시키고, metric : accuracy로 성능을 평가한다. 회귀모델일 경우 loss와 metrics에 RMSE를 둘 다 쓰기도 하고, 또 mse, mae 등 여러가지를 쓴다. 다르게 쓰는 이유는, loss는 학습을 위해 쓰는 것이기 때문에 학습을 잘 시킬 수 있는 방법을 아는 친구가 적절하고, (crossentropy는 continuous.. 2022. 12. 15.
RFM(Recency, Frequency, Monetary) RFM(Recency, Frequency, Monetary)분석 가장 최근 가장 빈번 가장 많은 금액 을 구매한 고객 을 기준으로 고객에게 등급을 부여하는 방식 데이터 준비 Sales 데이터 불러오기 총 log 고객수 : 52672 (unique ID count) Purchase 고객 (27682명)만 sales_data 변수로 지정 RFM dataframe 생성 열 생성 : RFM으로 사용할 columns 생성 후 RFM_data 변수로 지정 RFM_data = sales_data.groupby(['ID']).agg({'Interval':'min','ID': 'count', 'Payment': 'sum'}) 구매 고객 중 RFM 데이터 사용 가능한 고객수 : 5267명 R : ID별 오늘 - 접속시간 .. 2022. 12. 14.
EDA 노트 상관계수의 절대값이 높다고 해서, 그 요소가 result의 원인이 되는 것은 아니다. breast cancer에서 softness error와 악성간의 상관계수지수가 높긴 했지만, 그렇다고 softness error가 암의 원인은 아니다. 시각화하는 seaborn의 유형을 잘 고르면 내가 전달하고 싶은 말을 효과적으로 할 수 있다. seaborn 유형을 더 많이 이해해야할 필요가 있다. bike 3시 예측하는 eda에서 나는 시간별, 온도, 습도에 따른 count 비교를 하고 싶었지만, 그 유형을 찾는데 (violin) 많은 시간이 걸렸고, 더불어 시간적 제한으로 결국 구현해보지 못하고 제출했다. duplicated는 전체로, index로 쓸 column 으로 각각 실행해야한다. 이상치 (Outlier).. 2022. 12. 14.
이미지처리 Basic 영상처리 사용목적에 따라 적절히 처리하여 개선된 영상을 생성하는것 노이즈제거, 대비(contrast)개선, 관심영역(region of interest)강조,영역분할(segmentation), 압축 및 저장 저수준 : 영상 획득, 향상, 복원 ,변환처리, 압축 고수준 (Computer Vision) : 영상 분할, 표현, 인식 Color Space : 색을 표현하는 다양한 방식. 색 공간 Channel : 각 컬러스페이스를 구성하는 단일 축 이미지 저장방식 raster, bitmap : 각 점 하나하나의 색상 값을 저장하는 방식. (r, g, b) (255,255,255). 확대시 깨짐 vector : 상대적인 점의 선의 위치를 방적식으로 기록 후 확대 및 축소할 때 각 픽셀의 값을 재계산하여 깨짐이 없음.. 2022. 12. 12.
상관계수, 경사하강법, 손실함수, RMSE, 경사하강법, 선형회귀 Correlation does not imply causation 상관은 인과를 함축하지 않는다 상관계수 한 변수가 커짐에 따라 다른 변수가 작아지는 관계인 경우, 두 변수는 '상관 관계가 있다'고 하고, 그 관계된 정도는 '피어슨(Pearson) 상관 계수'라고 함. model.fit 모델을 학습시킨다 = 모델의 정확도를 가장 높일 수 있는 최적의 "매개변수(가중치,Weight)" , 혹은 "파라미터(편향,Bias)" 를 찾는다 model.compile 손실함수(loss function) or 비용함수(cost function) predicted y 와 real y 값 간의 차이를 나타내는 함수. 값이 크면 그만큼 둘의 거리가 멀다는 뜻으로, 정확하지 않다는 뜻. 손실값은 작을수록 좋은것! 1) 모델이.. 2022. 12. 9.
CSV, XML, JSON 모듈(module) : 파이썬으로 만든 코드가 들어간 파일 .py 패키지(package) : 기능적으로 동일하거나 동일한 결과를 만드는 모듈들의 집합 또는 폴더. 종종 라이브러리라고도 불림 라이브러리(library) : 모듈과 패키지의 집합. 패키지보다 포괄적인 개념이나 패키지와 혼용되어 사용되기도 함. sys os glob PIP(Package Installer for Python) : 패키지 관리자로 파이썬을 설치하면 기본으로 설치됨 PyPA(Python Packaging Authority) : 파이선 패키지를 관리하고 유지하는 그룹 PyPI(The Python Package Index) : 파이썬 패키지들의 저장소 sys.path : 현재 폴더와 파이썬 모듈들이 저장되는 위치를 리스트 형태로 반환 .. 2022. 12. 8.
728x90