본문 바로가기
728x90

Study (Data Science)/ML19

L1, L2 (loss, regularization, norm) L1 loss : MAE 실제값 yi 와 예측값 f(xi)의 편차의 절댓값의 합 L2 loss : MSE 실제값 yi 와 예측값 f(xi)의 편차의 제곱의 합 Robust : L1 > L2 L1이 outlier에 더 robust 하다. (=loss function이 영향을 덜 받는다) 왜냐하면, L2는 편차에 제곱까지 해버리기 때문에 이상치가 나오면 그 편차를 제곱해서 그 영향이 클 수 밖에 없다. outlier가 무시되길 원하면 비교적 영향을 작게받는 L1 loss가 적합하다. Stablity : L2 > L1 L2 loss는 smooth한 convex 형태의 함수로 그래프또한 원형. 그래서 모든 점에서 미분이 가능하다. 그렇기 때문에 미분이 전부인 딥러닝에서는 L2가 계산에 더 안정적이라고 본다. S.. 2023. 3. 12.
분류성능평가지표 : F1-score , Accuracy, ROC curve, AUC curve 2022.12.07 - [ML] - 오차행렬, FP, FN, F-score, Threshold Confusion Matrix TN : 4 / FP : 1 FN : 1 / TP : 2 from sklearn.metrics import confusion_matrix # assume y_true and y_pred are your true and predicted labels, respectively y_true = [0, 1, 1, 0, 1, 1, 0, 0] y_pred = [0, 1, 0, 0, 1, 1, 0, 1] cm = confusion_matrix(y_true, y_pred) >> array([[4, 1], [1, 2]]) Precision이나 Recall은 모두 실제 Positive인 정답을 모델.. 2023. 2. 20.
나이브 베이즈 이론 연습문제 CASE 1 CASE 2 총 8개의 메일 중 4개의 메일이 스팸 메일이므로 P(spam) = 4/8 = 1/2 총 8개의 메일 중 3개의 메일이 coupon이라는 단어를 포함하므로 P(coupon) = 3/8 총 4개의 스팸 메일 중 2개의 메일이 coupon이라는 단어를 포함하므로 P(coupon | spam) = 2/4 = 1/2 P(coupon | spam)과 P(spam)를 곱한 후에 P(coupon)로 나눠줍니다. 정답은 2/3 즉, 66.7%입니다. 2023. 2. 20.
RFM(Recency, Frequency, Monetary) RFM(Recency, Frequency, Monetary)분석 가장 최근 가장 빈번 가장 많은 금액 을 구매한 고객 을 기준으로 고객에게 등급을 부여하는 방식 데이터 준비 Sales 데이터 불러오기 총 log 고객수 : 52672 (unique ID count) Purchase 고객 (27682명)만 sales_data 변수로 지정 RFM dataframe 생성 열 생성 : RFM으로 사용할 columns 생성 후 RFM_data 변수로 지정 RFM_data = sales_data.groupby(['ID']).agg({'Interval':'min','ID': 'count', 'Payment': 'sum'}) 구매 고객 중 RFM 데이터 사용 가능한 고객수 : 5267명 R : ID별 오늘 - 접속시간 .. 2022. 12. 14.
EDA 노트 상관계수의 절대값이 높다고 해서, 그 요소가 result의 원인이 되는 것은 아니다. breast cancer에서 softness error와 악성간의 상관계수지수가 높긴 했지만, 그렇다고 softness error가 암의 원인은 아니다. 시각화하는 seaborn의 유형을 잘 고르면 내가 전달하고 싶은 말을 효과적으로 할 수 있다. seaborn 유형을 더 많이 이해해야할 필요가 있다. bike 3시 예측하는 eda에서 나는 시간별, 온도, 습도에 따른 count 비교를 하고 싶었지만, 그 유형을 찾는데 (violin) 많은 시간이 걸렸고, 더불어 시간적 제한으로 결국 구현해보지 못하고 제출했다. duplicated는 전체로, index로 쓸 column 으로 각각 실행해야한다. 이상치 (Outlier).. 2022. 12. 14.
이미지처리 Basic 영상처리 사용목적에 따라 적절히 처리하여 개선된 영상을 생성하는것 노이즈제거, 대비(contrast)개선, 관심영역(region of interest)강조,영역분할(segmentation), 압축 및 저장 저수준 : 영상 획득, 향상, 복원 ,변환처리, 압축 고수준 (Computer Vision) : 영상 분할, 표현, 인식 Color Space : 색을 표현하는 다양한 방식. 색 공간 Channel : 각 컬러스페이스를 구성하는 단일 축 이미지 저장방식 raster, bitmap : 각 점 하나하나의 색상 값을 저장하는 방식. (r, g, b) (255,255,255). 확대시 깨짐 vector : 상대적인 점의 선의 위치를 방적식으로 기록 후 확대 및 축소할 때 각 픽셀의 값을 재계산하여 깨짐이 없음.. 2022. 12. 12.
상관계수, 경사하강법, 손실함수, RMSE, 경사하강법, 선형회귀 Correlation does not imply causation 상관은 인과를 함축하지 않는다 상관계수 한 변수가 커짐에 따라 다른 변수가 작아지는 관계인 경우, 두 변수는 '상관 관계가 있다'고 하고, 그 관계된 정도는 '피어슨(Pearson) 상관 계수'라고 함. model.fit 모델을 학습시킨다 = 모델의 정확도를 가장 높일 수 있는 최적의 "매개변수(가중치,Weight)" , 혹은 "파라미터(편향,Bias)" 를 찾는다 model.compile 손실함수(loss function) or 비용함수(cost function) predicted y 와 real y 값 간의 차이를 나타내는 함수. 값이 크면 그만큼 둘의 거리가 멀다는 뜻으로, 정확하지 않다는 뜻. 손실값은 작을수록 좋은것! 1) 모델이.. 2022. 12. 9.
CSV, XML, JSON 모듈(module) : 파이썬으로 만든 코드가 들어간 파일 .py 패키지(package) : 기능적으로 동일하거나 동일한 결과를 만드는 모듈들의 집합 또는 폴더. 종종 라이브러리라고도 불림 라이브러리(library) : 모듈과 패키지의 집합. 패키지보다 포괄적인 개념이나 패키지와 혼용되어 사용되기도 함. sys os glob PIP(Package Installer for Python) : 패키지 관리자로 파이썬을 설치하면 기본으로 설치됨 PyPA(Python Packaging Authority) : 파이선 패키지를 관리하고 유지하는 그룹 PyPI(The Python Package Index) : 파이썬 패키지들의 저장소 sys.path : 현재 폴더와 파이썬 모듈들이 저장되는 위치를 리스트 형태로 반환 .. 2022. 12. 8.
문자열다루기, 정규표현식 인코딩과 유니코드 인코딩 (encoding): 문자열을 바이트로 변환하는 과정 디코딩 (decoding) : 바이트를 문자열로 변환하는 과정 유니코드(Unicode) : ISO(International Standards Organization); 전 세계 문자를 모두 표시할 수 있는 표준 코드 UTF-8, UTF-16 : 유니코드를 표현하는 인코딩 방식들. 인코딩시 최소 8bit 혹은 16bit가 필요한가의 의미. 대세는 UTF-8이다. UTF-8은 문자 표현 시 1~4bytes 가 필요하고, UTF-16는 2~4bytes가 필요하다. 저장용량이 중요할 때에 코드들의 문자에 따라 잘 선택해줘야 한다. 영문은 UTF-8일 때 1byte, UTF-16일때 2bytes 이고, 한글은 UTF-8일 때 3byte.. 2022. 12. 8.
Matplotlib, Seaborn cheatsheet https://deeplearning.fr/wp-content/uploads/2020/12/0_Cfo6qfxirL4STHTY1.png https://martinnormark.com/a-simple-cheat-sheet-for-seaborn-data-visualization-2/ A simple cheat sheet for Seaborn Data Visualization Just gonna put this out here, courtesy of Kaggle's Data Visualization course [https://www.kaggle.com/learn/data-visualization]. It is a super simple description of the different p.. 2022. 12. 7.
728x90