본문 바로가기
Diary

2023년 제7회 빅데이터분석기사 기출문제 복기 / 시험후기

by 콜라찡 2023. 9. 23.

 

 

하.. 오늘 보고왔는데.. 정말 수학시험인줄..

일단 표준정규분포 신뢰구간 계산하는거나 z 값 계산하는건 하나도 안나왔음.

현업에 계셔서 인공지능을 접하고 계시는 분들이면 범위 밖 문제에서 가점 받으셨을 것 같고,

공무원이나 관련없는 업계에서 가산점 받으려고 보신 분들은 범위 밖 문제에서 많이 틀리셨을 것 같음.

 

보고 나온 소감은,,

난 모르겠다.. ㅠㅠ 간당간당할 것 같음ㅜㅜ

(최종합격했습니다. 관련 자료 필요하신 분은 여기로)

https://nicedeveloper.tistory.com/entry/%EC%A0%9C7%ED%9A%8C-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%ED%95%84%EA%B8%B0-%ED%95%A9%EA%B2%A9%ED%9B%84%EA%B8%B0

 

 

자격증은 항상 감 좋으면 시험 다치고 책 버리는데, 이건 왜 못버리겠지.. ㅋ

 

일단 공부는 총 20일 정도 한 것 같고, 시험치기 전 수,목,금은 각잡고 풀로 땡겼음.

책은 예문에듀의 "빅데이터 분석기사 필기" , (책은 모의고사 가장 많은 것으로 고름)

강의는 유튜브 메타코드의 8시간짜리 2배속으로 1회독 봤음.

 

책은 있었지만, 개념 안보고 문제만 풀었음.

늦게 공부를 시작해서 강의를 찾고 있었는데,

유튭 강의를 찾아서 개념은 이것만 봤고, 이 강의가 오늘로부터 2주전쯤 올라왔음.

(공부 노트한 파일도 pdf 있는데, 혹시라도 글 읽으시다가 필요하시면 드릴께욤)

 

시험 전 모의고사와 기출문제에서의 성적도 간당간당 수준이었는데,

공부할 때보다 계산문제 훠~~얼씬 많았던 것 같음..

https://www.youtube.com/watch?v=qStZPyuwgjw&list=LL&index=12

 

 

보고와서 밥만 먹고 아직 낮잠 안잤으니깐,, 기억이 좀 남아있는 상태.

지금부터 뉘앙스로만 짚어보겠음..  

 


Part 1. 빅데이터 이해

1. 가트너의 빅데이터 3V 특징으로 알맞은 것은?

  -  크기, 다양성, 속도 (나머지 보기 3개는 7V, 다른것에서 섞어서 냄)

 

2. 형식을 바꿔 저장 가능한 데이터가 아닌 것은? 

   - XML, JSON, R땡땡, RDB 

 

3. 데이터 사이언티스트로써의 스킬 중 성질이 다른것은?

   - 3개 하드스킬 나오고, 1개 소프트스킬 나왔음. 

 

4. Hadoop의 특징으로 맞는 것은?

   - 집중 저장 방식 (분산임)

   - 1번만 저장 (3번 duplicated)

   - 저장 단위가 10MB 이하다 

   - 네임노드가 노이즈나면 작동을 할 수 없다 

 

5. 개인정보 3법으로 맞지 않는 것은?

   -  개인정보보호법, 정보통신망법, 신용정보법 외 하나 나옴

 

6. CRISP-DM 분석방법 단계로 알맞은 것은?

   - 비즈니스 이해 > 데이터 이해 > 데이터 준비 > 모델링 > 평가

     (비즈니스 이해랑 데이터 이해의 순서를 바꾼 보기도 있었음)

 

7. 데이터의 일부나 전체를 잡음이나 공백으로 대체하는 방법은?

   - 데이터 마스킹

 

8. 소숫점을 반올림이나 내림 하는 데이터 처리 방법? 

  - 라운딩

 

9. 데이터 변경 시 제한을 두어 정확성을 보존하는 처리 방법? 

  - 총계, 가명, 범주화, 마스킹 

 

10. 데이터의 누락이 없어야 하는 품질 기준은?

   - 완전성 (나머지 보기는 유일성, 유효성 등등)

 

*11. 자동 샤딩 가능한 NoSQL은?

   - MongoDB (나머지는 기억 안남) 

 

12. 빅데이터 플랫폼 계층 구조 중 틀린 것은?

   - 소프트웨어, 플랫폼, 인프라 구조에 대한 설명들 나옴

 

*은 일반적인 모의고사에서 벗어났던 것들

Hadoop에서 4번 외 나머지 부가 시스템들 하나도 안나왔음. 

WKID 안나옴

암묵지, 형식지 안나옴

빅데이터로 인한 변화 (사후처리, 전수조사 등) 안나옴

빅데이터 조직 (기능, 집중, 분산) 안나옴

분석기획에 (하향식, 상향식, 최적화, 솔루션, 인사이트, 탐색) 안나옴

분석 거버넌스 안나옴

분석 마스터 플랜 안나옴

기업의 분석수준 진단 (준비도, 성숙도, 준비, 정착, 도입, 확산형) 안나옴

데이터 저장기술에서 11번 외 (병렬 DBMS, S3 등) 안나옴

데이터 거버넌스, 리터러시 안나옴

데이터 필터링, 변환 안나옴

 

Part 2. 빅데이터 탐색 (2,3,4과목 모두 연결되어 있어 어떤 파트인지 가리기 모호)

*1. 혈액형 데이터 (A, B, O, AB)에서의 결측치 보간으로 가장 적절한 값?

   - 최빈값, 기하평균을 이용한 값, 평균값 등등 

 

*2. 다음 중 틀린 것은?

Min : OO

1QR : OO

Median : OO

Mean : OO

3QR : OO

Max : OO

각각 값들이 있고, 사분위수 계산하는 IQR이나 이상치 여부에 따른 min, max 변화 알아차리는 문제 나옴

보기에서 답을 색출하려면 사분위수 계산하는 것 알아야함

 

*3. 종속변수가 없을 때 사용할 수 있는 모델링으로 적절한 것은?

   - 비지도 학습 모형 1개, 그 외 모형 3개 나옴

 

*4. 특이값 분해 (SVD)의 설명으로 틀린것은

   - 3개의 행렬로 분해됨

   - 정방 행렬만 분해 가능 

 

*5. 다음과 같은 인코딩 방법은?

Before 차원수
1
2
1
After 차원1 차원2
1 0
0 1
1 0

   - 원핫인코딩, 타겟인코딩 등

 

*6. 최빈값에 대한 설명으로 틀린 것은?

   - 결측값을 대체하기 가장 좋은 값이다.

   - 가장 빈도가 높은 값이다

   - 이상치에 영향을 덜 받는다

   - 두 개가 있을 수 있다.

 

*7, 8. 왜도 문제 2개 정도 나왔음. 한 문제는 (오른쪽으로 꼬리가 긴) 이런식으로 주는 것이 아니라 

Min : OO

1QR : OO

Median : OO

Mean : OO

3QR : OO

Max : OO 

이런 식으로 주고 꼬리가 어떻게 빠질지 추론하여 맞춰야 함. 심지어 모두 고르시오라서 보기에 대해 모두 정확하게 알아야 함.

 

9. 이산확률로 맞는 것은?

   - 정규분포, t 분포, 이항분포 등

 

*10. 중심극한정리 응용버전 나옴. 

 

*11. A 집단에 여자가 40%. A집단의 남자키 180이상이 10%, 여자키 180이상이 2% 이다. A집단의 여자 중 180이 넘을 확률은?

 

*12. 다음은 재구매에 대한 연구 결과이다. 보기 중 맞는 것을 모두 고르시오.

  상관계수 ... 유의수준
성별 1.23 ... 0.03
나이 -0.4 ... 0.14
구매경험 2.45 ... 0.02

   가. 성별은 재구매와 상관이 있다고 주장하기 유의미하므로 성별 마케팅 전략을 짠다.

   나. 나이 어쩌고

   다. 구매경험이 성별보다 재구매와 상관관계가 더 유의미하므로 어쩌고.

 

13. 이 외 개념만을 묻는 문제 아주 소수 나오고 거의 응용으로 나옴

 

Part 3. 빅데이터 모델링

 

*1. 다음 중 자연어 처리 모델이 아닌 것은?

   - BERT, Transformer, OO, YOLO

 

*2. 다음 중 Transformer와 상관 없는 것은?

   - OO, self attention, multi head attention, positional encoding

 

*3. 다음 중 맞는 것을 모두 고르시오.

  - 로지스틱회귀, 의사나무결정, 나이브베이즈 모델을 앙상블하여 모델링했다. (이건 회귀, 분류 모델 제대로 모르면..)

 

4,5. 홀드아웃에 대한 설명 중 틀린 것은? 이 외 한문제 더.

   - k-fold 보다 처리가 느리다.

 

6-8. k = 10, k-fold에 대한 설명 중 틀린 것은? (k-fold는 단독이 아니라 그냥 다른문제 보기에도 계속 나왔음..)

   - 전체 데이터의 10%를 test data로 사용한다

 

*9. Q-Q plot 그림 주고, 틀린 것을 고르라고 나옴. 정규성은 있으나 뒤로갈 수록 잔차가 벌어지는 형상이었고, 분포 그래프를 그렸을때의 모습과 log 취하면 더 좋아진다 등 통합적인 응용문제 나옴

 

10. 어쩌고어쩌고 공식 + L1 norm(절댓값) 공식 나오고 이에 해당하는 것은?

   - 라쏘, 릿지, 그 외 둘

 

11. SSR 문제 2개정도 나오고, 보기로도 계속 나옴

 

*12. 마지막 히든레이어의 노드가 2개고, 아웃풋레이어의 노드가 1개이다. 해당 조건에서의 출력값은?

H1 : 1

H2 : -2

H1에서 출력층에 연결된 weight : 2

H2에서 출력층에 연결된 weight : 3

출력층 bias = -1 

output : f(x) >= 0, f(x) 

            or f(x) <0, -1

 

13. 약한 모델의 오류에 가중치 두는 방법?

   - 부스팅

 

14. RF 가지치기 규칙에 대한 문제

 

*15. seq2seq는 (ㄱ:인코더) 와 (ㄴ:디코더) 를 가진다 라는 ㄱ,ㄴ 조합 보기 문제

 

16. 과적합 관련 문제

   - 자료의 수를 늘리면 과적합이 심화된다.

 

17. K-means 의 k를 정하기 위한 방법으로 적절한 것은?

   - 엘보우 기법

 

18. (사과 -> 배,포도) 의 향상도 구하기

 

19. 배깅 한문제

 

20. 비계층적 군집분석 관련 문제

 

21. 비모수 검정방법 개념에 대한 보기 2문제정도 나왔던듯.

 

22. 카이제곱 성질에 대한 보기 2문제정도 나왔었음.

 

(완전무작위, 무작위, 비무작위) 안나옴

단순확률대치 (핫덱, 콜드덱) 안나옴

변수 선택 방법 (래퍼, 임베디드, 전진선택, 후진제거, 단계적) 안나옴

정규화랑 일반화 (특정구간, 스케일링.. 책마다 답다르더니 결국) 안나옴

K_NN 안나옴

활성화함수 안나옴

CNN, RNN, LSTM 안나옴

연관분석 안나옴

ARIMA 안나옴

CHAID, CART 안나옴

정규성 검증 모델들 (콜모고로프, 샤피로 등) 안나옴

 

Part 4. 분석모형 평가

1,2. 혼동행렬 주고, 다음 중 맞는 것은? (혼동행렬 계산문제 2문제 정도)

    - 민감도 : 얼마, 정밀도 : 얼마, 특이도 : 얼마 (이렇게 나와서 다 계산할 줄 알아야함)

 

3. ROC 커브에 대한 설명 중 틀린 것은?

   - X축은 specificity, Y축은 Recall 이다.

 

4. 다음 중 틀린 것은?

   - 모델이 복잡하면 정확도가 올라간다

 

5. 누적 막대 그래프의 설명으로 틀린것은?

 

*6. 두 자동차 회사의 차종 현황에 대한 시각화 방법으로 적절한 것?

   - 보기에 모자이크 플롯이 나왔음

 

7. 시각화 방법 중 모든 특성이 각 축을 가지고 한눈에 비교 가능한 것?

   - 스타 차트, 평행 좌표계, 막대그래프 등

 

optimizer (adam, sgd 등) 안나옴

인포그래픽 안나옴

비즈니스기여도 (NPV, IRR 등) 안나옴

분석결과 모니터링, 리모델링 안나옴

 


 

이랬던 것 같다. 

복기하다보니 part2,3가 많이 어려웠었다.

왜냐하면, 개념을 묻는 문제가 거의 없이 그래프나 표를 주고 활용하는 문제들이 대부분이었고,

보기에서 "모두 고르시오" 를 시전하면서 정답 확률을 엄청 낮췄다.

"오른쪽으로 꼬리가 긴" 이라고 하거나, "군집분석" 과 같이 명확하게 제시하는 문제들이 아니고 이를 추론하게 했다.

뭔가 문자로 실기를 본 느낌에 가깝다고 해야할 것 같다.

 

문제풀이 시간은, 평소 모의고사때 30분, 본 시험에 45분 정도 걸렸고,

검토하며 3문제 정도 답안을 수정하였다.

더 빨리 퇴실하며 뛰쳐나가고 싶었지만,, ㅠㅠ

혹시 모를 가채점을 위해 80개의 답을 외운다고 좀 더 앉아있었다.

튀어나오자마자 복도에서 외운답부터 다다다다다 적음 ㅋㅋㅋㅋㅋㅋㅋ

 

가채점 답 아시는분,, 저 좀 알려주세요..

2,3과목.. 무섭.. 항상 1,4과목이 문제였는데 이게 무슨일이람.. 

 

10/6 사전점수 발표, 10/13 결과발표임.

다시 공부하기 싫으니깐ㅠㅠ 붙었으면 좋겠당 엉엉

 

31414/41431/14131/42431

44144/33311/11422/14234

41312/34233/11133/34144

34142/43433/43234/31434

 

 

[Reference]

내가 공부한 youtube 강의. 이때까지 들었던 컴터 강의 중 젤 전달력 좋으신 강사님인듯. 강의자료 너무 compact하고, 너무 핵심만 있어 이해못하는 분들도 있겠지만, 나에겐 너무 딱임. 만약 붙으면 실기강의도 볼꺼임. 

(덕분에 지름길로 잘 공부했어요, 감사해요 선생님! 가채점 답도 올려주시면 안될까욤 ㅋㅋㅋ)

 

https://www.youtube.com/watch?v=qStZPyuwgjw&list=LL&index=12 

 

728x90

'Diary' 카테고리의 다른 글

데이터 사이언티스트로써의 한 달.  (0) 2023.12.05
제7회 빅데이터 분석기사 필기 합격후기  (0) 2023.10.06
Aiffelthon의 기록  (0) 2023.05.06
Chat GPT-4 에게 어려운 질문을 하면?  (0) 2023.03.24
데이터 수집처  (0) 2023.03.11

댓글