안녕하세요 2022.12월 제 5회 빅데이터분석기사-실기 시험 합격자 입니다.
제가 직접 공부를 하며 느꼈던 내용 및 빅데이터분석기사 실기 시험을 보면서 유의해야될 사항에 대해 말씀드리겠습니다.
우선, 빅데이터분석기사는 시행된지 5회밖에 되지 않은 시험으로 아직 뭔가 clear한 시험이 아닌 느낌을 받을 수 있습니다.
그렇기 때문에 답안 작성은 아무도 트집 잡을 수 없게 최대한 군더더기 없고 정확하게 작성하는게 좋습니다.
1. 답안 작성은 깔끔하고 정확하게 작성하라
단답형의 경우 한 문제당 3점씩 총 10문제가 나오는데 그 중 개념을 설명해놓고 이게 무엇인지 쓰시오 라는 문제가 나오는데 이 경우 철자를 정확하게 작성하여야 합니다.
영어로 써야하는 경우도 생길 수 있는데 이 경우 스펠링을 정확하게 쓰셔야 합니다. 예를들어 Leaky Relu가 답인 경우 Reaky RELU라고 쓰면 부분점수도 없이 0점처리 되게 됩니다. 또한, Oversampling이 답인데 스펠링을 하나라도 틀리면 0점처리가 되기 떄문에 스펠링이 헷갈린다 싶으면 한글로 오버샘플링이라고 적는게 더 나을 수 있습니다. 그래서 공부하실 때 확실하게 공부하시는게 좋습니다.
2. 계산식도 눈에 익혀가는게 좋다.
단답형 문제 중에 f1_score를 구하는 문제가 실제 기출에 나왔습니다. f1_score를 계산하려면 f1_score를 구하는 식을 알아야 되겠죠? 물론, python 코드를 활용해서 구할 수도 있지만 계산식 정도는 외워가는게 좋습니다.
RMSE를 구하는 문제도 나왔는데 RMSE가 무엇을 의미하는지 모른다면 틀리는 문제였으니 이정도 개념의 식정도는 알아두는게 좋습니다.
3. 문제를 꼼꼼히 읽고 문제에서 시키는대로 해라
내가 이 문제를 푸는 방법을 다 알더라도 출제자는 A를 구하시오 라고 했는데 나는 B를 구하면 틀리게 되는 것입니다.
즉, 출제자의 의도를 잘 파악하여 출제자가 시키는대로 해야 합니다.
(1) 답안은 웬만하면 정수형으로 작성하라
'정수로 출력하세요' 라고 명시를 해주는 경우에는 무조건 '정수'로 출력해야 합니다. 계산한 결과값이 2.0이 나왔다면 int처리해줘서 2로 출력해서 제출해야 합니다. 2.0으로 제출하면 감점 당하게 되니 유의하시기 바랍니다.
정수로 출력하라고 명시를 안해주는 경우에도 만약 2.0이 답으로 나왔다고 하면 정수처리하여 2로 답안을 제출하는게 더 안전한 길입니다.
(2) 답안에 대해서 print 함수로 출력하자
작업형 1유형 문제를 다 풀어놓고 마지막에 print함수로 출력처리를 안하면 문제를 다 풀어놓고 점수를 얻지 못하는 불상사가 생길 수 있습니다. 그런 아쉬운 경우가 생기지 않도록 꼭 마지막에 print처리를 해주는걸 까먹지 마시기 바랍니다.
또한, 작업형 1유형을 풀 때, 내가 데이터 전처리를 통해서 구하진 못했지만 어떤 주어진 데이터에서 노가다를 이용해 답안을 구할 '수'도 있습니다. 어떤 데이터에서 나이가 10살 이하인 사람의 수를 구하라 라고 했다고 가정해봅시다. 내가 10살 이하인 사람의 수를 python코드를 통해 구하는 방법을 모르지만 데이터에서 직접 수를 세어보니 5명이라고 한다면 print(5)로 답안을 제출하면 그건 정답처리가 됩니다.
4. 코딩 중간중간에 print()를 통해 결과를 확인하는 습관을 들이자.
시험환경은 구름 EDU 클라우드 환경으로 일반적인 코랩이나 주피터 노트북같은 환경과는 다르게 한줄 한줄 실행하며 코드를 확인할 수 없습니다. 즉, 코드를 작성하면 모든 코드가 한번에 수행되게 되므로 중간 결과를 알기 어려운 부분이 있는데 내가 제대로 코딩을 하고 있는지 또한 알기 어렵습니다.
이 때는 중간중간에 print()함수를 이용하여 '실행'을 눌러서 결과를 확인 해볼 수 있습니다.
5. 작업형 제2유형에 대한 팁
작업형 제2유형은 한 문제지만 40점을 차지하는 문제로 이 문제를 풀어야만 합격을 할 수 있습니다. 물론 이 문제를 다 틀리고 다른문제를 다 맞추면 60점으로 합격할 수 있지만, 그게 훨씬 어렵습니다.
그래서 빅데이터분석기사 실기 합격을 위해서는 제2유형을 무조건 풀어야 하는데요 제2유형은 어렵게 못낸다는 점을 잘 활용하면 합격확률을 높일 수 있습니다.
문제에서도 가이드가 되겠지만 EDA(시각화)는 할 필요 없으며 모델링 및 예측에 걸리는 시간이 1분 이하로 걸려야 하기 때문에 어려운 문제는 낼 수가 없습니다. 즉, 기본 코드를 이용해서 풀 수 있는 문제를 낼 수 밖에 없다는 것이죠.
그래서 다음 글에서도 다루겠지만, 데이터 수집 -> 데이터 전처리 -> 모델링 -> 예측 & 평가 의 일련의 과정에서 가장 기본적인 코드들만 알고 가신다면 누구든 풀 수 있는 문제가 출제된다는 것입니다. 적어도 향후 몇년간은 그럴 것이라 생각됩니다.
6. 분류, 회귀 모델 하나씩 알고가자
현재까지 5회의 시험 중 대부분의 문제는 분류 문제가 나왔지만 5회는 '회귀' 문제가 나왔습니다. 그래서 분류문제만 공부를 해왔던 사람들은 적잖히 당황했을 수도 있는데요. 문제는 출제자의 마음이기 때문에 분류, 회귀 모델 중 어떤 것이 나올지는 그 누구도 모릅니다. 그러므로 분류문제가 나왔을 때 어떤 모델을 사용하고, 어떤 지표로 평가를 하는지 회귀문제에서는 어떤 모델을 사용하고, 어떤 지표로 평가를 하는지 등을 알고 가시는게 좋습니다. 분류는 보통뒤에 classifier가 붙고, f1_score등으로 평가를 하며 회귀는 뒤에 regressor가 붙고 RMSE등의 값으로 평가를 합니다.
7. 평가지표는 높을수록 좋다.
작업형 2유형은 제출한 엑셀파일과 채점관들이 갖고 있는 TEST데이터와 비교를 하여 평가지표를 계산하여 그 평가지표로 채점을 합니다. 여기서 그 평가지표가 얼마 이상이 되어야 한다는 기준은 따로 알려주지 않습니다만 우리는 경험적으로 알 수 있습니다. 웬만한 평가지표 이상이면 만점을 주는 경우가 많지만 웬만한 평가지표라는 명확한 기준이 없기 때문에 안전하게 최대한 평가지표의 값을 좋게 만드는 최상의 모델을 제출하는게 좋습니다.
8. 파라미터/하이퍼파라미터 튜닝을 잘 하자
위 7번과도 유사한 내용이긴 한데 평가지표를 좋게하는 최상의 모델을 만들기 위해서 하이퍼파라미터 튜닝을 잘 사용하시면 유용합니다. 예를들어 DecisionTree를 사용한다고 하면 max_depth가 얼마인지 , max_features가 얼마인지, 등등을 잘 조절하시면 최적의 모델링 값을 찾으실 수 있으십니다. GridSearch를 사용하셔도 되지만 수행시간이 1분이내여야 하기 때문에 여러가지 조합을 다 해보긴 어려울 수 있습니다. 또한, 하이퍼파라미터 튜닝도 최적의 모델링 값을 찾을 때 유용한 방법입니다. 대표적인 하이퍼파라미터로는 random_state가 있는데요 random_state를 적용할 수 있는 부분은 train_test_split부분과 모델링 부분에서 사용하실 수 있습니다. random_state를 for문으로 작성해서 확인해보시고 좋은 성능지표를 가지는 random_state를 선택하시면 좋은 결과를 얻으실 수 있으실것입니다.
9. dir과 help 함수를 잘 활용하자
시험장에서 갑자기 어떤 함수의 이름이 생각이 안날 때가 있을 수 있고 이 함수를 어떻게 사용하는지 생각이 안날 때가 있습니다. 그럴 때 사용할 수 있는 것이 dir()과 help()함수입니다.
dir(클래스)를 입력할 경우 해당 클래스에 내장되어 있는 함수들을 리스트형태로 나타내주어 거기에 내가 원하는 함수를 확인하실 수 있습니다.
help(함수)를 입력할 경우 해당 함수를 어떻게 사용하는지에 대한 설명이 아주 자세하게 나와있으니 시험장에서 유용하게 사용하실 수 있으십니다.
10. 시간관리를 잘 하자
실기시험은 문제 수가 많지 않기 때문에 시간이 부족할 일은 거의 없을 수 있지만 막히는 문제에서 너무 문제를 오래 잡다 보면 뒤에 문제를 못풀게 되는 경우가 생길 수 있습니다. 그러므로 시간분배를 잘 하는 것이 좋습니다.
우선 단답형의 경우는 1분이내로 생각 안나면 모르는 문제이기 때문에 빠르게 빠르게 넘어가는것이 좋습니다. 오래 생각한다고 생각나지 않는 경우가 많고 나중에 뒤에 문제 풀다가 생각날 수도 있기 때문입니다. 아는 문제를 완벽하게 다 풀고, 좀 더 고민해봐야하는 문제를 나중에 여유를 갖고 고민하시는게 훨씬 나을 것입니다. 시간에 쫓기다보면 아는 문제도 생각이 안나서 틀릴 수 있기 때문입니다.
그럼 빅데이터분석기사 실기시험에서 좋은 결과 얻으시길 기원하겠습니다!
'IT 이것저것' 카테고리의 다른 글
SQLD:시험팁과 공부방법은 알고가자 (1) | 2023.01.08 |
---|---|
JDBC,JDK,JRE,JVM 의미 및 설명 (2) | 2023.01.07 |
빅데이터분석기사:실기 작업형2 완벽대비 (4) | 2023.01.05 |
빅데이터분석기사-실기 합격후기 문제유형,공부방법,유의사항,꿀팁 (3) | 2023.01.03 |
Ojdbc8.jar 의 NIO옵션과 Interrupt 함수 사용 시 발생하는 오류 (SQL Recoverable Exception:Closed Connection) (3) | 2023.01.02 |
댓글