제24회 데이터분석 전문가(ADP) 실기 문제를 대략적으로 복원해 보는 중으로
전반적으로 암기력이 부족해 대략적인 출제 내용만 봐주세요^^
문제에 대한 풀이는 추후 업데이트를 해보려고 합니다
1번 문제는 데이터가 UCI(UCI Machine Learning Repository)에 있고 크게 다르지 않은것 같아
결측치 정도만 임의로 추가해서 진행해보면 비슷한 결과가 나올수 잇을거같고
2~5번 통계문제의 경우 데이터나 주어진 조건이 조금씩 다르므로 풀이방식만 참고하실수 있도록 만들어보고자 합니다.
풀이 코드의 경우 R과 Python 둘다 코드를 짜보려고 하는데
1번 문제 모델링 부분은 시각화나 설명 문제가 많아 깊이 있게 만들지는 못하겠어서 간략히 만들어보고
2번~5번 통계문제의 경우는 어렵지는 않을거 같습니다.
혹시 정확한 문제나 데이터 값을 기억하시거나 내용에 대해 부족한 부분에 대해 알려주실 사항이 있으시다면
언제든 알려주시면 감사드리겠습니다~
[1번 모델링(50점)]
1번문제 '학생출석' 데이터 기계학습으로 결석횟수 예측 수행(50점)
(데이터)
데이터(https://archive.ics.uci.edu/ml/datasets/student+performance)
[종속변수]
결석횟수(absences) 숫자: 0 ~ 93
[설명변수]
성별(sex) 바이너리 : 'F' - 여성 또는 'M' - 남성
나이(age) 숫자: 15~22
부모님동거여부(Pstatus) 바이너리: 'T' - 동거 또는 'A' - 별거
엄마학력(Medu) 숫자 : 0 : 없음, 1 : 초등 교육, 2 : 5~9학년, 3 - 중등 교육 또는 4 - 고등 교육
아빠학력(Fedu) 숫자 : 0 : 없음, 1 : 초등 교육, 2 : 5~9학년, 3 - 중등 교육 또는 4 - 고등 교육
주보호자(guardian) 명목형 : '어머니', '아버지' 또는 '기타'
등하교시간(traveltime) 숫자 : 1 : 15분이하, 2 : 15 ~ 30분, 3 : 30분 ~ 1시간, 4 : 1시간 이상
학습시간(studytime) 숫자 : 1 : 2시간이하, 2 : 2~5시간, 3 : 5~10시간, 4 : 10시간이상
학고횟수(failures) 숫자 : 1, 2, 3 else 4
자유시간(freetime) 숫자 : 1(매우 낮음), 2, 3, 4, 5(매우 높음)
가족관계(famrel) 숫자 : 1(매우 나쁨), 2, 3, 4, 5(우수)
1-1 (15점). 데이터 전처리
1-1-1(5점). 데이터 전처리 수행, 시각화
1-1-2(5점). ???? 및 시각화
1-1-3(5점). 시간이 부족하여 수행하지 못한 전처리에 대한, 추가 전처리 내용, 필요성, ???, 기대효과 기술
1-2(20점) 예측모델 생성
1-2-1(10점). 예측을 위한 모델 3가지를 선정하여 설명 후 모델을 2가지 선정과 그 이유를 설명
1-2-2(10점). 선정한 모델 2가지 생성 및 모델의 평가 기준을 선정하고 선정 이유 설명
1-3(15점) 모델 평가
1-3-1(5점). 모델이 다양한 상황에서도 잘 돌아간다는걸 설득하라는 부분
1-3-2(5점). 선정된 모델로 최종 예측을 수행하기 전, ???
1-3-3(5점). 결과에 대한 평가 수행 및 시각화
[2번 ~ 5번 통계분석 (50점)]
2번. 다중회귀 수행
(데이터10개)
광고횟수(X1) : 1 2 3 4 5 7 8 9 11 12
광고비(X2) : (낮음, 낮음, 낮음, 낮음, 높음, 높음, 높음, 높음, 높음, 높음)
매출액(Y) : 15 16 17 18 20 22 24 26 28 29
2-1. 광고비 변수를 가변수 처리후 다중회귀를 수행하여 회귀계수가 유의한지 검정
2-2. 회귀식이 유의한지 판단
3번. 각 공장별로 12개의 제품을 추출하여 구한 정보가
(데이터)
A공장 (평균 = 5.48 , 표준편차 = 0.4) , B공장 (평균 = 5.54, 표준편차 = 0.3)
(Z(0.05) = , Z(0.025) = )
3-1. 두 공장 부품 생산라인의 평균 품질 비교
3-2. ???
4번. 코로나 진단 기술의 정확도를 베이지 정리 이용하여 계산하라 유병률 0.01
(데이터)
바이러스 감염 바이러스 비감염
음성 370 15
양성 10 690
4-1. 음성일 때 바이러스가 감염일 확률
4-2. ???
5번 주어진 데이터의 95% 신뢰구간을 구하라
(데이터)
정규분포에서 표폰을 추출함[Z(0.05) = , Z(0.025) = , T(0.05, 8) = , T0.025(0.025, 8) = ]
데이터(9개) : [3.1, 3.3, 3.5, 3.7, 3.9, 4.1, 4.3 4.4, 4.7]
5-1. 주어진 데이터의 95% 신뢰구간을 구하라
5-2. sigma = 0.04인걸 알고있을때의 95% 신뢰구간을 구하라
댓글