강의자료 주요 용어 범주형 : 성별, 혈액형, 학력 등 범주로 분류된 자료 연속형 : 계산할 수 있는 데이터 (신장, 체중, 월급 등) Null 이상치 (Outlier) 평균 : 중앙값 : 최빈값 : 데이터 셋 : 5nm Step 종속변수 (isDefect) : Real False 데이터 전처리 : Filtering : Schema : 필터링을 사용하여 데이터 제한 / 페이지의 현재 필터링 사용 Marking : 데이터 행을 직접 선택 자유영역 지정 가능 실습 : 산점도 그래프 테이블 IS_DEFECT가 Real 값을 마킹 할 것 사이즈x, 사이즈y 에서 둘다 3.0보다 작은 데이터만 필터링 해서 시각화 할 것 결함이 있을 때와 없을 때로 나누어 step_desc분포를 확인 Canvas 프로세스 : 박스 (raw_data.csv ) => 선 (행추가 + 컬럼추가) => 박스 (raw_data) 열추가 join을 통해서 새로운 행을 추가 가능 [추가된 컬럼에 대한 설정] 자세히 확인 필요 조인설정 : 추가된 데이터를 어떤 방식으로 조인할지 설정 가능 행추가 추가된 행에 대해서 데이터가 일치하는 지 확인 가능 Transformation 변환 추가 (우측 박스에서 추가) : 값 바꾸기 : 데이터 형식 변경 : 문자열 => Boolean 계산된 컬럼 추가 : 테이블 위에서 개수가 표기 되면, 왼쪽 하단에서 자세한 계산식 표현 데이터 비쥬얼라이제이션 : 기본설정 : 축 설정 축 추가 색상 모양 시각화 차트 종류 : table cross table Scattter Line : 시간의 흐름에 따른 데이터나 추이를 볼 떄 활용 Bar : 하나의 대상을 가지고 서로 다른 대상의 양을 비교할 때 활용 매출을 주체로 워별 매출 비교 레이아웃 변경 가능 : 나란히 표현 막대, 100% 스택 막대 등으로 변경 Histogram : 막대 그래프와 동일하게 데이터의 빈도 분포를 알고 싶을 때 활용 연속형 변수를 이용하여 Bar Chart를 그리면 히스토그램이 됨. Pie 전체 합의 100으로 놓고, 각 데이터의 범주 혹은 수치가 차지하고 있는 구성 비율 표현 상자그림 이상한 데이터에 대한 감지 가능 Combination 바차트와 라인차트를 혼용해서 플롯 가능 라인으로 변경을 원할 시 오른쪽 계열앞의 아이콘을 클릭하면 변경 가능 Wateferfall 연속적으로 누적해가면 증가하거나, 감소하는 것을 한눈에 표현하는 목적으로 사용 KPI 원하는 정보를 시각화 속성에서 설정 가능 Heatmap Parallel Coordination Plot 계산된 표현 식 사용 Rank([Sepal.length],"desc") Rank([Sepal.length],"desc", [Species]) Avg([Sepal.Length]) Over [Species] => Over / Group by와 동일한 "그룹별 통계량 제공 기능"을 수행 (열을 추가해서 작동) Avg / Count / Sum / Median / Stddev / Var / Percentile / Weighted Average Avg([Survived]) OVer (Interesetc([PClass], [Sex])) => 여러 열을 동시에 Group by 해서 계산할 때 사용
Subscribe
Login
0 Comments
Oldest