본문 바로가기
반응형

전체 글153

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Line Similarity (라인 유사성), Trellis 활용 1. 데이터셋 살펴보기 데이터셋은 2023년 서울 아파트 매매 실거래가 데이터를 사용했습니다.   2. Line Chart Visualization 위 데이터를 가지고 Line Chart를 그렸습니다. X축은 예약년월로 했으며, Y축은 단지명을 이용해 UniqueCount를 사용하여, 해당 계약일에 계약건수를 확인할 수 있도록 했습니다. Line과 Color 구분은 "시군구" 칼럼을 사용했습니다.  2023년 계약건수 중 가장 눈에 띄는 "노원구 상계동"과 가장 유사한 지역을 찾아보겠습니다.  3. Line Similarity3.1. Marking 된 Line을 기준으로 유사성 판단 Tools > Line similarity 클릭, 위에서 노원구 상계동을 마킹한 상태로 들어오면 자동 지정되어 있음. 결과.. 2024. 9. 1.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 유형에 따른 분석 기법 1. 데이터셋 준비 이번 데이터셋은 다양한 유형이 있는 데이터 셋으로 준비했습니다. 쇼핑몰별 고객들에 관한 데이터셋입니다.  https://www.kaggle.com/datasets/mehmettahiraslan/customer-shopping-dataset?resource=download Customer Shopping Dataset - Retail Sales DataExploring Market Basket Analysis in Istanbul Retail Datawww.kaggle.com 2. 데이터셋 살펴보기 데이터셋은 총 99457행으로 이루어져 있으며, 칼럼은 10개로 숫자형 칼럼과 범주형 칼럼이 섞여있습니다. 대표적인 숫자형 컬럼은 나이와, 물건구매수량, 물건 가격이며, 범주형 칼럼으로는 성.. 2024. 8. 31.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Dendrogram 숫자형 Vs 숫자형 3. 1. 계층적 군집 분석의 기본 개념 계층적 군집 분석(Hierarchical Clustering)은 데이터 포인트들 간의 유사성 또는 거리를 기반으로 데이터를 계층적으로 그룹화하는 방법입니다. 이 기법은 탑다운 방식(Divisive, 분할법) 또는 바텀업 방식(Agglomerative, 집합법)으로 수행될 수 있습니다.탑다운 방식: 전체 데이터를 하나의 큰 군집으로 보고, 점차 분할하여 개별 데이터 포인트로 나뉩니다.바텀업 방식: 모든 데이터 포인트를 각각 하나의 군집으로 시작하고, 가장 유사한 것들끼리 병합해 나가면서 하나의 큰 군집으로 합쳐집니다. Spotfire에서 주로 사용하는 방식은 바텀업 방식입니다. 2. 계층적 군집 방법의 종류군집 비교 방법군집 간 거리 정의 방식장점단점★평균 연결법(Ave.. 2024. 8. 30.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2. 1. 전체 상관관계 분석Data Relationships 이전에 했던 상관관계 분석은 종속변수 mpg(연비)에 대해서 다른 integer 항목들과의 상관관계를 살펴봤습니다.이번에는 종속변수와, 독립변수를 1:1로 매칭시켜서 상관관계를 Heat map 형태로 확인해 보겠습니다.위와 같이 종속변수 Y칸에도 mpg 이외 항목도 전부 추가, 독립변수 X칸에도 mpg를 추가.2. Heat map 생성 아래와 같이 Heat map을 3개 생성했습니다. X축에는 X값, Y축에는 Y값, Cell Value 값에는 각각 p-value, R값, R^2 값을 넣었습니다. p-value는 모두 매우 작은 값이 나왔으며, 이는 상관관계가 있음을 확인했습니다. (인관관계는 증명 X) R값에 경우는 음/양 의 상관관계를 확인하기 .. 2024. 8. 29.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1. 1. Auto-MPG 데이터셋Auto-MPG 데이터 분석 리포트 https://www.kaggle.com/datasets/uciml/autompg-dataset?resource=download Auto-mpg datasetMileage per gallon performances of various carswww.kaggle.com 이 리포트는 Auto-MPG 데이터셋을 기반으로 한 분석 결과를 요약한 것입니다. Auto-MPG 데이터셋은 1970년대와 1980년대 초에 미국에서 판매된 자동차의 연비(MPG, Miles Per Gallon)와 관련된 다양한 변수들을 포함하고 있습니다. 이 데이터셋은 차량 성능과 연비 간의 관계를 분석하는 데 유용하며, 총 398개의 레코드와 9개의 변수를 포함하고 있습니다.. 2024. 8. 28.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 1. Box plot 만들기 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키informyun.com 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) [데이터 시각화] Spotfire로 데이터 시각화 해보기.. 2024. 8. 27.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 종류 살펴보기 데이터는 다양한 형태로 존재하며, 이를 이해하기 위해 데이터의 유형을 분류하는 것이 중요합니다. 데이터의 주요 유형에는 연속형 자료, 이산형 자료, 순위형 자료, 명목형 자료가 있습니다. 각 유형의 특징과 예시는 다음과 같습니다.  1. 연속형 자료 (Continuous Data)특징연속형 자료는 특정 범위 내에서 무한히 많은 값을 가질 수 있는 데이터입니다. 이는 보통 실수(real number)로 표현되며, 측정 단위에 따라 소수점까지 포함할 수 있습니다. 연속형 자료는 주로 물리적, 시간적, 양적 측정에서 나타납니다. 두 점 사이에 존재하는 값들을 포함할 수 있으며, 변수가 정해진 범위 내에서 모든 값을 취할 수 있습니다. 예시키 : 160.5 cm, 175.3 cm 등과 같이 측정된 키는 특정 범.. 2024. 8. 26.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) 1. Box plot의 구성 요소2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습1. Box plot 만들기 데이터는 이전 포스팅 첨부파일에 있던 bmi 데이터를 활용해서 만들어 보겠습니다.bmi 데이터로 box plot 차트를 생성하면 기본적으로 아래와 같이 생성되는 모습을 확인할 수 있informyun.com 상자(Box)중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.1 사분위수(Q1): 상자의 하단 경계선으로, 데이터의 하위 25% 지.. 2024. 8. 25.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - F검정과 t검정의 목적과 차이점 F검정과 t검정의 차이점1. 목적F검정: 주로 두 개 이상의 집단 간의 분산 비교를 위해 사용됩니다. 분산분석(ANOVA)에서 집단 간의 평균 차이를 평가할 때도 사용됩니다. 예를 들어, 두 교육 프로그램의 효과를 비교할 때 각 프로그램의 성적 분산이 동일한지 평가합니다. t검정: 두 집단 간의 평균 차이를 비교하는 데 사용됩니다. 독립 표본 t검정(두 개의 독립적인 집단 간 비교)과 대응 표본 t검정(같은 집단에서 시간에 따른 변화 또는 쌍으로 된 데이터의 비교)으로 나뉩니다. 예를 들어, 신약과 기존 약물의 평균 효과 차이를 비교하는 데 사용됩니다.  2. 검정 대상F검정: 두 집단 간 또는 다수의 집단 간 분산의 차이를 검정합니다. 예를 들어, 서로 다른 세 그룹의 성적 변동성을 비교합니다.t검정:.. 2024. 8. 24.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - F-검정이란?, F-검정과 P-value의 관계 1. F검정이란?F검정(F-test)은 두 개 이상의 집단 간의 분산(variances)을 비교하기 위해 사용되는 통계적 방법입니다. 주로 두 집단의 분산이 동일한지 여부를 검정하거나, 여러 집단 간의 평균 차이를 분석하기 위해 사용됩니다. F검정은 분산분석(ANOVA)에서 매우 중요한 역할을 하며, F-분포를 기반으로 계산됩니다. 이 검정의 핵심 목표는 두 집단이 동일한 모집단에서 왔는지 또는 집단 간에 통계적으로 유의미한 차이가 있는지를 파악하는 것입니다.2. F검정 계산 방식F검정은 두 집단의 분산을 비교하는 과정에서 F-통계량을 계산합니다. F-값은 두 집단의 분산 비율로 구해지며, 이는 다음과 같은 단계로 이루어집니다: 1) 분산 계산먼저, 각 집단의 분산을 계산합니다. 분산은 데이터가 평균에서.. 2024. 8. 23.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 상관계수와 결정계수 이론 살펴보기 상관계수와 결정계수는 데이터 분석과 통계학에서 중요한 개념으로, 두 변수 간의 관계를 이해하고 모델의 설명력을 평가하는 데 사용됩니다. 이 포스팅에서는 상관계수와 결정계수의 정의, 계산 방법, 해석, 그리고 각각의 한계점과 유용성을 다룰 것입니다. 1. 상관계수 (Correlation Coefficient)정의 상관계수는 두 변수 간의 선형적 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다. 주로 피어슨 상관계수(Pearson Correlation Coefficient)가 사용되며, 이는 두 변수의 공분산을 각각의 표준편차로 나눈 값으로 계산됩니다. 상관계수의 값에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다: +1: 완벽한 양의 상관관계 (두 변수는 동일한 방향으로 완벽히 변화.. 2024. 8. 22.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선 1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키 Vs bmi)bmi는 몸무게를 키의 제곱으로 나눈 값입니다. 그렇게 때문에 키가 클수록 bmi 가 낮아지는 양상을 확인할 수 있습니다. 산점도 색상 구분은 성별로 구분했으며, 산점도 크기는 bmi의 크기로 표현했습니다.그래프의 오른쪽으로 갈수록 산점도의 점이 작아지는 모습을 볼 수 있습니다. 산점도 속성에 있는 Lines & Curves 기능 중 straight Fit 기능을 사용하여 산점도 내 회귀선을 추가할 수 있다.Label and Tooltip에서 원하는 레퍼런스도 추가할 수 있다. 기본적으.. 2024. 8. 21.
반응형

loading