본문 바로가기

배움

[통계 + R] 상관관계 두 숫자형 변수 간의 관계를 나타내는 산점도(scatter plot)를 볼 때는 4가지가 중요하다. - Form : 산포도의 전체적인 모양(ex. linear, quadratic, non-linear etc) - Direction : 두 변수 사이의 관계가 양의 관계인지, 음의 관계인지 판단하는 것. 양의 관계라면 x가 커질 때, y도 커진다. 음의 관계라면 x가 커질 때 y는 작아진다. - Strength : 두 변수 관계의 강도를 나타냄. - Outliers : 이상치 존재 여부 상관계수 계산식 이중에서 strength는 상관관계를 통해 두 변수간 선형관계의 강도를 수량화할 수 있다. 상관관계(correlation)를 나타내는 상관계수는 아래와 같은 식을 통해 구할 수 있다. 분자는 x와 y의 공분산.. 더보기
[R] 두 숫자형 변수의 관계를 나타낼 때, 설명변수를 덩어리로 분리해서 나타내기 2개의 숫자형 변수 간의 관계를 나타내는 그래프로는 대개 산포도(scatter plot)를 많이 쓴다. 설명변수를 이산화(discretized)하여 나타내기 위해서는 ggplot의 aes 레이어에 cut() 함수를 추가한다. library(gapminder) library(tidyverse) # gapminder 데이터 중 2007년 데이터만 사용하기 위해 데이터 정리 gapminder2007 % filter(year == 2007) gapminder 데이터는 한 국가의 데이터가 여러 연도로 저장되어 있으므로, 2007년 데이터만 보기 위해 데이터를 정리해준다. gapminder2007 데이터의 구조를 살펴보자. glimse(gapminder2007) Observations: 142 Variables: .. 더보기
데이터 분석 공부 - 리소스 모음 뭘 공부할까? 참고로 나는 수학이든 코딩이든 이제 시작하는 단계다. 따라서 전문가의 입장에서 사이트를 리뷰할 입장이 아니라, 이제 막 시작하는 입장에서 선별한 사이트와 링크라는 것을 참고하길 바란다. 아래의 링크는 지속적으로 업데이트 될 예정이고, 카테고리 구분 역시 가장 효율적인 구분이라고 생각되는 분류 방법이 있다면 언제든지 바꿀 예정이다. 혹시 이외에도 도움이 되었던 사이트가 있다면 댓글로 추가해주시면 참고하겠다. 1. 수학 깊이 있는 분석을 위해서 수학 공부는 필수다. 그러나 문과생인 필자로서는 대체 무슨 수학을 어떻게 공부할 것인가를 파악하는 것만 해도 어렵게 느껴진다. 고등학교 문과 수학 실력만으로 데이터 분석을 위한 도움을 받을 수 있을까? 대학 수학을 공부해야 할까? 대학 수학을 공부해야 .. 더보기
[R] 수치형 변수와 그래프 수치형 변수 하나를 그래프로 나타낼 수 있는 방법은 3가지가 있다. 1. histogram 2. density plot 3. boxplot 변수 간의 관계를 나타낼 때 사용하는 scatter plot도 있지만 여기에서는 수치형 변수의 분포를 나타내는 데 한정하기로 한다. 데이터 불러오기 install.packages('gapminder') library(gapminder) library(tidyverse) gap gap glimpse(gap) Observations: 1,704 Variables: 6 $ country Afghanistan, Afghanistan, Afghani... $ continent Asia, Asia, Asia, Asia, Asia, Asi... $ year 1952, 1957, .. 더보기
[R] 범주형 변수와 bar plot 범주형 변수를 그래프로 그릴 때 bar plot이 유용하다. 이번에는 bar plot에 대해 간단한 사항 몇 가지를 정리할 것이다. 데이터 불러오기 데이터는 ggplot2 패키지에 있는 mpg 데이터셋을 활용할 것이다. library(ggplot2) mpg_1 unique(mpg$class) [1] "compact" "midsize" "suv" "2seater" [5] "minivan" "pickup" "subcompact" 이 방법 외에, 앞으로의 분석을 용이하게 하기 위해 해당 변수를 factor 형으로 변경하는 방법도 있다. > mpg_1 mpg_1$class levels(mpg_1$class) [1] "2seater" "compact" "midsize" "minivan" [5] "pickup" ".. 더보기
[R] 범주형 변수 with table / prop.table 이 글에서는 범주형 변수 관련 아주 기초적인 내용을 다룬다. 우선 데이터를 불러와 marvel_character 변수에 저장한. 이 데이터는 marvel 만화에 나오는 캐릭터를 정리한 것이다. marvel_character library(tidyverse) > glimpse(marvel_character) Observations: 16,376 Variables: 13 $ page_id 1678, 7139, 64786, 1868, 2460, 2458, 2166, 1833, 29481, 183... $ name Spider-Man (Peter Parker), Captain America (Steven Rogers),... $ urlslug \/Spider-Man_(Peter_Parker), \/Captain.. 더보기
[R] 각 레코드가 차지하는 비율을 그룹별로 표기하고 싶을 때 mpg 데이터셋을 활용해서 다음 물음에 답하려고 한다. '각 제조사마다 어떤 유형의 신차를 발매했는지 그 비율에 대해서 알아보려고 한다. 참고로 아래의 코드는 dplyr 패키지가 있어야 한다. install.packages('dplyr') library(dplyr) 우선 데이터 모양부터 본다. > head(mpg) # A tibble: 6 x 11 manufacturer model displ year cyl trans drv cty hwy 1 audi a4 1.8 1999 4 auto~ f 18 29 2 audi a4 1.8 1999 4 manu~ f 21 29 3 audi a4 2 2008 4 manu~ f 20 31 4 audi a4 2 2008 4 auto~ f 21 30 5 audi a4 2.8 .. 더보기
데모 계정으로 Google analytics 연습하기 모든 IT 스킬이 마찬가지지만, 직접 해봐야 안다. 책과 동영상으로 아무리 공부해도 자기가 클릭하고 생각하는 걸 따라갈 수가 없다. 그런 의미에서 내가 처음 GA를 접하고 공부할 때 가장 필요했던 게 바로 '실제 데이터'였다. 당시 나의 해결책은 티스토리 블로그를 만드는 거였다. 트래킹 코드를 직접 넣어보고 자기가 한 활동에 따른 결과를 볼 수 있으므로 이 방법은 여전히 유효하다. 그러나 이 방법의 최대 단점은 시간이 오래 걸린다는 점이다. 따라서 구글 데모 계정과 설치형 블로그 운영을 통해 GA의 감을 쌓아나가는 게 가장 좋다는게 내 생각이다. 1. 구글 데모 계정 접근 구글 데모 계정은 아래 링크를 통해 접근할 수 있다. 데모 계정 - 애널리틱스 고객센터 이 도움말이 도움이 되었나요? 어떻게 하면 개.. 더보기
DataCamp : Intro to SQL for Data Science 내용 정리 DataCamp의 SQL 기초를 직접 해봤다. DataCamp의 강점은 따라하기 매우 쉽다는 점인데, SQL 코스에서도 이 점은 변하지 않았다. Codecademy에서도 SQL 코스를 해본 적이 있는데, 개인적인 느낌으로는 DataCamp 코스가 더 나에게 맞았다. DataCamp 코스는 SQL 언어 전반을 다루지 않는다. 데이터베이스에서 데이터를 추출하는 데 집중한다. 실제 업무 현장에서는 SQL이 어떻게 활용되는지 알 수 없으나, 분석가가 SQL을 다룰 때 그 이상을 다룰 필요가 있을까 하는 생각이다. 이 코스는 크게 4가지 챕터로 이루어져 있다. 1. 열 선택하기 2. 행 골라내기 3. 집계(sum, avg, max, min) 함수 4. sorting, grouping 1. 열 선택하기 가장 기본은.. 더보기