컨텐츠상세보기

Think Stats
Think Stats
  • 저자<앨런 B. 다우니> 저/<김석우> 역
  • 출판사한빛미디어
  • 출판일2015-05-15
  • 등록일2019-07-01
보유 2, 대출 0, 예약 0, 누적대출 4, 누적예약 1

책소개

데이터를 분석하려면 통계 개념을 알아야 한다!
 
몇 년 전부터, 여러 곳에서 미래의 유망 직종으로 '데이터 사이언티스트'라는 신종 직업을 언급하고 있다. 데이터 사이언티스트란 분석과 개발이 명확히 구분되던 과거와 달리, 데이터 분석과 개발을 동시에 할 수 있는 고급 인력을 뜻한다. 특히 요즘처럼 빅데이터가 주목받는 시대에는 빅데이터를 자유자재로 다루는 것은 물론, 그 데이터를 분석하여 데이터 속의 숨은 가치를 찾아 주는 데이터 사이언티스트의 수요가 늘어날 수밖에 없다. 하지만 기존 분석가들에게는 개발이라는 장벽이, 기존 개발자들에게는 통계학이라는 장벽이 존재한다. 개발 회사 및 연구소에 근무하면서 통계학이라는 장벽을 넘지 못하여 좌절하는 개발자가 종종 있다. 
 
데이터를 분석하려면 통계 개념을 잘 알고 있어야 한다. 또한, 데이터 분석 도구의 개념도 잘 알아야 한다. 이 책은 데이터를 수집하거나 패턴 및 테스트 가설을 세우는 일 등의 사례를 배우면서 데이터 분석 프로세스와 데이터 분석 방법의 이해를 하는 데 도움이 될 것이다.

[지은이] 앨런 B. 다우니
MIT에서 학사와 석사 학위를 취득하였고, UC 버클리 대학(U.C Berkeley0에서 박사 학위를 받았다. 현재 올린 공과대학(Olin College of Engineering) 전산학과 부교수로 재직 중이며, 웰즐리 대학(Wellesley College), 콜비 대학(Colby College), UC 버클리 대학 전산학과에서도 강의를 하고 있다.


[옮긴이] 김석우
데이터를 사랑하고 데이터 속에서 무엇을 발견할지 항상 고민하는 분석가 겸 개발자다. 학부 때는 수치 해석 및 수학적 최적화 방법에 매료되어 수학을 전공했고, 석사 때는 통계적 데이터 마이닝에 매료되어 통계학 석사를 취득하였다. 이후 Daum Communications 검색 본부 데이터 마이닝 팀을 거쳐 현재는 SK플래닛 데이터 기술연구소의 Data Analytics 팀에서 근무하고 있다. Daum에 근무할 때부터 최근 화두가 되고 있는 빅데이터를 유용하게 분석하여 가치를 뽑아내는 것에 대해 고민해 왔으며, 단순히 분석뿐만 아니라 개발에 어떻게 활용할 수 있을지 연구하고 있다. 개발자들에게 분석 및 통계 이론을 전파하려고 노력하며, 분석가들에게는 분석을 위한 개발 방법과 최신 기술을 전파하기 위해 노력 중이다.

목차

1. 프로그래머를 위한 통계적 사고
  1.1 첫아이는 예정일보다 늦게 태어날까?
  1.2 통계적 접근
  1.3 전미 가족 성장 조사
  1.4 테이블과 레코드
  1.5 유의성
  1.6 용어 정리
 
2. 기술 통계
  2.1 평균값과 평균
  2.2 분산
  2.3 분포
  2.4 히스토그램으로 표현하기
  2.5 히스토그램 그리기
  2.6 PMF 표현하기 
  2.7 PMF 그리기
  2.8 극단값
  2.9 그 외의 시각화 방법
  2.10 상대 위험도
  2.11 조건부 확률
  2.12 결과 해석하기
  2.13 용어 정리
 
3. 누적 분포 함수
  3.1 학생 대 교수 비율의 역설
  3.2 PMF의 한계 
  3.3 백분위수
  3.4 누적 분포 함수
  3.5 CDF 표현하기
  3.6 다시 설문 조사 데이터 살펴보기
  3.7 조건부 분포
  3.8 난수
  3.9 요약 통계 다시 짚어 보기
  3.10 용어 정리
 
4. 연속 분포
  4.1 지수 분포
  4.2 파레토 분포
  4.3 정규 분포
  4.4 정규 확률 그림
  4.5 로그 정규 분포
  4.6 왜 모델링을 해야 하는가?
  4.7 난수 생성하기
  4.8 용어 정리
 
5. 확률
  5.1 확률 법칙
  5.2 몬티 홀
  5.3 푸앵카레
  5.4 그 외의 확률 법칙
  5.5 이항 분포
  5.6 스트리크와 핫스팟
  5.7 베이즈 정리
  5.8 용어 정리
 
6. 분포에 대한 연산
  6.1 왜도 
  6.2 확률변수
  6.3 확률밀도함수, PDF
  6.4 합성곱
  6.5 왜 정규 분포인가?
  6.6 중심극한 정리
  6.7 분포 프레임워크
  6.8 용어 정리
 
7. 가설 검정(검증)
  7.1 평균차 검정하기
  7.2 분계점 선택
  7.3 효과에 대한 정의
  7.4 결과에 대한 해석
  7.5 교차입증
  7.6 베이즈주의 확률에 대한 보고
  7.7 카이 제곱 검정
  7.8 효율적 재표본추출(재표집)
  7.9 검정력
  7.10 용어 정리
 
8. 추정
  8.1 추정 게임
  8.2 분산 추정
  8.3 오차 이해하기
  8.4 지수 분포
  8.5 신뢰 구간
  8.6 베이지안 추정
  8.7 베이지안 추정 구현하기
  8.8 중도절단 자료
  8.9 기관차 문제
  8.10 용어 정리
 
9. 상관
  9.1 표준 점수
  9.2 공분산
  9.3 상관
  9.4 pyplot으로 산포도 그리기
  9.5 스피어먼 순위 상관
  9.6 최소제곱법
  9.7 적합도
  9.8 상관관계와 인과관계
  9.9 용어 정리