-
[Data Analysis] 데이터 분석이란 무엇이며 왜 중요한가?Python/Data Analysis 2020. 3. 13. 17:32
최근 들어 4차 산업 혁명의 빅데이터가 핫해지면서 데이터 사이언티스트의 수요가 늘어나면서 많은 사람들이 데이터 분석가, 데이터 엔지니어, 데이터 사이언티스트 등에 관심을 갖기 시작했습니다.
이 중 데이터 분석이 무엇이고 왜 중요한지에 대해 알아보겠습니다.
데이터 분석이란?
데이터 분석은 유용한 정보를 발견하기 위해 분석 또는 통계 도구를 사용하여 데이터를 평가하는 프로세스입니다. 이러한 도구 중 일부는 R 또는 Python과 같은 프로그래밍 언어입니다.
이러한 도구를 사용하여 데이터를 수집하고 정렬하면 결과가 해석되어 결정을 내립니다. 최종 결과는 요약 또는 차트 또는 그래프와 같은 시각적으로 제공될 수 있습니다.
시각적 형태로 데이터를 표시하는 프로세스를 데이터 시각화라고 합니다. 데이터 시각화 도구로 작업이 쉬워집니다. Tableau 또는 Microsoft Power BI와 같은 프로그램은 데이터에 생명을 불어넣을 수 있는 많은 시각 자료를 제공합니다.
데이터 마이닝, 텍스트 분석 및 비즈니스 인텔리전스를 포함한 여러 가지 데이터 분석 방법이 있습니다.
데이터 분석의 수행 절차
이미지 신용 : Faithie / Depositphotos 데이터 분석은 큰 주제이며 다음 단계 중 일부를 포함 할 수 있습니다.
- 목표 정의 : 명확하게 정의 된 목표를 요약하여 시작하십시오. 데이터에서 최상의 결과를 얻으려면 목표가 명확해야 합니다.
- 질문하기 : 데이터로 답변하려는 질문을 찾으십시오. 예를 들어, 빨간 스포츠카는 다른 자동차보다 더 자주 사고를 당합니까? 귀하의 질문에 가장 적합한 데이터 분석 도구를 찾으십시오.
- 데이터 수집 : 질문에 대답하는 데 유용한 데이터를 수집합니다. 이 예에서 데이터는 DMV 또는 경찰 사고 보고서, 보험 청구 및 입원 세부 정보와 같은 다양한 소스에서 수집될 수 있습니다.
- 데이터 스크러빙 : 원시 데이터는 많은 정크 값과 혼란으로 여러 가지 다른 형식으로 수집 될 수 있습니다. 데이터 분석 도구가 데이터를 가져올 수 있도록 데이터를 정리하고 변환합니다. 매력적인 단계는 아니지만 매우 중요합니다.
- 데이터 분석 : 이 새로운 클린 데이터를 데이터 분석 도구로 가져옵니다. 이 도구를 사용하면 데이터를 탐색하고 패턴을 찾고 가상 질문에 답변할 수 있습니다. 이것은 대가입니다. 여기서 결과를 찾으십시오!
- 결론을 내리고 예측하기 : 데이터에서 결론을 도출하십시오. 이러한 결론은 올바른 결과를 얻기 위해 보고서, 시각적 또는 둘 다로 요약될 수 있습니다.
데이터 분석에 사용되는 몇 가지 개념을 좀 더 자세히 살펴보겠습니다.
데이터 수집
데이터 마이닝은 통계, 인공 지능 및 기계 학습을 사용하여 대규모 데이터 세트의 패턴을 발견하기 위한 데이터 분석 방법입니다. 목표는 데이터를 비즈니스 의사 결정으로 전환하는 것입니다.
데이터 마이닝으로 무엇을 할 수 있습니까? 많은 양의 데이터를 처리하여 특이 치를 식별하고 이를 의사 결정에서 제외할 수 있습니다. 기업은 고객 구매 습관을 배우거나 클러스터링을 사용하여 데이터에서 이전에 알려지지 않은 그룹을 찾을 수 있습니다.
전자 메일을 사용하는 경우 사서함을 정렬하기 위한 다른 데이터 마이닝 예가 표시됩니다. Outlook 또는 Gmail과 같은 이메일 앱은 이를 사용하여 이메일을 "스팸"또는 "스팸 아님"으로 분류합니다.
텍스트 분석
데이터는 숫자에만 국한된 것이 아니라 정보는 텍스트 정보에서도 나올 수 있습니다.
텍스트 분석은 텍스트에서 유용한 정보를 찾는 프로세스입니다. 원시 텍스트를 처리하고 데이터 분석 도구로 읽을 수 있게 하고 결과 및 패턴을 찾아서 이를 수행합니다. 이것을 텍스트 마이닝이라고도 합니다.
Excel은 이것으로 훌륭한 일을 합니다.Excel에는 텍스트 작업에 필요한 많은 수식 이있어 데이터 작업 시시간을 절약할 수 있습니다.
텍스트 마이닝은 웹, 데이터베이스 또는 파일 시스템에서 정보를 수집할 수도 있습니다. 이 텍스트 정보로 무엇을 할 수 있습니까? 이메일 주소와 전화번호를 가져와서 패턴을 찾을 수 있습니다. 문서에서 단어의 빈도를 찾을 수도 있습니다.
비즈니스 인텔리전스
비즈니스 인텔리전스는 데이터를 비즈니스 의사 결정에 사용되는 인텔리전스로 변환합니다. 조직의 전략적이고 전술적인 의사 결정에 사용될 수 있습니다. 기업이 수집 한 데이터에서 추세를 조사하고 통찰력을 얻는 방법을 제공합니다.
비즈니스 인텔리전스는 다음과 같은 많은 작업을 수행하는 데 사용됩니다.
- 제품 배치 및 가격 결정
- 제품의 새로운 시장 식별
- 더 많은 돈을 버는 예산과 예측 만들기
- 히트 맵, 피벗 테이블 및 지리적 매핑과 같은 시각적 도구를 사용하여 특정 제품에 대한 수요를 찾습니다
데이터 시각화
데이터 시각화는 데이터의 시각적 표현입니다. 테이블이나 데이터베이스에 데이터를 표시하는 대신 차트와 그래프로 데이터를 표시합니다. 복잡한 데이터는 이해하기 쉽고 이해하기 쉽습니다.
사용하는 응용 프로그램 (“사물 인터넷”이라고도 함)에서 점점 많은 양의 데이터가 생성되고 있습니다. 데이터의 양 ( "빅 데이터"라고 함) 은 매우 방대합니다. 데이터 시각화는 수백만 개의 데이터 포인트를 이해하기 쉽도록 간단한 비주얼로 변환할 수 있습니다.
데이터를 시각화하는 방법에는 여러 가지가 있습니다.
- Tableau 또는 Microsoft Power BI와 같은 데이터 시각화 도구 사용
- 표준 엑셀 그래프 및 차트
- 대화 형 Excel 그래프
- 웹의 경우 JavaScript를 사용하여 빌드된 D3.js와 같은 도구
Google datasets 의 시각화는 빅 데이터가 의사 결정을 시각적으로 안내할 수 있는 방법의 좋은 예입니다.
검토 중인 데이터 분석
데이터 분석은 유용한 정보를 찾기 위해 통계 도구로 데이터를 평가하는 데 사용됩니다. 데이터 마이닝, 텍스트 분석, 비즈니스 인텔리전스, 데이터 세트 결합 및 데이터 시각화를 포함한 다양한 방법이 사용됩니다.
'Python > Data Analysis' 카테고리의 다른 글
[Data Analysis] 멕시코 풍 프랜차이즈 chipotle의 주문 데이터 분석하기(2) (2) 2020.03.22 [Data Analysis] 멕시코 풍 프랜차이즈 chipotle의 주문 데이터 분석하기(1) (2) 2020.03.13 댓글