데이터분석

ChatGPT와 파이썬을 활용한 데이터 사이언티스트 및 데이터 분석 수강 후기

TEO2 2024. 2. 16. 01:16

ChatGPT로 데이터분석하기

ChatGPT와 대화 '좀' 하는 방법

  • 구체화하기
    • 데이터 분석에 가장 범용적으로 쓰이는 툴은 무엇일까?라는 단일 질문보다는 질문-답변의 예시를 보여주고, 답변을 기대하는 것이 좋다.
데이터 분석에 범용적으로 사용되는 툴은 무엇일까?
파이썬

데이터 분석에 범용적으로 사용되는 파일 포맷은 무엇일까?

  • 문장에 맥락을 주기
    • ChatGPT에게 일종의 역할을 부여하는 것이다
너는 게임회사에서 10년간 근무한 베테랑 데이터 분석가야.
인게임의 특정 재화를 어뷰징유저를 탐지하기 위한 데이터 분석 절차를 알려줘.
  • 원하는 답변을 얻기 위해 반복해서 질문해보기.
    • 한 번에 원하는 답을 얻으려고 하기보다는 GPT를 점점 학습시켜서 원하는 대답에 수렴하도록 하자.
1. 데이터 분석하는 절차를 알려줘.
2. '인게임의 특정 재화를 어뷰징유저를 탐지하기 위한' 데이터 분석 절차를 알려줘.
3. 인게임의 특정 재화를 어뷰징유저를 탐지하기 위한 데이터 분석 절차를 '어뷰저조차도 이해할 수 있도록' 알려줘.

 

 

데이터 분석

아래는 실제 ChatGPT의 답변입니다.

어뷰저를 판별하는 머신러닝 모델을 만들기 위해서는 몇 가지 중요한 단계를 거쳐야 합니다. 아래는 모델링 과정을 설명하는 간략한 가이드입니다.

데이터 이해:데이터에는 어뷰저와 어뷰저가 아닌 플레이어들의 정보가 있을 것입니다. 각 열의 의미와 데이터의 분포를 확인합니다.

데이터 전처리:데이터를 전처리하여 모델에 입력할 수 있는 형태로 가공합니다. 결측치나 이상치를 처리하고, 범주형 데이터를 인코딩합니다. 특성 선택과 스케일링을 고려할 수 있습니다.

데이터 분할:훈련 데이터와 테스트 데이터를 분할합니다. 일반적으로 70-80%를 훈련 데이터로, 나머지를 테스트 데이터로 사용합니다.

모델 선택:어뷰저 여부를 분류하기 위한 모델을 선택합니다. 이진 분류 문제이므로 로지스틱 회귀, 결정 트리, 랜덤 포레스트, 서포트 벡터 머신 등을 고려할 수 있습니다.

모델 훈련:선택한 모델을 훈련 데이터에 적용하여 학습시킵니다. 이때, 하이퍼파라미터 튜닝을 위한 교차 검증을 고려할 수 있습니다.

모델 평가:테스트 데이터를 사용하여 모델의 성능을 평가합니다. 주요 지표로는 정확도, 정밀도, 재현율, F1 스코어 등을 사용할 수 있습니다.

성능 개선:모델의 성능이 부족하다면 특성 엔지니어링, 다른 모델 시도, 하이퍼파라미터 조정 등을 통해 모델을 개선합니다.

모델 배포:최종 모델을 배포하고 골드 파밍 어뷰저를 판별하는 데 사용합니다.

모니터링 및 유지보수:모델이 배포된 이후에도 주기적으로 성능을 모니터링하고 업데이트 및 유지보수를 수행합니다. 머신러닝 모델링은 반복적인 프로세스일 수 있으며, 데이터의 특성과 도메인에 따라 접근 방법이 달라질 수 있습니다. 따라서 데이터에 대한 더 자세한 정보와 목표 정의가 주어진 경우, 더 구체적인 모델링 단계를 설명해 드릴 수 있습니다.

 

위 절차에 따라 데이터셋을 넣고, 해당 데이터셋의 요약정보까지 ChatGPT에 첨부한 뒤에 인사이트를 찾아달라는 것도 가능하다.(데이터 이해)

 

찾아낸 인사이트를 기반으로 데이터 전처리를 수행하는 코드를 짜달라는 식으로 대화를 한다.(데이터 전처리)

 

이후에 ChatGPT와 여러 번의 대화를 하고, 모델을 평가하고 성능을 개선하는 등 데이터 분석의 시작과 끝을 ChatGPT와 함께 가능했다.

 

마치며

강의에서는 더 자세한 방법을 안내하고, 모델링에서도 ChatGPT를 컨트롤하며 성능을 개선하는 부분도 나와있다.

물론 데이터 분석의 시작은 데이터를 이해하고, 전처리하는 과정이 중요하다. 그래서 이 부분은 ChatGPT에 의존하기보다는 분석가의 사전지식도 필요하다.

 

ChatGPT를 데이터 분석에 이용하기 위한 프롬프트엔지니어링코딩에는 확실히 유용하다고 생각한다. 데이터를 분석하는데 코딩 언어의 장벽이 있었다면, ChatGPT가 교두보 역할을 할 수 있을 것이라고 생각한다.

 

추후에는 아래 오픈 API로 수집한 롤토체스 데이터셋을 가지고, ChatGPT를 통해 분석을 하는 과정을 글로 담아볼까 한다.

2024.01.19 - [게임] - 파이썬을 전혀 모르는 데이터 분석가의 TFT(롤토체스) 데이터분석 - (1) (Feat. Chat GPT)

 

*해당 콘텐츠는 유데미로부터 강의 쿠폰을 제공받아 작성되었습니다.

반응형