본문 바로가기

Data handling

(31)
visualization... umap import error import error distance...? 원인 pip install umap 해결책 pip uninstall umap pip uninstall umap-learn pip install umap-learn
json 파일 저장시 에러 1. int(x)로 integer로 변환시켜준다. 2. eval(str(x)) 방법을 이용해서 integer로 변환시켜준다. Object of type 'int64' is not JSON serializable
기타 에러 ImportError: cannot import name 'StringIO' 해결법 pip3 install --upgrade pandas==0.24.2
[크롤링] 엄청 쉽고 간단한 크롤링 방법. 꿀팁. 라이브러리 필요 없음 기존 방법 f12를 눌러 사이트의 정보를 탐색한다. selenium을 이용할 경우 xpath를 찾고 고생 끝에 구축한다. beautiful soup를 이용해 해당 정보의 구조를 잘 파악해야 한다. 기존 방법의 단점 힘들다.. 번거롭다 매번 귀찮다. 새로운 방법 KB 부동산 시세를 보는 사이트를 예로 들겠다. onland.kbstar.com/quics?page=C059652 매물·시세 ( KB부동산(LiivON) | 매물·시세 ) KB 정보 제공 한계 및 책임 지적편집도 제공의 한계책임 설명 닫기 본 지적편집도는 공간정보산업진흥원에서 제공하는 데이터를 다음지도에서 편집 제작한 지도입니다. 지역별 최신성, 정확성�� onland.kbstar.com f12를 누르고 Network를 본다. request 방식이..
[데이터 전처리] str to json 어떻게 바꾸지? str 형식의 text를 json으로 변환 아주 간단하다. ast라는 library를 활용하면 된다. 참 편리하다! import ast ast.literal_eval(a)
[pandas] dataframe에서 순위 구하기 (numbers to index), 그룹별 점수 순위화하기 그룹별 점수 -> 순위화 위와 같이 카테고리별로 점수가 있다고 했을 때, 카테고리 별로 점수를 rank화 시키고 싶을 때 어떻게 해야 할까? 방법은 간단하다. 1. groupby를 이용해 특정 group별로 묶어준다. 2. groupby 객체에 rank 함수를 적용해준다. 주의할 점이 있다. 위와 같이 하면 기본적으로 등수에 소수점이 섞인 값이 나온다. 이유는 rank method의 방법의 default 값이 'average' 이기 때문이다. 내가 원하는 건 등수이지 소수점이 아니다. 보통 쓰는 방법은 'min'이다. 이렇게 하면 공동 2등이 있을 경우, 3등은 없고 4등부터 나온다. 점검 카테고리별로 등수, 순위가 제대로 메겨졌는지 확인해보자. 상위 10개만 뽑았기에 순위가 좀 달라 보일 수 있지만 제..
[인코딩 방식] 웹에서 얻은 데이터가 안열릴때 csv 파일을 읽으려고 하는데 위와 같은 에러가 뜰 경우 ecoding 방식을 아래 중 하나로 바꿔주면 대부분 열린다. latin_1, euc-kr, cp949 pd.read_csv('~data.csv', sep='\t', encoding='utf-8') pd.read_csv('~data.csv', sep='\t', encoding='cp949') pd.read_csv('~data.csv', sep='\t', encoding='euc-kr') pd.read_csv('~data.csv', sep='\t', encoding='latin_1')
[데이터 시각화] visualzation , jupyter lab, jupyter notebook에서 matplotlib/seaborn 한글 font 설정 방법 [Mac Os] 3시간은 삽질한 것 같은 폰트 문제? 결국 폰트문제가 아니지만, 폰트는 잠정적 문제 mpl.font_manager._rebuild() font_manager를 rebuild해야한다!~~!!!!!!!!!!1 아 화난다.. https://ohgyun.com/769 import pandas as pd import numpy as np import re import random import matplotlib.pyplot as plt import seaborn as sns import json %matplotlib inline # 필요한 패키지와 라이브러리를 가져옴 import matplotlib as mpl import matplotlib.pyplot as plt import matplotlib.font_ma..

728x90