본문 바로가기

Data-science

(128)
[Coursera 강의] Sequences, Time Series and Prediction - 3주 차. Recurrent Neural Network for time series prediction, forecasting (TensorFlow Developer 전문 자격증 강의) coursera 강의를 정리해서 스스로 이해를 돕기 위해 만든 자료입니다. RNN 등장 위 그림은 X를 time series data라고 하면 X가 RNN을 거쳐 Vector로 출력되는 걸 나타낸다. X는 window_size가 30인 series이다. 즉 과거 30개의 data를 통해 다음 값을 예측하는 것이라고 볼 수 있다. 각 X는 batch 크기 만큼(위 그림에선 4) 입력으로 들어가고 RNN내부 Mem Cell에서 Unit 크기 만큼, 곱해진 크기로 출력한다. Mem Cell의 unit이 3이라면 위에서 30개의 Y는 각각 4(batch_size) x 3(unit 개수) 크기 만큼의 matrix 형태를 가진다. 일반적인 RNN의 경우 각 mem cell의 H는 이전 Y 값과 동일하다. seque..
[Coursera 강의] Sequences, Time Series and Prediction - 2주 차. 간단한 DNN 기반 prediction, forecasting (TensorFlow Developer 전문 자격증 강의) coursera 강의를 정리해서 스스로 이해를 돕기 위해 만든 자료입니다. #데이터를 생성하고, dataset = tf.data.Dataset.range(10) # tf.data.Dataset.window를 이용하여 특정 window 사이즈만큼의 크기를 갖는 데이터를 얻는다. drop_remainder를 true로 할 경우 window 사이즈보다 작은 데이터는 다 drop된다. dataset = dataset.window(5, shift=1, drop_remainder=True) # flat_map 함수를 이용하여 타입의 데이터를 tf.Tensor([0 1 2 3 4], shape=(5,), dtype=int64)로 바꿔준다. dataset = dataset.flat_map(lambda window: w..
[Coursera 강의] Sequences, Time Series and Prediction - 1주 차. 간단한 시계열 예측 방법 4가지 + autocorrelation (TensorFlow Developer 전문 자격증 강의) 이 자료는 Coursera 강의를 정리하여, 스스로 이해를 돕기 위해 작성한 자료입니다. https://www.coursera.org/learn/tensorflow-sequences-time-series-and-prediction/home/welcome Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and trans..
[업무 관련 이야기] 최근 데이터 분석 과정에서 배운 것들 좋았던 점 데이터 선정때 부터 어떤 feature들을 이용할 지 확실하게 정하고 가니, ETL & 취합 과정이 빨랐다. 처음부터 모든 데이터를 분석 하려고 했으면 일이 수월하지 않았을 것이다. pilot을 진행한 것은 잘한 일이다. 미숙했던 점 아이디어 선정 단계 1. 인구 이동 데이터 (유동 인구 데이터, 출발/목적지간 OD 데이터, 관광지 방문객 데이터) 2. 라이프 스타일 데이터 ( 사람의 기호, 취향과 관련된 데이터 [app 사용량, 특정 장소 방문 횟수에 따라 라이프 스타일 정의]) 어떤 데이터를 이용할 수 있는지 명확히 몰랐다. 단지 유동인구 데이터만 있는지 알았다. 유동인구 데이터만을 이용해서 나올 수 있는 아이디어가 한정적이었다. 어제 부장님과 통화를 통해 알게 된 데이터는 크게 2가지 였..
[Coursera 강의] Natural Language Processing in TensorFlow - 4주 차 (TensorFlow Developer 전문 자격증 강의) TensorFlow Developer 전문 자격증 강의 기록 import tensorflow as tf from tensorflow.keras.preprocessing.sequence import pad_sequences from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.models import Sequential from tensorflow.keras.optimizers import Adam import numpy as np tokenizer = Tokenizer() data="I..
[Deep learning 논문 읽기] StyleGAN loss 이해, 얕게 읽는 WGAN, WGAN-GP style gan loss 이해하기 위해, 여기에 쓰인 WGAN-GP loss를 살펴볼까 한다. 우선 GAN loss, WGAN loss의 차이를 살펴보고 WGAN loss를 이해한다면 WGAN-GP loss도 이해할 수 있다. 수식적으로 깊게 들어가진 않는다. 얕게! GAN vs WGAN 위 그림을 보면 GAN과 WGAN의 차이를 확연하게 알 수 있다. GAN의 Discriminator와 유사한 역할을 하는 게 Critic이다. 그런데 discriminator의 경우 출력 값으로 확률 값이 필요하기에 Logistic Sigmoid function을 마지막 logit에 취해줘야 했다. Critic의 경우 이게 없다. 대신 f 가 추가 되는데, 위에서 f는 1-Lipschitz function이다. 이 조..
[Deep learning 논문 읽기] style-gan 1 1. Abstract & Introduction 중요한 점 원래 gan은 latent vector에서 바로 mapping해서 뭔가 style 조절하기가 어려웠다. 또 latent vector가 학습 데이터의 확률 분포를 따를 수 밖에 없다. 이걸 entanglement (얽혔다는 뜻) 라고 하는 듯. style-gan은 이를 보완한다. 그게 여기서 강조하는 intermediate latent space이다. 2. Style Based Generator - 예전엔 latent code(z)가 input layer를 통과하는 형식으로 generator가 동작했다. 여기선 아예 input layer를 생략하고 어떤 상수를 배우고 이렇게 배운 상수에서 시작한다! 이 상수가 뭐냐면 아래 그림 (b)에서 합성 네트..
[딥러닝 논문 리뷰] A Spatio-Temporal Spot-Forecasting Framework for Urban Traffic Prediction - 1 A Spatio-Temporal Spot-Forecasting Framework for Urban Traffic Prediction https://arxiv.org/pdf/2003.13977v2.pdf https://github.com/rdemedrano/crann_traffic 시공간 예측 모델의 특징 머신러닝 기반 데이터 표본들이 모두 독립적으로 발생했다는 가정이 있는데, 사실 데이터 간에 상관관계는 매우 높아 문제가 있음 딥러닝 기반 임의의 복잡한 함수를 근사시키는 능력, feature representation 학습하기 쉬운점 위 두 특징들이 가정을 덜 가져가도되게하고 데이터상 상관관계를 허용한다. RNN 시계열 데이터 예측엔 강점을 가졌으나, 공간 데이터에 적용하긴 쉽지 않다. 따라서 RNN의 ..

728x90