본문 바로가기
연구 노트/R Python

R Keras -csv 파일 읽어 train와 test 데이터로 나누기

by Dr. STEAM 2021. 11. 5.
반응형

책이나 사이트에 공개된 잘 만들어진 예제를 이용해서, 자신의 데이터에 바로 적용할 때, 필자와 같은 왕초보들은 항상, as always, as usual, 필연적으로, 반드시, 운명적으로, ....  한방에 작동하지 않고 여러가지 문제들로 인해 머리가 지끈지끈 아픈 상황과 문제가 발생할 수 있다. 아니, 발생한다.  하나하나 잡아보자. 

 

딥러닝 책  등에서 제공된 예제 파일들은 모두 Keras 등의 패키지 내에 포함된 예제 파일들이다. 그래서 실제 내가 만든 .csv 파일을 읽어 들이는데, 입력 포맷이 맞지 않아 헤맬 수 있다. 이런 경우, 모델이 잘 돌아가지만, input_data 값이 없다는 에러가 발생할 수 있다. 

 

아래와 같이 sampling 하면, 일반 책에서 사용하는 예제 파일을 읽어들이는 포맷으로 쉽게 변환된다. 아래는 13개 컬럼으로 구성된 데이터 셋의 경우의 예임. 

 

> set.seed(1)

   # sample 함수는 수행할 때 마다 다른 난수를 추출하기 때문에 난수를 고정시켜 같은 값이 나오도록 하기 위함이다. 

> smp = sample(1:nrow(<INPUT DATA>), nrow(<INPUT DATA>)/2) 

   # 2로 나눈 것은 절반의 데이터만 추출해서 쓰겠다는 의미

> train_data <- <INPUT DATA>[smp, 1:12]

> train_targets <- <INPUT DATA>[smp, 13]

> test_data <- <INPUT DATA>[-smp, 1:12]

> test_targets <- <INPUT DATA>[-smp, 13]

 

이 후 keras model을 구성하면 된다.

 

728x90
반응형