안녕하세요. "생각의 웹"입니다.


요즘 핫 이슈인 TensorFlow의 백서(white paper)를 기반으로 속살(source code)을 파헤쳐 보고 정리한 자료를 다음과 같이 공유합니다.

잘못된 분석이 있다면 댓글로 남겨주시면 감사드리겠습니다.





아래는 각 슬라이드 별 내용을 간략히 설명한 것입니다. 참고하시기 바랍니다.


TensorFlow의 주요 특징 


  1. Dataflow 형태의 모델을 기반으로 손쉽게 딥러닝 프로그래밍할 수 있도록 제공 
  2. 모델을 다양한 디바이스(CPU, GPU, 원격)에서 효율적으로 분산 처리
전자를 통해 분석할 데이터를 효과적으로 처리(Extract, Transform, Load - ETL)하고 다양한 학습 모델을 활용할 수 있으며 추후 손쉽게 도식화할 수 있도록 초상위 프로그래밍 언어(VHLL)인 python API를 제공하고, 학습된 모델을 안드로이드와 같은 embedded system 에서 수행할 수 있는 C++ API를 제공합니다. 
후자의 경우는 계산 비용(computation cost)이 많이 드는 학습(training) 과정을 가용한 리소스를 효과적으로 활용하여 빠르게 분산처리할수 있습니다. 

TensorFlow의 기본 개념 


 Tensor, Operation, Attribute, Kernel, Device, Variable, Session, Client, Server 등이 있는데 간략히 요약하면 다음과 같습니다.
  • Tensor: 원래 의미는 2차원 이상의 배열이지만 여기에서는 임의의 차원을 가진 배열을 뜻합니다. TensorFlow는 방향성이 있는 그래프 구조로써 모델을 구성하는데 이때 이 그래프는 0개 이상의 입출력을 갖는 노드들의 연결체이며 노드는 operation의 instance 라고 할 수 있습니다.   
  • Operation: 임의의 계산을 수행하는 것으로 다양한 속성 값(attribute)을 가질 수 있습니다.
  • Kernel: 커널은 operation을 디바이스 별로 실제 구현한 것으로 가속화를 위해 다양한 분산 최적화 알고리즘을 활용하고 있습니다. 실제 코드 상에서는 처리되는 곳이 CPU인지, GPU 인지에 따라 다른 구현을 활용하도록 되어 있습니다.
  • Variable: 변수란 학습을 통해 변화하는 배열 값을 저장하기 위한 operation입니다. TensorFlow가 학습할 때 다양한 디바이스에 분산하여 처리하는 구조를 띄기 때문에 명시적으로 type을 지정해 줍니다. 
  • Session: TensorFlow 그래프를 구성한 후 실제 수행을 할 때 다양한 실행 환경(CPU, CPU/GPU, 원격 분산처리) 하에서 처리하기 위해서 Client 에서 session을 만들어 전달하는 개념입니다. 

Sample TensorFlow Code and Graph 



상단 좌측의 예제의 코드처럼 Python으로 구현하면 해당 코드가 상단 우측과 같은 그래프 형태의 구조로 구성되게 됩니다. 그리고 Session을 이용해 하나의 디바이스 혹은 여러 개의 디바이스로 수행됩니다.


Previous Work 



TensorFlow는 google의 대용량 분산 ML 서비스 (구글 이미지 등)에 활용된 바 있는 DistBrief의 개발 경험을 바탕으로 핵심 기술인 Downpour SDG (Stochastic Gradient Descent) 와 Sandbluster L-BFGS 알고리즘을 활용하고 MS 연구소의 Project Adam과 Parameter Server Project를 참고하였습니다.


Feature Comparison 



백서에 따르면 표와 같이 TensorFlow 와 유사 플랫폼의 기능을 비교해 두었으나 시간에 따라 다른 플랫폼들 역시 기능을 추가하고 있는 관계로 최신 비교는 wikipedia를 참고하기 바랍니다.


Execution Mode 



앞서 언급한 바와 같이 TensorFlow의 특장점은 다양한 디바이스에서 수행된다는 점입니다. Single Device (CPU only), Multiple Devices (CPU & GPU), 분산 환경(distributed)에서 자원을 효과적으로 활용하여 수행할 수 있습니다. 이를 위해 operation을 어느 디바이스에 할당할 것인가에 대한 전략부터 디바이스 간 오류 없는 커뮤니케이션을 제공하기 위핸 기능들이 활용되고 있습니다. 특히 분산환경에서는 Multiple Devices의 고려 사항 외에도 오류 발생 시 대응하기 위해 메시지가 손상되었을 때의 복구, worker process의 상태 점검 기능들을 추가 고려하였습니다.



Programming Idioms 



내부적으로 최적의 수행 방안을 찾기 위한 기능들이 구현되어 있지만 사용자가 딥러닝 알고리즘의 특성에 따라 적절한 형태로 분산처리 되도록 코드를 구현할 것을 제안합니다.  예를 들어 학습 모델에 따라 데이터나 모델을 적절히 쪼개 병렬 처리하거나 비동기 함수를 이용해 동시성 처리할 수 있도록 하면 좋습니다.


Source Code Metrics 



github에 공개된 v0.8를 기준으로 코드 사이즈는 약 114 MB 수준이며 대부분 C++과 python으로 구현되어 있습니다. cloc 도구로 분석하면 이외에도 다양한 개발 언어 (bash, HTML, javascript, typescript, object C 등등) 이 등장하는데 process/언어 간 data communication (IPC, RPC)으로 활용하고 있는 Protocol Buffer에 속한 코드입니다.


How It Works 


핵심 코드인 C++과 python은 SWIG 인터페이스를 통해 상호 호출할 수 있도록 구현되어 있습니다. SWIG wrapper은 *.i 파일에 인터페이스 연결 고리를 명시해 두면 compile time에 관련 코드를 생성해 연결합니다. C++과 python 간의 형(type) 과 C++ 인터페이스를 연결하기 위한 코드도 볼 수 있습니다. 추후 설명하겠지만 모델을 통해 학습하는 선언 부(declaration)는 python에서, 실제 수행하는 부분은 C++ 에서 처리하고 있습니다. 


C++ Code Structure   



먼저 기반 프레임워크와 알고리즘이 실제 수행되는 코드를 담고 있는 core 부분은 대부분 C++로 구현되어 있습니다.


C++ Framework 



TensorFlow의 데이터 구조의 기반이 되는 클래스들과 dynamic allocation이 필요한 구성요소에 대해  smart pointer 를 활용한 Reference Counter 를 상속 받아 활용합니다. C++ 코드의 대부분을 차지하는 kernel 코드의 기반 클래스 역시 여기에 구현되어 있습니다. 가장 기본이 되는 Tensor 클래스에서는 배열 연산의 편의를 위한 다양한 메소드가 구현되어 있음을 볼 수 있습니다.


C++ Kernels 


   

이 폴더에는 알고리즘을 CPU/GPU를 통해 고속처리하기 위한 다양한 구현체가 존재하며 CUDA를 활용한 알고리즘은 별도의 {알고리즘 명}_op.cc 파일에 구현하고 있습니다. 고속 알고리즘을 구현하는 개발자들을 위해 이 영역에서만 따로 빌드하고 테스트할 수 있도록 구성되어 있습니다. 자세한 내용은 How To에서 확인할 수 있습니다.


Python Code Structure 



/python 폴더 아래 대부분의 *.py 파일들이 존재하며 operation이 있는 ops/ 와 training/ 에 가장 많은 코드가 존재합니다. 일부 SWIG 을 통해 C++ 간의 연결을 위한 C++ 코드들도 보입니다.


Python Implementation 



Operation에는 tensor 연산을 빠르게 수행할 수 있는 다양한 함수를 제공하고 있으며 Trainings 에는 알려진 다양한 ML 알고리즘과 분산처리를 위한 코드들이 존재합니다. 


Code Summary 



요약하면 python code에는 operation과 training 관련 코드들이 대부분이고 그래프를 만들어 훈련하기 위한 손쉬운 python API들이 제공됩니다.

반면 C++ code에는 기초 프레임워크 코드와 디바이스에서 고속 배열 연산이 가능하도록 구현된 코드들이 있습니다. 또한 임베디드 환경에서 테스트를 수행할 수 있도록 간단한 C++ API를 제공합니다.


 

[그림1] 취학 아동 사례



안녕하세요. "생각의웹"입니다.


 근 몇 년간 핫 이슈였던 빅데이터에 대해 환상이 사그라지는 분위기지만 데이터 기반 접근법(data approach)는 모든 분야에 있어 원칙으로 자리잡고 있습니다. 2015년 가트너의 경우, 매년 발표하는 Hype Cycle for Emerging Tech. 에서 빅 데이터를 제외했는데 그 이유로 더이상 빅 데이터가 특정 기술이 아닌 모든 산업의 기반 기술로써 편재하게 되었기 때문이라고 언급한 바 있습니다.


[그림 2] Gatner Hype Cycle 2015 - 더이상 Big data를 찾아 볼 수 없다


 빅데이터와 더불어 미래를 이끌 것으로 예견되는 기술들 역시 막연한 환상에서 벗어나 가치에 대해 재조명되어가는 형국입니다. 그림2는 사물인터넷(IoT)와 기계학습(ML) 그리고 웨어러블 등이 죽음의 골짜기(death valley)를 향하고 있음을 보여주는데 이 모든 기술들이 근 몇 년동안 세상을 바꿀 신기술들로 빠르게 성장(hype)했음을 주목할 필요가 있습니다.


앞서 언급한 빅데이터, 사물인터넷, 기계학습, 웨어러블 기술은 상호 밀접한 관계를 가지고 있습니다. 예를 들어, 웨어러블 기기가 생체신호 및 위치 정보를 다수의 사람들에게서 수집하여 빅데이터 화하고 기계학습을 이용해 데이터마이닝(data mining)한 후 찾은 인사이트를 기반으로 가설(hypothesis)을 만들고 실험(experiments)을 통해 증명하게 됩니다. 이때, 사물인터넷을 이용해 다양한 기기들과 상호작용하여 실험 결과를 도출하는 과정이라고 할 수 있겠습니다. 이 모든 과정의 본질은 데이터에서 가치를 추출하는 과정 즉, 데이터 분석입니다. 이번 포스팅에서는 간략하게 등하교 알림 데이터로 실 사례로 이 과정을 예시해 보도록 하겠습니다. 



[그림3] SMS 메시지와 SMS dump 도구 (SMS to Text)



0. 준비물

  • 아이의 등하교 알림 메세지 (by JT통신 i알리미 서비스)
  • SMS to Text (from google Play 스토어)
  • MS Excel 


1. 배경


올 해 아이가 초등학교에 입학하게 되어 명실상부 학부모가 되었습니다. 대부분 초등학교는 집에서 멀지 않은 곳으로 배정받게 되는데 제가 살고 있는 곳에서 초등학교 가는 길이 걸어서 통학하기에는 위험요소가 많습니다. 따라서, 학원 차량 편을 통해 통학하고 있는데 혹시 차량 이동 간에 있을 수 있는 사고에 신경이 쓰입니다. 

이런 이유에서인지 해당 학교에서는 비콘 기반의 등하교 확인 서비스를 시작했는데 그림 3과 같이 아이의 등하교 시 등록된 부모의 연락처에 SMS를 보내주는 서비스입니다.


2. 전처리


SMS를 가공하기 위해서 SMS log를 텍스트 파일로 저장해주는 도구를 다운로드 받습니다. (그림 3은 SMS to Text 라는 도구를 보여줍니다.) 이 도구를 통해 관련된 메시지를 csv파일로 저장하고 이 파일을 컴퓨터로 가져옵니다.

csv파일을 엑셀로 열면 한글이 깨져 보입니다. 따라서 텍스트 에디터로 열어 한글을 제거하고 중복되는 문구를 의미에 맞도록 바꿉니다.



Date,Time,Type,Number,Name,Who,Date2,At,Where,Count
2016-04-27,13:21:27,in,16444265,16444265,joyan,4/27,13:21,front gate,-1
2016-04-28,08:44:54,in,16444265,16444265,joyan,4/28,08:44,front gate,1
2016-04-28,13:56:45,in,16444265,16444265,joyan,4/28,13:56,front gate,-1

 


[그림4] 전처리 후 데이터 


그림4는 메세지 내용을 정리해서 누가 언제 어디로 출입했는지로 정리했음을 보여줍니다.


3. Tidy data table로 변경 


전처리를 완료된 데이터셋을 excel로 불러들인 후, 분석에 불필요한 정보를 제거 합니다. 앞서 그림4에서 Type, Number, Name은 모두 동일한 값들이라 제거합니다.

또한 등교를 학교에 학생이 증가한다는 의미로 +1를, 하교를 -1로 바꾸어 Count 항목으로 명시합니다. 


4. Feature engineering


Feature engineering이란 기계학습 알고리즘에 활용하기 위한 features를 생성하는 것으로 이때 domain knowledge를 활용[Wikipedia]합니다. 여기에서 추가 설계한 feature는 다음과 같습니다.


  • 요일: 해당 날짜의 요일을 1~7로 표현. (일: 1, 월: 2, 화: 3, 수: 4, 목: 5, 금: 6, 토: 7)
  • 출입시간과 SMS 수신 시간의 차: SMS는 지연이나 누락될 수 있는 서비스라서 지연 시간을 계산

[그림5] Feature Engineering 결과


5. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA)


데이터의 일부를 발췌하여 보거나 통계적 특성을 살피면서 데이터의 특성을 파악하는 작업입니다. 시각화(visualization)을 활용해서 시각적 특성을 찾으면 좋은 인사이트를 발굴할 수 있습니다. 먼저, 통계적 특성을 확인하기 위해 사용하는 시각화 기법으로 상자수염그림(boxplot), 산점도(scatterplot)이 있어서 이것을 그려보기로 했습니다.

[그림6] At과 Count로 그린 상자 수염 그림


그림6은 등하교시간과 등하교 형태로 그린 상자 수염 그림[위키] 입니다. 그림에서 보듯 하교(-1)는 평균 (mean) 시간은 오후 1시 29분이고 1사분위와 3사분위 값이 각각 오후 12시 46분에서 1시 58분임을 보여줍니다. 반대로 등교시간은 상대적으로 일정한데 평균 값은 8시 45분입니다. 약 15분 전에 정문을 통과한다고 볼 수 있겠네요. 0 값으로 표시된 경우는 정문에 설치된 비콘에 등교 이후 관찰되었을 경우 메시지를 전달하는 경우로 보이는데 유용성을 이해하기 힘듭니다. 일단 하교 시간의 변화(variance)가 커서 이를 요일 별로 분석해 보도록 하겠습니다.


[그림7] At 과 Count로 그린 산점도


그림7은 요일별로 관찰된 출입시간을 점으로 표시한 것입니다. 앞서 그림6에서처럼 등교 시간은 일정하게 모이는 반면, 하교 시간은 월/수 (2/4)와 수/목(3/5), 금(6)이 사뭇 다르게 보입니다. 이는 아이의 시간표에 따라 귀가 시간이 변하기 때문에 나타나는 당연한 결과라고 볼 수 있습니다. 다만, 수요일 1시 21분에 하교한 사례나 금요일 오후 2시 39분 사례처럼 특이점이 있으니 이유를 살펴 보아야 할 것 같습니다. 



6. Findings


앞서 EDA에서 보여주듯 관찰을 통해 일상의 통학 시간을 확인할 수 있습니다. 이는 기계학습을 통해 정상적으로 통학했음을 확인할 수 있는 모델을 만들 수 있다는 의미로 해석할 수 있습니다. 지금은 데이터가 매우 적은 관계로 일반화할 수 없지만 같은 반이나 같은 학년의 데이터를 활용할 수 있으면 가능할 것이라고 기대합니다.


일상적인 등하교 시간에 대한 모델을 학습할 수 있게 된다면 이를 통해 비정상 상황을 예측할 수 있습니다. 예를 들면 등교 시간이 평소보다 많이 지연되었을 경우 확인 요청 문자를 발송한다거나, 하교 시간이 평소보다 늦어질 경우, 교사에게 확인 요청 메시지를 발송해서 학부모들의 우려를 먼저 대처할 수 있습니다.   


비콘을 이용한 통학 안전 관련 서비스의 핵심은 특이점 찾기(outlier detection) 입니다. 좀 더 쉽게 말하면, 등교 시간이 넘었음에도 관찰이 되지 않거나, 하교 시간이 매우 지연되는 사례 혹은 관찰이 되지 않는 경우를 들 수 있습니다. 이때 공휴일 여부/비콘 기기 정상 동작 여부 등의 외부 정보가 매우 중요한데 잘못된 알림이 시스템의 신뢰도에 치명적인 손상을 가져오기 때문입니다.


7. Future Works


이 문자 메세지는 정상 상황에서만 알림을 주도록 설계되어 있습니다. 하지만 정작 중요한 정보는 비정상 상황에서의 알림입니다. 그럼에도 불구하고 이상 알림(False Alarm)에 대한 부담감 때문에 이런 서비스를 제공하기 쉽지 않다는 게 현실입니다. 

이에 대해 활용자가 위험을 부담하는 DIY 서비스를 만들 수 있도록 하면 어떨까요? SMS 정보를 입력으로 학습하고 알람에 대한 평가를 반영해 성능을 개선해 가는 기계학습 시스템을 생각해 보게 됩니다.     


  



 

  




 



   


안녕하세요.  생각의 웹입니다.


홍콩과기대 김성훈 교수님의 텐서플로우 강의 중 Softmax classifier를 이용해 classification 하는 강의를 듣고 실습한 과정을 정리합니다.


https://www.youtube.com/watch?v=FiPpqSqR_1c

여기서 문제는 어떤 학생의 수업 시간과 공부 시간을 입력 값으로 해서 학점을 예측해 보는 것입니다. 데이터셋은 6개의 행으로 나눠져 있는데 x1과 x2를 각각, 학생의 수업 참여 시간과 공부 시간으로 볼 경우, A, B, C 중 하나의 학점을 얻게 되는 것을 0, 1로 기록하고 있습니다.  데이터의 내용은 첨부된 파일을 참고하시기 바랍니다.


그럼 본격적으로 코딩에 들어가보도록 하겠습니다. 처음은 텐서플로우를 사용하기 위해서 tensorflow 모듈과 csv 파일 처리 및 가공 편의성을 위해 numpy 모듈을 불러들입니다.


입력:

import tensorflow as tf

import numpy as np



이제 데이터 파일을 읽어들여 입력 값과 출력 값으로 분리하는데 이때 데이터를 처리하기 쉽도록 전치 행렬(transposed matrix)로 바꿉니다.  


입력:

xy = np.loadtxt('train.csv', unpack=True, dtype='float32')

x_data = np.transpose(xy[0:3])

y_data = np.transpose(xy[3:])

print x_data

print y_data 


결과:


[[ 1.  2.  1.]
 [ 1.  3.  2.]
 [ 1.  3.  4.]
 [ 1.  5.  5.]
 [ 1.  7.  5.]
 [ 1.  2.  5.]
 [ 1.  6.  6.]
 [ 1.  7.  7.]]
[[ 0.  0.  1.]
 [ 0.  0.  1.]
 [ 0.  0.  1.]
 [ 0.  1.  0.]
 [ 0.  1.  0.]
 [ 0.  1.  0.]
 [ 1.  0.  0.]
 [ 1.  0.  0.]]


  

데이터를 불러들이는 것을 마쳤으니 데이터를 가공할 영역을 만듭니다. 텐서플로우는 placeholder라는 생성함수를 통해 데이터의 type과 갯수등을 지정할 수 있습니다.


입력:

X = tf.placeholder("float", [None, 3])

Y = tf.placeholder("float", [None, 3])

이제 본격적으로 모델을 만들고 gradient descent 방식으로 최적 해를 찾아가는 것을 구현합니다. 여기서 가설은 Y = WX 인데 찾고자하는 값이 변수인 W이기 때문에 Variable 생성함수로 선언합니다. 행렬 곱 함수인 matmul() 에서 순서가 바뀐 부분을 주의해서 볼 필요가 있습니다. 텐서플로우 구현 상의 trick인데 강의를 보면 그 이유에 대해 간략히 설명하고 있습니다. cost 함수는 예측 치와 실제 값의 차이를 최소화 하도록 차이가 커지면 무한대로, 작아지면 0에 수렴하도록 만들어 gradient descent 방식으로 최적 해를 찾는 데 활용됩니다.  


입력:

W = tf.Variable(tf.zeros([3, 3]))

hypothesis = tf.nn.softmax(tf.matmul(X, W))

learning_rate = 0.001

cost = tf.reduce_mean(-tf.reduce_sum(Y*tf.log(hypothesis), reduction_indices=1)) 
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

텐서플로우는 코드를 선언한다고 해서 수행되는 것이 아니라 Session 인스턴스에 전달해야 수행됩니다. 또한 먼저 모든 값을 초기화 해주어야 합니다. 아래 코드는 초기화 수행 후 2000번의 반복을 통해 최적 해를 찾아가는 과정을 구현했는데 매 200번마다 진행상황을 출력하게 됩니다. 출력은 이 과정을 통해 cost 함수 값이 감소하는 것을 보여줍니다. 

마지막으로 코드는 11시간의 수업시간과 7시간의 공부 시간을 투입했을 때 어떤 학점을 맞게될지에 대해 예측하고 있습니다. 이를 통해 약 46%의 확률로 A 학점을, 35% 확률로 B 학점을, 18% 확률로 C 학점을 맡게 됨을 알 수 있습니다.


입력:

init = tf.initialize_all_variables()


with tf.Session() as sess:

    sess.run(init)

    

    for step in xrange(2001):

        sess.run(optimizer, feed_dict={X:x_data, Y:y_data})

        if step % 200 == 0:

            print step, sess.run(cost, feed_dict={X:x_data, Y:y_data}), sess.run(W)

   

# prediction

    a = sess.run(hypothesis, feed_dict={X:[[1, 11, 7]]})

    print a, sess.run(tf.arg_max(a, 1)) 

출력:

0 1.09774 [[ -8.33333252e-05   4.16666626e-05   4.16666480e-05]
 [  1.66666694e-04   2.91666773e-04  -4.58333408e-04]
 [  1.66666636e-04   4.16666706e-04  -5.83333429e-04]]
200 1.05962 [[-0.02051384 -0.00103983  0.02155367]
 [ 0.01406439  0.01097753 -0.0250419 ]
 [ 0.01431208  0.03574874 -0.05006079]]
400 1.04985 [[-0.04282598 -0.00625899  0.04908497]
 [ 0.01747187  0.00156368 -0.01903554]
 [ 0.01831204  0.04954104 -0.06785305]]
600 1.0407 [[-0.06517859 -0.01176361  0.07694223]
 [ 0.01943521 -0.00848972 -0.01094547]
 [ 0.0211558   0.06118308 -0.0823388 ]]
800 1.03194 [[-0.08734013 -0.01729389  0.10463406]
 [ 0.0211172  -0.01796171 -0.00315547]
 [ 0.02396628  0.07198346 -0.09594975]]
1000 1.02354 [[-0.10928574 -0.02282182  0.13210759]
 [ 0.02266255 -0.02678035  0.00411784]
 [ 0.02685851  0.08210357 -0.10896213]]
1200 1.01547 [[-0.13101467 -0.02834093  0.15935563]
 [ 0.02409704 -0.03497621  0.01087924]
 [ 0.02983199  0.091598   -0.12143002]]
1400 1.0077 [[-0.15252906 -0.03384716  0.1863762 ]
 [ 0.02543302 -0.04258838  0.01715543]
 [ 0.03287464  0.10050804 -0.13338274]]
1600 1.00021 [[-0.1738314  -0.03933693  0.21316831]
 [ 0.02668083 -0.04965464  0.02297391]
 [ 0.03597423  0.10887134 -0.14484566]]
1800 0.992979 [[-0.19492455 -0.04480689  0.23973146]
 [ 0.02784995 -0.05621057  0.02836075]
 [ 0.0391195   0.11672312 -0.15584266]]
2000 0.985988 [[-0.21581143 -0.05025397  0.26606542]
 [ 0.02894918 -0.06228961  0.03334056]
 [ 0.04230016  0.12409624 -0.16639641]]
[[ 0.46272627  0.35483009  0.18244369]] [0]
지금까지 발견한 텐서플로우의 코딩 패턴은 다음과 같습니다.


  • 데이터가 달라지더라도 데이터를 담는 그릇(placeholder)를 통해 대응
  • 데이터의 형식을 생성함수로 지정
  • cost 함수, 모델 변경 시, 손 쉽게 대응할 수 있는 구조
  • Session에 전달해서 수행해야 실행이 이뤄짐.


Happy Coding!



안녕하세요. "생각의 웹"입니다.


Facebook TensorFlow KR 그룹에서 본 학습자료 중 제가 보고 있는 자료들의 일부를 정리 차원에서 기재합니다.

출처: https://www.facebook.com/groups/TensorFlowKR/?fref=nf







안녕하세요. "생각의웹"입니다.


docker를 활용해 윈도우즈에서 TensorFlow가 설치된 iPython Jupiter를 설치해 활용하는 법 정리합니다.


먼저 원문은 다음과 같습니다: 

http://www.netinstructions.com/how-to-install-and-run-tensorflow-on-a-windows-pc/



원문을 따라서 수행하다보면 다음과 같은 문제점들이 발생합니다.

1) 계정 정보가 한글 ID인 경우, 경로 이상 문제 발생

2) TensorFlow docker image 설치 후 python 이 아닌 ipython server가 수행되고 shell이 뜨지 않음


이 현상들을 해결하고 다음과 같이 설치 및 활용 절차를 재정리합니다.


  1. Docker toolbox for Windows 설치: docker toolbox 설치 후 바탕화면에 등장하는 Docker Quickstart Terminal 을 실행합니다.
  2. default docker machine이 자동으로 생성됩니다. 다음 명령어로 생성된 docker machine을 확인합니다
    docker-machine ls
  3. TensorFlow가 preset 되어 있는 docker image를 cloning 하고 port forwarding 해서 수행합니다. 이때 8888 포트는 jupyter를 위해 6006 포트는 tensorboard를 위해 사용됩니다.
  4. docker run -p 8888:8888 -p 6006:6006 -it b.gcr.io/tensorflow/tensorflow
  5. 정상적으로 동작하면 다음과 같은 메세지가 표시됩니다.

  6. ...
    The Jupyter Notebook is running at : http:..[all ip addresses on your system]:8888/
    
  7. tensorboard를 사용하기 위해 다음과 같이 tensorboard를 활성화합니다.
     
  8. docker machine의 IP address를 확인합니다. 여기의 적힌 IP address가 접근 가능한 서버 주소가 됩니다.
  9. docker-machine ip default
  10. 만일 ip address가 192.168.99.100 이라면 browser를 열어 다음과 같이 tensorflow가 설치된 jupyter server에 접근할 수 있습니다.

  11. 192.168.99.100:8888

참고로 여기에 설치되어 있는 TensorFlow는 non-GPU 버전에 0.8입니다. 

GPU 사용 버전을 활용하시려면 github 가이드를 확인하시기 바랍니다.



이상입니다.

이제부터 tensorflow 공부를 제대로 해봐야 겠네요. 


+ Recent posts