制作ssh互信的docker镜像

Posted on 2018-01-04(星期四) 18:09 in Data • Tagged with 深度学习, ssh, docker

基于nvidia/cuda的镜像(nvidia/cuda:8.0-cudnn6-runtime-centos7)生成了一个的tensorflow-gpu 1.4.1编译版本的镜像,通过kubernetes(1.8.3)容器编排工具进行容器间的管理。现有六个节点,一台部署kubernetes,无GPU,还有一个节点有4块GPU,余下四个节点均有一块GPU,所有的GPU均为NVIDIA Gefore 1080Ti。为提高工作工程中试错效率,需要将GPU集群资源合理的利用起来,也即需要自动调度和并发使用GPU。经研究,opmpi + nccl(nvidia的)可以实现,但mpi需要集群间的各容器是互信的,但实际运行的环境中所有容器均来源于同一镜像,所以目的就是达到能免密登陆自己就可以了(其实免密登陆本机和登陆别的机器操作基本一样)。


Continue reading

kubernetes(1.8.3)系列之calico集成

Posted on 2018-01-04(星期四) 14:50 in Data • Tagged with 深度学习, calico, docker, kubernetes

目前工作试错环境为 k8s(1.8.3)管理下的 tensorflow-1.4.1-compile-py36 docker镜像深度学习集群,说是集群,但平时的工作任务依然是依靠单台跑脚本运行的,GPU的利用率比较低,经过研究,最后决定通过 openmpi-2.1.2 + nccl2 + nccl_2.1.2-1+cuda8.0_x86_64 的技术方案实现GPU的并行计算。但将环境部署到K8S集群时碰到一个问题——在同一个节点中启动的pod可以成功执行,但不同节点间的pods无法成功执行,报错如下:


Continue reading

Kubernetes(1.8.3)系列之GPU配置

Posted on 2017-12-20(星期三) 10:15 in Data • Tagged with 深度学习, docker, kubernetes


Continue reading

tensorflow-gpu-docker镜像安装及部署文档

Posted on 2017-12-15(星期五) 18:01 in Data • Tagged with 深度学习, docker, tensorflow, kubernetes

制作包含有nvidia cuda、cudnn环境的tensorflow-gpu镜像包,并通过portainer手动单点配置及kubernetes集群管理两种方式进行部署。


Continue reading

始入Docker

Posted on 2017-12-09(星期六) 21:18 in data • Tagged with docker

容器技术已经发展的很成熟了,只不过因为工作需要才接触。纵观大趋势,系统应用部署能节约大量的人力物力和时间等企业重要成本,所以,掌握好容器技术,以及相关的集群集成管理工具的领头羊——Kubernetes,将成为丰富人生技术栈中重要的一环。


Continue reading