kubernetes(1.8.3)系列之calico集成

Posted on 2018-01-04(星期四) 14:50 in Data • Tagged with 深度学习, calico, docker, kubernetes

目前工作试错环境为 k8s(1.8.3)管理下的 tensorflow-1.4.1-compile-py36 docker镜像深度学习集群,说是集群,但平时的工作任务依然是依靠单台跑脚本运行的,GPU的利用率比较低,经过研究,最后决定通过 openmpi-2.1.2 + nccl2 + nccl_2.1.2-1+cuda8.0_x86_64 的技术方案实现GPU的并行计算。但将环境部署到K8S集群时碰到一个问题——在同一个节点中启动的pod可以成功执行,但不同节点间的pods无法成功执行,报错如下:


Continue reading