小王同学

希望通过自我加工,成为有点用的人

博客 归档 Tools 关于

搭建多人共用的GPU服务器

May 3, 2018
已有 12 条评论
  1. Fangxin Wang Fangxin Wang
    August 8th, 2018 at 03:24 pm

    请问,我记得cudnn文件必须添加到cuda目录里面,您说的只通过创建链接,怎么把不同版本的cudnn链接过去呢

    回复
    1. pizi pizi
      August 8th, 2018 at 03:59 pm

      用到哪个版本的cudnn就把cudnn所在路径放到环境变量里,然后也要把cudnn动态库所在路径放到ld.so.config中。
      cudnn文件添加到cuda目录里面时,配置一次路径即可,因为cuda路径里包含了cudnn,分开的话,同样的步骤,把cudnn路径也配置一次环境变量和注册动态库路径。

      回复
  2. Fangxin Wang Fangxin Wang
    August 8th, 2018 at 07:58 pm

    放到ld.so.config是什么操作

    回复
  3. Fangxin Wang Fangxin Wang
    August 8th, 2018 at 11:05 pm

    我在host上安装了显卡驱动,cuda9.0和cuda9.2, 分别把cudnn v7和cudnn v7.1复制到了里面。用lxd创建了一个容器,挂载了host上的/usr/local,并在容器内设置了LD_LIBRARY_PATH和PATH分别指向cuda9.0的lib64和bin。在host上,输入nvidia-smi,会出现显卡的信息,而在容器内输入nvidia-smi,会出现Failed to initialize NVML: Driver/library version mismatch。如果想其它教程中所说的,在host和容器上分别装一次driver,cuda和cudnn,则不会出现问题,但我想这失去了容器的意义。看到您所说的通过添加库文件和相关路径,即可在多个容器间共享cuda和cudnn,非常兴奋,希望您能在您的文章中给出具体的步骤,谢谢

    回复
    1. pizi pizi
      August 9th, 2018 at 01:54 pm

      ld.so.config参见https://feelncut.com/2018/01/09/46.html,文章中只配置了cuda环境变量和动态库,cudnn因为安装到了cuda目录中,所以配置一次即可。如果cudnn不在cuda目录中,按照配置cuda的方法配置一次cudnn即可。

      回复
  4. Fangxin Wang Fangxin Wang
    August 9th, 2018 at 02:10 pm

    谢谢,安装的时候还有一个问题,我在host上先装了390.77的显卡驱动,然后安装了cuda 9.0的deb包,然后安装过程中提示我要改变显卡驱动的版本号,安装完毕后,显卡驱动变成了384.130;而容器和host上的驱动版本应保持一致,所以我必须在容器里先安装驱动,再安装cuda9.0,只是为了把驱动降级;那如果我以后在host上安装cuda9.2,它又会自动将驱动版本升级为398.xx,那么这样的话,是不是已经创建的容器,我每个都要再装一次cuda9.2 来使其和host上面的显卡驱动保持一致呢

    回复
    1. pizi pizi
      August 9th, 2018 at 02:21 pm

      如上条回复中安装过程那篇文章,我安装cuda都是通过`cuda_xx_xx.sh`文件安装,安装时提示是否安装cuda中带有的显卡驱动,由于已经自己安装,所以选择否,不让cuda自己安装驱动。所以没有遇到你说的这种问题。你在安装`deb`包的过程中,是提示你是否安装该版本显卡驱动,还是强制必须安装该版本?

      回复
  5. Fangxin Wang Fangxin Wang
    August 9th, 2018 at 03:03 pm

    是自动并且强制安装新的显卡驱动的,我还是用run包安装吧,再次感谢

    回复
  6. zzd zzd
    December 8th, 2018 at 09:55 pm

    lxc config device add yourContainerName gpu0 gpu id=0

    如果是 挂载多个GPU呢。。。。

    回复
    1. pizi pizi
      December 14th, 2018 at 09:04 am

      文章里写了的,lxc config device add yourContainerName gpu gpu

      回复
  7. padluo padluo
    July 14th, 2019 at 11:34 am

    请问如何控制到用户使用1个GPU卡的具体多少资源呢?

    回复
    1. pizi pizi
      February 21st, 2020 at 12:47 am

      一个卡就不要限制资源了...错开时间跑吧...

      回复
取消回复
添加新评论

最新文章

  • ETH 2.0 资源汇总(持续更新)
  • ETH 2.0 测试网验证节点质押流程体验
  • 通过 openssl 导出 HTTPS 网站 SSL 证书链
  • 如何开发一款区块链浏览器?
  • EOS 提交交易失败分析
  • 小 Giao 之死
  • 《凶宅》和《疯人院》
  • 以太坊多重签名原理分析
  • OpenCV 初识图像
  • 为什么要系统的学习一下Pyhton-OpenCV?

最近回复

  • pizi: https://be...
  • 何先生: 请问有没有ETH2....
  • pizi: 一个卡就不要限制资源...
  • pizi: 有特殊技巧的啊,从阿...
  • 一网友: 有钱人新浪数据库很贵吧
  • padluo: 请问如何控制到用户使...
  • 小白: 板凳是我的!
  • 无耻的我: 大佬,能发一份吗,原...
  • pizi: 文章里写了的,lxc...
  • zzd: lxc config...

分类

  • 随笔心情 (4)
  • 代码片段 (17)
  • 折腾着玩 (7)
  • 机器学习 (9)
  • 区块链 (10)
  • Python-OpenCV (2)
  • 视频剪辑 (0)
  • leetcode (1)

归档

  • August 2020
  • June 2020
  • May 2020
  • February 2020
  • December 2019
  • October 2019
  • October 2018
  • September 2018
  • August 2018
  • May 2018
  • April 2018
  • March 2018
  • February 2018
  • January 2018

其它

  • 登录
  • 文章 RSS
  • 评论 RSS
  • Typecho
© 2023 小王同学. 模板由cho制作.