您所在的位置: 首頁 > 高性能計算 > 服務指南 > 正文

正文

常見問題列表

2020年09月15日 17:00

1.如何調用CUDA環境調試GPU程序?

A:運行 srun -n 1 --exclusive -p gpu2Q --gres=gpu:2 --pty bash 提交一個互式作業,即可以獨占模式申請一個雙卡GPU節點,提交后終端會自動切換到分配的節點中,完成調試后,回到登錄節點正常使用作業提交(在作業腳本中指定GPU隊列和GPU數量)。


2.使用vi編輯文件時,左下角顯示“DOS”,表示文件為DOS格式,該如何轉換成Unix格式?

A:運行命令dos2unix 文件名


3.平臺軟件安裝在什么位置?如何啟用MPI編譯器編譯程序?

A:平臺所有共用軟件都安裝在/public/software目錄下;平臺安裝了多種MPI編譯器,推薦使用Intel MPI和MKL數學庫,加載Intel MPI編譯環境可執行:  source /public/software/intel/intel2019/intel2019-env.sh


4.如何在平臺安裝需要管理員權限的軟件?

A: 如果您采購了正版或具有正規授權的軟件,可以聯系軟件公司協助安裝,期間需要管理員權限、或需要配置軟件使用范圍的,可以和軟件公司一起到信息與網絡中心3樓340辦公室找管理員協助安裝。其他免費、開源的軟件,可以發郵件到hpc@csu.edu.cn請求管理員協助安裝到平臺的公共軟件目錄下。


5.如何在平臺使用32位或其他linux操作系統環境?

A:平臺提供了singuarity容器供不同計算環境需求使用。如:啟用一個32位的CentOS6 環境,可提交一個容器作業:

srun -n1 --pty singularity run /public/software/singularity/containers/centos_6_i386.sif

目前平臺的容器鏡像放置在/public/software/singularity/containers目錄下,用戶如有其他容器鏡像需求,請發郵件到hpc@csu.edu.cn


6.如何在平臺使用圖形界面軟件?

A:為避免用戶直接在登錄節點運行程序,影響其它用戶正常使用,平臺不直接提供遠程桌面(VNC)方式用于圖形界面軟件。需要使用圖形界面的用戶,需提交一個交互式計算任務,使軟件運行在計算節點上。以運行python編輯器spyder的圖形界面為例:

(1)用戶首先需具有一個X虛擬桌面:Linux系統或者Mac OS的用戶,可以在ssh登錄時增加 -X 參數;Windows系統用戶可以使用Xming或者MobaXterm(推薦)連接平臺,并開啟“X server”。

(2)提交一個交互式作業啟動spyder編輯器:srun -n1 --exclusive --x11 /public/software/anaconda3/bin/spyder


7.如何安裝使用anaconda環境并安裝需要的軟件包?

A:平臺在/public/software/anaconda目錄下安裝了相應的軟件,并開通了清華大學anaconda的源解析。常規使用操作及說明如下:

(1)/public/software/anaconda3/bin/conda init bash   #初始化conda環境,須重新登錄生效

(2)cp /public/software/anaconda3/condarc ~/.condarc  && conda clean -i    #配置清華大學conda源

(3)conda create -n py3.7    #創建自己的conda環境,如python 3.7

(4)conda activate py3.7     #激活py3.7環境

(5)conda install python=3.7  #安裝需要的軟件包

請不要在登錄節點直接運行python程序,計算必須通過作業調度系統運行到計算節點之上。


8.作業調度系統的QOS作用是什么,如果選擇合適的QOS?

A:QOS (Quality of Service)是Slurm作業調度系統中一種控制資源使用的機制。在作業提交時,通過-q或--qos參數來指定。如:

命令提交:srun -q gpuq -n 1 myprogram

腳本參數:#SBATCH --qos=gpuq

一些QOS限制帶來的作業提示信息說明(執行squeue查看):

Job's QOS not permitted to use this partition    #用戶沒有提交隊列的權限

QOSMaxNodePerUserLimit                   #已達最大用戶可用節點數限制

QOSMaxCpuPerUserLimit                    #已達最大用戶可用CPU數限制

平臺會根據使用情況調整可用的QOS,用戶可以通過腳本命令qosinfo查看可用的QOS以及對應的隊列權限。如:

[zy@ln01 ~]$ qosinfo


(1)Allow QOS of each partition:

----------------------------------------------------------------

PartitionName=cpuQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=ALL    #cpuQ允許所有QOS

PartitionName=ResQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=resq   #ResQ僅允許resq QOS

PartitionName=gpu2Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu2Q僅允許gpuq QOS

PartitionName=gpu4Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu4Q僅允許gpuq QOS

PartitionName=gpu8Q  AllowGroups=ALL AllowAccounts=ALL AllowQos=gpuq   #gpu8Q僅允許gpuq QOS

PartitionName=fatQ   AllowGroups=ALL AllowAccounts=ALL AllowQos=fatq   #fatQ僅允許fatq QOS        


(2)Limitation of each QOS:

    Name   MaxTRESPU        MaxJobsPU

---------- ------------------------ ---------

   normal   cpu=2400,node=50    100    #normal QOS最多使用2400核心,最多使用50個節點,最大任務數為100.

    gpuq    cpu=40,node=1      10    #gpuq QOS最多使用40核心,最多使用1個節點,最大任務數為10.

    fatq    cpu=80,node=1      10     #fatq QOS最多使用80核心,最多使用1個節點,最大任務數為10.


(3)Available QOS for current user:

  User       QOS

---------- --------------------

  zy       fatq,gpuq,normal                           #用戶zy可用的QOS有fatq,gpuq,normal