전체상품목록 바로가기

본문 바로가기


현재 위치
  1. 게시판
  2. 자료실-통신관련

자료실-통신관련

광통신,시리얼통신,무선통신 및 네트웍통신관련 자료실입니다.

게시판 상세
제목 128 DGX H100으로 클러스터를 구축하는 방법
작성자 박상우 (ip:)
  • 평점 0점  
  • 작성일 2024-03-14 14:41:13
  • 추천 추천하기
  • 조회수 14

NVIDIA DGX H2022에는 NDR 8Gb/s 대역폭을 지원하는 7개의 단일 포트 ConnectX-400 네트워크 카드와 IB/이더넷 네트워크를 지원할 수 있는 2개의 듀얼 포트 Bluefield-3 DPU(200Gb/s)가 장착되어 있습니다. . 외관은 다음 그림과 같습니다.

대역 내 시스템 관리

DGX H100에는 스토리지 네트워크 및 대역 내 관리 네트워크용 QSFP4 포트 56개가 있습니다. 또한 원격 호스트 OS 관리용 10G 이더넷 포트 1개와 원격 시스템 관리용 XNUMXG 이더넷 포트 XNUMX개가 있습니다.

서버의 내부 네트워크 토폴로지 그림에서 컴퓨팅 네트워크 연결을 위한 4개의 OSFP 포트(보라색)가 있으며 파란색 블록은 네트워크 카드 역할을 할 수 있고 PCIe 스위치 확장 역할도 수행할 수 있는 네트워크 카드입니다. , CPU와 GPU 사이의 다리가 됩니다.

CPU

NVIDIA SuperPOD NVLink 클러스터 상호 연결 방식을 채택하면 32개의 H100이 외부 NVLink 스위치를 통해 상호 연결됩니다. 서버 내부의 8개의 GPU는 4개의 NVSwitch 모듈에 연결되며, 각 NVSwitch 모듈은 4-5에 해당합니다. OSFP 광학 모듈, 총 18개의 OSFP가 있으며, OSFP는 18개의 외부 NVLink 스위치에 연결됩니다. (현재 시중에 나와 있는 H100에는 이러한 18개의 OSFP 모듈이 없습니다.) 이 기사에서는 NVLink 네트워킹 방식에 대해 설명하지 않고 IB 네트워킹 방식에 중점을 둡니다. NVIDIA 참조 디자인 문서에 따르면 DGX H100 서버 클러스터에서는 DGX H32 100개마다 SU가 구성되며 DGX H4 100개마다 별도의 랙에 배치됩니다(각 랙의 전력은 40KW에 가까운 것으로 추정). 다양한 스위치가 두 개의 독립된 랙에 배치됩니다. 따라서 각 SU에는 10개의 랙(서버 배치용 8개, 스위치 배치용 2개)이 포함됩니다. 컴퓨팅 네트워크는 Spine-Leaf 9700레이어 스위치(Mellanox QMXNUMX)만 사용해야 하며, 네트워크 토폴로지는 다음 그림에 나와 있습니다.

등뼈

스위치 사용법: 클러스터에서는 DGX H32 100개마다 SU를 구성하고(SU당 리프 스위치는 8개), 4개의 H128 서버 클러스터에는 SU가 100개 있으므로 총 32개의 리프 스위치가 있습니다. SU의 각 DGX H100은 8개의 리프 스위치 모두와 연결되어야 합니다. 각 서버에는 컴퓨팅 네트워크 연결을 위한 OSFP 포트가 4개만 있으므로 각 포트에 800G 광 모듈을 연결한 후 확장 포트를 통해 OSFP 포트 100개를 QSFP 포트 8개로 확장하여 각 DGX H16을 16개의 리프 스위치로 연결합니다. 각 리프 스위치에는 XNUMX개의 스파인 스위치에 연결되는 XNUMX개의 업링크 포트가 있습니다.


첨부파일
비밀번호 수정 및 삭제하려면 비밀번호를 입력하세요.
관리자게시 게시안함 스팸신고 스팸해제 목록 삭제 수정 답변
댓글 수정

비밀번호 :

수정 취소

/ byte

비밀번호 : 확인 취소

댓글 입력
댓글달기 이름 : 비밀번호 : 관리자답변보기

영문 대소문자/숫자/특수문자 중 2가지 이상 조합, 10자~16자

확인

/ byte

왼쪽의 문자를 공백없이 입력하세요.(대소문자구분)

관리자에게만 댓글 작성 권한이 있습니다.



장바구니 0
 

WORLD SHIPPING

PLEASE SELECT THE DESTINATION COUNTRY AND LANGUAGE :

GO
close