ML_DL_line/Accelerator

Graphcore IPU

ITliner 2024. 3. 11. 14:34

Graphcore사의 IPU 는 only AI 트레이닝과 추론용으로 발매가 되었다.

그래프코어사 로고

IPU 이전 처음 발매된것은 graphcore C2 card PCI 전용 칩이다.

처음 발매되었을때는 그래픽카드와 뭔차이가 있는지 알수없는 칩이었다. 

하지만 프로토 타입 이었다는것

진또배기는 이후 출시된  IPU-M2000 이었다.

IPU-M2000 사진

4개의 IPU 프로세서를 사용하고 또한 내부에 PCI Ram NVME 등이 장착이 되어있다 

IPU 의 경우 Nvidia 의  GPU card 처럼 PCI 형태로 내부에 꽂아서 사용하는것이 아닌 

100Gb (IPU port) 와 1G( IPU Manage) 를 x86 서버에 연결하여 Device 로 사용하는 머신이었다.

성능은 칩셋 하나당 66teraflops 정도가 퍼포먼스가 나왔고 (IPU 1개기준) IPU 4개의 경우에는

66tflops * 4 =  264tflops 정도의 퍼포먼스가 나왔다. 또한 GPU 처럼 직렬 처리방식이 아닌

병렬형 처리 방식이라 JOB를 던졌을경우엔 IPU들이 하나씩 순차적 처리가 아닌 모든 IPU 가 각자의 job 를 나눈다

이를 비유하자면 회사와 같다고본다.

IPU 의 학습진행방향

IPU 4개가 각자의 job 를 설정하고 IPU 1 에서  2 -> 3 -> 4-> 1-> 사이클로 계속 도는 방식이다 생각을하자면

IPU 1 에서 1 % 의 작업처리를 마치고 -> IPU 2가 1%작업량을 보면서 IPU 2가 작업을한다 IPU 2가 만약 3% 작업량을 낸경우에  -> 그것을 IPU 3이 받아서 3% 작업량을보고 IPU 3 이 job 을 진행한다 IPU 3 이 6% 의 진행량을 진행했으면 -> IPU 4 에게 넘겨서 IPU 4 는 IPU 3이 했던 6% 진행량을보고 job을 진행한다 -> 계속 사이클

각 IPU 들이 맡은 포지션으로 계속하여 job 를 완성해 나간다.

현재 Graphcore 의 SDK 는 3달의 주기로 업데이트를 하고있으며 장비는 같지만 soft 업데이트로 인해

 2024-03 시점 (3.4Ver sdk) 이전 sdk 버전의 약 3배가넘는 퍼포먼스 향상을 보여주고있다. 

Graphcore 가 계속 발전해 갈것같긴하지만 Nvidia 라는 거대한 벽을 깰수있을까? 라는 생각이든다.

한편  여러 AI 칩업체들이 시장에 뛰어들고있다. 

Graphcore를 제외한 Tenstorrent , 사피온 등 (최근엔 카이스트 에서 개발한 AI 칩도 있다고해서 화제이다.)

Tenstorrent

이많은 경쟁 가운데 살아 날수있을지는 모르겠지만 

적어도 성능으로만 봤을때는 정말 좋은 성능의 제품이라고 볼수있다.

다음포스트는 

CPU 프로세서의 아버지 짐켈러가 CEO 인 회사 Tenstorrent 글을 포스팅하겠습니다.

 

감사합니다~