IT Insight

“우리 만남은 우연이 아니야~” 클라우드와 슈퍼컴퓨터(HPC)의 새로운 만남

2020. 10. 15. 09:30

슈퍼컴퓨터의 정의는 ‘일반적인 컴퓨터에 비해 월등한 연산 능력을 보유한 컴퓨터’입니다. 현재 스마트폰의 연산 성능은 1980년대 가장 빠른 슈퍼컴퓨터보다 더 빠르다는 점을 고려하면, 어느 정도 연산 능력을 갖춰야 슈퍼컴퓨터라고 불릴 수 있는지는 논란의 여지가 많습니다.


때문에 ‘상위 500대(톱 500)’ 슈퍼컴퓨터 순위(top500.org)에서 매년 두 차례 발표하는 린팩(LINPACK) 벤치마크 성능을 주요한 통계 자료로 사용하고 있습니다. 물론 보안이나 아키텍처 문제 때문에 충분한 성능이 있더라도 집계되지 않는 경우가 많기 때문에 톱 500에 등재된 슈퍼컴퓨터가 꼭 가장 빠른 슈퍼컴퓨터는 아닐 수 있습니다.



약 9년 전인 지난 2011년 11월 독일 슈퍼컴퓨팅 콘퍼런스에서 발표된 전 세계 ‘톱 500’ 에서 아마존 웹 서비스(AWS) 상에 구축된 시스템이 42위에 올라 화제가 된 바 있습니다.


대량의 중앙 처리 장치(CPU)나 그래픽 처리 장치(GPU), 고속의 네트워크가 탑재된 대형 하드웨어 시스템 대신 무형의 퍼블릭 클라우드 서비스로 구현된 슈퍼컴퓨터가 500위 내에 공식적으로 진입한 것은 이때가 처음이었기 때문에 화제가 됐습니다. 1만 7,024개의 코어(가상 코어)로 구성된 이 시스템은 유전자 분석에 활용되는 용도였다고 하는데요.


9년이 흐른 현재, 과연 얼마나 많은 슈퍼컴퓨터가 클라우드 서비스로 구현됐을까요?


지난 6월 발표된 55회 슈퍼컴퓨터 순위를 살펴보면, 500위 내에 들어있는 슈퍼컴퓨터 중에 클라우드 서비스로 구현된 시스템은 여전히 1대에 불과합니다. 미국 산타페에 위치한 데카르트 랩스(Descartes Labs)가 아마존 EC2 C5 인스턴스 클러스터로 구축한 슈퍼컴퓨터로 총 4만 1,472코어로 구성돼 있습니다.


이 회사는 위성으로 촬영한 이미지를 분석해 주는 스타트업입니다. 작년 6월 136위로 입성해 같은 해 11월 순위에선 179위, 올해 6월엔 다시 225위로 하락했습니다. 6개월마다 발표되는 톱 500 등재 슈퍼컴퓨터의 성능이 높아지면서, 시스템 성능에 변화가 없는 슈퍼컴퓨터는 순위가 낮아질 수밖에 없습니다. 9년 전 처음 순위에 올랐던 바로 AWS 슈퍼컴퓨터는 이미 2015년 11월 426위를 마지막으로 리스트에서 사라졌습니다.



위 사례에서도 볼 수 있듯 아직까지 클라우드 서비스가 슈퍼컴퓨터 영역으로는 진입을 못 한 것으로 보입니다. 클라우드와 슈퍼컴퓨터 간에는 분명한 차이점이 존재하기 때문인데요. 전문가들이 지적하는 가장 큰 차이점은 노드(Node) 연결망입니다. 슈퍼컴퓨터의 경우 연결망이 중요합니다. 순위에 오른 슈퍼컴퓨터 약 70% 이상이 인피니밴드나 맞춤형 인터커넥터를 통해 시스템을 연결하지만, 클라우드 서비스는 일반적으로 우리가 사용하는 인터넷을 통해 연결됩니다.


메모리도 중요한 차이점 중 하나입니다. 일반적으로 슈퍼컴퓨터는 데이터 집약적인 애플리케이션을 많이 돌리기 때문에 메모리를 시스템에 많이 탑재합니다. 물론 최근 퍼블릭 클라우드 서비스에도 메모리 용량이 큰 인스턴스가 추가되고 있긴 합니다만 아직은 충분치 않다고 볼 수 있겠죠.


무엇보다 슈퍼컴퓨터에서 제대로 된 성능을 내기 위해선 전문가의 튜닝(최적화) 작업이 필요합니다. 실제 클라우드 서비스에서 슈퍼컴퓨터로 대변되는 고성능 컴퓨팅(HPC: High Performance Computing) 애플리케이션을 돌려보면 성능이 나오지 않는 경우가 많다고 합니다.


다만 노드 간 통신이 거의 필요 없고 메모리를 많이 사용하지 않는 HPC 애플리케이션은 현재 클라우드 서비스에서도 충분히 구동이 가능하다는 것이 전문가들의 의견입니다. 유전자 분석이나 금융 영역에서의 이상 탐지(사기 방지) 등이 대표적입니다.


전문가들은 클라우드 서비스 업계의 HPC 생태계가 발전하면서 점차 더 많은 애플리케이션을 수용할 수 있을 것으로 전망하고 있습니다. 시간이 좀 더 흐르면 HPC의 많은 부분을 클라우드 서비스가 대체할 수 있을 것으로 보는 시각도 있습니다. 기존 구축형 HPC에 비해 작업에 필요한 용량을 사실상 무한정 확보할 수 있는 것이 가장 큰 장점입니다.


무엇보다 그동안 슈퍼컴퓨터와 같은 HPC 자원은 소수의 사용자가 매우 복잡한 연산을 처리하는 것을 주 목적으로 했으나, 클라우드 서비스를 통해 누구나 쉽게 이 자원에 접근하고, 활용할 수 있게 된다는 점이 매력적으로 다가옵니다.


실제 하이퍼리온 리서치에 따르면, 전 세계 클라우드 HPC 시장은 매년 24.6% 성장해 오는 2023년까지 74억 달러(한화로 약 8조 6,000억 원)에 이를 것으로 전망됩니다.



이러한 장밋빛 전망에 따라 현재 클라우드 서비스 공급업체들이 가장 주목하고 있는 분야입니다. 아마존 웹 서비스(AWS)나 마이크로소프트(MS), 구글, 오라클 등 주요 클라우드 서비스 기업들은 HPC 애플리케이션을 자사 서비스로 끌어들이기 위해 다양한 서비스를 출시하고 있습니다. HPC 워크로드에 특화된 인스턴스 제공을 위해 인텔, 엔비디아 등 다양한 업체들과 협력도 강화하고 있는 추세입니다.


클라우드 선두 기업인 AWS의 경우 ‘HPC 애플리케이션을 실행할 수 있는 가장 탄력적이고 확장 가능한 클라우드 인프라를 제공한다.’라며, ‘컴퓨팅 집약적인 워크로드는 유전체와 화학, 금융 리스크 모델링, 컴퓨터 지원 엔지니어링, 기상 예측, 지진과 관련된 이미지 촬영과 같은 기존의 HPC 애플리케이션은 물론 머신러닝, 딥러닝, 자율주행과 같은 새로운 애플리케이션을 모두 지원한다.’라고 강조하고 있습니다.


MS도 최근 자사 클라우드 서비스 ‘애저’에 엔비디아 암페어 아키텍처 기반 GPU A100을 접목하는 등 슈퍼컴퓨터급 인프라 제공을 강화하고 있습니다. MS는 엔비디아 A100 암페어 GPU와 에픽 로마 CPU를 탑재해 1.6Tbps의 HDR 인피니밴드, PCIe4.0 연결을 지원하는 새로운 가상머신(VM) ‘ND A100 v4 VM 시리즈’를 출시했습니다. 구글 클라우드는 이미 A100 GPU를 기반의 A2 VM을 선보인 바 있습니다.


클라우드 후발주자인 오라클 역시 최근 자사의 클라우드 HPC 로드맵을 발표하며 인텔, 엔비디아, 알테어, 리스케일 등과의 기술 협력을 강조하고 나섰습니다. 구축형 HPC와 동일한 수준의 성능을 갖춘 클라우드 서비스를 제공하겠다는 계획입니다.



슈퍼컴퓨터와 같은 HPC는 이제 단순히 빠른 계산 결과를 제공하는 과학 기술 중심의 도구라기보다 국가의 경쟁력과 삶의 질을 높일 수 있는 전략 무기로 발전하고 있습니다. 소재나 신약 개발, 친환경 에너지, 우주 등 다양한 분야의 발전과 궤를 함께 하고 있다고 해도 과언이 아닙니다. 최근엔 코로나19 바이러스의 검출과 억제, 치료 연구에도 적극 활용되고 있습니다.


소수의 독점이 아닌 모두가 사용할 수 있는 슈퍼컴퓨터, HPC 워크로드가 클라우드 서비스와 결합되면서 세상은 이전보다 훨씬 더 좋은 방향으로 발전할 것으로 기대됩니다.


글 l 백지영 l 디지털데일리 기자


* 해당 콘텐츠는 저작권법에 의해 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.



Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

위로