GPU를 많이 사용하면 마모됩니까?

0
169
파란색 배경에 GPU 카드
Maxx-Studio/Shutterstock.com

그래픽 카드에서 집중적인 게임, GPU 컴퓨팅, 그래픽 렌더링, Folding@home 또는 암호화 마이닝을 수행할 계획이라면 GPU가 과도하게 사용되어 마모될까 걱정할 수 있습니다. 하지만 그럴까요? 조사하겠습니다.

예, 하지만 복잡합니다

온라인에서 찾을 수 있는 그래픽 카드의 수명에 대한 대부분의 정보는 일화이며 누구에게 묻는지에 따라 숫자가 크게 달라질 수 있습니다. 지난 10년 동안 수백 가지의 서로 다른 그래픽 카드 모델이 출시됨에 따라 이처럼 서로 다른 카드의 데이터를 단순한 일반화로 요약하기는 어렵습니다.

지금까지 우리는 이것을 알고 있습니다. 독일 소매업체의 2020년 보고서에 따르면 가장 최근의 그래픽 카드는 전체적으로 약 2-5%의 실패율(소매업체에 대한 반품으로 측정)을 가지고 있습니다. 그리고 2021년에도 Nvidia는 약 9-10년 된 카드(예: GTX 600 시리즈)에 대한 드라이버 업데이트를 제공했으므로 잘 처리된 GPU 카드를 10년 동안 사용할 수 있을 것으로 기대할 수 있습니다. 앞으로 보게 될 것입니다.

숫자에 관계없이 작동하는 몇 가지 어려운 물리학이 있습니다. GPU 카드 구성에 사용된 재료와 구성 요소는 마법과 같은 것이 아닙니다. 더 많이 사용할수록 부품이 더 빨리 열화되고 완전히 고장날 가능성이 높아집니다. 따라서 과도한 사용은 수명에 영향을 미칩니다.

암호화 광부의 여러 GPU 카드.
보시다시피 암호화 마이닝은 그래픽 카드의 수명을 단축시킵니다. 소크라테스471/Shutterstock.com

GPU 카드에 오류가 있는지 여부는 GPU가 얼마나 많이 사용되었는지, 회로의 온도 변화 특성과 정도, 카드의 전원을 켜고 끈 횟수, 운영 환경이 얼마나 깨끗한지.

GPU 카드는 많은 부품으로 구성된 복잡한 장치이기 때문에 각 부품이 다른 방식으로 고장나거나 성능이 저하될 수 있습니다. 우리는 GPU 카드의 여러 주요 부분을 살펴보고 시간이 지남에 따라 과도하게 사용하면 어떻게 마모될 수 있는지 조사할 것입니다.

가장 먼저 할 일: 냉각 팬

가장 먼저 고장날 가능성이 있는 그래픽 카드의 모든 부품 중에서 물리적으로 움직이는 부품인 냉각 팬(또는 팬)을 가리켜야 합니다. 팬은 GPU가 계속 작동할 수 있도록 GPU 칩(방열판 포함)에서 뜨거운 공기를 멀리 이동시켜 GPU를 시원하게 유지합니다.

회전하는 팬이 있는 GPU 카드.
필굿럭/Shutterstock.com

열이 나쁜 이유는? 열이 충분하면 트랜지스터가 제대로 작동하지 않아 GPU 카드가 작동하지 않습니다. 더 많은 열로 인해 카드 칩의 트랜지스터가 영구적으로 손상될 수 있습니다.

시간이 지남에 따라 냉각 팬은 종종 먼지로 막혀 공기를 효율적으로 이동시키는 능력을 감소시킵니다. 또는 내부 윤활유가 고장나면 팬이 완전히 고장날 수 있습니다. 두 시나리오 모두 GPU의 온도를 높입니다.

열 조절이란 무엇입니까?

관련된열 조절이란 무엇입니까?

모든 GPU는 GPU 작동 속도를 낮추어 작동 온도를 낮추는 열 조절을 사용하여 과열로부터 자신을 보호합니다. 그렇게 하면 성능이 심각하게 제한됩니다. 따라서 GPU가 평소보다 갑자기 더 시끄럽거나(팬이 더 빠르게 회전함) 성능이 저하되는 경우 압축 공기로 GPU 냉각 팬과 방열판을 철저히 청소하십시오.

GPU 냉각 팬이 완전히 고장난 경우 컴퓨터 부품 공급업체에서 동등한 팬을 찾으면 일반적으로 교체할 수 있습니다.

관련된: 더러운 데스크탑 컴퓨터를 철저히 청소하는 방법

또 다른 용의자: 열 화합물 결함

모든 방열판과 GPU 칩 사이에는 GPU 칩에서 방열판으로 열을 전달하는 데 도움이 되는 퍼티 또는 페이스트 패드와 같은 열 전도성 재료 층이 있습니다.

CPU에 써멀 페이스트를 얼마나 발라야 합니까?

관련된CPU에 써멀 페이스트를 얼마나 발라야 합니까?

시간이 지남에 따라 써멀 페이스트가 갈라지거나 효력을 잃을 수 있습니다. 그런 일이 발생하면 방열판이 효과적으로 냉각되지 않고 GPU 온도가 상승합니다. 위의 팬 섹션에서 보았듯이 GPU 온도가 높으면 열 조절이 발생하여 GPU 속도가 느려집니다.

Arctic MX-4 GPU 써멀 페이스트

GPU용으로 높은 평가를 받고 있는 써멀 페이스트.

이 시나리오에서 가장 좋은 해결책은 열 페이스트를 직접 교체하는 것입니다. 컴퓨터 부품 판매자로부터 열 페이스트를 구입할 수 있습니다.

다른 부품의 고장, 땜납

GPU 칩 외에도 그래픽 카드에는 커패시터, 저항기, 메모리 칩 등과 ​​같은 수십 개의 다른 전자 부품이 포함될 것입니다. 그 중 하나는 과도하게 사용하거나 너무 많은 열에 노출되면 잠재적으로 실패할 수 있습니다. 일부는 다른 것보다 실패할 가능성이 더 큽니다.

PCB에 느슨하게 놓여 있는 커패시터의 사진.
Andrei Kuzmik/Shutterstock.com

특히 커패시터는 시간이 지남에 따라 고장이 발생하기 쉽습니다. 그들은 빈번한 온도 변화에 민감하며 일부는 처음 생산될 때 결함이 있습니다. 커패시터 문제를 해결할 수 있을 만큼 손재주가 있다면 동등한 교체 부품을 찾을 수 있다면 GPU 카드의 불량 커패시터를 잠재적으로 교체할 수 있습니다.

또한 GPU 카드의 회로 기판에 칩과 구성 요소를 결합하는 땜납은 잦은 온도 변화, 거친 물리적 취급, 부적절한 보관 또는 너무 뜨거워진 상태로 인해 시간이 지남에 따라 노후화되고 금이 갈 수 있습니다. 네, GPU를 많이 사용하면 솔더 조인트 고장의 위험이 증가할 수 있습니다. 불량 솔더 조인트를 수리하는 것은 기술적으로 어려울 수 있지만 불가능한 것은 아닙니다.

GPU 칩 자체의 오류

따라서 문제는 남아 있습니다. GPU 칩이 결국 과도하게 사용되면 마모될 수 있습니까? 대답은 이론적으로 극단적인 상황에서 예입니다. 그러나 그보다 훨씬 이전에 그래픽 카드의 다른 구성 요소에 오류가 발생했을 가능성이 큽니다.

그래픽 카드의 GPU 칩에는 실리콘 조각에 에칭된 수백만 또는 수십억 개의 트랜지스터가 포함되어 있습니다. 트랜지스터는 시간이 지남에 따라 노화되어 성능에 영향을 미칩니다. 충분한 트랜지스터가 오작동하면 칩이 실패합니다.

Semiconductor Engineering에 따르면 트랜지스터가 노화로 인해 시간이 지남에 따라 오작동하는 몇 가지 주요 이유(그 중 하나는 열)이며 오류는 칩의 기능 크기가 더 작을 가능성이 더 큽니다. 전문가들은 오늘날 만들어진 컴퓨터 칩이 1990년대에 만들어진 칩만큼 오래 가지 못할 것이라고 생각하지만 기술이 너무 새롭기 때문에 정확한 수명을 예측하는 것은 여전히 ​​추측에 불과합니다.

GPU 칩의 그림.
ZinetroN/Shutterstock.com

현재 NVIDIA는 소비자 그래픽 카드에 대한 MTBF(mean time between failure) 추정치를 게시하지 않지만 일부 산업용 및 비즈니스 그래픽 가속기에 대해서는 이를 게시합니다. 예를 들어 Tesla K20X GPU 가속기의 데이터시트는 카드의 MTBF(35C/95F 온도에서)가 “제어되지 않은 환경”의 경우 14.7년이고 “제어된 환경”의 경우 23.8년이라고 인용합니다. (일반적으로 산업용 그래픽 하드웨어는 일반 소비자용 그래픽 하드웨어보다 더 강력하고 과도하게 사용할 때 더 잘 견딜 것으로 예상됩니다.)

흥미롭게도 우리는 이 이론적인 수치를 현장 외부의 하드 데이터와 비교할 수 있습니다. GPU 수명에 대한 몇 안 되는 경험적 연구 중 하나는 Oak Ridge National Labs에서 저술한 “GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability”라는 제목의 2020년 논문에서 나온 것입니다. 이 문서는 거의 7년(2012-2019) 동안 현재 사용이 중단된 Cray XK7 Titan 슈퍼컴퓨터에 사용된 18,688 Nvidia K20X Kepler GPU 카드의 신뢰성에 대해 보고합니다.

크레이 XK7 타이탄 슈퍼컴퓨터
Cray XK7 슈퍼컴퓨터는 GPU 수명에 대한 귀중한 데이터를 제공했습니다. ORNL

연결 문제로 인해 초기에 약간의 문제가 발생한 후 XK7의 그래픽 카드에서 2016년(약 3-4년 후)까지 비교적 높은 신뢰성을 발견했으며, 그 때 많은 부분이 실패하기 시작했습니다. 하지만 그거 알아? 그들은 첫 번째 카드 배치(교체 전)에서 대부분의 오류를 GPU 칩 자체가 아니라 그래픽 카드 회로 기판의 결함 있는 저항으로 추적했습니다. 전반적으로 이 연구의 저자들은 K20X에서 많이 사용되는 GPU 카드의 평균 MTBF가 약 3년(Nvidia의 데이터시트에 인용된 대로 14-23년이 아님)이며 코어에서 가장 인기 있는 카드 중 일부가 먼저 고장나는 것을 발견했습니다. 그들은 “GPU 신뢰성은 방열에 달려있다”고 결론지었습니다.

따라서 그래픽 카드를 세계에서 가장 큰 슈퍼컴퓨터 중 하나(당시)만큼 집중적으로 사용하면 더 빨리 마모되고 팬 및 저항기와 같은 다른 구성 요소가 GPU 칩 자체보다 오래 전에 고장날 가능성이 높습니다. . 정확한 시간은 예측할 수 없는 요인에 따라 달라집니다.

결국 더위는 적이다.

결국, 우리가 읽은 모든 출처에서 GPU 카드가 얼마나 오래 지속되는지에 대한 가장 중요한 결정 요소는 실행되는 온도입니다. 카드가 뜨거울수록 모든 구성 요소가 더 빨리 저하됩니다. 또한 카드가 뜨거울수록 치명적인 오류를 방지하기 위해 성능이 더 많이 제한됩니다. 냉각이 잘되면 카드의 수명이 연장되고 성능이 향상됩니다.

중고 GPU를 구입하시겠습니까?  주의할 사항은 다음과 같습니다.

관련된중고 GPU를 구입하시겠습니까? 주의할 사항은 다음과 같습니다.

따라서 암호화폐를 채굴하든 게임을 하든 깨끗하고 작동하는 팬과 효과적인 열 페이스트로 GPU 카드를 상당히 시원하게 유지하면 운이 좋다면 성능이 저하될 때까지 사용할 수 있는 고성능 카드를 갖게 될 것입니다. 더 이상 사용되지 않으며 업그레이드합니다.

중고 GPU를 구입할 계획이라면 소유자가 GPU를 어떻게 취급하고 사용했는지 등 이력을 반드시 고려해야 합니다. 더 많이 사용되는 카드(지금 작동)는 단기적으로는 잘 작동하지만 장기적으로는 실패할 가능성이 더 큽니다. 카드의 수명에 대해 정확한 수치를 말할 수는 없지만 과도하게 사용하면 확실히 그래픽 카드가 더 빨리 마모됩니다.

행운을 빕니다!

관련된: Cryptocurrency Miners에서 중고 GPU를 구입하는 것이 안전합니까?