Pomiar opÃ³Åºnienia pamiÄ™ci GPU: sprawdzamy wydajnoÅ›Ä‡ naszych kart graficznych

| 20 kwietnia 2021, 10:00

Czy moÅ¼na zmierzyÄ‡ wydajnoÅ›Ä‡ karty graficznej? Firma Chips and Cheese Å›pieszy z odpowiedziÄ… porównujÄ…c najbardziej popularne procesory graficzne.

PrzyzwyczailiÅ›my siÄ™ mierzyÄ‡ pamiÄ™Ä‡ podrÄ™cznÄ… procesora i opóÅºnienia pamiÄ™ci, wiÄ™c dlaczego nie zrobiÄ‡ tego samego z procesorami graficznymi? Podobnie jak procesory, karty graficzne ewoluowaÅ‚y, aby wykorzystywaÄ‡ wielopoziomowe hierarchie pamiÄ™ci podrÄ™cznej w celu wypeÅ‚nienia rosnÄ…cej luki miÄ™dzy wydajnoÅ›ciÄ… obliczeniowÄ… a pamiÄ™ciÄ…. Podobnie jak w przypadku procesorów, moÅ¼emy uÅ¼yÄ‡ testów porównawczych (w OpenCL), aby zmierzyÄ‡ pamiÄ™Ä‡ podrÄ™cznÄ… i opóÅºnienie pamiÄ™ci.

Bez zbÄ™dnych ceregieli witamy w pierwszym z trwajÄ…cych testów opóÅºnieÅ„ pamiÄ™ci GPU firmy Chips and Cheese.

Ampere i RDNA 2

PamiÄ™Ä‡ podrÄ™czna RDNA 2 jest szybka i jest jej duÅ¼o. W porównaniu do Ampere opóÅºnienie jest niskie na wszystkich poziomach. Infinity Cache dodaje tylko okoÅ‚o 20 ns po trafieniu L2 i ma mniejsze opóÅºnienie niÅ¼ L2 Ampera. O dziwo, opóÅºnienie VRAM w RDNA 2 jest mniej wiÄ™cej takie samo jak w Amperach, mimo Å¼e RDNA 2 sprawdza jeszcze dwa poziomy pamiÄ™ci podrÄ™cznej w drodze do pamiÄ™ci.

Natomiast Nvidia trzyma siÄ™ bardziej konwencjonalnego podsystemu pamiÄ™ci GPU z tylko dwoma poziomami pamiÄ™ci podrÄ™cznej i wysokim opóÅºnieniem L2. PrzejÅ›cie z prywatnego SM-L1 Ampere do L2 zajmuje ponad 100 ns. RDNA L2 jest ~ 66 ns od L0, nawet z pamiÄ™ciÄ… podrÄ™cznÄ… L1 miÄ™dzy nimi. Poruszanie siÄ™ po masywnej matrycy GA102 wydaje siÄ™ zajmowaÄ‡ wiele cykli.

MoÅ¼e to wyjaÅ›niaÄ‡ doskonaÅ‚Ä… wydajnoÅ›Ä‡ AMD przy niÅ¼szych rozdzielczoÅ›ciach. PamiÄ™ci podrÄ™czne L2 i L3 o niskim opóÅºnieniu RDNA 2 mogÄ… daÄ‡ mu przewagÄ™ przy mniejszych obciÄ…Å¼eniach, gdzie zajÄ™toÅ›Ä‡ jest zbyt maÅ‚a, aby ukryÄ‡ opóÅºnienia. W porównaniu chipy Ampere firmy Nvidia wymagajÄ… wiÄ™kszej równolegÅ‚oÅ›ci, aby zabÅ‚ysnÄ…Ä‡.

CPU kontra GPU

Procesory sÄ… zaprojektowane tak, aby jak najszybciej uruchamiaÅ‚y obciÄ…Å¼enia szeregowe. Procesory graficzne natomiast, sÄ… zbudowane do obsÅ‚ugi masowo równolegÅ‚ych obciÄ…Å¼eÅ„. PoniewaÅ¼ test jest napisany w OpenCL, moÅ¼emy go uruchomiÄ‡ bez modyfikacji na procesorze.

OpóÅºnienia pamiÄ™ci podrÄ™cznej i DRAM firmy Haswell sÄ… tak niskie, Å¼e musieliÅ›my je okreÅ›liÄ‡ na skali logarytmicznej. W przeciwnym razie wyglÄ…daÅ‚oby to jak pÅ‚aska linia znacznie poniÅ¼ej danych liczbowych RDNA 2. I7-4770 z DDR3-1600 CL9 moÅ¼e wykonaÄ‡ obieg pamiÄ™ci w 63 ns, podczas gdy 6900 XT z GDDR6 potrzebuje 226 ns, aby zrobiÄ‡ to samo.

Jednak z innej perspektywy samo opóÅºnienie GDDR6 nie jest takie zÅ‚e. CPU lub GPU musi sprawdziÄ‡ pamiÄ™Ä‡ podrÄ™cznÄ… (i zobaczyÄ‡ bÅ‚Ä…d) przed przejÅ›ciem do pamiÄ™ci. MoÅ¼emy wiÄ™c uzyskaÄ‡ bardziej „surowy” obraz opóÅºnienia pamiÄ™ci, patrzÄ…c po prostu, ile czasu zajmie zajrzenie do pamiÄ™ci po trafieniu do pamiÄ™ci podrÄ™cznej ostatniego poziomu. RóÅ¼nica miÄ™dzy trafieniem i brakiem ostatniego poziomu w pamiÄ™ci podrÄ™cznej wynosi 53,42 ns na Haswell i 123,2 ns na RDNA2.

Jako ciekawy eksperyment myÅ›lowy, hipotetyczny Haswell z kontrolerami pamiÄ™ci GDDR6 umieszczonymi jak najbliÅ¼ej L3 moÅ¼e uzyskaÄ‡ okoÅ‚o 133 ns. To duÅ¼o jak na procesor klienta, ale nie tak duÅ¼o wiÄ™cej niÅ¼ opóÅºnienie pamiÄ™ci serwera.

Zobacz takÅ¼e: Recenzja realme 8 - Lepszego smartfona w tej cenie obecnie nie znajdziecie!

Strasze modele NVIDIA

Maxwell i Pascal sÄ… w duÅ¼ej mierze podobne, a GTX 980 Ti prawdopodobnie cierpi z powodu wiÄ™kszej matrycy i niÅ¼szych zegarów. Dane po prostu potrzebujÄ… wiÄ™cej czasu, aby obejÅ›Ä‡ chip. Nvidia nie pozwala OpenCL uÅ¼ywaÄ‡ pamiÄ™ci podrÄ™cznej tekstur L1 w Å¼adnej z architektur, wiÄ™c niestety pierwszÄ… rzeczÄ…, którÄ… widzimy, jest opóÅºnienie L2.

Turing zaczyna bardziej przypominaÄ‡ Ampere. Istnieje stosunkowo maÅ‚e opóÅºnienie L1, nastÄ™pnie L2 i wreszcie pamiÄ™Ä‡. OpóÅºnienie L2 wyglÄ…da mniej wiÄ™cej tak, jak w Pascalu. OpóÅºnienie pamiÄ™ci surowej wyglÄ…da podobnie do 32 MB.

Porównanie generacji procesorów graficznych AMD

CiÄ™Å¼ko powiedzieÄ‡, dlaczego â€‹â€‹opóÅºnienie Terascale jest mniejsze poniÅ¼ej 32 KB. AMD twierdzi, Å¼e Terascale ma pamiÄ™Ä‡ podrÄ™cznÄ… danych L1 o wielkoÅ›ci 8 KB, a wiÄ™c wyniki siÄ™ nie zgadzajÄ…. Test moÅ¼e trafiaÄ‡ w coÅ› w rodzaju pamiÄ™ci podrÄ™cznej ponownego uÅ¼ycia wierzchoÅ‚ków (poniewaÅ¼ Å‚adowanie pamiÄ™ci kompiluje siÄ™ do klauzul pobierania wierzchoÅ‚ków).

GCN i RDNA 2 wyglÄ…dajÄ… zgodnie z oczekiwaniami. Ciekawe jest to, Å¼e opóÅºnienie AMD na wszystkich poziomach zmniejsza siÄ™ z upÅ‚ywem czasu.

Dla peÅ‚nego obrazu testu moÅ¼na obejrzeÄ‡ wykresy, które dostÄ™pne sÄ… w Åºródle, w linku poniÅ¼ej.

Śledź nas na google news - Obserwuj to, co ważne w świecie gier!

źródło: https://chipsandcheese.com/2021/04/16/measuring-gpu-memory-latency/

Komentarze [0]:

Pomiar opÃ³Åºnienia pamiÄ™ci GPU: sprawdzamy wydajnoÅ›Ä‡ naszych kart graficznych

Inne newsy

Polecane teksty