Pomiar opóźnienia pamięci GPU: sprawdzamy wydajność naszych kart graficznych

lubiegrac news Pomiar opóźnienia pamięci GPU: sprawdzamy wydajność naszych kart graficznych
Pomiar opóźnienia pamięci GPU: sprawdzamy wydajność naszych kart graficznych



| 20 kwietnia 2021, 10:00

facebook banner

Czy można zmierzyć wydajność karty graficznej? Firma Chips and Cheese Å›pieszy z odpowiedziÄ… porównujÄ…c najbardziej popularne procesory graficzne.

PrzyzwyczailiÅ›my siÄ™ mierzyć pamięć podrÄ™cznÄ… procesora i opóźnienia pamiÄ™ci, wiÄ™c dlaczego nie zrobić tego samego z procesorami graficznymi? Podobnie jak procesory, karty graficzne ewoluowaÅ‚y, aby wykorzystywać wielopoziomowe hierarchie pamiÄ™ci podrÄ™cznej w celu wypeÅ‚nienia rosnÄ…cej luki miÄ™dzy wydajnoÅ›ciÄ… obliczeniowÄ… a pamiÄ™ciÄ…. Podobnie jak w przypadku procesorów, możemy użyć testów porównawczych (w OpenCL), aby zmierzyć pamięć podrÄ™cznÄ… i opóźnienie pamiÄ™ci.

Bez zbÄ™dnych ceregieli witamy w pierwszym z trwajÄ…cych testów opóźnieÅ„ pamiÄ™ci GPU firmy Chips and Cheese.

Ampere i RDNA 2

Pamięć podrÄ™czna RDNA 2 jest szybka i jest jej dużo. W porównaniu do Ampere opóźnienie jest niskie na wszystkich poziomach. Infinity Cache dodaje tylko okoÅ‚o 20 ns po trafieniu L2 i ma mniejsze opóźnienie niż L2 Ampera. O dziwo, opóźnienie VRAM w RDNA 2 jest mniej wiÄ™cej takie samo jak w Amperach, mimo że RDNA 2 sprawdza jeszcze dwa poziomy pamiÄ™ci podrÄ™cznej w drodze do pamiÄ™ci.

Natomiast Nvidia trzyma siÄ™ bardziej konwencjonalnego podsystemu pamiÄ™ci GPU z tylko dwoma poziomami pamiÄ™ci podrÄ™cznej i wysokim opóźnieniem L2. PrzejÅ›cie z prywatnego SM-L1 Ampere do L2 zajmuje ponad 100 ns. RDNA L2 jest ~ 66 ns od L0, nawet z pamiÄ™ciÄ… podrÄ™cznÄ… L1 miÄ™dzy nimi. Poruszanie siÄ™ po masywnej matrycy GA102 wydaje siÄ™ zajmować wiele cykli.

Może to wyjaÅ›niać doskonałą wydajność AMD przy niższych rozdzielczoÅ›ciach. PamiÄ™ci podrÄ™czne L2 i L3 o niskim opóźnieniu RDNA 2 mogÄ… dać mu przewagÄ™ przy mniejszych obciążeniach, gdzie zajÄ™tość jest zbyt maÅ‚a, aby ukryć opóźnienia. W porównaniu chipy Ampere firmy Nvidia wymagajÄ… wiÄ™kszej równolegÅ‚oÅ›ci, aby zabÅ‚ysnąć.

CPU kontra GPU

Procesory sÄ… zaprojektowane tak, aby jak najszybciej uruchamiaÅ‚y obciążenia szeregowe. Procesory graficzne natomiast, sÄ… zbudowane do obsÅ‚ugi masowo równolegÅ‚ych obciążeÅ„. Ponieważ test jest napisany w OpenCL, możemy go uruchomić bez modyfikacji na procesorze.

Opóźnienia pamiÄ™ci podrÄ™cznej i DRAM firmy Haswell sÄ… tak niskie, że musieliÅ›my je okreÅ›lić na skali logarytmicznej. W przeciwnym razie wyglÄ…daÅ‚oby to jak pÅ‚aska linia znacznie poniżej danych liczbowych RDNA 2. I7-4770 z DDR3-1600 CL9 może wykonać obieg pamiÄ™ci w 63 ns, podczas gdy 6900 XT z GDDR6 potrzebuje 226 ns, aby zrobić to samo.

Jednak z innej perspektywy samo opóźnienie GDDR6 nie jest takie zÅ‚e. CPU lub GPU musi sprawdzić pamięć podrÄ™cznÄ… (i zobaczyć błąd) przed przejÅ›ciem do pamiÄ™ci. Możemy wiÄ™c uzyskać bardziej „surowy” obraz opóźnienia pamiÄ™ci, patrzÄ…c po prostu, ile czasu zajmie zajrzenie do pamiÄ™ci po trafieniu do pamiÄ™ci podrÄ™cznej ostatniego poziomu. Różnica miÄ™dzy trafieniem i brakiem ostatniego poziomu w pamiÄ™ci podrÄ™cznej wynosi 53,42 ns na Haswell i 123,2 ns na RDNA2.

Jako ciekawy eksperyment myÅ›lowy, hipotetyczny Haswell z kontrolerami pamiÄ™ci GDDR6 umieszczonymi jak najbliżej L3 może uzyskać okoÅ‚o 133 ns. To dużo jak na procesor klienta, ale nie tak dużo wiÄ™cej niż opóźnienie pamiÄ™ci serwera.

Zobacz także: Recenzja realme 8 - Lepszego smartfona w tej cenie obecnie nie znajdziecie!

Strasze modele NVIDIA

Maxwell i Pascal sÄ… w dużej mierze podobne, a GTX 980 Ti prawdopodobnie cierpi z powodu wiÄ™kszej matrycy i niższych zegarów. Dane po prostu potrzebujÄ… wiÄ™cej czasu, aby obejść chip. Nvidia nie pozwala OpenCL używać pamiÄ™ci podrÄ™cznej tekstur L1 w żadnej z architektur, wiÄ™c niestety pierwszÄ… rzeczÄ…, którÄ… widzimy, jest opóźnienie L2.

Turing zaczyna bardziej przypominać Ampere. Istnieje stosunkowo maÅ‚e opóźnienie L1, nastÄ™pnie L2 i wreszcie pamięć. Opóźnienie L2 wyglÄ…da mniej wiÄ™cej tak, jak w Pascalu. Opóźnienie pamiÄ™ci surowej wyglÄ…da podobnie do 32 MB.

Porównanie generacji procesorów graficznych AMD

Ciężko powiedzieć, dlaczego ​​opóźnienie Terascale jest mniejsze poniżej 32 KB. AMD twierdzi, że Terascale ma pamięć podrÄ™cznÄ… danych L1 o wielkoÅ›ci 8 KB, a wiÄ™c wyniki siÄ™ nie zgadzajÄ…. Test może trafiać w coÅ› w rodzaju pamiÄ™ci podrÄ™cznej ponownego użycia wierzchoÅ‚ków (ponieważ Å‚adowanie pamiÄ™ci kompiluje siÄ™ do klauzul pobierania wierzchoÅ‚ków).

GCN i RDNA 2 wyglÄ…dajÄ… zgodnie z oczekiwaniami. Ciekawe jest to, że opóźnienie AMD na wszystkich poziomach zmniejsza siÄ™ z upÅ‚ywem czasu.

Dla peÅ‚nego obrazu testu można obejrzeć wykresy, które dostÄ™pne sÄ… w źródle, w linku poniżej. 

Śledź nas na google news - Obserwuj to, co ważne w świecie gier!

źródło: https://chipsandcheese.com/2021/04/16/measuring-gpu-memory-latency/

Komentarze [0]:
Copyright © lubiegrac.pl.

Wszelkie Prawa Zastrzeżone.

Używamy informacji zapisanych za pomocą cookies i podobnych technologii m.in. w celach reklamowych i statystycznych oraz w celu dostosowania naszych serwisów do indywidualnych potrzeb użytkowników.

Korzystanie z serwisu oznacza akceptację regulaminu
Lubiegrac.pl

reklama

redakcja

regulamin

rss

SocialMedia

Partners