Przez ostatnią dekadę rynek akceleratorów obliczeniowych był zdominowany przez jedną narrację: absolutną hegemonię Nvidii wspieraną przez ekosystem CUDA. Jednak rok 2024 i początek 2025 przyniosły fundamentalną zmianę w dynamice sił. Google (Alphabet), operując z pozycji największego klienta Nvidii, a zarazem jej najgroźniejszego konkurenta, przeszło do ofensywy z własną linią procesorów TPU (Tensor Processing Units) oraz nową architekturą CPU Axion. Rywalizacja ta nie dotyczy już tylko „szybszych chipów”, ale całkowitej redefinicji stosu technologicznego – od krzemu, przez kompilatory XLA, aż po modele Gemini i infrastrukturę Google Cloud.
Architektura GPU Nvidii: Dominacja Tensor Cores i Potęga Blackwell
Nvidia zawdzięcza swoją pozycję ewolucji architektury Streaming Multiprocessor (SM). W najnowszej architekturze Blackwell (układy B200), firma wprowadziła drugą generację silnika Transformer Engine, który dynamicznie zarządza precyzją obliczeń. Kluczowym elementem są tutaj jednostki Tensor Cores 5. generacji, które wspierają natywnie formaty FP4 oraz FP6. Pozwala to na podwojenie przepustowości obliczeniowej przy jednoczesnym zachowaniu dokładności modelu, co jest krytyczne w fazie wnioskowania (inference) przy modelach o parametrach liczonych w trylionach. Struktura SM w Blackwell została zoptymalizowana pod kątem minimalizacji latencji w komunikacji między rejestrami a pamięcią współdzieloną (shared memory), co bezpośrednio przekłada się na wydajność w algorytmach typu „all-reduce” stosowanych w treningu rozproszonym.
Kolejnym filarem przewagi Nvidii jest NVLink 5.0. W przeciwieństwie do standardowych szyn PCIe, które stanowią wąskie gardło w klastrach AI, NVLink 5.0 oferuje przepustowość na poziomie 1.8 TB/s na procesor graficzny. Pozwala to na stworzenie jednej logicznej jednostki obliczeniowej z 72 procesorów Blackwell w ramach szafy serwerowej GB200 NVL72. Z perspektywy dewelopera operującego na bibliotekach NCCL (Nvidia Collective Communications Library), cały klaster zachowuje się jak gigantyczny procesor z dostępem do spójnej puli pamięci HBM3e (High Bandwidth Memory). To właśnie ta abstrakcja sprzętowa sprawia, że Nvidia pozostaje domyślnym wyborem dla inżynierów LLM (Large Language Models), dla których czas synchronizacji wag modelu między węzłami jest równie istotny, co surowa moc TFLOPS.
Nie można pominąć roli ekosystemu CUDA (Compute Unified Device Architecture). Przez lata Nvidia budowała biblioteki takie jak cuDNN (dla sieci neuronowych) czy cuBLAS (dla algebry liniowej), które są głęboko zoptymalizowane pod specyficzne instrukcje mikroarchitektury GPU. Przejście na konkurencyjne rozwiązanie wymaga nie tylko zmiany sprzętu, ale często przepisania kluczowych kerneli obliczeniowych. Nvidia stosuje strategię „vertical integration” w oprogramowaniu, co tworzy wysokie koszty zmiany (switching costs) dla gigantów technologicznych. Mimo to, Google znalazło sposób na obejście tej bariery poprzez rozwój kompilatora XLA, który izoluje warstwę frameworka (PyTorch, JAX) od specyfiki sprzętowej, otwierając drogę dla TPU.
Google TPU: Anatomia Macierzy Systolitycznych i Przewaga ASIC
W przeciwieństwie do procesorów GPU Nvidii, które są jednostkami typu SIMT (Single Instruction, Multiple Threads) o szerokim zastosowaniu, Google TPU (Tensor Processing Unit) to układ typu ASIC (Application-Specific Integrated Circuit) zaprojektowany wyłącznie do operacji na macierzach. Sercem TPU jest Matrix Multiplication Unit (MXU), wykorzystujący architekturę macierzy systolitycznej. W tym modelu dane przepływają przez sieć procesorów w sposób ciągły, co eliminuje konieczność częstego odwoływania się do rejestrów i pamięci SRAM pomiędzy kolejnymi operacjami mnożenia i dodawania (MAC – Multiply-Accumulate). Dzięki temu TPU v5p osiąga znacznie wyższą efektywność energetyczną na jeden TFLOP w porównaniu do ogólnych architektur GPU, szczególnie przy stałym rozmiarze batcha danych.
Google postawiło na unikalne rozwiązanie w zakresie łączności między układami – Optical Circuit Switching (OCS). Podczas gdy Nvidia polega na elektrycznych przełącznikach NVLink, Google wykorzystuje wiązki światła i ruchome mikro-lustra do dynamicznego rekonfigurowania topologii sieci w klastrach TPU (tzw. TPU Pods). OCS pozwala na ominięcie tradycyjnych switchy warstwy 2/3, co redukuje latencję o rzędy wielkości i pozwala na tworzenie topologii typu 3D torus, idealnie dopasowanych do topologii modeli sieci neuronowych. To sprawia, że trening modelu Gemini 1.5 Pro na tysiącach jednostek TPU v5p jest nie tylko tańszy, ale i bardziej stabilny, gdyż awaria jednego węzła pozwala na natychmiastowe „przełączenie” optyczne omijające uszkodzony segment bez przerywania całego jobu obliczeniowego.
Wprowadzenie TPU v6e (znanego również jako „Underwood”) oraz TPU v5e pokazuje zmianę strategii Google – optymalizację pod kątem TCO (Total Cost of Ownership). O ile TPU v5p to „siła robocza” do treningu, o tyle v6e jest zoptymalizowane pod wnioskowanie masowe. Google zintegrowało w tych układach zaawansowane mechanizmy kwantyzacji, pozwalające na natywną obsługę formatów Int8 przy minimalnym spadku precyzji (loss of fidelity). Dzięki temu klienci Google Cloud mogą uruchamiać modele klasy Llama 3 czy Claude 3.5 Sonnet przy kosztach o 40-50% niższych niż w przypadku instancji A100/H100, co staje się kluczowym argumentem dla startupów AI dbających o „burn rate”.
Analiza Techniczna: Porównanie Wydajności i Przepustowości Pamięci
Kluczowym wąskim gardłem w nowoczesnych systemach AI nie jest sama moc obliczeniowa, lecz przepustowość pamięci (memory bandwidth). Nvidia H100 SXM5 oferuje 3.35 TB/s przepustowości przy użyciu pamięci HBM3. W odpowiedzi Google wyposażyło TPU v5p w 95 GB pamięci HBM o przepustowości rzędu 4.8 TB/s na chip. Różnica ta staje się krytyczna podczas trenowania modeli o długim oknie kontekstowym (Long Context Window). Przy kontekście rzędu 1 mln tokenów, mechanizm „Attention” w architekturze Transformer generuje ogromne zapotrzebowanie na szybki dostęp do KV Cache (Key-Value Cache). Wyższa przepustowość TPU pozwala na sprawniejszą obsługę tych operacji bez konieczności kosztownego przeładowywania wag z pamięci DRAM.
Z punktu widzenia precyzji obliczeń, Nvidia dominuje dzięki obsłudze formatu TF32 (Tensor Float 32), który pozwala na zachowanie zakresu dynamicznego FP32 przy szybkości FP16. Google z kolei promuje format bfloat16 (Brain Floating Point), który stał się de facto standardem w branży AI. Analiza porównawcza pokazuje, że w zadaniach czysto macierzowych (GEMM – General Matrix Multiply), TPU v5p wykazuje o 15-20% wyższą utylizację sprzętu (MFU – Model Flops Utilization) niż H100 przy tych samych modelach, co wynika z mniejszego narzutu warstwy oprogramowania i bardziej deterministycznej architektury ASIC.
Kolejnym aspektem jest stosunek wydajności do poboru mocy. Jednostka GB200 Nvidii może pobierać do 1200W (TDP), co stwarza ogromne wyzwania w zakresie chłodzenia cieczą w centrach danych. Google, projektując TPU v5e, postawiło na niższe TDP (około 200-300W), co pozwala na gęstsze upakowanie jednostek w standardowych szafach chłodzonych powietrzem. Dla dostawcy chmury oznacza to mniejsze wydatki na infrastrukturę pomocniczą (PUE – Power Usage Effectiveness), co bezpośrednio przekłada się na marżę operacyjną i możliwość agresywnej walki cenowej z AWS czy Azure.
Google Axion: Dlaczego Własny Procesor CPU zmienia Reguły Gry
Sukces w AI to nie tylko akceleratory. Każdy klaster GPU/TPU potrzebuje wydajnego procesora CPU do zadań kontrolnych, preprocessingu danych (tokenizacja, augmentacja obrazu) oraz obsługi stosu sieciowego. Dotychczas Google polegało na procesorach x86 (Intel Xeon, AMD EPYC), co wiązało się z płaceniem wysokiej marży zewnętrznym dostawcom. Wprowadzenie procesora Axion – opartego na architekturze Arm Neoverse V2 – jest ruchem mającym na celu pełną wertykalizację centrum danych. Axion oferuje do 60% lepszą efektywność energetyczną niż porównywalne układy x86, co w skali milionów serwerów Google oznacza oszczędności idące w miliardy dolarów rocznie.
Technicznie Axion został zoptymalizowany pod kątem instrukcji specyficznych dla chmury. Wykorzystuje on rozszerzenia ARMv9, w tym SVE2 (Scalable Vector Extensions), które wspomagają zadania związane z bezpieczeństwem (szyfrowanie w locie) oraz kompresją danych. W połączeniu z TPU, Axion tworzy synergiczny tandem: CPU przygotowuje dane z ogromną prędkością, a TPU wykonuje ciężkie operacje matematyczne. Dzięki temu unika się problemu „CPU bottleneck”, który często występuje w systemach Nvidii parowanych ze starszymi generacjami Xeonów, gdzie GPU marnuje cykle zegara czekając na dane z procesora głównego.
Dla inwestorów, takich jak Warren Buffett i Berkshire Hathaway, Axion i TPU to dowód na budowanie „fosy” (moat). Google nie tylko sprzedaje usługi AI, ale posiada własną technologię produkcji narzędzi do ich wytwarzania. To uniezależnienie od cyklu wydawniczego Nvidii i problemów z łańcuchem dostaw TSMC (poprzez rezerwowanie własnych linii produkcyjnych dla ASIC) daje Google strategiczną przewagę w okresach niedoboru chipów. Alphabet przestaje być tylko firmą software’ową – staje się potęgą półprzewodnikową, rzucającą wyzwanie tradycyjnym modelom biznesowym Intela i Nvidii.
Wpływ na Rynek i Strategia Berkshire Hathaway
Inwestycja Berkshire Hathaway w Alphabet o wartości 4,3 mld USD sygnalizuje, że rynek zaczyna dostrzegać głęboką wartość w infrastrukturze Google. Nvidia, mimo oszałamiających wyników finansowych, jest narażona na ryzyko „cyklu nadpodaży”. Kiedy najwięksi klienci (Google, Microsoft, Meta) nasycą swoje centra danych układami H100/B200, popyt może gwałtownie spaść. Google z kolei posiada model biznesowy oparty na usługach (Search, YouTube, Cloud), gdzie własne chipy służą do obniżania kosztów własnych, co czyni spółkę bardziej odporną na wahania koniunktury na rynku sprzętu.
Analiza TCO (Total Cost of Ownership) pokazuje, że dla dużych przedsiębiorstw przejście na Google Cloud z wykorzystaniem TPU zamiast standardowych GPU może obniżyć koszty operacyjne AI o 30-50% w skali trzech lat. To zjawisko zaczyna wywierać presję na Nvidię, zmuszając ją do obniżania marż lub oferowania dodatkowych usług (jak Nvidia DGX Cloud), by utrzymać lojalność klientów. Wyścig zbrojeń przeniósł się z poziomu „kto ma najszybszy chip” na poziom „kto dostarczy najtańszy token”. W tej kategorii Google, dzięki pełnej kontroli nad stosem technologicznym, wydaje się być na uprzywilejowanej pozycji.
Wnioski: Kto wygra wojnę o krzem AI?
Rywalizacja Google vs Nvidia nie zakończy się szybkim zwycięstwem jednej ze stron. Nvidia pozostanie liderem w segmencie „General Purpose AI” – dla firm potrzebujących elastyczności i najszerszego wsparcia społeczności. Jednak Google zdefiniowało nową kategorię „Hyper-Efficient AI”. Poprzez integrację procesorów Axion, akceleratorów TPU i optycznego switchingu, Alphabet stworzył najbardziej zaawansowaną i opłacalną ekonomicznie fabrykę inteligencji na świecie.
Dla branży maszynowej i inżynierów danych kluczowy wniosek jest jasny: optymalizacja kosztowa AI przenosi się w stronę specjalizowanych układów ASIC. Czas bezkrytycznego kupowania najdroższych jednostek GPU mija – nadchodzi era precyzyjnego dobierania architektury do konkretnego zadania (workload-specific computing). W tym nowym świecie Google nie jest już tylko wyszukiwarką, ale fundamentem infrastrukturalnym, na którym opierać się będzie rentowność projektów AI w nadchodzącej dekadzie.
