Architektura Sandy Bridge

Nová loga procesorů Core druhé generaceIntel v těchto dnech představuje novou generaci svých procesorů. V rámci své strategie „tik-tak“ po „tik“ přechodu z Nehalemu (proces 45nm) na Westmere (proces 32nm) přichází „tak“, tedy nová mikroarchitektura, známá pod kódovým označením Sandy Bridge.

Další v pořadí bude „tik“ přechod na 22nm (Ivy Bridge), avšak to je zatím hudba budoucnosti. U každé novinky Intelu vždy píšeme otřepané fráze o vyšším výkonu, řekněme se proto raději technicky, proč a kde se tento vyšší výkon bere a jaký přínos to pro nás bude znamenat.

Několik slov z obchodního úhlu pohledu

Doposud vždy při příchodu nové generace procesorů Intel vždy začínal produkty v nejvýkonnějším a tedy cenově nejdražším segmentu, a tato nová generace pak v různých modifikacích (velikost paměti cache, počet jader a další vlastnosti) postupně sestupovala přes střední proud až po cenově nejnižšího segmentu. V nejvyšším segmentu Intel již delší dobu z výkonového hlediska nemá konkurenci. Hlavní boj proto probíhá především ve středním proudu, kde se ovšem odehrává největší část obchodu, zde společnost AMD konkurovala především nižší cenou. A tentokrát se uvedení nové generace odehrálo nejprve právě v tomto středním segmentu, na vstup mikroarchitektury Sandy Bridge do segmentu výkonných pracovních stanic a serverů si budeme muset počkat na konec roku. Navíc byl uveden největší počet různých modelů procesorů najednou (různé frekvence, optimalizace spotřeby, odemčené násobiče – toto mimochodem i u středních modelů, mobilní varianty) v dosavadní historii. Konkurenci rozhodně nečekají lehké časy.

Co je nového

Sandy Bridge obsahuje na jednom čipu procesorová jádra, paměť cache, řadiče sběrnic a podpůrné obvody a co je podstatné, nově i grafické jádro. U předchozí generace byla již také grafika v mikroprocesoru, ale pouzdro ve skutečnosti obsahovalo dva nezávislé kousky křemíku, vyrobené dokonce různými výrobními procesy. Všechny interní komponenty (jádra, grafika, cache atd.) jsou spolu propojeny vysoce výkonnou kruhovou sběrnicí (ring bus). Integrace grafického jádra společně s faktem, že část paměti cache se nyní využívá jako grafická paměť, přispívají k výrazně vyššímu výkonu integrované grafiky oproti předchozím generacím. Na poli grafiky ovšem nezůstává u této jediné inovace: Jsou přidány nové technologie pro dekódování i dokonce i kódování videa, takže v této oblasti má integrovaná grafika dokonce náskok i před známými hráči na poli diskrétních výkonných grafických karet.

Nová patice

Integrace grafiky si vynutila poněkud jiné vnitřní uspořádání a to vedlo k potřebě jiného rozmístění vnějších vývodů a nemožnosti použít předchozí patici LGA1156. Máme tak novou patici LGA1155, která, i když fyzicky prakticky identická, má jinak umístěné zámky, takže nejde zkřížit starší procesor s novou paticí a naopak. Vnitřní integrace vedla k umístění generátoru taktovacích kmitočtů to čipové sady, což prakticky vylučuje doposud používané přetaktování zvýšením rychlosti sběrnice procesoru. Na druhé straně se objevuje celá řada procesorů s odemčeným násobičem (za číselným označením mají písmeno K), a na rozdíl od minulosti už nejen v těch nejdražších variantách, cenový rozdíl od uzamčené verze je zhruba 20 dolarů.

Architektura

Jádra


V současném stavu jsou k dispozici varianty procesorů Sandy Bridge se čtyřmi jádry (s HyperThreadingem nebo bez), a se dvěma jádry (dvoujádrové verze mají všechny HyperThreading povolen). Tato jádra jsou při stejném taktovacím kmitočtu výkonnější než jádra Nehalemu. Nově byla implementována paměť cache na dekódované mikrooperace. Stejně jako u předchozí generace jsou zde 32KB L1 instrukční a 32KB L1 datové cache a 256KB L2 cache (od nynějška budeme říkat MLC - Mid Level Cache neboli cache střední úrovně) na jádro, nově však Sandy Bridge obsahuje cache „nulté úrovně“ L0, která může obsáhnout až 1500 dekódovaných mikroinstrukcí. Tato vlastnost přináší nejen zvýšení propustnosti, ale také úsporu napájení (instrukční dekodéry u CISC architektury x86 jsou relativně složité a jejich vypnutí ušetří dost energie). Pokud je zjištěno, že požadovaná instrukce je již obsažena v cache, dekodéry se vypnou do té doby, než jsou znovu potřeba. Většina aplikací dosahuje zhruba 80% úspěšnosti nalezení již použité instrukce v této úrovni cache.

Kromě toho Intel opět kompletně přepracoval jednotku předpovídání skoků. Jedna z oblastí, na které se mikroarchitekti Intelu zaměřují nejvíce, je totiž právě predikce skoků. Důvody jsou zřejmé: Hodně zlepšení, která zvýší výkon, také zvýší spotřebu. Aby se zachovala efektivita, mikroarchitekti musí zajistit, že nová vlastnost přidá více výkonu, než stojí na spotřebě. Naproti tomu predikce skoků je jedna z mála oblastí, kde zlepšení obecně zvýší výkon a sníží spotřebu. Každý špatně předpovězený skok způsobí vyprázdnění všech rozpracovaných instrukcí v dané větvi programu, což znamená zbytečně vynaloženou práci na zhruba stovku rozpracovaných instrukcí a také zbytečné vynaložení veškeré energie vložené do zpracování těchto instrukcí. Vyvarování se drahých špatně předpovězených skoků pomocí lepšího předpovídání je proto vysoce účelné a u Intelu na to kladen odpovídající důraz.

Nová jednotka sice obsahuje přibližně stejný počet tranzistorů jako předchozí, ale je mnohem přesnější. Standardní prediktor skoků je 2-bitový. Každý skok v tabulce se označí jako provedený nebo neprovedený, společně s údajem o spolehlivosti této informace (silná/slabá). V Sandy Bridge tento dvourežimový prediktor používá jeden bit údaje o spolehlivosti pro více skoků, namísto použití jednoho bitu pro každý skok. V důsledku toho stejný počet bitů v tabulce historie skoků reprezentuje mnohem více skoků, což vede k úspoře místa a mnohem přesnějším predikcím.

Tabulka cílových adres skoků také doznala značného zvýšení efektivnosti. V předchozích architekturách byla jedna velikost pro všechny cíle, ukázalo se však, že většina cílů skoků je relativně blízko. Proto namísto ukládání všech cílů ve velké struktuře schopné ukládat vzdálené cíle nyní Sandy Bridge podporuje různé velikosti cílů skoků. S menší velikostí cílů se méně plýtvá místem a díky tomu nyní CPU může udržovat informace o více cílech, což samozřejmě zlepšuje přesnost predikce.

Nakonec je zde konvenční metoda zvýšení přesnosti prediktoru skoků: Použít větší počet bitů pro počítání historie. Bohužel toto funguje dobře jen pro určité typy skoků, a ne pro krátká častěji se vyskytující větvení (cykly, if/else). Prediktor Sandy Bridge si proto dělí skoky na ty, které potřebují krátkou a dlouhou historii pro přesnější předpověď.

Sandy Bridge jsou první procesory, které podporují instrukce Advanced Vector Extensions (AVX), 256-bitové rozšíření instrukční sady SSE (AMD bude také podporovat AVX ve své připravované architektuře). Požadavky na AVX přicházejí hlavně ze světa vysoce náročných výpočtů v plovoucí čárce, kde aplikace vyžadují stále více výkonu. Pro běžného uživatele Intel předpokládá využití ve zpracování zvuku a videa (hlavní využití se předpokládá ve finančních analýzách a návrhovém a výrobním software). U dekódovaných mikroinstrukcí se spolu s instrukcí udržují kopie všech operandů, které mikroinstrukce vyžaduje. Tak tomu bylo u Core Duo a Nehalemu. U Core Duo však byla délka operandu 80 bitů, s přidáním SSE 128 bitů, a AVX by nyní mohlo potenciálně vyžadovat 256 bitů na každý operand, což by spolu s plánovacím a přeuspořádavacím hardwarem znamenalo značný nárůst počtu tranzistorů. Intel proto implementoval Physical Register File – operandy mikroinstrukcí jsou uloženy v registrech, a jak mikroinstrukce putuje skrz exekuční jednotky, udržují se pouze ukazatele na data a nikoliv data samotná. To podstatně snižuje spotřebu exekučních jednotek (přesuny velkého množství dat spotřebují spoustu energie), a také redukuje potřebnou plochu čipu. Uspořená plocha se dá využít ve větší exekuční okno, tedy větší počet rozpracovaných instrukcí.

Architektura Sandy Bridge

Cache L3 a prstencová sběrnice

Jako důsledek zvýšené integrace musel Intel řešit způsob, jak procesory adresují cache nejvyšší úrovně (L3, od nynějška LLC neboli Last Level Cache). V dřívějších architekturách dvě, čtyři a u Westmere dokonce 6 jader znamenalo, že každé jádro musí mít svoje vlastní propojení do této společné cache. To reprezentuje přibližně 1000 vodičů na jádro. Problém toho řešení je, že se velmi špatně škáluje se zvyšujícím se počtem jader či jiných komponent, potřebujících přístup do této paměti. Proto Intel implementoval (poprvé již u Westmere EX, což je 8-jádrový procesor určený pro 4-paticové systémy) prstencovou sběrnici, což společnosti umožní zvyšovat počet jader, aniž by se složitost čipu vymkla kontrole. Pro desktopové čipy se ovšem nejedná ani tak o vysoký počet jader, jako o integrovanou grafiku. Všechny nově vyvíjené produkty Intelu nyní budou používat kruhovou sběrnici a v budoucnu se pravděpodobně můžeme dočkat i jiných komponent platformy připojených prostřednictvím této sběrnice. Fyzicky se sběrnice skládá ze 4 okruhů, všechny 256 bitů neboli 32 bytů široké se zabezpečením ECC –jsou to Data Ring, Request Ring, Acknowledge Ring a Snoop Ring. Každé zařízení na této sběrnici má svoji vlastní „zastávku“. Prstenec vždy volí kratší cestu. Řízení sběrnice je na prstenci distribuováno, každá zastávka ví, jestli o zastávku dál je volno nebo ne. Propojovací vodiče jsou vedeny v posledních kovových vrstvách nad L3 cache, takže nemají vliv na plochu čipu. To umožňuje Intelu zvyšovat počet jader nebo velikost L3 cache, případně přidávat další funkční bloky, aniž by se musel zabývat další plochou čipu pro prstencovou sběrnici.

Latence L3 cache byla podstatně snížena ze zhruba 36 cyklů u Westmere na 26-31 cyklů u Sandy Bridge. Na rozdíl od Westmere tato cache běží na taktovací frekvenci jádra. L3 cache je rozdělena na řezy, jeden asociovaný s každým jádrem, ačkoliv každé jádro může adresovat celou cache.

Systémový agent

U předchozí architektury Intel používal termín „uncore“ pro komponenty, které nejsou v jednotlivých jádrech. Patřila sem L3 cache (společná všem jádrům) a ostatní podpůrné obvody. U Sandy Bridge je L3 cache samostatná komponenta, a zbytek původního „uncore“ dostal název Systémový agent. Systémový agent obsahuje tradiční severní můstek. Je zde 16 linek sběrnice PCI Express, které mohou v případě potřeby být rozděleny na dva kanály x8. Dále je zde přepracovaný paměťový řadič DDR3, snižující latenci paměti na úroveň předchozí generace bez integrované grafiky (předchozí generace obsahující integrovanou grafiku měla o něco horší latenci, protože paměťový řadič byl přesunut z CPU na grafický čip). Dále systémový agent obsahuje jednotku řízení napájení, což je programovatelný mikrokontrolér starající se o všechny úkoly kolem řízení spotřeby a reset, a managementové rozhraní DMI.

Schéma funkčních bloků čipu Sandy Bridge

Agresivnější Turbo

Předchozí generace přinesla myšlenku dynamického zvýšení taktovací frekvence jednoho jádra, pokud jsou ostatní jádra nevyužitá. Pokud máte procesor s teplotní obálkou např. 65W, ale tři ze čtyř jader jsou nevyužitá, pak můžete zvýšit rychlost aktivního jádra, dokud nedosáhnete teplotního limitu. První generace této technologie vycházela z předpokladu, že CPU dosáhne této tepelné obálky ihned po zapnutí turba. Ve skutečnosti se však CPU nezahřeje hned, je zde náběh, než CPU začne vyzařovat svoji plnou tepelnou obálku. Sandy Bridge této skutečnosti využívá a dovolí své jednotce řízení spotřeby přeturbovat aktivní jádra nad termální obálku po krátký časový interval (až 25 sekund). Jednotka řízení spotřeby si hlídá dostupný tepelný rozpočet a utratí jej v okamžiku, kdy vyskočí požadavek na CPU. Čím déle je CPU nevyužitý, tím větší má potenciál jít nad tepelnou obálku (nechali jsme jej prostě vychladnout). Teprve při zátěži, která trvá i po dobu, co se CPU zahřeje, se výkon sníží na úroveň termálního designu.

Grafika

Integrovaná grafika oproti předchozí generaci zaznamenala zdaleka největší nárůst výkonu. Zatímco u CPU jader můžeme mluvit o 10-30% zlepšení, grafika Sandy Bridge je přibližně dvakrát výkonnější než u předchozí generace. Grafika je postavena na stejném kousku křemíku z těch samých 32nm tranzistorů jako jádra CPU. Má svou vlastní napájecí část a generátor hodin. Grafika může být vypnuta, nebo taktována nezávisle na CPU a je zde k dispozici rovněž turbo režim, tj. dočasné „přetaktování“, pokud ostatní části čipu v součtu nepřekročí tepelnou obálku. Grafika má rovnoprávný přístup do L3 cache jako ostatní komponenty a grafický ovladač řídí, co jde do L3 cache, a kolik této cache může GPU používat. Na rozdíl od co nejvíce programovatelných GPU vyráběných jinými firmami byl při návrhu grafiky pro Sandy Bridge použit přesně opačný přístup – cokoliv může být popsáno pevnou funkcí, bude implementováno jednoúčelovým hardwarem. Výhodou je poměr výkonu proti spotřebě a ploše čipu, určitou nevýhodou pak je vzdání se jisté flexibility. Jednotlivé programovatelné funkční jednotky skládající se ze shaderů, jader a exekučních jednotek Intel dohromady nazývá EU. V EU je implementováno mnoho vylepšení, například transcendentní matematika byla podstatně zrychlena. V předchozích generacích bylo registrové pole přerozdělováno za běhu. Pokud výpočetní vlákno potřebovalo méně registrů, zbylé registry mohly být přiděleny jinému vláknu. To sice šetřilo plochu čipu, ale ukázalo se to jako výkonová brzda. V předchozí generaci bylo v průměru 80 registrů na vlákno, v Sandy Bridge má každé vlákno pevný počet registrů, a to 120 na vlákno. V době uvedení jsou k dispozici dvě verze grafiky, jedna s 6 EU a druhá s 12 EU. Všechny mobilní součástky budou mít 12 EU, zatímco desktopové budou mít 6 nebo 12 podle modelu.

Media Engine

Po boku grafiky sedí Media Procesor. Skládá se komponent pro dekódování a pro kódování videa. Hardwarově akcelerovaný dekodér dekóduje video pomocí jednotek s pevnou funkcí. U předchozí generace pro určité stupně dekódování videa byly používány jádra CPU. V důsledku přechodu všech stupňů dekódování do hardwaru je nyní spotřeba procesorů při přehrávání HD videa poloviční.

Podpora videa, nyní nazývaná technologie QuickSync, byla poprvé ohlášena na Intel Developer Foru 2010 a zapůsobila jako překvapení, které přistihlo firmy nVidia i AMD totálně nepřipravené. Přitom první koncepce se uvnitř Intelu objevila již před pěti lety, tedy v době, kdy se teprve začínaly objevovat první disky Blue-Ray a s nimi video s vysokým rozlišením. Intel vycházel z toho, že dosažení srovnatelného výkonu, jako mají diskrétní 3D grafické karty, by znamenalo daleko větší počet tranzistorů a tedy plochu čipu, a rozumně usoudil, že video je sféra zajímající podstatně více zákazníků a vyřešení inteligentního energeticky úsporného přehrávání a kódování bude přitom stát podstatně méně tranzistorů. Pikantní na celé věci je, že se celou věc podařilo skutečně důsledně po celou dobu utajit. AMD i nVidia okamžitě začaly pracovat na své odpovědi, avšak podle informací dostupných v době psaní tohoto článku jsou od tohoto cíle nejméně rok daleko. Dedikované kousky hardwaru pro dekódování videa jsou schopny zpracovat MPEG-2, VC-1 a AVC. Sandy Bridge obsahuje hardware pro kompletní multiformátový kodek: Škálování videa, odstranění šumu, zlepšení pleťových tónů, řízení barev a kontrastu.

Vyhledávání

Přihlaste se k odběru novinek:

Váš email:

více informací

Novinky

Esoft vydá novou verzi apliancí
 Již v březnu se můžeme těšit na novou verzi oblíbených virtuálních apliancí Esoft. Zásadní novinkou... Číst dále »

Symantec doporučuje nepoužívat pcAnywhere
Symantec doporučuje zákazníkům přestat používat software pro vzdálený přístup, pcAnywhere, dokud nevydá aktualizaci bránící možným útokům, které mohou být umožněny krádeží zdrojového kódu produktu. Číst dále »

Virtuální Esoft Apliance
 Americká společnost Esoft, jejíž produkty distribuujeme již léta na českém a slovenském trhu, přišla se zajímavou alternativou svých řešení pro antispamovou ochranu sítí.... Číst dále »

Seminář technologické novinky 2011
Zaregistrujte se na seminář a vyhrajte hodnotné ceny! Dozvíte se o novinkách z dílen společností Intel, Microsoft, ESET, Kerio, VMWare i trendy a výhledy na rok 2012. Číst dále »

Esoft virtuálně
Hardwarové apliance pro ochranu sítí před útoky z internetu americké firmy Esoft distribuujeme na českém trhu již řadu let. Zajímavou novinkou je... Číst dále »

Nové ceny počítačů
Bez výraznější technologické změny došlo k úpravě cen PC řady Compact, Comfort i Optima. Číst dále »