RENDER ZONE HIGH END

http://www.ontmoeting.nl/renderzone/he/

homepage 

9 augustus 2017

 
 

Intel Xeon Phi (1/2)

 

Intel Xeon Phi toepassen?

Intel Xeon's familie werd rond 2001 ontwikkeld en men constateerde, dat meer Cores ook meer opgenomen vermogen betekende, waardoor de grens van wat in de toekomst mogelijk zou zijn in zicht kwam. Het was tijd voor een rigoreuze stap: de onwikkeling van een soort super processor, maar dan eenvoudig in één PCI-E slot geprikt, of als losse extra processor in een host slot.
 
Bij de ontwikkeling van de Intel Phi werd een manier bedacht om wel veel Cores te leveren, maar waarbij het opgenomen vermogen beperkt zou blijven door gebruikmaking van een nieuwe microarchitectuur ontwerp.
 
In de tijd dat de Intel Phi werd ontwikkeld (2004), was het voor Intel duidelijk, dat ze met de steeds verdergaande "ver-coring en versnelling" van grafische kaart NVIDIA een tegenantwoord moesten bedenken. Al was het alleen maar op het gebied van marketing, waarbij de wereld duidelijk moest worden gemaakt dat de processor nog steeds springlevend was en dat meerdere cores ook later "bijgevoegd" zouden kunnen worden.
 
Nvidia ontwikkelde in sneltreinvaart steeds snellere GPU's voor gelijke of lagere prijs dan voorgaande typenummers. En met de opkomende GAMES markt zag Intel het als onwenselijk dat de concurrent er met de dollars van door zou gaan.
 
Zijn de Intel x86 cores, dan nog te gebruiken en aan te sturen?
Jawel, omdat de instructie set architectuur (ISA) voor x86 compatibiliteit een klein gedeelte van het vermogen zou gebruiken.
 
De ontwerpers van de Phi begonnen met gebruikmaking van Pentium 5 cores te experimenteren, die middels een ring interface met elkaar werden verbonden.
Met als toevoeging fixed-functie eenheden, waaronder de Texture Sampler voor grafische toepassingen. Het doel was om een betere balans te vinden tussen opgenomen vermogen en het aantal parallele processen (Cores en Threads).
 
Het was niet verrassend dat Intel in 2009 ook nog startte met een soort Grafische kaart, die grote hoeveelheden data / berekeningen zou kunnen gaan uitvoering.
(Larrabee 1)
 
 
Larrabbe uit het verleden: Intel nu werderom in de High-End GPU markt, tien jaar na dato toen de i740 de das werd omgedaan. Larrabee met groot aantal Texture units, maar zonder fixed units. De cores verzorgen alle vector berekeningen. Het bleek toch een processor met uitbreiding, dus flexibelere dan de "standaard" GPU's.
 
 

 
Tom's Hardware
Larrabee: Intel's new gpu
23 maart 2009
http://www.tomshardware.com/reviews/intel-larrabee-graphics,2253.html
 
 
 
 
NVIDIA de concurrent had vanaf de eerste dagen van snelle GPU's, tegelijk een heel platform opgezet om CUDA te promoten en te ondersteunen.
 
Intel wilde de wereld laten zien dat meerdere Cores ook prima met een soort Intel processor tot stand kon komen. Ze konden het niet aanzien dat NVIDIA al het intensieve rekenwerk bij de processor vandaan zou halen, er was zelfs al sprake van computers zonder CPU, waar nb. het Windows operating systeem al mee kon worden opgestart.
 
De Intel "host" CPU van de computer moest en zou hulp krijgen van één of zelfs meerdere Co-processoren om zo het aantal Cores in een klap fors op te schroeven.
 
Het zou een hoop extra programmeerwerk wegnemen als de co-processor op dezelfde manier te besturen zou zijn door de software als "gewone" Intel processoren, dat was dan ook het uitgangspunt. Maar nu bijna allemaal parallel en met meer Cores tegelijk.
 
Daarmee zouden parallel verlopende processen, zoals ondermeer voor het maken van renderingen, gigantisch kunnen worden versneld.
 
In wezen gaat het hierbij om "Portable High Performance Programming".
Samen met het zo hoog mogelijk opvoeren van de klokfrequentie, gaat automatisch het opgenomen vermogen van zo'n co-processor toch ook omhoog.
 
We zien gedurende de jaren 1990 tot aan 2010 een enorme sprong in het aantal te gebruiken transistor functies in de IC's. Waarbij honderd miljoen ongeveer in 2005 werd bereikt, maar al lang niet meer het hoogste aantal is.
 
 
 

Jammergenoeg zijn de meeste computer (software) toepassingen ongeschikt voor parallele processing

Alle 3D tekenprogramma's en tekstverwerkers (van alle merken) kunnen maar met 1 host processor Core overweg. De meeste software programma's en toepassingen kunnen niet parallel werken, waardoor de markt voor meer Cores, of extra Cores van een Co-processor niet heel erg groot kan worden genoemd.
 
Daar komt bij dat een processor met meer Cores, automatisch een lagere klokfrequentie met zich mee brengt, hetgeen haaks staat op het verder opvoeren van juist die klokfrequentie van één Core voor tekenprogramma's.
 
Waarom zien we in 2017 dan toch dat Intel kloeke en grote stappen zet om met meer Cores uit te komen voor de consumentenmarkt? En AMD die met de ZEN-serie goedkopere meervoudige Core processoren aanbiedt.
 
De hele Intel CPU-reeks wordt danig opgeschud, door concurrent AMD met Ryzen met meer Cores en Threads nu voor het eerst in het betaalbare consumenten segment. AMD brengt tot aan 16 cores processoren Threadripper, met een onverwacht aantal 64 PCI-E Gen 3 lanes aansturing.
 
 
 
Zijn al die Cores dan wellicht toch achteraf overbodig?
Is het daarom dat Intel jarenlang het aantal Cores maar een beetje links heeft laten liggen en alleen betaalbaar heeft gemaakt voor de High End computer gebruikers?
 
Een belangrijke toepassing van parallele verwerking is zondermeer de GAMES markt, waarbij eveneens 3D modellen aan de basis staan en het "life" en razend snel gerenderd moet worden met zoveel frames per seconde als maar mogelijk is. Op grote 4K & 5K schermen of zelfs op meerdere schermen tegelijk en dan ook nog zo natuurgetrouw mogelijk.
 
 
 
Intel Xeon Phi
Coprocessor High Performance Programming
$ 60,- nieuw
Authors Jim Jeffers and James Reinders spent two years helping educate customers about the prototype and pre-production hardware before Intel introduced the first Intel Xeon Phi coprocessor. They have distilled their own experiences coupled with insights from many expert customers, Intel Field Engineers, Application Engineers and Technical Consulting Engineers, to create this authoritative first book on the essentials of programming for this new architecture and these new products.
 
 
 

Phi een succes?

Jaren later is de eerste opleving van Intel's Phi wel enigszins geluwd. De markt bleek niet gemakkelijk bereid te zijn om deze Phi aan te schaffen en dan ook nog een geschikt en drie-maal zo duur moederbord daarbij te zoeken. Nog afgezien van de grotere computer voeding, die nodig is om de extra 250 Watt te leveren.
 
Intel was er gemakshalve vanuit gegaan dat de klantenkring voor de Phi te vinden zou zijn bij de dubbele Xeon server- of werkstation gebruikers, met dito professionele moederborden en andere professionele aanvullingen en een grote portemonee. Dat bleek veel minder dan verwacht.
Daarmee ging Intel geheel voorbij aan de niet-professionele enthousiaste computer gebruiker, die de relatief goedkope XeonPhi ook zou willen aanschaffen, maar niet werd aangesproken in Intel's promotie campagnes.
 
Nog een belangrijk aspect, waarom Phi niet dat werd wat door Intel aanvankelijk was gehoopt. En dat was het feit dat de Phi welliswaar "eenvoudig" aanstuurbaar zou zijn via bestaande x86 software, maar die (render) software moest dan wel een afslag nemen bij het compileren. En of dat dan ook gedaan was in het uiteindelijk rendersoftware product, dat is voor de gebruiker niet eenvoudig te achterhalen.
 
Waardoor de eerste aankoop opwelling van aanschaf van een co-processor om de render nu eindelijk eens drastisch terug te dringen, een knauw kreeg. Wat blijkt, dat verkoop punten waar de Phi producten staan zijn op z'n zachtst gezegd onoverzichtelijk. Het wordt niet erg duidelijk welke typen er zijn, welke typen in de verkoop zijn en wat dan de uiteindelijke handelsprijs daarvoor wordt gevraagd. Op internet zijn variaties van meer dan $ 1.000 niet ongewoon.
 
En dan hebben we ook nog de individuele Intel Xeon Phi processor, een host processor die voor grote parallele verwerking geschikt is. Bootable: met een aanzienlijk voordeel, de Xeon Phi nodes kunnen zonder host processor werken. Zo zijn er diverse U-rekken uitgekomen waarin tot 4 stuks Phis waren toegepast.
 
QTC QuantaPlex S41T-2U, T41S-2U node and system
https://www.hyperscalers.com/quanta-qct-server-quantaplex-t41s-2u-(4-node)-t41s2u-buy
High Performance GPU platform.
 
Processor Intel Xeon Phi x200
Form factor 2U, 4 Nodes
444 x 87.5 x 790 wxhxd mm
C610 chipset
 
of
 
ASRock Rack met 2U4N-F/X200 node and system
2U4N-F
 
2U chassis with 4 nodes support 16x 2.5'' HDD, 1200W Redundant (1+1) PSU
Dual Socket LGA 2011 R3 support Intel Xeon processor E5-1600/2600 v3/v4 series
Supports DDR4 2400/2133/1866/1600 R DIMM& LR DIMM, 8 x DIMM slots
Supports 10 x SATA3 6.0 Gb/s by Intel C612
Supports 1 PCIe3.0x 16, 1 M.2 slot per node
Integrated IPMI 2.0 and KVM with Dedicated LAN per node
Support 2 x GLAN by Intel i350 per node
Support Mezzanine slot(x8) to support 2x 10G Ethernet (copper or optics) per node
1 PCI-E slot 3.0 x 16 en één M2 slot.
http://www.asrockrack.com/general/productdetail.asp?Model=2U4N-F#Specifications
 
of
 
vier 72-core Knights Landing Xeon Phi cpu's in 2U
2U4N-F/x200
LINK anandtech.com
 
In de eerste generatie was de PCI-E co-processor alleen voor het PCI slot beschikbaar. De Knights Landing (KNL) producten zijn van de tweede generatie en bieden de mogelijkheid van bootable processoren en PCI-E co-processoren.
Intel kondigt de 2e generatie van KNL processoren om de flessenhals van PCI-E te voorkomen en 5 x zo veel rekenkracht te leveren. Volgens het interne Intel uitgevoerde testen.
 
 
LINK INTEL.com
 
met de KNL type 7200 familie typenummers
7230F, 7250F, 7290, 7290F, 7210, 7210, 7230, 7250 (68 Cores). Waarbij de 7290 en 7290F over 72 Cores beschikken.
Prijsreeks van $ 2.400,- tot aan $ 6.254,- aan toe. (juni 2016)
 
 
 
Intel komt zelf met deze vereenvoudigde verdeling
 
7210 best value
7230 best memory bandwidth/Core
7250 best performance / Watt
7290 best performance / Node, het vlaggeschip
 
 
 
De Phi benchmark van Intel (14 juni 2016) met Phi 7250, afgezet tegen een K80 Tesla GPU van NVIDIA:
 
Waarbij de MonteCarlo test tot 2.7 x zo snel uitkomt dan de K80.
Per dollar zouden we dan uitkomen op 5 x zo "goedkoop" dan met de K80 van NVIDIA
 
 
Bij Tweakers komen we op de gemiddelde prijs van ca. 6.700 euro voor de K80
 
De aanvangs / intro prijs van Intel voor de Phi 7250 bedraagt $ 2.436,-
 
 

Intel BC31S1P Xeon Phi 31S1P Coprocessor
$ 800,-
met 57 Cores, 8 GB GDDR5 geheugen, 28.5 MB Cache, 5.0 GT/s geheugen snelheid en 1.1 GHz klok snelheid
 
Xeon Phi 511P met 225 Watt en 2.022 TFLOPS voor single precision, per GPU-proc. De dubble precisie berekeningen gaat precies in de helft en dat is bijzonder: 1.001 TFLOPS
Bij de Tesla K20 en AMD's FirePro S900 is dat resp. 3.52 TFLOPS / 1.17 TFLOPS AMD: 3.230 TFLOPS / 0.806 TFLOPS.
De dubbele precisie berekeningen kunnen dus met deze Phi bijzonder efficient worden uitgevoerd.
 
 
* "The Knights Corner" chip is de eerste bruikbare lid van de nieuwe Xeon Phi chip familie met 62 Cores aan boord. Afgeleid van de Pentium-54C core opzet, maar met meer cache geheugen. De nieuwe vector processer die in 512-bit SIMD instructies werkt, in plaats van 128-bit of 256-bit. Daarmee is deze geschikt om 8 stuks 64-bit dubbele precisie drijvende komma berekeningen uit te voeren en precies 16 stuks in enkele nauwkeurigheid per klok periode.
Niet alle 62 cores zijn actief te gebruiken, de schatting is dat 54 actief aan het werk gezet kunnen worden, maar dan wel parallel of te wel vrijwel tegelijk!
Er is ook een 60 Cores Phi chip ontwikkeld.
 
 
 
Intel - HJ8066702859200 - Intel Xeon Phi 7250 Octahexaconta-core (68 Core) 1.40 GHz Processor - Socket 3647OEM Pack - 34 MB - 64-bit Processing - 1.60 GHz Overclocking Speed - 14 nm - 215 W
prijs $ 2.662,- Amazon aug. 2017.
 

Xeon Phi inside

 
Knights Landing serie
cores / threads
 
7290 72 cores / 288 1.5 GHz (245 W), ca. $ 2.000,- - $ 6.000,- ?
7250 68 cores / 272 1.4 GHz
7230 64 cores / 256 1.3 GHz
7210 64 cores / 256 1.3 GHz (215 W), ca. $ 1.200,-
 
 
 
Knights Corner serie
cores / threads
 
7120P 61 / 61 1.21 GHz (300 W), ca. $ 3.400,-
7120X 61 / 61 1.21 GHz (300 W)
5110P 60 / 60 1.01 GHz (225 W),
5120D 60 / 60 1.01 GHz (245 W),
3120A 57 / 57 / 1.0 GHz (300 W),
3120P 57 / 57 / 1.0 GHz (300 W), ca. $ 1.700,-
 
Op internet veriëren de prijzen voor Phi echt met sprongen, het is zaak om dat vooraf goed uit te zoeken.
 
 
Volgende 3e generatie Xeon Phi Processoren
codenaam Knights Mill
Host CPU met gemengde precisie kwaliteit voor machine learing.
Verwacht: in de loop van 2017, verband houdende met Nervana overname?
Het doel is om snel te rekenen en beslissingen te nemen op basis van waarschijnlijkheden en associaties.
Veel cores met leermodellen en algoritmen. Met deze nog uit te brengen chip wordt GPU learning van NVIDIA uit gedaagd.
 
https://www.servethehome.com/intel-xeon-phi-updates-sc16/
 
Intel announces major AI push with upcoming Knights Mill Xeon Phi, custom silicon
21 nov. 2016
 
Link Extremetech.com
 
lanceerdata in 2016 van Intel met de aanvangs- start prijsstelling

http://ark.intel.com/products/codename/48999/Knights-Landing

 
 
 
NVIDIA beschuldigd Intel van onjuiste testmethode (Benchmark wars) van zijn Xeon Pi in vergelijking met verouderde NVIDIA GPU's
 
Xeon Phight! Phight! Phight!
Nvidia says Intel cheated benchmarks
Xeon Phi vs. GPU comparison needs a level playing field
Richard Chirgwin 17 Aug 2016
 
http://www.theregister.co.uk/2016/08/17/our_benchmark_is_better_brags_nvidia/
 
 
Correcting Intel's Deep Learning Benchmark Mistakes
16 aug 2016 Ian Buck
 
Waarbij ze de aanname van Intel betreffende de superieure PHI onderuit halen door te stellen dat een enkele NVIDIA DGX-1 5 x zo snel is dan 4 (!) stuks Xeon Phi servers.
 
"While we can correct each of their wrong claims, we think deep learning testing against old Kepler GPUs and outdated software versions are mistakes that are easily fixed in order to keep the industry up to date."
https://blogs.nvidia.com/blog/2016/08/16/correcting-some-mistakes/
 
AI Research NVIDIA DGX-1 https://www.nvidia.com/en-us/data-center/dgx-1/
 
 

DGX vs. Do It Yourself - Explainer Video

Gepubliceerd op 31 mei 2017
 
https://youtu.be/vEu72WMw86M
 

Intel Phi YouTube kanaal

https://www.youtube.com/results?search_query=intel+phi
 
Eye opener voor maken van snellere CPU-renderingen?
Intel Supermicro Xeon Phi x200 Kinghts Landing Dev Station Booting Windows and Running Cinebench
9 dec. 2016
 
https://youtu.be/43DcdZLZd94
 

 

36 Cores, 72 Threads, and Two Titan Xs - Our New INSANE Rendering Machine Part 2

8 juni 2015
Na 10 minuten experimenteren, vliegen de renderingen over het scherm
 
https://youtu.be/25FfiS9JWD8
 

 
vervolg op pagina 2
 
 

naar boven