Ist ja geradezu genügsam im Stromverbrauch. Ein normaler Prozessor macht unter Vollast ungefähr 80 Watt pro cm^2 und die neue Kiste in Leipzig nur 1 MW auf 250 m^2
Nix Leipzig... München ;) Eine Itanium 2 1500 Mhz CPU macht 130,0Watt. 130*6,656 macht um die 0.8MW. Wie es speziell bei den eingesetzten CPUs aussieht, kann ich nicht sagen. Der "kleine" Rest wird an die Festplatten und "Kleinzeug" verbraten. :))
Von Daniel Baumann am Fr, 17. Dezember 2004 um 23:27 #
"Eine Itanium 2 1500 Mhz CPU macht 130,0Watt."
Die 130W sind die maximalen Waermeverlustwerte fuer das 1.5GHz low-power-Modell des Itanium 2 (genannt Deerfield), Madison verbraucht nocheinmal deutlich mehr. Aber das sind ja nur die aktuellen Modelle.
Der eingesetzte Montecito wird dann in .90-micron Bauweise statt 1.3-micron hergestellt werden, was zusaetzlich Strom spart und ausserdem benoetigen Dual-Core Prozessoren weniger als doppelt soviel Leistung wie zwei gleiche Einzelprozessoren. Alles in allem kann man also die Werte so nicht vergleichen.
Von Hansi Glaser am So, 19. Dezember 2004 um 17:22 #
Da oben im Text steht was von einem 2m hohen Unterboden. Kann das so stimmen? 2m Hohlraum unter den eigentlich Racks, die selber nochmal 2m hoch sind? Sind Unterböden nicht normalerweise ca. 30-50cm tief?
Stellt sich die Frage, ob das reine Geldverschendung ist, oder ob wirklich ein Nutzungsbedarf besteht. Grid-Lösungen machen ja schon heute Konkurrenz und die Frage ist, ob nicht Cluster von ungenutzten Rechnern eine wirtschaftlichere Lösung sind. Ein Cluster von Intelmaschinen kostet nichts und leistet viel. Da steht man dann zwar nicht an der Spitze der Rechenleistung, aber da bleibt man ohnehin nicht lange.
> Stellt sich die Frage, ob das reine Geldverschendung ist, > oder ob wirklich ein Nutzungsbedarf besteht.
Es besteht Nutzungsbedarf.
> Grid-Lösungen machen ja schon heute Konkurrenz und die Frage ist, > ob nicht Cluster von ungenutzten Rechnern eine wirtschaftlichere Lösung sind.
Das kommt auf die lösende Aufgabe an. Lässt sich ein Problem gut parallelisieren und sind die Teilberechnungen weitesgehend unabhängig voneinander durchführbar, bieten sich Clustersysteme als preiswerte Alternativen an. Ist für die Berechnung der Teilaufgaben eine hohe Kommunikation zwischen den einzelnen Knoten notwendig, sind Cluster praktisch nicht mehr brauchbar und man muss zur Berechnung entsprechend teure Parallelrechner einsetzen.
Lasst Euch nicht von Buzzwörtern wie Cluster und Grid täuschen, die sind kein Allheilmittel.
Ähm, ein "Supercomputer", der aus tausenden Racks (=unabhängigen Computern) mit insgesamt tausenden CPUs besteht, IST doch ein Cluster! Ob die PCs jetzt in ganz normalen Towergehäusen stecken und irgendwo rumstehen oder platzsparend in Racks zusammengestopft sind spielt da ja keine Rolle.
Von Papa Schlumpf am So, 19. Dezember 2004 um 11:41 #
Da irrst du dich gewaltig.
Ein Supercomputer hat eine NUMA (bzw. in diesem Fall ccNUMA), wodurch jeder Knoten den Speicher eines anderen Knoten direkt wie ein lokales Memory ansprechen kann (auch wenns ein bisschen langsamer ist). Die Kiste wirkt also wie *EIN* großer SMP-Rechner mit den >6000 Prozessoren und nicht wie 3000 Dual-CPU Kisten die über ein schnelles Netz zu einem Cluster zusammengeschaltet werden.
Der Unterschied wird schnell klar, wenn man solche Kisten programmiert. Bei dem jetzigen SGI-Rechner braucht man sich überhaupt nicht darum zu kümmern, auf welchem der Racks der Speicher den ich gerade für meine Daten brauch liegt. Ich greif einfach drauf zu als ob sie lokal wären, die Hardware kümmert sich darum daß die angeforderten Daten über die Kommunikations-Backplanes möglichst schnell zu meinem Prozessor kommen. Bei einem Cluster muß sich die Software darum kümmern, im schlimmsten Fall muß der Programmierer selbst erst die DAten anfordern bzw. über das Message-Protokoll übertragen. Da der Prozessor dann mit Kommunikation und Netzwerktransport beschäftigt ist, kann er nicht rechnen und bremst daher das System (unnötig) aus. Noch schlimmer, man verliert höchstwahrscheinlich Cache-spezifische Optimierungen da beim Datentransfer der Prozessor sein Cache für was anderes braucht und daher der Effekt von handoptimierten Routinen den Bach runtergeht. Bei ccNUMA sieht der Prozessor nur einen langsameren Speicher und braucht sich um nichts weiteres kümmern, d.h., solche handoptimierten Routinen greifen hier umso besser, da das Cache/Memory-Performance-Verhältnis in diesem Fall schlechter ist.
> ein "Supercomputer", der aus tausenden Racks (=unabhängigen Computern)
Die Altix-Knoten sind nicht unabhängig (so wie bei Clustern) und "tausende" Racks sind es in diesem Fall auch nicht.
> mit insgesamt tausenden CPUs besteht, IST doch ein Cluster!
Nein, so ein NUMA-System ist zwar eine Art "Cluster aus grossen SMP-Maschinen", aber im eigentlichen Sinne kein Cluster, weil ein global verfügbarer gemeinsamer Speicher vorhanden ist und nicht wie bei typischen Clustern ein verteilter Speicher, auf den über Protokolle wie z.B. MPI (Message Passing Interface) zugegriffen werden muss.
1 Megawatt Stromverbrauch ist schon beachtlich. Da fehlt dann nur noch ein schönes grosses Windrad und ein paar Solarplatten und die Sache nähert sich dem "grünen" Bereich
die anlage wird natürlich von greenpeace energy versorgt. dann kann nichts passieren. die neuen stromsparenden AMD CPUs wären natürlich im Verbrauch noch um einiges besser...
Warum immer intel? Deren Teile sind doch nun nicht besser als andere, aber intel ist moralisch eine viel schlechtere Firma als die anderen, sozusagen. Heiß und stromfressend sind sie sowieso, aber das interessiert Superrechnerleute wohl weniger. Aber viel teurer. Und ich dachte, das Geld ist immer so knapp. Wirklich verwunderlich. Nicht-x86 kommt wohl immer mehr aus der Mode und VIA/Transmeta sind vielleicht für Rechenpower dieses Kalibers nicht geeignet. Aber wir haben ja noch AMD, die zudem auch noch in Dtl. produzieren und nicht wie intel dort alles (mit) in den Sand setzen und sich dann mit Patenten, know how, Geldern, etc. verziehen.
Intel eignet sich eben in diesem Fall am besten (Preis-Leistungs-Optimum). HLR-Projekte werden meist mit Leistungsanforderungen in Form von zu erfüllenden Benchmarks ausgeschrieben. Da haben alle Architekturen dann die Chance sich zu beweisen. Opteron hat AFAIK noch keine mit SGI Altix vergelichbare Architektur.
Das LRZ hat ja nun wirklich in seinem Portfolio die verschiedensten Architkturen vertreten. Eine Bevorzugung von Intel kann ich nicht sehen. Im Gegenteil, die Mitarbeiter im LRZ sind bekannt dafür, dass sie mit viel Sachverstand und analytischem Geschick an neue Architekturen herangehen. eMme
Von Papa Schlumpf am So, 19. Dezember 2004 um 12:00 #
Die "Kiste" von der wir hier reden spielt in einer ganz anderen Liga. AMD kann mittlerweile sehr gut Prozessoren für den Consumer- und den Small- bis Midrange-Serverbereich bauen, aber für derart große Projekte sind AMD-CPUs IMHO (noch) nicht geeignet.
Bei HPC geht es um reines Numbercrunching, und dazu braucht man: a) Schnelle FPUs, möglichst viele davon parallel nutzbar b) einen schnellen Speicher
Als SGI angefangen hat, von ihren hauseigenen MIPS-Prozessoren zu einer anderen wechselten (Warum sind die eigentlich von MIPS weggegangen??), war AMD noch nicht so weit, und Intel hatte schon einen (mehr oder weniger) gut funktionierenden Itanium, welcher genau diese Anforderungen erfüllte. Durch den verwendeten EPIC-Code bietet sich der Itanium ja geradezu fürs Numbercrunchen an (und hat sogar noch den Vorteil, daß zukünfigte CPUs den vorhandenen Code ohne Rekompilierung besser parallelisieren können). Was den Speicher angeht, hat SGI hier sein eigenes Knowhow (Origin-Reihe) reingesteckt und dem Itanium eine ccNUMA spendiert.
Klar könnte man das auch für Opterons machen, was aber dann indirekt in einen Vergleich des IA-64 EPIC-Codes mit amd64-Code rausläuft. Bei dem verwendeten Handoptimierten Code (SGI hat schon zu MIPS-Zeiten sehr viel in Handoptimierung von Standardproblemen reingesteckt und dieses Knowhow auch wieder beim Itanium verwendet haben), und gerade da kann ich mir gut vorstellen, daß der Itanium wesentlich besser abschneidet als der Opteron.
Eine Itanium 2 1500 Mhz CPU macht 130,0Watt. 130*6,656 macht um die 0.8MW. Wie es speziell bei den eingesetzten CPUs aussieht, kann ich nicht sagen. Der "kleine" Rest wird an die Festplatten und "Kleinzeug" verbraten. :))
Die 130W sind die maximalen Waermeverlustwerte fuer das 1.5GHz low-power-Modell des Itanium 2 (genannt Deerfield), Madison verbraucht nocheinmal deutlich mehr. Aber das sind ja nur die aktuellen Modelle.
Der eingesetzte Montecito wird dann in .90-micron Bauweise statt 1.3-micron hergestellt werden, was zusaetzlich Strom spart und ausserdem benoetigen Dual-Core Prozessoren weniger als doppelt soviel Leistung wie zwei gleiche Einzelprozessoren. Alles in allem kann man also die Werte so nicht vergleichen.
Bye
Hansi
> oder ob wirklich ein Nutzungsbedarf besteht.
Es besteht Nutzungsbedarf.
> Grid-Lösungen machen ja schon heute Konkurrenz und die Frage ist,
> ob nicht Cluster von ungenutzten Rechnern eine wirtschaftlichere Lösung sind.
Das kommt auf die lösende Aufgabe an. Lässt sich ein Problem gut parallelisieren und sind die Teilberechnungen weitesgehend unabhängig voneinander durchführbar, bieten sich Clustersysteme als preiswerte Alternativen an. Ist für die Berechnung der Teilaufgaben eine hohe Kommunikation zwischen den einzelnen Knoten notwendig, sind Cluster praktisch nicht mehr brauchbar und man muss zur Berechnung entsprechend teure Parallelrechner einsetzen.
Lasst Euch nicht von Buzzwörtern wie Cluster und Grid täuschen, die sind kein Allheilmittel.
--Thomas
Tom
Ein Supercomputer hat eine NUMA (bzw. in diesem Fall ccNUMA), wodurch jeder Knoten den Speicher eines anderen Knoten direkt wie ein lokales Memory ansprechen kann (auch wenns ein bisschen langsamer ist). Die Kiste wirkt also wie *EIN* großer SMP-Rechner mit den >6000 Prozessoren und nicht wie 3000 Dual-CPU Kisten die über ein schnelles Netz zu einem Cluster zusammengeschaltet werden.
Der Unterschied wird schnell klar, wenn man solche Kisten programmiert. Bei dem jetzigen SGI-Rechner braucht man sich überhaupt nicht darum zu kümmern, auf welchem der Racks der Speicher den ich gerade für meine Daten brauch liegt. Ich greif einfach drauf zu als ob sie lokal wären, die Hardware kümmert sich darum daß die angeforderten Daten über die Kommunikations-Backplanes möglichst schnell zu meinem Prozessor kommen. Bei einem Cluster muß sich die Software darum kümmern, im schlimmsten Fall muß der Programmierer selbst erst die DAten anfordern bzw. über das Message-Protokoll übertragen. Da der Prozessor dann mit Kommunikation und Netzwerktransport beschäftigt ist, kann er nicht rechnen und bremst daher das System (unnötig) aus. Noch schlimmer, man verliert höchstwahrscheinlich Cache-spezifische Optimierungen da beim Datentransfer der Prozessor sein Cache für was anderes braucht und daher der Effekt von handoptimierten Routinen den Bach runtergeht. Bei ccNUMA sieht der Prozessor nur einen langsameren Speicher und braucht sich um nichts weiteres kümmern, d.h., solche handoptimierten Routinen greifen hier umso besser, da das Cache/Memory-Performance-Verhältnis in diesem Fall schlechter ist.
Die Altix-Knoten sind nicht unabhängig (so wie bei Clustern) und "tausende" Racks sind es in diesem Fall auch nicht.
> mit insgesamt tausenden CPUs besteht, IST doch ein Cluster!
Nein, so ein NUMA-System ist zwar eine Art "Cluster aus grossen SMP-Maschinen", aber im eigentlichen Sinne kein Cluster, weil ein global verfügbarer gemeinsamer Speicher vorhanden ist und nicht wie bei typischen Clustern ein verteilter Speicher, auf den über Protokolle wie z.B. MPI (Message Passing Interface) zugegriffen werden muss.
--Thomas
in bayern gibts genuegend, die warem wind ablassen ;=)
just my 2 cent
cu denny
Das LRZ hat ja nun wirklich in seinem Portfolio die verschiedensten Architkturen vertreten. Eine Bevorzugung von Intel kann ich nicht sehen.
Im Gegenteil, die Mitarbeiter im LRZ sind bekannt dafür, dass sie mit viel Sachverstand und analytischem Geschick an neue Architekturen herangehen.
eMme
Warum eigentlich Itanium?
IMO ist der Itanium nicht wirklich der hit. Warum nicht (wenn schon Intel)
EM64T?
O13
Hans, derzeit noch Hitachi-SR8000-Nutzer
Und genau deshalb hat Intel mit ia64 was neues entwickelt !?
ia64 ist kein x86 mehr, hat nur eine lahme Ämulationsschicht dafür.
Ha-Jo,
PS: vergebt mir bitte das Troll-Füttern
Bei HPC geht es um reines Numbercrunching, und dazu braucht man:
a) Schnelle FPUs, möglichst viele davon parallel nutzbar
b) einen schnellen Speicher
Als SGI angefangen hat, von ihren hauseigenen MIPS-Prozessoren zu einer anderen wechselten (Warum sind die eigentlich von MIPS weggegangen??), war AMD noch nicht so weit, und Intel hatte schon einen (mehr oder weniger) gut funktionierenden Itanium, welcher genau diese Anforderungen erfüllte. Durch den verwendeten EPIC-Code bietet sich der Itanium ja geradezu fürs Numbercrunchen an (und hat sogar noch den Vorteil, daß zukünfigte CPUs den vorhandenen Code ohne Rekompilierung besser parallelisieren können). Was den Speicher angeht, hat SGI hier sein eigenes Knowhow (Origin-Reihe) reingesteckt und dem Itanium eine ccNUMA spendiert.
Klar könnte man das auch für Opterons machen, was aber dann indirekt in einen Vergleich des IA-64 EPIC-Codes mit amd64-Code rausläuft. Bei dem verwendeten Handoptimierten Code (SGI hat schon zu MIPS-Zeiten sehr viel in Handoptimierung von Standardproblemen reingesteckt und dieses Knowhow auch wieder beim Itanium verwendet haben), und gerade da kann ich mir gut vorstellen, daß der Itanium wesentlich besser abschneidet als der Opteron.
Der FFII hat gestern abend zu einem Netzstreik aufgerufen.
Es wäre schön, wenn sich alle daran beteiligen könnten.
Vorlage: http://www.heise.de/newsticker/foren/go.shtml?read=1&msg_id=7064538&forum_id=70828
Eike