Das eigentliche Ziel dieses Artikels war die verschiedenen Philosophien und Verständnisse von „Videospielentwicklung“ aus den Hardwarearchitekturen der kommenden Konsolen herauszuleiten. Je nachdem, wie eine Konsole funktioniert, lässt sich im Abgleich mit Aussagen von Videospielentwicklern, die persönlich im Dialog auf Messen oder in Fachvorträgen kommuniziert wurden, eine gewisse „Marschrichtung“ erkennen. Da aber Microsoft wie Nintendo komplettes Stillschweigen zu ihren jeweiligen Konsolen (schon immer) praktizierten und bisher nur Sony zur neuen Konsolengeneration genügend Informationen bereitwillig präsentierte, reduzierte sich das Vorhaben auf die „PlayStation 5“ und deren Philosophie, die Sony verfolgt. Im Zuge der für viele als einschläfernd bezeichneten (vgl. z.B. AngryJoeShow) Präsentation von Mark Cerny (Lead System Architect) am 18. März 2020 mit dem Titel „Road to PS5“ wurden viele technische Details der kommenden Konsole tiefgreifend präsentiert und erörtert. Es war der erste Einblick in die neunte Konsolengeneration, der definierte, welchen Umfang und welche substanziellen Verbesserungen PlayStation 5 Spiele bereithalten werden.
Konsole vs. PC als Unvollständigkeitsdebatte
Die ständig kursierende „Konsolen vs. PC“ Streitereien, die die Frage versuchen zu beantworten, welches System am agilsten, schnellsten und so weiter sei, begleitete auch diese Präsentation von Cerny. Nach dieser war die Antwort auf die Frage nach dem besten Spielesystem immer noch nicht beantwortet – im Gegenteil. Klar wurde indessen, dass es für Entwickler eine gänzlich andere Herausforderung / Erfahrung ist für Konsolen als für PCs zu entwickeln. Aus Sicht der Nutzer sind die Anforderungen und Bedürfnisse klar Kosten-Nutzen fokussiert. Für Entwickler hingegen bedeutet der PC eine hohe Varianz an unterschiedlichen Hardwarezusammenstellungen, die wiederum in einem sehr breiten Spektrum an Leistungsfähigkeit mündet. Wer für einen PC entwickelt, muss viel Zeit aufwenden, um die Flexibilität der Software (Videospiel) für verschieden starke Rechenmaschinen zu etablieren und zu verbessern. Verschiedene Leistungsprofile in grafischer Darstellung müssen ausgetestet, aufeinander bezogen werden und möglichst effizient arbeiten. Dies geht keinem Entwickler leicht von der Hand, weil ihr Werk als Kunstform eigentlich nur eine Variante besitzt – die bestmögliche. Man entwickelt immer auf der höchsten Qualitätsstufe, die das Spiel später abbilden soll. Die PC-Entwicklung zieht zwingend Einschnitte nach sich; es müssen Opfer in der Qualität erbracht werden, indem Sound, Grafik und anderes reduziert werden, sodass mehr potenzielle Kunden das Spiel überhaupt in Kauferwägung ziehen können. Wer für Konsolen arbeitet, kann sich sicher sein, dass jeder Kunde die exakt gleiche Hardware und damit die exakt gleiche Rechenpower zur Verfügung hat. Die Möglichkeit der Partizipation von Enthusiasten durch Hinzufügen eigens programmierter Zusatzinhalte (Mods) ist hingegen auf ein Minimum gesenkt. Die Gleichheit verfügbarer Rechenleistung kann weitergehend auch dann beschränken, wenn das eigene Projekt mehr Leistung benötigt, als von den Konsolenherstellern implementiert wurde. Während manche Spiele somit wenigstens für eine kleine Gruppe an PC-Kunden spielbar wären, ist dies für Konsolen stets kategorisch ausgeschlossen.
Als überzeugte Anhänger des Konzepts von Konsolengenerationen hatten Mark Cerny und sein Team die Herausforderung eine Architektur zu schaffen, die es erlaubt über ein (sehr) kurzes Jahrzehnt hinweg Potenziale zu entfesseln, die bezüglich Grafik und Programmierkomplexität substanzielle Sprünge erlauben, die auch noch in fünf bis sechs Jahren ansprechend sein werden. Dies dürfte eine bekannte Anforderung sein, denn dies galt für jede Konsolengeneration. Und dennoch war die Entwicklung der PlayStation 5 neues Territorium.
Die PlayStation 3 setzte auf eine Cell-Prozessor Architektur. Für diese Hardware etwas zu programmieren war verglichen zur PlayStation 2 oder 4 schwer. Einige Entwickler konnten mit der in 2005 neuartigen Technologie gar nicht umgehen, das heißt sie wussten nicht genau, wie man gute Software für diese Hardware schreiben muss. Tatsächlich brauchte die gesamte Videospielindustrie einige Zeit, ehe sie die Architektur verstand. Ein gänzlicher Reinfall war diese Konsole nicht, denn interessanter Weise entpuppten sich diejenigen Spiele, die die Hürde „Cell Prozessor“ überwanden, als hervorragend. Sofern ein Cell-Prozessor System gut bespielt wurde, entstanden für die damalige Zeit softwaretechnisch innovative Werke. Die damaligen Konstrukteure hatten somit im Bereich der Innovation ein gutes System erstellt, nur leider in einer Komplexität, die nicht alle Studios meistern konnten.
Die daraus gezogenen Lehren „Entwickler Feedback“, „Evolution vs. Revolution“ und „Neue Ideen und Visionen integrieren“ bestimmten somit bereits die Entwicklung der PlayStation 4. Für die fünfte Konsole gilt das Gleiche: Diejenigen, die die Inhalte für ein System erstellen, sind hauptsächlich nicht diejenigen, die die Hardware entwickeln und verbessern. Es braucht den Dialog, um sicherzustellen, dass in näherer Zukunft ausreichend spielerisches Angebot sichergestellt werden kann. Der sogenannte „Workflow“ großer Studios diktiert somit die Entwicklung einer Konsole.
SSD muss sein, aber!
Die meisten Entwickler wünschten sich die Integration einer SSD. Der Hauptgrund, warum viele Entwickler auf eine SSD pochten, dürfte in der Entwicklung von Videospielen selbst liegen: Immer mehr sogenannter „Game Assets“ (z.B. Texturen, 3D-Modelle, Soundeffekte, Sprites ...) benötigen immer mehr Speicherplatz, weil deren Qualität sowohl auditiv wie visuell auf sehr hohem Niveau entwickelt werden. Stets auf der Suche nach dem neuen Optimum versuchen Studios das maximale an Auflösung oder Soundvarianz heraus zu kitzeln. Aufgrund dieser Entwicklung mussten die verschiedenen Videospielhersteller immer sorgsamer mit ihren Programmierentscheidungen umgehen: Was bleibt im limitierten GPU (Grafikprozessor) Arbeitsspeicher und was im genauso limitierten Arbeitsspeicher der CPU? Was ist unabdingbar für das sogenannte Rendering (Erzeugen eines Bildes aus Rohdaten), was muss nicht sofort abrufbar sein und kann über eine recht langsame Festplatte mit Lesekopftechnologie abgerufen werden? In jedem Fall konnten Game Assets nicht auf höchster Qualität benutzt werden, weil diese in ihrer Speichergröße für die verschiedenen Arbeitsspeicher schlicht zu groß waren. Mit der Entscheidung, eine SSD in der neuen PlayStation 5 zu verbauen, können ab sofort hochqualitative Assets in ihrer Größe und Anzahl direkt vom Speichermedium in die Arbeitsspeicher übertragen werden ohne spürbare Ladezeiten in Kauf nehmen zu müssen. Arbeitsspeicher sind somit keine indirekte Limitierung mehr. Der Flaschenhals, der durch eine zu langsame Festplatte bisher verursacht wurde, ist mit der SSD Technologie (vorerst) beseitigt. Studios können somit ihre gesamte Entwicklungszeit für die Umsetzung des eigentlichen Spiels investieren und müssen nicht immer wieder Kreativität aufbringen und Kompromisse zur Kaschierung von Ladezeiten eingehen, weil ihre Softwaretechnologie seit mehreren Jahren die Hardwaregrenzen bereits überschritten hat.
Über den Daumen gepeilt ist die in der PlayStation 5 verbaute SSD hundertfach schneller als die HDD der PlayStation 4. Auf den ersten Blick, erst recht im Vergleich zu momentan sich etablierenden PC-Technologie, scheint der Schritt schier trivial. Auf den zweiten bildet solch ein Umdenken einen erheblichen Mehraufwand, denn mit dieser Entscheidung wurde eine Menge an zu lösenden, hardwaretechnischen Problemen losgetreten. Die schnelle Dekomprimierung von Dateien (zlib / Kraken von Rad Game Tools), die Kohärenz dieser, das sogenannte Mapping (Kartierung), die Ein- und Ausgabe von Dateien („File I/O“), ein intelligentes „Load Management“ der richtigen Daten zur richtigen Zeit in der richtigen Reihenfolge; alles muss korrekt implementiert sein, um ein funktionierendes Spiel softwareseitig zu liefern. Die Hardware, egal ob GPU, CPU, Arbeitsspeicher, SSD und so weiter muss richtig bespielt werden. Gleichzeitig muss die Hardware leisten können, was die Software von ihr verlangt. Selbst wenn eine SSD zehnmal so schnell Dateien lädt, kann tatsächlich nur eine doppelt so schnelle Ladegeschwindigkeit Realität sein, weil andere Hardwarekomponenten salopp gesprochen dazwischenfunken. Für Sony wurde laut Cerny aber das Ziel ausgegeben, eine hundertfach schnellere SSD Ladezeit in eine tatsächlich hundertfach schnellere Ladegeschwindigkeit des gesamten Systems münden zu lassen.
The Flash Controller in der SSD was designed for smooth and bottleneck free operation but also with games in mind. For example, there are six levels of priority when reading from the SSD. Priority is very important! You can imagine the player heading into some new location in the world and the game requesting a few gigabytes of textures. And while those textures are being loaded an enemy is shot and has to speak a few dying words. Having multiple priority levels like the audio for those dying words get loaded immediately […] The most natural size that emerges for an SSD is 825 gigabytes. The key question for us was: Is that enough? It’s tempting to add more but flash certainly doesn’t come cheap and we have a responsibility to our gaming audience to be cost effective with regards to what we put in the console. Ultimately, we resolved this question by looking at the play patterns of a broad range of games. We examined the specific games that they were playing over the course of a weekend or a week or a month and whether that set of games would fit properly on the SSD. We were able to establish that the friction caused by reinstalled or redownloads would be quite low and so we locked in on that 825 gigabyte size while also preparing multiple strategies so that those who want more storage can add it.
– Mark Cerny, Road to PS5, 18.03.2020
Die Frage nach der richtigen Komprimierung
Das Komprimieren von Dateien liegt auf der Hand, weil somit mehr Spiel auf einen Datenträger passen. Dies bedeutet wiederum einen möglichen Flaschenhals, der das Potenzial einer schnellen SSD mindern kann. Die Kraken Komprimierungstechnologie erlaubt zwar im Verhältnis zur PlayStation 4 nochmals eine Speicherplatzersparnis von 10%, allerdings mussten die Hardwarearchitekten dafür einen Dekompressionschip implementieren, der die Masse an gesendeten, Kraken komprimierten Daten (5 Gigabyte pro Sekunde) von der SSD auch verarbeiten kann. Diese zusätzliche Entwicklung dürfte im Vergleich zu PCs einen gewissen Vorteil bringen, weil eine derart spezifische Abstimmung von Hardware zur Software und umgekehrt in der modularen Hardwarezusammensetzung der verschiedenen Desktop-PCs nicht existieren kann. Anstatt den CPU mit Dekomprimierungsaufgaben zu belasten, wird ein eigener Chip für eine spezifische Komprimierungsmethode entwickelt.
Wesentliche Gründe für eine SSD
Cernys Hauptgrund, die Wand an Problemen auf sich zu nehmen, ist der massive Zugewinn an Freiheiten und Möglichkeiten für die Entwickler. 20 Sekunden Ladezeit können das Spielkonzept sabotieren. Anstatt eine komplexe und vor allem offene / weit einsehbare Landschaft zu kreieren, mussten Entwickler meistens Korridore, Schluchten und anderes schmieden, um wie eine Art Vorhang zu kaschieren, dass dahinter momentan nichts existiert. Arbeitsspeicher, Lesegeschwindigkeit der HDD und so weiter waren einfach zu leistungsschwach, um Weitläufigeres darzustellen. Die Hardware wie etwa die der PlayStation 4 war nicht im Stande große Mengen an Dateien in der ausreichenden Geschwindigkeit zu präsentieren. „God of War“ (Santa Monica Studios, 2018) ist ein prominentes Beispiel, das durch geschicktes Leveldesign den Spieler immer wieder zwang in limitierte Bereiche eines Levels zu gehen, um die Menge anzuzeigender Assets moderat hoch zu halten während gleichzeitig Assets für die benachbarten Levelbereiche geladen wurden. Eine andere Möglichkeit war kurze, filmische Sequenzen zu verwenden, die eine Ladezeit verschleiern. Deshalb kreierten etwa die Entwickler von „Mavel’s Spider-Man“ (Insomniac Games, 2018) eine U-Bahn Sequenz, die solange andauerte, bis die Konsole alles Notwendige geladen und berechnet hatte. Die Limitierungen der Hardware richtig zu denken lenkt Entwickler vom eigentlichen Spielkonzept ab und zwingt diese hardwarebasierte Kompromisse einzugehen, die das Spiel sabotieren.
Die Lesegeschwindigkeit einer SSD erlaubt es Game Assets während des Drehens der Spielfigur zu laden, sodass der Spieler einerseits ein kompromissloses Leveldesign genießen kann und andererseits die Hardware nicht ständig das komplette Level (Inhalte die in den nächsten 30 Sekunden benötigten werden könnten) bereithalten muss. Selbstverständlich müssen einige Elemente eines Levels, wie etwa die KI, grundsätzliche Gitterstrukturen des Levels für Kollisionsberechnungen, die im Rücken des Spielers gleichzeitig passieren, und so weiter immer präsent sein. Glücklicherweise sind diese aber nicht derart speichergierig wie etwa hochauflösende Texturen der verschiedenen Objekte. Sämtlicher Arbeitsspeicher kann somit viel effizienter und spezifischer eingesetzt werden und muss nicht als Parkplatz für potenziell notwendige Game Assets herhalten.
Zusätzlich kann sich die Speichergröße eines Spiels auf einer Disk oder einer SSD substanziell reduzieren. Weil HDDs je nach Lokalisation der Daten auf dem Datenträger unterschiedlich schnell laden können, entschied sich Insomniac Games für „Marvel’s Spider-Man“ einzelne Blöcke des Spielevels „Manhattan“ als Datenpakete zusammenzuschließen. Dadurch konnte zwar sichergestellt werden, dass einzelne Levelteile zusammenhängend schnell von der HDD geladen werden konnten, allerdings wurden somit auch Objekte wie Bäume, Mülltonnen, Sitzbänke und so weiter hundertfach dupliziert auf der Festplatte abgespeichert. Das Spiel blähte sich somit im Speicher gehörig auf. Mit der SSD Technologie muss jedes Objekt nur einmal auf der Festplatte existieren, weil egal wo lokalisiert die Ladezeit gleich schnell ist. Ebenso muss nach einem Patch nicht mehr das gesamte Spiel neu auf der Festplatte geschrieben werden, um die veränderten oder zusätzlichen Daten korrekt zu integrieren. Patches können sich anschließen, das heißt mehr oder weniger wild verteilt auf dem Speicher einer SSD befinden, weil die Lokalität keinen Einfluss auf die Lesegeschwindigkeit mehr besitzt. Das bedeutet, dass Patches viel schneller installiert werden und ein „Verschlimmbessern“ aufgrund zu hoher Datenfragmentierung durch zu viele Patches ist ausgeschlossen.
„Teraflops“ und Teraflops
Die PlayStation 5 besitzt eine maßgeschneiderte RDNA2 basierte AMD GPU. AMD ist wie andere Techfirmen darauf angewiesen, ständig ihre Technologien zu überprüfen und zu verbessern. Grob gesagt wollte AMD mit RDNA2 die Energieeffizienz erhöhen, indem die grundsätzliche Architektur der Recheneinheit überarbeitet wurde, sodass Dateien immer dort eingespeist werden, wo sie sofort und nicht über Umwege benötigt werden. Zusätzlich sollte die Rechenleistung verbessert und der Funktionsumfang erweitert werden. Was genau die Erweiterung des Funktionsumfang beschreibt ist formbar, denn die Architektur der PlayStation 5 fordert gewisse Bedürfnisse, die etwa Grafikkarten für Desktop-PCs nicht haben. Weil aber AMD Chips für Sony herstellt, haben die Japaner somit Einfluss auf die sogenannte Roadmap AMDs. Diese Kollaboration ist gewiss nicht einseitig, denn beide Seiten müssen Informationen, Innovationen und Konzepte austauschen, um ihre jeweiligen Ziele ausführen zu können und somit Geld zu verdienen. Wenn Sony im Zuge der Chipentwicklung eine Idee AMD übergibt, die sich auch für den Desktop-Bereich als nützlich erweist, dann und nur dann sind Effekte einer Kollaboration außerhalb der Interessen von Sony gegeben. Andernfalls, das heißt wenn eine Idee ausschließlich in einer PlayStation Architektur sinnig ist, verbleibt die Technologie in einem kleinen Hardwarekosmos. Sollte eine ähnliche GPU als Grafikkarte ungefähr zur gleichen Zeit wie die PlayStation 5 auf den Markt kommen, bedeutet dies, dass die Zusammenarbeit von AMD und Sony auch außerhalb der Konsolen von Nutzen war. Das bedeutet allerdings im Umkehrschluss nicht, dass eine PlayStation ausschließlich aus Komponenten besteht, die auch für Desktop-PC zur Verfügung stehen. Diese kontinuierliche Zusammenarbeit und Weiterentwicklung von GPU Technologie bedeutet somit auch, dass es gefährlich ist, sich auf Teraflops als absoluten Indikator für Rechenleistung zu verlassen. Kurz: RDNA2 Flop ≠ PlayStation 4 Flop.
Komplexität versus leichte Zugänglichkeit einer Konsole
Die substanzielle Erhöhung der Rechenleistung und Lesegeschwindigkeit von Daten birgt verbesserte Möglichkeiten für Entwickler, kann aber gleichzeitig zu einer Komplexität führen, die eher überfordert als unterstützt. Das Stichwort „PlayStation 3“ steht für diese Problematik. Mark Cerny versuchte dies unter dem Stichwort „Evolution vs. Revolution“ zu subsumieren. Um ein Gespür dafür zu bekommen, ob eine ausgewogene Balance aus neuer und bekannter Hardwarearchitektur für Entwickler geschaffen wurde, ist das Stichwort „Time to Triangle“ wichtig. Es handelt sich um eine recht populäre Methode, um ein Gespür dafür zu bekommen, wie effizient Entwickler mit der jeweiligen Hardware umgehen können. Sie misst, wie lange Entwickler brauchen bis ein erstes, simples Dreieck auf dem Bildschirm zu sehen ist. Oder anders gesagt: Wieviel Programmierarbeit ist im Voraus notwendig, ehe irgendetwas visuelles auf einem Bildschirm sichtbar wird? Je kürzer die Zeit, desto einfacher ist es etwas für die jeweilige Plattform zu programmieren. Ein Beispiel für eine kurze Programmierzeit wäre die Schnittstelle „OpenGL“ während Konkurrenten wie „Vulkan“ sehr viel Zeit für Vorarbeiten in Anspruch nehmen.
Grundsätzlich sollte das beschriebene Zeitintervall minimiert werden. Allerdings ist eine Reduktion dieser gen „Null“ nicht erstrebenswert. Je näher man dieser kommt, desto unflexibler ist die Hardwarearchitektur und die dahinterstehenden Programmierfunktionen, sodass die Programmiermöglichkeiten für Entwickler sukzessiv und irgendwann zu stark eingeschränkt werden würden. Kreativität wäre somit komplett erstickt. Es blieb Sony nichts anderes übrig als für jedes Feature iterativ zu überlegen, welchen Stellenwert es für die Zukunft besitzt und ob es die Implementation und damit die gesteigerte Komplexität (= mehr Entwicklungszeit) wert ist oder nicht. Die GPU muss in der Lage sein, neue Technologien berechnen zu können. Wie sonst könnte man im visuellen Bereich von einer neuen Konsolengeneration sprechen? Einerseits kann durch den schieren Gewinn an Rechenleistung eine neue Konsole begründet sein, andererseits bedeutet dies aber nicht, dass etwas Neues möglich wird. Gleichzeitig darf dies aber nicht auf Kosten höheren Stromverbrauchs gehen, weil die dadurch entstehende Hitze im Gerät nicht mehr beherrschbar wäre. Die Effizienz der Hardware muss somit gleichsam substanziell erhöht werden. Neben der besprochenen Vertrautheit der Technologie, sodass Entwickler gute Spiele herstellen können, sollte das Neue das Alte beherrschen, denn jeder möchte am liebsten seine gekauften PlayStation 1, 2, 3 oder 4 Spiele auf der neuen Konsole spielen können. Dieser Spagat musste bewältigt werden, um die Wahrscheinlichkeit für eine erfolgreiche, neue Konsolengeneration sicherzustellen. Grundsätzlich entschied man sich dafür die Entwickler nicht zu überrumpeln, indem man ihnen die Option lässt, ob sie neue Technologien wie etwa „Raytracing“, „Geometry Engine“ (volle programmierbare Kontrolle der Verarbeitung von 3D-Objekten) anstatt „Vertex Shaders“ (keine programmierbare Kontrolle der Verarbeitung von 3D-Objekten) benutzen wollen oder nicht. Man hätte eine Rückwärtskompatibilität zur Playstation 2 oder 1 anstreben können, entschied sich aber dafür, nur für PlayStation 4 Spiele diese einzubauen. Ersteres hätte bedeutet, dass die alten GPU Chipsets im neuen integriert sein müssen. Diese Strategie wurde etwa für die PlayStation 3 verfolgt, sodass auch PlayStation 2 Spiele funktionierten. Der Nachteil war die sehr kostspielige Entwicklung solcher GPUs, was sich im Konsolenpreis niederschlug, der für viele Konsumenten zu hoch war. Weil die PlayStation 4 in ihrer Architektur und Logik der der PlayStation 5 ähnelt, wurde es möglich Kompatibilitätsmodi zu erstellen, die Spiele für die PlayStation 4 auf der PlayStation 5 abspielen. Durch ähnliche Architekturen nimmt Sony den Entwicklern die Befürchtung, dass etwas ältere Konsolenspiele urplötzlich nicht mehr spielbar werden oder gänzlich umgeschrieben werden müssten, wenn sie auch auf einer PlayStation 5 abspielbar sein sollen. Und dennoch: Allein durch den besprochenen Einbau einer SSD kann eine Software gänzlich kollabieren, weil der Code der Software die Schnelligkeit der Hardware nicht verkraftet. Es bleibt also leider dabei; jeder Entwickler, der PlayStation 4 Titel veröffentlicht hat, muss Titel für Titel überprüfen, ob das jeweilige Spiel auf einer PlayStation 5 läuft oder Adjustierungen benötigt.
Results are excellent though. We recently took a look at the top hundred PlayStation 4 titles as ranked by play time and we’re expecting almost all of them to be playable at launch on PlayStation 5.
– Mark Cerny, Road to PS5, 18.03.2020
Innovation 3D-Sound
Neben dem Feedback der Eingaben auf dem Controller, das man auf dem Bildschirm beobachten kann, ist das Auditive (Sound) das Wichtigste für die Initiierung von Immersion. Ohne Sound ist ein Videospiel nahezu „tot“. Der psychologische Einfluss von Geräuschen, Stimmen und Musik ist in Videospielen sehr hoch. Während zwischen 30 und 60 Bilder pro Sekunde von einer Konsole erstellt werden, muss der zugehörige Sound ungefähr 200 Mal pro Sekunde berechnet werden. Zwar sind die Datengrößen im Vergleich zum Visuellen recht überschaubar, die Berechnungshäufigkeit ist allerdings ungleich höher. Die Cell-Einheit der PlayStation 3 war wie geschaffen für Audiorenderaufgaben während die PlayStation 4 vergleichsweise weniger dafür geeignet war. Sound rückte somit eher in die Peripherie der Videospielentwicklung für Sonys Konsole.
Allerdings wurde mit der PlayStation 4 der Schritt gen VR-Technologie unternommen. Das zugehörige VR-Headset besitzt circa fünfzig 3D Soundquellen, was als ein Hinweis darauf verstanden werden kann, in welche Dimensionen sich Sound in näherer Zukunft bewegen wird. Das Potenzial, die Immersion durch Auditives weiter voranzutreiben und sich nicht nur auf Visuelles zu versteifen, bewegte das Team um Cerny dazu das Thema „Sound“ aus der Peripherie ins Zentrum der Konsolenarchitektur zu versetzen. Das bedeutet beispielsweise, dass nicht ein Geräusch beziehungsweise eine Sounddatei für alle Regentropfen einer Szene in unterschiedlicher Lautstärke die Geräuschkulisse bilden. Stattdessen werden die verschiedenen Geräusche, die ein fallender Tropfen, hinter, vor oder neben einem verursachen, aufgenommen und ins Spiel implementiert – der Sound wird dreidimensional. Zusätzlich soll möglichst akkurat der Einfluss der Geometrie der Szene und die verschiedenen, vorhandenen Oberflächen, auf die die Tropfen fallen, simuliert werden. Lokalität wird viel spezifischer, der Spieler kann beispielsweise viel besser einschätzen in welcher Distanz und aus welcher Richtung das Geschrei im Dunkeln stammt.
Das Stichwort für all dies ist „HRTF“, was für Head Related Transfer Function steht, die die Frequenz eines Geräusches in Beziehung zur Lokalität (hinten, links, rechts, vorne) des Hörenden setzt. Diese ist für jeden Menschen aufgrund unterschiedlicher Ohr- und Schädelformen einzigartig, vergleichbar mit einem Fingerabdruck. Somit wurden hunderte HRTF-Profile von verschiedenen Menschen erstellt, um eine Stichprobe zu erhalten, die möglichst repräsentativ für die Weltbevölkerung ist. Daraus wurde ein standardisiertes HRTF-Profil erstellt, das in Spielen zum Einsatz kommt. Das Wissen besteht somit, um 3D-Sound für möglichst jeden erfahrbar werden zu lassen. Es verblieb das Problem, dass die Berechnung von 3D-Sound sehr leistungsintensiv ist. Auch hierfür musste Sony in eigener Regie eine Recheneinheit entwickeln, die diese komplexen Rechenvorgänge schnell genug durchführen kann. In Zukunft dürfte höchstwahrscheinlich unter dem Begriff „Tempest 3D AudioTech“ (Algorithmen der Technologie) viel nachzulesen sein. Der Name der Recheneinheit, „Tempest Engine“, dürfte eher beiläufig ab und an erwähnt werden.
Im Groben wurde eine Recheneinheit derart von Sony modifiziert, sodass diese der SPU-Architektur (Direct Memory Access, keine Caches) der PlayStation 3 sehr nahekommt. Aufgrund der Tatsache, dass die PlayStation 3 Soundrendering sehr gut beherrschte, lag dieser Schritt nahe.
But we wanted 3D-Audio for all not just those with licensed sound bars. We wanted many hundreds of sound sources, not just the 32 that (Dolby) Atmos supports. And finally, we wanted to be able to throw an overwhelming amount of processing power at the problem. And it wasn’t clear what any peripheral might have inside of it. In fact, with the Tempest Engine we’ve even got enough power to make use of convolution reverb and other algorithms that are either computationally expensive or need high bandwidth. But the primary purpose of the Tempest Engines remains 3D-Audio.
– Mark Cerny, Road to PS5, 18.03.2020
Das Thema ist auch aus wissenschaftlicher Sicht interessant, denn 3D-Audio repräsentiert momentan einen recht löchrigen, akademischen Verständnisraum. Kein Forscher hat bisher alle Antworten zu den wesentlichen Fragen dieses Themenkomplexes gefunden. Die aus den wissenschaftlichen Erkenntnissen abgeleiteten Algorithmen sind somit noch nicht in Stein gemeißelt, weshalb es eine Unmenge solcher gibt. Bewegt sich der Avatar im Spiel, muss sich der 3D-Sound genauso dynamisch verändern. Was aber passiert, wenn Sound aus einer Richtung kommen muss, die nicht direkt aufgenommen wurde? Welcher Algorithmus ist wann am besten, um solch eine nicht aufgenommene Richtung auf Basis der existierenden Daten zu simulieren? Sind Ambisonics die alleinige Lösung? Wie ist der Sound zu generieren, wenn jemand ein Headset verwendet? Wie verändert sich der 3D-Sound, wenn Lautsprecher eines Fernsehers die Ausgabequelle sind?
That’s a lot of variations. It’s nice to have computational resources of the tempest engine but it’s clear that achieving our ultimate goals with 3D-Audi is going to be a multi-year step-by-step process.
– Mark Cerny, Road to PS5, 18.03.2020
Durch die Ankündigung eines 3D-Audio-Headsets ist klar, dass Cernys Team bereits die Fragen für Headsets geklärt hat. Laut Cerny bestehen bereits viele Demos zu sich in Entwicklung befindender PlayStation 5 Spiele, die stark auf 3D-Audio setzen. Das zeugt davon, dass diese Technologie von vielen Entwicklern tatsächlich als immersionssteigernd angesehen werden. Der Sprung, den Sony versucht, ist definitiv vergleichbar zur Ablösung von Mono durch Stereo. Das Problem, dass jeder Mensch spezifisch anders hört, kann dazu führen, dass 3D-Audio nur marginale Verbesserung für einzelne Individuen bereithält. Je näher das eigene HRTF-Profil dem standardisierten, desto eher wird der jeweilige Spieler 3D-Audio-Technologie genießen können. Das standardisierte HRTF-Profil zu optimieren, dürfte einer der zentralen Herausforderung für Cerny und sein Team in der Zukunft sein, sodass möglichst alle 3D-Audio wahrnehmen können.