Baidu ABC Storage: Die Neudefinition von Objektspeicher

Baidu ABC Storage nutzt die Vorteile von Intel® Optane™ SSDs und Intel® QLC-3D-NAND-SSD-Technik, um das Leistungsvermögen und die Kapazität zu steigern.


Baidu ABC Storage: Die Neudefinition von Objektspeicher

Baidu ABC Storage nutzt die Vorteile von Intel® Optane™ SSDs und Intel® QLC-3D-NAND-SSD-Technik, um das Leistungsvermögen und die Kapazität zu steigern.


Auf einen Blick

  • Baidu AI Cloud* ist ein führendes Unternehmen der IT- und Internet-Branche.
  • Durch seine Partnerschaft mit Intel setzt Baidu AI Cloud eine Kombination von SSDs mit Intel® Optane™ Technologie und Intel® QLC-Technologie für die vollständig auf Flash-Objektspeicher basierende Kern-Hardware von ABC Storage ein (AI, Big Data, Cloud).

Fortschrittliche Technologien wie das Trainieren künstlicher Intelligenz (KI), die Verarbeitung großer Datenmengen (Big Data) und die Hochleistungsverarbeitung (High Performance Computing, HPC) bestimmen die Richtung bei privaten Cloud-Datendiensten. Speichersysteme für massive Datenmengen sind auch eng mit den Bedürfnissen von Unternehmen verknüpft, insbesondere im Bereich der Hochleistungs-Speichersysteme für große Mengen unstrukturierter, kleiner Dateien.

Als führendes Unternehmen im IT-Bereich und in der Internet-Branche wandte Baidu AI Cloud* seine jahrelange Erfahrung mit öffentlichen Cloud-Speichertechnologien auf eine private Cloud-Speicherlösung als entscheidende Komponente in seiner ABC-Strategie an (AI, Big Data, Cloud). Durch seine Partnerschaft mit Intel setzt Baidu AI Cloud eine Kombination von SSDs mit Intel® Optane™ Technologie und Intel® QLC-Technologie für die vollständig auf Flash-Speicher basierende Kern-Hardware von ABC Storage ein (AI, Big Data, Cloud).

„Baidu AI Cloud erwartet, dass seine rein auf Flash-Speicher basierende Objektspeicherlösung den Nutzern von privaten Clouds dabei helfen wird, die durch gewaltige Mengen unstrukturierter kleiner Dateien verursachten Herausforderungen zu bewältigen. Die Kombination aus Intel® Optane™ Solid-State-Laufwerken (SSDs) und Intel® SSDs, die auf der Intel® QLC-3D-NAND-Technik basieren, verhalf unserer Lösung zu optimalen Ergebnissen in puncto Stabilität und Input/Output-Operationen pro Sekunde (IOPS).“
Baidu AI Cloud ABC Storage Team

Datenwachstum — Chance und Herausforderung

Das Volumen weltweit gespeicherter Daten wird bis 2025 auf schätzungsweise ZB (Zettabyte) anschwellen. Massive Datenmengen, insbesondere das explosive Wachstum unstrukturierter Daten, sind zu einer treibenden Kraft bei der Digitalisierung von Unternehmensdaten geworden, zusammen mit der rasanten und anhaltenden Evolution verwandter IT-Technologien. Diese Datenmenge wird voraussichtlich den Weg bereiten für bahnbrechende Innovationen in der Digitaltechnik, etwa bei maschinellem Sehen, Spracherkennung und Finanzrisiko-Management. Die effektive Verwaltung, Verarbeitung und Nutzung riesiger Datenmengen ist daher für Unternehmen, die in ihrer Branche an vorderster Front agieren wollen, zu einem wichtigen Wettbewerbsfaktor geworden.

Die Speicherung großer Mengen unstrukturierter Daten stellt jedoch traditionelle Speichersysteme aufgrund der Größe und Anzahl der Dateien, der Indexierung, der Nutzung von Zugriffsmustern und veralteter Datenspeichertechnik (z. B. rotierende Festplatten) vor große Herausforderungen. Darüber hinaus bieten Blockspeicher- und Dateispeichersysteme keine ideale Lösung für die Speicherung kleiner Dateien, während KI und andere neue Anwendungen gleichzeitig in puncto Lese-/Schreibleistung höhere Anforderungen an Speichersysteme stellen. Diese Faktoren stellen interessante technische Herausforderungen dar.

Dateigröße und Quantität — die Leistung herkömmlicher Speichersysteme neigt zu Volatilität und sinkt mit der rasanten Zunahme der Dateimengen. In KI-Trainingsszenarien wie der Bilderkennung bestehen die für das Training verwendeten Datenpools aus erstaunlichen Mengen typischerweise kleiner Dateien. Auch bei populären Internet-Anwendungen wie Medienverwaltung, unbemannten Fahrzeugen und Videodiensten erreicht die Zahl der gespeicherten und verarbeiteten Dateien gewöhnlich mehrere hundert Millionen. Die rasche Zunahme der Dateimengen führt zu Abnahme und Volatilität der IOPS-Leistung in Speichersystemen, insbesondere bei herkömmlichen Dateispeicherlösungen wie NAS-Systemen (Network Attached Storage).

Indexierung — darüber hinaus verwenden Dateispeichersysteme derzeit die Rechenmethoden Hash Tree und B+ Tree zur Verwaltung und Indexierung von Verzeichnissen. Die für die Verwaltung und Indexierung von Verzeichnissen verwendeten Algorithmen neigen dazu, beim Abrufen aus Verzeichnissen mit über 100 Millionen Dateien deutlich an Effizienz und Leistung einzubüßen.

Zugriff — in bestimmten Anwendungsszenarien verschärfen die Zugriffsmodi „Einmal lesen, mehrfach schreiben“ oder „gemischtes Lesen/Schreiben“ weiter die Probleme hinsichtlich der Leistung. Gängige I/O-Prozesse für Dateien umfassen Vorgänge wie „Öffnen“, „Suchen“, „Lesen/Schreiben“ und „Schließen“. „Öffnen“ vor „Lesen“ oder „Schreiben“ benötigt die größte Menge an Systemzeit und Ressourcen. Das System führt bei Zugriffsmodi mit „gemischtem Lesen/Schreiben“ wiederholt „Öffnen“-Operationen durch. Wenn eine große Anzahl an Operationen gleichzeitig erfolgt, wird ein enormer Teil der Systemressourcen verschwendet, was einen Leistungsverlust zur Folge hat.

HDDs — die Schwächen herkömmlicher HDDs hinsichtlich der IOPS und der Lese-/Schreibleistung bei wahlfreiem Zugriff haben die Leistungzuwächse bei Speichersystemen behindert. Aufgrund mechanischer Einschränkungen haben selbst die höherwertigen HDDs bei wahlfreier Lese-/Schreibleistung nur IOPS-Werte von einigen Hunderten.2 Bei der Verarbeitung kleiner Dateien ist die Effizienz sogar noch niedriger, da die Festplatte ständig an verschiedenen Speicherorten nach den Dateien suchen muss.

Baidu ABC Storage All-Flash-Hochleistungsspeicherlösung

Baidu hat sich mit seiner Arbeit im Bereich der Suchtechnologie weithin einen Namen gemacht. Mit über 100 Milliarden Seiten, 2.000 Petabyte (PB) gespeicherter Daten und 100 PB täglich verarbeiteter Daten3, ist Baidu bestens mit den technologischen Herausforderungen vertraut, die sich aus der Speicherung großer Mengen unstrukturierter, kleiner Dateien ergeben.

Baidu AI Cloud hat versucht, die oben genannten Herausforderungen durch Software-Verbesserungen und auf Intel® Technik basierender, fortschrittlicher Hardware zu lösen.

Baidu-article-node-specs-flowchart.jpeg

Software

Die Entwickler haben die hochleistungsfähige Objektspeicher-Engine von Baidu in die neue Lösung integriert, sodass sie ein hervorragendes Management des Datenlebenszyklus ermöglicht, eine Strategie zur Datensicherung, effiziente Datenabfrage, das InfiniBand*- Architekturnetzwerk und RDMA-Unterstützung sowie flexible Mechanismen für die Rechteverwaltung. Darüber hinaus ist die leistungsstarke Datenspeicher-Engine von ABC Storage durch die Nutzung „flacher“ Objektspeicher-Bereitstellung, hochgradig effizienter Abfragen und Exabyte-Skalierbarkeit in der Lage, Private-Cloud-Nutzern Datenspeicher für riesige Mengen unstrukturierter, kleiner Dateien bereitzustellen.

Ein KI-Trainingsprozess besteht aus Datenerfassung, Bereinigung und Kennzeichnung, Resizing, Modellierung, Training, Evaluierung und Vorhersage. Bei jedem Schritt muss das Speichersystem Lese-, Schreib- und Abfrageoperationen durchführen. Während des Trainings sind die Daten hoher Parallelität und wiederholtem Durchsatz unterworfen, damit ausreichend Daten bereitgestellt werden, um das System für Vorgänge mit voller Last zu trainieren.

Baidus Objektspeicher-Engine löst Leistungsprobleme bei großen Dateimengen und bietet die Voraussetzungen dafür, dass Storage-Systeme einen stabilen Leistungs-Output erzielen und die Effizienz der Datennutzung von KI-Anwendungen wirkungsvoll steigern können. Unterdessen führt die Engine für bestimmte gemischte Lese-/Schreiboperationen während des Trainings weitere Optimierungen durch, um sicherzustellen, dass die Systemleistung in gemischten Lese-/Schreibszenarien nicht beeinträchtigt wird.

Testergebnisse verschiedener Optimierungen zeigen, dass die Software alleine in der Lage ist, bei einer steigenden Anzahl von Dateien eine stabile Leistung beizubehalten. Wie in Abbildung 1 dargestellt, schwankten die Werte für Abfragen pro Sekunde (QPS) und die Latenzleistung innerhalb eines Bereichs von 5 Prozent4, wenn die Dateimengen schrittweise von 100 Millionen auf 8 Milliarden erhöht wurden.

Hardware

Wie oben beschrieben, bringt der Einsatz von Festplattenlaufwerken für leistungsstarke Storage-Lösungen einige Herausforderungen mit sich. SSDs haben praktisch keine Suchzeit oder Rotationslatenz, woraus im Vergleich zu Festplatten eine hohe IOPS-Leistung resultiert. Baidu AI Cloud verwendet eine Kombination aus Intel® Optane™ SSD und Intel® QLC 3D NAND SSD-Technologie, um die Kernhardware für die ABC Storage All-Flash-Objektspeicherlösung zu bauen. Intel Optane SSDs bieten innovative Intel® 3D XPoint™ Speichermedien und verfügen über fortschrittliche Systemspeicher-Controller, Schnittstellen-Hardware und Software-Technik, was geringe Latenz und hohe Stabilität ermöglicht. Die Baidu-Lösung verwendet die folgenden Komponenten:

Intel® Optane™ SSD DC P4800X wird in Kernbereichen von Speichersystemen eingesetzt, wie etwa Cache, MDS und dem Logging-System. Dieses Gerät bietet bis zu 550.000 IOPS an zufälliger Lese-/Schreibkapazität und weniger als 10 µs Lese-/Schreiblatenz,5 wodurch die Lösung in Szenarien mit mehreren Benutzern und hoher Parallelität effektiver ausgeführt werden kann. Gleichzeitig sorgt sein DWPD-Wert (Drive Writes per Day, Schreibvorgänge pro Tag) für höhere Langlebigkeit und besseren wirtschaftlichen Nutzen.

Das Intel® SSD D5-P4320, das auf QLC-Technik basiert, bietet eine hohe Speicherkapazität. Intels 64-Layer 3D-NAND-Technologie ermöglicht eine einzelne QLC-SSD-Kapazität von bis zu 7,68 TB, um die Speicheranforderungen massiver Datenmengen adäquat zu erfüllen. Sie hat außerdem bei wahlfreiem Zugriff eine Lesegeschwindigkeit von bis zu 427.0007 IOPS und ist in Verbindung mit dem Prozessor Intel® Xeon® Gold 6142 besonders geeignet, um die Leistungsanforderungen für „Write Once, Read Many“ (WORM) in Anwendungsszenarien wie KI-Training zu erfüllen. Die in der neuen Lösung verwendete Intel SSD D5-P4320 erfüllt effektiv den Bedarf an hoher Datenspeicherkapazität.

Bei ABC Storage wird jeder Storage-Server mit vier SSDs ausgestattet, was insgesamt eine Dateispeicherkapazität für bis zu 2 Milliarden 15-KB-Dateien in 30 TB Kapazität bereitstellt. Und was noch wichtiger ist: Das Preis-Leistungs-Verhältnis von Intel QLC 3D NAND SSDs ermöglicht es dieser Kombination aus SSDs, die hohe Leistung dieser Lösung sicherzustellen und gleichzeitig die Gesamtbetriebskosten (TCO) für das System effektiv zu senken. Tests von Baidu haben gezeigt, dass die hochleistungsfähige All-Flash-Lösung der Baidu AI Cloud die Gesamtbetriebskosten um 60 Prozent senken könnte.6

Ergebnisse

Mit Intels Unterstützung führte das Team von Baidu AI Cloud eine detaillierte Bewertung und Messung der Leistungseigenschaften ihrer rein auf Flash-Speicher basierenden Storage-Lösung ABC Storage durch. Abbildung 2 zeigt den Benchmark-Testrahmen, der einen Cluster aus fünf Servern umfasst, von denen jeder mit zwei Intel® Xeon® Gold 6142 Prozessoren und 256 GB Arbeitsspeicher ausgestattet ist. Es kamen ein Intel Optane SSD DC P4800X mit 750 GB und vier Intel-SSDs D5-P4320 mit je 7,68 TB zum Einsatz. Das System verwendete ein 40 GbE-Netzwerk zur Verbindung mit der Rechnerplattform.

Die Tests zeigten, dass die Kombination aus Intel Optane SSD und Intel 3D-NAND-QLC-Technik die Anforderungen an die Leistung des Storage-Systems, die für KI-Trainingsszenarien erforderlich ist, adäquat erfüllt. Tabelle 1 zeigt die Leistungsergebnisse der Basisversion von ABC Storage.

Zukunftsperspektiven

Als eines der entscheidenden praktischen Ergebnisse der ABC-Strategie von Baidu AI Cloud lieferte die leistungsstarke, rein auf Flash-Speicher basierende Objektspeicherlösung ABC Storage mit ihrer verbesserten Speicherleistung und -größe für Private-Cloud-Anwendungsszenarien, wie KI-Training, Big-Data-Analysen und High-Performance-Computing (HPC), starke und zuverlässige Unterstützung.

Produkte und Technik von Intel sind entscheidende Faktoren für den Erfolg der Lösung. In Zukunft wollen beide Unternehmen weitere Partnerschaften eingehen, um die Leistung der bestehenden Lösungen zu optimieren und gleichzeitig mehr Produkte und Technologien von Intel zu integrieren. In der Zwischenzeit planen beide Parteien auch, die All-Flash-Hochleistungs-Objektspeicherlösung auf weitere Anwendungsszenarien auszuweiten, um massive Daten wirklich in eine treibende Kraft zu verwandeln, die die Transformation der Entwicklung von IT-Technologien und die Digitalisierung von Unternehmen vorantreiben wird.

Die Vorteile der Lösung von Baidu AI Cloud

  • Die leistungsstarke Datenspeicher-Engine von ABC Storage bietet eine integrierte Objektspeicherschnittstelle für Anwendungsszenarien wie KI-Training und High-Performance-Computing (HPC) und liefert dadurch selbst bei schnell wachsenden Dateimengen stabile Leistungsergebnisse.
  • Mit gezielten Optimierungsprozessen hilft die leistungsstarke Datenspeicher-Engine von ABC Storage Storage-Systemen da ein gutes Leistungsniveau beizubehalten, wo für große Datenmengen „Lese-/Schreib“-, WORM- und „gemischte Lese-/Schreib“-Szenarien erforderlich sind.“
  • Die Kombination aus Intel® Optane™ SSD- und Intel® QLC-3D-NAND-Technik ermöglicht es der rein auf Flash-Speicher basierenden Objektspeicherlösung ABC Storage, ein hohes Leistungsniveau beizubehalten und gleichzeitig die Gesamtbetriebskosten dramatisch zu senken.

    PDF herunterladen