異なる並列ファイルシステムの相対的な性能の比較

ボブ・マーフィー|2019年10月28日

最近、Panasasasの社員から、Panasas PanFSファイルシステムを実行している新しいPanasas ActiveStor Ultraと、Lustre、IBM Spectrum Scale (GPFS)、BeeGFSの並列ファイルシステムとのパフォーマンスの比較について質問がありました。私たちの数値は知っていましたが、他の並列ファイルシステムと比較してどうなのかを把握しなければなりませんでした。これらはすべてスケールアウトされた並列ファイルシステムなので、理論的には最大性能は無限大なので、公正に比較する方法を見つける必要がありました。

問題をさらに悪化させたのは、これらの並列ファイルシステムを統合した市販の異なるシステムはすべて、異なるフォームファクタ、異なるサーバ/JBOD比率、およびハードディスクドライブ(HDD)数を持っているという事実でした(この分析のために、私はHDDベースのシステムに範囲を限定しました)。下の図は、提供されているソリューションのいくつかと異なるフォームファクタの例を示しています。


これらの性能を比較するには?


ご覧のように、いくつかのシステムには、図の中で特定されている様々なGB/秒のパフォーマンス番号があり、様々なサイズの他のシステムにも、それらに関連したパフォーマンスデータがあります。しかし、サイズやフォームファクタが異なるこれらすべてのシステムを比較するにはどうすればよいのでしょうか?

これらのシステムに共通しているのは何でしょうか?

私はサーバごと、さらにはラックごとの性能を比較しようと考えていましたが、LustreやGPFSのベンチマークの経験もあるベンチマークエンジニアから、システムのフットプリントやTCO、性能効率に影響を与えるのはディスクの数だから、比較対象としてはハードディスクドライブ(HDD)あたりのスループットが良いのではないかと勧められました。考えてみれば、高性能ファイルシステムは、ストレージメディアへのデータの読み書きを可能な限り高速に行うことを想定しているのではないでしょうか?ドライブあたりの帯域幅は、ハードウェアとソフトウェアのアーキテクチャが大きく異なるストレージシステムを比較して、1ドルあたりのMB/秒を比較する唯一の方法です。そして、これはHPCストレージのブログなので、より関連性の高い比較数値を得るために、100ドライブあたりのスループットを得るために、HDDあたりのスループット数を100倍して、結果をGB/秒で表示しました。

IBM SPECTRUM SCALE (GPFS) の比較性能

まずは、IBM Elastic Storage Server (ESS)の公表されているパフォーマンス結果から見ていきましょう。IBMは製品のドキュメント化を模範的に行っており、ESSのパフォーマンスはここに詳細が記載されています。スライド7を見てみると、HDDベースのModel GL4Sは定格24GB/s、ディスクドライブ数334基、71.86MB/s/HDDとなっており、HDDあたりのスループット数を100倍すると7.2GB/s/100HDDという結果になる。IBMはリードスループットを宣伝していますが、このブログではそれに焦点を当てます(ほとんどのベンダーが提供している最も容易に入手可能なベンチマークの数値なので)が、IBM GPFSの書き込み速度はリードの2倍近く遅くなることに注意してください。私がGL4Sを選んだのは、大きなGL6SよりもHDDあたりの速度が少し速かったからですが、読者は、サイズに関係なく、すべてのIBM ESSシステムがGB/s/100 HDDの値の狭い範囲内に収まっていることを計算することができます(HDDをベースにしたパフォーマンスの数字の長所の論文をさらにサポートしています)。

比較のために、4台のASU Panasas ActiveStor UltraとPanFS、96台のHDDを搭載した場合、読み取りスループットは12,465 MB/s、つまり13.0 GB/s/100 HDDとなります。下の結果をプロットすると、Panasas ActiveStor Ultraの読み込み性能はGPFSよりも2倍近く速いことがわかります。


PanFSとGPFS ESS GL4Sの読み込み性能をGB/sで比較


そして、PanFSの読み取り性能と書き込み性能はほぼ同等に近い(PanFSの書き込み性能はGPFSの4倍近くの速さになる)。IBM ESSでは、データがランダムにディスクに書き込まれるGPFSの「スキャッター」データ配置モードを使用していることに注意する必要があります。「スキャッター」モードは、少し遅いですが、ファイルシステムがいっぱいになっても均一なパフォーマンスを維持し、ほとんどのファイルシステムでは一般的ではない人気の高い機能である断片化によるパフォーマンスの低下を回避できるという貴重な利点があります。PanFSも同様に一貫したパフォーマンスを維持しますが、これは、表示されているパフォーマンスレートが非常に高いという特徴を持っています。

ACTIVESTOR ULTRAのPANFSは何がそんなに速いのか?

PanFSの最新リリースは、データの種類ごとに適切なタイプのストレージをマッチングさせる、多階層のインテリジェントなデータ配置アーキテクチャを特徴としています。
  • 小さなファイルは、低レイテンシーのフラッシュSSDに保存されます。
  • 大容量・低価格・高容量・高帯域幅のHDDに大容量ファイルを保存
  • メタデータは低レイテンシのNVMe SSDに保存されます。
  • NVDIMMのインテントログは、データとメタデータ操作の両方をステージ化します。
  • 変更されていないデータとメタデータは、DRAMにキャッシュされます。
PanFSはNVDIMMに新たに書き込まれたデータを保護するため、他のドライブは完全に非同期でデータを書き込むことができ、書き込みを合体させてHDDに最も効率的なパターンでデータを配置することで、最高のパフォーマンスを得ることができます。新しく書き込まれたデータをより大きなシーケンシャル領域に蓄積することで、データの断片化が減少するため、後からデータを読み出す際にもシーケンシャルになります。さらに、ActiveStor Ultraは、CPU、メモリ、ストレージメディア、およびネットワークを適切に最適化する非常にバランスのとれた設計を特徴としており、NICからディスクに至るまでハードウェアのボトルネックがないため、最大のPanFSパフォーマンスと最高の価格/性能を実現しています。

次の記事、LUSTRE

Lustreについては、有名な大口顧客サイト(スライド67、68)のデータを見てみたところ、50,000MB/s/656 HDD×100=7.6GB/s/100 HDDとなりました。これらの顧客サイトの結果(間違いなく最高の Cray、Seagate、KAUST のエンジニアによって達成された)対 PanFS の結果を以下に示します。


PanFS対Lustre ClusterStor L300の読み取り性能(GB/秒)の比較


以前、ほとんどのファイル システムでは、時間の経過とともにファイルの容量が増加するとパフォーマンスが低下することを説明しました。その動作の好例を、このLustreのプレゼンテーションで説明しています。


Lustreのパフォーマンス低下と容量充填量の比較


発表会の映像中に収録された質問には、一部のLustreユーザーからの懸念の声もありました。

BEEGFS

最後に、BeeGFSを見てみましょう。BeeGFSのウェブサイトには、保護されていない高速なRAID 0システムから、より低速なZFSベースのシステムまで、パフォーマンスが文書化されているいくつかのシステム例があります。BeeGFSでは、クラスタやエンタープライズ環境でクライアントの数が多い場合には、複数のRAID 6グループ、通常は1つのRAID 6グループにつき10台または12台のドライブを使用して、サーバーあたり24〜72台のディスクを使用することを推奨しているので、私はThinkParQが作成したパフォーマンスホワイトペーパーをそれに合わせて分析することにしました。結果は3,750 MB/s / 48 HDD x 100 = 7.8 GB/s/100 HDDでした。Panasas ActiveStor Ultraの結果と比較して以下にプロットします。


PanFSとBeeGFSのGB/sでの読み取り性能の比較


キャッシュするかしないか

上記の結果(Panasas ActiveStor Ultraを含む)は、キャッシングがパフォーマンスに影響を与えることなく達成されています。もう一つ注目すべき並列ファイルシステムソリューションは、新しくリリースされたLustreベースのDDN EXAScaler SFA18Kです(スライド21)。その数値は60,000MB/s/400 HDD×100=15.0GB/s/100 HDDとなっています。DDNではキャッシュされた結果なのか、キャッシュされていない結果なのかは公表していません。Lustreにはライトスルー(ディスクに書き込まれたデータがすぐにキャッシュに残り、後で読み出せるようにすること)を含むキャッシュがあります。また、SFA18Kのデータシートにはキャッシュに関する情報はほとんどありませんが、以前のSFAには512GBのDDR4 RAMキャッシュが搭載されていました。DDNを知っているので、今のところ、これらはキャッシュされた結果であると仮定してみましょう。

Panasas ActiveStor Ultraも非常に大きなキャッシュ(ASUノードあたり32GBのDDR4 RAM)を持っており、私たちの書き込みスルーリードバックキャッシュの結果は25.4GB/s/100 HDDでした。大きなキャッシュはアプリケーションのパフォーマンスに有益な効果をもたらす可能性があります。PanasasとDDNの比較パフォーマンスは以下のチャートに示されています。


PanFSとDDN Lustre ES18Kの読み取り性能(GB/秒)の比較


結論

以下に、上記の並列ファイルシステムの比較(キャッシュされない)性能を示すサマリースライドを示します。PanFSは、与えられたハードウェアのセットから帯域幅を提供する際に、他のパラレルファイル システムの約2倍の効率を発揮します。


PanFSと競合する並列ファイルシステムの読み取り性能(GB/秒)の比較


確かに、これは簡単に見つけられる公開情報を使って、並列ファイルシステムベースの高性能ストレージシステムの相対的な性能を評価するための単純な1次の方法に過ぎません。アプリケーションミックスやユースケースは人それぞれであり、各システムが組織の特定のワークロードに対してどのようにパフォーマンスを発揮するかを確認するためには、実際にターゲットを絞った具体的なベンチマークが必要となります。

しかし、Panasas ActiveStor UltraとPanFSの性能は、これらのシステムと比較して、真剣勝負であることを示しており、新しいハイパフォーマンスストレージの導入のためのショートリストに入れるべきです。




この資料について
Panasas社が紹介している並列ファイルシステムの性能比較資料を翻訳したものです。原文は、以下のページで参照出来ます。
Comparing the Relative Performance of Different Parallel File Systems

Panasas社の並列ファイルシステムの機能などを比較した資料の一部抜粋を翻訳した資料もご用意しています。
異なる並列ファイルシステムの性能、信頼性、管理要件の比較

原文資料のダウンロードは、以下のリンクから可能です。
Comparing the Performance,Reliability and Administration Requirements of Different Parallel File Systems
COMPETITIVE COMPARISON

Panasas ActiveStor 製品については、弊社製品ページをご参照ください。