MotusAI、効率的かつ統一されたGPUスケジューリングの実装により、クラスターコンピューティングの平均電力利用率70%超を達成
シンガポール、ドイツ・ハンブルク — 2024年5月14日 — ITインフラストラクチャの大手プロバイダーであるKAYTUSは、世界中でトライアル可能なAI開発プラットフォームMotusAIを発表しました。MotusAIはディープラーニングとAI開発のために設計され、AI開発環境とともにGPUとデータリソースを統合し、コンピューティングリソースの割り当て、タスクのオーケストレーション、一元管理を効率化します。トレーニングデータを加速し、AIモデル開発のワークフローをシームレスに管理します。このプラットフォームは、リソース投資を大幅に削減し、開発効率を高め、クラスタコンピューティングの利用率を70%以上に高め、大規模トレーニングタスクのスケジューリング性能を大幅に向上させます。
費用対効果と効率性を高めるAI開発の合理化
エンタープライズAIビジネスとAIモデル開発の急速な拡大により、コンピューティング効率の低さ、モデル開発の複雑さ、異なるシナリオにまたがるタスクオーケストレーションの多様な要件、不安定なコンピューティングリソースなどの課題が生じています。AIビジネスの効率的で柔軟かつ安定した運用を確保することは、企業が常にビジネスインサイトを導き出し、収益を上げ、競争力を維持するために不可欠です。
コンピューティング能力を最大化するためのリソース管理の最適化
MotusAIは、インテリジェントで柔軟なGPUスケジューリング機能を実装することで、リソースとワークロードを効率的に配分します。需要に応じてGPUリソースを動的に配分することで、AIワークロードのコンピューティング能力に対する多様な需要に対応します。きめ細かなGPUスケジューリングとマルチインスタンスGPU(MIG)のサポートを含む、多次元で動的なGPUリソースの配分により、MotusAIはモデル開発、デバッグ、トレーニングなどのさまざまなシナリオでコンピューティング能力の要件を効果的に満たします。
多様なシナリオの汎用的なサポートのためのタスクオーケストレーションの合理化
MotusAIはクラウドネイティブのスケジューリングシステムに革命を起こしました。そのスケジューラーは、大規模PODタスクのスケジューリング性能を劇的に向上させ、コミュニティバージョンを凌駕しています。MotusAIは、コミュニティスケジューラーと比較して、スループットが5倍向上し、レイテンシーが5倍減少し、数百のPODの迅速な起動と環境の準備を実現します。これにより、大規模トレーニングのための効率的なスケジューリングとコンピューティングリソースの利用が保証されます。さらに、MotusAIは、トレーニングサービスと推論サービスの両方でAIワークロードの動的スケーリングを可能にし、バーストタスクをサポートし、さまざまなシナリオで多様なスケジューリングニーズを満たします。
MotusAIは、1枚のカードで複数のインスタンスを細かく分割することから、複数のマシンとカードにまたがる大規模な並列コンピューティングまで、ユーザーがコンピューティングリソースを最大限に活用できるようにします。コンピューティング能力プーリング、動的スケーリング、GPUシングルカード再利用などの機能を統合することで、MotusAIはコンピューティング能力の利用を大幅に向上させ、平均利用率70%以上を達成しました。さらに、クラスターのトポロジー認識とネットワーク通信の最適化を活用することで、コンピューティング効率を向上します。
データ転送の高速化で3倍の効率向上
MotusAIは、リモートデータのローカル読み込みとコンピューティングをサポートし、コンピューティング中のネットワークI/Oによる遅延をなくすなどの革新的な機能により、データ転送の高速化に優れています。「ゼロコピー」データ転送、マルチスレッド検索、インクリメンタルデータ更新、アフィニティスケジューリングなどの戦略を活用し、MotusAIはデータキャッシュサイクルを大幅に削減します。これらの機能強化により、AIの開発とトレーニングの効率が大幅に改善され、データトレーニング中のモデル効率が2~3倍向上しました。
高信頼性の自動フォールトトレラントプラットフォーム
MotusAIは、コンピューティングリソースのパフォーマンス監視とアラートをサポートし、コアプラットフォームサービスのリアルタイムステータス更新を提供します。より高いセキュリティレベルのデータに対しては、サンドボックス隔離機構を採用しています。リソースに障害または異常が発生した場合、MotusAIは自動的にフォールトトレランスプロセスを開始し、中断されたトレーニングタスク中に可能な限り迅速な回復を保証します。このアプローチにより、故障処理にかかる時間は平均90%以上短縮されます。
AIモデル開発を1つの統合ソリューションで包括的に管理
MotusAIはAI開発を加速し、大規模モデル開発のあらゆる段階をサポートします。データサンプルやソフトウェアスタックの管理から、モデルアーキテクチャの設計、コードのデバッグ、モデルのトレーニング、パラメータのチューニング、評価テストの実施まで、MotusAIは完全なプラットフォームを提供します。PyTorchや TensorFlowなどの一般的な開発フレームワークと、MegatronやDeepSpeedなどの分散型学習フレームワークを統合します。
さらに、MotusAIは、オフラインおよびオンラインテスト、A/Bテスト、ローリングリリース、サービスオーケストレーション、サービス廃止を含む、AI推論サービスの包括的なライフサイクル管理を可能にします。これらの機能は総体的にAIテクノロジーのビジネス価値を高め、継続的なビジネスの成長を促進します。
さらに、MotusAIは、コンピューティング、ネットワーク、ストレージ、アプリケーションリソースをカバーする統合ビジュアル管理・操作インターフェースを提供します。運用スタッフは、単一のインターフェースを通じて、プラットフォーム全体の運用状況を包括的に管理、監視、評価することができます。
無料トライアルあり
MotusAIは現在、世界中でトライアル期間を設けており、テスト、トレーニング、サポートと共に、1カ月間の無料リモートアクセスを提供しています。また、KAYTUSのローカル展開テストサポートにより、ユーザー自身のデバイスと環境を使用したローカル展開を選択することもできます。詳細情報1および登録2については、Link1、Link2をご覧ください。
KAYTUS について
KAYTUSは、クラウド、AI、エッジコンピューティング、その他の最先端技術に対応した、最先端かつオープンで環境に優しいインフラストラクチャソリューションを提供する、ITインフラストラクチャ製品とソリューションの大手プロバイダーです。顧客中心のアプローチにより、KAYTUSはアジャイルなビジネスモデルを通じてユーザーのニーズに柔軟に対応しています。詳しくはこちらをご覧ください。KAYTUS.com
メディアお問い合わせ先
KAYTUS は Web サイトの利用を可能にして最適化し、コンテンツをパーソナライズして、Web サイトの使用状況を分析するために Cookie を使用しています。詳細については、弊社個人情報保護方針をご覧ください。