KAYTUS、高効率GPUリソーススケジューリングとタスクオーケストレーションのためのAI開発プラットフォーム MotusAI をリリース

2024-05-14

MotusAI、効率的かつ統一されたGPUスケジューリングの実装により、クラスターコンピューティングの平均電力利用率70%超を達成

シンガポール、ドイツ・ハンブルク — 2024年5月14日 — ITインフラストラクチャの大手プロバイダーであるKAYTUSは、世界中でトライアル可能なAI開発プラットフォームMotusAIを発表しました。MotusAIはディープラーニングとAI開発のために設計され、AI開発環境とともにGPUとデータリソースを統合し、コンピューティングリソースの割り当て、タスクのオーケストレーション、一元管理を効率化します。トレーニングデータを加速し、AIモデル開発のワークフローをシームレスに管理します。このプラットフォームは、リソース投資を大幅に削減し、開発効率を高め、クラスタコンピューティングの利用率を70％以上に高め、大規模トレーニングタスクのスケジューリング性能を大幅に向上させます。

費用対効果と効率性を高めるAI開発の合理化

エンタープライズAIビジネスとAIモデル開発の急速な拡大により、コンピューティング効率の低さ、モデル開発の複雑さ、異なるシナリオにまたがるタスクオーケストレーションの多様な要件、不安定なコンピューティングリソースなどの課題が生じています。AIビジネスの効率的で柔軟かつ安定した運用を確保することは、企業が常にビジネスインサイトを導き出し、収益を上げ、競争力を維持するために不可欠です。

コンピューティング能力を最大化するためのリソース管理の最適化

MotusAIは、インテリジェントで柔軟なGPUスケジューリング機能を実装することで、リソースとワークロードを効率的に配分します。需要に応じてGPUリソースを動的に配分することで、AIワークロードのコンピューティング能力に対する多様な需要に対応します。きめ細かなGPUスケジューリングとマルチインスタンスGPU（MIG）のサポートを含む、多次元で動的なGPUリソースの配分により、MotusAIはモデル開発、デバッグ、トレーニングなどのさまざまなシナリオでコンピューティング能力の要件を効果的に満たします。

多様なシナリオの汎用的なサポートのためのタスクオーケストレーションの合理化

MotusAIはクラウドネイティブのスケジューリングシステムに革命を起こしました。そのスケジューラーは、大規模PODタスクのスケジューリング性能を劇的に向上させ、コミュニティバージョンを凌駕しています。MotusAIは、コミュニティスケジューラーと比較して、スループットが5倍向上し、レイテンシーが5倍減少し、数百のPODの迅速な起動と環境の準備を実現します。これにより、大規模トレーニングのための効率的なスケジューリングとコンピューティングリソースの利用が保証されます。さらに、MotusAIは、トレーニングサービスと推論サービスの両方でAIワークロードの動的スケーリングを可能にし、バーストタスクをサポートし、さまざまなシナリオで多様なスケジューリングニーズを満たします。

MotusAIは、1枚のカードで複数のインスタンスを細かく分割することから、複数のマシンとカードにまたがる大規模な並列コンピューティングまで、ユーザーがコンピューティングリソースを最大限に活用できるようにします。コンピューティング能力プーリング、動的スケーリング、GPUシングルカード再利用などの機能を統合することで、MotusAIはコンピューティング能力の利用を大幅に向上させ、平均利用率70％以上を達成しました。さらに、クラスターのトポロジー認識とネットワーク通信の最適化を活用することで、コンピューティング効率を向上します。

データ転送の高速化で3倍の効率向上

MotusAIは、リモートデータのローカル読み込みとコンピューティングをサポートし、コンピューティング中のネットワークI/Oによる遅延をなくすなどの革新的な機能により、データ転送の高速化に優れています。「ゼロコピー」データ転送、マルチスレッド検索、インクリメンタルデータ更新、アフィニティスケジューリングなどの戦略を活用し、MotusAIはデータキャッシュサイクルを大幅に削減します。これらの機能強化により、AIの開発とトレーニングの効率が大幅に改善され、データトレーニング中のモデル効率が2～3倍向上しました。

高信頼性の自動フォールトトレラントプラットフォーム

MotusAIは、コンピューティングリソースのパフォーマンス監視とアラートをサポートし、コアプラットフォームサービスのリアルタイムステータス更新を提供します。より高いセキュリティレベルのデータに対しては、サンドボックス隔離機構を採用しています。リソースに障害または異常が発生した場合、MotusAIは自動的にフォールトトレランスプロセスを開始し、中断されたトレーニングタスク中に可能な限り迅速な回復を保証します。このアプローチにより、故障処理にかかる時間は平均90％以上短縮されます。

AIモデル開発を1つの統合ソリューションで包括的に管理

MotusAIはAI開発を加速し、大規模モデル開発のあらゆる段階をサポートします。データサンプルやソフトウェアスタックの管理から、モデルアーキテクチャの設計、コードのデバッグ、モデルのトレーニング、パラメータのチューニング、評価テストの実施まで、MotusAIは完全なプラットフォームを提供します。PyTorchや TensorFlowなどの一般的な開発フレームワークと、MegatronやDeepSpeedなどの分散型学習フレームワークを統合します。

さらに、MotusAIは、オフラインおよびオンラインテスト、A/Bテスト、ローリングリリース、サービスオーケストレーション、サービス廃止を含む、AI推論サービスの包括的なライフサイクル管理を可能にします。これらの機能は総体的にAIテクノロジーのビジネス価値を高め、継続的なビジネスの成長を促進します。

さらに、MotusAIは、コンピューティング、ネットワーク、ストレージ、アプリケーションリソースをカバーする統合ビジュアル管理・操作インターフェースを提供します。運用スタッフは、単一のインターフェースを通じて、プラットフォーム全体の運用状況を包括的に管理、監視、評価することができます。

無料トライアルあり

MotusAIは現在、世界中でトライアル期間を設けており、テスト、トレーニング、サポートと共に、1カ月間の無料リモートアクセスを提供しています。また、KAYTUSのローカル展開テストサポートにより、ユーザー自身のデバイスと環境を使用したローカル展開を選択することもできます。詳細情報1および登録2については、Link1、Link2をご覧ください。

KAYTUS について

KAYTUSは、クラウド、AI、エッジコンピューティング、その他の最先端技術に対応した、最先端かつオープンで環境に優しいインフラストラクチャソリューションを提供する、ITインフラストラクチャ製品とソリューションの大手プロバイダーです。顧客中心のアプローチにより、KAYTUSはアジャイルなビジネスモデルを通じてユーザーのニーズに柔軟に対応しています。詳しくはこちらをご覧ください。KAYTUS.com

メディアお問い合わせ先

media@kaytus.com

前のニュース： KAYTUS、2Uで28台のLFFドライブを搭載した先進のストレージサーバーKR2266V2を発表

次のニュース： KAYTUS、2Uフォームファクターで8つの高性能プロセッサをサポートする新しいK24V2マルチノードサーバーを発表

一覧に戻る

ニュース

詳細情報