MosaicMLの最新モデルは、たった30BのパラメータでGPT-3を上回る性能を発揮

オープンソースのLLMプロバイダーであるMosaicMLは、最新のモデルであるMPT-30B Base、Instruct、Chatのリリースを発表しました。
これらの最先端のモデルは、NVIDIAの最新世代のH100アクセラレータを使用してMosaicMLプラットフォームでトレーニングされ、元のGPT-3モデルと比較して優れた品質を提供するとされています。
MPT-30Bを使用することで、企業は生成型AIの力を活用しながらデータのプライバシーとセキュリティを維持することができます。
2023年5月のローンチ以来、MPT-7Bモデルは大きな人気を得て、330万回以上ダウンロードされました。新たにリリースされたMPT-30Bモデルは、さらに高い品質を提供し、さまざまなアプリケーションに新たな可能性を開拓します。
MosaicMLのMPTモデルは、効率的なトレーニングと推論のために最適化されており、開発者は簡単にエンタープライズグレードのモデルを構築して展開することができます。
MPT-30Bの注目すべき成果の一つは、GPT-3の1750億に対してたった300億のパラメータしか使用していないにもかかわらず、GPT-3の品質を上回る能力です。これにより、MPT-30Bはローカルのハードウェアで実行することが容易になり、推論の展開コストも大幅に削減されます。

MPT-30Bを基にしたカスタムモデルのトレーニングコストも、元のGPT-3のトレーニングの見積もりよりもかなり低くなっており、企業にとって魅力的な選択肢となっています。
さらに、MPT-30Bは最大8,000トークンまでの長いシーケンスでトレーニングされており、データ重視のエンタープライズアプリケーションを処理する能力を持っています。そのパフォーマンスは、NVIDIAのH100 GPUの使用によって裏付けられており、スループットが向上し、トレーニング時間が短縮されています。
すでにいくつかの企業がMosaicMLのMPTモデルをAIアプリケーションに取り入れています。
WebベースのIDEであるReplitは、独自のデータとMosaicMLのトレーニングプラットフォームを使用してコード生成モデルを構築し、コードの品質、速度、コスト効率を向上させました。
チャットボット開発を専門とするAIスタートアップのScatter Labは、独自のMPTモデルをトレーニングして、英語と韓国語を理解することができる多言語生成型AIモデルを作成し、ユーザーのチャット体験を向上させました。
グローバルな旅行費用管理ソフトウェア企業であるNavanは、仮想旅行代理店や会話型ビジネスインテリジェンスエージェントなどのアプリケーションのためにカスタムLLMを開発するためにMPTの基盤を活用しています。
Navanの共同創設者でCTOのIlan Twigは次のように述べています。

「Navanでは、仮想旅行代理店や会話型ビジネスインテリジェンスエージェントなど、製品やサービス全体で生成型AIを使用しています。
MosaicMLの基盤モデルは、最先端の言語能力を提供しながら、微調整と大規模な推論の効率性が非常に高いです。」

開発者は、オープンソースモデルとしてHuggingFace Hubを介してMPT-30Bにアクセスすることができます。モデルを自分のデータで微調整し、自分のインフラストラクチャで推論を展開する柔軟性があります。
また、開発者はMosaicMLの管理されたエンドポイントであるMPT-30B-Instructを利用することもできます。これは、類似のエンドポイントと比較してコストのかかる問題なくモデルの推論を行うことができるものです。1,000トークンあたり0.005ドルという価格で、MPT-30B-Instructは開発者にとって費用効果の高いソリューションを提供します。
MosaicMLのMPT-30Bモデルのリリースは、大規模言語モデルの分野での重要な進歩を示しており、企業が生成型AIの機能を活用しながらコストを最適化し、データの制御を維持することができるようにしています。
（写真：Joshua Golde on Unsplash）

業界のリーダーからAIとビッグデータについてもっと学びたいですか？AI＆ビッグデータエキスポはアムステルダム、カリフォルニア、ロンドンで開催されます。このイベントはデジタルトランスフォーメーションウィークと同時開催されます。

AIニュース

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル