ITリーダーによる生成AIニーズに対するLLM以外の模索
特集May 27, 20241分 Generative AI すべてのケースで大規模言語モデル(LLM)が最適であるとは限らない。新たなマルチモーダル生成AIモデルや小型モデルが、ニッチなニーズに対して有望であることが示されている。 生成AIブームが本格化する中、一部のITリーダーたちは、生成AIの初期の人気モデルである大規模言語モデル(LLM)が、より有望な利用ケースに対応するには十分でないと感じ始めている。 LLMは、高度なテキスト理解・生成能力を持ち、生成AIの代名詞的存在となっている。コード生成のコパイロットやテキストから画像を生成するジェネレーターもLLMと拡散処理を組み合わせて活用しており、今日のビジネスにおける生成AIの実験の中心に位置している。 しかし、一部のITリーダーは、すべての問題がLLMで最適に解決できるわけではないと指摘し、次の波として、言語を超えた目的に応じた結果を提供するマルチモーダルモデルを導入している。例えば、スプレッドシートやベクターデータベースに格納された動的な表データ、動画や音声データの処理などである。 マルチモーダル基盤モデルは、テキスト、音声、画像、動画など複数のモードを組み合わせ、画像のキャプション生成や画像に関する質問に答える能力を持つ。IDCの「市場の概要: 生成基盤AIモデル」によれば、Google Gato、OpenAI GPT-4o、Microsoft LLaVA、Nvidia NeVA、Vicuna、BLIP2、Flamingoなどが例として挙げられている。 Northwestern Medicineの先進技術グループは、DellのAIイノベーションチームと協力して、胸部X線画像を解釈し、主要な所見を要約する専用のマルチモーダルLLMを構築した。このモデルにより、患者は以前よりも結果を約80%早く受け取ることができるようになった。次に、NorthwesternとDellは、CTスキャンやMRIのための強化マルチモーダルLLMや、電子医療記録全体に対する予測モデルを開発する予定である。 「このモデルは非常に興味深いです。現時点で多くの人がマルチモーダルを使用しているわけではありません」と、Northwesternの麻酔科医で先進技術ディレクターのMozziyar Etemadi博士は言う。Etemadi博士は、現在のモデルが放射線科医の時間を40%節約し、画像分析能力によりさらに多くの時間を節約していると指摘している。「モデルは通常、LLMと少しのテキストやExcelだけですが、今では画像やX線を処理できるようになりました。素晴らしいことです」 新しいモデルの活用 ...
Read more