- 話すAI、その裏側は?ChatGPTの正体 -
( I ). LLMとChatGPT
LLM(大規模言語モデル)とは、膨大なテキストデータと高度なディープラーニング技術を駆使し、自然言語を処理する技術です。自然言語処理に特化した生成AIの一種で、従来のモデルと比較して、「計算量」(コンピュータが処理する仕事量)、「データ量」(学習に用いる情報量)、「パラメータ数」(モデル内で使われる係数)が大幅に強化されています。これにより、より複雑なタスクにも適応できる言語処理が可能です。
GPT(Generative Pre-trained Transformer)は、LLMのひとつであり、次に来る単語を予測しながら言語を生成するモデルです。ChatGPTは、このGPTを基盤とした対話型AIで、特に自然な会話ができるように設計されています。ChatGPT-4では日本語の性能が向上し、音声入力にも対応しています。
( II ). LLMが言語を生み出す仕組み
STEP1: トークン化
まず、テキストデータはコンピュータが処理しやすい最小単位である「トークン」に分割されます。英語では単語や句読点などがトークンとなります。STEP2: ベクトル化
トークン化されたデータは、コンピュータが解析できるよう数値のベクトルに変換されます。このベクトル化により、モデルはデータを理解しやすくなります。STEP3: ニューラルネットワークによる特徴抽出
トークン化されたデータは、多層のニューラルネットワークを通過します。この過程で、モデルはデータの特徴を抽出し、文脈や単語間の関係性を学習します。STEP4: 文脈理解
LLMは、単語単位の出現確率を計算するだけでなく、文全体の意味や、複数の文が持つ関連性を理解します。これにより、人間のように文脈を把握して応答できる能力が向上します。STEP5: デコード
最後に、出力されたベクトルを自然なテキストに変換します。これによって、モデルは人間が理解できる形で応答を生成します。- 溶け込むAI、miibo -
miiboには、『知能』『知識』『共感』『個性』を持ち合わせたAIが備わっています。この『知能』の役割を果たしているのがLLMで、問いへの答えを導きます。また、RAGやシナリオ、ルールベース応答などの機能を用いて、目的と役割を確立する『知識』を獲得します。しかし、これだけでは回答が単純で社会性に欠けます。そこに『ステート』機能を取り入れることでエージェントに『共感』を与え、パーソナライズされたユーザーとのコミュニケーションが可能になります。更に、プロンプトを向上させることでエージェントに『個性』与え、より人間らしくなり身近に感じさせることが出来るようになります。miiboでは、これらの4つの要素を網羅したAIを溶け込むAIと表現しています。
知能
高度で示唆に富んだ会話
知識
正しさ・社会性・勤勉さ・賢さ・専門知識
共感
優しさ・気が利く・思いやり・好奇心・寄り添い
個性
性格・口調・生息場所・バックグラウンド・愛情
ステートに関して
プロンプト内に『ユーザーの趣味』などの動的に変化する変数を埋め込み、会話の中で変数に情報を格納する。これによってプロンプトを動的に変化させることができるようになり、会話の流れに応じたユーザーとの会話が可能になる。このとき、動的に変化しながら、内部的に保持されるKEY-VALUEの組み合わせをステートという。
- miiboのエージェントが応答に用いる言語モデル -
これまでは、チャットボットやアプリの開発においてはGPT 3.5 Turboの利用が主流でした。しかし、GPT-4o miniが登場したことにより、この1年で大流行したChatGPTのAPIが転機を迎えています。 miiboではAPI経由でChatGPTを利用してて返答を生成していますが、 コスト・性能・速度のすべての点でGPT 3.5 TurboよりもGPT4o-miniの方が優れています。GPT 3.5 Turboは公開停止予定であり、途中で性能が落ちてしまったように感じられたため、私たちも当初はGPT 3.5 Turboを利用していましたが、途中で言語モデルをGPT 4o-miniに変更しました。