AI活用概論

生成AIの基本構造(入力・生成・出力)

最初に押さえる考え方

生成AIを初めて学ぶときは、機能の多さから複雑に見えやすいですが、基本構造としては「入力」「生成」「出力」の三段階で捉えると理解しやすくなります。

どれほど高性能なモデルであっても、まず何らかの情報が与えられ、その情報をもとに内部で処理が行われ、最後に結果が返されます。この三段階を理解することは、生成AIを感覚で使うのではなく、仕組みに沿って使うための出発点になります。

また、この構造を知っておくと、AIの結果が期待通りでなかった場合にも、

  • 「入力が曖昧だったのか」
  • 「生成の仕組みに起因する限界なのか」
  • 「出力の確認が不足していたのか」

を分けて考えられるようになります。これは、今後学ぶプロンプト設計やAPI連携、自動化実装の基礎にもなります。

基本構造の全体像

生成AIの基本構造は、次の三段階で整理できます。

  1. **入力:**人間または外部システムがAIへ与える情報です。
  2. **生成:**学習済みモデルが入力をもとに内部で計算し、適切と推定される内容を組み立てていく過程です。
  3. **出力:**最終的にユーザーや他のシステムへ返される結果です。

この三段階は、文章生成だけでなく、画像生成、音声生成、要約、翻訳、分類補助など、さまざまな生成AIの利用場面に共通しています。

つまり、見た目の用途が違っていても、内部の基本的な考え方は共通しています。

1. 入力

入力とは、AIに与える情報全体を指します。文章、画像、音声、表、選択肢、条件、制約、例文などが入力に含まれます。テキスト生成AIでは、こうした指示文や前提条件を実務上「プロンプト」と呼ぶことが一般的です。

OpenAIの説明でも、モデルに与える入力テキストはトークンとして処理される対象になっています。

入力は、単に「何をしてほしいか」を書けばよいというものではありません。生成AIは、与えられた情報を手がかりに出力を組み立てるため、入力が短すぎたり曖昧すぎたりすると、出力もぼんやりしやすくなります。

逆に、目的、対象者、文体、文字数、条件、禁止事項などを明示すると、出力は安定しやすくなります。これは、生成AIが人間の意図を直接読むのではなく、入力された情報から次の内容を推定しているためです。

https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

入力に含まれやすい要素

  • 目的
  • 前提条件
  • 制約条件
  • 出力形式
  • 文体や対象者
  • 参考例
  • 元データ本文

入力の例

たとえば、「この文章を要約してください」という指示も入力ですが、

  • 「以下のレポートを、大学1年生向けに、200字以内で、箇条書きではなく一段落で要約してください」

と書いたほうが、出力条件が明確になります。入力の質が、そのまま出力の質に影響しやすいという点は、生成AI活用の非常に重要な特徴です。

2. 生成

生成とは、AIが入力をもとに内部で計算を行い、出力内容を段階的に組み立てる過程です。LLMでは、文章全体を一度に完成させているというより、文脈を踏まえながら、次に続くトークンを順次予測し、その積み重ねによって文を形成していきます。Google Research が紹介している Transformer は、このような言語処理を支える主要な基盤技術の一つです。

ここで重要なのは、生成AIが「正解を保管しておいて取り出す装置」ではないということです。生成AIは、学習した大量のデータの傾向をもとに、入力に対してもっとも自然らしい、あるいはもっとも適切らしい表現を構成しています。

そのため、自然で流暢な文章を返せても、その内容が必ずしも事実と一致するとは限りません。NISTの生成AIプロファイルでも、このようなもっともらしいが不正確な出力の問題が主要なリスクとして扱われています。

https://research.google/pubs/attention-is-all-you-need/

生成の内部で起きていることを大まかに言うと

  • 入力がトークンという単位に分けられます。
  • モデルが前後関係を見ながら文脈を処理します。
  • 次に続く語や記号の候補を確率的に評価します。
  • その積み重ねによって文章や結果が形になります。

このため、生成AIは「理解しているように見える」ことがありますが、その内部は人間のような意味理解そのものではなく、統計的なパターン処理に大きく支えられています。初学者の段階では、まずこの違いを意識することが大切です。 oai_citation:12‡Google Research

3. 出力

出力とは、生成の結果として最終的にユーザーへ返される内容です。文章、要約、翻訳、画像、音声、コード、分類結果、候補案など、利用する生成AIの種類や目的によって形式は変わります。NISTの生成AIの定義でも、生成対象としてテキスト、画像、動画、音声などが挙げられています。

https://csrc.nist.gov/glossary/term/generative_artificial_intelligence

出力は、見た目が整っているからといって、そのまま信頼してよいとは限りません。とくに、固有名詞、年号、数値、引用、制度説明などは誤りが入りやすいため、人間による確認が必要です。出力の品質を評価する際には、「自然に読めるか」だけでなく、「目的に合っているか」「条件を満たしているか」「事実として正しいか」という複数の観点で見る必要があります。

出力を見るときの基本観点

  • 指示通りの形式になっているか
  • 対象者に合った文体か
  • 重要情報が抜けていないか
  • 事実誤認がないか
  • そのまま使えるか、修正が必要か

具体例で理解する:レポート要約

生成AIの基本構造は、レポート要約の例で考えると理解しやすくなります。

入力

長いレポート本文と、「大学1年生向けに200字で要約してください」という指示を与えます。これは、元データと条件をセットで入力している状態です。入力トークンが増えると、モデルが扱う情報量も増えます。

生成

モデルはレポート本文の文脈をたどりながら、重要そうな内容を圧縮し、指定された条件に近づくように表現を順次生成していきます。このとき、文章を一気に確定させるのではなく、トークン単位で連続的に出力を組み立てていきます。

出力

最終的に、200字前後の要約文が返されます。ただし、その要約が本当に重要点を押さえているか、数値や主張をゆがめていないかは、人間が確認する必要があります。生成AIは要約文を作れますが、最終的な妥当性判断まで自動的に保証するわけではありません。

誤解しやすい点

生成AIは検索エンジンではありません

生成AIは、常にどこかの正解データベースから答えを取り出しているわけではありません。学習したパターンにもとづいて出力を構成しているため、検索と生成は同じではありません。

生成AIは自然な文章を返しても、事実保証はしません

出力が滑らかであることと、内容が正しいことは別です。もっともらしい誤りが出る可能性があるため、確認工程が不可欠です。回答が精度を上げるには、AIから出力されたものが正しいのかを判定する必要があります。

良い出力は良い入力から生まれやすいです

入力が曖昧なままだと、生成も出力も安定しにくくなります。これは今後学ぶプロンプト設計の出発点になります。誰が読んでも、一意的に理解できるような指示が大事です。

この構造を学ぶ意味

生成AIを使いこなすためには、単に操作方法を覚えるだけでは不十分です。入力・生成・出力の三段階を理解しておくことで、結果が悪かったときにも原因を分解して考えられるようになります。

たとえば、条件不足による問題は入力設計の改善で対応できますし、事実誤認の問題は出力確認の強化で対応できます。このように、問題を工程ごとに切り分けられることが、実務におけるAI活用の土台になります。

さらに、この見方は後の学習内容にもつながります。プロンプト設計は主に入力を整える技術であり、トークンやモデル理解は生成の仕組みを理解する学習であり、確認と運用設計は出力の品質を管理する考え方です。

このページで押さえるべきポイント

  • 生成AIは「入力」「生成」「出力」の三段階で理解できます。
  • 入力が曖昧だと、出力も不安定になりやすいです。 一意的な指示が大事。
  • 生成では、モデルが文脈を踏まえてトークンを順次予測しています。
  • 出力は自然でも、内容の正確性は別途確認が必要です。
  • この三段階の理解は、今後のプロンプト設計と業務自動化の基礎になります。

参考文献

教材トップへ戻る