生成AIにおけるトークンとは？仕組み・コスト・削減方法を解説

生成AIを業務に取り入れる企業が増えるなか、「トークン」という概念への理解が、AI活用の成否を左右するようになっています。ChatGPTやClaude、Geminiといった大規模言語モデル（LLM）は、文字や単語をそのまま処理するのではなく、「トークン」と呼ばれる独自の単位に変換してから処理を行います。この仕組みを知らずにいると、API利用コストが想定外に膨らんだり、長文処理で突然エラーが発生したりといったトラブルに直面することになります。

本記事では、トークンとは何かという基礎から、日本語が英語よりもトークンを多く消費する理由、主要モデルの料金体系と上限、そして実務で使えるコスト削減の具体策まで網羅的に解説します。生成AIのAPI利用を検討している方から、すでに活用中でコストを見直したい方まで、ぜひご覧ください。

目次非表示

生成AIにおけるトークンとは？
日本語のトークン消費が多い理由
主要モデルのトークン上限と料金体系【2026年最新】
トークン数を削減するコスト最適化の方法
コンテキストウィンドウの活用と注意点
生成AIのトークンに関するよくある質問
トークンの仕組みを理解して生成AIのコストを削減しよう

生成AIにおけるトークンとは？

生成AIにおけるトークンとは、大規模言語モデルがテキストを処理する際の最小単位です。人間が文章を「単語」や「文字」の単位で理解するように、生成AIは「トークン」という独自の単位でテキストを処理します。文字でも単語でもなく、その中間に位置する「サブワード（部分語）」と呼ばれる概念で、モデルはすべての入出力をこの単位に変換してから処理を行います。

たとえば、英語の “Hello World” はトークン数が2ですが、”Hello Kubernetes” は5トークンになります。単語の長さや頻度によってトークン数が変わるのが特徴です。この仕組みを理解しておくことで、「なぜ長い文章を送ると料金が高くなるのか」「なぜAIが途中で回答を止めてしまうのか」といった疑問が自然と解消されます。

トークンと文字数・単語数の違い

トークンは「文字数＝トークン数」ではなく、AIモデルが独自のルールで文章を分割した結果として生まれる単位です。この点が、多くの方が最初に混乱するポイントです。

英語の場合、1トークンはおおよそ4文字に相当し、よく使われる単語（”the” や “is” など）は1トークンで処理されます。一方、日本語はひらがな1文字あたり1〜2トークン、漢字1文字あたり2〜3トークンが目安です。つまり、同じ内容を日本語と英語で書いた場合、日本語の方がトークン数が多くなる傾向があります。

言語	1トークンの目安	特徴
英語	約4文字 / 0.75単語	スペースで単語が区切られるため効率的
日本語（ひらがな）	1〜2文字	文字体系が複雑でトークン数が増えやすい
日本語（漢字）	0.5〜1文字	1文字が2〜3トークンになることも

この違いを知っておくことで、「日本語でのAPI利用は英語より割高になる」という実態を理解でき、コスト設計に活かせます。

テキストをトークンに変換する仕組み

生成AIがテキストをトークンに変換するプロセスは、「トークナイゼーション（tokenization）」と呼ばれます。たとえば「ChatGPT」という文字列は、「Chat」「G」「PT」の3トークンに分割されることがあります。日本語の「東京」は「東」「京」の2トークン、あるいは「東京」で1トークンとして扱われる場合もあり、モデルや学習データによって異なります。

この変換処理を担うのが「トークナイザー」と呼ばれるプログラムです。トークナイザーはテキストを受け取り、モデルが事前に学習した語彙リスト（ボキャブラリー）と照合しながら、最適な分割パターンを決定します。分割されたトークンはそれぞれ固有の整数ID（例：「Chat」→15339）に変換され、この数値の列がモデルへの実際の入力となります。

トークンと文字数の対応関係は言語によって大きく異なり、英語では1トークンがおよそ4文字に相当するのに対し、日本語では1〜2文字程度に相当することが多く、同じ意味の文章でも日本語のほうがトークン数が多くなる傾向があります。この特性がコスト計算に直結するため、日本語での利用においては特に注意が必要です。

トークンが採用された技術的な背景

トークンという単位が採用された背景には、語彙爆発と未知語という2つの課題があります。テキストを1文字単位で処理する方式（文字レベル）では、モデルが学習すべき組み合わせが膨大になり、計算コストが現実的ではなくなります。一方で、単語単位で処理する方式（単語レベル）では、辞書に登録されていない新語や固有名詞（例：「ChatGPT」「iPhone16」）を処理できないという問題が生じます。

この両方の課題を解決するために開発されたのが、「バイト対符号化（BPE：Byte Pair Encoding）」と呼ばれるアルゴリズムです。BPEは大量のテキストデータを分析し、頻繁に隣り合って出現する文字の組み合わせを繰り返し結合することで、効率的な語彙を自動的に構築します。たとえば「l」「o」「w」という文字が頻繁に連続して出現するなら、「low」という1つのトークンとして登録します。さらに「low」と「er」が頻繁に連続するなら「lower」も1トークンとして登録します。

この仕組みにより、一般的な単語は1〜2トークンで表現でき、新語や固有名詞は既存のサブワードの組み合わせで対応できるという、柔軟かつ効率的な処理が実現されています。「意味のある最小単位」に分割してから処理することで、AIは単語の意味・文法・文脈を効率よく学習できます。たとえば “unhappiness” という単語は “un”・”happi”・”ness” の3トークンに分割されますが、それぞれの意味（否定・幸福・状態）をAIが理解することで、未知の単語にも対応できるようになります。

OpenAI、Anthropic、Googleのいずれも、このBPEをベースとしたトークナイゼーションを採用しています。

主な3つのトークン化手法

トークン化の手法は大きく「単語トークン化」「文字トークン化」「サブワードトークン化」の3種類に分類され、それぞれに特徴と用途があります。

単語トークン化は文章をスペースや句読点で区切り、単語単位でトークンを生成する最もシンプルな手法です。英語には適していますが、日本語のようにスペースで区切られない言語には不向きで、辞書にない未知語への対応が難しいという欠点があります。文字トークン化は1文字を1トークンとして扱う手法で、未知語の問題は解消されますが、文章が長くなるとトークン数が膨大になり、文脈の学習が難しくなります。

現在の主流はサブワードトークン化、なかでも前述のBPE（Byte Pair Encoding）です。

手法	分割単位	メリット	デメリット	採用例
単語トークン化	単語	シンプルで直感的	未知語に弱い・日本語に不向き	初期のNLPモデル
文字トークン化	1文字	未知語に強い	トークン数が膨大になる	一部の特殊モデル
サブワードトークン化（BPE）	頻出パターン	効率と柔軟性を両立	直感的に理解しにくい	ChatGPT・Claude・Gemini

トークンIDとモデルの語彙

各トークンには固有の整数IDが割り当てられており、モデルはこの数値の列を入力として受け取り、確率計算を行ったうえで次のトークンIDを予測します。この予測を繰り返すことで、文章が生成されていきます。

語彙のサイズ（ボキャブラリーサイズ）はモデルによって異なり、GPT-4系では約10万トークン、Claude系では約10万トークン強が登録されています。語彙が大きいほど1トークンで表現できる情報量が増えるため、同じ文章でもトークン数が少なくなる傾向があります。2025年以降のモデルでは、多言語対応の強化に伴い語彙サイズが拡大しており、日本語のトークン効率も改善が進んでいます。

生成AIの基本的な仕組みについては、生成AIとは？従来のAIとの違いやできることなどわかりやすく解説もあわせてご参照ください。

日本語のトークン消費が多い理由

日本語は英語と比較して、同じ意味の文章を表現するために必要なトークン数が1.5〜3倍程度多くなります。この差異は、APIの利用コストや処理できる文章量（コンテキストウィンドウの実効容量）に直接影響するため、日本語での生成AI活用においては避けて通れない課題です。

英語と日本語のトークン密度の違い
日本語のトークン効率が低い構造的な理由
言語ごとのトークン数比較

英語と日本語のトークン密度の違い

英語と日本語のトークン密度の差は、文字体系の違いに起因します。英語はアルファベット26文字の組み合わせで構成されるため、頻出単語の多くが1〜2トークンで表現できます。「the」「is」「and」といった基本的な単語はそれぞれ1トークンです。

一方、日本語は平仮名・片仮名・漢字という3種類の文字体系を組み合わせて使用します。漢字は数千字以上が存在し、それぞれが独立した意味を持つため、トークナイザーの語彙に登録されにくく、複数のサブワードに分割されやすい傾向があります。たとえば「機械学習」という4文字の単語が「機」「械」「学」「習」の4トークンに分割されるケースもあります。

具体的な比較として、「今日の天気はどうですか？」（13文字）は約10〜13トークンを消費するのに対し、英語の同義文「How is the weather today?」（25文字）は約6〜7トークンで済みます。文字数では日本語のほうが少ないにもかかわらず、トークン数では日本語のほうが多くなるという逆転現象が起きています。

日本語のトークン効率が低い構造的な理由

日本語のトークン効率が低い根本的な理由は、学習データの偏りにあります。主要な大規模言語モデルの学習データは、インターネット上のテキストを収集したものが中心ですが、その大部分は英語で書かれています。BPEアルゴリズムは出現頻度の高い文字の組み合わせを優先的にトークンとして登録するため、英語の単語や句は効率よくトークン化される一方、日本語の文字列は細かく分割されやすくなります。

また、日本語には助詞（「は」「が」「を」「に」など）や活用語尾が多く、これらが独立したトークンとして処理されることも、トークン数を増やす要因となっています。「食べています」という5文字の表現が「食べ」「て」「い」「ます」の4トークンに分割されるといった具合です。

2025年以降、GoogleのGemini 3シリーズやAnthropicのClaude 4シリーズでは、多言語対応の強化により日本語のトークン効率が改善されています。しかし依然として英語との差は存在するため、日本語での利用コストを見積もる際は、英語換算の1.5〜2倍程度のトークン数を想定しておくことが現実的です。

言語ごとのトークン数比較

同じ内容を異なる言語で表現した場合のトークン数の差を把握しておくことは、多言語対応システムを構築する際のコスト設計に不可欠です。以下に、代表的な表現のトークン数比較を示します。

表現内容	英語	英語トークン数	日本語	日本語トークン数
挨拶	Hello, how are you?	5	こんにちは、お元気ですか？	10〜12
日付	March 10, 2026	5	2026年3月10日	7〜9
技術用語	machine learning	3	機械学習	3〜4
ビジネス文	Please review the attached document.	7	添付の資料をご確認ください。	12〜15

この差異は、長文になるほど累積されます。1万文字の日本語文書を処理する場合、英語換算では6,000〜7,000文字相当のトークン数で済むところ、日本語では8,000〜13,000トークン程度が必要になることがあります。コスト計算においては、この差を前提として予算を設計することが重要です。

主要モデルのトークン上限と料金体系【2026年最新】

生成AIのAPIを利用する際、トークンには2つの制約があります。1つは1回のやり取りで処理できる最大量を示す「コンテキストウィンドウ」、もう1つはトークン数に応じて課金される「API料金」です。2026年現在、主要モデルのコンテキストウィンドウは急速に拡大しており、料金体系も多様化しています。

トークン上限である「コンテキストウィンドウ」とは？

コンテキストウィンドウとは、モデルが1回の処理で参照できるトークン数の上限を指します。会話履歴やシステムプロンプト、ユーザーの入力、そしてモデルの出力がすべてこの上限内に収まる必要があります。上限を超えた部分は処理されず、古い会話履歴から順に切り捨てられます。

2026年3月時点の主要モデルのコンテキストウィンドウは以下のとおりです。

モデル	コンテキストウィンドウ	最大出力トークン数
GPT-5.4（OpenAI）	1,000,000トークン	32,768トークン
GPT-5.2（OpenAI）	512,000トークン	16,384トークン
Claude 4.6 Opus（Anthropic）	1,000,000トークン	32,000トークン
Claude 4.5 Haiku（Anthropic）	200,000トークン	8,096トークン
Gemini 3 Pro（Google）	2,000,000トークン	8,192トークン
Gemini 3 Flash（Google）	1,000,000トークン	8,192トークン

コンテキストウィンドウが大きいほど、長い文書の要約や長期的な会話の維持が可能になります。ただし、コンテキストウィンドウが大きいモデルほど処理コストも高くなる傾向があるため、用途に応じた使い分けが重要です。

主要モデルの料金比較（2026年3月時点）

生成AIのAPI料金は、入力トークンと出力トークンで異なる単価が設定されています。一般的に出力トークンのほうが入力トークンより3〜10倍程度高く設定されており、これはモデルが出力を生成する際の計算コストが入力の解析よりも大きいためです。

モデル	入力（100万トークンあたり）	出力（100万トークンあたり）	キャッシュ入力
GPT-5.4	$3.00	$15.00	$1.50
GPT-5.2	$1.75	$14.00	$0.88
Claude 4.6 Opus	$15.00	$75.00	$1.50
Claude 4.5 Haiku	$1.00	$5.00	$0.10
Gemini 3 Pro	$3.50	$10.50	$0.875
Gemini 3 Flash	$0.30	$1.20	$0.075

たとえば、1万文字（約8,000〜10,000トークン）の日本語文書をGPT-5.2で要約する場合、入力コストは約$0.018（約2.7円）、出力が1,000トークン程度であれば出力コストは約$0.014（約2.1円）となります。1回あたりのコストは小さく見えますが、月間で数万回のAPI呼び出しが発生するシステムでは、モデル選定がコスト構造に大きく影響します。

出典：Anthropic Claude Haiku 公式料金ページ
※料金は変動する場合があります。最新情報は各社公式サイトでご確認ください。

入力・出力・キャッシュの料金区分

API料金は「入力トークン」「出力トークン」「キャッシュ入力トークン」の3区分で構成されています。この区分を正確に理解することが、コスト最適化の第一歩となります。

入力トークンは、モデルに送信するすべてのテキスト（システムプロンプト、会話履歴、ユーザーの質問など）のトークン数です。出力トークンは、モデルが生成した回答のトークン数です。キャッシュ入力トークンは、同一のプロンプトを繰り返し使用する際に適用される割引料金で、一度処理したプロンプトをキャッシュ（一時保存）することで、再処理のコストを大幅に削減できます。

たとえば、毎回同じシステムプロンプト（5,000トークン）を送信するチャットボットでは、このプロンプト部分をキャッシュすることで、入力コストを最大90%削減できるケースがあります。Claude 4.5 Haikuの場合、通常の入力単価$1.00に対してキャッシュ入力は$0.10と、10分の1の料金が適用されます。

トークン数を削減するコスト最適化の方法

生成AIのAPIコストを抑えるうえで最も効果的なアプローチは、不要なトークンを削減することです。モデルの性能を維持しながらトークン数を減らす方法は複数あり、組み合わせることで相乗効果が得られます。

プロンプトの簡潔化と構造化
会話履歴の管理と要約
出力形式・長さの指定
モデルの使い分けとキャッシュ活用

プロンプトの簡潔化と構造化

プロンプトの簡潔化は、最もコストパフォーマンスの高いトークン削減手法です。冗長な説明や重複した指示を排除し、モデルに伝えるべき情報を最小限に絞ることで、入力トークン数を30〜50%削減できるケースがあります。

具体的な改善例として、以下のような変換が有効です。

改善前（冗長な例）：
「あなたはプロのライターです。以下の文章を読んで、内容を理解したうえで、わかりやすく、簡潔に、読者が理解しやすいように要約してください。要約は日本語で書いてください。」（約80トークン）

改善後（簡潔な例）：
「以下を日本語で3行に要約してください。」（約15トークン）

指示の意図が明確であれば、冗長な修飾語や説明は不要です。また、箇条書きや番号付きリストを活用して構造化することで、モデルが指示を正確に解釈しやすくなり、不要な確認応答（「承知しました。では〜」といった前置き）を減らす効果もあります。

プロンプトの書き方についてより詳しく知りたい方は、ChatGPTのプロンプトを作成する4つのコツと活用例を解説もご参照ください。

会話履歴の管理と要約

長期的な会話では、蓄積された会話履歴がトークン消費の主要因となります。チャットボットや対話型アプリケーションでは、毎回の送信に過去のすべての会話履歴を含めるのが一般的ですが、会話が長くなるにつれて入力トークン数が急増します。

効果的な対策として、まず「関連する指示は1回の会話にまとめる」ことが挙げられます。複数回に分けて送るよりも、必要な情報を整理して一度に送る方がトークン効率が高まります。また、まったく別のテーマの作業を始める際は、新しいチャットを開始することで、不要な過去の会話履歴がトークンとして消費されるのを防げます。

他のの対処法として、「スライディングウィンドウ」と「要約圧縮」の2つのアプローチが有効です。スライディングウィンドウは、直近N回分の会話のみを保持し、それ以前の履歴を切り捨てる方法です。要約圧縮は、長い会話を続ける場合に、途中で「ここまでの内容を3点にまとめて」と要約させ、、その要約文を履歴の代わりに保持する方法で、文脈の連続性を保ちながらトークン数を削減できます。

たとえば、20往復の会話履歴（約4,000トークン）を要約すると、500〜800トークン程度に圧縮できます。この要約を会話の冒頭に配置することで、コンテキストを維持しながら入力コストを大幅に削減可能です。

出力形式・長さの指定

出力トークンは入力トークンより単価が高いモデルが多いため、出力の長さと形式を明示的に指定することがコスト削減に直結します。

「200文字以内で回答してください」「箇条書きで3点にまとめてください」「結論だけを1文で答えてください」といった指示を加えるだけで、出力トークン数を大幅に削減できます。また、JSONやMarkdown形式など構造化された出力を求める場合は、フォーマットを明示することで余分な説明文が省かれ、トークン効率が向上します。

モデルの使い分けとキャッシュ活用

すべてのタスクに高性能モデルを使用することは、コスト効率の観点から最適ではありません。タスクの複雑さに応じてモデルを使い分けることが、コスト最適化の基本戦略です。

簡単な分類・抽出・フォーマット変換といったタスクには、Claude 4.5 HaikuやGemini 3 Flashのような軽量・低コストモデルが適しています。複雑な推論・創作・専門的な分析が必要なタスクには、GPT-5.4やClaude 4.6 Opusのような高性能モデルを使用するという使い分けが効果的です。

また、固定のシステムプロンプトを使用するアプリケーションでは、プロンプトキャッシュ機能を積極的に活用することを推奨します。同一のプロンプトを繰り返し送信する場合、キャッシュを有効にするだけで入力コストを大幅に削減できます。月間100万回のAPI呼び出しがあるシステムで、5,000トークンのシステムプロンプトをキャッシュした場合、Claude 4.5 Haikuでは月間約$4,500のコスト削減が見込めます（通常入力$1.00→キャッシュ$0.10の差額×5,000トークン×100万回÷100万）。

法人向けの生成AIサービスの選び方については、法人向け生成AIサービスおすすめ比較もあわせてご参照ください。

コンテキストウィンドウの活用と注意点

コンテキストウィンドウの拡大は、長文書の処理や複雑なタスクの実行を可能にする一方で、適切に管理しないとコストの急増や性能の低下を招くリスクがあります。大きなコンテキストウィンドウを持つモデルを効果的に活用するためには、その特性と限界を正確に理解することが重要です。

大きなコンテキストウィンドウの活用シーン
コンテキストウィンドウが大きくなるほど生じるリスク
適切なコンテキスト管理の実践

大きなコンテキストウィンドウの活用シーン

コンテキストウィンドウの拡大により、従来は不可能だった大規模な文書処理が現実的になっています。Gemini 3 Proの200万トークンというコンテキストウィンドウは、日本語換算でおよそ100〜150万文字に相当し、数百ページに及ぶ法律文書や技術仕様書を一括して処理できます。

具体的な活用シーンとしては、以下のようなケースが挙げられます。

長大な契約書・規約文書の一括レビューと要点抽出
複数の研究論文を横断した比較分析
大規模なコードベースの解析とリファクタリング提案
長期プロジェクトの議事録・メール履歴を踏まえた状況整理

これらのタスクでは、文書を分割して複数回処理する「チャンキング」と呼ばれる手法が不要になり、文脈の断絶による品質低下を防げるメリットがあります。

コンテキストウィンドウが大きくなるほど生じるリスク

コンテキストウィンドウを大量に使用するほど、処理コストは線形に増加します。Gemini 3 Proで100万トークンを入力した場合、入力コストだけで$3.50（約525円）が発生します。大量の文書を頻繁に処理するシステムでは、このコストが積み重なり、月間の費用が予算を大幅に超過するリスクがあります。

また、「Lost in the Middle（中間情報の見落とし）」と呼ばれる現象も報告されています。これは、コンテキストウィンドウの中間部分に配置された情報が、冒頭や末尾の情報と比べてモデルに参照されにくくなるという現象です。重要な情報は冒頭または末尾に配置し、中間部分には補足的な情報を置くという構成上の工夫が、長文処理の品質を維持するうえで有効です。

適切なコンテキスト管理の実践

コンテキストウィンドウを効率的に活用するためには、入力する情報の優先順位付けが不可欠です。すべての関連情報を詰め込むのではなく、タスクの達成に直接必要な情報のみを選別して入力することが、コストと品質の両面で最適な結果をもたらします。

実践的なアプローチとして、RAG（Retrieval-Augmented Generation：検索拡張生成）の活用が有効です。RAGは、大量の文書をベクトルデータベースに格納しておき、ユーザーの質問に関連する部分のみを動的に検索・抽出してモデルに渡す手法です。これにより、全文書をコンテキストに含める必要がなくなり、トークン消費を大幅に削減しながら、必要な情報に基づいた高精度な回答を実現できます。

AI活用による業務効率化の具体的な方法については、AI活用で業務を効率化する5つの方法もあわせてご参照ください。

トークン数を確認できる便利なツール

トークン数を事前に把握することで、API利用料の見積もりや、コンテキストウィンドウの上限超過を防ぐことができます。主要なツールを以下に紹介します。

OpenAI Tokenizer（platform.openai.com/tokenizer）：テキストを入力するとトークン数をリアルタイムで確認できる公式ツール。GPTシリーズのトークン分割の仕組みを視覚的に確認できる
tiktoken（Pythonライブラリ）：OpenAIが提供するオープンソースのトークンカウントライブラリ。プログラムに組み込んでトークン数を自動計測できる
Claude Token Counter：Anthropicが提供するClaudeモデル向けのトークンカウントツール

日本語テキストのトークン数を事前に見積もる際は、「文字数×1.5〜2倍」を目安にすると概算しやすくなります。ただし漢字が多い文章はさらにトークン数が増える傾向があるため、重要な処理の前には必ずツールで確認することをおすすめします。

生成AIのトークンに関するよくある質問

生成AIのトークンについて、実務でよく寄せられる疑問をまとめました。

Q. トークン数はどうやって事前に確認できますか？

トークン数の事前確認には、各社が提供する公式ツールを活用するのが最も確実です。OpenAIは「Tokenizer」というウェブツールを公式サイトで公開しており、任意のテキストを入力するとトークン数とトークンの分割結果を視覚的に確認できます。Anthropicも同様のトークンカウントAPIを提供しています。

プログラムから確認する場合は、OpenAIのPythonライブラリ「tiktoken」が広く使われています。`tiktoken.encoding_for_model(“gpt-4o”)`でエンコーダーを取得し、`len(encoding.encode(text))`でトークン数を取得できます。日本語テキストの場合、文字数の1.5〜2倍程度のトークン数になることが多いため、この係数を目安として概算することも可能です。

Q. 無料プランでもトークン制限はありますか？

無料プランにはトークン数に関する複数の制限が設けられています。ChatGPTの無料プランでは、GPT-4oの利用回数に上限があり、上限に達すると自動的にGPT-4o miniに切り替わります。Claude.aiの無料プランでは、1日あたりの送受信メッセージ数と、1回のやり取りで使用できるトークン数に上限が設定されています。

業務での継続的な利用を想定する場合、無料プランのトークン制限は実用上の障壁となることが多く、APIプランや有料サブスクリプションへの移行を検討することが現実的です。

Q. 日本語での利用コストを正確に見積もるにはどうすればよいですか？

日本語でのAPI利用コストを正確に見積もるには、実際のユースケースに近いサンプルテキストでトークン数を計測することが最も信頼性の高い方法です。一般的な目安として、日本語テキストは1文字あたり1〜2トークン（平均約1.5トークン）を消費します。

見積もりの手順としては、代表的な入力テキスト（システムプロンプト、ユーザーの典型的な質問）と出力テキスト（期待される回答の長さ）のトークン数を計測し、月間の想定リクエスト数を掛け合わせることで月間コストを算出できます。初期見積もりには、実測値の1.2〜1.5倍のバッファを設けておくことを推奨します。

大手企業における生成AIの活用事例については、大手企業のビジネスへの生成AI活用事例15選もあわせてご参照ください。