2026.06.14 2026.07.11

トークン化とは？AIが文章をどう区切って読むのかをやさしく解説

ルミィ

ChatGPTに文章を送ると、AIはその文字をそのまま読んでいる——と思いがちですが、実は違います。AIはまず文章をトークンという小さな単位に切り分け、それを数値に置き換えてから処理しています。

この「トークン」は、料金（APIの課金）も、一度に扱える文章の長さ（コンテキストウィンドウ）も、すべてこの単位で数えられる、地味だけどとても大事な概念です。

この記事では、トークンの正体、なぜ文章をわざわざ分けるのか、日本語がちょっと損をしやすい理由、そして「いちごのrは何個？」にAIが間違える理由まで、やさしく整理します。

📘 連載「LLMはどう作られるのか」（全8回）

ChatGPTのようなLLMが、ただの文章からどうやって作られるのか。トークン化から学習のしくみまでを、順番にやさしくたどる連載です。この記事は第1回。

トークン化（この記事）｜文章を区切って数値にする入口
埋め込み（ベクトル化）｜言葉を「意味の座標」に変える
ニューラルネットワーク｜AIが学ぶ最小単位
ディープラーニングの学習｜勾配降下と誤差逆伝播
Transformer｜現代LLMの心臓部
Attention（自己注意）｜AIが文脈を読む仕組み
事前学習・ファインチューニング・RLHF
蒸留・量子化・MoE｜軽く速くする技術

ルミィ

AIは文字じゃなくて「トークン」で世界を見てるんだ。ここが分かると、料金もコンテキストも腑に落ちるよ。

Contents

トークンとは？単語でも文字でもない「かたまり」
なぜわざわざ分けるの？AIは数値しか扱えないから
どうやって分けている？「よく出るかたまり」を1つにまとめる
トークンで「料金」と「文章の長さ」が決まる
- ①料金はトークン単位
- ②コンテキストウィンドウもトークン単位
日本語はちょっと損をしやすい
AIが「いちごのrは何個？」を間違える理由
トークンを体感してみる
トークンを節約する小ワザ（料金とコンテキストの節約）
まとめ
よくある質問（FAQ）
あわせて読みたい
- 参考・一次ソース

トークンとは？単語でも文字でもない「かたまり」

トークンとは、AIが文章を処理するときの最小の単位です。ざっくり言うと「単語」に近いのですが、ぴったり単語というわけではありません。

英語の例で見てみましょう。tokenization という単語は、多くのAIで token ＋ ization のように2つ以上のかたまりに分かれます。よく使われる token は1つのトークン、あまり出てこない長い単語は複数のトークンに割れる——こんなふうに、「よく出てくるかたまりは1トークン、珍しいものは細かく分ける」のがいまの主流です。

この「単語より小さいこともある単位」を、専門的にはサブワード（部分語）と呼びます。

トークン化の図解。「私はAIが好き」という文を「私／は／AI／が／好き」のようなトークンに分け、各トークンに数値のID（語彙番号）を割り当てる流れ。 — 図：AIは文章をトークンに分け、各トークンを語彙表の番号（ID）に変換してから処理します。

日本語は、英語のように単語が空白で区切られていないので、もっと細かく分かれることが多いです。たとえば「私はAIが好き」は、「私／は／AI／が／好き」のように、文字や短いかたまりに切られていきます。

なぜわざわざ分けるの？AIは数値しか扱えないから

理由はシンプルで、コンピューターは文字そのものを計算できないからです。AIの中身は膨大なかけ算と足し算なので、文章も最終的には数値にしないと処理できません。

そこで、こんな流れになります。

①トークンに分ける：文章を「かたまり」に切る（この記事のテーマ）
②IDに変換する：各トークンを、辞書（語彙表）の番号に置き換える。例：「好き」→ 1234番
③ベクトルに変換する：その番号を、意味を表す数値の並び（埋め込みベクトル）にする（連載第2回のテーマ）

つまりトークン化は、「文章を数値の列に変える、いちばん最初の一歩」。ここを通らないと、AIは文章を1文字も処理できません。

この続き——番号をどう「意味のある数値」にするのか——は、連載第2回の埋め込み（ベクトル化）とはで扱います。

どうやって分けている？「よく出るかたまり」を1つにまとめる

トークンの分け方にはいくつか方式がありますが、いま広く使われているのはBPE（バイト・ペア・エンコーディング）という考え方をベースにしたものです。仕組みは直感的です。

最初は文字バラバラからスタートする
よく隣り合って出てくるペア（例：tとh）を見つけて、1つのかたまり th にまとめる
これを何度も繰り返して、the・ing・tion のような「頻出パーツ」を育てていく

結果として、よく使う言葉ほど少ないトークンで表せて、珍しい言葉は細かく分かれる、という効率の良い辞書ができあがります。新語や打ち間違いのような未知の言葉も、細かいパーツの組み合わせで必ず表現できるのが強みです。

ポイントは、トークン化は「賢い分割」ではなく「頻度にもとづく機械的な分割」だということ。意味を理解して切っているわけではありません。

トークンで「料金」と「文章の長さ」が決まる

トークンが分かると、AIを使ううえでの2つの実用的な数字が腑に落ちます。

①料金はトークン単位

APIの料金は「1文字いくら」でも「1単語いくら」でもなく、トークン数で計算されます。入力したトークン＋AIが出力したトークンの合計で課金される、というのが基本の形です。長い文章を貼るほどトークンが増え、その分コストも上がります。

②コンテキストウィンドウもトークン単位

「このAIは128Kトークンまで扱えます」のような表記を見たことがあるはずです。これは一度に読み書きできる長さの上限で、これもトークンで数えます。会話が長くなって上限に近づくと、AIが古い部分を忘れていくのは、このトークンの枠を超えるからです。

目安として、英語ではおおよそ「1トークン＝4文字前後／100トークン＝75語ほど」とよく言われます。ただし言語や内容で変わるので、あくまで感覚値です。

日本語はちょっと損をしやすい

ここは日本語ユーザーとして知っておくと得な話です。同じ内容でも、日本語は英語よりトークン数が多くなりやすい傾向があります。

理由は、多くのAIのトークン辞書が英語中心に作られていて、日本語は文字単位や短いかたまりに細かく割れやすいから。結果として、同じことを伝えるのに、

料金が少し高くつきやすい（トークンが多い＝課金が増える）
コンテキストの枠を早く使い切りやすい（同じ枠でも入る文章が短くなる）

とはいえ近年のモデルは日本語の扱いも改善しています。「日本語は構造的にトークンを食いやすい」と頭の片隅に置いておけば、長い資料を貼るときの目安になります。

AIが「いちごのrは何個？」を間違える理由

「strawberry の r は何個？」とAIに聞くと、堂々と間違えることがあります。これは知能が低いからではなく、トークン化の副作用です。

AIは strawberry を1文字ずつの s-t-r-a-w-... として見ているのではなく、straw ＋ berry のようなトークンのかたまりとして見ています。だから「文字を1個ずつ数える」作業が、人間ほど得意ではないのです。

対策はかんたんで、「1文字ずつスペースで区切って」と頼むか、文字数え・しりとり・逆さ読みのような「文字単位の細かい操作」は、AIに丸投げせず確認する。仕組みを知っていれば、得意・不得意の境目が見えてきます。

ルミィ

AIが文字数えを外すの、バカだからじゃなくて「文字じゃなくてトークンで見てるから」なんだよ。

トークンを体感してみる

理屈よりも、一度自分の目で見るのが早いです。OpenAIなどが公開しているトークナイザーの可視化ツールに文章を貼ると、どこで区切られて何トークンになるかが色分けで見えます。

同じ意味の文を英語と日本語で入れて、トークン数を比べてみる
自分のよく書く文章を貼って、おおよそのトークン感をつかむ
絵文字や顔文字、URLが意外とトークンを食うのを確かめる

一度この「区切られ方」を見ておくと、料金やコンテキストの話がぐっと具体的になります。

トークンを節約する小ワザ（料金とコンテキストの節約）

トークンの仕組みが分かると、料金とコンテキストを節約する手も見えてきます。長い文章を扱う人ほど効きます。

資料は全文ではなく要点を貼る——関係ない部分はトークンの無駄。必要な章だけ渡すと、料金も下がり、答えのピントも合いやすくなります
毎回くり返す定型指示はまとめる——同じ前置きを毎回書くより、一度の指示で済ませる。チャットツールの「カスタム指示」機能はこのためにあります
コード・表・長いURLは意外と重い——記号や英数字が多いものはトークンを食いやすい。貼る前に不要なログやコメントを削るだけで効きます
会話が長くなったら新しいスレッドへ——過去のやり取り全部が毎回トークンに乗ります。話題が変わったら切り替えるのが、速度・料金・精度すべてに効く基本動作です

これらは単に「ケチる」ためではありません。AIに必要な情報だけを渡すと、答えの精度も上がるからです。余計な文脈は料金を増やすだけでなく、AIにとってのノイズにもなります。トークンを意識することは、そのままAIへの伝え方を磨くことでもあります。

まとめ

トークン化は、AIが文章を処理するための最初のステップ。文章を「トークン」というかたまりに分け、番号（ID）に変えてから、AIはようやく計算を始められます。

トークン＝AIが文章を読む最小単位（単語より小さいことも多い）。

料金もコンテキストの長さも、すべてトークンで数える。

日本語はトークンを多めに使いやすい。文字数えが苦手なのもトークンのせい。

次の一歩は、分けたトークンの番号を「意味のある数値」に変える埋め込み（ベクトル化）。AIの全体像から知りたい人はLLM（大規模言語モデル）とはもどうぞ。

よくある質問（FAQ）

トークンとは何ですか？

A. AIが文章を処理するときの最小単位です。単語に近いですが、よく出るかたまりは1トークン、珍しい言葉は複数のトークンに分かれる「サブワード（部分語）」が主流です。AIは文章をトークンに分け、番号に変えてから処理します。

1トークンは何文字ですか？

A. 言語や内容によりますが、英語ではおおよそ1トークン＝4文字前後、100トークン＝75語ほどが目安とされます。日本語は文字単位に細かく割れやすく、同じ内容でもトークン数が多くなりがちです。

なぜ日本語はトークンが多くなるのですか？

A. 多くのAIのトークン辞書が英語中心に作られているためです。日本語は文字や短いかたまりに細かく分割されやすく、同じ内容でも英語よりトークン数が増え、料金やコンテキスト消費の面で少し不利になりやすいです。

コンテキストウィンドウとトークンの関係は？

A. コンテキストウィンドウは「一度に扱える長さの上限」で、トークン単位で数えます。会話が長くなって上限に近づくと、古い部分から忘れていくのは、このトークンの枠を超えるためです。

AIが文字数を間違えるのはなぜですか？

A. AIは単語を1文字ずつではなく、トークンのかたまりとして見ているためです。そのため「文字を1個ずつ数える」作業が苦手で、文字数え・しりとり・逆さ読みなどは間違えやすくなります。1文字ずつ区切って渡すと改善します。

トークン化とBPEは同じものですか？

A. トークン化は「文章を単位に分ける」工程全体を指し、BPE（バイト・ペア・エンコーディング）はその代表的な方式の一つです。よく隣り合うペアを順にまとめて頻出パーツを育てる、効率の良い分割方法として広く使われています。

トークン化とは？AIが文章をどう区切って読むのかをやさしく解説

トークンとは？単語でも文字でもない「かたまり」

なぜわざわざ分けるの？AIは数値しか扱えないから

どうやって分けている？「よく出るかたまり」を1つにまとめる

トークンで「料金」と「文章の長さ」が決まる

①料金はトークン単位

②コンテキストウィンドウもトークン単位

日本語はちょっと損をしやすい

AIが「いちごのrは何個？」を間違える理由

トークンを体感してみる

トークンを節約する小ワザ（料金とコンテキストの節約）

まとめ

よくある質問（FAQ）

トークンとは何ですか？

1トークンは何文字ですか？

なぜ日本語はトークンが多くなるのですか？

コンテキストウィンドウとトークンの関係は？

AIが文字数を間違えるのはなぜですか？

トークン化とBPEは同じものですか？

あわせて読みたい

参考・一次ソース

LLM（大規模言語モデル）とは？ChatGPTの心臓部をやさしく解説【2026年版】

GANとは？敵対的生成ネットワークの仕組みをやさしく図解

ニューラルネットワークとは？AIが学ぶ最小のしくみをやさしく図解

Attention（自己注意）とは？AIが文脈を読む仕組みをやさしく解説

オートエンコーダとは？圧縮して再構成する仕組みをやさしく図解

LLMを軽く速くする技術とは？蒸留・量子化・MoEをやさしく解説