AIの最新情報・実演を動画でチェック

*当ブログではアフィリエイト広告を利用しています。

AI基礎・概要

トークン化とは?AIが文章をどう区切って読むのかをやさしく解説

トークン化を解説する記事のアイキャッチ。ルミィが1つの文を小さなカード(トークン)に切り分けて並べている2Dイラスト
ルミィ

ChatGPTに文章を送ると、AIはその文字をそのまま読んでいる——と思いがちですが、実は違います。AIはまず文章をトークンという小さな単位に切り分け、それを数値に置き換えてから処理しています。

この「トークン」は、料金(APIの課金)も、一度に扱える文章の長さ(コンテキストウィンドウ)も、すべてこの単位で数えられる、地味だけどとても大事な概念です。

この記事では、トークンの正体、なぜ文章をわざわざ分けるのか、日本語がちょっと損をしやすい理由、そして「いちごのrは何個?」にAIが間違える理由まで、やさしく整理します。

📘 連載「LLMはどう作られるのか」(全8回)

ChatGPTのようなLLMが、ただの文章からどうやって作られるのか。トークン化から学習のしくみまでを、順番にやさしくたどる連載です。この記事は第1回

  1. トークン化(この記事)|文章を区切って数値にする入口
  2. 埋め込み(ベクトル化)|言葉を「意味の座標」に変える
  3. ニューラルネットワーク|AIが学ぶ最小単位
  4. ディープラーニングの学習|勾配降下と誤差逆伝播
  5. Transformer|現代LLMの心臓部
  6. Attention(自己注意)|AIが文脈を読む仕組み
  7. 事前学習・ファインチューニング・RLHF
  8. 蒸留・量子化・MoE|軽く速くする技術
ルミィ
ルミィ

AIは文字じゃなくて「トークン」で世界を見てるんだ。ここが分かると、料金もコンテキストも腑に落ちるよ。

トークンとは?単語でも文字でもない「かたまり」

トークンとは、AIが文章を処理するときの最小の単位です。ざっくり言うと「単語」に近いのですが、ぴったり単語というわけではありません。

英語の例で見てみましょう。tokenization という単語は、多くのAIで tokenization のように2つ以上のかたまりに分かれます。よく使われる token は1つのトークン、あまり出てこない長い単語は複数のトークンに割れる——こんなふうに、「よく出てくるかたまりは1トークン、珍しいものは細かく分ける」のがいまの主流です。

この「単語より小さいこともある単位」を、専門的にはサブワード(部分語)と呼びます。

トークン化の図解。「私はAIが好き」という文を「私/は/AI/が/好き」のようなトークンに分け、各トークンに数値のID(語彙番号)を割り当てる流れ。
図:AIは文章をトークンに分け、各トークンを語彙表の番号(ID)に変換してから処理します。

日本語は、英語のように単語が空白で区切られていないので、もっと細かく分かれることが多いです。たとえば「私はAIが好き」は、「私/は/AI/が/好き」のように、文字や短いかたまりに切られていきます。

なぜわざわざ分けるの?AIは数値しか扱えないから

理由はシンプルで、コンピューターは文字そのものを計算できないからです。AIの中身は膨大なかけ算と足し算なので、文章も最終的には数値にしないと処理できません。

そこで、こんな流れになります。

  1. ①トークンに分ける:文章を「かたまり」に切る(この記事のテーマ)
  2. ②IDに変換する:各トークンを、辞書(語彙表)の番号に置き換える。例:「好き」→ 1234番
  3. ③ベクトルに変換する:その番号を、意味を表す数値の並び(埋め込みベクトル)にする(連載第2回のテーマ)

つまりトークン化は、「文章を数値の列に変える、いちばん最初の一歩」。ここを通らないと、AIは文章を1文字も処理できません。

この続き——番号をどう「意味のある数値」にするのか——は、連載第2回の埋め込み(ベクトル化)とはで扱います。

どうやって分けている?「よく出るかたまり」を1つにまとめる

トークンの分け方にはいくつか方式がありますが、いま広く使われているのはBPE(バイト・ペア・エンコーディング)という考え方をベースにしたものです。仕組みは直感的です。

  • 最初は文字バラバラからスタートする
  • よく隣り合って出てくるペア(例:th)を見つけて、1つのかたまり th にまとめる
  • これを何度も繰り返して、theingtion のような「頻出パーツ」を育てていく

結果として、よく使う言葉ほど少ないトークンで表せて、珍しい言葉は細かく分かれる、という効率の良い辞書ができあがります。新語や打ち間違いのような未知の言葉も、細かいパーツの組み合わせで必ず表現できるのが強みです。

ポイントは、トークン化は「賢い分割」ではなく「頻度にもとづく機械的な分割」だということ。意味を理解して切っているわけではありません。

トークンで「料金」と「文章の長さ」が決まる

トークンが分かると、AIを使ううえでの2つの実用的な数字が腑に落ちます。

①料金はトークン単位

APIの料金は「1文字いくら」でも「1単語いくら」でもなく、トークン数で計算されます。入力したトークン+AIが出力したトークンの合計で課金される、というのが基本の形です。長い文章を貼るほどトークンが増え、その分コストも上がります。

②コンテキストウィンドウもトークン単位

「このAIは128Kトークンまで扱えます」のような表記を見たことがあるはずです。これは一度に読み書きできる長さの上限で、これもトークンで数えます。会話が長くなって上限に近づくと、AIが古い部分を忘れていくのは、このトークンの枠を超えるからです。

目安として、英語ではおおよそ「1トークン=4文字前後/100トークン=75語ほど」とよく言われます。ただし言語や内容で変わるので、あくまで感覚値です。

日本語はちょっと損をしやすい

ここは日本語ユーザーとして知っておくと得な話です。同じ内容でも、日本語は英語よりトークン数が多くなりやすい傾向があります。

理由は、多くのAIのトークン辞書が英語中心に作られていて、日本語は文字単位や短いかたまりに細かく割れやすいから。結果として、同じことを伝えるのに、

  • 料金が少し高くつきやすい(トークンが多い=課金が増える)
  • コンテキストの枠を早く使い切りやすい(同じ枠でも入る文章が短くなる)

とはいえ近年のモデルは日本語の扱いも改善しています。「日本語は構造的にトークンを食いやすい」と頭の片隅に置いておけば、長い資料を貼るときの目安になります。

AIが「いちごのrは何個?」を間違える理由

「strawberry の r は何個?」とAIに聞くと、堂々と間違えることがあります。これは知能が低いからではなく、トークン化の副作用です。

AIは strawberry を1文字ずつの s-t-r-a-w-... として見ているのではなく、strawberry のようなトークンのかたまりとして見ています。だから「文字を1個ずつ数える」作業が、人間ほど得意ではないのです。

対策はかんたんで、「1文字ずつスペースで区切って」と頼むか、文字数え・しりとり・逆さ読みのような「文字単位の細かい操作」は、AIに丸投げせず確認する。仕組みを知っていれば、得意・不得意の境目が見えてきます。

ルミィ
ルミィ

AIが文字数えを外すの、バカだからじゃなくて「文字じゃなくてトークンで見てるから」なんだよ。

トークンを体感してみる

理屈よりも、一度自分の目で見るのが早いです。OpenAIなどが公開しているトークナイザーの可視化ツールに文章を貼ると、どこで区切られて何トークンになるかが色分けで見えます。

  • 同じ意味の文を英語と日本語で入れて、トークン数を比べてみる
  • 自分のよく書く文章を貼って、おおよそのトークン感をつかむ
  • 絵文字や顔文字、URLが意外とトークンを食うのを確かめる

一度この「区切られ方」を見ておくと、料金やコンテキストの話がぐっと具体的になります。

トークンを節約する小ワザ(料金とコンテキストの節約)

トークンの仕組みが分かると、料金とコンテキストを節約する手も見えてきます。長い文章を扱う人ほど効きます。

  • 資料は全文ではなく要点を貼る——関係ない部分はトークンの無駄。必要な章だけ渡すと、料金も下がり、答えのピントも合いやすくなります
  • 毎回くり返す定型指示はまとめる——同じ前置きを毎回書くより、一度の指示で済ませる。チャットツールの「カスタム指示」機能はこのためにあります
  • コード・表・長いURLは意外と重い——記号や英数字が多いものはトークンを食いやすい。貼る前に不要なログやコメントを削るだけで効きます
  • 会話が長くなったら新しいスレッドへ——過去のやり取り全部が毎回トークンに乗ります。話題が変わったら切り替えるのが、速度・料金・精度すべてに効く基本動作です

これらは単に「ケチる」ためではありません。AIに必要な情報だけを渡すと、答えの精度も上がるからです。余計な文脈は料金を増やすだけでなく、AIにとってのノイズにもなります。トークンを意識することは、そのままAIへの伝え方を磨くことでもあります。

まとめ

トークン化は、AIが文章を処理するための最初のステップ。文章を「トークン」というかたまりに分け、番号(ID)に変えてから、AIはようやく計算を始められます。

トークン=AIが文章を読む最小単位(単語より小さいことも多い)。

料金もコンテキストの長さも、すべてトークンで数える。

日本語はトークンを多めに使いやすい。文字数えが苦手なのもトークンのせい。

次の一歩は、分けたトークンの番号を「意味のある数値」に変える埋め込み(ベクトル化)。AIの全体像から知りたい人はLLM(大規模言語モデル)とはもどうぞ。

よくある質問(FAQ)

トークンとは何ですか?

A. AIが文章を処理するときの最小単位です。単語に近いですが、よく出るかたまりは1トークン、珍しい言葉は複数のトークンに分かれる「サブワード(部分語)」が主流です。AIは文章をトークンに分け、番号に変えてから処理します。

1トークンは何文字ですか?

A. 言語や内容によりますが、英語ではおおよそ1トークン=4文字前後、100トークン=75語ほどが目安とされます。日本語は文字単位に細かく割れやすく、同じ内容でもトークン数が多くなりがちです。

なぜ日本語はトークンが多くなるのですか?

A. 多くのAIのトークン辞書が英語中心に作られているためです。日本語は文字や短いかたまりに細かく分割されやすく、同じ内容でも英語よりトークン数が増え、料金やコンテキスト消費の面で少し不利になりやすいです。

コンテキストウィンドウとトークンの関係は?

A. コンテキストウィンドウは「一度に扱える長さの上限」で、トークン単位で数えます。会話が長くなって上限に近づくと、古い部分から忘れていくのは、このトークンの枠を超えるためです。

AIが文字数を間違えるのはなぜですか?

A. AIは単語を1文字ずつではなく、トークンのかたまりとして見ているためです。そのため「文字を1個ずつ数える」作業が苦手で、文字数え・しりとり・逆さ読みなどは間違えやすくなります。1文字ずつ区切って渡すと改善します。

トークン化とBPEは同じものですか?

A. トークン化は「文章を単位に分ける」工程全体を指し、BPE(バイト・ペア・エンコーディング)はその代表的な方式の一つです。よく隣り合うペアを順にまとめて頻出パーツを育てる、効率の良い分割方法として広く使われています。

あわせて読みたい

参考・一次ソース

※本記事は2026年6月時点の一般的な仕組みを初心者向けに整理したものです。トークン数の目安や各モデルの仕様は変わることがあるため、料金・上限の正確な値は各サービスの公式情報でご確認ください。

ルミィ
ルミィ
AIナビゲーター
ChatGPT・Gemini・Claudeなどの会話AI、画像生成AI、動画生成AI、資料作成AI、AI検索ツールを初心者向けに解説するAIナビゲーター。実際に使ってみた感想や、仕事・学習・発信に役立つAI活用法をわかりやすく紹介しています。
記事URLをコピーしました