AIの最新情報・実演を動画でチェック

*当ブログではアフィリエイト広告を利用しています。

データ分析・機械学習

クラスタリングとは?似たものを自動でグループ分けする仕組みをやさしく解説

クラスタリングとは?似たものを自動でグループ分けする仕組みをやさしく解説
ルミィ

前回の機械学習の3つの学び方で、正解を与えず構造を見つける「教師なし学習」を紹介しました。その代表選手が、今回のクラスタリングです。

クラスタリングは、ひとことで言うと「似たものどうしを、自動でグループに分ける」こと。誰も「これが正解」と教えていないのに、AIがデータの“近さ”だけを頼りに仲間分けをしてくれます。この記事では、その仕組み(代表のk-means)と使いどころを、図でやさしく整理します。

🧭 連載「機械学習の地図」(全5回)

線形回帰や決定木の“その先”——機械学習の全体像と、回帰・木以外の代表的な考え方を、順番にやさしくたどる連載です。

  1. 機械学習の3つの学び方|教師あり・教師なし・強化学習
  2. クラスタリング(この記事)|似たものを自動でグループ分け
  3. 主成分分析(PCA)・次元削減|情報を大事な軸に圧縮する
  4. 過学習と正則化|「丸暗記」を防ぐ考え方
  5. モデルの評価指標|混同行列・適合率・再現率
ルミィ
ルミィ

正解を教えなくても、似たものを勝手にまとめてくれる。これが教師なし学習のいちばん身近な例だよ。

クラスタリングの図解。ばらばらに散らばったデータが、近さによって3つのグループ(クラスタ)に自動で分けられ、各グループの中心が星印で示される様子。
図:正解ラベルは使わず、データの「近さ」だけで似たものを同じグループに集めます(★は各グループの中心)。

クラスタリングとは?

クラスタリングは、データをいくつかの「クラスタ(かたまり)」に分ける手法です。図のように、近くにあるデータどうしを同じグループにまとめ、離れているものは別のグループにします。

大事なのは、正解ラベルを使わないこと。「この客はAグループ」といった答えを人が用意するのではなく、データの特徴の近さだけで、AIが自分でグループの境目を見つけます。だから、人間が気づいていなかった意外なまとまりが見つかることもあります。

代表選手「k-means」の仕組み

クラスタリングの方法はいくつもありますが、いちばん有名なのがk-means(ケイ平均法)です。仕組みは驚くほど直感的で、4ステップの繰り返しです。

  1. ①グループの数kを決める——「3つに分けたい」なら、最初に中心を3つ、ランダムに置く
  2. ②近い中心に振り分ける——各データを、いちばん近い中心のグループに入れる
  3. ③中心を更新する——各グループの“真ん中”に中心を移動する
  4. ④繰り返す——②③を、中心がほとんど動かなくなるまで繰り返す

「集めて、真ん中を取り直して、また集める」をくり返すうちに、自然とまとまりが安定していきます。図の★が、最終的に落ち着いた各グループの中心です。

いくつのグループに分ける?|kの決め方

k-meansの悩みどころは、「グループをいくつにするか(k)」を最初に決めないといけないことです。3つがいいのか5つがいいのか、データは教えてくれません。

目安としてよく使われるのがエルボー法です。kを2,3,4…と増やしながら「グループ内のばらつき」を測ると、最初は急に小さくなり、あるところから減り方が鈍ります。その“ひじ(elbow)”のように曲がる点が、ちょうどよいkの目安、という考え方です。とはいえ最後は、「分けた結果が、目的にとって意味があるか」を人が判断するのがいちばん大切です。

何に使われている?

クラスタリングは、ビジネスの現場で広く使われています。

  • 顧客のセグメント分け——購買傾向が似た客をまとめ、グループごとに施策を変える
  • 異常検知——どのグループにも入らない“浮いたデータ”を、異常やエラーの候補として見つける
  • 文書・画像の整理——似た内容の記事や、似た色の画像を自動でまとめる
  • 探索の入り口——まずデータを分けて眺め、傾向の仮説を立てる

「正解は分からないけれど、とにかくデータの傾向をつかみたい」という場面で、最初の一手として重宝します。

ミニ例で動きを追う|お店の常連さん分け

もう少し具体的に、k-meansの動きを追ってみましょう。あるカフェが、常連さんを「来店頻度」と「1回の注文額」の2つで分けたい、とします。

  1. 最初——「3グループに分けよう」と決め、グラフ上に中心を3つ、適当に置く
  2. 1周目——各お客さんを、いちばん近い中心のグループに入れる。まだ雑な分かれ方
  3. 中心を更新——各グループのお客さんの“平均の位置”へ、中心を移動する
  4. 2周目・3周目…——また振り分け直し、また中心を動かす。これをくり返す
  5. 完成——「よく来て少額(常連の日常使い)」「たまに来て高額(特別な日)」「あまり来ない(新規・休眠)」の3グループに自然と落ち着く

最初はランダムだった分かれ方が、くり返すうちに“意味のあるまとまり”へ収束していく——これがk-meansの気持ちよさです。出てきたグループに人間が名前を付ければ、そのまま施策(常連向けクーポン、休眠掘り起こし等)につながります。

もう一つの代表|階層的クラスタリング

k-meansと並ぶもう一つの代表が、階層的クラスタリングです。こちらは、近いものから順にペアでくっつけていき、最後は全体が1つの大きな木にまとまるやり方です。

いちばんの利点は、グループ数を最初に決めなくていいこと。まず木(デンドログラムと呼ぶ枝分かれ図)を作っておき、あとから「この高さで切れば3グループ、もっと下で切れば5グループ」と、切る位置で粒度を選べます。

k-means階層的クラスタリング
グループ数最初に決めるあとから切る位置で選べる
得意な規模大きなデータも速い小〜中規模向き(重め)
出力各データの所属枝分かれの木(全体像)

「とにかく速く大量に分けたい」ならk-means、「いくつに分けるか迷っていて、全体の入れ子構造も見たい」なら階層型、と使い分けると良いでしょう。

分類とクラスタリングの違い

「グループに分ける」と聞くと、教師あり学習の分類と混同しがちですが、別ものです。違いは“正解を使うか”の一点です。

分類(教師あり)クラスタリング(教師なし)
正解ラベル使う(犬/猫など)使わない
やること決まったカテゴリに振り分ける似たものでまとまりを自分で作る
迷惑メール判定顧客のセグメント発見

分類は「あらかじめ決まった箱に入れる」、クラスタリングは「箱そのものをデータから作る」。この違いを押さえると、両者を取り違えなくなります。

注意点|万能ではない

便利なk-meansにも、知っておきたいクセがあります。

  • グループ数kを自分で決める必要がある——前述のとおり、正解はデータに聞いても出てこない
  • 複雑な形のまとまりは苦手——k-meansは丸いかたまりを想定するので、三日月形のような分布はうまく分けられないことがある
  • スケールに影響される——単位が大きい特徴量に引っ張られるので、事前に大きさをそろえる(標準化)のが定番
  • 初期位置で結果が変わる——中心の置き方しだいで結果がぶれるので、何度か試すのが安全

これらは「使い方の注意」であって、クラスタリングの価値を損なうものではありません。クセを知って使えば、強力な“発見の道具”になります。

なお、k-meansや階層型のほかにも、点が混み合った場所をまとまりとみなすDBSCANという手法もあります。どこにも属さない孤立点を“外れ値”として弾けるのが特徴で、複雑な形のまとまりや異常検知に強く、グループ数を指定しなくてよい利点もあります。手法は一つではないので、データの形に合わせて選ぶのがコツです。

クラスタリングを成功させるコツ

クラスタリングは「実行は簡単、活かすのは奥が深い」手法です。結果を意味あるものにするためのコツが3つあります。

  • 特徴量の選び方が9割——何を「近さ」の基準にするかで、まったく違う分かれ方になる。目的に効く項目を選ぶ
  • スケールをそろえる——年収(万単位)と年齢(〜100)をそのまま混ぜると、数字の大きい項目に引っ張られる。標準化はほぼ必須
  • 結果に名前を付ける——出てきたグループを眺め、「これは“常連の日常使い”だね」と意味を与えて初めて、施策に使える

アルゴリズムは中身を計算してくれますが、「何を入れて」「結果をどう読むか」は人間の仕事。ここがクラスタリングの腕の見せどころです。

教師なしの“答え合わせ”はどうする?

正解がない教師なし学習では、「うまく分けられたか」をどう測るのでしょう。代表的なのがシルエット係数です。

これは、「同じグループ内では近く、別のグループとは遠く分かれているか」を数値(−1〜1)で表すものです。1に近いほど、くっきり分かれた良いクラスタリングと判断できます。グループ数kをいくつにするか迷ったとき、kを変えながらこの値を見て決める、という使い方もできます。正解がなくても“分かれの良さ”は測れる、というわけです。

まとめ

クラスタリングは、正解を教えずに、似たものを自動でグループ分けする教師なし学習の代表です。k-meansは「集めて、中心を取り直して、また集める」のくり返しで、データの自然なまとまりを見つけます。

k-meansだけでなく、グループ数を後から選べる階層的クラスタリング、外れ値に強いDBSCAN、そして分かれの良さを測るシルエット係数まで引き出しに入れておけば、「とりあえず分けてみる」から一歩進んで、データの形と目的に合った分け方を選べるようになります。まずは手元のデータをk-meansで分け、出てきたグループに自分で名前を付けてみるところから始めてみてください。

顧客分析から異常検知まで、「まずデータを眺めて傾向をつかみたい」場面で活躍します。グループ数を自分で決める必要があるなどのクセを押さえれば、心強い相棒になります。

クラスタリング=正解なしで似たものをグループ分け。

代表はk-means(集める→中心更新→繰り返し)。

分類との違いは「正解を使うか」。クラスタリングは箱そのものを作る。

次回は、もう一つの教師なし学習——たくさんの情報を大事な軸にまとめる主成分分析(PCA)・次元削減に進みます。

よくある質問(FAQ)

クラスタリングとは何ですか?

A. 正解ラベルを使わず、データの特徴の近さだけで似たものを自動的にグループ(クラスタ)に分ける手法です。教師なし学習の代表で、顧客のセグメント分けや異常検知などに使われます。

k-means(ケイ平均法)の仕組みは?

A. まずグループ数kぶんの中心をランダムに置き、各データを最も近い中心のグループに振り分け、各グループの真ん中に中心を移動する、を繰り返します。中心がほとんど動かなくなったら完成です。

グループの数(k)はどう決めますか?

A. エルボー法がよく使われます。kを増やしながらグループ内のばらつきを測り、減り方が鈍る“ひじ”のような点を目安にします。最終的には、分けた結果が目的にとって意味があるかを人が判断することが大切です。

分類とクラスタリングはどう違いますか?

A. 分類は正解ラベルを使い、あらかじめ決まったカテゴリに振り分ける教師あり学習です。クラスタリングは正解を使わず、データから自分でまとまり(箱)を作る教師なし学習です。正解を使うかどうかが最大の違いです。

クラスタリングは何に使えますか?

A. 顧客のセグメント分け、異常検知、似た文書や画像の整理、データ傾向の探索などに使えます。正解が分からない状態で、まずデータの傾向をつかみたいときの最初の一手として便利です。

k-meansの弱点は何ですか?

A. グループ数を自分で決める必要があること、複雑な形のまとまりが苦手なこと、特徴量のスケールや中心の初期位置で結果が変わることなどです。標準化や複数回の試行で対処します。

クラスタリングに正解はありますか?

A. 唯一の正解はありません。同じデータでもグループ数や手法で結果が変わります。だからこそ、分けた結果が目的に照らして役立つかどうかを人が評価することが重要になります。

あわせて読みたい

参考・一次ソース

※本記事は2026年6月時点の一般的な仕組みを初心者向けに整理したものです。手法の詳細や最適な使い方はデータや目的によって変わるため、実務では各手法の前提条件もご確認ください。

ルミィ
ルミィ
AIナビゲーター
ChatGPT・Gemini・Claudeなどの会話AI、画像生成AI、動画生成AI、資料作成AI、AI検索ツールを初心者向けに解説するAIナビゲーター。実際に使ってみた感想や、仕事・学習・発信に役立つAI活用法をわかりやすく紹介しています。
記事URLをコピーしました