CNN・RNN・Transformer入門｜AI三大アーキテクチャを図解で理解

人間の脳には「視覚を処理する部分」「言語を理解する部分」「記憶を司る部分」など、それぞれ異なる役割を持つ領域があります。同じように、AIの世界でも「画像が得意」「文章が得意」「時系列データが得意」といった、異なる特徴を持つニューラルネットワークのアーキテクチャが開発されてきました。

📌 忙しい人はここだけ読めばOK！

CNN・RNN・Transformerは、それぞれ異なるデータタイプに特化した「専門家」ニューラルネットワーク

歴史的重要性：AIが「汎用的な計算機械」から「専門性を持つ知的システム」へと進化した転換点

重要な原理：

CNN（画像専門家）：工場の検品のように、局所的な特徴から全体像を把握
RNN（記憶専門家）：読書のように、前の情報を覚えながら順番に処理
Transformer（注意専門家）：会議のように、重要な情報に注意を向けて全体を統合

根本理解を深めたい人は、以下で歴史的背景と技術的詳細を解説します。

CNN：画像を見る「専門家」の仕組み

CNN（Convolutional Neural Network：畳み込みニューラルネットワーク）は、1980年代に福島邦彦（ふくしまくにひこ）氏が開発した「ネオコグニトロン」を起源とする、画像処理に特化したアーキテクチャです。

工場の検品システムに例えるCNNの仕組み

CNNの動作は、工場の製品検品システムに例えるとわかりやすくなります：

第1段階：局所的な特徴検出
工場の検品員が製品を見るとき、まず「角」「線」「円」といった基本的な形を確認します。CNNも同様に、画像の小さな領域（例：3×3ピクセル）を順番にチェックして「エッジ」「角」「テクスチャ」といった基本特徴を検出します。

第2段階：特徴の組み合わせ
検品員は基本的な形の組み合わせから「これはネジ穴だ」「これは表面の傷だ」と判断します。CNNも検出した基本特徴を組み合わせて、より複雑なパターン（目、鼻、車輪など）を認識します。

第3段階：全体像の把握
最終的に検品員は「この製品は合格品だ」と総合判断します。CNNも認識したパターンを統合して「これは猫の画像だ」「これは車の画像だ」と分類します。

CNNが革命的だった理由

従来のニューラルネットワークは画像の全ピクセルを一度に処理しようとして、膨大な計算量が必要でした。CNNは「局所的な特徴から段階的に理解する」という人間の視覚システムを模倣することで、効率的で正確な画像認識を実現しました。

2012年のImageNet競技会でAlexNet（CNN）が従来手法を大幅に上回る成果を示し、AI画像認識の新時代が始まりました。

RNN：記憶を活かす「連続処理」の仕組み

RNN（Recurrent Neural Network：再帰ニューラルネットワーク）は、時系列データや文章のように「順番が重要な情報」を処理するために設計されたアーキテクチャです。

読書の理解プロセスに例えるRNNの仕組み

RNNの動作は、私たちが本を読むときの理解プロセスに非常に似ています：

順次処理の重要性
「昨日、田中さんが会社で新しいプロジェクトについて話していました。そのプロジェクトは来月から始まる予定です。」

この文章を理解するには、文章を最初から順番に読み進めながら、前に出てきた情報を覚えておく必要があります。2つ目の文の「そのプロジェクト」が何を指すかを理解するには、1つ目の文の「新しいプロジェクト」という情報を記憶している必要があります。

なぜ順番が重要なのか？
例えば「田中さんは昨日会議で新しいプロジェクトを提案した」と「新しいプロジェクトは田中さんが昨日会議で提案した」では、同じ単語を使っていても、どちらが主語なのか、何が重要な情報なのかが変わってきます。特に機械翻訳や質問応答では、この順序の違いが正確な理解に大きく影響します。

記憶の仕組み
RNNは各単語を処理するたびに「記憶」を更新します。この記憶には「これまでに読んだ内容の要約」が含まれており、次の単語を理解するときの手がかりとして使用されます。

具体的には：

「昨日、」を読む → 記憶：「過去の出来事の話」
「田中さんが」を読む → 記憶：「昨日、田中さんに関する話」
「会社で」を読む → 記憶：「昨日、田中さんが会社で何かした話」
「新しいプロジェクトについて話していました」を読む → 記憶：「昨日、田中さんが会社で新しいプロジェクトについて話をした」

次の文「そのプロジェクトは来月から始まる予定です」を読むとき、RNNは記憶している「新しいプロジェクト」の情報を使って「そのプロジェクト」が何を指すかを正しく理解できます。

RNNの応用と進化

RNNが活躍する分野と、その理由を詳しく見てみましょう：

機械翻訳でのRNN活用
「I love you」を「私はあなたを愛しています」に翻訳する場合：

「I」を読む → 記憶：「主語は一人称」
「love」を読む → 記憶：「一人称が愛するという動作」
「you」を読む → 記憶：「一人称が二人称を愛する」
全体の意味を理解して「私はあなたを愛しています」と出力

株価予測でのRNN活用
過去30日の株価：1000円→1050円→1020円→1080円…という時系列データを順番に読み込み、「上昇傾向が続いている」「最近少し下落」といったパターンを記憶として蓄積。この記憶を使って明日の株価を予測します。

音声認識でのRNN活用
「おはよう」という音声を認識する場合、音の波形を時系列で処理：

「お」の音を認識 → 記憶：「あ行の音で始まる」
「は」の音を認識 → 記憶：「『おは』という音列」
「よ」の音を認識 → 記憶：「『おはよ』という音列」
「う」の音を認識 → 「おはよう」という単語と確定

チャットボットでのRNN活用
ユーザーとの会話で、前の発言を覚えながら適切に応答：

ユーザー：「今日は雨ですね」→ 記憶：「天気の話題、雨」
ボット：「そうですね、傘をお持ちですか？」
ユーザー：「忘れました」→ 記憶：「傘を忘れた」
ボット：「コンビニで買えますよ」（傘の話だと文脈から理解）

従来のニューラルネットワークが「写真を一瞬で見て判断する」のに対し、RNNは「小説を最初から最後まで読んで理解する」ような処理を可能にした画期的な発明でした。

Transformer：注意深く「全体を見る」仕組み

Transformerは2017年にGoogleの研究チームが発表した「Attention is All You Need」論文で提案された革命的なアーキテクチャです。現在のChatGPTやBERTの基盤技術でもあります。

会議での情報統合に例えるTransformerの仕組み

Transformerの動作は、効果的な会議の進行方法に例えるとわかりやすくなります。ただし、CNNとは処理する情報の性質が根本的に異なります：

CNNとTransformerの根本的違い

CNN：画像の「空間的な位置関係」を処理（隣り合うピクセル同士の関係）
Transformer：文章の「意味的な関係性」を処理（離れた単語同士でも意味的に関連があれば注目）

全員が同時に発言内容を聞く
従来のRNNは「一人ずつ順番に発言を聞く」方式でした。しかしTransformerは「会議室の全員が、全員の発言を同時に聞いて、重要な関係性を見つける」方式です。

例えば「田中部長の新企画提案について、佐藤課長が予算面での懸念を表明し、それに対して山田主任が技術的な解決策を提示した」という状況で：

従来のRNN：田中→佐藤→山田の順番で一つずつ理解。最初の田中部長の発言を忘れがち
Transformer：3人の発言を同時に聞いて「佐藤課長の懸念は田中部長の提案に関するもの」「山田主任の解決策は佐藤課長の懸念に対するもの」という関係性を一度に把握

注意機構（Attention）の革新性
Transformerの最大の特徴は「注意機構」です。これは会議で「今の発言は誰の、どの発言と関連しているか？重要度はどの程度か？」を自動的に判断する能力に相当します。

「そのプロジェクトの予算は十分ですか？」という質問があったとき、Transformerは：

関係性の発見：「そのプロジェクト」が前に出てきた「田中部長の新企画提案」を指すことを理解
重要度の判定：「予算」に関する前の発言（佐藤課長の懸念）を高い重要度で関連付け
全体統合：会話全体の文脈を考慮した適切な理解を行う

CNNとの決定的な違い
CNNが「隣接する領域の物理的関係」を見るのに対し、Transformerは「意味的に関連する要素の論理的関係」を見ます。例えば：

CNN：画像で「鼻の隣に目がある」という物理的位置関係を重視
Transformer：文章で「文の最初の『猫』と文の最後の『可愛い』が意味的に関連」という論理的関係を重視

Transformerが起こした革命

Transformerの登場により、以下のような革新が起こりました：

処理速度の飛躍的向上
RNNの「順番に処理」に対し、Transformerは「並列処理」が可能なため、大幅な高速化を実現しました。

長い文章の理解力向上
RNNは長い文章では最初の情報を「忘れてしまう」問題がありましたが、Transformerは文章全体を同時に見るため、長文の理解が格段に向上しました。

大規模言語モデルの基盤
GPT（Generative Pre-trained Transformer）、BERT（Bidirectional Encoder Representations from Transformers）など、現在の主要なAIシステムはすべてTransformerを基盤としています。

3つのアーキテクチャの使い分け

それぞれの得意分野

CNN（画像・空間データ）

画像認識：写真の物体検出、医療画像診断
画像生成：AIアート、写真の高解像度化
空間パターン認識：地図データ分析、材料の構造解析

RNN（時系列・順序データ）

自然言語処理：機械翻訳、文章要約（Transformer登場前）
時系列予測：株価、気象、売上予測
音声処理：音声認識、音声合成
動画解析：行動認識、動画内容理解

Transformer（言語・複雑な関係性）

大規模言語モデル：ChatGPT、文章生成
機械翻訳：Google翻訳の現在のエンジン
文書理解：質問応答、要約、感情分析
マルチモーダルAI：画像とテキストの統合理解

現在の技術トレンド

アーキテクチャの融合
現在のAI開発では、単一のアーキテクチャではなく、複数の組み合わせが主流になっています：

Vision Transformer：CNNの代わりにTransformerで画像処理
CNN + RNN：動画理解（空間的特徴 + 時間的変化）
Transformer + CNN：画像キャプション生成

計算効率vs性能のバランス
実用的なAIシステムでは、精度だけでなく計算効率も重要です。用途に応じて最適なアーキテクチャを選択することが、AI開発者の重要なスキルとなっています。

まとめ：知識の体系化と実用展開

学んだ概念の関係性

今回学習した内容を整理すると：

基盤概念：ニューラルネットワークアーキテクチャ（データタイプに特化した構造設計）
派生概念：CNN（空間特化）、RNN（時系列特化）、Transformer（注意機構特化）
応用概念：画像認識、自然言語処理、時系列予測、マルチモーダルAI

身についた理解

今回の学習により、以下の知識が体系化されました：

歴史的必然性：汎用的なニューラルネットワークでは効率が悪く、データタイプに特化したアーキテクチャが必要だった
基本メカニズム：CNN（局所→全体）、RNN（記憶+順次処理）、Transformer（並列+注意機構）の動作原理
実世界での価値：画像認識革命、言語AI発展、時系列予測精度向上を実現した技術的基盤

知識の実用化指針

実践的応用：プロジェクトの性質（画像・テキスト・時系列）に応じた適切なアーキテクチャ選択

さらなる学習：各アーキテクチャの詳細実装、最新の発展形（Vision Transformer、BERT、GPTなど）

研究的視点：計算効率とモデル性能のトレードオフ、新しいアーキテクチャ設計の可能性

学習の位置づけと次への準備

これまでの学習：ニューラルネットワークの基本構造→誤差逆伝播法→今回の専門化アーキテクチャ

今回の核心：CNN・RNN・Transformerという3つの主要アーキテクチャとその特化分野の理解

次回への橋渡し：アーキテクチャの学習を支える正則化・最適化・活性化関数という技術的詳細への準備

CNN・RNN・Transformerアーキテクチャの理解を基盤として、次回は正則化・最適化・活性化関数について学習していきます。根本原理の理解が深まるほど、AI学習全体の見通しが良くなっていくはずです。

📚 他のAI分野も学習しませんか？

この記事はPhase 1 – 深層学習の基礎の内容でした。AI学習には他にも様々な分野があります：

基礎理論 – 数学的基盤と機械学習の基本概念
深層学習 – ニューラルネットワークと最新アーキテクチャ
応用分野 – NLP、コンピュータビジョン、強化学習
研究手法 – 論文読解、実験設計、評価手法
実践開発 – フレームワーク活用とプロダクト開発

詳しくはAI学習の全体像をご覧ください。

📝 記事制作情報

ライティング：Claude
方向性調整：猪狩

【ゼロから理解するコンピュータ第12回】割り込み処理：緊急事態にコンピュータが対応する方法

【補足】「Attention is All You Need」論文解説-Transformer革命の始まり

　猪狩雄樹

スキル：HTML/CSS/JavaScript/Java/Python/COBOL/React/Express.js/SpringBoot/GitHub/SVN/VSCode/Eclipse/Figma/WinMerge

CNN・RNN・Transformerアーキテクチャ

📌 忙しい人はここだけ読めばOK！

CNN：画像を見る「専門家」の仕組み

工場の検品システムに例えるCNNの仕組み

CNNが革命的だった理由

RNN：記憶を活かす「連続処理」の仕組み

読書の理解プロセスに例えるRNNの仕組み

RNNの応用と進化

Transformer：注意深く「全体を見る」仕組み

会議での情報統合に例えるTransformerの仕組み

Transformerが起こした革命

3つのアーキテクチャの使い分け

それぞれの得意分野

現在の技術トレンド

まとめ：知識の体系化と実用展開

学んだ概念の関係性

身についた理解

知識の実用化指針

学習の位置づけと次への準備

📚 他のAI分野も学習しませんか？

📝 記事制作情報

猪狩雄樹

コメント

関連記事

AIの3つの段階：ANI・AGI・ASI – 能力レベルの分類と未来展望

ニューラルネットワークの基本構造

CNN・RNN・Transformerアーキテクチャ

📌 忙しい人はここだけ読めばOK！

CNN：画像を見る「専門家」の仕組み

工場の検品システムに例えるCNNの仕組み

CNNが革命的だった理由

RNN：記憶を活かす「連続処理」の仕組み

読書の理解プロセスに例えるRNNの仕組み

RNNの応用と進化

Transformer：注意深く「全体を見る」仕組み

会議での情報統合に例えるTransformerの仕組み

Transformerが起こした革命

3つのアーキテクチャの使い分け

それぞれの得意分野

現在の技術トレンド

まとめ：知識の体系化と実用展開

学んだ概念の関係性

身についた理解

知識の実用化指針

学習の位置づけと次への準備

📚 他のAI分野も学習しませんか？

📝 記事制作情報

猪狩 雄樹

コメント

関連記事

AIの3つの段階：ANI・AGI・ASI – 能力レベルの分類と未来展望

ニューラルネットワークの基本構造

　猪狩雄樹