AIの情報はすべてが正しいのか？

　前回の記事では、生成AIとして身近であるGeminiとChatGPTを長文理解・要約、画像生成、プログラミングコードの生成という3つの面で比較しました。この記事の最後で、人間がAIに頼りきるのではなく、人間もAIと一緒に進化していくこと、人間も常に新しい知識をアップデートしていくことが重要だとしました。
　今回の記事では、AIと人間の知識というところに着目して、正しい知識という点に重点を置いて記事を書こうと思います。

ハルシネーション

　ハルシネーションは本来「幻覚」という意味です。AIは「嘘をついている」という自覚はなく、人間から見るとまるで幻覚を見ているかのように的外れなことを言うために、この名がつきました。基本的にAIは人間に正しいことを生成しますが、稀に事実とは異なることを生成します。そしてハルシネーションには学習に用いたデータとは異なる事実の出力をする「Intrinsic Hallucinations」と学習に用いたデータには存在しないことを出力する「Extrinsic Hallucinations」の2種類があります。このハルシネーションは難しい疑問にだけ起こるのではなく、一見単純に見える質問に対してでさえ、起こることもあります。ですので、ハルシネーション自体は人間には全く予想のできないことなのです。

なぜAIは噓をつくのか？

　先ほど、AIは嘘をついている自覚はないと言いましたが、ここでは分かりやすくするためにAIが嘘をついていると表現します。
　ハルシネーションの原因を記す前に、生成AIの仕組みについても簡単にですが書いていこうと思います。まずAIは、情報源となる大量のデータを学習します。具体的には、膨大な文章データを読み込み、言葉の使い方や組み合わせのパターンを学んでいきます。筆者もメールを書く際に、「お世話になっております」や「よろしくお願いいたします」といった定型表現を何度も何度もメールを書く中で、自然と思い出すのと同じイメージです。AIも同様に、「この言葉の後には、こう続く可能性が高い」というパターンを身につけます。次に、ユーザーからの指示文(プロンプト)に基づいて、答えを「一単語ずつ」予測しながら組み立てます。生成AIは単に過去の情報をコピペするのではなく、大量の学習データをもとに「次に来る可能性が高い言葉」を一つ一つ予測して組み合わせ、文脈に沿った自然なアウトプットを生成します。
　この生成AIの仕組みをもとにして、ハルシネーションが起こる原因を考えていきます。

1．学習データの不足や偏り

　AIは学習データを基に回答を生成するため、データが存在しないマイナーな情報や、そもそも学習したデータが間違っていると、それをそのまま正しいものとして出力してしまいます。

2．生成AIの限界

　LLM(大規模言語モデル)は、確率的に次に続く可能性が高い単語を予測して文章をつなぎ合わせるため、学習データになく知識がない場合には、それを埋めるために「もっともらしい」単語を自動補完することで嘘が生じます。

3．プロンプトが曖昧

　生成AIがいくら高性能でも、人間のプロンプトが曖昧では生成AIも正確な回答を出力することは難しいです。人間同士の会話でも、主語や述語のない人との会話はとても難しいと感じたことのある人は多いかと思います。しかし、現在の生成AIは曖昧なプロンプトがあった場合に、下記画像のように、質問だったらその質問内容の詳細を聞き出そうとします。これによって、絶対ではありませんが、人間と生成AIの間で認識の齟齬が生まれることは限りなく少なくなるかと思われます。

　以上の３つがAIにおいてハルシネーションが起きる原因だと筆者は考えます。1つ目の学習データの不足や偏りにおいては、これから時間が経てば経つほどより詳細な情報やマイナーな情報を学習していき、改善されることが予想されます。2つ目の生成AIの習性ともいえる点においては、1つ目と繋がっている部分が多いため、こちらも時間をかけることで、改善されることがあるかと思われますが、生成AIの性質故、難しいことだと思われます。3つ目に関しましては、3つの中で唯一人間によってAIがミスを起こしていると言えます。しかし、先ほども述べたように生成AI側が詳細を聞き出そうとしている点から、これが原因となるハルシネーションも減っていくと思われます。

ハルシネーションが起こらないようにするには

　結論から言うと、ハルシネーションが完全に起こらないようにするのは不可能かと思われます。それは、常に世界中ではあらゆる出来事が起こっていまして、それに伴いあらゆる事柄の情報は更新されていきます。そのため、いくらAIといえども常にすべての出来事の最新の情報を学習するということは、現時点では難しいかと思われます。しかし、10年前までは考えられなかった速度でAIは進化しているため、近い将来は可能になるのではないかと筆者は考えます。
　他にもハルシネーションを防ぐ方法としては、自らファクトチェックをすることが挙げられます。これはAIに聞いたことについて自ら調べて、情報の真偽を自らが確かめる行為です。こちらについては、複数の異なるメディアで報じられているかや、公的機関にて報じられているかなど、AIを信じ切らずに最後は自らの目で確かめるということです。このファクトチェックは生成AIが流行る前から、重要視されていたもので、この方法でハルシネーションを防ぐということが、最も身近に感じる方は多いと思いますし、最も信頼されているか方法かと思われます。
　もう一つ、ハルシネーションを防ぐ方法としては、下記画像のように生成AIに質問をして、それについての答えがわからない場合は「不明です」と答えてというプロンプトを加えることです。このようにすると、生成AIはわからないことでも無理に話を作ろうとせずに、「不明です」と答えることによって、嘘をついていないのだなとわかります。

　ハルシネーションを防ぐ方法として、いくつか挙げましたが、どの方法を採用するにも結局ファクトチェックが最も重要だと筆者は感じます。生成AIに「不明です」と答えてと指示を出し、「不明です」と答えずに質問内容に対する答えが返ってきても、「不明です」と答えなかったから、生成AIの答えは正しいのだと妄信せずにファクトチェックすることが必ず必要です。

まとめ

　今回の記事ではAIのつく嘘「ハルシネーション」についてまとめました。

　今回の記事のポイントは以下の通りです。

・AI自体には嘘をついているという自覚はなく、一見簡単な質問に対しても、ハルシネーションが起こる。
・ハルシネーションが起こる理由としては、基本的なAIの仕組みにあり、質問に対し学習した情報がなかった場合、最も可能性の高い言葉を続ける傾向があるため。
・プロンプトが曖昧な時も質問の意図を読み取れずに、ハルシネーションが起こることがある。
・ハルシネーションを防ぐには自ら調べたり、プロンプトに工夫を加えたりなどの方法があるが、　ファクトチェックが最も効果的である。

　今回、AIのつく嘘としてハルシネーションについてまとめました。
　ハルシネーションが起こる原因は、学習データの不足であったり、プロンプトが曖昧であったりと必ずしもAIのみに原因があるわけではないということがわかりました。また、ハルシネーションが起こらないようにするにはファクトチェックをしたり、プロンプトに工夫を加えたりと、人間側のやり方次第という形になっております。特にファクトチェックは生成AIが流行る前から、フェイクニュースという言葉があったように、Twitterなどで「～あったらしい」などによって、騙された人が多くいたという印象が筆者にはあります。こういった事例やハルシネーションはファクトチェックをしていたら確実に防げる事例であるので、最終的には人間による判断が必要なのだと思いました。
　また、ハルシネーションとは異なる話にはなってしまいますが、自動運転などでもAIが不具合を起こした際には、人間が運転をできたら、車を路肩に止めることができたり、AIがプログラミングコードを書き、実行しエラーが起こった際に、エラーの原因をAIが突き止めることができなかった場合、そのエラーを突き止めることができるのは、プログラミングに対して知識のある人間のみです。そういったことから筆者は筆者は今までのブログでも何回も言っていますが、AIを使いこなすには、使う人間自身に知識がなければなりません。これはどんな技術にでもいえることですが、生成AIはすべての人が気軽に使えるので、知識を身につけるべき人は他のどんな技術よりもはるかに多いと筆者は思います。誰でも使えるからこそ、誰でも問題を起こしうるという自覚を持ち、生成AIを使うのが何よりも重要だなと筆者は感じました。

参考文献

ハルシネーション

https://www.nri.com/jp/knowledge/glossary/hallucination.html

GeminiとChatGPTは何か違うのか

「AIに仕事を奪われる」とは真実か否か

　川久保彬

スキル：Sales/PR

AIの情報はすべてが正しいのか？

ハルシネーション

なぜAIは噓をつくのか？

1．学習データの不足や偏り

2．生成AIの限界

3．プロンプトが曖昧

ハルシネーションが起こらないようにするには

まとめ

参考文献

川久保彬

コメント

関連記事

GeminiとChatGPTは何か違うのか

Gemini の高速・思考・Proモード比較！無料版と有料版の違いは？

AIの情報はすべてが正しいのか？

ハルシネーション

なぜAIは噓をつくのか？

1．学習データの不足や偏り

2．生成AIの限界

3．プロンプトが曖昧

ハルシネーションが起こらないようにするには

まとめ

参考文献

川久保 彬

コメント

関連記事

GeminiとChatGPTは何か違うのか

Gemini の高速・思考・Proモード比較！無料版と有料版の違いは？

　川久保彬