OpenAIがLLM（大規模言語モデル）の数学的能力を向上させる手法『PRM』を発表したことの詳細

今回はOpenAIがLLM（大規模言語モデル）の数学的能力を向上させる手法『PRM』を発表したことの詳細についての記事になります。

1 OpenAIがLLMの数学的能力を向上させる手法『PRM』を発表
2 ホームページ制作はAIではなくプロにお任せ

OpenAIがLLMの数学的能力を向上させる手法『PRM』を発表

【注目】

OpenAIがLLM（大規模言語モデル）の数学的能力を向上させる手法『PRM』を発表

結果だけを評価するのではなく、問題を解く過程一つ一つに報酬を与える新しいアプローチ

･ハルシネーション（幻覚）の軽減
･論理的なタスクの処理精度

など、多くのシーンで応用できそう👀👀

続く>> pic.twitter.com/HECEnBIZyb
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023

2/ PRM(プロセス監督)とは

PRMとは、"作業手順"を監督する手法。

各ステップでフィードバック、報酬をを提供し、AIが人間が承認した方法で問題を解くように導くアプローチで、これにより、AIがどのように答えを導き出したかがよりわかりやすくなる
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023

3/ PRMのメリット

プロセス監督は、「結果だけを評価する」っていう方法よりも、AIを人間の思考パターンに近づける利点がある

各ステップできちんと進んでいることを報酬化することで、AIは人間が理解し承認できる思考過程を追求するようになるって感じか
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023

4/ PRMのパフォーマンス

実験では、PRMが「結果だけを評価する」方法よりもはるかに高いパフォーマンスを示したそう

数学の問題解決で「人間らしい考え方」を推奨する方が、全体的な結果をより良くするという事実を示している pic.twitter.com/TzHfciy5n7
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023

5/ PRMの未来

将来的には科学、工学、医学など他の領域でもこの手法が有用かどうかを探索したい感

ちょっと前に話題だったけど、ステップバイステップで考えてみましょうってプロンプトが有用性高かったり

AutoGPTみたいにプロセスを見直して、そこを改善していくみたいなのはクリティカルな感じ
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023

6/ 詳細はこちら

🔗 – Improving mathematical reasoning with process supervisionhttps://t.co/TVJT5JfYyv
— 木内翔大｜AI時代に乗り遅れない為の必見情報を毎日配信📣 (@shota7180) June 2, 2023