長 隆之/著 -- コロナ社 -- 2025.11 --

所蔵

所蔵は 1 件です。

所蔵館 所蔵場所 資料区分 請求記号 資料コード 所蔵状態 資料の利用
配架日 協力貸出 利用状況 返却予定日 資料取扱 予約数 付録注記 備考
中央 2F 一般図書 /007.1/6346/2025 7119794570 配架図 Digital BookShelf
2025/11/29 可能 利用可   0

    • 統合検索
      都内図書館の所蔵を
      横断検索します。
      類似資料 AI Shelf
      この資料に類似した資料を
      AIが紹介します。
遠隔複写申込みは、東京都在住・在勤・在学の方からお受けいたします。
複写カート機能には、Cookieを使用しています。申込む際はCookieを有効にしてください。

資料詳細 閉じる

ISBN 4-339-02953-6
ISBN13桁 978-4-339-02953-6
タイトル 強化学習アルゴリズム
タイトルカナ キョウカ ガクシュウ アルゴリズム
著者名 長 隆之 /著
著者名典拠番号

110008553860000

並列タイトル Reinforcement Learning Algorithms
出版地 東京
出版者 コロナ社
出版者カナ コロナシャ
出版年 2025.11
ページ数 8, 241p
大きさ 26cm
価格 ¥4400
内容紹介 大規模言語モデルなどにも用いられている「強化学習アルゴリズム」を理解するために必要な知識を幅広く網羅。基礎的内容もカバーしつつ発展的な内容も取り上げ、論文を読み、最新の研究動向を理解する力を得ることを目指す。
書誌・年譜・年表 文献:p224~239
一般件名 機械学習 , アルゴリズム
一般件名カナ キカイ ガクシュウ,アルゴリズム
一般件名典拠番号

511957000000000 , 510093100000000

分類:都立NDC10版 007.13
テキストの言語 日本語  
資料情報1 『強化学習アルゴリズム』 長 隆之/著  コロナ社 2025.11(所蔵館:中央  請求記号:/007.1/6346/2025  資料コード:7119794570)
URL https://catalog.library.metro.tokyo.lg.jp/winj/opac/switch-detail.do?lang=ja&bibid=1154888753

目次 閉じる

1.数学的な準備
  1.1 確率
  1.2 強化学習でよく使われる情報量
  1.3 ブラックボックス最適化アルゴリズム
2.強化学習の定式化
  2.1 強化学習とはどんなものか
  2.2 マルコフ決定過程
  2.3 強化学習の種類
3.価値関数の学習
  3.1 ベルマン方程式
  3.2 価値関数の推定とベルマン作用素の収束性
  3.3 Q学習
  3.4 偏差と分散のバランスを考慮した累積報酬の計算
4.オンポリシー型の方策の学習
  4.1 方策の学習のアプローチ
  4.2 方策勾配法
  4.3 近似した価値関数を用いた方策勾配法
  4.4 自然方策勾配とKL情報量に基づく拘束を用いた方策の更新
  4.5 オンポリシー型のアルゴリズムの実験的比較
5.オフポリシー型の方策の学習
  5.1 決定論的方策を用いたアルゴリズム
  5.2 密度推定としての方策学習
  5.3 エントロピー正則化付き強化学習アルゴリズム
  5.4 KL情報量による拘束を用いたオフポリシー型actor‐critic法
  5.5 オフポリシー型actor‐critic法の学習効率を高める工夫
  5.6 オフポリシー型のアルゴリズムの実験的比較
6.オフライン強化学習アルゴリズム
  6.1 オフライン強化学習の問題設定
  6.2 オフライン強化学習における方策に対する正則化
  6.3 価値関数の学習に対する正則化
  6.4 サンプル内学習による価値関数の学習
  6.5 データの多峰性に対応した方策モデルの使用
  6.6 密度比に基づいたオフライン強化学習アルゴリズム
  6.7 オフライン強化学習アルゴリズムの性能比較
7.モデルベース強化学習
  7.1 モデルベース強化学習アルゴリズムの分類
  7.2 最適制御に基づくアプローチ
  7.3 近似された状態遷移モデルを用いたモデル予測制御
  7.4 仮想的なサンプルによる方策の学習
  7.5 状態遷移モデルを通した誤差伝播による方策の学習
  7.6 状態遷移モデルの表現と学習
8.発展的話題
  8.1 目標条件付き方策とその訓練
  8.2 階層型強化学習
  8.3 内的報酬による強化学習
  8.4 複数の挙動を同時に学習する強化学習
  8.5 マルチモーダルな生成モデルと強化学習