Menu

Datathon Japan 2025

HANDS-ON SEMINARS

ハンズオンセミナー午前
2025/12/5 10:20 ‒ 12-20

HS01 統計的因果推論

担 当
木下 喬弘
所 属
株式会社MeDiCU
概 要
データを使って服薬や手術などの介入の効果を推定する「統計的因果推論」が大きな注目を集めています。傾向スコアマッチングや逆数重み付け法などの手法はコモディティ化しており、overlap weighting や分割時系列デザインのような発展的な解析を目にする機会も増えてきました。しかし、「そのデータで因果推論をして本当に良いのか」ということを教えてくれる書籍やセミナーは、未だにほとんどありません。
本セミナーでは、統計的因果推論の基礎となる「反実仮想アウトカム」について紹介し、データを使って因果効果を識別するための3 つの条件について解説します。「因果推論のことを全く知らない」という?も、「コードは回るけど正しい解析をできているのかわからない」という人も、みなさん大歓迎です。プログラミングの事前知識は?切必要ありません。御自身のPC をお持ちください。統計的因果推論について、基礎からしっかり学びたいという方を歓迎します。

HS02  機械学習モデルを極める

担 当
大邉 寛幸
所 属
東北大学病院高度救命救急センター
概 要
このハンズオンセミナーでは、機械学習予測モデル論文の報告における新たなガイドライン「TRIPOD+AI」について、実践的に学ぶことができます。TRIPOD(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis Or Diagnosis: 多変量予測モデルの透明性のある報告のためのガイドライン)は、予測モデルの開発や評価を行う医学研究において、報告の透明性と完全性を確保するために重要な基準を論文著者に提供しています。近年、機械学習を用いたAI 技術の発展により、AI(Artificial Intelligence) を用いた予測モデルを開発する研究が加速しており、それに伴いTRIPOD+AI としてガイドラインが2024 年4 月に更新されました。本セミナーでは、TRIPOD+AI の27 項目のチェックリストに基づく効果的な報告方法を実践的に学び、参加者が将来の機械学習予測モデルの論文執筆をする際に何を報告すべきなのかを理解することを目的とします。参照論文:TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ 2024;385:e078378 受講者に要求する知識レベル:誰でも受講可能です。当日用意すべきもの:ノートPCをお持ちください。

HS03  多重代入法

担 当
白石 淳
所 属
亀田総合病院 救命救急科/亀田総合研究所
概 要
多重代入法 (Multiple Imputation, MI) は、データセットの欠測値を、複数の不確かさも踏まえた妥当な値で補完する統計的手法です。その主な目的は、欠測データの除外が生む選択バイアスを低減し、すべての観測情報を最大限に活用することにあります。
MIは、欠測したデータを単に作り出してサンプルサイズを人為的に増やす錬金術ではありません。欠測に何らかの系統的な背景がある場合(特にMAR: Missing at Randomの仮定を満たす場合)に、欠測していない他の変数との関連性を用いて、欠測値の予測分布から複数の代入値セットを生成する手法です。
MIのプロセスは、通常以下の3つのステップで構成されます。
代入 (Imputation): 欠測値の不確かさを反映した、統計的に妥当なデータセットを複数個(通常5?20個程度)生成します。各データセットで代入される値は少しずつ異なります。
分析 (Analysis): 生成された複数の完全データセットそれぞれに対して、本来行いたかった統計解析(例:回帰分析)を個別に実行します。これにより、データセットの数と同じ個数の分析結果が得られます。
統合 (Pooling): それらの複数の分析結果を統合し、最終的な一つの推定値(例:回帰係数)と、その標準誤差や信頼区間を算出します。
この一連のプロセスにより、欠測がもたらす不確実性を最終的な統計的推測に適切に反映させることができ、平均値代入などの単純な方法に比べて、より信頼性の高い結果を得ることが可能になります。
このレクチャーを理解するために必要な事前スキルは特にありません。

HS04  データ可視化の最前線:生体情報モニターデータを3次元動的可視化でリデザイン

担 当
内御堂 亮 , 峯岸 勇, 三菱電機株式会社 統合デザイン研究所
所 属
東京科学大学病院 集中治療部、三菱電機株式会社 統合デザイン研究所
東京科学大学 統合教育機構イノベーション人材育成部門
概 要
このハンズオンセミナーでは、生体情報モニターの時系列データ(血圧、呼吸回数、心拍数、体温、脈拍数、酸素飽和度等、呼吸回数)を元に、動的可視化の基本スキルを学びます。複雑な医療データを、従来とは異なり、より直感的でかつアート要素も含めた形で表現することで、医療データビジュアライゼーションの新たな可能性を?緒に探索しましょう。
※前年に開催したワークショップをベースとしており重複する内容が含まれています。
受講者に要求する知識レベル:誰でも受講可能です。(基本的なPC操作ができる)
当日用意すべきもの:ノートPCをお持ちください。
使用する教材(予定):
Three.js:Three.js – JavaScript 3D Library (threejs.org) p5.js:p5.js (p5js.org)
GitHubのリンク(使用予定のコードを掲載):
https://github.com/CreativeCoding-with-ICUData/DatathonJapan2025

HS05 Exploring Global Pharmacovigilance Data with VigiBase and the vigicaen R Package
VigiBase および vigicaen R パッケージを活用した国際医薬品安全性監視データの探求

担 当
Basile Chretien 西田一貴
所 属
名古屋大学大学院 医学系研究科、京都大学大学院 医学研究科 社会健康医学系専攻 医療データ科学
概 要
本ハンズオンセッションでは、薬剤安全性監視(Pharmacovigilance)の基礎と、国際的な安全性データの解析方法を紹介します。まず、薬剤安全性監視とは何か、その仕組みや目的について解説します。その後、世界的な薬剤安全性監視システムであるVigiBaseについて、構造や過誤の可能性がある解析手法(disproportionality analyses)、主要なバイアスとその対処法について説明します。
後半のハンズオンでは、Rを用いてシミュレーションデータを解析し、特定の医薬品または医薬品群に関連する安全性シグナルを探索します。RやRStudioの経験がない方でも参加可能です。円滑な実習のため、事前にPCにRまたはRStudio、さらにvigicaenパッケージをインストールしてご準備ください。本セッションは、ビッグデータが薬剤安全性監視にどのように活用されるかを具体的に体験したい方に最適です。このセミナー筆頭演者は日本語も堪能ですが基本的に英語で実施します。

HS06 日本の医療データの生成背景の理解と医学系のデータ分析のtips

担 当
清水 沙友里
所 属
横浜市立大学データサイエンス研究科ヘルスデータサイエンス専攻
概 要
最新データを加味して同タイトルでセミナーを開催します。医療分野でよく用いられるデジタルデータのほとんどは、医療管理データ(医療機関が自らの業務のために生成しているデータ)の二次利用を背景としています。分析を目的として収集されたデータではないため、入力内容や含まれる対象者が、分析者の理想的な状況ではないことが大半です。いつ、誰が、どこで、どのような目的で、どのような入力ルールのもとにそのデータを作成したのか、そのデータはどのように収集されたのかを理解していないと、適切な分析計画を立てることはできず、分析結果のミスリーディングに直結してしまいます。加えて、実装上の制約や医の倫理の観点から、保守的な分析計画が歓迎される側面もあります。本セミナーでは、座学を中心に実際の医療データのサンプルデータを見ながら、web サービス等から生成されるデータとは異なる枠組みで生成・収集される医療データの生成背景を理解することを目的としています。受講者はデータサイエンティストを想定しており、医学知識は特に必要ありません。当日に用意するものは、サンプルCSVデータを見るためのノートPCで、特に分析ソフトやオンライン分析環境を用いる予定はありません。本セミナーの内容は昨年と同様となります。

HS07 最近流行りのベイズ統計に触れてみよう

担 当
熊澤 淳史
所 属
堺市立総合医療センター 集中治療科
京都大学大学院医学研究科 客員研究員
概 要
本ハンズオンセミナーでは、近年、医学研究の世界で急速に注目を集めている「ベイズ統計」について、その基本的な考え方と実践的な応用に触れることを目指します。最近、トップジャーナルで「アダプティブデザイン」や「ベイズ」といったキーワードを目にする機会が増えていませんか? 集中治療領域などで行われる最先端の臨床試験では、ベイズ統計が重要な役割を果たし始めています。
でも、「ベイズ統計」と聞くと、「なんだか難しそう…」「p値と何が違うの?」「事前分布って何?」と難しく感じてしまう方も多いと思います。
ベイズ統計の真の理解には、確率分布などの数学的な概念の理解が不可欠です。本講義では、数学的な背景にも少し触れつつ、統計初学者の方にもそのエッセンスだけでも掴んでいただけるよう、必要な概念を解説しながら、その応用例に触れてみることをゴールとします。
内容(予定):

1. ベイズ統計のキホンを知る

2. ベイズを使った医学論文にふれる

3. Rでベイズモデルを体験する

2時間という短い時間ですが、「ベイズ統計って、実は面白いかも!」と思っていただけるような時間にしたいと考えています。皆さんのご参加をお待ちしております!
(講義では、皆さんの理解度を最優先に進めていきます。そのため、進行状況によっては、Rでの演習よりも、理論や論文読解の解説に時間を充てる場合がございます。あらかじめご了承ください。)
受講者に要求する知識レベル:講義ではRを用いた簡単な演習を予定しているため、Rの使用経験がある方(あるいは触ったことがある方)を推奨します。また、統計の深い知識は不要ですが、「確率分布」という言葉に聞き覚えがある方であれば、よりスムースに講義内容を理解していただけると思います。