Menu

Datathon Japan 2024

HANDS-ON SEMINARS

ハンズオンセミナー午前
2024/11/29 10:30 ‒ 12-30

HS01 多重代入 欠損値を補完する

担 当
一原 直昭
所 属
大阪大学医学部附属病院 未来医療開発部データセンター
概 要
集中治療を含めた現実世界のデータに機械学習を適用して有意義なデータを得る上で、欠損値への対処は避けて通ることができません。本セミナーではMICE (Multiple imputation with chained equations)による欠損への対処を実践的に学びます。

扱う内容の例:

(a) MCAR, MAR, MNAR とは? Structured Missing とは?

(b) MARにおける行単位削除がもたらすバイアスを可視化する

(c) 単代⼊の問題は何か?

(d) 多重代⼊は単代⼊の問題をどう克服するか?

(e) 他変数から導出される変数(例:BMI)の扱いは?

(f) 多重代⼊の評価方法は?

(g) 医学論⽂で多重代⼊の結果をどう報告するか?

(h) 多重代⼊を使用すべきではないケースは?

おそらく扱わない内容の例:

(A) 階層データにおける⽋損への対処は?

(B) 時系列データにおける⽋損への対処は?

参加者は、R の基本を理解していることを前提とします。R の実行可能なPCを持参してください。

HS02 日本の医療データの生成背景の理解と医学系のデータ分析のtips

担 当
清水 沙友里
所 属
横浜市立大学データサイエンス研究科ヘルスデータサイエンス専攻
概 要
医療分野でよく用いられるデジタルデータのほとんどは、医療管理データ(医療機関が自らの業務のために生成しているデータ)の二次利用を背景としています。分析を目的として収集されたデータではないため、入力内容や含まれる対象者が、分析者の理想的な状況ではないことが大半です。いつ、誰が、どこで、どのような目的で、どのような入力ルールのもとにそのデータを作成したのか、そのデータはどのように収集されたのかを理解していないと、適切な分析計画を立てることはできず、分析結果のミスリーディングに直結してしまいます。加えて、実装上の制約や医の倫理の観点から、保守的な分析計画が歓迎される側面もあります。本セミナーでは、座学を中心に実際の医療データのサンプルデータを見ながら、web サービス等から生成されるデータとは異なる枠組みで生成・収集される医療データの生成背景を理解することを目的としています。受講者はデータサイエンティストを想定しており、医学知識は特に必要ありません。当日に用意するものは、サンプルCSVデータを見るためのノートPCで、特に分析ソフトやオンライン分析環境を用いる予定はありません。

HS03 予測モデルの評価指標:識別能、較正能、臨床的有用性

担 当
山本 良平
所 属
福島県立医科大学臨床研究イノベーションセンター
概 要
予測モデルの評価は、正確で信頼できる意思決定を行うための鍵となります。予測モデル研究で、Area Under the Receiver Operating Characteristic curve(AUROC)のみがプレゼンテーションされているのを見ますが、予測モデルの評価指標としては不十分です。予測モデルでは、識別能、較正能、臨床的有用性の3つの観点から評価する必要があります。本講義では、疫学視点から、これらの3つの主要指標について説明し、ハンズオンを通してROC曲線、Calibration Plot、Decision Curve Analysisを含む分析ができるようになることを目指します。
本講義は、上記の用語を知らない初学者を対象にします。ハンズオンではRStudioを用いた解析を行いますので、受講者はノートパソコンにRstudioをダウンロードし持参してください。ダウンロードのサポートはありませんので、疫学のための R ハンドブック3.4章等を参考にダウンロードください(https://epirhandbook.com/jp/index.jp.html)。また基礎的なRスキルを持っていることが望ましいです。Rが使えない場合、ハンズオンでは見学のみになりますが、了承いただければ参加いただいて構いません。

HS04 臨床疑問から研究疑問へ

担 当
笹渕 裕介
所 属
東京大学大学院医学系研究科リアルワールドエビデンス講座
概 要
臨床研究は、日常臨床で生じる疑問、すなわちクリニカルクエスチョンを、研究として解明可能な形のリサーチクエスチョンに変換することから始まります。この最初のステップが曖昧なまま、単にデータがあるからといって分析を進めても、質の高い研究にはなりません。リサーチクエスチョンの設定は、研究全体の方向性を決定づける極めて重要なプロセスで
す。
本ハンズオンでは、受講者を少人数のグループに分け、実際にクリニカルクエスチョンをリサーチクエスチョンに変換するためのディスカッションを行います。このディスカッションを通じて、具体的かつ明確な研究疑問を設定するプロセスを体験していただきます。参加者は、当日積極的にディスカッションに参加し、意見交換を行うことで、実践的な学びを深めることが期待されています。ぜひ、意欲と好奇心を持ってご参加ください。

HS05 大規模言語モデル(LLM)を触ってみよう。Pythonを使ったPromptingとFine-Tuning

担 当
熊澤 淳史
所 属
堺市立総合医療センター 集中治療科
京都大学大学院医学研究科 客員研究員
概 要
このハンズオンセミナーでは「大規模言語モデル(Large Language Model:LLM)」の基本について学び、無料で公開されているLLM を使って、Prompting、Tuning とRetrieval-Augmented Generation(RAG)について学びます。
生成AI が目覚ましく発展していますが、その中心になっているのがLLMです。Chat-GPT は最も有名なLLM の⼀つで、優秀なチャットボットとして多くの方が利用しています。しかし、Chat-GPT には、モデルが構築された以降のデータがなく、個人情報や秘匿情報を有さないため、これらの質問に対しては適切な回答が得られません。しかし、無料公開されているLLM を用いれば、新たなデータを追加学習させるもしくは、適切なPrompt を用いる事で、自分専用のチャットボットを構築する事も可能です。本セミナーでは公開LLM の使い方、Prompting とRAG についてGoogle Colab を用いて実習します(あくまで触りまでで、本セミナーだけでチャットボットは作成できません)。

受講者に要求する知識レベル:当日Pythonを用いますので、Pythonを触ったことがある方が理想です。

HS06 クリエイティブコーディング with ICUデータ

担 当
内御堂 亮 , 峯岸 勇, 三菱電機株式会社 統合デザイン研究所
所 属
東京科学大学病院 集中治療部、三菱電機株式会社 統合デザイン研究所
東京科学大学 統合教育機構イノベーション人材育成部門
概 要
このハンズオンセミナーでは、実際のICU 患者のバイタルサインデータ*や人工呼吸器データ**を使い、講義とハンズオンセミナーを通じて、クリエイティブコーディング***の基本スキルを学びます。複雑な医療データを、従来の研究用の可視化とは異なり、より直感的で理解しやすく、かつアート要素も含めた形で表現することで、医療データビジュアライゼーションの
新たな可能性を⼀緒に体験しましょう。
*:血圧、呼吸回数、心拍数、体温、脈拍数、酸素飽和度等**:呼吸回数、理想体重当たりの⼀回換気量、分時換気量、設定吸気圧、設定呼吸回数等*** : プログラミングを使ってデータの視覚化やアート作品を創造的に表現する手法

受講者に要求する知識レベル:誰でも受講可能です。(基本的なPC操作ができる)
当日用意すべきもの:ノートPCをお持ちください。
使用する教材(予定):
Three.js:Three.js – JavaScript 3D Library (threejs.org)
p5.js:p5.js (p5js.org)

GitHubのリンク(使用予定のコードを掲載):
https://github.com/CreativeCoding-with-ICUData/DatathonJapan2024

ハンズオンセミナー午後
2024/11/29 13:50 – 15-50

HS07 統計的因果推論「はじめの⼀歩」

担 当
木下 喬弘
所 属
株式会社MeDiCU
概 要
データを使って服薬や手術などの介入の効果を推定する「統計的因果推論」が大きな注目を集めています。傾向スコアマッチングや逆数重み付け法などの手法はコモディティ化しており、overlap weighting や分割時系列デザインのような発展的な解析を目にする機会も増えてきました。しかし、「そのデータで因果推論をして本当に良いのか」ということを教えてくれる書籍やセミナーは、未だにほとんどありません。
本セミナーでは、統計的因果推論の基礎となる「反実仮想アウトカム」について紹介し、データを使って因果効果を識別するための3 つの条件について解説します。「因果推論のことを全く知らない」という⼈も、「コードは回るけど正しい解析をできているのかわからない」という人も、みなさん大歓迎です。プログラミングの事前知識は⼀切必要ありません。御自身のPC をお持ちください。統計的因果推論について、基礎からしっかり学びたいという方を歓迎します。

HS08 SQLの 基礎

担 当
大坪 新平
所 属
株式会社MeDiCU
概 要
データの変換や集計を行う方法にはさまざまなものがありますが、SQL はその中でも最も普遍的に用いることのできる技術の⼀つです。データを管理するサーバーのほぼすべてがSQL に対応しているといっても過言ではない程普及しているため、SQL を使えるようになるだけで様々な環境のデータを利用できるようになります。
SQL は実行エンジンが高度な最適化を行うため、シンプルな書き方で複雑な計算を行うことができます。一方で、簡単に使えすぎるあまりに SQLが意図しない挙動をしてもその原因を突き止められないということもよくあります。
そこで、このハンズオンでは SQL の背後にある重要な概念を解説することで、トラブルの解決力はもちろんのこと、応用まで通用する基礎力を身に付けます。
御自身のPC をお持ちください。Google Colab が動作すれば受講可能です。

HS09 機械学習予測モデル論⽂の報告ガイドライン:TRIPOD-AI

担 当
大邉 寛幸
所 属
東北大学病院高度救命救急センター
概 要
このハンズオンセミナーでは、機械学習予測モデル論文の報告における新たなガイドライン「TRIPOD+AI」について、実践的に学ぶことができます。TRIPOD(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis Or Diagnosis: 多変量予測モデルの透明性のある報告のためのガイドライン)は、予測モデルの開発や評価を行う医学研究において、報告の透明性と完全性を確保するために重要な基準を論文著者に提供しています。近年、機械学習を用いたAI 技術の発展により、AI(Artificial Intelligence) を用いた予測モデルを開発する研究が加速しており、それに伴いTRIPOD+AI としてガイドラインが2024 年4 月に更新されました。本セミナーでは、TRIPOD+AI の27 項目のチェックリストに基づく効果的な報告方法を実践的に学び、参加者が将来の機械学習予測モデルの論文執筆をする際に何を報告すべきなのかを理解することを目的とします。参照論文:TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ 2024;385:e078378 受講者に要求する知識レベル:誰でも受講可能です。当日用意すべきもの:ノートPCをお持ちください。

HS10 Pythonの実行環境とオブジェクト指向の真髄

担 当
辻 真吾
所 属
東京大学先端科学技術研究センター
概 要
プログラミングに入門する場合、実行環境の準備が最初の大きなハードルになります。すぐに使えるクラウドの手軽な環境から正統派のPython 実行環境まで、1人で実行環境を作れるようになることを目指します。また、近年のプログラミングはライブラリと呼ばれるプログラムの部品を使った書き方が一般的です。ライブラリを使いこなすにはオブジェクト指向に慣れる必要があります。実際のライブラリを使いながら、オブジェクト指向の仕組みを解説します。受講者に要求する知識レベルは基本的なPC操作ができることです。当日用意すべきものはノートPC(ハンズオンと講習のハイブリッドの予定なので、当日はPCが無くても参加可能です。)およびGoogleアカウント(Google Colab環境を使用します。)

HS11 医学研究論文の構造を理解し読み書くための技術

担 当
白石 淳
所 属
亀田総合病院 救命救急科/亀田総合研究所
概 要
医学研究論文の中核には問いと答えという構造が存在します。医学の探求や社会の要請から生まれる問いを定式化し、再現可能な方法論を用いて結果を導き、問いに答える。この問いと答えの構造は、様々な研究デザインに定型化され、ジャーナルが定めるスタイルに準拠しています。そこで、このハンズオンセミナーでは2つの目標を置きます。第一に医学研究論文の構造を知り、読むことと書くことの理解を深めることを目指します。第二にRStudioに実装されているQuartoの基礎を習得し、R からの出力をシームレスに論文の構造に反映させることを目指します。対象は全ての研究者です。受講者は各自のPC をお持ちください。スキルレベルはRStudio の基本操作ができること、および Markdown の基本的な書式を理解していることが望ましいですが、初⼼者の方でも大丈夫です。

HS12 医学研究における統計解析の基礎と応用:Rによるデータ解析

担 当
西田 一貴
所 属
名古屋大学 先端医療開発部 統計解析室
概 要
本セミナーでは、統計解析の基礎を学びます。まず、医学研究において統計解析がなぜ不可欠であるかを解説し、記述統計と統計的推測の違いを説明します。さらに、要約統計量の算出方法、データの可視化、仮説検定と推定、一般化線形モデル(GLM)など、基本的な統計手法を一通り学びます。
後半のハンズオンセッションでは、R を使って模擬データを解析し、生物統計家がどのように実際にデータを扱い、考えているかを体験します。R未経験の方でも安心してご参加いただける内容ですので、事前にR またはRStudio をインストールしたPC をご用意いただければ、実習もスムーズに進めることができます。統計解析をこれから学びたい方に最適なセミナーです。