TMDU-MIT-NUS-ANZICS-JSICM Critical Data Workshops and Datathon 2020

WORKSHOPS

WS01 Refresher course for statistics and epidemiology

生物統計、臨床疫学のRefresher Course
- Megu Baden, Jacob/Jeon Young Seok

This refresher course provides fundamental but important ideas of biostatistics and clinical epidemiology. We will begin by discussing some of the core concepts in statistics such as statistical distribution, statistical tests, p-value, and confidence interval. Next we will go through fundamental concepts of clinical epidemiology such as measures of association, biases, DAG (Directed acyclic graph) and effect modification. Then we will review linear regression models and logistic regression models with and without interaction terms. We will emphasize not only statistical evaluation of regression models but interpretation with epidemiology perspective. This course will utilize R software, so fundamental skills and knowledge of R is required. Of course, we’re happy to help if you are having trouble in the course.

このワークショップでは、生物統計、臨床疫学における基本的かつ重要な項目について再確認を行います。まず、確率分布や仮説検定、P値、信頼区間、関連指標、バイアス、有向非巡回グラフ(Directed acyclic graph,DAG)、効果修飾などについて確認します。その後、線形回帰モデルやロジスティック回帰モデルについて、交互作用項の有無も含めて復習します。結果を統計的観点だけでなく、疫学的な観点に基づいて解釈できるように進めていきたいと考えています。解析はRを用いて行うため、事前に基本的なRの操作方法について学んでいただくことをお勧めします。

WS02 Predictive Learning for Clinical Medicine

臨床ビッグデータの予測モデリング

- Patrick Kimes, Gloria Kwak

The past decade has seen substantial increases in computational scalability and the availability of clinical data. Powered by these advances, predictive models are increasingly being proposed for the diagnostic and prognostic evaluation of patients using data routinely collected during clinical care. In this workshop, we will first cover the process of formulating a clinical question as a prediction task that can be tackled using machine learning (ML). Participants will then work through the process of building and evaluating predictive models using popular ML algorithms. Using an example from the MIMIC-III database, the workshop will cover algorithms including penalized regression, tree-based methods, and boosting. Deep learning algorithms may also be covered briefly, depending on participant interest. Through this workshop, participants will learn how to define a clinical ML question, identify the necessary data, and build and evaluate predictive models. The workshop will be run primarily in R and participants

日々、臨床の中で様々な医療データが電子カルテやPACSに保存されています。これらの蓄積された臨床データや画像データから診断モデルや予後予測モデルを構築することが可能となっています。このワークショップでは、罰則付き回帰モデル(penalized regression)、決定木モデル(decision trees)、ブースティング(boosting)など、予測モデリングに使える機械学習(machine learning; ML)アルゴリズムを紹介し、予測モデリングに適する臨床疑問の特徴や必要なデータについても少しお話しします。深層学習(deep learning; DL)アルゴリズムに関しても簡単に紹介することも可能です。主にMIMIC-IIIデータベースとR言語を使用し、臨床データの予測モデルングとモデルの評価を具体的に行います。R言語を使ってデータの解析を行う為、多少のR経験が必要となります(参考:Workshop #03)。

WS03 Introduction to R and basic data wrangling methods

- Takahisa Ogawa, Masanobu Tsutsumi

R and R Studio: R was produced by statisticians to help us to conduct data analysis in an interactive environment. R is free software and open source. R runs on all major operating systems such as Windows, Mac Os, UNIX/Linux.
In this course, we will introduce the integrated development environment (IDE) R studio to analyze it easier with R.
TIDY DATA FRAMES: There are various types of data frames in the R world. We will mostly use a specific data format that is tidy and easy to handle. Tidyverse library is a specific bundle of R packages that are developed for working with tidy data.
VISUALIZATION: To show convincing results obtained by your research, visualization is a powerful tool to interact with a data-driven finding. We will use the ggplot2 library for the beautiful visualizations.
DATA WRANGLING: When using the tidyverse, various types of data have to be imported into R in a tidy way. The first step in the data analysis often requires complicated steps to transform the imported raw data into the tidy format. This process is called data wrangling and there are common steps such as tidying data, string processing, working with dates and times.

RとR Studio:Rは統計家達によってインターアクティブな環境でのデータアナリシスを助けるために生まれました。Rはフリーソフトで、オープンソースのソフトウェアです。ウィンドウズやMAC、UNIX/LinuxといったすべてのOSでRを実行することができます。このコースでは、Rをより簡単に操作するための 統合開発環境(IDE)であるR Studioを紹介します。
TIDYデータフレーム:Rの世界には様々な種類のデータフレームが存在します。私たちは、扱いやすいTidy Dataフレームを使用します。Tidyverseライブラリという、Tidy Dataを扱うために開発されたRパッケージ群を使用します。
ビジュアライゼーション:ビジュアライゼーションは、研究から得られた結果をより説得力のある形で表現するために、データから導かれた結果を扱う協力なツールになります。美しいビジュアライゼーションを行うためにgglot2を用います。
データラングリング:Tidyverseを使用する際に、様々なデータをTidyな形でRへ取り込む必要があります。この、データアナリシスの最初のステップは、生のデータを取り込む為に、しばしば複雑な作業を伴います。この課程をデータラングリングと呼び、データのTidy化、文字列の扱い、日付と時間の扱いなどの共通したステップがあります。

WS04 Natural language processing

- Dan Ebner, Marie Charpignon

Through this introductory workshop, you will use the Python NLTK package to learn text analysis techniques for the extraction and processing of information contained in health-related news articles and clinical notes. We will discuss how to further derive insights from these data. If time permits, we will demo how to scrape content from a webpage using BeautifulSoup. We will focus on a few case studies: how the media related the hepatitis A outbreaks in different US states, US news coverage of the novel coronavirus, and potentially bias identification in Electronic Health Records.

この入門ワークショップでは、Python NLTKパッケージを使用して健康関連のニュース記事や臨床ノートに含まれる情報を抽出および処理するためのテキスト分析技術を学習します。 これらのデータから洞察をさらに引き出す方法について説明します。 時間があれば、BeautifulSoupを使用してWebページからコンテンツをスクレイピングする方法もデモします。 ケーススタディ:メディアがどのように米国のさまざまな州でのA型肝炎のアウトブレイクに関連したか、米国の新しいコロナウイルスのニュース報道、電子医療記録における潜在的なバイアス識別などを紹介します。

WS05 Causal inference

因果推論
- Takahiro Kinoshita, Zhaoyuan Fan

Causal inference methods including propensity score matching, inverse probability weighting, and instrumental variable are the hottest topics in the health science field. In this workshop, we will provide an opportunity to conduct analyses to answer a causal question and discuss difference and similarity of the results. Our goal is to uncover the assumptions underlying the analyses, which are often neither explicitly stated nor verifiable in clinical studies. (note: Although Stata and R are supported in the workshop, participants can use any statistical software.)

傾向スコアマッチングや逆数重みづけ法、操作変数法といった因果推論の手法は、健康科学の領域で最も注目されているトピックスといえるでしょう。このワークショップでは、参加者のみなさまに実際に因果推論の解析を行っていただき、結果の違いについて議論していただきます。臨床研究の論文では明示されることの少ない、個々の解析の裏側にある仮定を明らかにすることが目標です。(コースディレクターはStataおよびRを用いますが、お好きなソフトウェアを使用していただいて構いません。)

WS06 Computer vision

コンピュータビジョン
- Keiko Kunitoki, Mornin Feng

Artificial intelligence (AI) and Machine Learning (ML) are the buzzwords for all things relating to technology these days. In particular, healthcare is seen as an area in which AI and ML may be gainfully deployed to improve medical care, especially with big data, exponential computing power and a burgeoning demand on healthcare systems due to aging populations. Our workshop will share the fundamentals on how deep neural networks can be applied to medical image analysis, and I will also share the lessons learned via one of my lab's projects focusing on mammograms. This is course is designed for anyone who is interested to learn more Deep Learning with little ML and AI background. No programming skills are required. Only a pen and paper will be required. (For AI and ML experts, this course will be too introductory for you.)

人工知能(AI)と機械学習(ML)は最近、あらゆる技術に関して“バスワード”として取りざたされています。 とりわけヘルスケア領域において、特にビッグデータや、桁違いの計算能力、高齢化によるヘルスケアシステムへの需要の急増などを背景に、AIとMLの活用による医療の進展が期待されています。 このワークショップでは、ディープニューラルネットワークを医療画像分析に適用する方法の基礎を紹介し、マンモグラムに焦点を当てたラボのプロジェクトの実例もお伝えします。MLとAIの背景知識がほとんどなく、ディープラーニングをさらに学習したい方向けで、プログラミングのスキルは必要ありません。 ペンと紙をお持ちください。(入門コースになりますのでAIとMLの専門家の方には物足りないかもしれません。)

WS07 Data visualization

データの視覚化
- Christina Scaduto, Siqi Liu

“Big data” “Data Driven” are some of the hottest buzz words across all industries, and healthcare is no exception. But how do you translate data into meaningful information? How do you translate this information to actionable insights and develop strategies to improve healthcare programs? In order for policymakers and decision makers to make evidence based decisions, data must be presented intuitively that optimizes interpretability. This hands on workshop will introduce best practices and techniques of data visualization to support stakeholders identify gaps and opportunities, and to tell a “story” conveyed by the data.

「ビッグデータ」、「データドリブン」はいまやあらゆる業界で耳にする言葉であり、ヘルスケア業界も例外ではありません。しかし、どのようにデータを意味のある情報に変換しますか?そして、その情報をヘルスケア事業を改善するための戦略にどのように変換しますか?政策立案者や意思決定者が情報に基づいた判断ができるよう、データはより解釈しやすいように直感的に提示される必要があります。この実践的なワークショップは、データ可視化 (ビジュアリゼーション) の好事例や技術を紹介し、データが伝えようとする「ストーリー」を関係者が理解できるようサポートします。

WS08 Introduction to Colab/Jupyter/Github

Colab/Jupyter/Github入門

- Euma Ishii, Jacob/Jeon Young Seok

Through this introductory workshop, participants will learn about 1) The fundamental functions of data science in healthcare 2) Programming environments (Colab and Jupyter) that are useful for data analysis and 3) collaboration & replication of work through Github. Participants will also have hands-on tutorials to test out the above platforms using a demo MIMIC-III dataset.
本ワークショップより、参加者は1)医療におけるデータサイエンスの基本、2)データ分析に役立つプログラミング環境(Colab及びJupyter)、3)Githubを介した作業のコラボレーションと複製について学びます。 また、MIMIC-IIIデータのDemoセットを用いたチュートリアルより、上記のプラットフォームを活用し、医療データの解析を実践します。