業種別の学習ロードマップ
ROADMAP
このページでは、人工知能や深層学習を学んだことのない方を対象に、
それらを学ぶためのロードマップを紹介しています。
本ロードマップでは達成目標として、
「研究者」「データサイエンティスト」「エンジニア」「ビジネス」の
4つの職業ごとに4つのレベルを設けています。
AIに関する研究を行い、コンスタントに国内・国際学会へ論文を出す。
様々な分野の問題をデータサイエンスで解決する。人工知能以外の特定の分野でデータサイエンスを活用する研究者も含まれる。
基本的には企業に所属し、AI技術を活用したプロダクト開発や受託案件を推進する。
基本的には企業に所属し、AI技術を活用したビジネスやプロダクトの機会を発見・提案する。
書籍や動画等に加えてレベルに応じた松尾・岩澤研究室主催の講座を紹介しています。講座一覧につきましてはこちらをご覧ください。講義は基本的に年1回開講であり、受講対象者に制限がある場合がございますので,通年いつでも誰でも受講可能というわけではございません。予めご了承ください。
また、松尾・岩澤研究室主催の講座を修了された方は、インターンへの応募も可能です。講座を受講して知識を身につけるだけでなく、実務経験を積む機会を得たいにもおすすめです。
レベル0の方は、
まずは以下で基礎を身につけましょう!
研究者・データサイエンティスト・エンジニア
数学の勉強(学習想定時間:30時間)
機械学習や深層学習の理解に必要な「線形代数」「微分積分」「統計学」などについて最低限の内容を学びます。基本的には、それぞれの単元に関する教科書や参考書で勉強すれば良いですが、以下のような人工知能や機械学習に特化した数学の本で勉強するといいでしょう。
・人工知能プログラミングのための数学がわかる本
中学数学の復習から始まり、機械学習に関連したプログラミングに必要な数学を、初歩から体系的に学び、機械学習の定式化まで行います。
数学に自信がない方はこちらの本から始めると理解しやすいでしょう。
・最短コースでわかる ディープラーニングの数学
高校1年生レベルから深層学習に必要な最小限の数学についての説明に加えて、実際に機械学習、深層学習を学んだ数式を用いて解説しています。
上記のどちらかの書籍で基礎的な数学的知識を学び終えた後に、さらなる知識や機械学習・深層学習とのつながりを理解したい場合は、以下の書籍がおすすめです。
・機械学習のための数学
機械学習の数学的な理論についてより深く理解したい場合は、こちらの書籍を次に読むと良いでしょう。より高度な数学的知識に加え、この後学ぶ機械学習についても知識を得ることができます。
・ディープラーニングがわかる数学入門
深層学習で実際にどのように数学が利用されているかを理解されたい場合におすすめです。
最初に数学の勉強をするのが大変だったり、なかなかモチベーションが続かない場合は、次のプログラミングと並行して進めるのが良いでしょう。以下のような、手を動かしながら学ぶ本がおすすめです。
・機械学習のエッセンス
機械学習のための数学の基本(ベクトル、線形代数、微積分)を始め、Pythonのプログラミング (NumPy、SciPy、Jupyter Notebook)や機械学習アルゴリズムの実装を含んでいます。
・プログラマのためのディープラーニングのしくみがわかる数学入門
数式をコーディングから学ぶ形式になっています。
・Pythonで動かして学ぶ!あたらしい数学の教科書―機械学習・深層学習に必要な基礎知識
コードを書きながら数学を学ぶような形式になっています。対象読者に文系・非エンジニアも含まれています。
動画
・3Blue1Brown
線形代数や微積分学といったAIの基礎となる分野の動画が、わかりやすく再生リスト化されています。また、有志によりこれを日本語に翻訳するチャンネルも存在します。
・予備校のノリで学ぶ「大学の数学・物理」
AIの基礎となる数学を含め、非常に幅広い内容がカバーされています。再生リストを追っても良いですが、上記書籍や後々論文を読むときに必要に応じて基礎を学びに来るのが良いでしょう。
基礎をしっかりやりたい場合は、大学の公開講義や学位プログラムに取り組むと良いでしょう。せっかく時間を取るので、ここでは修了証や学位の形となるものをご紹介します(ただし基本的に30時間以上かかります)。修了したらぜひCVなどに記載してアピールしましょう!
・MIT MicroMasters Program in Statistics and Data Science
MITの確率統計のオンライン学位プログラムです。コアとなる2つのコースと試験を修了することで機械学習の基礎を固めることができ、さらに2つのコースを修了するとMicroMastersの学位を取得することができます。
・edX
様々な大学のオンライン講義を一般向けに運営しているプラットフォームです。基本無料で学ぶことができますが、修了証の発行と講義内容への無期限のアクセスをするためには金額が発生します。上記のMITのプログラムも、edXのMicroMastersの一つとして運営されています。
プログラミングの勉強(学習想定時間:40時間)
機械学習・深層学習を実装するために、プログラミングを学びましょう。
本ロードマップでは、最もライブラリなどが充実しているPythonを言語として選びます。Pythonで機械学習・深層学習をする場合はNumPyやscikit-learn、PyTorchといったライブラリの使用が重要になりますが、それぞれに利用できるAPIは無数にあるため、実装を学びながら徐々に覚えていくことになります。
ここではその前段階として、Pythonの基礎を学びます。以下のような教材がおすすめです。
・Pythonプログラミング入門
東京大学 数理・情報教育研究センターが公開しているPythonを学ぶための教材です。全てを網羅する必要はありませんが、NumPyの使い方はしっかり身につけましょう。
上記の教材では押さえられていない、Pythonのさらに深い知識を学びたい方は以下の書籍がおすすめです。
・独習Python
Pythonの基礎的な構文からオブジェクト指向、一部標準ライブラリの利用方法まで網羅的にまとめられている本です。
・エキスパートPythonプログラミング 改訂4版
Pythonを用いたメタプログラミングや並列処理、モジュール化など高度な内容がまとめられている本です。Pythonを使うことに自信がつき、さらに新しいことをしたい方におすすめです。
Pythonプログラミングに入門する際は、環境構築が不要でブラウザから実行できるGoogle Colaboratoryの利用をおすすめします。類似の基本無料サービスとして、他にKaggle NotebooksやAmazon SageMaker Studio Labなどがあります。
Pythonのプログラミングのスキルチェックとして、paizaを利用すると良いでしょう。ここまでで学んだPythonの基本文法を利用して解くことができる問題がほとんどです。
Pythonの基礎を学んだら、NumPy や Pandas といったデータ分析ライブラリを使って、データの取り扱い方について学びましょう。以下の教材を使用するのがおすすめです。
・東京大学グローバル消費インテリジェンス寄附講座
データ分析の流れを手を動かしながら学ぶことができます。公開講座は学生ならば誰でも受講することができます。自習のための演習コンテンツも公開されています。
・東京大学のデータサイエンティスト育成講座
上記の講座の書籍版です。
本セクションの内容は機械学習・深層学習の実装を学びながら必要に応じて思い出しにくることもできるので、あまり気負わずに学習しましょう。
またコーディングをする際、LLMの力を借りることは問題ありません。VSCodeやCursorといった統合開発環境やGoogle ColabにはすでにLLMが組み込まれており、実装を見ながら助言や提案をさせることができます。コーディング初心者は、LLMの提案がなぜそのままでは動かないのか(または動くのか)を調べて理解し、できるだけ自分の知識とすることを心がけましょう。
機械学習・深層学習の勉強・実装(学習想定時間:70時間)
いよいよ機械学習や深層学習についての勉強に入っていきます。ここまでで前提知識は身についているはずなので、以下のような演習つきの講義を受講して理論とともに実装能力を上げていきましょう。
・Deep Learning基礎講座
松尾・岩澤研究室が2015年から開講している講義で、深層学習の基礎から最新トピックまで扱っています。各講義回でプログラミング演習があるので、手を動かしながら深層学習について学ぶことができます。学生ならば誰でも受講することができます。
・MIT Introduction to Deep Learning(英語のみ)
マサチューセッツ工科大(MIT)によって公開されている講義で、深層学習の基礎から自動運転・音声合成などの応用的な内容まで網羅的に学ぶことができます。こちらも講義ビデオとスライドの両方が公開されており、演習も用意されています。
・CS230 Deep Learning(英語のみ)
スタンフォード大学による講義です。シラバスから講義スライドを閲覧することができます。画像系の内容が中心になりますが、CS231 Deep Learning for Computer Visionもおすすめです。
・Neuromatch Academy: Deep Learning(英語のみ)
Neuromatch Academyによって毎年開催されている講義です。コンテンツがすべてJupyter Notebook上で完結していて説明動画も埋め込まれているので、Google Colab上で実装を進めながら学ぶことができます。
上記のような講義と合わせて、以下のような深層学習の定番本も活用するといいでしょう。
・ゼロから作るDeep Learning
本書では深層学習の基本的な構成要素のすべてをほぼNumPyのみを使って実装するため、それらがあらかじめ実装されてしまっている深層学習用ライブラリを利用し始める前に経験しておくと良い内容になっています。上記の講義の代わりに、本書で手を動かして学ぶのも良いでしょう。
「ゼロから作るDeep Learning」を読み終える頃には、深層学習の全体像と具体的な処理,数学的な表記について理解ができるでしょう。さらに理論的な理解を進めたい方には以下の書籍がおすすめです。
・深層学習(岡谷貴之著)
岡谷貴之先生による深層学習の定番本です。深層学習について基礎からしっかり学ぶことができます。改訂版では最近の話題を含み大幅にボリュームアップしています。
・深層学習(Ian Goodfellow著)
Ian Goodfellow先生やYoshua Bengio先生らによる深層学習についての名著です。ボリュームがあり最初に学ぶ本としては難しいかもしれませんが、複数の本や講義で深層学習を勉強した後に読むと、様々な発見があるはずです。
また、実際に開発や研究で利用されているライブラリによる実装について学びたい場合は、以下の書籍が役に立つでしょう。
・詳解ディープラーニング
深層学習について数学の基礎から、CNN、RNN、Transformerの実装が扱われています。TensorFlowやKeras、PyTorchを利用した実装例があり、ライブラリを用いた実装方法の理解に役立ちます。
・PyTorchではじめるAI開発
PyTorchを用いた画像処理タスクの実装を主に扱っています。利用可能な事前学習モデルを用いた実装が含まれています。
・Python機械学習プログラミング [PyTorch & scikit-learn編]
機械学習ライブラリであるscikit-learnをと、深層学習ライブラリのPyTorchを学ことができます。PyTorchを用いた実装ではCNN、RNN、Transformerにとどまらず、生成モデルのGANやグラフニューラルネットワーク、強化学習と網羅的にまとめられています。
データサイエンティスト・エンジニアを目指す方は、モチベーション維持のためにも、勉強だけでなく実際に手を動かして何か作ってみることもおすすめです。最低限基礎知識は必要となりますが、実装やレベル2で紹介する実践的な内容(コンペティション / アプリ開発)を進めるとともに、必要に応じてレベル1の内容を理解することも1つの手です。
ビジネス
AI・データ活用事例(学習想定時間:20時間)
レベル0でAIの技術的な基礎を学んだ上で、ビジネスにおいてどのように活用されてきたかを知りましょう。
・AI・データ分析プロジェクトのすべて
ビジネスにおけるAI活用について全体像を把握することができます。まずはこの書籍を読んでAIプロジェクトの全体像を掴みましょう。
全体像の理解ができたら、経営的な観点からの理解や、AI活用の実例を知るために以下の書籍を参考にすると良いでしょう。
・東大生も学ぶ「AI経営」の教科書
東京大学 AI経営寄付講座の内容を学ぶことができます。
・世界のトップ企業 50 は AI をどのように活用しているか?
世界のトップ企業のAIの活用法を簡潔にまとまっています
データの集計・可視化(学習想定時間:10時間)
エクセルや様々なBIツールが存在しますが、AI領域ではPythonの使用をお勧めします。Pythonは初学者でも読み書きしやすいプログラミング言語で、利用できるライブラリが非常に豊富です。また、コンパイルの必要がないインタプリタ言語であることによって、Jupyter Notebookといったインタラクティブな実装(データの集計・可視化)が可能になっています。ここでは、データの可視化とPythonの初歩を同時に学べる教材を紹介します。
・指標・特徴量の設計から始めるデータ可視化学入門
データを理解するためにどのような変換や可視化が有用なのかを学べます。補遺にPython入門講座があります。
・松尾・岩澤研究室主催のAI経済講座
AIを活用したビジネスを扱う講座として、「AI Business Insights」や「AI起業サマープロジェクト」を開講しています。ビジネスへのAI導入や、そのためのプロセスを学びたい方はぜひご受講ください。「AI起業サマープロジェクト」は学生限定の講座です。予めご了承ください。
・松尾・岩澤研究室主催のアントレプレナーシップ講座
「ビジョナリー・スタートアップ 〜起業の理論と実践〜」は、起業・スタートアップに関心のある学生の方向けの講座です。この講義を通して起業のためのフレームワークや、経営者からの知見を得ることができます。こちらの講義は学生限定ですので、予めご了承ください。
研究者
研究リテラシー(学習想定時間:2時間)
論文を読む力や書く力は実際にそれを行うことで身についていきますが、それを含めた研究遂行に関わる様々な能力について把握する意味で、以下のような書籍に目を通しておくと良いでしょう。
・アカデミック・スキルズ(第3版) ――大学生のための知的技法入門
文理問わず大学生の学習の指南書として一般的に読まれている本です。大学生向けの書籍ですが、研究に必要な力・技法についてまとめられています。
研究者として1つの目的は、新しい発見をしたら論文を執筆し学会やジャーナルで発表することです。以下のwebページでは論文を書き方や、論文を書くための研究の進め方がまとめられています。
・INFORMATION – YUTAKA MATSUO
松尾教授による記事です。良い研究を行い、論文を書くために重要なことが簡潔にまとめられています。
・駒場アカデミック・ライティング・センター
こちらも文理問わず、レポートや論文を書くにあたり注意しなければならないことを伝えています。「ミニ講座シリーズ」を一度さらっておくと良いでしょう。
読むすべての論文を細部まで理解する必要はありませんが、要点を自分なりに書いてまとめておくことは重要です。読みきれなかった論文を関連度で紐づけたり、あとで探しやすくするために、ZoteroやPaperpileといった文献管理ソフトもぜひ活用しましょう。
再現実装(学習想定時間:40時間)
既存研究の論文や解説記事を読み、それを実装に落とす練習をしましょう。すでにやりたい研究がある場合は領域の代表的な論文や自身の研究のベースラインとしたい論文を選ぶと良いですが、SNSで話題のものや、Deep Learning MonitorやPapers with Codeで上位のものを選ぶのも良いでしょう。
最近の論文はソースコードもGitHubで公開している場合が多いので参考にして良いですが、可能ならばデータセット・モデル・訓練や可視化スクリプトなどすべて自分で一から実装してみましょう。論文に記載されたモデル評価指標の再現が取れたら、このセクションは完了です。その上で別のデータセットに適用してみたり、モデルに改変を行い性能向上させてみたりするのも良いでしょう。PyTorchを使用する場合は、多くの重要なモデルを実装に落としているlucidrainsのGitHubが読みやすく参考になります。
特定の領域に関する最新の内容を身につけたい場合は、松尾・岩澤研究室主催のDeep Learning応用講座から関心のある領域の講義を受講することをお勧めします。これにより、各分野の基礎から応用までを体系的に学び、研究の幅を広げることができます。また、受講生限定の講義資料や実装例を通じて、学んだ内容を実践に結びつけやすくなります。
松尾・岩澤研究室主催のDeep Learning応用講座
最後に、松尾・岩澤研究室主催のDeep Learning輪読会などに参加することをお勧めします。これは松尾・岩澤研究室主催の講義を受講した人ならば誰でも参加可能の輪読会で、最新の内容をキャッチアップすることができます。
データサイエンティスト
データサイエンス(学習想定時間:30時間)
レベル1では、基本的なデータの取り扱い方について学びました。本セクションでは、様々なデータセットやタスクを用いて、実際にデータ分析や機械学習の手法を試してみましょう。特に、Kaggleへの参加をおすすめします。
Kaggleは、世界中のデータサイエンティストやエンジニアが集まる、データ分析・機械学習の競技プラットフォームです。ここでは企業や研究者が提供するデータセットを用いて、参加者が様々な課題(コンペティション)に取り組みます。
初心者から上級者まで参加できるコンペティションが豊富に用意されており、ランキングやディスカッションを通じて他の参加者とスキルを競い合ったり、学び合ったりすることができます。Kaggleで実践的な経験を積むことは、データサイエンスのスキルを向上させる上で非常に効果的です。そのために、まずは以下の解説書などを参考にしてみましょう。
・実践Data Scienceシリーズ PythonではじめるKaggleスタートブック
データサイエンスの代表的なコンペティションであるKaggleの入門方法とともに、特徴量エンジニアリングなどをはじめとしたデータサイエンスに重要な事項をわかりやすい形でまとめています。
上記のKaggle解説書を参考に、本セクションのレベルの第一歩としてKaggleの入門用コンペティション「Titanic – Machine Learning from Disaster」に参加してみましょう。このコンペティションは、機械学習初心者向けに設計されており、乗客のデータを用いて「タイタニック号の生存者を予測する」というシンプルな課題を解くものです。KaggleのCodeタブを利用すれば、他の参加者のコード(特に高評価のコード)やその解説を読むことができ、効率的にデータの扱い方やモデル構築の方法を学べます。
「Titanic」のコンペティションを通じて基本的な操作に慣れたら、次はもう少し難易度の高いコンペティションに挑戦してみましょう。
Kaggleでより力をつけたい方には、Kaggleで有用なテクニックの紹介や、時際に開催されたコンペティションで深層学習を扱うことを題材とする、以下の書籍をコンペティション参加と並行して読み進めることで多岐にわたる知識・技術を得ることができるでしょう。
・Kaggleで勝つデータ分析の技術
特徴量エンジニアリングやモデル学習・評価のテクニックなど、Kaggleで上位入賞を目指すために必要な技術がまとめられています。主にテーブルデータを対象として扱っています。
・Kaggleに挑む深層学習プログラミングの極意
画像分類やテキスト分類における深層学習を用いられた手法を、実際に開催されたコンペティションをベースに説明されています。
・前処理大全[データ分析のためのSQL/R/Python実践テクニック]
テーブルデータに対して有効な前処理を包括的にまとめ、SQL/R/Pythonの3つの言語を利用して実装されています。Kaggleだけでなくデータ分析を行う実務にもつながる内容です。
松尾・岩澤研究室主催の機械学習 / データサイエンス講座
また、松尾・岩澤研究室で開講される「AIエンジニアリング実践 データサイエンス講座」や「金融市場取引と機械学習」を受講してみるのも良いでしょう。講義を修了された方には、インターンに参加する機会もございます。データサイエンスの実務を経験してみたい方は、ぜひ講義への参加とインターンへの応募をしてみましょう。
エンジニア
コンピュータサイエンス(学習想定時間:40時間)
研究者やデータサイエンティストと対比して、特にエンジニアはアプリケーションの作成など、効率的に動作するプログラムを書けることが重要な場面があります。そのために、アルゴリズムやデータ構造の基礎を理解しましょう。以下の教材がおすすめです。
・問題解決のための「アルゴリズム×数学」が基礎からしっかり身につく本
図が多く初歩的な内容から扱っているため、初学者におすすめの本です。アルゴリズムの基礎を身につけるために、まずはこの本から始めると良いでしょう。
上記の本で基礎的なアルゴリズムについて理解したら、以下の書籍でデータ構造やグラフ構造を用いた、より発展的な内容も身につけましょう。
・問題解決力を鍛える!アルゴリズムとデータ構造
初学者の場合インターネットで調べるなどしつつ読む場面が出てくるかと思われますが、より発展的な内容までわかりやすく解説されている本です。
・アルゴリズム実技検定 公式テキスト[エントリー~中級編]
競技プログラミングを運営するAtCoderが主催する、アルゴリズム実技検定(PAST)の公式テキストです。Pythonの基礎から解説しているので、前段階のプログラミングの勉強を同時にカバーすることもできます。検定の受験を視野に入れる方はこちらがお勧めです。
アルゴリズムの理解と実装に慣れてきたら、力試しとしてぜひ競技プログラミングにも参加し手を動かしてみましょう。本ロードマップのレベル2としては、AtCoderの場合はBeginner Contestの中盤〜終盤の問題を安定して解ければ十分だと思います。
アプリ開発(学習想定時間:20時間)
画像生成やLLM、物体検出など、アプリケーションのレベルにある深層学習技術やそのアプリケーション形態は様々あり、企業によっても独自のプロジェクトテンプレートなどをもって開発を行っていると思います。ここでは、個人で実際にアプリケーションを作って経験できる具体例をいくつか紹介します。あくまで例なので、ぜひご自分で作りたいものを見つけて作ってみてください。また、以下のような例については手順を追って解説しているYouTube動画やQiita記事があったりしますので、手の付け方がわからない方は活用してみてください。
・Ultralytics提供のモデルを用い、PCのwebカメラでリアルタイムに物体や顔を認識するアプリケーションを作成する。
Ultralyticsは、オープンソースで物体検出モデルYOLOなどを提供する企業です。GitHubページやdocsを見ることでモデルの利用方法がわかるので、OpenCVなどでPCのwebカメラから動画を取得し、リアルタイムで物体や顔を認識・表示するアプリケーションを作成してみましょう。
・Slack Bolt for PythonとOpenAI APIを用い、Slack上で動くチャットボットを作成する。
・Amazon Bedrockを用いた画像生成、チャットボットなどのWebアプリケーション作成サンプル [1 , 2]
BedrockはAWSからサーバーレスで様々なLLMや生成AIを利用できるAPIです。このチュートリアルでは、LangChainによるLLMの拡張や、webアプリケーションのフロントエンドとして手軽に使うことができるStreamlitなども追加で経験することができます。
アプリケーションを作成する際は、モデルのライセンスに注意しましょう。個人で利用する分には基本的に問題ありませんが、例えば上記のUltralyticsはAGPL-3.0ライセンスであり、商用利用する場合はアプリケーションのソースコードを公開し、それ自体もAGPLライセンスとする義務が生じます。ライセンスについては、利用を検討しているモデルのGitHubのLicenseタブを注意深く読むか、Open Source Initiativeなどを参照してください。
Amazon Bedrockを用いた生成AIアプリの開発には、こちらの書籍も参考になると思われます。
・Amazon Bedrock 生成AIアプリ開発入門
ビジネス
問題設定(学習想定時間:20時間)
機械学習・深層学習をビジネスに活用するには、問題設定をどうするかが重要になります。以下の書籍では適切な問題設定の方法とともに、データ活用のための手順を学ことができます。
・データで話す組織
2章(現状把握とデジタル化)や4章(AI・データサイエンスの応用)を中心に読めば、業務におけるデータ活用の流れや問題設定について把握できます。
また、以下の書籍では機械学習をビジネスで活用する際のフレームワークの一例の紹介と、実際の活用方法について説明されています。機械学習をビジネス活用する際の実践的な流れを知りたい場合は参考にすると良いでしょう。
・施策デザインのための機械学習入門
機械学習が実環境で効力を発揮するための正しい問題設定の仕方や、データ取得のバイアスを考慮することなどに焦点を当てて解説しています。対象読者は機械学習エンジニア・データサイエンティストですが、重要な部分をピックアップして読むと良いでしょう。
モデルの利用(学習想定時間:20時間)
機械学習・深層学習のビジネス面を考える上で一からモデルの実装をできる必要はありませんが、問題設定がなされた上で利用すべきモデルを適切に判断できることは重要です。また、場合によっては多少の実装をもって自身で仮説検証できると良いでしょう。検討しているモデル・手法が課題を実際に解決できそうなものかどうか、手元で動かして確かめられるようになりましょう。
・Hugging Face tutorials
Hugging Faceにある学習済みモデルとデータセットをロードして利用するコーディングを学びます。Colab Notebookが用意されているので、環境構築をすることなく動作させることができます。一方で、レベル0でも紹介したHugging Face Spacesを利用すれば、数サンプル程度でモデルを動かして性能を定性的に確かめることができるでしょう。時間がない方はそちらをチェックしてみてください。
・Scikit-learn algorithm cheat sheet
Scikit-learnはPythonでベーシックな機械学習を行う場合に使うこととなるライブラリの一つです。このチートシートでは、データサンプル数や目的によって利用すべき手法をガイドしています。各手法はその解説やAPIのページに繋がっており、実際に利用しやすくなっています。
より深く理論と実装を理解しレベルアップしたい方は、データサイエンティストのレベル2の参照を推奨します。
研究者
論文を読むことに慣れ、再現実装をいくつか経験したころには、サーベイをしながら新たな研究のアイディアを練ることもできるでしょう。ベースラインとしたい論文の著者実装や自身による再現実装などを元に初期的な検証を行ったあとは、目標とする学会を定めましょう。はじめは国内のものをおすすめします(参考)。学会にはそれぞれサブミットするための論文テンプレート(スタイルファイル)が存在するので、それを学会webページなどからダウンロードして執筆を開始します(論文執筆ツールとしては、Overleafが最も一般的に使われています)。
研究内容に十分な自信がない場合でも、現状の研究内容を論文としてまとめることを意識しましょう。これを続けることで、質の高い論文を書けるようになります。次のステップとして、国際会議を目指しましょう(参考)。
データサイエンティスト
レベル2までの勉強を済ませるころには、興味のある問題やデータに取り組むためにはどう調査したら良いのか、どういった組織にコンタクトを取れば良いのかなど、ある程度わかると思います。その意味でも、レベル2までで最も養っておきたい能力は情報収集力と言えるでしょう。例えば、興味のある情報をよく発信しているアカウントをSNSでフォローしたり、そういったブログを見つけておきましょう。
データサイエンティストのエンジニアやAI研究者との違いを挙げるとすれば、扱うデータのドメイン知識を持っていることだと言えます。生体信号や金融など、固有のドメイン知識が有効となるデータは様々あります。適切なドメイン知識を持っていることで、必ずしも最新の深層モデルを利用する必要がないことがわかったり、そのデータに有効な特徴量やモデルのアーキテクチャ・ハイパーパラメータなどを推測したりできます。初めての分野のデータを扱うのであれば、webで断片的な知識を得るよりは、その分野の書籍に一度目を通しておくことを意識しましょう。
エンジニア
エンジニアは多くの場合、他のエンジニアと共同して開発を行います。そのため、コード管理システムGitを理解しておくことが他の職業と比較して重要になります。また、他エンジニア(や自分)がコードを読みやすくするためのtyping、docstringやformatting、さらに想定通りにコードが動くことを確認するためのテスト、自作コードのパッケージ化など、必要となってくる細かな知識が多くあります。一方で、そういった知識セットは個人で勉強している分には気にする必要性がなかったり、企業ごとに異なっていたりします。そのため、自分の技術力にまだ自信がなくても、積極的にインターンシップやジョブにアプライしていきましょう。またその際に、レベル2で作ったアプリをGitHub上で公開しておくことが助けになるかもしれません。
ビジネス
ビジネスで人工知能や深層学習を活用していくには、自分が考えているビジネスの業務フローを明確にして、そのフローの中のどこに人工知能や深層学習を活用することで、誰にどんなメリットがあるのかを考えることが重要になります。また、技術がどんどん進展していくことで、いままでは人工知能や深層学習を活用することができなかった内容でも、ある時から活用できるようになることもあります。そのため、最新のAI技術について把握するための情報収集が重要になります。興味のある情報をよく発信しているアカウントをSNSでフォローしたり、クラウド事業者(GoogleやAmazon、Microsoftなど)のAI活用事例を紹介しているセミナー、情報処理学会や人工知能学会などの国内学会主催のセミナーやウェビナー(参考1, 2, 3)などで情報収集し、自分のビジネスに応用できるところを考えるのもよいでしょう。
最後に、特にベンチャー企業において他社との契約の中でデータを扱う場合が多いでしょう。協業も考慮した法律的なデータの扱い方について、経済産業省発表のガイドラインに目を通すことをおすすめします。
松尾・岩澤研究室主催のアントレプレナーシップ講座
起業に関心がある方向けの講座として「ティープテック 起業家への招待」、「ディープテック 起業実践演習」を開講しています。これらの講座では講義のみならず、フィールドワーク・発表を含む実践的な講義となっています。これらの講義は学生限定ですので、予めご了承ください。