基礎プロジェクト

講義概要

テーマ:Webとビッグデータ解析

モバイル端末やCMSの普及に伴い,Web上の情報量は爆発的に増加しました。IoTの本格的な進展もあり,世界中のありとあらゆる情報がWebを通じてやりとりされる時代に突入しています。このように,Webが世界の縮図としての役割を果たしつつある中で,Webの動向を知ることは,社会・世界を知ることと同義になりつつあり,大量の情報の中から知見や価値を生み出す技術に対するニーズが高まっています。本講義では,インターネット上に溢れるデータから「世界を知る力」にフォーカスし,Webマイニングとビッグデータ解析の基礎を学びます。

担当講師

松尾 豊
中山 浩太郎
中島 愛
岩澤 有祐

講義の準備

  • 本ページはPSI「基礎プロジェクト」に関する重要な情報のページです。各自必ずブックマークしておき、受講中はいつでも確認できるようにしておいてください。
  • Webブラウザ(Google Chromeを推奨)が利用できるノートPCを持参してください。
  • 週に数時間以上,宿題として最終プロジェクトに取り取り組む時間を確保してください。
  • iLect利用のためにGithubのアカウントを取得し、下記のフォームから申請をしてください。

講義スケジュール

※スケージュールは未確定のものです。

 

Chap. 日付 曜日 タイトル 詳細
1 2018/5/10 ガイダンス:Web基礎 Webサイト構築演 (HTML/CSS)
Python基礎演習
Webスクレーピング基礎
2 2018/5/14 WebサーバとWebアプリ開発 Networkとサーバ構築演習
(ターミナル基礎)Gitとチーム開発Webアプリ構築演習(Flask)
3 2018/5/17 Webとビッグデータ解析 WebクローリングとWebスクレーピング
Web API
データベース演習(MySQL)
自然言語処理基礎
4 2018/5/21 機械学習基礎 Numpy
Panda
Scikit-learn
5 2018/5/24 チーム開発(チーム作業日)
6 2018/5/28 最終発表会
7 2018/5/30 予備日

講義レポート

グループワーク最終課題

Group タイトル 詳細
A 進学先(大学院の専攻・研究室)のレコメンドシステム 興味に合った研究室を探す作業を効率化したいという思いから,研究室レコメンドサービスを開発した. 各研究室の紹介文を形態素解析してキーワードとなる名詞とその出現回数を抽出し,ユーザーが入力した興味のある分野とその類義語(Wordnetを利用)の出現回数が多い研究室から最大3件レコメンドする.UIにもこだわった. 概念辞書の出来に依存した類似度の計算手法や,興味以外の判断基準(研究テーマ決定の自由度など)を無視している点に改善の余地があり,Word2Vecを利用した類似度の計算や,AHPの利用などが改善案として考えられる.
B 記事の閲覧履歴に基づく書籍のレコメンドシステム
C 無料漫画情報のスクレイピングシステム ウェブ上に散在している無料漫画情報をまとめる。サイト間の表示形式の違いを吸収し、統一的なサービスとする。 機能:ジャンル検索(少年・青年・少女・女性)、タイトル検索、レコメンド
D レシピレコメンドシステム 日常で食材を使い切ることは難しい。 保有している食材のみでどのような料理を作ることができるか、あるいはどのような食材を買い足せば料理を作ることができるか、 これらを瞬時に判断するには慣れが必要であり、ウェブ上でレシピを調べるには時間と手間がかかる。 以上の理由が自炊のハードルとなっている。 撮影した食材をアップロードすることで適切なレシピを表示するアプリケーションがあればより手軽に自炊することができるであろう。 また、近年スマート冷蔵庫という、庫内環境をより適切に調節する商品がある。 冷蔵庫にカメラを設置することで、リアルタイムに庫内の食材状況を把握することができれば、 買い物中にアプリから買い足す必要がある食材を調べることができる。
 E グルメ情報のマイニングシステム  食べログ、ぐるなび、ホットペッパーグルメのウェブサイトから、店舗情報(本郷周辺)をスクレイピングしてくる。その情報をデータベース化し、検索の入力を受けて3つの情報をまとめて提示する。
+ 2018

講義の準備

  • 本ページはPSI「基礎プロジェクト」に関する重要な情報のページです。各自必ずブックマークしておき、受講中はいつでも確認できるようにしておいてください。
  • Webブラウザ(Google Chromeを推奨)が利用できるノートPCを持参してください。
  • 週に数時間以上,宿題として最終プロジェクトに取り取り組む時間を確保してください。
  • iLect利用のためにGithubのアカウントを取得し、下記のフォームから申請をしてください。

講義スケジュール

※スケージュールは未確定のものです。

 

Chap. 日付 曜日 タイトル 詳細
1 2018/5/10 ガイダンス:Web基礎 Webサイト構築演 (HTML/CSS)
Python基礎演習
Webスクレーピング基礎
2 2018/5/14 WebサーバとWebアプリ開発 Networkとサーバ構築演習
(ターミナル基礎)Gitとチーム開発Webアプリ構築演習(Flask)
3 2018/5/17 Webとビッグデータ解析 WebクローリングとWebスクレーピング
Web API
データベース演習(MySQL)
自然言語処理基礎
4 2018/5/21 機械学習基礎 Numpy
Panda
Scikit-learn
5 2018/5/24 チーム開発(チーム作業日)
6 2018/5/28 最終発表会
7 2018/5/30 予備日

講義レポート

+ 2017

グループワーク最終課題

Group タイトル 詳細
A 進学先(大学院の専攻・研究室)のレコメンドシステム 興味に合った研究室を探す作業を効率化したいという思いから,研究室レコメンドサービスを開発した. 各研究室の紹介文を形態素解析してキーワードとなる名詞とその出現回数を抽出し,ユーザーが入力した興味のある分野とその類義語(Wordnetを利用)の出現回数が多い研究室から最大3件レコメンドする.UIにもこだわった. 概念辞書の出来に依存した類似度の計算手法や,興味以外の判断基準(研究テーマ決定の自由度など)を無視している点に改善の余地があり,Word2Vecを利用した類似度の計算や,AHPの利用などが改善案として考えられる.
B 記事の閲覧履歴に基づく書籍のレコメンドシステム
C 無料漫画情報のスクレイピングシステム ウェブ上に散在している無料漫画情報をまとめる。サイト間の表示形式の違いを吸収し、統一的なサービスとする。 機能:ジャンル検索(少年・青年・少女・女性)、タイトル検索、レコメンド
D レシピレコメンドシステム 日常で食材を使い切ることは難しい。 保有している食材のみでどのような料理を作ることができるか、あるいはどのような食材を買い足せば料理を作ることができるか、 これらを瞬時に判断するには慣れが必要であり、ウェブ上でレシピを調べるには時間と手間がかかる。 以上の理由が自炊のハードルとなっている。 撮影した食材をアップロードすることで適切なレシピを表示するアプリケーションがあればより手軽に自炊することができるであろう。 また、近年スマート冷蔵庫という、庫内環境をより適切に調節する商品がある。 冷蔵庫にカメラを設置することで、リアルタイムに庫内の食材状況を把握することができれば、 買い物中にアプリから買い足す必要がある食材を調べることができる。
 E グルメ情報のマイニングシステム  食べログ、ぐるなび、ホットペッパーグルメのウェブサイトから、店舗情報(本郷周辺)をスクレイピングしてくる。その情報をデータベース化し、検索の入力を受けて3つの情報をまとめて提示する。