「夏のICML連続読み会」開催のお知らせ

Sorry, this entry is only available in Japanese. For the sake of viewer convenience, the content is shown below in the alternative language. You may click the link to switch the active language. ■ イベント概要 松尾研の研究員が週次で実施しているDeepLearning論文輪読会の特別編として、「夏のICML連続読み会」を下記日程でゲスト参加型にて開催いたします。 各回のテーマにあわせ、松尾研の各研究ユニットのメンバーが登壇します。 ゲスト発表枠も用意しておりますので、聴講だけでなく、登壇者としてのご参加も歓迎です。 (登壇していただける方でオフラインにてご参加される方には、交通費を支給いたします)   なお読み会後は懇親会の開催も予定しております。 松尾研の研究テーマや取り組み、研究環境等を知っていただける機会になればと思っておりますので、ぜひお気軽にご参加ください。   ▼詳細情報・参加申込みは下記Compassページより 第1回 8/1(木) 12:00〜13:30 テーマ | 大規模言語モデル https://connpass.com/event/325775/ 第2回 8/8(木) 12:00〜13:30 テーマ | 世界モデル https://connpass.com/event/326021/ 第3回 8/22(木) 12:00〜13:30 テーマ | Brain…

Our paper has been accepted for COLM 2024.

■書誌情報 Jiaxian Guo*, Bo Yang*, Paul Yoo, Bill Yuchen Lin, Yusuke Iwasawa, Yutaka Matsuo. “Suspicion Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4”. 2024 First Conference on Language Modeling (COLM 2024) ■概要 Unlike perfect information games, where all elements are known to every player, imperfect information games emulate the real-world complexities of…

当研究室の論文がACL 2024に採録されました。

■書誌情報 Andrew Gambardella, Yusuke Iwasawa, Yutaka Matsuo. “Language Models Do Hard Arithmetic Tasks Easily and Hardly Do Easy Arithmetic Tasks”. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2024. ■概要 The ability (and inability) of large language models (LLMs) to perform arithmetic tasks has been the subject…

Our paper has been accepted for ICML 2024.

■書誌情報 Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer. “A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts”. International Conference on Machine Learning (ICML 2024) ■概要 Current Large Language Models (LLMs) are not only limited to some maximum context length, but also are not able to robustly consume long inputs. To…

Our paper was accepted for NAACL 2024.

■書誌情報 Takeshi Kojima, Itsuki Okimura, Yusuke Iwasawa, Hitomi Yanaka, Yutaka Matsuo. “On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons”. 2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2024) ■概要 Current decoder-based pre-trained language models (PLMs) successfully demonstrate multilingual capabilities, but it is…

NEDOの採択を受け、公開型での500億パラメータサイズの大規模言語モデル開発を開始します。

東京大学松尾・岩澤研究室

日本全体の開発レベル向上を志し、

公開型での500億パラメータサイズの大規模言語モデル開発を開始

―NEDO「ポスト5G情報通信システム基盤強化研究開発事業」事業(注1)採択事業者に決定

 

 

東京大学大学院工学系研究科技術経営戦略学専攻 松尾・岩澤研究室(以下「松尾研」)は、この度経済産業省及び国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が開始する、国内の生成AIの開発力を強化するためのプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において、基盤モデル開発に必要な計算資源の提供支援を受け、500億パラメータサイズの公開型基盤モデル開発に取り組むことをお知らせします。

本取り組みにあたっては、開発された大規模言語モデル(以下「LLM」)の公開のみならず、開発過程の公開、そしてこれらの成果を社会全体で共有することを通じ、日本全体のLLM開発の技術レベル向上と社会実装の加速を目指します。

 

発表の詳細

 本活動では、2023年8月に公開した100億パラメータサイズのLLM「Weblab-10B」の開発経験をベースに、東京大学松尾研究室が提供する大規模言語モデル講座(2023年8月開催、2000名以上が受講)の修了生及び一般公募によって集まった有志の開発者(⺠間企業・研究者・学⽣で構成)が、最新の研究成果や技術的な知見を取り入れ、開発を進めます。

 一般的にLLMの最適なモデル構造やハイパーパラメータは十分に分かっていないため、第1フェーズにおいては8チームに分かれて複数の研究テーマを設定し探索を行い、知見を共有しながら試行錯誤することで、実用的かつ効率的な手法を採用します。その後第2フェーズでは、最優秀に選ばれた1チームが500億パラメータサイズのLLM開発に取り組むことを予定しています。なお、本活動は、基盤モデルの開発評価の過程でWeights & Biases社のプラットフォームを活用した開発を進めていきます。

 松尾研では本活動に参加を希望される有志の開発者を募集しております。募集要項は下記ページをご確認ください。

 https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

 本活動を通じて開発されたモデル・ソースコード・開発過程・ノウハウは、2024年4月以降、松尾研のホームページ等を通じ広く公開してまいります。これらの透明性の高いアプローチを通じ、社会全体の技術リテラシーの向上と産業界やアカデミアにおける応用を促進して参ります。

 

注釈

(注1)国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」事業。経済産業省が主導する基盤モデルの開発に必要な計算資源に関する支援や関係者間の連携を促す「GENIAC」プロジェクトの一環として採択事業者に一定の計算資源に関わる助成を行うもの。

GENIACの詳細はこちら:
https://www.meti.go.jp/press/2023/02/20240202003/20240202003.html
https://weblab.t.u-tokyo.ac.jp/geniac_llm

 

本件に関する問合せ先

東京大学 大学院工学系研究科 松尾・岩澤研究室
E-mail:pr@weblab.t.u-tokyo.ac.jp

当研究室の論文がICRA2024に3件採録されました。

■書籍情報 Mimo Shirasaka, Tatsuya Matsushima, Soshi Tsunashima, Yuya Ikeda, Aoi Horo, So Ikoma, Chikaha Tsuji, Hikaru Wada, Tsunekazu Omija, Dai Komukai, Yutaka Matsuo Yusuke Iwasawa. “Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery”. International Conference on Robotics and Automation(ICRA2024) ■概要 A general-purpose service robot (GPSR), which can execute diverse tasks…

当研究室の論文がICLR 2024に2件採録されました。

■書誌情報 Izzeddin Gur*, Hiroki Furuta*, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust. (*Equal Contribution) “A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis”. International Conference on Learning Representations (ICLR 2024, Oral) ■概要 Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the…

Our paper was accepted for 電子情報通信学会和文論文誌D

◼︎書誌情報
冨山翔司, 鈴木雅大, 落合桂一, 松尾豊: 文書生成タスクに対する強化学習応用における文書生成器のサンプルに非依存な報酬関数学習フレームワークの提案
◼︎概要
文書生成タスクにおいて,強化学習は有効な手法であると知られている.過去の研究で提案された手法はいずれも,報酬関数の人手による設計の難しさからデータによる学習を試み,その際に文書生成器のサンプルを用いていた.本論文では,報酬関数の学習に文書生成器のサンプルを用いることで引き起こされる,学習時に生成器の学習の進捗を定量的に可視化できないという課題に対し,報酬関数の学習に文書生成器のサンプルを一切用いないGenerator-independent Reward Learningというフレームワークを提案する.本フレームワークに則った手法では,文書生成器の学習を定量的に可視化でき,かつ,代表的な文書生成タスクに対する強化学習応用手法に対して,性能面でも上回ることを確認した.

Our paper was accepted for ICASSP 2024.

◼︎Bibliographic information Xin Zhang*, Jiaxian Guo*, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa. “PASTE AND HARMONIZE VIA DENOISING: SUBJECT-DRIVEN IMAGE EDITING WITH FROZEN PRE-TRAINED DIFFUSION MODEL”. ICASSP 2024 ◼︎Overview Text-to-image generative models have attracted rising attention for flexible image editing via user-specified descriptions. However, text descriptions alone are not enough to elaborate the details of subjects,…