大森 匡(教授) 研究課題説明 (2016年5月記載+2024年4月追記)

Introduction of Prof. Tadashi OHMORI and his studies,
UEC-IS Data Engineering Laboratory (2016.May+2024.April)

このページでは電気通信大学大学院/情報システム学研究科・情報システム基 盤学専攻における大森担当の研究課題を説明します.(当研究科は大学改組で募集を 2016.3.で終了し,2016以後は我々データベース講座メンバは,大学院 情報理工学研究科・I専攻コンピュータサイエンスコースに所属). a new English version is: researchmap

2023年度から,研究内容・成果一覧など最新の情報は,大学の方針に従い,科学技術研究振興機構が管理するresearchmapシステムに掲載しています.研究の経歴や成果が簡潔にまとまっているので,時間のない人はresearchmapの記載をご覧ください.

-- 2024年度の研究室公開向けコメント(2024.4.1.)-----

大森の研究は,「データベース研究」(Database Researches, DB研究)と呼ばれる領域です.要するにデータベースシステムやトランザクション処理システムなどのデータの記憶・処理・利用などを支える基幹ソフトウェアに始まり,今なら今風の巨大データ応用を支えるデータエンジン技術,例えば検索エンジン系やデータクラウド系までのデータベース的な仕掛けや理論を扱う領域です.

現在のデータベース研究は,様々な実世界の新データ利用のために劇的に変化しており,古典的な関係データベースシステムとは見た目が違いますが,データベースシステムという点では中心になる技術は活きています.新しいデータに応じた利用能力を考えて,それにあわせてどう要素技術- indexing, 問い合わせ処理の能力, 並行処理や一貫性,巨大データ処理系,などを進化させるか,が,研究として面白いところです.
今年の大学公開(5月~)でもデータ処理基盤やデータ利用の研究紹介をやります(西10号館5F).

以下は2016年までの大学院情報システム学研究科のときの研究紹介として書いたものです.当時の大学院は学部なしで全員修士から入る組織でしたので,自分自身の研究や学生指導のやり方を,広く学外からの大学院受験希望者向けに分かりやすく言おうという姿勢があります.この考え方は今でも変わっていません.学生指導するときの研究テーマや方針も,受験希望者向けに分類してわかりやすく書かれているので,研究内容を知りたいという方はぜひご覧ください.

-----

データ工学という研究領域の紹介

現実世界のサイバー化が進むにつれて,新しく多様なデータが大量に生成 されています.これら大量データを有用な情報として扱うためには,新しい情 報抽出や検索・利用能力を提供するシステムソフトウェアやそれを支えるデータベース処理アルゴリズム,システム制御技術,が必要です.この分野は長年,「データ工学(data engineering/database research)」」と呼ばれるコンピュータ科学の領域で研 究されてきました.

大森は,このデータ工学の分野において,大量データから有用な情報を表 すデータ集合を生成・変換する効率的な技法や演算系,システム原理,の 研究をしています. 例えば:

  • 新しい多様な大量データを使った新しい情報問い合わせ・情報抽出能力の 創案と効率的な処理機構の実現,
  • 上記に必要なデータ演算体系の考案と効率的処理アルゴリズムの研究,
  • 新しいデータ処理基盤の研究,高機能化・巨大データ処理対応力,トランザクション処理など並行処理機構,
  • などが主要な課題.

    2010年以後,巨大データ処理基盤と高価値利用の研究は,検索エンジン,巨大データ共有システム, 新しいデータ応用と接続した巨大データ処理技術,など,ITの中心です.我々は,この要請に 対応したデータ処理基盤のアルゴリズムやソフトウェアの研究をしています. 詳細は,SIGMOD,VLDB, ICDE などの代表的国際会議や,DEIMという国内 会議での我々の最近の発表論文などをご覧ください.

    -------------------------------------------

    研究方針の概要 (IS教員紹介ページへjump.)

    目次
    研究課題の事例
    指導学生中心の例
    自分の研究
    最近の論文発表(2016年3月まで)
    我々データ工学研究グループ(新谷准教授,藤田准教授)の解説(旧データベース学講座)

    ------------------------------------------ TOPへ

     研究課題の事例 

    1. 学生指導研究について

    2013年度からは,巨大データ時代に応じた新しいアルゴリズムやシステム基盤 技術の研究課題に取り組み,データ工学分野で活動しています.現在 の研究内容の詳細は次を参照してください:
    2012以後の外部発表論文へ

    2016前後で言うと,大まかに分けて,巨大データから複雑な情報構造を計算するためのアルゴリズ ムと計算機構の問題,グラフデータで表された情報源の情報検索問題,空間デー タの情報抽出・検索機構の問題,制約つき情報源からのデータ収集アルゴリズ ムの設計,など.2023時点だと多様性・公平性を考慮したデータマイニング機構, 巨大データ集合上の類似結合演算による情報要約・利用,他,巨大データ処理系に必要なデータ一貫性の原理,など.

    追記: 「どんな学生が向いているか?」--- 最近は特に,「大量にデータ はあるがそれだけでは意味が分からない」,「大量データからどこまで情報と して取り出せるのか,効率や重要性」,などの限界をコンピュータ科学の立場 から考えて制御することが重要です.情報工学でもデータ工学のアルゴリズム・ 並列応用系の人や,数理系の意識が高いと,この分野は面白いでしょう.電気 電子物性系の学生も理論教育が厳しいためか,かなり活躍できます.

    主な研究成果は下記:

    新しいデータ空間の演算機構の研究成果の欄へ
    位置情報データ,ストリームデータの研究
    異種情報統合の研究
    構造化データ・半構造データ・グラフデータのキーワー ド検索の研究
    多次元データのインデックス(R-tree)と応用の研究へ
    -------------------------------------------------

    2. 自分の研究について

    (自分の博士論文(2.1. データベースマシンの高機能化技法)と、 ト ランザクション理論の研究(2.2.).時期は旧いが原理にこだわる研究.).

    2.1  並列データベース処理機構の高機能化

    大規模データ処理基盤システムは、本質的に並列データベース処理機構であり、1980年代から研究されてきました.大森は,疎結合型 (Shared-Nothing)の並列データベースマシンが持つ巨大データ空間をConsistencyを保ちつつ並行更新する技術として、大量データ処理(bulk-read/-update) を単 位実行操作(=トランザクション)とした並行制御機構を提案しています. (自分の博士論文 の研究). 現在の視点から言うと, 巨大データ処理システム上の並行データ処理と高機能化を考える研究です.
    並列データベース関連の業績

    2.2 トランザクション処理と高機能化

    トランザクション処理の立場では、データの共有化と並行同時更新に伴う制 御技術があげられます.原理を抽出して現在に応用していく理論的な領域の研究 です. 「トランザクション処理」というA.ロイター, J.グレイ博士の教科書の翻訳 なども行いました.
    応用成果としては, データ一貫性管理機能のついた高機能なストレージシステ ムの研究を修士学生と行いました.
    トランザクション処理の研究成果の欄へ

    その他: 1990年代に日本のIT企業で開発された本邦初の自律分散コン ピュータ専用のデータベース機構について, 2011年9月に博士論文を指導・修了 しています. (論文.)

    -----------------------------------------------------------

    まとめ: 大量データ処理基盤の研究=新しい情報環境を創り出す研究

    現在, データ工学の研究領域においては,新しいデータベース処理アルゴ リズムやインデックスの開発,分散データ共有や新しいデータ管理環境のため の制御アルゴリズム,システムソフトウェアとしての実現,斬新な情報抽出技 術,などの研究が積極的に行われています.

    特に2010年代に入って,巨大データ処理基盤がオープンソース化した時代にな り,新しいデータ群をどうやって集めて何の情報を取り出すか,という要請自 体が多様化したため,これに応えるアルゴリズム,システム,ソフトウェア, の新設計による新応用新技術の提案が主題になっています.巨大データ時代を 支える研究分野として,データ工学分野はその中心に位置していると言えるで しょう.

    -----------------------------------------------------------

    その他,

    国内学会:電子情報通信学会デー タ工学研究会DEWS論文集サイト日本デー タベース学会サイト, など.

    海外学会:
    ACM SIGMOD、 VLDB、IEEE Data Engineering Conference の論文集. ( DBLP参照)

    国内では、DEIM(データ工学と情報マネジメントに関するフォーラム) という毎年3月のワークショップ論文集にデータベース分野の修士研究、卒業研 究が毎年集中して発表されます..

    ------------------------------------------ TOPへ

    最近の論文発表(2016年4月まで). それ以後はresearchmapに掲載.

    英語論文: Search DBLP, by the author name.

    国内論文: DEIM (Data Engineering and Information Management Forum). Googleから検索できます.全論文PDF公開.

    ACM, IEEE,電子情報通信学会,のデジタルライブラリへは,uec.ac.jp の大学ドメインからはフリーアクセス.

    ------------------------------------------------

    2012-2016の発表論文一覧

    並列データベース,トランザクション処理

    -------- 番外 (社会人博士による企業開発製品の博士論文)--------------

    ------------------------------------------------

    ファイル編成法, インデックスと応用.

    ------------------------------------------------

    情報構造計算と新しいデータベース演算機構の研究.

    ------------------------------------------------

    空間データ・ストリームデータからの情報抽出問題

    ------------------------------------------------

    モバイルユーザによるWeb情報統合・利用機構

    ------------------------------------------------

    構造化データやグラフデータにおけるキーワード検索方式の研究

    ----------------------------------

    受賞歴、科研費、受託研究

    受賞歴:

    FIT2002論文賞(共著). 情報処理学会及び電子情報通信学会, 2002年.

    電子情報通信学会 ISS活動功労賞(論文誌編集委員及び査読活動による), 2004年9月.

    2010年11月・情報処理学会データベースシステム研究会・学生奨励賞(指導 学生 Wang Meirong)

    2013年3月・DEIM2013学生プレゼンテーション賞(指導学生 廣瀬繁雄)

    2014年3月・情報処理学会全国大会学生奨励賞(指導学生 Y.Qiu)

    2015年3月・DEIM2015学生プレゼンテーション賞(指導学生 今野篤人)

    科学研究費(研究代表者のみ)

    奨学寄付金/受託研究

    2001年度. トッパンフォームズ(株) 「Webマイニングの研究」(代表:星教授).

    2001年-2003度. 富士通研究所(株)「イベントデータの利用方法」

    TOPへ