ビッグデータ利活用事始め 用語集

ビッグデータ利活用事始め 用語集

■ B
BI

Business Intelligenceの略称。
複数のシステムのデータを統合・分析し経営戦略に役立てる手法。
要素技術として、ETL、データウェアハウス、OLAP、データマイニング等が含まれる。

■ C
Cassandra

オープンソースの分散型DBMS。NoSQLデータベースの一種。
大容量のデータを分散コンピュータ環境へ格納したり、高速に検索したりできる。

CouchDB

MongoDBと同じく、オープンソースのドキュメント指向データベース。

■ D
DBMS

DataBase Management System(データベース管理システム)の略称。
コンピューター内にデータベースを保存する際、保存形式や保存方法をすべて自分で管理する「ファイル」ではなく、統一的な保存形式/手法を定義することで、データの管理・抽出をしやすくしているものを「データベース」と総称し、そのデータベースの管理・構築のためのソフトウェア。

■ E
ETL

Extract(抽出) / Transform(変換・加工) / Load(ロード)の3つの単語の頭文字をとったもの。
基幹系システムに蓄積されたデータを抽出し、それらデータを組み合わせるか、ルールに従い有用なデータに変換・加工し、データウエアハウスにロードする工程のこと。

■ H
Hadoop

大量のデータの分散処理を支えるためのオープンソースソフトウェア。
分散ファイルシステムのHDFS(Hadoop Distributed File System)、分散データベースのHBase、分散処理のためのMapReduceで構成されている。

HBase

オープンソースの列指向データベース。NoSQLデータベースの一種。

■ I
ICT

Information and Communication Techology(情報通信技術)の略称。
IT(Information Techology)とほぼ同義の意味を持つが、コンピューター関連の技術をIT、
コンピューター技術の活用に注目する場合をICTと、区別して用いる場合もある。

IoT

Internet of Thingsの略称。
従来、主にパソコンやサーバー、プリンタ等のIT関連機器が 接続されていたインターネットにそれ以外のさまざまな”モノ”を繋ぐ技術。

■ K
Key Value Store

NoSQLデータベースの代表的なものとして、キー(Key)とデータ(value)をひも付けて管理するタイプのデータベースのことを指す。
データ整合性の厳密さが必要なデータ管理には不向きだが、非構造的なデータを分散管理し、 高速で処理するには有効とされる。

KML

Keyhole Markup Languageの略称。
ある地点や、地点と地点を結ぶ線など、三次元の地理的情報を定義した形式のこと。
Google Map や Google Earth 等で利用できる。

■ M
MapReduce

分散したコンピュータ上のデータ(ファイルやデータベース)を並列処理させるためのソフトウェア。

MongoDB

オープンソースのドキュメント指向データベース。NoSQLデータベースの一種。
今までのRDBMSでは、取り扱いが難しかった複雑な階層構造をもつドキュメント情報に対しての、検索や追加、更新、削除が行える。

■ N
NoSQL

RDB(リレーショナルデータベース)に代表される構造化されたデータベースと対比して、Key Value Store等の非構造化データを管理するためのデータベースの総称として使用される。
名前の意味はSQLに代表されるRDBを否定するものではなく、「Not Only SQL」の意味と解釈される。

■ O
OLAP

Online analytical processing の略称。
エンドユーザがデータを多次元的に分析し、視覚化できるシステムのこと。

■ P
POSシステム

販売時点情報管理。
物品販売の売り上げ実績を単品単位で集計する経営の実務手法。

■ R
R

オープンソースの統計解析および可視化のソフトウェア。
同じような統計解析ソフトウェアの商用版には「SPSS」がある。

RDBMS

Relational DataBase Management System(リレーショナルデータベース管理システム)の略称。
データを「表(テーブル)」と「表間の関係(リレーション)」を定義することで管理する。
DBMSの種類として、ネットワーク型データベースや階層型データベースなど様々あるが、大量のデータの扱いやすさなどの利点から、RDBMSが広く普及した。

■ S
SQL

Structured Query Languageの略称。
RDBMSのデータの管理・検索に使われる言語。

■ ウ
ウェブマイニング

ブログ、SNS、掲示板、ストリーミング配信、さらにはページとページのリンクやヒトとヒト、ヒトとモノの関係など、様々な情報で溢れるウェブから有能な情報を取り出すこと。

■ オ
オンプレミス

クラウドコンピューティングと区別するための用語。
情報システムに関わる設備を、自組織内に設置して運用すること。

■ ク
クラウドコンピューティング

ストレージなどのコンピュータリソースやデータベース、スケジュールやメーラーといったソフトウェアをインターネットなどのネットワーク経由でサービスとして利用すること。

■ コ
コンプライアンス

事業活動において法律を遵守すること、広くは倫理や道徳などの社会的規範を守って行動すること。 一般には、法令遵守と訳される。

■ テ
テキストマイニング

文章などのテキストデータから有能な情報を取り出すこと。

■ デ
データアナリティクス

ある目的をもってデータを収集し、分離・整理などの加工した後、傾向や未来予測などの解釈をして価値ある意味を読み取ること。

データウェアハウス

経理や販売など各種基幹系システムに多量に蓄積されているデータから、有能なデータを抽出、再構成、再蓄積し、意思決定の支持をするための大規模データベースシステムのこと。
DWHと略されることもある。

データサイエンティスト

組織内外を問わず大量のデータを分析し、そこからビジネス価値を生み出す役割を果たす職種。
経営や業務などのビジネス感覚、高度な統計解析の学問知識、ハードウェアやソフトウェア、プログラミングスキルなどのITスキルといった広い知識が必要とされる職種。

データマイニング

大量のデータから、統計的な手法(相関分析、回帰分析)やパターン認識を利用して有能な情報を取り出すこと。テキストマイニングやウェブマイニングが含まれる。

データマート

データウェアハウスに保存されているデータから、特定の目的に合わせて抽出したデータのこと。
一般的に、部門や個人の単位で利用目的に合わせデータを抽出する。

■ 分
分散処理

複数のコンピューターを利用して、大量のデータの処理や複雑な処理をすること。

■ 機
機械学習

大量のデータを解析し、パターンや規則性を抽出しモデルを構築する。
他のデータにそのモデルを適用して予測や判断を行う理論のこと。