-
ビッグデータ
ビッグデータ否定制約の発見
整合性制約(IC)は、正しいアプリケーションセマンティクスを強制するための貴重なツールです。しかし、ICの設計には専門家と時間が必要です。関数従属性やその拡張である条件付き関数従属性など、いくつかの形式主義において、自動検出のための提案がなされてきました。しかしながら、残念ながら、これらの従属性では多くの一般的なビジネスルールを表現できません。例えば、アメリカ国民は…
-
データ管理
データ管理デジタル広告向けTurnデータ管理プラットフォームの概要
本稿では、データ管理プラットフォーム(DMP)の概要を説明します。このプラットフォームの目的を説明し、現在のデジタル広告エコシステムにおける位置づけを示します。また、DMPを構成する主要コンポーネントについても詳細に解説します。これらのコンポーネントは、データマネジメント、広告主、そして広告主のマーケティング戦略に関わる機能全般を網羅しています。
-
データ管理
データ管理Twitter のデータ分析のための統合ログインフラストラクチャ
近年、コモディティマシンの大規模クラスター上で稼働するHadoopベースのプラットフォームを用いた大規模データ分析に関する研究が盛んに行われています。しかし、アプリケーションログを中心としたこれらのデータがどのように収集され、構造化されるのかという点はあまり研究されていません。本稿では、Twitterの運用環境におけるログ記録インフラストラクチャとその…
-
データ管理
データ管理PostgreSQLにおけるシリアル化可能なスナップショット分離
本稿では、PostgreSQLの新しいシリアライザブル分離レベルを実装した経験について解説します。この分離レベルは、最近開発されたシリアライザブルスナップショット分離(SSI)技術に基づいています。これは、実稼働データベースリリースにおけるSSIの初めての実装であり、また、これまでロックベースのシリアライザブル分離レベルを備えていなかったデータベースにおける初めての実装でもあります。...
-
データセンター
データセンターDedoop: Hadoop による効率的な重複排除
著者らは、大規模データセットのMapReduceベースのエンティティ解決(ER)のための、強力で使いやすいツール「Dedoop(Hadoopによる重複排除)」を紹介します。Dedoopは、ブロッキングやマッチングの手順を含む複雑なERワークフローをブラウザベースで指定できるほか、機械学習を用いたマッチ分類器の自動生成(オプション)もサポートしています。指定されたワークフローは自動的に…
-
データ管理
データ管理エンティティ解決:理論、実践、そして未解決の課題
エンティティ解決(ER)は、構造化データおよび非構造化データにおけるエンティティ言及の抽出、照合、解決という問題であり、データベース管理、情報検索、機械学習、自然言語処理、統計学における長年の課題です。皮肉なことに、様々な分野において、レコードリンケージ、重複排除、共参照解決、参照調整、オブジェクト統合、アイデンティティなど、様々な名称で呼ばれています。
-
ネットワーキング
ネットワーキング道路網における最適な集合場所を見つけるための効率的なアルゴリズム
道路ネットワーク上のポイント セット Q が与えられると、最適ミーティング ポイント (OMP) クエリは、Q 内のすべてのポイントまでのネットワーク距離の合計が最小となる道路ネットワーク G = (V,E) 上のポイントを返します。この問題には、... の総移動コストを最小化するなど、現実世界での多くのアプリケーションがあります。
-
データ管理
データ管理DataSynth: 宣言的制約を使用した合成データの生成
データベースシステムやアプリケーションのテスト、データマスキング、ベンチマークなど、様々なシナリオでは、複雑なデータ特性を持つ合成データベースインスタンスが必要となります。著者らは、合成データベースを生成するための柔軟なツールであるDataSynthを紹介します。DataSynthは、カーディナリティ制約に基づくシンプルかつ強力な宣言型抽象化を用いてデータ特性を指定し、高度なアルゴリズムを用いて…
VLDデジタルアーカイブ - TechRepublic

VLDデジタルアーカイブ - TechRepublic