
データサイエンスのスキルギャップは、データモデルのトレーニングと分析ができる人材が不足しているから生じているわけではありません。概念データモデリング、論理データモデリングなどを理解している優秀なデータモデラーは数多く存在します。真の課題は、データを収集し、準備し、クレンジングし、モデルを本番環境に導入できる人材を見つけることです。
私が言及しているのは、データベースへのクエリと接続方法を理解し、オブジェクトストアの実装方法を理解し、モデルをコンテナ化し、APIに変換してエッジデバイスに組み込むことができるプロフェッショナルです。つまり、データセットに実用的なアプリケーションを適用できる人材です。
不足しているのはまさにこの点です。データモデリングとほぼ同等のスキルを持つソフトウェアエンジニアリングのスキルを持つデータサイエンティストです。企業は、効果的なモデルを構築できる人材だけでなく、成果物を実際のユースケースで活用できるよう製品化する方法を知っている人材を必要としています。だからこそ、ガートナーはAIエンジニアリングを2022年の主要な戦略的テクノロジートレンドに挙げ、ITプロフェッショナルがAIモデルの運用化に注力する分野として位置付けています。
幸いなことに、大学にはデータサイエンスのエンジニアリング面を学ぶための素晴らしい環境を提供するために必要なツールがあり、現在のデータサイエンスのスキル不足を最小限に抑える鍵を握っています。
参照: 採用キット: データサイエンティスト ( TechRepublic Premium)
今こそ、それを活用して、次世代のデータサイエンス専門家への扉を開く時です。
追いつく
今のところ、ドアは少しだけ開けてあるだけです。
教授陣の多くは、依然としてデータサイエンスの理論的・数学的側面に重点を置きすぎていて、データサイエンスを実践するために必要な実践的な専門知識にはあまり重点を置いていません。これは、教授陣が自らの役割は科学を発展させることであり、必ずしも専門職に就く人材を育成することではないと考えているためかもしれません。もちろん、それは重要ですが、両者のバランスを取る必要があります。実際、状況は改善しており、多くの大学がデータサイエンスとモデリングを応用する方法に関する限定的なコースを提供し始めています。
しかし、需要に応えるためにカリキュラムをより迅速に進化させる必要があります。これは容易なことではありません。新しいコースを1つ作成して承認を得るのに、場合によっては数年かかるからです。テクノロジーが数ヶ月ごとに急速に進歩している今、これは受け入れられません。教えられていることと求められていることの間には、依然として乖離が残っています。
一方、適切なリソースと知識を持つ企業は、その埋め合わせを試みています。多くの企業が、経験豊富なデータベース管理者や新卒者を採用し、実践的なモデル展開やデータエンジニアリングのトレーニングを行っています。
このアプローチには欠点があります。第一に、実用的なモデル展開スキルが不足している組織は、新たに採用される科学者グループにそれらのスキルを訓練するために必要な専門知識を持ち合わせていません。結局のところ、彼らは知らないことを教えることはできないのです。第二に、訓練には時間がかかり、リソースを浪費し、組織全体のスピードと効率性向上に向けた努力を阻害する可能性があります。
これは、ほとんどの企業、特に従業員を適切に研修する手段を持たない小規模組織にとって、持続可能でも実現可能でもありません。また、既に不利な立場で労働力として参入している学生にとっても不公平です。
しかし、大学は新しいコースの作成に何年も費やす必要はありません。既存のオープンソースツールを活用して、既存のコンピュータサイエンスのコースに実践的な学習を取り入れることができます。
データエンジニアの育成
高等教育機関は数年にわたりオープンソース技術に多額の投資を行っており、そのソフトウェアを活用して様々な課題を創造的に解決しています。彼らは、その相互運用性、セキュリティ、費用対効果といったメリットに魅力を感じています。
しかし、彼らは同時に、これまで以上に多くの企業がオープンソースを活用していることも理解しています。実際、Red Hatが最近実施した調査では、回答者の95%がオープンソースは組織のエンタープライズ・インフラストラクチャ全体にとって重要であると回答しています。まさに、オープンソースはITの新たな常識です。だからこそ、オープンソース技術の教育と活用は極めて重要になっているのです。
すでに一部の大学では、PythonやJupyter Notebookの使い方を学ぶためのコースが開講されています。中には、これらのツールを日常の授業に取り入れているところもあります。今こそ、これらのツールやその他のツールを統合し、モデル学習の理論的な側面とソフトウェア開発のより実践的な側面を結び付けるフレームワークを構築することで、さらに一歩前進する時です。
オープンソースソフトウェアのオープン性と柔軟性のおかげで、これは難しいことではありません。さまざまな技術を簡単に組み合わせて統合された全体を構築できるため、学生は自分の成果がアプリケーションでどのように実用的な効果を発揮するかをより包括的に理解することができます。
例えば、PythonとJupyter Notebookの教育・使用を行っている大学では、これらのツールを一つの授業で組み合わせて活用することができます。教授陣は、Jupyter Notebookの使い方だけでなく、その成果を開発者に伝える方法も学生に示す専門セクションをコース内に作成できます。また、Pythonを使用するアプリケーション開発者が、データモデルをアプリケーションに組み込む方法も示すことができます。学生は、アプリケーション開発者としてのトレーニングを受けなくても、Pythonの仕組みの基礎を学ぶことができます。
大学では、基本的に科学と工学の両方の原理を一つの授業で応用することができます。学生は、モデルを使って実験を行い、それを実際に動かし、アイデアから展開までを学べます。
スキルギャップを埋める
優秀なデータサイエンティストをめぐる企業間の競争は、衰える兆しを見せていません。EYによると、スキルアッププログラムの非効率性や人材不足などにより、企業は依然としてデータ中心の職務の充足に苦労しています。NASAのような有力組織でさえ、適切なデータサイエンスの職務に適切な人材を見つけるのに苦労しています。
ますます広がるスキルギャップを埋める最も簡単かつ迅速な方法は、大学が既存のコースの一部範囲を拡大することです。既存のデータサイエンス科目に加え、ソフトウェアエンジニアリングや運用に関する教育も取り入れることを検討すべきです。これにより、学生はより包括的で有用な視点を身につけ、将来への備えを万全にすることができると同時に、企業が求める人材を獲得できるでしょう。

Guillaume Moutier は、Red Hat Cloud Storage および Data Services のシニアプリンシパルデータエンジニアリングアーキテクトであり、データサービス、AI/ML ワークロード、データサイエンスプラットフォームに注力しています。大規模組織の元プロジェクトマネージャー、アーキテクト、CTO として、20 年にわたる IT アーキテクチャと管理の経験を活かし、常にユーザビリティとビジネスアライメントを重視しながら、常に新しく革新的なソリューションを模索し、推進しています。