AIがデータサイエンティストの日常業務をどう書き換えるか
価値の低いタスクの排除から影響の大きいプロジェクトの加速まで、AI がデータ サイエンスのワークフローをどのように変えているのかをご紹介します。
以前の記事では、Googleのデータサイエンスエージェントなど、いくつかのAIツールを調査して比較しました。 ChatGPT vs. クロード vs. ジェミニ データサイエンスと ディープシークV3しかし、これは利用可能なすべてのAIツールのほんの一部に過ぎません。 データサイエンス。たとえば、私が仕事で使用したツールの一部は次のとおりです。

- オープンAI API: 顧客からのフィードバックを分類して要約し、製品の弱点を特定するために使用します。
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 و 双子座Slack メッセージやメールの下書き、分析レポートの作成、さらにはパフォーマンスレビューの作成にも役立ちます。
- グリーンAI:Glean は AI を使用して、ドキュメントや社内コミュニケーション全体から迅速に回答を見つけます。
- カーソル و 副操縦士: Tab キーを数回タップするだけでコードとコメントが自動補完されるのが気に入っています。
- ヘックスマジック私は職場での共同スプレッドシートに Hex を使用しています。また、次のような機能も提供しています。 ヘックスマジック 会話型 AI を使用してコードを記述し、バグを修正します。
- スノーフレーク皮質Cortex AI を使用すると、ユーザーは Snowflake のデータを使用して LLM エンドポイントを呼び出し、RAG を構築し、テキストから SQL へのサービスを実行できます。
このリストにはもっと多くのものを追加できるでしょうし、新しいAIツールは毎日リリースされています。現時点で完全なリストを作成することはほぼ不可能です。そこでこの記事では、少し立ち止まって、より大きな疑問に焦点を当てたいと思います。 データプロフェッショナルとして私たちに本当に必要なものは何でしょうか。そして AI はどのように役立つのでしょうか。؟
以下のセクションでは、価値の低いタスクを排除し、価値の高い作業を加速するという 2 つの主なトレンドに焦点を当てます。
1. 価値の低いタスクを排除する
私がデータ サイエンティストになったのは、複雑なデータからビジネス上の洞察を引き出し、それに基づいてビジネス上の意思決定を行うことが本当に楽しいからです。しかし、この分野に7年以上携わってきた私にとって、すべての仕事が期待していたほど刺激的というわけではないことを認めざるを得ません。高度な分析を実行したり、機械学習モデルを構築したりするには、日常的に避けられない価値の低いワークフローが多数あります。多くの場合、これは関係者がセルフサービス分析を行えるようにするための適切なツールがないことが原因です。今日の状況と理想的なケースを見てみましょう。
現在の状況: 私たちはデータインタープリターおよびゲートキーパー(時には「SQLモンキー」)として機能します
- シンプルなデータプルリクエスト 彼女は毎週 Slack で私とチームのところに来て、「先月の総売上高 (GMV) はいくらでしたか?」と尋ねます。 「これらの基準を満たすクライアントのリストを表示できますか?」 「明日行うプレゼンテーションのために、この番号を記入するのを手伝ってもらえますか?」
- ビジネス インテリジェンス (BI) ツールは、セルフサービス ユース ケースを適切にサポートしていません。。関係者が簡単にデータを調べ、指標を監視できるように、Looker や Tableau などのビジネス インテリジェンス ツールを導入しました。しかし、真実は、シンプルさとセルフサービス機能の間には常にトレードオフがあるということです。いくつかの指標を使用してダッシュボードをわかりやすくすることはできますが、そのダッシュボードは限られたユースケースにしか対応できません。同時に、ツールを高度にカスタマイズ可能にし、基礎となる指標やデータを自由に探索できるようにすると、関係者がツールに戸惑い、自信を持って使用できなくなる可能性があり、最悪の場合、データが抽出され、誤解される可能性があります。
- 文書が少ないか、古くなっています。。これはよくある状況ですが、さまざまな理由が考えられます。たとえば、迅速に行動して結果を出すことに重点を置いている場合や、適切なデータ ドキュメントやガバナンス ポリシーが整備されていない場合などが考えられます。その結果、データ チーム外の人がデータを使用する際に、部族の知識がボトルネックになります。
理想的なケース: 関係者がセルフサービスできるようにして、価値の低い作業を削減する
- 関係者は簡単なデータ取得を実行し、基本的なデータに関する質問に簡単かつ自信を持って回答できます。
- データ チームは、反復的なレポートや基本的な 1 回限りのクエリの作成に費やす時間を短縮できます。
- ダッシュボードは、直接の支援がなくても検出、解釈、実行可能です。
では、理想的な状態に近づくために、AI はどのような役割を果たすことができるのでしょうか?私が観察したところによると、ギャップを埋めるために AI ツールが向かっている一般的な傾向は次のとおりです。
- 自然言語データクエリ(テキストからSQLへ)技術的な障壁を下げる 1 つの方法は、関係者が自然言語でデータを照会できるようにすることです。業界には Text-to-SQL の取り組みが数多くあります。
- 例えば、 スノーフレーク 同社は、多くの進歩を遂げた企業の一つである。 Text2SQLモデル そして、その機能を自社製品に統合し始めました。
- 多くの企業 (私の会社も含む) も社内で Text2SQL ソリューションを検討してきました。例えば、私は参加しました ユーバー 彼女の旅 Uber の QueryGPT 運用チームによるデータクエリを容易にするため。この記事では、Uber がクエリを生成するためのマルチエージェント アーキテクチャをどのように設計したかを詳しく説明しました。同時に、ユーザーの意図を正確に解釈すること、大きな表グラフを処理すること、幻覚を避けることなど、この分野における重大な課題も明らかになりました。
- 率直に言うと、Text-to-SQL を機能させるには、クエリを正確にする必要がある非常に高いレベルがあります。ツールが一度でも失敗すると、信頼が損なわれ、最終的には関係者がクエリを検証するために戻ってくることになります (その後、クエリを読み取って書き直す必要があり、作業量はほぼ倍増します 🙁)。これまでのところ、完璧に機能する Text-to-SQL テンプレートまたはツールは見つかっていません。これは、特定の標準化されたユースケースについて、十分に文書化された基礎データセットのごく小さなサブセットをクエリする場合にのみ実現可能だと私は考えていますが、利用可能なすべてのデータとさまざまなビジネス シナリオを含めるように拡張することは非常に困難です。
- しかしもちろん、この分野への巨額の投資と AI の急速な発展を考えると、正確でスケーラブルな Text-to-SQL ソリューションにますます近づいていくと確信しています。
- チャットベースのビジネスインテリジェンス(BI)アシスタントBI ツールによる利害関係者のエクスペリエンスを向上させるもう 1 つの人気の領域は、チャットベースの BI アシスタントです。これは実際には Text-to-SQL よりも一歩進んでおり、ユーザーのプロンプトに基づいて SQL クエリを生成するのではなく、視覚化形式とテキスト サマリーで応答します。
- ルッカーの双子座 ここで彼はその一例です。 Looker は Google が所有しているため、Gemini と統合するのは自然な流れです。 Looker が AI を構築する上でのもう 1 つの利点は、データ フィールドが LookML セマンティック レイヤーにすでに文書化されており、共通のマッピングが定義され、共通のメトリックがダッシュボードに含まれていることです。つまり、学ぶべき素晴らしいデータがたくさんあるのです。 Gemini を使用すると、ユーザーは Looker ダッシュボードをカスタマイズしたり、データについて質問したり、会話型分析用のカスタム データ エージェントを構築したりすることもできます。ただし、このツールの使用経験は限られているため、単純な質問にも答えられないことが多々あります。別の経験があり、それがうまくいった場合はお知らせください...
- Tableauも同様の機能を開始しました。 Tableau AI。私自身はまだ使用していませんが、デモを見る限り、データ チームがデータを準備し、自然言語を使用してダッシュボードをすばやく作成し、関係者が指標の変化や異常な傾向を簡単に特定できるように Tableau Pulse でデータの洞察をまとめるのに役立つようです。
- データインデックスツールAI は、データの文書化がほとんどまたはまったくないという課題を克服するのにも役立ちます。
- 社内ハッカソンのとき、データ エンジニアのプロジェクトの 1 つが LLM を使用してテーブル ドキュメントの範囲を拡大することだったのを覚えています。 AI はほとんどの場合、コード ベースを読み取り、それに応じて高い精度で列を記述できるため、人間による検証と変更を最小限に抑えてドキュメントを迅速に改善できます。
- 同様に、私のチームが新しいテーブルを作成するときは、高品質の出力で時間を節約するために、Cursor にテーブル ドキュメント用の YAML ファイルの作成を依頼し始めました。
- AI と統合されたデータ カタログやガバナンス ツールも数多くあります。 Googleで「AI データ インデックス」と検索すると、Atlan、Alation、Collibra、Informatica などのデータ インデックス作成ツールのロゴが表示されます (免責事項: これらはいずれも使用したことはありません)。これは明らかな業界の傾向です。
2. 価値の高い作業を加速する
これまで、AI が価値の低いタスクの排除にどのように役立つかについて説明してきましたが、次は AI が価値の高いデータ プロジェクトをどのように加速できるかについて説明しましょう。ここでの「価値の高い仕事」とは、技術的な卓越性とビジネスコンテキストを組み合わせ、部門間のコラボレーションを通じて有意義な影響を達成するデータ プロジェクトを指します。たとえば、製品の使用パターンを理解して製品の変更につながる詳細な分析や、顧客離脱のリスクがある顧客を特定して顧客離脱防止の取り組みにつながる顧客離脱予測モデルなどです。現在の状況と理想的な未来を比較してみましょう。
現状:ボトルネックがある إنتاجية 日々のワークフロー
- 探索的データ分析 (EDA) には時間がかかります。。このステップは、データの初期理解を得るために不可欠ですが、単変量および多変量解析をすべて実行すると時間がかかる場合があります。
- コーディングとデバッグに無駄な時間を費やす。正直に言うと、numpy、pandas、sklearn のモデルパラメータをすべて覚えられる人はいません。コーディング中は常にドキュメントを検索する必要があります。
- 豊富な非構造化データが十分に活用されていません。。企業は、アンケート、サポートチケット、レビューなどから毎日大量のテキストデータを生成します。しかし、スケーラブルな方法で洞察を抽出する方法は依然として課題です。
理想的なケース: データ サイエンティストは構文ではなく、深い思考に重点を置きます。
- 構文を調べる必要がないので、コードを書くのが速くなります。
- アナリストは結果の解釈に多くの時間を費やし、データの処理に費やす時間は少なくなります。
- 非構造化データはもはや障壁ではなくなり、迅速に分析できるようになります。
理想的なケースを見ると、すでにいくつかの AI ツールが思い浮かんでいるはずです。 AI が実際にどのような影響を与え、どのような変化をもたらすのかを見てみましょう。
- コーディングとデバッグのためのAIアシスタント。これは、コードを書く人にとって、これまでで最も信頼できるタイプの AI ツールだと思います。すでにそれが再び起こっているのを目にしています。
- LLMチャットボットのような AI言語モデルを活用してコードのデバッグからデータの異常検出まで、 و クロードエンジニアたちは、構文に関する質問やエラー メッセージについてチャットボットに質問するだけで、非常に正確な回答が得られることに気付きました。これはコーディングのワークフローを中断させる要因にはなりますが、何十もの StackOverflow タブをクリックするよりはずっと良いです。StackOverflow タブをクリックする作業は、すでに前世紀の作業のように感じられます。
- その後、統合AIコーディングツールのPlusとPlusが登場します。統合 GitHubコパイロット و カーソル コード エディターを使用すると、コードベースを読み取って、コード補完をプロアクティブに提案し、IDE 内で問題をデバッグできます。
- 冒頭で簡単に触れたように、 スノーフレーク و 16進法 また、データ アナリストやデータ サイエンティストが簡単にコードを記述できるようにする AI コーディング アシスタントも含まれています。
- 探索的データ分析と解析のための人工知能。これは、上で述べたチャットベースの BI アシスタント ツールに似ていますが、その目標はより野心的です。生のデータセットから始めて、データのクリーニング、前処理、探索的分析、場合によってはモデリングまでの分析サイクル全体を自動化することを目指しています。これらは、「データ アナリストに代わる」とよく宣伝されているツールです (しかし、本当にそうでしょうか?)。
- Google データサイエンス エージェント これは、簡単なプロンプトで Jupyter Notebook 全体を作成できる非常に印象的な新しいツールです。最近書いた 記事 何ができて何ができないかを説明します。つまり、カスタマイズ可能な実行プランに基づいて実行される、整理された Jupyter Notebook をすばやく作成できます。ただし、フォローアップの質問に基づいて Jupyter Notebook を変更する機能がなく、メソッドを確認して手動で反復処理を実行するには、依然としてデータ サイエンスに関する深い知識を持つ人が必要であり、クリーンで十分に文書化されたデータセットを使用してデータの問題を明確に記述する必要があります。したがって、私はこれを、私たちの仕事を脅かすものではなく、初期コードで時間を節約するための優れたツールだと考えています。
- 次のように分類されることもある ChatGPTデータアナリストツール この範囲内で。ユーザーがデータセットをアップロードし、それとチャットして分析を完了し、視覚化を作成し、質問に答えることを可能にします。その機能について説明した以前の記事をご覧ください。 ここで。また、同様の課題に直面しており、データアナリストに代わるものではなく、EDA アシスタントとしての方がうまく機能します。
- NLP 機能は使いやすく、拡張可能です。。 LLMは会話に最適です。したがって、今日の LLM では NLP が大幅に容易になりました。
- 私の会社では毎年社内ハッカソンを開催しています。 3年前のハッカソン プロジェクトでは、BERT やその他の従来のトピック モデリング手法を使用して NPS アンケートの回答を分析しようとしていましたが、楽しかったものの、正確でビジネスにとって意味のあるものにするのは正直非常に困難でした。そして2年前、ハッカソンで私たちは オープンAI API フィードバックデータ自体を分類・要約する作業は見事に成功し、高精度なテーマ別モデリング、感情分析、フィードバック分類をすべてたった1回のAPI呼び出しで実行できました。また、システムプロンプトに基づいた出力は、当社のビジネスコンテキストにうまく適合しました。その後、アンケート回答、サポートチケット、営業電話、ユーザー調査メモなどのテキストデータを簡単に取り込めるように拡張できる社内パイプラインを構築しました。これは顧客フィードバックの中心的なハブとなり、製品ロードマップの策定に役立ちました。Plusはこちらをご覧ください。 この技術ブログ.
- AI を活用した顧客フィードバック分析ツール、製品レビュー分析ツール、顧客サービス アシスタント ツールなどを構築する新しい企業も数多くあります。アイデアはすべて同じです。LLM がテキストのコンテキストを理解し、会話を行う方法を活用して、テキスト分析に特化した AI エージェントを作成します。
結論
最新の人工知能 (AI) ツールに夢中になるのは簡単です。しかし、最終的に最も重要なのは、AI を使用して、私たちの速度を低下させる要因を排除し、前進させる要因を加速することです。重要なのは、現実的であり続けることです。つまり、現在機能しているものを採用し、新しいものに対する好奇心を持ち続け、より深い理解を通じてよりよい意思決定を行うことというデータ サイエンスの中心的な目標を見失わないようにすることです。
コメントは締め切りました。