Web制作 × AI

現役AIエンジニアが2025年にデータ収集とラベリングパイプライン提供に焦点を当てて10万円を稼いだ副業の話

ワイは30代のAIエンジニアや。

昼間は会社でモデルの実装とインフラを触っとるが、給料だけで貯金や趣味を賄うにはちょっと心もとない。

体を動かすバイトは無理やし、副業も時間効率が悪いのは避けたい。

せやから自分の専門性を活かして、自宅で完結する仕事を考えた。

そこで目を付けたのがデータ収集とラベリングの受託や。

質の高いラベルデータはどの企業も不足しとるし、技術者が効率的なパイプラインを用意すれば短期間で価値を出せると踏んだんや。

案件獲得と提案

最初は小さな接点から始まった。

以前の同僚が手伝ってくれたSlackの募集に軽く投稿したら、小規模ECを運営する会社から問い合わせが来た。

内容は「商品説明文の自動生成に使える高品質な商品カテゴリラベルを整備したい」というもの。

ワイは即座に提案を作った。

短期で使えるデータセットと、業務に組み込みやすいラベリングパイプライン、納品後の簡易評価レポートをセットにして提示した。

見積もりは10万円。SMB相手やから手頃な価格設定で、かつワイの時間を十分にカバーする額にしたんや。

データ収集の設計

案件が決まると、まずワイは収集戦略を設計した。クライアントの既存データは断片的やったから、まずどのデータが価値を持つかを定義することが優先や。

商品ページ、過去の購入履歴、ユーザーレビュー、サポート問合せを使える形に整備することにした。

スクレイピングで大量に集めるより、まずは「代表的で多様な2000件」を目標にしてサンプルを確保した。

偏りを避けるために、カテゴリ別、価格帯別、レビュー評価別で分割してサンプリングレシピを作ったんや。

データ収集は自動化スクリプトで行ったが、現場の例外は多かった。

HTML構造が店ごとに違う、画像ファイル名が乱れている、メタデータが欠損しているなど、想定外のノイズと向き合う時間が一番かかった。

ワイは冗長な処理よりも「問題を早く見つけてルール化する」方針で動いた。

初日に見つかった5種類のノイズは、翌日には前処理パイプラインに組み込まれて、二度と同じ手作業をせんで済むようになった。

ラベリング設計とツール構築

次にラベリング設計や。クライアントの要望は「カテゴリラベルと属性ラベルが一貫して付いていること」やった。

ワイはまずラベル定義書を作り、曖昧なケースは業務側の優先度に応じてルール化した。

例えば「類似カラー表記は統一する」「素材名は正規化する」「複数カテゴリに跨る商品は主カテゴリを判定ルールで決める」など、決めごとを先に書き出した。

ラベリングは完全に手作業に頼るとコストが跳ね上がる。

そこでワイは半自動化のワークフローを作った。まずは自動推定モデルを軽く走らせてラベル案を付与し、その上で人が承認・修正するフローにした。

承認率や修正箇所をログ化することで、自動推定モデルの弱点が明確になり、最終的には人手を6割減らすロジックが得られた。

ラベラーには小規模のクラウドワーカーを使い、ガイドラインと簡単なテストで品質を担保した。

ワイはツールのUIを最小限にして、ラベラーが迷わんように入力を限定し、判定候補を選択式で出すようにしたんや。

品質管理と評価

品質管理はこの仕事で一番気を使った部分や。

納品したデータの誤りはクライアントのモデル性能に直結するからや。

ワイは複数レベルの検査を入れた。1段階目はラベラーによる自己チェック、2段階目は別のレビュワーによるクロスチェック、3段階目はサンプルによる業務担当者の合否判定や。

さらにラベルの一致率をKappa係数で定量化して、基準を満たさん場合は再ラベリングするルールを設けた。

評価レポートには、カテゴリごとのエラー率、頻出の変換ルール、修正に要した時間、そして実際に自動生成モデルに入れた場合のサンプル改善例を含めた。

ワイは技術的な指標だけやなく、業務インパクトが分かるように「カテゴリ精度が上がったら検索流入の誤判定がどれだけ減るか」みたいな定性的説明も添えた。

納品と副業収入10万円達成

納品日、ワイはレポートと最終データを圧縮してアップロードした。

クライアントからの最初の反応は即座やった。

「確認したけど、検索結果のカテゴリが明らかに改善してる」とのこと。

数日後、簡易ABテストで商品ページの自動タグ付けを本番で回したところ、検索経由のクリック率が改善しとるという報告が来た。

支払い処理はスムーズで、ワイの口座には提示どおりの10万円が振り込まれた。

家の照明を落としてスマホの売上通知を見た瞬間、静かな喜びが胸に広がった。

自宅のデスクで夜中に整えたスクリプトやルールが、ちゃんとビジネスの価値になった証拠や。

学びと次の展望

今回でワイが得た学びは具体的や。

第一に、データ品質は時間をかけて作るものや。

最初の前処理設計で投資した時間が、後の修正コストを大きく下げた。

第二に、半自動化は労力と品質の黄金比を作る。完全自動化を目指すより、まずは人と機械の協調を最適化することが現実的や。

第三に、業務寄りの評価指標を提示することでクライアントの納得感が高まり、報酬につながる。

次の一手として、ワイはラベリングパイプラインのテンプレ化を進めるつもりや。

業界別のガイドラインセットを作り、短期間で立ち上げられるパッケージ商品として複数案件を並行処理できるようにしたら収益効率が上がるはずや。

さらに、月額のデータ保守プランを提案すればストック収入も作れる。

ワイは画面を閉じて深呼吸した。

自宅の机で始めた小さな試みが、技術と地道な設計で10万円を生んだ。

次はもっと効率的に、もっと多くの現場を助けるために、ワイはまたスクリプトを磨き直すつもりや。

この記事を書いた人(著者情報)

片山

カタチップ編集長。昭和生まれの30代でWeb業界歴は10年以上。現在はカタチップを運用しつつ事業会社でWEBメディアサイトのWebディレクター兼マークアップエンジニアを担当。最近はSNSの運用にも業務範囲を拡大中です。

著者画像

スポンサーリンク