コンテンツにスキップ

生成AI関連ツールを使い倒す

Author: Kazukichi
  • すさまじい速度で日々、生成AI関連のサービスやツールがリリースされている
  • その中から特に注目されているものを中心に実際に検証してみたので、その結果や感想を共有する
  • https://devin.ai/
  • $20(3,000円程度)から初められるプランが出たので試してみた
  • ちなみにDevinではACU(Agent Compute Unit)という単位で課金される
  • 1 ACU = 約15分の作業時間で、$20で約8.9 ACU(約2.25時間相当)が手に入る
  • Web上での指示とVSCodeベースの操作画面の閲覧、issue/PR作成とレビュー対応、Slackでのコミュニケーション等が行える
  • なので、CursorやClineのようなVSCodeベースのAIエージェントよりもできることの範囲が広い印象
    • ただし、このあたりに関しては今後、MCPによって埋められていくような気がする
  • 価格帯としては、Cline(Roo Code) + Claude 3.7 Sonnetと比較して、法外に高いという印象はない
  • また、個人的にはCline(Roo Code)のほうが性に合っているような気がした
    • Vibe Codingをする前提であればDevinのほうが向いているかもしれない
      • 外出中でもSlackやGitHubを見るだけである程度、開発ができるため
    • ある程度、マイクロマネジメントしつつ、コードも理解して開発するとなると逆に面倒
  • GitHubやSlackを介するだけで一気に人間と働いている感が強くなって面白い
  • リファラルリンク: https://app.devin.ai/invite/nTHgBMjlBdsPOb07
    • ここから登録すると10 ACU追加でもらえるらしいので是非
  • https://notebooklm.google.com/
  • Googleが出しているチャットベースのサービス
  • 仕事で利用するドキュメント等、一般的でないドメイン知識を、ファイルアップロードするだけで学習してくれる
    • ファインチューニングではなくRAGベース
    • 逆にインターネット上の情報は学習していないので、ドメイン知識との連携みたいな面で弱い印象
  • 月額2,900円でPlusプランを利用可能
    • Google One AI プレミアムに課金することになるので必然的にGemini Advancedも利用可能(かなり安価、強い)
    • エンプラ向けのプランもあるので、会社で導入できると社内のドキュメントを学習させられて便利そう
  • Googleドキュメント、ウェブサイトとかYouTubeの動画も学習できるのはGoogleならではという感じがする
  • 試しにこないだ作ったオセロのリポジトリのリンクを読み込ませてみたが、自動でページ内のリンクを辿って実装レベルまで解説してくれる、とかはなかったのが残念
    • でもコードの深堀りをするのなら別にVSCode + AIエージェントでできるので、NotebookLMにやらせることではないかも
  • YouTubeにアップロードしている自作ゲームの解説動画も読み込ませてみたが、動画の内容を理解して解説してくれて面白かった
  • ある程度コンテンツがないとソースとしての読み込みに失敗する
    • 基準がよく分からない
  • 音声で概要を生成できる謎機能もある(英語のみ対応)
  • 今後、PDF/動画の教材等をベースに学習する際は活用してみようかなと思う
  • https://www.deepseek.com/
  • ChatGPTの廉価版のような感じ
  • 無料で高品質なモデルを使えることが強み(DeepSeek-V3、DeepSeek-R1)
    • MoEや蒸留という技術を活用することで、低コスト・安価に提供することができているらしい
  • 高度な推論機能や、リアルタイムにWebを検索する機能も提供されている
  • UIの品質はやはり劣る
  • 中華製という不安もある
  • ちなみに、DeepSeekのモデルは、 Hugging FaceOllama のレジストリで公開されている
    • Hugging FaceはオープンソースのAIモデルをシェアできるプラットフォーム
    • Ollamaはローカル環境でLLMを簡単に動かせるツール
    • なお、モデルの形式は基本的にGGUF形式に変換されている必要がある
  • https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
  • Anthoropicが出しているCLIのAIエージェント
  • NPMでインストール可能
  • 使い慣れていないだけかもしれないが、正直、あまり使い勝手が良いとは思えなかった
  • ClineのようにGUIで使えるAIエージェントのほうが直感的に操作できる
  • ただ、エディタ非依存で使える(ポータビリティが高い) + 動作が軽量という点は評価できる
  • https://github.com/openai/codex
  • OpenRouterやDeepSeek、Ollama等、複数のプラットフォームに対応している
    • Claudeは競合なのか、設計上難しかったのか対応していない
  • ファイルの生成やコマンドの実行等の操作は基本的にできず、出力結果を標準出力として出すことしかできない
    • つまり、ChatGPTをそのままCLIにしたような感じ
  • 現時点ではパワー不足を感じる
  • Claude CodeやCodex CLIのようなツールを通じて、今後はCI/CDにも生成AIを組み込むのが一般的になっていくと予想
    • ただ、冪等性の取り扱いが難しいかもしれない
  • https://superwhisper.com/
  • OpenAIの音声認識モデルのWhisperを主に利用している(GoogleのTransformerベースらしい)
  • ショートカットキーでSuperWhisperを起動し話すと、その時、スペースキーがある位置に文字が自動で入力される
  • 現状、一番推奨されているUltraモデルを使用しているが、認識精度はかなり良く、あまり不便を感じない
    • 一つだけ問題を上げるとすれば、句読点の認識精度があまり良くない
  • Cline等のAIエージェントの指示にSuperWhisperを使うとキー入力せずにある程度開発できるので便利
    • この資料も部分的にSuperWhisperで書いている
  • $8.49の月額プランと$84.99の年額プラン、$249.99の永久ライセンスがある
  • はじめの15分間は無料で利用可能
  • 月額プランに課金してしまった
  • スマホアプリ版を導入した
  • 意外と快適に動作している
  • 出先でも使えるのが案外便利
  • Proプラン(月額$10)に加入していた
  • ChatGPT + Roo Codeで充分(むしろ補完の精度があまり良くなくて邪魔)なので解約
  • Cline(Roo Code)でのMCPの活用
  • MCPサーバの構築
  • プロンプトエンジニアリング入門