HermesとQwenで見えたローカルLLMエージェント運用の信頼性問題

Hermes Agentを、ローカル環境へリモートから作業を頼むための窓口として使っている。

メッセージングアプリから自然文で依頼して、ローカル側のエージェントが内容を解釈し、必要な道具を選び、作業を進める。うまく動けば、これはかなり便利だ。ちょっとした要約、下書き、調査の整理、メモ作成のような作業なら、いちいちMacの前に戻らなくても進められる。

そのバックエンドを、できるだけローカルLLMへ寄せられないか試していた。理由は単純で、コストと利用制限を減らしたいからだ。毎日の細かい依頼まで全部クラウド側の高性能モデルに投げると、心理的にも運用的にも少し重い。ローカルで動くQwen系モデルが十分使えるなら、日常的な作業のかなりの部分をそちらへ逃がせる。

ただ、実際に使ってみると、問題は「文章が書けるか」ではなく「エージェントとして信用できるか」だった。

低リスク作業では十分使える

まず、ローカルQwen系モデルがまったく使えないという話ではない。

相談、要約、アイデア出し、下書きのような作業では、十分便利に感じる場面が多い。多少表現が粗くても後で直せるし、少し外しても大きな事故にはならない。むしろ、手元で気軽に回せることの価値は大きい。

例えば、作業ログを渡して「ブログの元ネタとして整理して」と頼む。長いメモを短くする。比較観点を出す。文章の構成案を作る。こういう用途では、ローカルLLMはかなり実用的だと思う。

ローカルで動くので、試行錯誤もしやすい。プロンプトを変えて何度も投げ直すことへの抵抗が少ない。日常の作業補助としては、この気軽さはかなり大きい。

問題は副作用のあるタスク

一方で、リマインダー作成、ジョブ実行、ファイル操作、設定変更のような「失敗すると困るタスク」になると、急に見え方が変わる。

こういう作業では、単に自然文をそれっぽく理解するだけでは足りない。

必要なのは、依頼の意図を補完し、どの道具を使うべきかを選び、実行し、その結果が本当に期待どおりになっているかを確認することだ。さらに、失敗した場合は、次回同じ失敗をしないように運用ルールへ落とし込んでほしい。

ここで不安定さが出ると、エージェントとしての信用が一気に落ちる。

例えば「時間指定でリマインドして」と頼んだとする。人間の感覚では、これはリマインダー作成に向いた仕組みを使い、指定時刻、通知内容、保存先、実際に登録されたかどうかまで確認してほしい依頼だ。

ところが、モデルによっては、ジョブ実行寄りの仕組みに寄ってしまうことがある。もちろん、それでも実装次第では動くかもしれない。ただ、必要な設定や実行後確認が抜けると、最終的な成功率にそのまま響く。

リマインダーは、失敗してから気づくタイプのタスクだ。指定時刻になって通知が来なければ、その時点でもう遅い。だからこそ、エージェントには「登録したつもり」ではなく「登録されていることを確認した」ところまで期待してしまう。

エージェントに期待している価値

ここで、自分がエージェントに何を期待しているのかがはっきりした。

期待しているのは、単なる命令実行ではない。

自然文の依頼を受け取り、文脈を理解し、適切な道具を選び、実行し、検証して、必要なら失敗を次回のルールへ反映する。この一連の作業完了能力に価値を感じている。

毎回こちらが細かく「このAPIを使って」「この設定を確認して」「登録後に読み返して」「失敗したらこのログを見て」と書かなければならないなら、それはもはや便利な秘書ではなく、少し自然文に対応したCLIに近い。

もちろん、CLIにも価値はある。ただ、メッセージング経由のエージェントに期待している体験は少し違う。こちらは「やっておいて」と頼みたい。手順書を毎回書きたいわけではない。

この差が、ローカルLLMエージェント運用の難しさだと思う。

役割分担が現実的

今の感覚では、すべてをローカルLLMへ寄せるより、作業のリスクで分けるのが現実的だ。

低リスクな作業はローカルLLMでよい。

下書き
要約
アイデア出し
メモ整理
ブログ元ネタの構造化
失敗しても後から直せる調査補助

一方で、信用が必要な作業は、より安定したモデルや既に検証済みの実行環境へ寄せたい。

リマインダー作成
定期ジョブの変更
ファイル移動や削除
設定ファイルの更新
git commit / push
外部サービスへ反映される操作
実行後の検証が必要な作業

この分け方にすると、ローカルLLMの良さを活かしつつ、事故が困る領域では慎重にできる。

ローカルLLMを否定したいわけではない。むしろ、かなり使いたい。安く、速く、手元で回せるのは強い。ただ、エージェント用途では、モデルの賢さだけでなく、タスクの種類、使える道具、検証の仕組み、失敗後の学習ループまでセットで考える必要がある。

失敗をルール化する仕組みが必要

もう一つ感じたのは、「一度失敗したら、次は成功してほしい」という期待は、自然だが自動では満たされないということだ。

人間のアシスタントなら、失敗した作業を覚えて、次から確認手順を増やす。例えば「リマインダーは登録後に読み返す」「定期ジョブは有効状態まで確認する」「ファイル操作は移動後の存在確認をする」といったルールを持つ。

エージェントにも同じことを期待したいが、それには仕組みがいる。

失敗したタスクを、その場の会話だけで終わらせず、ローカルルール、スキル、チェックリスト、Automationのプロンプトに落とし込む。次回以降は、モデルの思いつきではなく、必ずそのルールを読んでから実行する。

この「失敗を運用ルールに変換する部分」がないと、同じ種類の不安が繰り返される。

まとめ

Hermes AgentとローカルQwen系モデルの組み合わせは、日常作業の補助としてかなり可能性がある。

ただし、エージェントとして任せる範囲は慎重に決めた方がいい。相談や下書きのような低リスク作業ではローカルLLMを活用し、リマインダーやジョブ実行のような副作用ありタスクでは、より信頼できる実行系と検証手順を使う。

結局、エージェント運用で大事なのは、モデル単体の性能比較だけではない。

どの作業を任せるのか。失敗したら何が困るのか。実行後に何を確認するのか。失敗をどう次回のルールにするのか。

ローカルLLMを本当に日常のリモート秘書として使うなら、このあたりの設計が必要になる。安く動くことと、信用して任せられることは、似ているようで別の問題だった。

HermesとQwenで見えたローカルLLMエージェント運用の信頼性問題

低リスク作業では十分使える

問題は副作用のあるタスク

エージェントに期待している価値

役割分担が現実的

失敗をルール化する仕組みが必要

まとめ

関連記事

GX10でQwenとGemma 4を載せ替えてわかった、ローカルLLM専用機の現実

Qwen3.6をNVFP4版に差し替えたら、GX10でちゃんと速くなった

GX10上のQwenをOpenClawのLLMバックエンドにしようとして、最後はTelegram配送にハマった