macOS上でローカルLLMをHTTP経由で実行する

的場達矢 2026年6月16日2026年6月12日技術ノート

お疲れ様です。macOS上でローカルLLMをHTTP経由で実行する方法を調べて、実行してみました。私が動作確認した記録を残します。

前提

実行環境は、MacBookAir M2 24GBです。
- 普段使っているマシンがこのスペックです。
Ollamaを使って、モデルは qwen3:14B を使ってみました。
- 以前、Ollamaとこのモデルを入れて動作確認したものをそのまま使います

実行

curlで実行しました。

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:14b",
  "messages": [
    {"role": "user", "content": "こんにちは！聞こえますか！"}
  ],
  "think": false,
  "stream": false
}'
Code language: PHP (php)

{"model":"qwen3:14b","created_at":"2026-06-12T09:17:00.959324Z","message":{"role":"assistant","content":"こんにちは！聞こえていますよ！お元気ですか？"},"done":true,"done_reason":"stop","total_duration":8838921208,"load_duration":6903632958,"prompt_eval_count":24,"prompt_eval_duration":426332625,"eval_count":14,"eval_duration":1458145040}
Code language: JSON / JSON with Comments (json)

time コマンドで実行速度を測ったところ、以下でした。およそ2秒くらいですね。

________________________________________________________
Executed in    2.11 secs      fish           external
   usr time    6.95 millis    0.23 millis    6.72 millis
   sys time   15.36 millis    1.29 millis   14.07 millis
Code language: CSS (css)

解説・余談

今回、ローカルLLMには、Obisidan上のノートへのタグ付けを任せようとしており、その前段の検証をしています。で、thinkingモードはいらないのですが、Qwen3はデフォルトでthinkingが有効になっているようです。このままだとthinkingに時間がかかりますが、私のケースでは不要なので、これを削ります。で、そのために think: false を指定しています。

また、stream: false を付けていますが、これをやらないとトークンごとに1行ずつJSONが流れてきます。curlで試すときは付けたほうが見やすいです。

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3:14b",
  "messages": [
    {"role": "user", "content": "こんにちは！聞こえますか！"}
  ],
  "think": false
}'
Code language: PHP (php)

Post Views: 55

的場達矢

HeritageArrowという屋号で個人事業をしている。情報系の大学院修了後、メーカー系SIerとPython特化のベンチャーを経て独立。独立後に専門職大学院で技術経営の学位を取得。現在は和歌山と東京の二拠点で、企業の技術活用を支える仕事をしている。月次の和歌山のゆるい勉強会と、オンラインの「子育てエンジニアのハドル」を定期開催。同じ説明や調べ物を繰り返さないために書くことが多く、KnowledgeHubには個人に紐付きすぎないものを書いている。

技術ノート

hx-confirm って何？
By的場達矢 2026年3月26日2026年5月21日

HTMXを使っています。その中で調べたことを共有します。 hx-confirm を使えば、ブラウザの確認ダイア…

続きを読む hx-confirm って何？
技術ノート

Docker Sandboxesで複数フォルダをマウントする
By的場達矢 2026年4月1日2026年6月1日

2026/06/01 更新 Docker Desktop内包のDocker Sandboxesは非推奨になって…

続きを読む Docker Sandboxesで複数フォルダをマウントする
技術ノート

LangGraphって何？とりあえず動かしてみよう
By的場達矢 2026年5月15日2026年5月21日

今回は、LangGraphとは何か、を動かしながら私の言葉で説明していきます。 LangGraphとは Lan…

続きを読む LangGraphって何？とりあえず動かしてみよう
技術ノート

なぜuv run pythonと打つのか – Pythonの仮想環境とuvの話
By的場達矢 2025年12月15日2026年5月21日

お疲れさまです。今回は、「他言語での開発経験はあるけれど、Pythonは初めて」という方向けの記事を書きます。…

続きを読むなぜuv run pythonと打つのか – Pythonの仮想環境とuvの話
技術ノート

Alpine.jsって何？
By的場達矢 2026年4月9日2026年5月21日

私は、Webアプリを作成する際、特に問題がなければPython/Djangoを選択します。Djangoを利用し…

続きを読む Alpine.jsって何？
技術ノート

Windowsでカスタムプロトコルを追加する方法
By的場達矢 2026年5月5日2026年5月21日

Windowsでカスタムプロトコルを追加する方法を調べたのでその記録を残します。 Claudeに調べさせたとこ…

続きを読む Windowsでカスタムプロトコルを追加する方法

前提

実行

解説・余談

類似投稿