ข้ามไปยังเนื้อหา

GPT-5.5 มาแล้ว, Claude Code โดนจับโกหก, Codex กลายเป็น Computer Agent — สรุป 21 ข่าว AI วันที่ 24 เมษายน 2026

วันนี้ข่าวหนักมาก. OpenAI ปล่อยรุ่นใหม่ที่เคลมว่าฉลาดที่สุด, Anthropic ออกมายอมรับว่า Claude Code คุณภาพตกจริง, Tencent open source โมเดล 295B parameter, และบริษัทจีนอีกหลายเจ้าปล่อยโมเดลพร้อมกัน.

อ่าน 19 นาที
Original work by ii23 (gpt-image-2 bento composition)

GPT-5.5 มาแล้ว, Claude Code โดนจับโกหก, Codex กลายเป็น Computer Agent — สรุป 21 ข่าว AI วันที่ 24 เมษายน 2026

วันนี้ข่าวหนักมาก. OpenAI ปล่อยรุ่นใหม่ที่เคลมว่าฉลาดที่สุด, Anthropic ออกมายอมรับว่า Claude Code คุณภาพตกจริง, Tencent open source โมเดล 295B parameter, และบริษัทจีนอีกหลายเจ้าปล่อยโมเดลพร้อมกัน. ถ้ามีเวลาอ่านแค่เรื่องเดียว ให้อ่าน Part 1 เรื่อง GPT-5.5 — เพราะตัวเลข benchmark ที่ OpenAI โชว์มานั้นน่าสนใจ แต่ก็มีจุดที่ต้องระวัง.


Part 1 — GPT-5.5 และ GPT-5.5 Pro: สิ่งที่ Headline ไม่บอกคุณ (Story #1)

OpenAI 发布 GPT-5.5 和 GPT-5.5 Pro 模型

OpenAI เปิดตัว GPT-5.5 เป็น flagship model ใหม่ วางตำแหน่งว่า “ฉลาดที่สุดและใช้ง่ายที่สุด” นับตั้งแต่ก่อตั้งบริษัท. เน้น 4 สนาม: agentic coding (การเขียนโค้ดแบบอัตโนมัติ), computer use (ควบคุมคอมพิวเตอร์), knowledge work (งานที่ใช้ความรู้เชิงลึก) และ early scientific research (งานวิจัยระดับต้น).

ตัวเลขที่ต้องรู้

BenchmarkGPT-5.5GPT-5.4GPT-5.5 ProClaude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%39.6%22.9%16.7%
CyberGym81.8%79.0%73.1%
BrowseComp84.4%82.7%90.1%79.3%
OSWorld-Verified78.7%75.0%78.0%
SWE-Bench Pro58.6%57.7%64.3%54.2%

สิ่งที่ต้องสังเกต: SWE-Bench Pro — OpenAI เองยอมรับว่ามี “evidence of memorization on some evals” คือโมเดลอาจจำโจทย์ได้ ไม่ใช่แก้ได้จริง. และในบาง long-context benchmark (32K-128K) GPT-5.5 ทำได้ แย่กว่า GPT-5.4 เล็กน้อย (MRCR v2 64K-128K: 83.1% vs 86.0%). นี่คือจุดที่ headline ไม่บอก.

ราคา API

ModelInput (/1M tokens)Output (/1M tokens)Context
GPT-5.5$5$301M (API), 400K (Codex)
GPT-5.5 Pro$30$180
Batch/Flex50% ของราคาปกติ

GPT-5.5 ออกแบบร่วมกับ NVIDIA GB200 และ GB300 NVL72 โดยเฉพาะ. Token generation speed เพิ่มขึ้นกว่า 20% จาก load balancing ที่ดีขึ้น แต่ per-token latency เท่ากับ GPT-5.4. ที่น่าสนใจคือ OpenAI เคลมว่าแม้ราคาต่อ token แพงกว่า แต่ GPT-5.5 ใช้ token น้อยลงในการทำงานเดียวกัน — ต้นทุนจริงอาจถูกลง.

ข้อมูลพิเศษ: GPT-5.5 ค้นพบ proof ใหม่เกี่ยวกับ Ramsey numbers ในสาขาคณิตศาสตร์เชิงผสม verified ผ่าน Lean formal proof system. ถ้าจริง นี่คือครั้งแรกที่ AI สร้างผลงานคณิตศาสตร์ระดับ publication-worthy.

สรุปจิกๆ

GPT-5.5 แข็งมากในสาย coding + computer use + cybersecurity. แต่ Claude Opus 4.7 ยังนำใน SWE-Bench Pro (64.3% vs 58.6%) และ GPQA Diamond (94.2% vs 93.6%). Gemini 3.1 Pro ขึ้นนำ ARC-AGI-1 (98% vs 95%). ไม่มีใครกินขาดทุกสนาม — เลือกโมเดลตาม use case.

Confidence: 95% แปลจากต้นฉบับ | 80% ใน interpretation เชิงกลยุทธ์ (เรื่อง memorization บน SWE-Bench)


Part 2 — Anthropic ยอมรับ: Claude Code คุณภาพตกจริง (Story #2)

Anthropic 承认 Claude Code 质量下降并重置用户额度

Anthropic ออก postmortem เรื่อง Claude Code quality degradation ชัดเจนว่ามี 3 ปัญหาซ้อนกัน:

ปัญหาที่ 1 — Reasoning Effort ถูกลดลง (4 มี.ค. – 7 เม.ย.) ลด default reasoning effort ของ Sonnet 4.6 และ Opus 4.6 จาก high เป็น medium เพื่อลด latency. ผลคือผู้ใช้รู้สึกว่าโมเดล “โง่ลง”. Anthropic อ้างว่าทดสอบภายในแล้ว medium ให้ “slightly lower intelligence with significantly less latency” — แต่ผู้ใช้จริงไม่เห็นด้วย.

ปัญหาที่ 2 — Thinking Cache Bug (26 มี.ค. – 10 เม.ย.) บั๊กใน prompt caching ลบ thinking history ทุกรอบแทนที่จะลบแค่ครั้งเดียว. ผลคือ Claude ลืมบริบท ทำซ้ำ เลือก tool แปลกๆ. ผลกระทบซ้อน: cache miss ตลอดทำให้ผู้ใช้หมด quota เร็วกว่าปกติ. ตรวจเจอช้าเพราะมี experiment อื่นรันอยู่พร้อมกัน.

ปัญหาที่ 3 — Verbosity Reduction Prompt (16 – 20 เม.ย.) เพิ่ม system prompt ว่า “ตอบไม่เกิน 25 คำระหว่าง tool calls, ไม่เกิน 100 คำสำหรับ final response”. ทดสอบภายในแล้ว แต่ ablation analysis กว้างขึ้นพบว่ากด intelligence ลง 3%.

สถานะตอนนี้: ทุกอย่างแก้แล้วใน v2.1.116. Opus 4.7 default reasoning effort เป็น xhigh. รีเซ็ต quota ให้ทุก subscriber วันที่ 23 เม.ย. ย้ำว่า API และ inference layer ไม่ได้รับผลกระทบ.

สรุปจิกๆ

สิ่งที่น่าสนใจคือ Opus 4.7 เป็นตัวที่ตรวจเจอ caching bug ผ่าน Code Review tool — Opus 4.6 ตรวจไม่เจอ. นี่เป็น meta-lesson: โมเดลรุ่นใหม่ช่วยจับ bug ของระบบที่รันโมเดลรุ่นเก่าได้. Anthropic สัญญาจะเพิ่ม soak period กับ gradual rollout สำหรับการเปลี่ยนแปลงที่กระทบ intelligence. เรารอดูว่าจะทำจริงแค่ไหน.

Confidence: 95% แปลจากต้นฉบับ


Tencent Hunyuan Hy3 Preview — Open Source MoE 295B (Story #3)

腾讯混元发布并开源 Hy3 preview 模型

Tencent Hunyuan ปล่อย Hy3 preview ตำแหน่ง “จุดเริ่มต้นของการสร้างใหม่” หลัง rebuild infrastructure ตั้งแต่เดือนกุมภาพันธ์.

  • สถาปัตยกรรม MoE, 295B total params, 21B active, 3.8B MTP layer
  • Context: 256K
  • เน้น complex reasoning, instruction following, code, agent tasks
  • Open source บน Hugging Face, GitHub, ModelScope, GitCode
  • ฟรีบน OpenRouter กับ OpenCode (จำกัดเวลา)
  • Deploy แล้วใน WeChat, QQ, Yuanbao

น่าลองโดยเฉพาะถ้าใช้ OpenRouter อยู่แล้ว — 21B active params ราคาจะถูกมากเทียบกับ frontier model ตัวอื่น.

Confidence: 70% (ต้นฉบับเป็นภาษาจีน + Juya body, ไม่ได้อ่าน primary source ภาษาอังกฤษ)


สงครามโมเดลจีน: Ant Group ปล่อย 2 ตัว, Xiaomi ปล่อย Speech, ByteDance ปล่อย 3D

Ling-2.6-1T — ล้านล้าน Parameter ไม่ใช้ Thinking Mode (Story #4)

蚂蚁百灵发布 Ling-2.6-1T 模型,提供试用并计划开源

Ant Group ปล่อย Ling-2.6-1T จุดเด่นคือไม่มี thinking mode แต่ใช้กลไก “Fast-Thinking” ทำให้ instruction execution แม่นยำโดยใช้ token น้อยมาก. เคลมเทียบเท่า GPT-5.4 (non-reasoning) และนำบน AIME26 สำหรับ non-reasoning model. ลองฟรีบน OpenRouter 1 สัปดาห์ กำลังเตรียม open source.

LLaDA2.0-Uni — Multimodal ครบจบในตัวเดียว (Story #5)

蚂蚁集团开源 LLaDA2.0-Uni 统一多模态模型

จาก Ant Group เช่นกัน. Unified dLLM-MoE 16B params (1B active/token). ทำได้ทั้ง text-to-image, VQA, document understanding, image editing ในโมเดลเดียว. ใช้ SigLIP-VQ tokenizer + diffusion decoder 8 step. มี SPRINT acceleration สำหรับ inference. Apache 2.0 license.

MiMo-V2.5 Speech Series — Xiaomi เข้าสนาม Voice (Story #6)

小米 MiMo 发布语音模型系列,8B 参数 ASR 开源

Xiaomi MiMo ปล่อย TTS 3 ตัว (base, VoiceDesign, VoiceClone) ให้ลองฟรี + ASR 8B open source.

ModelFunction
MiMo-V2.5-TTSVoice synthesis + singing
MiMo-V2.5-TTS-VoiceDesignสร้าง voice จาก text description
MiMo-V2.5-TTS-VoiceCloneClone voice จาก audio sample
MiMo-V2.5-ASR8B ASR, จีน-อังกฤษ-ภาษาถิ่น

TTS รองรับ multi-style switching (ประกาศ → กระซิบ → ตะโกน), emotion mixing, ควบคุมได้ถึงระดับตัวอักษร. Output 24kHz WAV/PCM16.

Seed3D 2.0 — ByteDance ทำ 3D Generation ระดับ Production (Story #8)

字节跳动发布 Seed3D 2.0,几何纹理生成达 SOTA 表现

Coarse-to-Fine DiT + PBR generation + MoE architecture. นักสร้าง 3D มืออาชีพ 60 คนประเมินแล้ว texture preference rate 69%+. SOTA ทั้ง geometry และ texture. API บน Volcano Engine.

Confidence: 85% (Stories #4-5 จาก Jina+GitHub, #6 จาก Jina, #8 จาก direct)


Developer Ecosystem: Memory, Voice, Auto-Review

Claude Managed Agents Memory — Public Beta (Story #9)

Claude 宣布 Managed Agents 内置记忆功能开启公开测试

Agent ของ Claude จำข้ามเซสชันได้แล้ว. Memory เก็บเป็นไฟล์บน filesystem — Claude ใช้ bash กับ code execution อ่านเขียนได้เลย. Enterprise features ครบ: scoped permissions, concurrent access, audit logs, version rollback.

ตัวเลขจากลูกค้า:

  • Rakuten: ลด first-pass error 97%, ต้นทุนลง 27%, latency ลง 34%
  • Wisedocs: document verification เร็วขึ้น 30%
  • Netflix: ใช้ cross-session context retention

ถ้ากำลังสร้าง agent ที่ต้องทำงานซ้ำหลายรอบ — นี่คือฟีเจอร์ที่ต้องลอง.

Codex + GPT-5.5 — จาก Code Tool สู่ Computer Agent (Story #10)

Codex 上线 GPT-5.5,优化浏览器控制并新增 Auto-review 模式

Codex ไม่ใช่แค่เขียนโค้ดอีกต่อไป. ตอนนี้เปิดเว็บได้ คลิกหน้าจอได้ ทำ spreadsheet ใน Office กับ Google Drive ได้. 400K context window. Fast mode เร็วขึ้น 1.5 เท่าแต่แพงขึ้น 2.5 เท่า.

ฟีเจอร์ที่น่าสนใจที่สุดคือ Auto-review mode: agent ตัวหนึ่งตรวจงาน agent อีกตัวก่อนทำ action ที่เสี่ยง. Agent reviewing agent — นี่คือรูปแบบที่จะเห็นมากขึ้นในปีนี้.

grok-voice-think-fast-1.0 — xAI เข้าสนาม Voice Agent (Story #7)

xAI 发布语音模型 grok-voice-think-fast-1.0

Voice model ที่ได้อันดับ 1 บน τ-voice Bench. คิดเบื้องหลังแบบ real-time ไม่เพิ่ม latency. รองรับ 25+ ภาษา. รับมือเสียงรบกวน สำเนียง การขัดจังหวะได้.

ตัวเลขจาก Starlink deployment:

  • ปิดการขายได้ 20% (1 ใน 5)
  • แก้ปัญหา support ได้ 70% โดยไม่ต้องคน
  • ใช้ 28 tools

Confidence: 90%


Anthropic + Google ยิงฟีเจอร์รัว

Claude Desktop รับโมเดลภายนอก (Story #11)

Claude 桌面端被发现支持配置第三方大语言模型接口

Claude Desktop ต่อ LLM ภายนอกได้แล้ว ผ่าน developer mode. รองรับ Vertex AI, Bedrock, Foundry หรือ gateway ใดก็ได้ที่มี /v1/messages endpoint. ไม่ต้อง login. IT admin สามารถ deploy ผ่าน MDM (.mobileconfig / registry policy) ได้เลย. มี security profile ตั้งแต่ Standard ถึง Locked Down (air-gapped).

Claude Desktop URL Scheme (Story #12)

Claude 桌面端支持 URL 协议唤起特定会话及文件

รองรับ claude:// deep link บน macOS + Windows. กดลิงก์แล้วเปิดตรงไปที่ chat, code หรือ cowork session. Prefill prompt ได้ถึง 14,000 ตัวอักษร. ใช้สร้าง “Open in Claude” button ใน workflow อื่นได้.

Claude Connectors +15 แอปชีวิตประจำวัน (Story #13)

Claude 扩展 Connectors,新增 15 款日常生活应用

เพิ่ม AllTrails, Audible, Booking.com, Instacart, Credit Karma, TurboTax, Resy, Spotify, StubHub, Taskrabbit, Thumbtack, TripAdvisor, Uber, Uber Eats, Viator. รวม connectors ทั้งหมด 200+. Dynamic suggestions ตามบริบท. ไม่มีโฆษณา ข้อมูลไม่ใช้ train model. ทุก plan ใช้ได้.

ChatGPT for Clinicians (Story #14)

OpenAI 发布 ChatGPT for Clinicians ,推出 HealthBench 评测基准

OpenAI ให้หมอในอเมริกาใช้ ChatGPT ฟรี (verified physicians, NPs, PAs, pharmacists). HealthBench Professional ทดสอบจาก 6,924 conversations — 99.6% rated safe and accurate. GPT-5.4 ใน clinical workspace ชนะทั้ง base model, โมเดลอื่น, และหมอผู้เชี่ยวชาญที่มีเวลาและอินเทอร์เน็ตไม่จำกัด. 72% ของแพทย์ตอนนี้ใช้ AI ในงานคลินิก (ขึ้นจาก 48%).

Gemini Conversation Branching (Story #15)

Gemini 推出对话分支功能,逐步推送中

Gemini เปิดฟีเจอร์แยกสาขาการสนทนา ปล่อยแล้ว 20% กำลัง ramp up. Josh Woodward เรียกว่า “papercut fixed”.

NotebookLM Updates (Story #16)

NotebookLM 优化多人分享流程,新增支持断点续学

Quiz กับ Flashcard ตอนนี้ save progress ได้ เรียนต่อจากจุดที่หยุด shuffle ลบ card ได้ track ว่า master แล้วหรือยัง. Sharing ง่ายขึ้น paste email เป็น batch ได้.

OpenClaw v2026.4.22 (Story #17)

OpenClaw 发布 2026.4.22 版,扩展多模型与语音支持

เพิ่ม Tencent Cloud (hy3-preview), xAI voice/image/STT, Voice Call streaming สำหรับ Deepgram/ElevenLabs/Mistral, Claude Opus 4.7 ผ่าน Bedrock Mantle. มี /models add command, TUI mode, auto-install plugin. GPT-5 behavior ใช้ร่วมกันข้าม provider ได้แล้ว.

Confidence: 90%


Research & Infrastructure

Vision Banana — Image Generation = Visual Understanding (Story #18)

Google DeepMind 提出 Vision Banana 模型,视觉任务达最优水平

Google DeepMind เสนอว่า image generation model สามารถเป็น generalist vision model ได้. Vision Banana สร้างจาก Nano Banana Pro ผ่าน light instruction fine-tuning. แปลง visual task เป็นปัญหา image generation.

ผลลัพธ์แบบ zero-shot:

TaskVision BananaBest Specialist
Cityscapes Semantic Seg (mIoU)0.842SegMan-L: 0.442
Instance Seg (pmF1)0.552SAM 3: 0.369
Referring Seg (cIoU)0.838HyperSeg+Phi2: 0.661
Depth Estimation (δ₁ avg)0.882

ไม่ต้องใช้ camera intrinsics. Fine-tuning ไม่ทำลาย generation capability. ทีมเสนอว่า generative pretraining จะเป็น paradigm ใหม่สำหรับ vision — เหมือนที่ LLM pretraining เป็นกับ NLP.

Decoupled DiLoCo — Train LLM ข้ามทวีปด้วย Internet ธรรมดา (Story #19)

Google DeepMind 提出 Decoupled DiLoCo 架构,支持低带宽跨区大模型训练

Google DeepMind สร้าง distributed training architecture ที่:

  • ลด bandwidth จาก 198 Gbps เหลือ 0.84 Gbps
  • ใช้ internet 2-5 Gbps ธรรมดาได้
  • เร็วกว่าวิธีเดิม 20 เท่า
  • Train 12B params ข้าม 4 ภูมิภาคในอเมริกา
  • 88% goodput vs 27% สำหรับ data-parallel (จำลอง 1.2 ล้าน chips)
  • ผสม TPU v6e กับ v5p ในงานเดียวกันได้
  • ML performance: Gemma 4 ได้ 64.1% vs baseline 64.4% (แทบไม่ต่าง)

แปลว่าอะไร: ถ้าคุณมี datacenter หลายที่ที่ต่อกันด้วย internet ธรรมดา ตอนนี้ train โมเดลใหญ่ข้ามที่ได้แล้ว ไม่ต้อง custom network. นี่อาจเปลี่ยนสมการว่าใครสามารถ train frontier model ได้.

Confidence: 95%


Industry Moves

OpenAI × NVIDIA: Codex ทั้งบริษัท (Story #20)

OpenAI 联合 NVIDIA 部署 Codex,万名员工接入 GPT-5.5

Sam Altman ประกาศว่า deploy Codex ที่ใช้ GPT-5.5 ให้ NVIDIA ทั้งบริษัท. 10,000+ คน 9 แผนก (engineering, product, legal, marketing, finance, sales, HR, operations, developer programs). NVIDIA เรียกว่า “shocking” และ “life-changing”. Sam ชวนบริษัทอื่นมาลองแบบเดียวกัน.

DeepSeek ขยับหลายทาง (Story #21)

DeepSeek 近期动作频频

  • TileKernels: GPU kernel library สำหรับ LLM ops สร้างด้วย TileLang. รองรับ MoE routing, FP8/FP4 quantization, Engram gating. ต้องการ SM90/SM100+ (Hopper/Blackwell). MIT license.
  • DeepEP v2: Expert parallel communication library reconstruct ใหม่. เร็วขึ้น 1.3 เท่า SM occupancy ลด 4 เท่า. มีฟีเจอร์ zero-SM experimental.
  • API Update: ชุมชนพบว่า API อัพเดทเงียบๆ น่าจะตรงกับ fast mode บนเว็บ.

Confidence: 90% (TileKernels/DeepEP จาก GitHub, API update จาก community report)


สรุปภาพรวมวันนี้

วันนี้เป็นวันที่ AI race ร้อนที่สุดวันหนึ่งของปี. OpenAI ปล่อย GPT-5.5 พร้อม benchmark ที่แข็ง Anthropic ออก postmortem แสดงความโปร่งใส (แม้ปัญหาจะกินเวลาเกือบ 2 เดือน) และฝั่งจีนปล่อยโมเดลพร้อมกันหลายตัวทั้ง Tencent, Ant Group, Xiaomi, ByteDance, DeepSeek.

สิ่งที่เห็นชัดคือ AI กำลังขยายจาก “chat” ไปสู่ “agent ที่ทำงานจริง” — Codex ควบคุมเว็บเบราว์เซอร์ได้ Claude มี memory ข้ามเซสชัน Grok ทำ voice sales agent. เครื่องมือเหล่านี้ไม่ใช่ demo อีกต่อไป — มีตัวเลข production จริงมาแสดง (Rakuten -97% error, Starlink 20% conversion, NVIDIA 10,000 คน).

Action Items

ทำทันที:

  • อัพเดท Claude Code เป็น v2.1.116+ (quality กลับมาแล้ว + quota reset)
  • ลอง GPT-5.5 ใน Codex ถ้ามี Plus ขึ้นไป
  • ลอง Hy3 preview ฟรีบน OpenRouter

⚠️ ระวัง:

  • GPT-5.5 long-context performance ลดลงเล็กน้อยเทียบ GPT-5.4 ใน 32K-128K range
  • SWE-Bench Pro มี memorization concern — อย่าเชื่อ benchmark ตัวนี้ 100%
  • Claude Desktop 3P mode เป็นฟีเจอร์สำหรับ IT admin ไม่ใช่ consumer

ได้ฟรี:

  • Ling-2.6-1T ลองฟรี 1 สัปดาห์บน OpenRouter
  • MiMo TTS/ASR ลองฟรี + ASR 8B open source
  • Hy3 preview ฟรีบน OpenRouter + open source
  • Claude Managed Agents memory public beta
  • ChatGPT for Clinicians (หมอในอเมริกา)

แหล่งข้อมูล

Confidence: 95% สำหรับข้อเท็จจริงที่แปลจากต้นฉบับ | 75% สำหรับ interpretation เชิงกลยุทธ์