Tinutulay ng DeepSeek-Prover-V2 ang impormal at pormal na pangangatwiran sa matematika

DeepSeek Prover V2

Ang artificial intelligence ay gumawa ng mga kahanga-hangang hakbang sa paglutas ng mga kumplikadong problema sa matematika, ngunit ang pagsasalin ng intuitive na pangangatwiran sa pormal, na-verify na machine na mga patunay ay nanatiling isang malaking hamon-hanggang ngayon.

DeepSeek AI icon Logo

DeepSeek AI ay inihayag kamakailan DeepSeek-Prover-V2, Isang open-source malaking modelo ng wika na kumakatawan sa isang pambihirang tagumpay sa pagpapakasal sa impormal na intuwisyon sa matematika na may mahigpit na katumpakan na kinakailangan ng mga pormal na sistema ng patunay.

Ang Hamon ng Formal Mathematical Reasoning

Deepseek Prover V2 - Formal Mathematical Reasoning

Karaniwang nilulutas ng mga mathematician ang mga problema gamit ang intuition, heuristics, at mataas na antas na pangangatwiran-kadalasan ay gumagamit ng mga cognitive shortcut na tila halata sa mga tao. Ang pamamaraang ito ay lubos na kabaligtaran sa pagpapatunay ng pormal na teorama, na nangangailangan ng kumpletong katumpakan sa bawat hakbang na tahasang sinabi at lohikal na nabibigyang katwiran.

Habang kamakailan malalaking modelo ng wika (LLMs) ay nagpakita ng kahanga-hangang kakayahang harapin ang kumplikado, antas ng kompetisyon sa mga problema sa matematika gamit ang natural na pangangatwiran ng wika, nahirapan silang i-convert ang intuitive na pangangatwiran na ito sa mga pormal na patunay na maaaring i-verify ng mga makina. Umiiral ang gap na ito dahil:

Ang impormal na pangangatwiran ay kadalasang naglalaman ng mga shortcut at implicit na hakbang.
Ang mga pormal na sistema ay nangangailangan ng tahasang pagbibigay-katwiran para sa bawat lohikal na hakbang.
Ang pag-convert sa pagitan ng natural na wika at pormal na notasyon ay nagdaragdag ng pagiging kumplikado.
Ang pagpapatunay ng patunay ng matematika ay nangangailangan ng ganap na katumpakan.

Paano Gumagana ang DeepSeek-Prover-V2: Bridging Informal and Formal Reasoning

DeepSeek-Prover-V2 gumagamit ng nobelang diskarte na pinagsasama ang lakas ng parehong impormal na pangangatwiran at pormal na pagpapatunay sa pamamagitan ng recursive theorem na nagpapatunay ng pipeline.

Makabagong Arkitektura ng Pagsasanay

Ang modelo's Ang pamamaraan ng pagsasanay ay sumusunod sa ilang mahahalagang hakbang:

Pagkabulok ng problema: Sinusuri ng DeepSeek-V3 ang mga problema sa matematika at pinaghiwa-hiwalay ang mga ito sa mas maliliit, napapamahalaang "mga subgoal" -na ginagaya kung paano tinutugunan ng mga mathematician ng tao ang mahihirap na problema.
Cold-start na pagsasanay: Kapag matagumpay na nalutas ang mga subgoal, pinagsasama ng system ang mga solusyong ito sa kumpletong pormal na mga patunay na ipinares sa DeepSeek-V3's chain-of-thought reasoning.
Pag-aaral ng pagpapalakas: Ang modelo ay tumatanggap ng feedback sa katumpakan ng solusyon at nagsasama ng isang pare-parehong gantimpala upang mabawasan ang hindi pagkakapantay-pantay sa istruktura sa pagitan ng mga nabuong patunay at lemma decomposition.

Ang diskarte na ito ay lumilikha ng isang natatanging balangkas na pinagsasama ang mataas na antas ng intuwisyon sa matematika sa katumpakan na hinihingi ng mga pormal na sistema ng pag-verify tulad ng Lean.

Tulad ng ipinaliwanag sa isang kamakailang breakdown sa YouTube: "Gumagamit sila ng DeepSeek-V3, ang kanilang malaking modelo ng wika upang mahawakan ang subgoal decomposition at pagkatapos ay pinagsama nila iyon sa reinforcement learning, na lumilikha ng isang solong modelo na maaaring pangasiwaan ang parehong impormal na pangangatwiran at pormal na henerasyon ng patunay".

Record-Breaking Performance

DeepSeek-Prover-V2's ang pagganap ay nagpapakita ng makabuluhang pag-unlad sa neural theorem na nagpapatunay:

88.9% pass ratio sa MiniF2F-test benchmark
Matagumpay na nalutas 49 sa 658 na problema mula sa PutnamBench
Nakamit ang mapagkumpitensyang mga resulta sa ProofNet at isang bagong ipinakilalang ProverBench
Nalutas 6 15 sa labas ng kamakailang mga problema sa kompetisyon ng AIME (kumpara sa DeepSeek-V3 na paglutas ng 8 na may mayoryang pagboto)

Ang modelo ay magagamit sa dalawang laki:

DeepSeek-Prover-V2-7B (7 bilyong parameter).
DeepSeek-Prover-V2-671B (671 bilyong parameter).

Ang parehong mga bersyon ay nagpapakita ng mga kahanga-hangang kakayahan, na may mas malaking 671B na variant na nagtatatag ng "isang bagong makabagong pagganap sa miniF2F-test benchmark, na nakakamit ng hindi pa nagagawang katumpakan na may 32 sample lamang kapag ginagamit ang diskarte sa pagbuo ng CoT".

Pagpapaliit ng Gap sa Pagitan ng Human at Machine Reasoning

Ang dahilan kung bakit partikular na makabuluhan ang DeepSeek-Prover-V2 ay kung paano nito tinutugunan ang matagal nang pagkakahati sa pagitan ng kung paano lumalapit ang mga tao sa matematika at kung paano gumagana ang mga pormal na sistema ng pag-verify.

Ang mga eksperimentong resulta ay nagpapakita na ang agwat sa pagitan ng pormal at impormal na pangangatwiran sa matematika sa malalaking modelo ng wika ay lubos na lumiliit.
- tala sa research paper

Iminumungkahi nito na papalapit tayo sa AI mga sistema na hindi lamang makakapaglutas ng mga problema sa matematika ngunit gumagawa din ng mga napapatunayang patunay na sumusunod sa mga pormal na pamantayan sa matematika.

Ang pag-unlad na ito ay kumakatawan sa isang makabuluhang hakbang pasulong sa dalawang mahalagang paraan:

Praktikal na pag-verify ng matematika: Sa pamamagitan ng pagsasama ng intuitive na paglutas ng problema sa pormal na pagbuo ng patunay, ginagawa ng DeepSeek-Prover-V2 na mas naa-access ang machine-verify na matematika.
Potensyal sa edukasyon: Ang sistema's kakayahan na masira ang mga kumplikadong problema sa mga napapamahalaang subgoal ay sumasalamin sa mga epektibong pamamaraan ng pagtuturo, na nagmumungkahi ng mga aplikasyon sa edukasyong matematika.

Mga Aplikasyon at Mga Implikasyon sa Hinaharap

Ang DeepSeek-Prover-V2 ay nagbubukas ng mga pinto sa maraming aplikasyon sa iba't ibang domain:

Pagsulong ng pananaliksik: Pagpapabilis ng mga pagtuklas sa matematika sa pamamagitan ng pag-automate ng pormal na pag-verify
Mga gamit pang-edukasyon: Pagtulong sa mga mag-aaral na matuto ng matematikal na pangangatwiran sa pamamagitan ng hakbang-hakbang na pormalisasyon
Pag-verify ng software: Paglalapat ng mga pormal na pamamaraan ng patunay upang i-verify ang mga kritikal na sistema ng software
Paggalugad ng algorithm: Pagtuklas at pagpapatunay ng pinakamainam ng mga algorithm sa pamamagitan ng mga pormal na pamamaraan

Mga mananaliksik sa Quantum Zeitgeist. Nabanggit,

Ang DeepSeek-Prover-V2 ay nakatayo bilang isang makapangyarihang tool para sa sumusulong na pananaliksik sa pormal na teorama na nagpapatunay at mathematical na pangangatwiran, na nag-aalok ng parehong praktikal at teoretikal na mga benepisyo

Konklusyon

Ang DeepSeek-Prover-V2 ay isang game-changer para sa AI-driven na math, na sinisira ang mga lumang hadlang sa pagitan ng human intuition at pormal na patunay. Sa pamamagitan ng open-source na paglabas nito, pagkasira ng matalinong subgoal, at record-breaking benchmark stats, ito na ngayon ang go-to toolkit para sa sinumang mahilig sa AI-powered mathematical verification o edukasyon.

Kung gusto mo ng susunod na antas ng katumpakan at gusto mong makita AI tunay"mag-isip” parang a matematika, DeepSeek-Prover-V2 ay kung saan ang aksyon ay nasa.

Mag-iwan ng Sagot

Ang iyong email address ay hindi nai-publish. Mga kinakailangang patlang ay minarkahan *

Ang site na ito ay gumagamit ng Akismet upang mabawasan ang spam. Matutunan kung paano pinoproseso ang iyong data ng komento.

Sumali sa Aimojo Tribo!

Sumali sa 76,200+ miyembro para sa insider tips bawat linggo! 
🎁 BONUS: Kunin ang aming $200"AI Mastery Toolkit” LIBRE kapag nag-sign up ka!

Nagte-trend AI Kagamitan
AskCodi

Ang Multi-Model AI Plataporma ng Pag-coding na Nag-aalis ng Vendor Lock-In Ang iyong pinag-isang gateway papunta sa GPT, Claude, Gemini at mga open source na LLM sa iisang workspace.

ScraperAPI

Gawing Structured Data ang Anumang Web Page Gamit ang Isang API Call Ang smart proxy at CAPTCHA solver na ginawa para sa mga developer na mahilig sa malawakang paggamit

Trinka AI

Ang Akademikong Katulong sa Pagsusulat na Mas Mabilis na Nagpapalathala ng Iyong Pananaliksik AI Grammar Checker na Ginawa para sa Iskolar at Teknikal na Pagsusulat

DiffusionHub

Patakbuhin ang Stable Diffusion sa Cloud Nang Walang GPU Ang Iyong On-Demand AI Plataporma ng Paglikha ng Sining at Video

kaiber

Gawing Nakamamanghang ang Tunog, Teksto, at mga Larawan AI Binuong Video Ang Walang-hanggang Kanbas para sa mga Musikero, Artista, at Tagalikha ng Biswal

© Copyright 2023 - 2026 | Maging isang AI Pro | Ginawa gamit ang ♥