Jak Jsou Odhalena Tajemství Rukopisu Voynich: Vyšetřování - Alternativní Pohled

2024 Autor: Keith Bush | [email protected]. Naposledy změněno: 2023-12-16 14:06

Co stojí za senzačními zprávami o Voynichově rukopisu a o ruských vědcích, je možné přesně určit jazyk z textu, jak přiměření jsou matematici při práci na „poli“lingvistiky.

19. dubna ruská média šířila zprávy o „epochálním“objevu ruských matematiků: pomocí nové metody vědci nejen prokázali smysluplnost slavného „Voynichova rukopisu“, ale dokázali také určit, že byl napsán ve dvou jazycích, s výjimkou dopisů pro samohlásky.

Voynichův rukopis je středověký ilustrovaný rukopis zakoupený v roce 1912 starožitníkem Wilfredem Voynichem. Byl vytvořen v 15. století (na základě radiokarbonové analýzy pergamenu - ale většina vědců v současné době nepovažuje samotný text za pozdější padělek), je napsán v neznámém jazyce pomocí neznámé abecedy. Soudě podle ilustrací text sestává z tematických bloků: botanického, astronomického, farmakologického a dalších. Složitost dekódování textu učinila z Voynichova rukopisu „svatý grál“pro kryptografy a objekt mnoha studií, včetně těch, které používají metody Big Data.

Zprávy o rukopisu byly hlášeny jako něco senzačního. To okamžitě vzbudilo určité obavy. "Předtím selhaly všechny pokusy o dešifrování jedinečného dokumentu a dokonce jen pochopení, zda se jedná o smysluplný text." 600 let zbytečného úsilí!.. Jejich úplnou impotenci podepsali kryptografové CIA a NSA, superpočítače a dokonce i lékaři „okultních věd“. Poslední zpráva od kryptologa Gordona Rugga z Keele University ve Velké Británii zní: „Voynichův rukopis je falešný. Takový „složitý text“lze snadno vytvořit pro každého, kdo je obeznámen s jednoduchými metodami kopírování, “uvádí se v článku.

Zaprvé, smysluplnost textu byla uznána již v 70. letech a několikrát potvrzena ve studiích z 90. let, o nichž se dostatečně podrobně psalo i v domácích médiích. Za druhé, objev předložený novinkám byl představen pouze ve formě předtisku ústavu, a nikoli v článku v mezinárodním recenzovaném časopise (předtisk byl také publikován v roce 2016).

Tyto zvláštnosti v prezentaci materiálu nás donutily hledat objasnění nejprve u autora studie a poté u nezávislých odborníků - lingvistů, kteří pracují se statistickými a matematickými metodami i s dekódováním starověkých skriptů.

Je snadné napsat vzorec, ale je velmi nákladné provádět numerickou analýzu

Propagační video:

Nejprve stručně o podstatě studie. Autoři předtisku, matematici z Moskevského fyzikálního a technologického ústavu a Ústavu aplikované matematiky Ruské akademie věd, spoléhají na svá díla, podle nichž „frekvenční distribuce textových symbolů je stabilní charakteristikou nikoli pro autora nebo předmět textu, ale pro jazyk“. To znamená, že pomocí množiny pomocí matematických nástrojů je možné určit, v jakém jazyce je napsán, vzhledem k tomu, že každý jazyk má svůj vlastní charakteristický „profil“(distribuce Hurstova exponenta). Dále vědci na základě těchto metod zjistili, že text rukopisu byl napsán ve směsi několika jazyků. Současně s tím byly přidány falešné mezery a symboly označující zvuky samohlásek byly odstraněny.

Hlavní autor studie, Yuri Orlov (IPM RAS a MIPT), zdůraznil, že Voynichův rukopis není vůbec hlavním cílem jejich práce. „„ Senzační “rukopis je pouze ilustrací matematické metody rozpoznávání jazyků z textu - což je ve skutečnosti problém pro strojové učení,“řekl Orlov.

Samotný rukopis nás absolutně nezajímá. Věda konkrétně odkazuje na statistiku jazyků. Díky tomu můžeme pochopit, v jakém jazyce je tento rukopis napsán. Ale ne to, co je tam napsáno, to je důležitý bod. - Jurij Orlov. MIPT a Ústav aplikované matematiky pojmenované po M. V. Keldysh

Pokud jde o jazykovou metodu použitou v práci, Orlov poznamenává, že samotná analýza frekvence kombinací písmen v textech je dobře známá věc. Hurstův indikátor je však lingvistům málo známý, protože je obtížné jej vypočítat ani z matematického hlediska. Samotný vzorec se snadno píše, ale numerická analýza je velmi nákladná. K tomu superpočítač umístěný v Ústavu pojmenovaný po M. V. Keldysh, zdůrazňuje matematik.

Volba indoevropských jazyků pro analýzu je vysvětlena skutečností, že všechny jsou si velmi podobné, říká Orlov. Indikátory vyvinuté matematiky usnadňují rozlišení jazyků ve stejné jazykové skupině, ale ne mezi rodinami. Samozřejmě je teoreticky možné provádět stejnou práci s jinými skupinami (Ural, Altai nebo jinými), ale hodnota analýzy spočívá v její úplnosti, Orlov si je jistý. V případě indoevropských jazyků není těžké napsat korpus textů pro každý jazyk; je obtížnější to udělat s jinými rodinami.

Vrátíme-li se k rukopisu Voynich, Orlov poznamenal, že on a jeho kolegové citovali pět důkazů (logaritmický profil četnosti řazení písmen v textu v jednom a několika jazycích, distribuce Hurstova exponenta, spektrální portrét matice podmíněných pravděpodobností a další) hypotézy o směsi jazyků v rukopisu a vypuštění dopisy pro samohlásky. Důrazně se distancují od „setkání kolem rukopisu“, ale představili jedinečný výsledek - otevřenou metodu, statistickou analýzu s hodnocením spolehlivosti, kterou lze nezávisle ověřit.

„Závěr je odsuzován skutečností, že nerozumíme, z jakého materiálu pocházeli a z čeho kontrolovali jejich vzorec.“

Samotný předpoklad, že text Voynichova rukopisu postrádá písmena pro samohlásky, s nesprávně rozmístěnými mezerami, je krásný a dobrý, poznamenává lingvistka Evgenia Korovina, která se zabývá matematickými statistikami jazyka (lingvistický ústav, Ruská akademie věd). Dříve nikdo takovou hypotézu nepředložil. Například nádherně vysvětluje, proč je méně písmen, než by se u evropského textu očekávalo. Problém však je, že autoři studie ani neuvedli, které texty v různých jazycích srovnávali a jaký byl objem těchto testů. Předtisk uvádí velké množství jazyků. Studie proto není reprodukovatelná: pokud pořizujete libovolné texty ve stejných jazycích, není pravda, že vyjdou stejné vzory.

Maria Molina, odbornice na korpusové metody při studiu starověkých jazyků (Jazykovedný ústav, RAS), souhlasí s Korovinou. Nové metody zpracování jazykových údajů podle jejího názoru pomáhají získat informace o tom, co bylo dříve uzavřeno pro výzkumníky jazyků. Špatně připravený vstupní materiál však často diskredituje i ty nejlepší techniky zpracování dat.

Závěr odsuzuje skutečnost, že nechápeme, z jakého materiálu kreslili a z čeho kontrolovali jejich vzorec. Pokud jde o můj materiál, vím jistě, že došlo k malé metodické chybě - a dostávám kriticky různá čísla. - Maria Molina. Jazykovedný ústav RAS

„Garbage in - garbage out,“dodává Molina (GIGO je princip v počítačové vědě, což znamená, že nesprávná vstupní data budou mít za následek nesprávné výsledky, i když samotný algoritmus je správný, - poznámka Indicator. Ru).

„Statistické metody jsou stále náznaky výsledků, nikoli výsledků.“

Albert Davletshin (zaměstnanec Centra lingvistických srovnávacích studií Ústavu pro srovnávací studia Ruské státní univerzity pro humanitní vědy, studuje mayské a polynéské jazyky) hovořil ještě ostřeji. Pokud autoři předtisku nechystali dešifrovat Voynichův rukopis, proč to dělají? A dále, pokud mluvíme konkrétně o dekódování neznámého písma, vyvstává otázka za otázkou: „Neexistují žádné počáteční údaje o psaní - jaký typ dopisu? Jak se získávají různé přepisy? Kolik znaků? Co je základem stávajících předpokladů o povaze psaní? Jaká je délka slova odděleného mezerami a bez mezer? Co znamenají mezery? Jak velký je slovník? Jaký je poměr podpisů a kreseb?

Nejprve se ukázalo, že text je dánský a pouze dánský (a to je historicky nemožné, o čemž v práci není ani slovo). Pak se ukázalo, že text je ve dvou neznámých jazycích (ověření v této fázi se ukázalo jako nemožné a je převzato z víry). Kromě toho existuje mnoho konzervativních způsobů, jak ukázat, že dvě (velké) stránky jsou psány jedním písmenem, ale v různých jazycích, aniž by se uchýlilo ke složitým matematickým modelům. Nakonec, jsou-li z textu odstraněny samohlásky, do jaké míry to potvrzují standardní, dlouho známé metody (například Sukhotin, Shevoroshkin a Ventris)? “

Davletshin také kritizuje necitlivost na filologii a historii charakteristickou pro tento druh výzkumu:

To, co vidím v textu: často existují lidé, kteří si chtějí vzít zdroj X a zapomenout, že je to zdroj a existuje v nějakém historickém, včetně lingvistického, kontextu a nějak v něm něco spočítat. Hypotéza, že v rukopisu je více než jeden jazyk, je zajímavá. Ale dalo by se to nějak ukázat lidsky. Statistické metody jsou stále náznaky výsledků, nikoli výsledků. -Albert Davletshin. Centrum lingvistických srovnávacích studií, IVKA RSUH

Neexistuje žádné kritérium pro rozlišení zajímavých výsledků od hrozných

Vyváženější pozici zaujal Georgy Starostin, expert na srovnávací historickou lingvistiku (RSUH). Více ho zajímalo, jak užitečné jsou nové matematické metody pro řešení problémů lingvistů. "Model představený v článku působí zvláštním dojmem." Na jedné straně se zdá, že patří do kategorie „nevidomých“, kdy analyzuje textová data bez předběžných úsudků o struktuře abecedy (například digrafy, stejně jako anglické ch, sh, by měly být považovány za kombinace dvou písmen, i když je to vlastně jedno zvuk). Na druhé straně jsou samohlásky vyhozeny z porovnávaných řetězců, které podle autorů textu obsahují méně informací a spíše přidávají šum. Obecně je testovací základna zjevně velmi malá, je nemožné mluvit o něčem zásadním v tolika jazycích. “

Výsledky srovnání indoevropských a uralských jazyků uvedené ve srovnávací tabulce 3 v článku nevyvolávají u Starostina zvláštní optimismus. Některé ukazatele míry blízkosti jazyků jsou zachyceny dobře (například intra-germánské nebo intra-románské souvislosti), některé špatně (například metodika již neidentifikuje indoevropskou rodinu). Hlavní věc je, že neexistuje žádné kritérium pro rozlišení zajímavých výsledků od hrozných. V nejlepším případě metoda umožňuje vyčlenit malé jazykové skupiny (i když ani zde nefunguje mezi úzce souvisejícími finskými a estonskými), ale všechny tyto skupiny lze bez ní spolehlivě identifikovat.

Tabulka 3 z předtisku, která uvádí výsledky srovnání indoevropských a uralských jazyků. Stejná barva v tabulce. Jsou identifikovány 3 skupiny jazyků, které jsou párově blízké (ve smyslu normy L1 distribuce uspořádaných frekvencí v textech bez samohlásky). Některé neočekávaně blízké jazykové páry jsou označeny červeně, například německy / maďarsky, anglicky / estonsky, latinsky / baskicky a řecky / finsky. Autoři předtisku: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Nakonec je zajímavý nápad určit genetickou charakteristiku jazyka distribucí Hurstova exponenta a možná dokonce přivést do nějakého vědeckého bodu. To ale bude vyžadovat zpracování velkého počtu textů v různých jazycích. A okamžitě nastává problém: mnoho jazyků je nepsaných a jak správné je porovnávat abecední záznamové systémy s fonetickými přepisy zůstává nejasné. Z této myšlenky bude mít velmi malý praktický smysl, je si jistý Starostin. V nejlepším případě to lze skutečně použít na případy, jako je rukopis Voynich, kdy existuje hypotéza, že některý jazyk se standardním abecedním písmem je šifrován podle určitých zásad (například s vypuštěním samohlásek atd.). Na světě je však takových incidentů velmi málo.

Shrnutí

Co je ve spodním řádku? Diskuse kolem výzkumu IPM a MIPT odhalila hluboký rozpor mezi jazykovou komunitou (i těmi, kteří používají statistické metody) a „outsidery“ohledně lingvistických specialistů, kteří se rozhodli použít své matematické nástroje na jazykový materiál.

Skutečnost, že matematici nechtějí spolupracovat s lingvisty, nevede jen k hrubým omylům, které pak migrují do médií (například baskičtina v předtisku se nazývá indoevropská, existuje fráze „samohlásková písmena“). Krása modelů a výpočetní výkon superpočítačů jsou ve skutečnosti znehodnoceny chybami v okamžiku vstupu. Znovu, s touhou a otevřeností kontaktů s kolegy z jiné disciplíny, těmto chybám se dalo snadno vyhnout.

Podívejte se zde na samotný Voynichův rukopis.