Diese Seite mit anderen teilen ...

Informationen zum Thema:
Forum:
ChessBits-Computerschachforum
Beiträge im Thema:
26
Erster Beitrag:
vor 13 Jahren, 6 Monaten
Letzter Beitrag:
vor 13 Jahren, 6 Monaten
Beteiligte Autoren:
Rainer Neuhäusler, marcus kästner, Martin Schubert, Christian Goralski, HJS, ELVIS, Helmut Conrady

CM 8000: Das

Startbeitrag von HJS am 17.06.2001 15:25

Eingebunden in einem kleinen Turnier wollte ich mir einen Eindruck der diversen CM 8000 Spielstile verschaffen. Die Rahmenbedingungen sahen wie folgt aus: Testrechner Athlon 733 Mhz, 384 MB RAM. Gespielt wurde ohne Ponder und mit Autoplayer, mit der Bedenkzeit von 2 Stunden pro Seite für die Partie. Jede CM-Version erhielt 64 MB für Hash Tables und das Tournament.Book von Brian Kostik.


Die Original-Version von CM 8000 steht bislang in keinem besonders gutem Ruf.
Es wurde u.a. abgeschlagen letzter in Aufseß 2001 und erhielt in der SSDF eine jämmerliche Einstiegszahl. Ist das Programm in der Grundeinstellung wirklich so schlecht wie es scheint!? Ich meine nicht, im Gegenteil! Nachdem ich mich lange mit dem Programm beschäftigt habe, komme ich zu dem Schluss, das es sich beim CM 8000 um ein absolutes Spitzenprogramm handelt und das ohne jede Spielerei an den Settings! Schauen wir uns nun das Abschneiden vom CM in meinem Spezial-Turnier:

(3) CM 8000 Original : 18 (+ 4,= 12,- 2), 55.6 %

Gambit Tiger 2.0 : 2 (+ 0,= 2,- 0), 50.0 %
Deep Shredder : 2 (+ 0,= 2,- 0), 50.0 %
Gandalf UCI : 2 (+ 1,= 1,- 0), 75.0 %
CM 8000+ : 2 (+ 1,= 1,- 0), 75.0 %
Chess Tiger 14.0 : 2 (+ 0,= 2,- 0), 50.0 %
Fritz 6c : 2 (+ 1,= 1,- 0), 75.0 %
CM-Bednorz : 2 (+ 1,= 1,- 0), 75.0 %
CM-Utzinger : 2 (+ 0,= 1,- 1), 25.0 %
CM 8556 : 2 (+ 0,= 1,- 1), 25.0 %


Durchweg respektable Resulate gegen die derzeitige Top-Five! Lediglich gegen CM-Utzinger und CM-8556 von Andreas Stauche gab es eine negative Punkteausbeute in den zwei Partien! 10 Punkten aus 18 Partien hätte in diesem starken Feld wohl kaum ein Gurkenprogramm holen können!

In der Gesamttabelle sieht das dann so aus :


Program Score % Av.Op. Elo + - Draws

1 Chess Tiger 14.0 : 12.5/ 18 69.4 2585 2728 149 132 38.9 %
2 Gambit Tiger 2.0 : 11.5/ 18 63.9 2589 2688 157 127 38.9 %
3 CM 8000 Original : 10.0/ 18 55.6 2595 2634 172 73 66.7 %
4 CM 8000+ : 9.0/ 18 50.0 2599 2599 146 146 33.3 %
5 CM-Bednorz : 8.5/ 18 47.2 2601 2582 118 178 38.9 %
6 Deep Shredder : 8.0/ 18 44.4 2603 2564 129 172 33.3 %
7 CM 8556 : 8.0/ 18 44.4 2603 2564 110 172 44.4 %
8 Gandalf UCI : 7.5/ 18 41.7 2605 2547 143 167 27.8 %
9 Fritz 6c : 7.5/ 18 41.7 2605 2547 143 167 27.8 %
10 CM-Utzinger : 7.5/ 18 41.7 2605 2547 122 167 38.9 %


An den beiden Tiger kommt erwrtungsgemäß niemand heran, sie dominieren eindeutig z.Z. das Geschehen. Auf Platz drei dann nicht etwa einer der vielgepriesenen CM 8000 Spielstile, nein, das "Origninal"! Dahinter mit einem Punkt, die kleine Variation mit Select 8, im Grunde also auch die Originaleinstellung! Alle anderen CM-Versionen liegen dahinter! Das will nun nicht heißen, das sie nichts taugen oder vielleicht eindeutig schwächer sind, aber eins ist mir jedoch daraus klar geworden: Kein CM-Spielstil spielt wirklich merklich besser als die Original-Settings, wer hier meint den Stein der Weisen gefunden zu haben, ist auf dem Holzweg! All die schönen und phantasievollen Parameter-Änderungen bringen in der Praxis beim CM 8000 reichlich wenig!

Doch woran liegt es, das der CM 8000 so bescheiden Resultate erspielte, wie z.B. in Aufseß oder jetzt in der SSDF? In Aufseß kam eine nicht gepatchte Version zum Einsatz, die viel zu schnell zog, ein Problem was damals bereits bekannt war und vom Bediener nicht berücksichtigt wurde. Der Sachverhalt ist eindeutig klar und kann kein Maßstab sein, weil im Endeffekt nur eine defekte Version spielte.

Klar ist auch, das die Original mitgelieferte Eröffnungsbibliothek vom CM 8000 absoluter Schrott ist und sicher zu dem schlechten Abschneiden in der SSDF beitrug. Weiterhin ist der CM wegen mangelnder Lernfähigkeit in längeren Wettkämpfen, wie sie in Schweden stattfinden, eindeutig gegen gute Lerner wie Fritz benachteiligt, gerade in Verbindung mit der kleinen, miesen Bibliothek!
Außerdem ist die Bedienung des CM 8000 kritisch, fatale Einstellungsfehler sind schnell passiert! So müssen die Hash Tables als Persönlichkeit abgespeichert werden, weile ansonsten mit nur einem MB spielt. Oder die Info-Anzeige zum Rechenvorgang. Wer hier etwas falsches anklickt, also nicht Weiß oder Schwarz, sondern das naheliegende CM 8000 (!), der reduziert bei aktivem Spielstil, der ja für größere Hash Tables nötig ist, mal eben um 50% die Rechengeschwindigkeit!
Eine tückische Falle, die sicherlich für unsere "Experten" aus Schweden eventuell das ein oder andere mal erlegen sind!? Ich will aber nichts unterstellen, aber eins ist für mich klar: In der SSDF ist der CM 8000 extrem unterbewertet, egal, woran es denn im Endeffekt auch liegen mag.

Noch ein Wort zur Einbindung des CM 8000 als Winboard-Engine unter anderen GUIs:
Unter Shredder 5 gibt es keinerlei Probleme und Einbußen an Spielstarke, während unter den bekannten CB-GUI wie Fritz 6 Unregelmäßigkeiten auftreten können. Ich würde jedenfalls bei längeren Bedenkzeiten genau die Partien prüfen, denn wenn die Between.Ini nicht sauber eingestellt ist, gibt es fatale "Blitzzüge" mitten im Spiel! Ich empfehle deshalb eher den Einsatz unter der Shredder 5 GUI!


PS: Wenn Junior 7 bei mir eintrifft, wird dieser im oben beschriebenen Turnier als vorerst letztes Programm nachträglich mit aufgenommen! Die CM-Stil Prüfung ist für mich nun abgeschlossen, weil der Sachverhalt wohl geklärt sein dürfte.
Partien des Turniers als PGN-Datei
Antworten:
Hi!

Vielen Dank für Deinen enorm interessanten Partientest des Chessmaster 8000 Engine bzw. Settings !

Versuche mal die folgende InBetween.ini und die Blitzzüge (0 sec Züge) verschwinden.

[Client2Server]
xboard := xboard\npost\nnew\ncm_parm tts=33554432\ncm_parm opk=484352

[Server2Client]
2000 := 2
2001 := 2
2002 := 2
3000 := 3
3001 := 3
3002 := 3
3003 := 3
4000 := 4
4001 := 4
4002 := 4
4003 := 4
4004 := 4
5000 := 5
5001 := 5
5002 := 5
5003 := 5
5004 := 5
5005 := 5
6000 := 6
6001 := 6
6002 := 6
6003 := 6
6004 := 6
6005 := 6
6006 := 6
7000 := 7
7001 := 7
7002 := 7
7003 := 7
7004 := 7
7005 := 7
7006 := 7
7007 := 7
8000 := 8
8001 := 8
8002 := 8
8003 := 8
8004 := 8
8005 := 8
8006 := 8
8007 := 8
8008 := 8
9000 := 9
9001 := 9
9002 := 9
9003 := 9
9004 := 9
9005 := 9
9006 := 9
9007 := 9
9008 := 9
9009 := 9
10000 := 10
10001 := 10
10002 := 10
10003 := 10
10004 := 10
10005 := 10
10006 := 10
10007 := 10
10008 := 10
10009 := 10
10010 := 10
11000 := 11
11001 := 11
11002 := 11
11003 := 11
11004 := 11
11005 := 11
11006 := 11
11007 := 11
11008 := 11
11009 := 11
11010 := 11
11011 := 11
12000 := 12
12000 := 12
12001 := 12
12002 := 12
12003 := 12
12004 := 12
12005 := 12
12006 := 12
12007 := 12
12008 := 12
12009 := 12
12010 := 12
12011 := 12
12012 := 12
13000 := 13
13001 := 13
13002 := 13
13003 := 13
13004 := 13
13005 := 13
13006 := 13
13007 := 13
13008 := 13
13009 := 13
13010 := 13
13011 := 13
13012 := 13
13013 := 13
14000 := 14
14001 := 14
14002 := 14
14003 := 14
14004 := 14
14005 := 14
14006 := 14
14007 := 14
14008 := 14
14009 := 14
14010 := 14
14011 := 14
14012 := 14
14013 := 14
14014 := 14
15000 := 15
15001 := 15
15002 := 15
15003 := 15
15004 := 15
15005 := 15
15006 := 15
15007 := 15
15008 := 15
15009 := 15
15010 := 15
15011 := 15
15012 := 15
15013 := 15
15014 := 15
15015 := 15
16000 := 16
16001 := 16
16002 := 16
16003 := 16
16004 := 16
16005 := 16
16006 := 16
16007 := 16
16008 := 16
16009 := 16
16010 := 16
16011 := 16
16012 := 16
16013 := 16
16014 := 16
16015 := 16
16016 := 16
17000 := 17
17001 := 17
17002 := 17
17003 := 17
17004 := 17
17005 := 17
17006 := 17
17007 := 17
17008 := 17
17009 := 17
17010 := 17
17011 := 17
17012 := 17
17013 := 17
17014 := 17
17015 := 17
17016 := 17
17017 := 17
18000 := 18
18001 := 18
18002 := 18
18003 := 18
18004 := 18
18005 := 18
18006 := 18
18007 := 18
18008 := 18
18009 := 18
18010 := 18
18011 := 18
18012 := 18
18013 := 18
18014 := 18
18015 := 18
18016 := 18
18017 := 18
18018 := 18
19000 := 19
19001 := 19
19002 := 19
19003 := 19
19004 := 19
19005 := 19
19006 := 19
19007 := 19
19008 := 19
19009 := 19
19010 := 19
19011 := 19
19012 := 19
19013 := 19
19014 := 19
19015 := 19
19016 := 19
19017 := 19
19018 := 19
19019 := 19
20000 := 20
20001 := 20
20002 := 20
20003 := 20
20004 := 20
20005 := 20
20006 := 20
20007 := 20
20008 := 20
20009 := 20
20010 := 20
20011 := 20
20012 := 20
20013 := 20
20014 := 20
20015 := 20
20016 := 20
20017 := 20
20018 := 20
20019 := 20
20020 := 20
21000 := 21
21001 := 21
21002 := 21
21003 := 21
21004 := 21
21005 := 21
21006 := 21
21007 := 21
21008 := 21
21009 := 21
21010 := 21
21011 := 21
21012 := 21
21013 := 21
21014 := 21
21015 := 21
21016 := 21
21017 := 21
21018 := 21
21019 := 21
21020 := 21
21021 := 21
22000 := 22
22001 := 22
22002 := 22
22003 := 22
22004 := 22
22005 := 22
22006 := 22
22007 := 22
22008 := 22
22009 := 22
22010 := 22
22011 := 22
22012 := 22
22013 := 22
22014 := 22
22015 := 22
22016 := 22
22017 := 22
22018 := 22
22019 := 22
22020 := 22
22021 := 22
22022 := 22

MFG. Christian Goralski

von Christian Goralski - am 17.06.2001 15:32
....auch von meiner Seite aus vielen Dank für diese Müh(sal) !

Die .ini von Christian ist übrigens auch mehr als nur'n "auge drauf zu werfen " wert.

Habe ich permission, das an UBIsoft weiterzuleiten ?

c/u

:hot:

EL

Fernschach International


von ELVIS - am 17.06.2001 15:58
Hi!

Von meiner Seite kein Problem, weil ich auch durch das CSS Forum zu dieser InBetween.ini gekommen bin!

Auf jeden Fall behebt diese Ini die "0 Sekunden Züge"!

MFG. Christian Goralski

von Christian Goralski - am 17.06.2001 17:00
Christian Goralski schrieb:
>
> Hi!
>
> Von meiner Seite kein Problem, weil ich auch durch das CSS
> Forum zu dieser InBetween.ini gekommen bin!
>
> Auf jeden Fall behebt diese Ini die "0 Sekunden Züge"!
>

Thanx - mach' ich - mit Namensnennung - natürlich ;-)

wie war das - aus welchem - Forum ?? :joke:

c/u

:hot:

EL

Fernschach International


von ELVIS - am 17.06.2001 17:28
Hi!

Die Ehre gebührt Wilhelm Hudetz der im CSS Forum diese modifizierte InBetween.ini veröffentlicht hat!

MFG. Christian Goralski

von Christian Goralski - am 17.06.2001 19:03

Re: CM 8000: Spielstärke nwv ungeklärt

HJS schrieb:
>
> Eingebunden in einem kleinen Turnier wollte ich mir einen
> Eindruck der diversen CM 8000 Spielstile verschaffen. Die
> Rahmenbedingungen sahen wie folgt aus: Testrechner Athlon 733
> Mhz, 384 MB RAM. Gespielt wurde ohne Ponder und mit Autoplayer,
> mit der Bedenkzeit von 2 Stunden pro Seite für die Partie. Jede
> CM-Version erhielt 64 MB für Hash Tables und das
> Tournament.Book von Brian Kostik.
> Die Original-Version von CM 8000 steht bislang in keinem
> besonders gutem Ruf.
________
Das kannst du laut sagen. Selbst Marcus hält die Engine für total vermurckst :-)
---------------
> Es wurde u.a. abgeschlagen letzter in Aufseß 2001 und erhielt
> in der SSDF eine jämmerliche Einstiegszahl.
_________-
Die SSDF-Einstiegszahl war bei C.Lykke 2550. Du meinst das jetzige Rating bei 2502 Elo/450 MHz nach immerhin schon 191 Partien auf Turnierstufe.
----------------
Ist das Programm in
> der Grundeinstellung wirklich so schlecht wie es scheint!? Ich
> meine nicht, im Gegenteil! Nachdem ich mich lange mit dem
> Programm beschäftigt habe, komme ich zu dem Schluss, das es
> sich beim CM 8000 um ein absolutes Spitzenprogramm handelt und
> das ohne jede Spielerei an den Settings! Schauen wir uns nun
> das Abschneiden vom CM in meinem Spezial-Turnier:
>
> (3) CM 8000 Original : 18 (+ 4,= 12,- 2), 55.6 %
>
> Gambit Tiger 2.0 : 2 (+ 0,= 2,- 0), 50.0 %
> Deep Shredder : 2 (+ 0,= 2,- 0), 50.0 %
> Gandalf UCI : 2 (+ 1,= 1,- 0), 75.0 %
> CM 8000+ : 2 (+ 1,= 1,- 0), 75.0 %
> Chess Tiger 14.0 : 2 (+ 0,= 2,- 0), 50.0 %
> Fritz 6c : 2 (+ 1,= 1,- 0), 75.0 %
> CM-Bednorz : 2 (+ 1,= 1,- 0), 75.0 %
> CM-Utzinger : 2 (+ 0,= 1,- 1), 25.0 %
> CM 8556 : 2 (+ 0,= 1,- 1), 25.0 %
> Durchweg respektable Resulate gegen die derzeitige Top-Five!
> Lediglich gegen CM-Utzinger und CM-8556 von Andreas Stauche gab
> es eine negative Punkteausbeute in den zwei Partien! 10 Punkten
> aus 18 Partien hätte in diesem starken Feld wohl kaum ein
> Gurkenprogramm holen können!
> In der Gesamttabelle sieht das dann so aus :
> Program Score % Av.Op.
> Elo + - Draws
>
> 1 Chess Tiger 14.0 : 12.5/ 18 69.4 2585
> 2728 149 132 38.9 %
> 2 Gambit Tiger 2.0 : 11.5/ 18 63.9 2589
> 2688 157 127 38.9 %
> 3 CM 8000 Original : 10.0/ 18 55.6 2595
> 2634 172 73 66.7 %
> 4 CM 8000+ : 9.0/ 18 50.0 2599
> 2599 146 146 33.3 %
> 5 CM-Bednorz : 8.5/ 18 47.2 2601
> 2582 118 178 38.9 %
> 6 Deep Shredder : 8.0/ 18 44.4 2603
> 2564 129 172 33.3 %
> 7 CM 8556 : 8.0/ 18 44.4 2603
> 2564 110 172 44.4 %
> 8 Gandalf UCI : 7.5/ 18 41.7 2605
> 2547 143 167 27.8 %
> 9 Fritz 6c : 7.5/ 18 41.7 2605
> 2547 143 167 27.8 %
> 10 CM-Utzinger : 7.5/ 18 41.7 2605
> 2547 122 167 38.9 %
> An den beiden Tiger kommt erwrtungsgemäß niemand heran, sie
> dominieren eindeutig z.Z. das Geschehen. Auf Platz drei dann
> nicht etwa einer der vielgepriesenen CM 8000 Spielstile, nein,
> das "Origninal"! Dahinter mit einem Punkt, die kleine Variation
> mit Select 8, im Grunde also auch die Originaleinstellung! Alle
> anderen CM-Versionen liegen dahinter! Das will nun nicht
> heißen, das sie nichts taugen oder vielleicht eindeutig
> schwächer sind, aber eins ist mir jedoch daraus klar geworden:
> Kein CM-Spielstil spielt wirklich merklich besser als die
> Original-Settings, wer hier meint den Stein der Weisen gefunden
> zu haben, ist auf dem Holzweg! All die schönen und
> phantasievollen Parameter-Änderungen bringen in der Praxis beim
> CM 8000 reichlich wenig!
________
Na, da wäre ich doch gespannt was der Haus-Statistiker von dieser Testmethode "der geringen Zahl" und den Interpretationen hält
Ich halte auf der Basis deiner Resultate (noch) keine der Aussagen für gerechtfertigt.
Es ist zwar grundsätzlich richtig, dass die Ergebnisse gegen mehr Engines, vor allem Spitzenengines, valider sind als gegen eine Engine, aber bei so einer geringen Partienzahl verkehrt sich das genau ins Gegenteil.
Warum das so ist, das möchte ich vorerst mal als Frage nach den fundamentalen statistischen Grundgesetzten wieder zurückgeben
--------------
Doch woran liegt es, das der CM 8000 so bescheiden Resultate
> erspielte, wie z.B. in Aufseß oder jetzt in der SSDF? In Aufseß
> kam eine nicht gepatchte Version zum Einsatz, die viel zu
> schnell zog, ein Problem was damals bereits bekannt war und vom
> Bediener nicht berücksichtigt wurde. Der Sachverhalt ist
> eindeutig klar und kann kein Maßstab sein, weil im Endeffekt
> nur eine defekte Version spielte.
_________
Ich weiß nicht, ob du das mitbekommen hast. Aber diesbezüglich habe ich damals ein paar nicht ganz unbeachtete Pösterchen losgelassen :-( "Wie kann man nur als Insider nur so ein "Patchwork" in ein Turnier schleppen" :-(
Siehe hierzu auch Aufsess-Bericht in dieser CBits-Ausgabe ;-) Verglichen mit deinen Befunden kann ich nur sagen: Schön, wenn man auch innerhalb einer Redaktion zu unterschiedelichen Einschätzungen des "Forumslieblings" Chessmaster kommt. Kicher, grins.
-------------
> Klar ist auch, das die Original mitgelieferte
> Eröffnungsbibliothek vom CM 8000 absoluter Schrott ist und
> sicher zu dem schlechten Abschneiden in der SSDF beitrug.
________
Von der Beobachtung her mag das klar sein, wenn einer was vom Schachspiel versteht. Statistisch ist es erst dann klar, wenn Faktoren wie das Book isoliert und auf Signifikanz ausgetestet werden. Gerade hier hapert's aber gewaltig in der Testerei.
--------------
> Weiterhin ist der CM wegen mangelnder Lernfähigkeit in längeren
> Wettkämpfen, wie sie in Schweden stattfinden, eindeutig gegen
> gute Lerner wie Fritz benachteiligt, gerade in Verbindung mit
> der kleinen, miesen Bibliothek!
________
Ja, gehört jetzt das Lernen zu einer Engine oder nicht ? Was willst du testen ? Die gesamte Spielstärke oder bestimmte Teilbereiche ?
Das Untersuchungsziel muss definiert werden, sonst werden immer Äpfel mit Birnen verglichen. Wenn du einzelne Leistungsbereiche eines Programmes austesten willst, dann musst du diese Faktoren isoliert testen.
Oder aber man passt eben die Interpretation der Resultate der Undifferenziertheit der Methoden an. Hier wird maßlos überinterpretiert. Die meisten mir bekannten Testmatches lassen überhaupt keine signifikante Plazierung zu. 10 oder 20 Partien oder gar Stellungstests stellen immer nur eine erste Orientierung dar.
------------

> Außerdem ist die Bedienung des CM 8000 kritisch, fatale
> Einstellungsfehler sind schnell passiert! So müssen die Hash
> Tables als Persönlichkeit abgespeichert werden, weile ansonsten
> mit nur einem MB spielt. Oder die Info-Anzeige zum
> Rechenvorgang. Wer hier etwas falsches anklickt, also nicht
> Weiß oder Schwarz, sondern das naheliegende CM 8000 (!), der
> reduziert bei aktivem Spielstil, der ja für größere Hash Tables
> nötig ist, mal eben um 50% die Rechengeschwindigkeit!
> Eine tückische Falle, die sicherlich für unsere "Experten" aus
> Schweden eventuell das ein oder andere mal erlegen sind!? Ich
> will aber nichts unterstellen, aber eins ist für mich klar: In
> der SSDF ist der CM 8000 extrem unterbewertet, egal, woran es
> denn im Endeffekt auch liegen mag.
______
Sehr richtig, da habe ich auch erst kürzlich hier gepostet. Dies Fehlerquellen werden oft mit dem bequemen Hinweis abgetan: das gleicht sich statistisch wieder aus. Wär schön, wenn es so wäre. Bei geringer Partienzahl gleicht sich überhaupt nichts aus und ausserdem sind manche Programme eher für Fehlbedienungen prädestiniert als andere. Das ist eine "systematischer Fehlerquelle", die sich nicht ausgleicht, sondern, ganz im Gegenteil: SIE SUMMIERT SICH. Darauf hat meines Wissens noch niemand hingewiesen. Kein Frank Schubert, kein Tester, kein Programmierer, keine SSDF, kein Frank Quisinsky. Lasse mich aber gerne eines besseren belehren.
Das gilt für alle RatingListen. Dabei wäre es relativ einfach, hier standardisierte Testbedingungen zu schaffen. Stichwort Standardisierung: ein fundamentaler testtheoretischer Begriff. Ich vermisse ihn allerorten. Jeder verfährt nach Belieben. Wie soll man denn Ergebnisse von verschiedenen Autoren vergleichen, wenn alles "auf Vetrauen" basiert. Und wen verwundert es, dass es zu ganz unterschiedlichen Testergebnissen kommt. Oft werden nicht die Engines getestet, sondern im Grunde die mangelnde Reliabilität der Methoden.
------------
> Noch ein Wort zur Einbindung des CM 8000 als Winboard-Engine
> unter anderen GUIs:
> Unter Shredder 5 gibt es keinerlei Probleme und Einbußen an
> Spielstarke, während unter den bekannten CB-GUI wie Fritz 6
> Unregelmäßigkeiten auftreten können. Ich würde jedenfalls bei
> längeren Bedenkzeiten genau die Partien prüfen, denn wenn die
> Between.Ini nicht sauber eingestellt ist, gibt es fatale
> "Blitzzüge" mitten im Spiel! Ich empfehle deshalb eher den
> Einsatz unter der Shredder 5 GUI!
> PS: Wenn Junior 7 bei mir eintrifft, wird dieser im oben
> beschriebenen Turnier als vorerst letztes Programm nachträglich
> mit aufgenommen! Die CM-Stil Prüfung ist für mich nun
> abgeschlossen, weil der Sachverhalt wohl geklärt sein
> dürfte.
________

Nein, diesem Resumee kann ich mich natürlich nicht anschliessen. Für mich ist die King-Engine betreffend, noch überhaupt nichts abgeschlossen.

Ich halte das SSDF-Ranking bislang für die valideste Schätzung des CM8000 in seiner Standardeinstellung.
Bislang gibt es nicht einmal eine einigermassen verlässliche Untersuchung, die nachweist, dass mit einem anderen Eröffungsbuch der CHESSMASTER 8000 mit der STANDAREINSTELLU'NG des KING zu signifikant besseren Resultaten fürht.

M.E. wäre dies der erste und nahelegende methodische Schritt. Also ein Wettkampf des CM8000 mit anderem Eröffungsbuch in ausreichend hoher Partienzahl auf Turnierstufe.

Fazit: Die Halbwissenschaft und die vorschnellen Schlüsse feiern fröhliche Urständ im Schachtestgewerbe.

Sorry, musste ich mal sagen.



Gruß Rainer

von Rainer Neuhäusler - am 17.06.2001 20:37

Re: CM 8000: Spielstärke ungeklärt!?

>Das kannst du laut sagen. Selbst Marcus hält die Engine für total vermurckst

Das war sein erster Eindruck, den ich übrigens damals auch hatte. Da MK und ich als sachkundige Praktiker bei den Bewertungen und Eindrücken der Programme ziemlich auf einer Wellenlänge liegen, könnte ich mir durchaus vorstellen, das auch er sein Urteil mittlerweile schon revidiert oder nach entsprechender Beschäftigung korrigieren wird.

>Die SSDF-Einstiegszahl war bei C.Lykke 2550. Du meinst das jetzige Rating bei 2502 Elo/450 MHz nach immerhin schon 191 Partien auf Turnierstufe.

Ja, genau das meine ich. 191 Partien sind ganz nett, doch ich habe ja auch plausible Erklärungsversuche mitgeliefert und wenn ich richtig damit liege, dann würden auch 2000 Partien kein reales Bild abliefern können.

>Na, da wäre ich doch gespannt was der Haus-Statistiker von dieser Testmethode "der geringen Zahl" und den Interpretationen hält
Ich halte auf der Basis deiner Resultate (noch) keine der Aussagen für gerechtfertigt.
Es ist zwar grundsätzlich richtig, dass die Ergebnisse gegen mehr Engines, vor allem Spitzenengines, valider sind als gegen eine Engine, aber bei so einer geringen
Partienzahl verkehrt sich das genau ins Gegenteil.
Warum das so ist, das möchte ich vorerst mal als Frage nach den fundamentalen statistischen Grundgesetzten wieder zurückgeben

Mit am Ende fast 20 Partien von jedem Programm meine ich als erfahrener Tester und Spieler schon ein Urteil anmaßen zu können, ohne jetzt wieder den Taschenrechner mit grauen Statistiken und leeren Zahlen zu strapazieren. Bedenkzeit, Partienanzahl und das Konzept meines Turniers reichen mir für die beiden Kernaussagen meines Postings vollkommen aus:
a) Ich bezweifle massiv, das die CM 8000 Spielstile merklich stärker sind als die Original Werksettings. Wer hier nun mit Statistik kommt; den statisch relevanten Gegenbeweis müssen erst mal die Erfinder der jeweiligen Stile bringen, oder!?
b) Aufgrund auch von Erfahrungen über das Turnier hinaus, sage ich klipp und klar, die der CM 8000 gehört zu den Top-Programmen, das basiert auf Erfahrungswerten meiner langjährigen Erfahrung, das kannst Du nun bezweifeln oder nicht.

> Ich weiß nicht, ob du das mitbekommen hast. Aber diesbezüglich habe ich damals ein paar nicht ganz unbeachtete Pösterchen losgelassen "Wie kann man nur als Insider
nur so ein "Patchwork" in ein Turnier schleppen"

Das habe ich damals durchaus mitbekommen, hoffentlich auch Karsten. Aber so etwas kann halt auch einen CSS-Insider passieren...

>Von der Beobachtung her mag das klar sein, wenn einer was vom Schachspiel versteht. Statistisch ist es erst dann klar, wenn Faktoren wie das Book isoliert und auf
Signifikanz ausgetestet werden. Gerade hier hapert's aber gewaltig in der Testerei.

Mit dem ersten Satz gibst Du Dir selbst die Antwort. Mit absoluten Jedem mit dem ich bislang sprach, ist das aufgefallen, dafür braucht man kein Kasparov zu sein. Selbst John Merlino gibt das offen zu, nur Du brauchst dafür offenbar "statistische Beweise". Vielleicht fängst Du mal an in der Richtung Material zu sammeln und erstellen, damit es den "fundamental, statistisch" bewiesen wird, was jeder sowieso schon weiß.


>Ja, gehört jetzt das Lernen zu einer Engine oder nicht ? Was willst du testen ? Die gesamte Spielstärke oder bestimmte Teilbereiche ?

Der Punkt ist der, ich halte persönlich nichts von langen Wettkämpfen, wo 20 Partien oder mehr in Folge gegen den selben Gegner gespielt werden, weil das an der Praxis, wo die Gegner immer nach jeder Runde wechseln vorbei geht. Viel besser erscheint es mir, wenn man jedes Mal die Gegner nach spätestens zwei Partien auswechselt und später dann wieder gegeneinander spielen lässt. Man so eine breiter gestreute Gegnerschaft und nicht z.B. 100 Partien gegen 3 Gegner, wobei die eventuell noch vom Spielstil und der Bibliothek ähnlich sind. Am Ende weiß man da nur etwas über die Spielstärke des Programms auf dem PC wo in Schweden drauf getestet wird, während daheim das gute Fritzchen ohne "Wettkampferfahrung" wesentlich blasser aussieht.


>Sehr richtig, da habe ich auch erst kürzlich hier gepostet. Dies Fehlerquellen werden oft mit dem bequemen Hinweis abgetan: das gleicht sich statistisch wieder aus. Wär
schön, wenn es so wäre. Bei geringer Partienzahl gleicht sich überhaupt nichts aus und ausserdem sind manche Programme eher für Fehlbedienungen prädestiniert als
andere.

Gerade der Chessmaster seit je her, nun ist es mit dem 8000 sogar noch schlimmer geworden! Deshalb halte ich Fehleinstellungen in der SSDF durchaus für denkbar.

>Das gilt für alle RatingListen. Dabei wäre es relativ einfach, hier standardisierte Testbedingungen zu schaffen.

Aber nur in der Theorie! Erstens gibt es bei der Bedenkzeit absolut keine Einigkeit und dann hat jeder andere Hardware.

>Stichwort Standardisierung: ein fundamentaler testtheoretischer
Begriff. Ich vermisse ihn allerorten. Jeder verfährt nach Belieben. Wie soll man denn Ergebnisse von verschiedenen Autoren vergleichen, wenn alles "auf Vertrauen" basiert.

Das ist ein gutes Stichwort! VERTRAUEN. Ja, man muss sich selber ein Urteil bilden und genügend Sachverstand haben, um zu wissen, wessen Ergebnissen man vertrauen kann. Aufgrund von eigenen Erfahrungen lässt sich dann ein Gesamtbild erstellen.

>Nein, diesem Resumee kann ich mich natürlich nicht anschliessen. Für mich ist die King-Engine betreffend, noch überhaupt nichts abgeschlossen.

Schön, dann freue ich mich schon auf Deine zukünftige fundamentale testtheoretische Forschungsarbeit, die für Klarheit sorgen wird. Wann gibt es erste Resultate; 2010?

>Ich halte das SSDF-Ranking bislang für die valideste Schätzung des CM8000 in seiner Standardeinstellung.

Klar, die SSDF bietet sich an, wenn man ihr denn vertraut und keine eigenen gegensätzlichen Erfahrungen gesammelt hat zum Thema. 2502 ELO in der SSDF halte ich für einen schlechten Witz. Der CM 6000 liegt auf P233MMX ca. 20 ELO dahinter, merkwürdig nicht!?


>Bislang gibt es nicht einmal eine einigermassen verlässliche Untersuchung, die nachweist, dass mit einem anderen Eröffungsbuch der CHESSMASTER 8000 mit der
STANDAREINSTELLU'NG des KING zu signifikant besseren Resultaten fürht.
Richtig, das war eine lose Behauptung von mir, einer der Erklärungsversuche von mir. Fakt ist, das dass Original-CM Buch großer Mist ist, inwiefern sich das jedoch auf die Spielstärke
Auswirkt, darüber lässt sich nur spekulieren.

>M.E. wäre dies der erste und nahelegende methodische Schritt. Also ein Wettkampf des CM8000 mit anderem Eröffungsbuch in ausreichend hoher Partienzahl auf
Turnierstufe.

Na, dann mal los Rainer!

>Fazit: Die Halbwissenschaft und die vorschnellen Schlüsse feiern fröhliche Urständ im Schachtestgewerbe.

Okay, in Zukunft machen wir es einfach so; wir warten bis wir Tausende Partien, Tests und Turniere zusammen haben und veröffentlichen dann erst etwas. Nach drei Jahren gibt es eine erste vorsichtige Hochrechnung, die statistisch annäherungsweise, trotz abweichender Methodik und mathematisch problematischer Konditionen, am Ende doch an der Praxis fundamental vorbei geht.

>Sorry, musste ich mal sagen.

Kein Problem, Du bist offensichtlich ein Theoretiker, der gerne mit Zahlen jongliert und ich eben ein Praktiker, der nicht bis zum jüngsten Tag auf eine vermeintliche statistische Aussagekraft warten möchte. Ich bemühe mich aber stets, nie zu voreilige Schlüsse zu ziehen und aufgrund von ein paar Blitzpartien habe ich jedenfalls noch nie ein Urteil zur Spielstärke gefällt, wenn Du weißt was ich damit sagen will.

Schlaf gut...
c/u
HJS

von HJS - am 18.06.2001 17:56

Re: CM 8000: Spielstärke ungeklärt!?

> Das war sein erster Eindruck, den ich übrigens damals auch
> hatte. Da MK und ich als sachkundige Praktiker bei den
> Bewertungen und Eindrücken der Programme ziemlich auf einer
> Wellenlänge liegen, könnte ich mir durchaus vorstellen, das
> auch er sein Urteil mittlerweile schon revidiert oder nach
> entsprechender Beschäftigung korrigieren wird.

nun, die aufsess-engine war total vermurkst. woran das lag ist hier zweitrangig.
fakt ist, daß die gepatchte version bei entsprechend umsichtigrer bedienung verdammt stark ist.

> Mit am Ende fast 20 Partien von jedem Programm meine ich als
> erfahrener Tester und Spieler schon ein Urteil anmaßen zu
> können, ohne jetzt wieder den Taschenrechner mit grauen
> Statistiken und leeren Zahlen zu strapazieren. Bedenkzeit,
> Partienanzahl und das Konzept meines Turniers reichen mir für
> die beiden Kernaussagen meines Postings vollkommen aus:

da muß ich heinz recht geben. nach 20 partien gegen versiedene gegner auf langer bedenkzeit, die man live verfolgt hat, geben schon ein recht gutes bild ab in wie fern eine engine was taugt. systemantische fehler sieht man dann nämlich auch schon hier und die werden bei 1000en von partien nicht besser.

> a) Ich bezweifle massiv, das die CM 8000 Spielstile merklich
> stärker sind als die Original Werksettings. Wer hier nun mit

sehe ich auch so.

> Statistik kommt; den statisch relevanten Gegenbeweis müssen
> erst mal die Erfinder der jeweiligen Stile bringen, oder!?
> b) Aufgrund auch von Erfahrungen über das Turnier hinaus, sage
> ich klipp und klar, die der CM 8000 gehört zu den
> Top-Programmen, das basiert auf Erfahrungswerten meiner
> langjährigen Erfahrung, das kannst Du nun bezweifeln oder nicht.

ich glaub das auch.

> Der Punkt ist der, ich halte persönlich nichts von langen
> Wettkämpfen, wo 20 Partien oder mehr in Folge gegen den selben
> Gegner gespielt werden, weil das an der Praxis, wo die Gegner
> immer nach jeder Runde wechseln vorbei geht. Viel besser
> erscheint es mir, wenn man jedes Mal die Gegner nach spätestens
> zwei Partien auswechselt und später dann wieder gegeneinander
> spielen lässt. Man so eine breiter gestreute Gegnerschaft und
> nicht z.B. 100 Partien gegen 3 Gegner, wobei die eventuell noch
> vom Spielstil und der Bibliothek ähnlich sind. Am Ende weiß man
> da nur etwas über die Spielstärke des Programms auf dem PC wo
> in Schweden drauf getestet wird, während daheim das gute
> Fritzchen ohne "Wettkampferfahrung" wesentlich blasser aussieht.

genau so ist es. deshalb habe ich auch noch nie der schwedenliste vertraut wenn es um die prognose zu einem turnier ging. dabei habe ich mich NUR auf meine erfahrung und gefühl verlassen. und der erfolg gibt mir recht.

> Gerade der Chessmaster seit je her, nun ist es mit dem 8000
> sogar noch schlimmer geworden! Deshalb halte ich
> Fehleinstellungen in der SSDF durchaus für denkbar.

ich auch.

grüsse
marcus

von marcus kästner - am 19.06.2001 09:56

Re: CM 8000: Spielstärke ungeklärt!?

marcus kästner schrieb:
>
>HJS/ > Das war sein erster Eindruck, den ich übrigens damals
> auch
> > hatte. Da MK und ich als sachkundige Praktiker bei den
> > Bewertungen und Eindrücken der Programme ziemlich auf einer
> > Wellenlänge liegen, könnte ich mir durchaus vorstellen, das
> > auch er sein Urteil mittlerweile schon revidiert oder nach
> > entsprechender Beschäftigung korrigieren wird.
>
>MK/ nun, die aufsess-engine war total vermurkst. woran das lag ist
> hier zweitrangig.
> fakt ist, daß die gepatchte version bei entsprechend
> umsichtigrer bedienung verdammt stark ist.

Dass der Chesmaster stärker wurde, nachdem der Bug im Zeitalgo entfernt war hat niemand überrascht, der das schon zu Aufseßzeiten geschnallt hat. Du hast damals die Meinung vertreten, dass der CM "richtig eingestellt war" und die "ganze Spielanlage" und die ganze Engine vermurkst ist. Was du auch im Forum nochmals bekräftigt hast. Gut dass du dass du deine heutige Einschätzung klar ausgeprochen hast, zumal in der neuen ChessBits noch die damalige zu Buche steht. Ich meine das nicht ironisch, sondern bin froh darüber ! (muss man ja immer dazusagen, da keine Mimik Gestik vorhanden)
Wie stark der CM8 im Vergleich zu den Spitzenengines ist, das verwischt sich für mich, je mehr Turniere, Wettkämpfe und Ranglisten produziert werden. Es wird allmählich Zeit für für professionellere Methoden.
Der Spielverlauf der SSDF-Matches, die ich (statistisch :- ) sehr genau verfolge, zeigt die Unausgeglichenheit dieses Produktes. Ein Umstand, der umsomehr nach längeren Wettkämpfe verlangt als bei anderen Paarungen

HJK/> > Mit am Ende fast 20 Partien von jedem Programm meine ich als
> > erfahrener Tester und Spieler schon ein Urteil anmaßen zu
> > können, ohne jetzt wieder den Taschenrechner mit grauen
> > Statistiken und leeren Zahlen zu strapazieren. Bedenkzeit,
> > Partienanzahl und das Konzept meines Turniers reichen mir für
> > die beiden Kernaussagen meines Postings vollkommen aus:
>
MK/> da muß ich heinz recht geben. nach 20 partien gegen versiedene
> gegner auf langer bedenkzeit, die man live verfolgt hat, geben
> schon ein recht gutes bild ab in wie fern eine engine was
> taugt. systemantische fehler sieht man dann nämlich auch schon
> hier und die werden bei 1000en von partien nicht besser.

RN Eine Bewertung, ob eine Engine "was taugt oder nicht", erhebt dann doch nicht ganz den differenzierten Anspruch einer Rangliste :- ) Deine Aussage bewegt sich auf dem Nomínalniveau und die von HJS schon auf dem Intervallniveau und nicht einmal mehr auf dem Ordinalniveau.
Mit deiner Aussage deshalb einverstanden, mit der kategorischen Einschätzung von HJS nicht. (Anm. für die Leser: Hierzu muss man seine "Kernaussagen" im Originalposting" nachlesen)
Es gibt viele Typen von systematischen und enginespezifischen Bedienungsfehlern, davon wahrscheinlich viele, die nicht entdeckt werden. Du kannst nur die groben meinen
Hier stimme ich HJS zu, der ebenfalls den CM8000 für besonders fehlbedienungsfreundlich hält. Spricht für HJS bzw. für die Reliabiliät seiner Tests, was diesen Aspekt angeht. Bestes Beispiel war H.C. Lykke, indem er zwei statt einer Engine rechnen ließ :-) Passiert den besten und erfahrensten Testern. Nosce te ipse !

Ich plädiere für ein möglichst standardisiertes Testprotokoll. Eine Checkliste, die für jedes Programm die Einstellungen abhakt. Es wird von den Fachjournalisten entworfen und publiziert und von allen weiterentwickelt. Das wäre mehr wert als immer wieder neue zeitaufwendige Matches, die weniger die Engine als vielmehr die Unzuverlässigkeit der Methoden testen.
>
HJS/> > a) Ich bezweifle massiv, das die CM 8000 Spielstile merklich
> > stärker sind als die Original Werksettings. Wer hier nun mit

MK/> sehe ich auch so.

HJS/ > Statistik kommt; den statisch relevanten Gegenbeweis müssen
> > erst mal die Erfinder der jeweiligen Stile bringen, oder!?
> > b) Aufgrund auch von Erfahrungen über das Turnier hinaus, sage
> > ich klipp und klar, die der CM 8000 gehört zu den
> > Top-Programmen, das basiert auf Erfahrungswerten meiner
> > langjährigen Erfahrung, das kannst Du nun bezweifeln oder
> nicht.
>
MK> ich glaub das auch.

RN Elvis-Interview mit Merlino genau lesen oder aber die CCC-Postings, von denen ich ein ganz zentrales hier im Forum gepostet habe. Merlinos "Philosophie" ist die einer AVERAGE ENGINE. Gleichermassen gut für alle Spielstufen, Abarten und Micky Mouse-Trotteleien eingeschlossen. So wurde der CM konzipiert und so wurde er eingestellt und getestet. Und Merlino wird nicht müde im CCC darauf hinzuweisen. Der CM wurde auf kein Fall für den ernsthaften Turniervergleich hergerichtet. Da scheint mir ein ganz entscheidender Unterschiede zu den TopEngines zu bestehen. Der CM kann vom Konzept auf Aktiv oder Turnierstufe gar nichts optimales leisten. Dies korrespondiert auch durchaus mit den Erfahrungen, die schon mit dem 6000er gemacht wurden. Nach Merlinos eigenen Aussagen, wurde der CM gegen keine der Spitzenengines getestet sondern nur immer im "inzüchtigen" Personality-Bereich.
Kein Wunder, wenn das engagierte User nachholen wollen. Und was haben Utzinger, Stauche, Chessfun und viele andere versucht ? Eben dieses, die Turnierstärke aus der Engine herauszukitzeln. Dass hier Unterschiede in der Erfahrung und Gewissenhaftigkeit der Durchführung bestehen, mag ja sein. Aber woher soll ich aus der Distanz wissen, was in den Wohnzimmern passiert ? Eine bekannte Fragestellung, oder ;-)
Im übrigen halte ich in diesem Zusammenhang den von Théron gerne zitierten Satz des "poorly designed" ganz originell, aber er findet zumindest dort seine Grenzen, wo man aus einem Schachprogramm ein ADVENTURE machen will wie beim Chessmaster. Ein Hansdampf in allen Gassen kostet eben Turnierstärke.

HJS/ Der Punkt ist der, ich halte persönlich nichts von langen
> > Wettkämpfen, wo 20 Partien oder mehr in Folge gegen den selben
> > Gegner gespielt werden, weil das an der Praxis, wo die Gegner
> > immer nach jeder Runde wechseln vorbei geht. Viel besser
> > erscheint es mir, wenn man jedes Mal die Gegner nach spätestens
> > zwei Partien auswechselt und später dann wieder gegeneinander
> > spielen lässt. Man so eine breiter gestreute Gegnerschaft und
> > nicht z.B. 100 Partien gegen 3 Gegner, wobei die eventuell noch
> > vom Spielstil und der Bibliothek ähnlich sind. Am Ende weiß man
> > da nur etwas über die Spielstärke des Programms auf dem PC wo
> > in Schweden drauf getestet wird, während daheim das gute
> > Fritzchen ohne "Wettkampferfahrung" wesentlich blasser
> aussieht.
>
MK> genau so ist es. deshalb habe ich auch noch nie der
> schwedenliste vertraut wenn es um die prognose zu einem turnier
> ging. dabei habe ich mich NUR auf meine erfahrung und gefühl
> verlassen. und der erfolg gibt mir recht.

RN Interessante Ausführungen zum Testmodus, die wirklich zu diskutieren sind. Dahinter steht auch die Frage, was man eigentlich testen will: Spielstärke, Turnierstärke, Engine-Stärke, Match-Stärke, Allround-Stärke, Spielstärke unter Neutralisierung der Eröffnungen, der Lerneffekte, der TableBases etc.

Solange hier keine Kategorisierung vorliegt, keine Definition der Testziele und keine weitgehende Standardisierung der Modi, wird sich die Szene immer im Kreise drehen. Jeder testet, was und wie er will und sagt: Bitte hierher, wir sind die Männer des Vertauens.
Ich will aber kein "Anhänger" sein, sondern ein objektiv informierter Benutzer. Und dazu gehört, wie überall auch, der Fortschritt. Die Methoden liegen schon seit langem bereit. Es kommt in erster Linie dem Fachjournalismus zu, die Brücke zwischen Wissenschaft und Anwendung zu schlagen und nicht dem Leser.

Vielleicht gehe ich euch und anderen auf den Wecker mit meiner ewigen Wissenschaftnörgelei. Aber das wäre mir der allmähliche Aufbruch zu neuen Ufern schon wert. Die Schachcomputerszene hätte es verdient.

Und dass keine Irrtümer aufkommen. Dieser Beitrag wäre bei CSS genauso gut plaziert wie im CCC. In Englisch ist halt der Aufwand so hoch :- ).

Zwei kleine Anhaltspunkte zum Schluss:

- Wie wäre es mal mit dem Versuch einer Korrelation der vorliegenden Testergebnisse über den CM8000. Objektivität ist das Maß der Übereinstimmung von unabhängigen Beurteilungen ! Das ist mein Kontra zum Vertrauensansatz !

- Eingabe des Stichwortes "Testtheorie" in eine Suchmaschine
Ich glaube, so mancher wird überrascht sein, welche Wissenschaft hier eindeutig dominiert :-) und wie weit man eigentlich schon ist in der Diagnostik von Denkleistungen ist.

Gruß Rainer

> grüsse
> marcus

p.s.
Was jetzt noch fehlt ist die abschließende Beurteilung des GREY WOLF, der sicher schon im Hintergrund fleißig sein Wissen updatet, isn't it :-))
Im übrigen bin ich der Meinung, dass es gut ist, dass sich das zweite deutsche Schachcomputermagazin wieder gefangen und wieder belebt hat. Also auf zu neuen Ufern.....

von Rainer Neuhäusler - am 19.06.2001 14:46

Re: CM 8000: Spielstärke ungeklärt!?

>
> Dass der Chesmaster stärker wurde, nachdem der Bug im
> Zeitalgo entfernt war hat niemand überrascht, der das schon zu
> Aufseßzeiten geschnallt hat. Du hast damals die Meinung
> vertreten, dass der CM "richtig eingestellt war" und die
> "ganze Spielanlage" und die ganze Engine vermurkst ist. Was du
> auch im Forum nochmals bekräftigt hast. Gut dass du dass du

ja, denn die dort spielende version war vermurkst, aus welchen gründen auch immer.

> deine heutige Einschätzung klar ausgeprochen hast, zumal in der
> neuen ChessBits noch die damalige zu Buche steht. Ich meine das

natürlich, denn da ist ja der damalige bericht abgedruckt.

> MK/> da muß ich heinz recht geben. nach 20 partien gegen
> versiedene
> > gegner auf langer bedenkzeit, die man live verfolgt hat, geben
> > schon ein recht gutes bild ab in wie fern eine engine was
> > taugt. systemantische fehler sieht man dann nämlich auch schon
> > hier und die werden bei 1000en von partien nicht besser.
>
> RN Eine Bewertung, ob eine Engine "was taugt oder nicht",
> erhebt dann doch nicht ganz den differenzierten Anspruch einer
> Rangliste :- ) Deine Aussage bewegt sich auf dem Nomínalniveau

natürlich nicht. man kann "gefühlsmäßig" eben keine exakte elozahl angeben.
im übrigen gibt es auch keine exakte elozahl.

> Ich plädiere für ein möglichst standardisiertes Testprotokoll.
> Eine Checkliste, die für jedes Programm die Einstellungen
> abhakt. Es wird von den Fachjournalisten entworfen und
> publiziert und von allen weiterentwickelt. Das wäre mehr wert
> als immer wieder neue zeitaufwendige Matches, die weniger die
> Engine als vielmehr die Unzuverlässigkeit der Methoden
> testen.

das werden wir sicherlich mal aufgreifen. allerdings: bis im schach wissenschaftlich was bewiesen ist, gibt es längst schon neue versionen. ich vertraue deshalb lieber meinem urteilsvermögen und meiner erfahrung. da liege ich dann in 1/100 des zeitaufwands zu 90% richtig und das ist wesentlich effektiver.. die 10% fehler kann ich verschmerzen

> MK> genau so ist es. deshalb habe ich auch noch nie der
> > schwedenliste vertraut wenn es um die prognose zu einem turnier
> > ging. dabei habe ich mich NUR auf meine erfahrung und gefühl
> > verlassen. und der erfolg gibt mir recht.
>
> RN Interessante Ausführungen zum Testmodus, die wirklich zu
> diskutieren sind. Dahinter steht auch die Frage, was man
> eigentlich testen will: Spielstärke, Turnierstärke,
> Engine-Stärke, Match-Stärke, Allround-Stärke, Spielstärke unter
> Neutralisierung der Eröffnungen, der Lerneffekte, der
> TableBases etc.

es stellt sich immer die frage was zu testen ist. man kann global testen oder vom hundertsten ins tausendste gehen. ich halte einen gesunden mittelweg für gut und praktikabel.

> Im übrigen bin ich der Meinung, dass es gut ist, dass sich das
> zweite deutsche Schachcomputermagazin wieder gefangen und
> wieder belebt hat. Also auf zu neuen Ufern.....

es freut mich zwar, daß du das gut findest, allerdings gab es nichts zu fangen. wir waren noch nie down und haben immer unsere arbeit gemacht. das derzeit alles schneller geht hat sehr einfache gründe:

1.ich bin beruflich nicht so angespannt und habe deshalb MOMENTAN mehr zeit
2.es stehen mehr redakteure zur verfügung, so daß ich nicht alles alleine machen muß
3. und das ist der entscheidenste punkt: der störfaktor weiner wird immer mehr eliminiert.

marcus

von marcus kästner - am 19.06.2001 15:51

Re: CM 8000: Spielstärke ungeklärt!?

Der Störfaktor hat sich wohl selbst eliminiert...

von Martin Schubert - am 19.06.2001 16:16

Re: CM 8000: Spielstärke ungeklärt!?

ja, und wofür ich mir eine gewisse häme auch nicht verkneifen kann :joke:

von marcus kästner - am 19.06.2001 18:13

Re: CM 8000: Spielstärke ungeklärt!?


marcus kästner schrieb:

> > RN/ Eine Bewertung, ob eine Engine "was taugt oder nicht",
> > erhebt dann doch nicht ganz den differenzierten Anspruch einer
> > Rangliste :- ) Deine Aussage bewegt sich auf dem Nomínalniveau
>
>MK natürlich nicht. man kann "gefühlsmäßig" eben keine exakte
> elozahl angeben.
> im übrigen gibt es auch keine exakte elozahl.
------

Genau, es gibt keine exakte Elozahl, sondern nur Konfidenzintervalle um einen WAHREN WERT, wie die Tabellen der Ranglisten ja so schön ausweisen.

Interessant, dass sich niemand an diese Tabellen hält. Es werden Rangplätze vergeben und Spitzenreiter gekürt mit nur eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist weit und breit nichts zu sehen. Links in der Tabelle die Show und rechts die Wahrheit. Das stört aber nur den Theoretiker und Wissenschaflter ;-)

Gruß Rainer

von Rainer Neuhäusler - am 19.06.2001 19:02

Re: Computerranglisten


> Interessant, dass sich niemand an diese Tabellen hält. Es
> werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> weit und breit nichts zu sehen. Links in der Tabelle die Show
> und rechts die Wahrheit. Das stört aber nur den Theoretiker und
> Wissenschaflter ;-)

Es ist in jedem Fall wichtig, dass so etwas ausgewiesen ist, damit die, die etwas damit anfangen können und wollen, die Grenzen der Ergebnisse sehen.

Aber: Auch wenn ein Sportler den 100m-Lauf mit 1/100 Sekunde Vorsprung gewinnt, schert sich niemand um Signifikanz oder sonstwas. Er hat eben in DIESEM Lauf zu DIESER Tageszeit bei DIESER Witterung etc. den lauf gewonnen. Auch Mikro-WM kann man mit einen halben Feinwertungspunkt Differenz werden.

Helmut

von Helmut Conrady - am 19.06.2001 19:27

Re: CM 8000: Spielstärke ungeklärt!?

> Interessant, dass sich niemand an diese Tabellen hält. Es
> werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> weit und breit nichts zu sehen. Links in der Tabelle die Show
> und rechts die Wahrheit. Das stört aber nur den Theoretiker und
> Wissenschaflter ;-)
>


nö. jeder hält sich an die tabellen. es gibt feste regeln und nach denen werden die sieger gekürt. so einfach ist das.

marcus

von marcus kästner - am 19.06.2001 19:29

Re: CM 8000: Spielstärke ungeklärt!?

marcus kästner schrieb:
>
> > Interessant, dass sich niemand an diese Tabellen hält. Es
> > werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> > eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> > weit und breit nichts zu sehen. Links in der Tabelle die Show
> > und rechts die Wahrheit. Das stört aber nur den Theoretiker und
> > Wissenschaflter ;-)

> nö. jeder hält sich an die tabellen. es gibt feste regeln und
> nach denen werden die sieger gekürt. so einfach ist das.
>
> marcus

Ich fände es besser z.B. Deep Fritz und Gambti Tiger auf einen Rang zu plazieren (derzeitige SSDF) weil 2653 Elo und 2650 SSDF keinen Spielstärkeunterschiede repräsentieren.
In der Statistik werden unterschiedliche Rangplätze nur für signifikante Punkteunterschiede vergeben. Will man mehr Ränge, dann muss man das Signifkanzniveau senken. So einfach ist das hier.

Aber so weit muss man ja nicht gehen. Nur 10 Elo sollten es schon sein.

Ausserdem kann jeder Herausgeber einer Liste seine eigenen Regeln definieren, wenn er sie dokumentiert.Wo gibt es da Vorschriften ?
Wenn ich sage, ich vergebe nur signifikante Rangplätze, dann weiß und sieht jeder, was damit gemeint ist.

Rainer

von Rainer Neuhäusler - am 19.06.2001 20:55

Re: Computerranglisten

Helmut Conrady schrieb:
>
>
> > Interessant, dass sich niemand an diese Tabellen hält. Es
> > werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> > eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> > weit und breit nichts zu sehen. Links in der Tabelle die Show
> > und rechts die Wahrheit. Das stört aber nur den Theoretiker und
> > Wissenschaflter ;-)
>
> Es ist in jedem Fall wichtig, dass so etwas ausgewiesen ist,
> damit die, die etwas damit anfangen können und wollen, die
> Grenzen der Ergebnisse sehen.
>
> Aber: Auch wenn ein Sportler den 100m-Lauf mit 1/100 Sekunde
> Vorsprung gewinnt, schert sich niemand um Signifikanz oder
> sonstwas. Er hat eben in DIESEM Lauf zu DIESER Tageszeit bei
> DIESER Witterung etc. den lauf gewonnen. Auch Mikro-WM kann man
> mit einen halben Feinwertungspunkt Differenz werden.
>
> Helmut

Ja, dieser Vergleich ist mir auch schon oft durch den Kopf gegangen. Interessant, dass trotz tausendstel dann doch oft eindeutige Favoriten auszumachen sind.

Aber wie du weißt, hinken Vergleiche auch. Jede Sportart hat ihren eigenen Proportionalitätsfaktor und Elopunkte sind keine Sekunden und cm.
Ausserdem sind Ranglisten etwas anderes als Turniere. Erstere sollen die wahre Spielstärke wiedegeben und bei letzterem geht es wirklich um die "Wochenform".

Die Wahrscheinlichkeit, dass Deep Fritz stärker ist als Gambit Tiger liegt mit 3 Elopunkten bei Nullkommanix, also die totale Unwahrscheinlichkeit. Warum soll ich das nicht in der Rangliste nicht so dokumentieren wie es ist ?

Es geht eben um das Prädikat "Spitzenreiter". Aber genau das hat Fritz m.E. jetzt eingebüßt. Das ist für mich so und da unterwerfe ich mich keinen Zwangshierarchien.

Gruß Rainer

von Rainer Neuhäusler - am 19.06.2001 21:11

Re: CM 8000: Spielstärke ungeklärt!?

Wieso ist ein Konfidenzintervall um den wahren Wert? Die W-keit ist z.B. 95%, dass es den wahren Wert enthält.

Gruß, Martin

von Martin Schubert - am 19.06.2001 21:50

Re: Computerranglisten

Der Unterschied ist meiner Meinung nach einfach folgender: beim 100m-Lauf behauptet niemand der Sieger wäre der Beste, nur weil er den Lauf gewonnen hat. Ich denke, bei der SSDF-Liste gehen viele davon aus, dass das Programm, welches vorne stehe, tatsächlich das beste sei.

Gruß, Martin

von Martin Schubert - am 19.06.2001 21:52

Re: CM 8000: Spielstärke ungeklärt!?

Rainer Neuhäusler schrieb:
>
> marcus kästner schrieb:
> >
> > > Interessant, dass sich niemand an diese Tabellen hält. Es
> > > werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> > > eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> > > weit und breit nichts zu sehen. Links in der Tabelle die Show
> > > und rechts die Wahrheit. Das stört aber nur den Theoretiker
> und
> > > Wissenschaflter ;-)
>
> > nö. jeder hält sich an die tabellen. es gibt feste regeln und
> > nach denen werden die sieger gekürt. so einfach ist das.
> >
> > marcus
>
> Ich fände es besser z.B. Deep Fritz und Gambti Tiger auf einen
> Rang zu plazieren (derzeitige SSDF) weil 2653 Elo und 2650 SSDF
> keinen Spielstärkeunterschiede repräsentieren.
> In der Statistik werden unterschiedliche Rangplätze nur für
> signifikante Punkteunterschiede vergeben. Will man mehr Ränge,
> dann muss man das Signifkanzniveau senken. So einfach ist das
> hier.
>
> Aber so weit muss man ja nicht gehen. Nur 10 Elo sollten es
> schon sein.
>
> Ausserdem kann jeder Herausgeber einer Liste seine eigenen
> Regeln definieren, wenn er sie dokumentiert.Wo gibt es da
> Vorschriften ?
> Wenn ich sage, ich vergebe nur signifikante Rangplätze, dann
> weiß und sieht jeder, was damit gemeint ist.
>
> Rainer

Auch auf die Gefahr hin, dass ich mich wiederhole. Statistisch gesehen sind die Ranglisten sowieso alles Kappes.
Grund 1: Buchlernen, also Partien nicht unabhängig
Der 2. wesentlichere Grund ist ganz einfach, dass selbst bei identischer Hardware
und identischer Bedenkzeit kein Programm eine identische Spielstärke hat, die hängt auch vom Gegner ab. Das heißt, wenn ich die Spielstärke statistisch untersuchen will, muss ich sie erst einmal definieren. Und das geht wohl nur mit einem festen Pool an Programmen, wo jeder gegen jeden spielt.
So lange die Ranglisten statistisch Käse sind, ist es mir jetzt egal, ob mit Elostat Signifikanz rauskommt oder nicht, die Zahlen sind sowieso Unfug. Und wo soll man dann die Grenze setzen, wann 2 Programme auf den gleichen Platz kommen.
Ich finde die Ranglisten natürlich schon interessant, in der Gesamtheit bekommt man schon Informationen, aber statistisch: Kappes.

Gruß, Martin

von Martin Schubert - am 19.06.2001 21:59

Ja und ! ?

Martin Schubert schrieb:
>
> Wieso ist ein Konfidenzintervall um den wahren Wert? Die
> W-keit ist z.B. 95%, dass es den wahren Wert enthält.
>
> Gruß, Martin

:-)

von Rainer Neuhäusler - am 19.06.2001 22:15

Re: Computerranglisten

Martin Schubert schrieb:
>
> Der Unterschied ist meiner Meinung nach einfach
> folgender: beim 100m-Lauf behauptet niemand der Sieger wäre der
> Beste, nur weil er den Lauf gewonnen hat.

Ich denke, da kommt wirklich auf die Veranstaltung an. Den Münchner Dantestadium-Meister hält niemand für den Schnellsten auf der Welt, den Olympiasieger schon eher, den Weltmeister wohl auch und dann wäre da noch der World Cup :-)

> SSDF-Liste gehen viele davon aus, dass das Programm, welches
> vorne stehe, tatsächlich das beste sei.
>
> Gruß, Martin

Das kannst du laut sagen. Deshalb wäre es nur fair wenigstens ein 25% Signifkanzniveau anzusetzen für die Vergabe der ersten Rangplätze. Man will ja kein Spielverderber sein ;-)

Gruß Rainer

von Rainer Neuhäusler - am 19.06.2001 22:28

Re: CM 8000: Spielstärke ungeklärt!?

Martin Schubert schrieb:
>
> Rainer Neuhäusler schrieb:
> >
> > marcus kästner schrieb:
> > >
> > > > Interessant, dass sich niemand an diese Tabellen
> hält. Es
> > > > werden Rangplätze vergeben und Spitzenreiter gekürt mit nur
> > > > eine paar Elopünktchen Vorsprung. Von einer Signifikanz ist
> > > > weit und breit nichts zu sehen. Links in der Tabelle die
> Show
> > > > und rechts die Wahrheit. Das stört aber nur den Theoretiker
> > und
> > > > Wissenschaflter ;-)
> >
> > > nö. jeder hält sich an die tabellen. es gibt feste regeln und
> > > nach denen werden die sieger gekürt. so einfach ist das.
> > >
> > > marcus
> >
> > Ich fände es besser z.B. Deep Fritz und Gambti Tiger auf einen
> > Rang zu plazieren (derzeitige SSDF) weil 2653 Elo und 2650 SSDF
> > keinen Spielstärkeunterschiede repräsentieren.
> > In der Statistik werden unterschiedliche Rangplätze nur für
> > signifikante Punkteunterschiede vergeben. Will man mehr Ränge,
> > dann muss man das Signifkanzniveau senken. So einfach ist das
> > hier.
> >
> > Aber so weit muss man ja nicht gehen. Nur 10 Elo sollten es
> > schon sein.
> >
> > Ausserdem kann jeder Herausgeber einer Liste seine eigenen
> > Regeln definieren, wenn er sie dokumentiert.Wo gibt es da
> > Vorschriften ?
> > Wenn ich sage, ich vergebe nur signifikante Rangplätze, dann
> > weiß und sieht jeder, was damit gemeint ist.
> >
> > Rainer
>
> Auch auf die Gefahr hin, dass ich mich wiederhole. Statistisch
> gesehen sind die Ranglisten sowieso alles Kappes.
> Grund 1: Buchlernen, also Partien nicht unabhängig
> Der 2. wesentlichere Grund ist ganz einfach, dass selbst bei
> identischer Hardware
> und identischer Bedenkzeit kein Programm eine identische
> Spielstärke hat, die hängt auch vom Gegner ab. Das heißt, wenn
> ich die Spielstärke statistisch untersuchen will, muss ich sie
> erst einmal definieren. Und das geht wohl nur mit einem festen
> Pool an Programmen, wo jeder gegen jeden spielt.
> So lange die Ranglisten statistisch Käse sind, ist es mir jetzt
> egal, ob mit Elostat Signifikanz rauskommt oder nicht, die
> Zahlen sind sowieso Unfug. Und wo soll man dann die Grenze
> setzen, wann 2 Programme auf den gleichen Platz kommen.
> Ich finde die Ranglisten natürlich schon interessant, in der
> Gesamtheit bekommt man schon Informationen, aber statistisch:
> Kappes.
>
> Gruß, Martin

Na denn, alles warte auf deine Statistik-Kurse und kappesfreien Turniere und Ranglisten. Die Vorsätze klingen schon mal gut :-!

Gruße Rainer

von Rainer Neuhäusler - am 19.06.2001 22:37

Re: Computerranglisten

Rainer Neuhäusler schrieb:
>
> Martin Schubert schrieb:
> >
> > Der Unterschied ist meiner Meinung nach einfach
> > folgender: beim 100m-Lauf behauptet niemand der Sieger wäre
> der
> > Beste, nur weil er den Lauf gewonnen hat.
>
> Ich denke, da kommt wirklich auf die Veranstaltung an. Den
> Münchner Dantestadium-Meister hält niemand für den Schnellsten
> auf der Welt, den Olympiasieger schon eher, den Weltmeister
> wohl auch und dann wäre da noch der World Cup :-)
>
> > SSDF-Liste gehen viele davon aus, dass das Programm, welches
> > vorne stehe, tatsächlich das beste sei.
> >
> > Gruß, Martin
>
> Das kannst du laut sagen. Deshalb wäre es nur fair wenigstens
> ein 25% Signifkanzniveau anzusetzen für die Vergabe der ersten
> Rangplätze. Man will ja kein Spielverderber sein ;-)
>
> Gruß Rainer

Die Frage ist nur, wie man das überhaupt hinbekommen soll. Ich meine, man könnte da bei allen Ranglisten schon etwas verbessern. Zum Beispiel sind die Ergebnisse der Topprogramme fast gar nicht vergleichbar, da sie teilweise gegen komplett andere Gegner spielen.

Gruß, Martin

von Martin Schubert - am 20.06.2001 06:22

Re: CM 8000: Spielstärke ungeklärt!?

> Ich fände es besser z.B. Deep Fritz und Gambti Tiger auf einen
> Rang zu plazieren (derzeitige SSDF) weil 2653 Elo und 2650 SSDF
> keinen Spielstärkeunterschiede repräsentieren.
> In der Statistik werden unterschiedliche Rangplätze nur für
> signifikante Punkteunterschiede vergeben. Will man mehr Ränge,
> dann muss man das Signifkanzniveau senken. So einfach ist das
> hier.
>
> Aber so weit muss man ja nicht gehen. Nur 10 Elo sollten es
> schon sein.
>
> Ausserdem kann jeder Herausgeber einer Liste seine eigenen
> Regeln definieren, wenn er sie dokumentiert.Wo gibt es da
> Vorschriften ?
> Wenn ich sage, ich vergebe nur signifikante Rangplätze, dann
> weiß und sieht jeder, was damit gemeint ist.


wir sagen:
wer die höchste zahl hat und mindestens 40 partien gespielt hat, liegt vorne.
das ist wie beim fußball. wenn mannschaft a durch elfmeterschießen wm geworden ist, dann liegt sie nun mal im moment vorne, auch wenn mannschaft b die letzten 5 begegnungen gewonnen hat und möglicherweise besser ist.

marcus

von marcus kästner - am 21.06.2001 08:19
Zur Information:
MySnip.de hat keinen Einfluss auf die Inhalte der Beiträge. Bitte kontaktieren Sie den Administrator des Forums bei Problemen oder Löschforderungen über die Kontaktseite.
Falls die Kontaktaufnahme mit dem Administrator des Forums fehlschlägt, kontaktieren Sie uns bitte über die in unserem Impressum angegebenen Daten.