Diese Seite mit anderen teilen ...

Informationen zum Thema:
Forum:
ChessBits-Computerschachforum
Beiträge im Thema:
8
Erster Beitrag:
vor 16 Jahren, 1 Monat
Letzter Beitrag:
vor 16 Jahren, 1 Monat
Beteiligte Autoren:
Michael Scheidl, HJS, marcus kästner, Werner Schüle, Dr. M. Gourevitch

BS-2001 Test

Startbeitrag von HJS am 08.08.2001 14:02

Die 30 Stellungen des neuen Bednorz & Schumacher Tests können jetzt besichtigt und heruntergeladen werden. Details und Einzelheiten befinden sich in der neuen ChessBits Nr. 13, die nun ausgeliefert wird.
BS-2001

Antworten:

Warum enthält die Formel die Gesamtzeit, also eine simple Addition aller Lösezeiten? Das ist doch nicht sachgerecht. Ist es wirklich so schwer, eine logarithmische Funktion zu verwenden?

Man betrachte nur folgendes Beispiel:

Stellung / Programm / Lösezeiten

# / A / B
1 / 0:05 / 0:10
2 / 0:05 / 0:10
3 / 0:05 / 0:10
4 / 0:05 / 0:10
5 / 0:05 / 0:10
6 / 0:40 / 0:10

Summe: 1:05 / 1:00

Welches Programm ist wohl stärker?

siehe auch:
[www.siteboard.de]

mfg.
M.Scheidl

von Michael Scheidl - am 08.08.2001 16:23
>Warum enthält die Formel die Gesamtzeit, also eine simple Addition aller Lösezeiten?

Weil wir (Dipl. Ing. Hubert Bednorz, Dr. Gourevitch und ich) uns nach eingehenden Diskussionen dafür entschieden haben! Die Formel ist einfach, effektiv und gut. Wem sie nicht gefällt, soll selber eine konkrete Formel für unseren Test vorschlagen und den Beweis antreten, das seine Formel besser bzw. genauer ist.

>Das ist doch nicht sachgerecht. Ist es wirklich so schwer, eine
logarithmische Funktion zu verwenden?

Nein, das ist überhaupt gar nicht schwer. Ich selbst habe sie schon einmal in einem kleineren Test angewendet und war unzufrieden! Wir haben uns über dieses Thema auch schon früher einmal in meinem alten PC-Schach-Aktuell unterhalten, worauf ich damals Deine Idee mal ausprobiert hatte.

>Man betrachte nur folgendes Beispiel:

Stellung / Programm / Lösezeiten

# / A / B
1 / 0:05 / 0:10
2 / 0:05 / 0:10
3 / 0:05 / 0:10
4 / 0:05 / 0:10
5 / 0:05 / 0:10
6 / 0:40 / 0:10

Summe: 1:05 / 1:00

>Welches Programm ist wohl stärker?

Ein konstruiertes Beispiel, welches praxisfern ist. Das klingt in der grauen Theorie gut, ist aber in der Praxis durchaus alles andere als "sachgerecht".

>siehe auch:
[www.siteboard.de]

Diesen Beitrag von Dir kenne ich natürlich, ich bin durchaus gut informiert, teile. Wir, und ich kann hier im Namen meiner Kollegen sprechen, halten nichts davon.

mfg.
HJS

von HJS - am 08.08.2001 18:38
HJS schrieb:
>
> (...) Wem sie nicht gefällt,
> soll selber eine konkrete Formel für unseren Test vorschlagen
> und den Beweis antreten, das seine Formel besser bzw. genauer
> ist.

Aber wenn ich eine Auswertungsformel als brauchbar betrachten soll, dann muß sie sich m.E. erstmal an (überdeutlichen) theoretischen Beispielen bewähren. In der Praxis sind Ergebnisse natürlich breiter gestreut und teilweise gegeläufig, sodaß man dort nicht so klar erkennt, ob eine Formel brauchbar ist oder nicht.

In dem vorigen ganz unten zitierten Beispiel ist Programm A in 5 von 6 Fällen doppelt so schnell wie B, und hat nur einmal einen Ausrutscher. Wenn jetzt eine Wertung ergibt, daß Programm B besser ist - obwohl es 5 Mal von 6 doppelt so lange braucht - was soll ich dann davon halten?

Eine anderer simpler Fall aus meinen angegebenen Posting:

Einfaches deutliches Beispiel, etwa nach einer Neuauflage eines Programmes: Eine Bedenkzeitverbesserung 5:00 auf 4:40 ist nicht derselbe Leistungsunterschied wie z.B. von 0:30 auf 0:10 (obwohl es beide Male -20 Sekunden sind).

Stellen wir uns einmal vor, daß zwei zu testende Programme mehrere Lösungen bei diesen Bedenkzeiten liefern. Das heißt, wenn ich mit Eurer Formel ein Programm auf 333 MHz und dann auf 1 GHz teste (nehmen wir einmal die gleiche Anzahl Lösungen an), dann bekomme ich die gleiche Wertungsdifferenz ausgewiesen, wie wenn sich ein anderes Programm um nur 7% verbessert (von 5:00 auf 4:40). Die Differenz der Gesamtzeiten wäre in beiden Fällen gleich.

Es ist klar, das so etwas in der Praxis in dieser Form nicht vorkommt - aber eine Formel muß doch erst einmal ein so elementares, überdeutliches Beispiel - wenigstens halbwegs - richtig behandeln. Wenn sie für eine geringfügige, total unbedeutende Verbesserung dieselbe Differenz ausweist wie für eine Verdreifachung der Geschwindigkeit, verstehe ich eigentlich nicht, wie man damit zufrieden sein kann.

mfg.
M.Scheidl



> >Das ist doch nicht sachgerecht. Ist es wirklich so schwer, eine
> logarithmische Funktion zu verwenden?
>
> Nein, das ist überhaupt gar nicht schwer. Ich selbst habe sie
> schon einmal in einem kleineren Test angewendet und war
> unzufrieden! Wir haben uns über dieses Thema auch schon früher
> einmal in meinem alten PC-Schach-Aktuell unterhalten, worauf
> ich damals Deine Idee mal ausprobiert hatte.
>
> >Man betrachte nur folgendes Beispiel:
>
> Stellung / Programm / Lösezeiten
>
> # / A / B
> 1 / 0:05 / 0:10
> 2 / 0:05 / 0:10
> 3 / 0:05 / 0:10
> 4 / 0:05 / 0:10
> 5 / 0:05 / 0:10
> 6 / 0:40 / 0:10
>
> Summe: 1:05 / 1:00
>
> >Welches Programm ist wohl stärker?
>
> Ein konstruiertes Beispiel, welches praxisfern ist. Das klingt
> in der grauen Theorie gut, ist aber in der Praxis durchaus
> alles andere als "sachgerecht".
>
> >siehe auch:
> [www.siteboard.de]
>
> Diesen Beitrag von Dir kenne ich natürlich, ich bin durchaus
> gut informiert, teile. Wir, und ich kann hier im Namen meiner
> Kollegen sprechen, halten nichts davon.
zum Thema


von Michael Scheidl - am 08.08.2001 22:08
Hallo,
wo kann man die ganzen Testergebnisse von Manfred Meiler ansehen/runterladen?
In der Zeitschrift wird z.B. Century erwähnt, die Ergebnisse haben aber nicht mehr auf die Seite gepaßt.
Werner

von Werner Schüle - am 09.08.2001 12:41
Sehr geehrter Herr Scheidl,

die von mir entwickelte und in einem konkretem Form für BS-2001 benutzte ELO-Formel
funkzioniert auch in Ihrem Beispiel perfekt!
Zuerst möchte ich diese Formel erklären. Sie ist völlig neu und sieht so aus:

ELO=A+k1*LQ-k2*(GZ/n)

LQ=Lösungsquote in %
GZ=Gesamtzeit in min (Summe einzelner LZ und allen STRAFZEITEN (15 min*Anzahl der ungelösten Aufgaben)
GZ/n=mittlere LZ eines Programms
n=Zahl der Testaufgaben
A=konstanter Wert der Grundwertes
K1*LQ=variables Wert der Grundwertes

Die ELO-Zahl ist also sowohl vom LQ eines Programms, als auch von seiner durchschnittlichen Geschwindigkeit abhängig. Die Konstanten k1 und k2 dienen dafür, um das Verhältnis diesen beiden Faktoren festzustellen.
Ich bin überzeugt, dass LQ dabei Vorzug hat!

In Ihrem Beispiel mit sechs Aufgaben für zwei Programme machen Sie einen Fehler, denn bei einem Ausrutscher kriegt Programm A Strafzeit =15 min und bei begrenzter LQ=80% ist GZ nur 40 min.
LQ des B-Programms gleich 100%, aber GZ ist 60 min, also man kann nicht behaupten, dass A oder B besser ist. Die Formel behandelt ihr Beispiel korrekt!

Unsere Formel definiert vor allem eine Reihefolge der Programme, dabei 5 oder 10 Punkten Differenz bedeuten nur, dass zwei Programme etwa gleich stark sind.
Ein Versuch, eine absolute ELO-Zahl nach einem Testen zu kriegen, ist m.E. eine Idylle, denn es gibt eigentlich kein Basis dafür. SSDF-Liste liefert die Bewertung einer SPIELSTÄRKE der Programme, die auf keinem Fall ihrer ANALYSEFÄHIGKEIT nach einem Stellungstest entspricht. Zusätzliche Komplikation unserer Formel halte ich für Überflüssig.

Mit freundlichen Grüßen
Dr. Michael Gourevitch

von Dr. M. Gourevitch - am 09.08.2001 12:51
Danke, aber ich habe vergessen, es hinzuzufügen:

Die Bedenkzeiten in meinem Beispiel waren als Sekunden gedacht (nicht Minuten). Somit ist der Bedenkzeit-Durchschnitt - auch innerhalb des getesteten Bereiches - von A höher als der von B, obwohl A in 5 von 6 Fällen doppelt so schnell ist.

Aber ich möchte eines noch ergänzend sagen: Die wesentliche Leistung beim Erstellen eines guten Schachtests ist immer die Auswahl der Stellungen selbst, und hier weiß ich, daß alle Beteiligten an den BS- und BT-Tests hervorragendes leisten (ist mir schon seit dem ersten BT-Test bekannt).

Da ich mich selber intensiver mit Tests befaßt habe, habe ich auch großes Interesse an den dazugehörigen Auswertungsverfahren - Nicht zuletzt weil ich finde, daß Stellungstests wieder mehr ins Zentrum der Aufmerksamkeit rücken sollten. Deswegen propagiere ich gelegentlich meine eigene Überzeugung von einem Bewertungskonzept, auch weil die von mir dargelegte Kritik sehr naheliegend ist (und schon von verschiedenen Seiten so oder ähnlich geäußert wurde).

Das soll aber nicht im geringsten die Freude am Test beeinträchtigen.

Viel Erfolg damit!


mfg.
M.Scheidl

von Michael Scheidl - am 09.08.2001 17:03
hallo werner,

due gesammelten ergebnisse von manfred meiler (er hat über 100 programme getestet) werden auf der cd von cb14 enthalten sein.

vielleicht kannst du sie aber auch zwischenzeitlich über hjs kriegen.

viele grüße
marcus

von marcus kästner - am 10.08.2001 06:47
Zur Information:
MySnip.de hat keinen Einfluss auf die Inhalte der Beiträge. Bitte kontaktieren Sie den Administrator des Forums bei Problemen oder Löschforderungen über die Kontaktseite.
Falls die Kontaktaufnahme mit dem Administrator des Forums fehlschlägt, kontaktieren Sie uns bitte über die in unserem Impressum angegebenen Daten.