Diese Seite mit anderen teilen ...

Informationen zum Thema:
Forum:
ChessBits-Computerschachforum
Beiträge im Thema:
9
Erster Beitrag:
vor 16 Jahren
Letzter Beitrag:
vor 16 Jahren
Beteiligte Autoren:
Ingo Bauer, marcus kästner, ELVIS, rainer neuhäusler

Objektivität von Ranglisten

Startbeitrag von rainer neuhäusler am 25.05.2001 16:20

ChessBits verwendet für die Ranglisten Partien von "vertrauenswürdigen Quellen wie z.B. E. Irazoqui"). Ich finde es gut, dass die vielen privaten Tests, Turniere und Matches auf diese Weise uns allen zugute kommen :)

Trotzdem sollte man m.E. im Sinne der Objkektivität die "Vertrauensfrage" so gut es geht durch eine Überprüfbarkeit im wissenschaftlichen Sinne ersetzen. Mit Betonung "so gut es geht", denn Objekivität im tetsttheoretischen Sinne erfordert Professionalität und erheblichen finanziellen Aufwand. Letztlich stellt sich da die Kosten/Nutzen-Frage für ev. nur ein paar Elo Genauigkeit.

In diesem wissenschafts-tendentiellen Sinne sind meine Fragen zu verstehen.

1 Inwieweit wir das eingesandte Partienmaterial einer Überprüfung unterzogen?

Wie leicht Fehler passieren können weiß jeder Tester aus eigener Erfahrung. Mal werden die TBs bei einem prog nicht aktiviert, dann ist in der "ini" das Pondern auf "off" und beim anderen prog auf "on", dann vergisst man die Lernfunktionen abzuschalten oder sie stellen sich (wie bei Fritz) wieder von selbst an. Einige Partien werden unzuverlässigerweise mit "multi-tasking" absolviert, die anderen im Vollmodus uw. Eine ellenlange Listen von möglichen Fehlbedienungen, die der Chancengleichheit zuwider laufen.
Selbst die Dauertester der SSDF sind nicht dagegen gefeit, wie die publizierten Partien zeigen.

2 Ich würde eine Liste aller Testautoren mit einer entsprechenden Zuordnung der getesteten Programme bzw. der gelieferten Partien begrüssen

3 Was ist eine "Listen-Inzucht" und wie wirkt sie sich aus ?

So viel erst mal.

Rainer

Antworten:

hallo rainer,

>
> Trotzdem sollte man m.E. im Sinne der Objkektivität die
> "Vertrauensfrage" so gut es geht durch eine Überprüfbarkeit im
> wissenschaftlichen Sinne ersetzen. Mit Betonung "so gut es
> geht", denn Objekivität im tetsttheoretischen Sinne erfordert
> Professionalität und erheblichen finanziellen Aufwand.
> Letztlich stellt sich da die Kosten/Nutzen-Frage für ev. nur
> ein paar Elo Genauigkeit.

eben. am ende nivelliert sich das innerhalb zig-tausend partien.

>
> In diesem wissenschafts-tendentiellen Sinne sind meine Fragen
> zu verstehen.
>
> 1 Inwieweit wir das eingesandte Partienmaterial einer
> Überprüfung unterzogen?

wir gehen davon aus, daß die erfahrenen tester, deren partien wir verwenden in der regel richtig testen. d.h., einem erfahrenen tester fällt es normalerweise hinterher auf, wenn er einen fehler gemacht hat. außerdem bestehen mit abstand die meisten partien aus dem eigenen chessbits-pool und die sind korrekt, weil mehrmals überprüft.

>
> Wie leicht Fehler passieren können weiß jeder Tester aus
> eigener Erfahrung. Mal werden die TBs bei einem prog nicht
> aktiviert, dann ist in der "ini" das Pondern auf "off" und
> beim anderen prog auf "on", dann vergisst man die
> Lernfunktionen abzuschalten oder sie stellen sich (wie bei
> Fritz) wieder von selbst an. Einige Partien werden
> unzuverlässigerweise mit "multi-tasking" absolviert, die
> anderen im Vollmodus uw. Eine ellenlange Listen von möglichen
> Fehlbedienungen, die der Chancengleichheit zuwider laufen.
> Selbst die Dauertester der SSDF sind nicht dagegen gefeit, wie
> die publizierten Partien zeigen.

allerdings. es passiert immer wieder mal ein fehler. die auswirkungen sind aber SEHR gering. selbst, wenn bei einem programm bei 20 partien mal das PB vergessen worden wäre, spielt das bei 400 partien praktisch keine rolle mehr. vielleicht 2 elo oder so.

>
> 2 Ich würde eine Liste aller Testautoren mit einer
> entsprechenden Zuordnung der getesteten Programme bzw. der
> gelieferten Partien begrüssen

absolut undurchführbar vom verwaltungsaufwand.

>
> 3 Was ist eine "Listen-Inzucht" und wie wirkt sie sich aus ?

listen-inzucht ist, wenn alle listen zu einem bedeutenden teil das gleiche ausgangsmaterial verwenden (wie zum beispiel selective search und ssdf). klar, daß dann immer die selben vorne sind. ein grund, warum die chessbits rangliste doch ERHEBLICH von den angesprochenen differiert.
>

marcus

von marcus kästner - am 25.05.2001 17:20
Hallo

Ich glaube eigentlich an den SSDF Ansatz. Je mehr Quellen desto eher heben sich Fehler gegeneinander auf. Wenn der Listenersteller halbwegs mitdenkt und plötzlich Ergebnisse bekommt in denen Programm A 80% aller Spiele gegen Programm B gewinnt und dieser Trend dem bisherigen entgegenläuft wird er auch verantwortungsbewußt hinterfragen. (Hoffe Ich MK :D)

Letztendlich bleibt dem Leser nur das was ich beschloßen habe und auch tue. Von Programmen die mich interessieren lasse ich kleine Testserien laufen um mir ein eigenes Bild zu machen. Dabei entscheidet für mich nicht unbedingt das Programm S mit 10.5 zu 9.5 gegen Programm F gewonnen hat sondern welches Programm die "besseren" Partien geliefert hat. Ob diese Testkriterien immer stimmen, sollen andere beurteilen. Letztendlich ist das das einzige was mich zufriedenstellt. Ranglisten EGAL von wem, Halte ich eigentlich immer für zweifelhat.

Die Top 5 oder 8 liegen sowieso so dicht zusammen das in einem normalen Turnier ALLES passieren kann! Da wird ein unterschiedlicher Spielstil viel interessanter.

Bye Ingo
Ingo

von Ingo Bauer - am 25.05.2001 17:21
Ingo Bauer schrieb:
>
> Hallo
>
> Ich glaube eigentlich an den SSDF Ansatz. Je mehr Quellen desto
> eher heben sich Fehler gegeneinander auf. Wenn der
> Listenersteller halbwegs mitdenkt und plötzlich Ergebnisse
> bekommt in denen Programm A 80% aller Spiele gegen Programm B
> gewinnt und dieser Trend dem bisherigen entgegenläuft wird er
> auch verantwortungsbewußt hinterfragen. (Hoffe Ich MK :D)
>
> Letztendlich bleibt dem Leser nur das was ich beschloßen habe
> und auch tue. Von Programmen die mich interessieren lasse ich
> kleine Testserien laufen um mir ein eigenes Bild zu machen.
> Dabei entscheidet für mich nicht unbedingt das Programm S mit
> 10.5 zu 9.5 gegen Programm F gewonnen hat sondern welches
> Programm die "besseren" Partien geliefert hat. Ob diese
> Testkriterien immer stimmen, sollen andere beurteilen.
> Letztendlich ist das das einzige was mich zufriedenstellt.
> Ranglisten EGAL von wem, Halte ich eigentlich immer für
> zweifelhat.
>
> Die Top 5 oder 8 liegen sowieso so dicht zusammen das in einem
> normalen Turnier ALLES passieren kann! Da wird ein
> unterschiedlicher Spielstil viel interessanter.
>
> Bye Ingo
> Ingo

Jedem das Seine -
"zumindest" tut ChessBits richtig was - jenseits meiner schönen Wortkreation " Listen Inzucht ", um uns + Euch allen irgendetwas "messbares" und vergleichendes an die hand zu geben.
Du musst nämlich noch berücksichtigen, daß es viele User gibt, die ihr Taschengeld schon a bissel abwägen müssen - VORHER.

Siehste, und genau da setzt die Existenzberechtigung solcher Listen und die der Arbeit von Journalisten ein

:p

dessen war ich mir eigentlich immer bewusst.

Ich mache mal was, was ich sonst eigentlich nie tue -
ein Auszug einer Lesermail, wie ich sie immer so kriege ( das bezog sich auf Hardwareberatung )
- natürlich bleibt der poster in meiner Box - es soll nur mal den - wahren - Antrieb erläutern, weshalb man sich immer noch ( und oft noch ganz gerne ) für die community bemüht :

********************************

Hallo!
Genau so, wie in Ihrem Artikel beschireben ist es.

Hätt´ ich den Bericht schon früher gelesen, wäre mir eine lange Zeit WINDOWS-Exil erspart geblieben.
Nachdem ich nun schon einige Rechner durch die Gegend getragen habe, weiß ich ein wenig darüber.
Der Artikel ist perfekt und beinhaltet unbezahlbare Infos für den 08/15-User.

Danke!


**********************************

Verstehst Du ?
Wenn man dauernd öffentlich angek...wird, weil x + y nicht so ganz nach dem persönlichen Geschmack läuft - und das selbst so geschätzte Prog nicht DIEW Meriten - usw -
dann müsste man schon Masochist in Reinkultur sein, um 16 Jahre lang - usw.

Die paar Riesen per anno sind's weiss Gott nicht, da sitz' ich lieber mit meiner Brasilianerin auf'm Balkon in der Sonne oder geh' mit dem geliebtem "Kampfhundemämnnchen" Stöckchen spielen.

Aber solche Postings - und GottLob krieg' ich da noch ne ganze Menge, die treibt Mensch ( ELVIS ) - oder Marcus....noch an.
See ?

In dem Sinne

:hot:

pleasant w/w

EL

von ELVIS - am 25.05.2001 22:33
Hallo Elvis

>
> Jedem das Seine -
> "zumindest" tut ChessBits richtig was - jenseits meiner schönen
> Wortkreation " Listen Inzucht ", um uns + Euch allen
> irgendetwas "messbares" und vergleichendes an die hand zu geben.
> Du musst nämlich noch berücksichtigen, daß es viele User gibt,
> die ihr Taschengeld schon a bissel abwägen müssen - VORHER.
>
> Siehste, und genau da setzt die Existenzberechtigung solcher
> Listen und die der Arbeit von Journalisten ein

Da hast du aber etwas in den falschen Hals bekommen. Ich möchte wahrlich nicht die Existenberechtigung von Journalisten in Frage stellen. Auch mir dienen Ratinglisten als ein Anhaltspunkt, aber eben nur als EIN Anhaltspunkt. Natürlich muß auch Ich mein Taschengeld sortieren und entscheide deswegen Anhand von mehreren Listen und auch Produktbeschreibungen was ich mir zulege.

Noch etwas anderes: Auf eurer Newsseite Steht das die Liste mit Spielen auf gleicher Hardware erstellt wurde. Wie geht das denn mit den Dual-Versionen? Liefen die als Single Thread? Oder werden die hinengerechnet nur um zu zeigen wo die Deeps stehen?

Ingo

von Ingo Bauer - am 25.05.2001 23:02
Ingo Bauer schrieb:
>
> Hallo Elvis


> snip <

> > Listen und die der Arbeit von Journalisten ein
>
> Da hast du aber etwas in den falschen Hals bekommen. Ich möchte
> wahrlich nicht die Existenberechtigung von Journalisten in
> Frage stellen. Auch mir dienen Ratinglisten als ein

Selber falscher Hals...

:p

es war eher eine laxe Bemerkung :
merke :
auch ein Bärbeisser wie EL ist an 1,5 % des Tages eben nicht bärbeissig....

:-D


> Anhaltspunkt, aber eben nur als EIN Anhaltspunkt. Natürlich muß
> auch Ich mein Taschengeld sortieren und entscheide deswegen
> Anhand von mehreren Listen und auch Produktbeschreibungen was
> ich mir zulege.

Da - siehste !
Und ausserdem sollste Rezensionen lesen - dafür werden sie nämlich gemacht ( meine....hilfsweise die von Marcus )

;-) ;-)


> Noch etwas anderes: Auf eurer Newsseite Steht das die Liste mit
> Spielen auf gleicher Hardware erstellt wurde. Wie geht das denn
> mit den Dual-Versionen? Liefen die als Single Thread? Oder
> werden die hinengerechnet nur um zu zeigen wo die Deeps stehen?

Dafür ist Marcus der Experte - ich denke, der wird das beantworten.

c/u

EL

von ELVIS - am 25.05.2001 23:35
> Noch etwas anderes: Auf eurer Newsseite Steht das die Liste mit
> Spielen auf gleicher Hardware erstellt wurde. Wie geht das denn
> mit den Dual-Versionen? Liefen die als Single Thread? Oder
> werden die hinengerechnet nur um zu zeigen wo die Deeps stehen?
>


es ist immer gleiche hardware, aber dual bleibt dual. daß heißt, wenn tiger auf einem celeron 500 spielt, dann spielt deep fritz single auch auf einem celeron 500, deep fritz dual jedoch auf 2 celeron 500.
das machen wir um zu sehen, was ein dualsystem bringt.

marcus

von marcus kästner - am 26.05.2001 07:43
Hallo Markus
>
>
> es ist immer gleiche hardware, aber dual bleibt dual. daß
> heißt, wenn tiger auf einem celeron 500 spielt, dann spielt
> deep fritz single auch auf einem celeron 500, deep fritz dual
> jedoch auf 2 celeron 500.
> das machen wir um zu sehen, was ein dualsystem bringt.
>

Ok. verstanden. Wollte ich nur wissen damit ich sehen kann wie gut Deep Fritz im Vergleich zu den Tigern ist. Um gleiche Hardware zu erreichen (und damit die Engines wirklich fair zu vergleichen) müsste der Tiger 14 also ungefähr auf einem 500MHz * 1.7 = 850MHz Rechner laufen (sofern man von einem Faktor von nur 1.7 ausgeht) wenn DF auf einem Dual 500 läuft?

Bye
Ingo

von Ingo Bauer - am 26.05.2001 07:51
ja, stimmt in etwa.

marcus

von marcus kästner - am 26.05.2001 08:05
Zur Information:
MySnip.de hat keinen Einfluss auf die Inhalte der Beiträge. Bitte kontaktieren Sie den Administrator des Forums bei Problemen oder Löschforderungen über die Kontaktseite.
Falls die Kontaktaufnahme mit dem Administrator des Forums fehlschlägt, kontaktieren Sie uns bitte über die in unserem Impressum angegebenen Daten.