2010-11-10 23 views
5

Tengo una pregunta sobre el formato de archivo de datos de WordNet. La página del manual wndb (5) dice en parte:Ayuda con el formato de archivo de datos de WordNet

El campo de origen/destino distingue los punteros léxicos y semánticos. Es un campo de cuatro bytes, que contiene dos enteros hexadecimales de dos dígitos. Los dos primeros dígitos indican el número de palabra en el sintonizador actual (fuente), los dos últimos dígitos indican el número de palabra en el conjunto de objetivos. Un valor de 0000 significa que pointer_symbol representa una relación semántica entre el synset actual (fuente) y el synset de destino indicado por synset_offset.

Una relación léxica entre dos palabras en diferentes synsets está representada por valores distintos de cero en los números de palabra de origen y de destino. Los primeros y los últimos dos bytes de este campo indican los números de las palabras en los synsets de origen y destino, respectivamente, entre los que se mantiene la relación. número de palabras se asignan a los campos de Word en un synset, de izquierda a derecha, comenzando con 1.

entiendo el segundo párrafo cuando los números de origen/destino no son cero, pero el significado de cuando la fuente/target son "0000" todavía no está claro para mí.

Déjeme tomar un ejemplo de la palabra "aristócrata". La entrada index.noun es:

aristócrata n 1 4 @ ~ # m + 1 0 09807754

y la correspondiente data.noun entrada es:

09807754 18 n 03 aristócrata 0 blue_blood 0 patricio 0 013 @ 09623038 n 0000 #m 08388207 n 0000 + 01590484 a 0306 + 01590484 a 0102 ~ 09840639 n 0000 ~ 09872782 n 0000 ~ 10083823 n 0000 ~ 10175090 n 0000 ~ 10285135 n 0000 ~ 10472799 n 0000 ~ 10474064 n 0000 ~ 10505732 n 0000 ~ 10506642 n 0000 | un miembro de la aristocracia

la primera "ptr" para los que es:

@ 09623038 n 0000

y que data.noun entrada comienza con:

09623038 18 n 01 líder 0 058 @ 00007846 n 0000 ...

Lo que no me queda claro es para qué palabra (s) sirve esta relación. ¿La relación hypernym ("@") se mantiene solo para la palabra original ("aristrocrat") para todas las palabras en el synset objetivo (en este caso, solo hay "líder")?

¿O la relación se aplica a todas las palabras en el sintonizador fuente ("aristócrata", "sangre azul" y "patricio") a todas las palabras en el sintonizador objetivo?

Respuesta

1

La relación de hecho se cumple para todas las palabras en el sintonizador de origen para todas las palabras en el synset de destino.

Esto no significa que el líder sea siempre un hipernym de la aristocracia, sino que se aplica al sentido de aristócrata (miembro de la aristocracia) y al sentido de líder (una persona que gobierna o guía o inspira a otros) Algunas relaciones pueden sonar raras, pero WordNet no es perfecto y no puede ser.

Cuestiones relacionadas