2011-01-03 6 views
5

Estoy aprendiendo NLP. Actualmente juego con Word Sense Disambiguation. Estoy planeando usar el corpus de semcor como datos de entrenamiento pero tengo problemas para entender la estructura xml. Intenté buscar en Google pero no encontré ningún recurso que describa la estructura de contenido de semcor.comprensión de la estructura del cuerpo de semcor h

<s snum="1"> 
<wf cmd="ignore" pos="DT">The</wf> 
<wf cmd="done" lemma="group" lexsn="1:03:00::" pn="group" pos="NNP" rdf="group" wnsn="1">Fulton_County_Grand_Jury</wf> 
<wf cmd="done" lemma="say" lexsn="2:32:00::" pos="VB" wnsn="1">said</wf> 
<wf cmd="done" lemma="friday" lexsn="1:28:00::" pos="NN" wnsn="1">Friday</wf> 
<wf cmd="ignore" pos="DT">an</wf> 
<wf cmd="done" lemma="investigation" lexsn="1:09:00::" pos="NN" wnsn="1">investigation</wf> 
<wf cmd="ignore" pos="IN">of</wf> 
<wf cmd="done" lemma="atlanta" lexsn="1:15:00::" pos="NN" wnsn="1">Atlanta</wf> 
<wf cmd="ignore" pos="POS">'s</wf> 
<wf cmd="done" lemma="recent" lexsn="5:00:00:past:00" pos="JJ" wnsn="2">recent</wf> 
<wf cmd="done" lemma="primary_election" lexsn="1:04:00::" pos="NN" wnsn="1">primary_election</wf> 
<wf cmd="done" lemma="produce" lexsn="2:39:01::" pos="VB" wnsn="4">produced</wf> 
<punc>``</punc> 
<wf cmd="ignore" pos="DT">no</wf> 
<wf cmd="done" lemma="evidence" lexsn="1:09:00::" pos="NN" wnsn="1">evidence</wf> 
<punc>''</punc> 
<wf cmd="ignore" pos="IN">that</wf> 
<wf cmd="ignore" pos="DT">any</wf> 
<wf cmd="done" lemma="irregularity" lexsn="1:04:00::" pos="NN" wnsn="1">irregularities</wf> 
<wf cmd="done" lemma="take_place" lexsn="2:30:00::" pos="VB" wnsn="1">took_place</wf> 
<punc>.</punc> 
</s> 
  • Asumo wnsn es 'sentido de las palabras'. ¿Es correcto?
  • ¿Qué significa el atributo lexsn? ¿Cómo se asigna a wordnet?
  • ¿A qué se refiere el atributo pn? (tercera línea)
  • ¿Cómo se asigna el atributo rdf? (nuevamente tercera línea)
  • En general, ¿cuáles son los posibles atributos?

Respuesta

10

El formato se describe en el archivo "doc/cxtfile.txt" en el SemCor 1.6 archive; por alguna razón, la documentación no está incluida en versiones posteriores.

+0

El wnsn es de la "palabra utilizada" o su "forma lematizada", porque pueden ser diferentes. – damned

Cuestiones relacionadas