¿Cómo obtener el sintonizador de WordNet dado un ID de desplazamiento?

Tengo un desplazamiento del sintonizador de WordNet (por ejemplo id="n#05576222"). Dado este desplazamiento, ¿cómo puedo obtener el synset usando Python?¿Cómo obtener el sintonizador de WordNet dado un ID de desplazamiento?

Fuente

2011-11-10 user1039457

Para NTLK 3.2.3 o posterior, consulte la respuesta de donners45.

Para versiones anteriores de NLTK:

No hay ningún método integrado en el NLTK pero se puede usar esto:

from nltk.corpus import wordnet 

syns = list(wordnet.all_synsets()) 
offsets_list = [(s.offset(), s) for s in syns] 
offsets_dict = dict(offsets_list) 

offsets_dict[14204095] 
>>> Synset('heatstroke.n.01')

A continuación, puede conservar en vinagre el diccionario y cargarlo cada vez lo necesita.

Para versiones NLTK antes de 3.0, reemplace la línea

offsets_list = [(s.offset(), s) for s in syns]

con

offsets_list = [(s.offset, s) for s in syns]

desde antes de NLTK 3,0 offset fue un atributo en lugar de un método.

Fuente

2012-09-11 21:53:53

Interesante, esto arroja un error de clave con NLTK 3.0 – duhaime

'offset' es ahora un método. Pruebe esto en su lugar: 'offsets_dict = {s.offset(): s para s en wn.all_synsets()}' – Omer

* "No hay un método incorporado en el NLTK" * - ¡ahora existe! Ver la respuesta de donners45; este es obsoleto –

Además de usar NLTK, otra opción sería usar el archivo .tab del Open Multilingual WordNethttp://compling.hss.ntu.edu.sg/omw/ para Princeton WordNet. Normalmente he utilizado la receta a continuación para acceder a wordnet como un diccionario con compensados como la clave y ; cadenas delimitadas Como valores:

# Gets first instance of matching key given a value and a dictionary.  
def getKey(dic, value): 
    return [k for k,v.split(";") in dic.items() if v in value] 

# Read Open Multi WN's .tab file 
def readWNfile(wnfile, option="ss"): 
    reader = codecs.open(wnfile, "r", "utf8").readlines() 
    wn = {} 
    for l in reader: 
    if l[0] == "#": continue 
    if option=="ss": 
     k = l.split("\t")[0] #ss as key 
     v = l.split("\t")[2][:-1] #word 
    else: 
     v = l.split("\t")[0] #ss as value 
     k = l.split("\t")[2][:-1] #word as key 
    try: 
     temp = wn[k] 
     wn[k] = temp + ";" + v 
    except KeyError: 
     wn[k] = v 
    return wn 

princetonWN = readWNfile('wn-data-eng.tab') 
offset = "n#05576222" 
offset = offset.split('#')[1]+'-'+ offset.split('#')[0] 

print princetonWN.split(";") 
print getKey('heatstroke')

Fuente

2013-02-02 02:21:28 alvas

A partir de NLTK 3.2.3, hay un método público para hacer esto:

wordnet.synset_from_pos_and_offset(pos, offset)

en versiones anteriores se puede utilizar:

wordnet._synset_from_pos_and_offset(pos, offset)

Esto devuelve un synset basado en su punto de venta y offest ID. Creo que este método solo está disponible en NLTK 3.0, pero no estoy seguro.

Ejemplo:

from nltk.corpus import wordnet as wn 
wn._synset_from_pos_and_offset('n',4543158) 
>> Synset('wagon.n.01')

Fuente

2014-11-26 09:37:04 donners45

Puede utilizar of2ss(), por ejemplo:

from nltk.corpus import wordnet as wn 
syn = wn.of2ss('01580050a')

volverá Synset('necessary.a.01')

Fuente

2017-03-20 14:36:28 carcar

¿Cómo obtener el sintonizador de WordNet dado un ID de desplazamiento?

Respuesta

Cuestiones relacionadas