integrated tokenizer

A simple change is needed in order to integrate a tokenizer.
In file utils/transform.py, to method CoNLL.transform.__init__(), add the optional parameter

    reader=open

and then set

    self.reader=reader

and in CoNLL.load(), change it to use it:

        if isinstance(data, str):
            if not hasattr(self, 'reader'): self.reader = open # back compatibility       
            with self.reader(data) as f:
                lines = [line.strip() for line in f]


You can then pass as reader a nltk tokenizer or a Stanza tokenizer.
I use this code to interface tp Stanza:


[tokenizer.py.txt](https://github.com/yzhangcs/parser/files/5395215/tokenizer.py.txt)


    

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

integrated tokenizer #47

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

integrated tokenizer #47

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions