Публикации с меткой «xml»

TONY.SU

Loxun - потоковая генерация xml в python

Loxun - отличная замена для XMLGenerator из xml.sax. В чем его плюсы перед последним:

SAX:

xml = XMLGenerator(out)
xml.startDocument()
xml.startElement('root')
xml.startElement('body')
xml.startElement('item')
xml.characters('some data')
xml.endElement('item')
xml.endElement('body')
xml.endElement('root')
xml.endDocument()

Loxun:

xml = XmlWriter(out)
xml.startTag('root')
xml.startTag('body')
xml.startTag('item')
xml.text('somedata')
xml.endTag()
xml.endTag()
xml.endTag()

Либо еще короче вместо трех вызовов endTag можно сделать xml.endTags() и все открытые элементы закроются автоматически.

Пойдем далее, необходимо добавить элемент вида:

<addr host="127.0.0.1" port="8080" />

SAX:

xml.startElement('addr', {'host': '127.0.0.1', 'port': 8000})
xml.endElement('addr')

Loxun:

xml.tag('addr', {'host': '127.0.0.1', 'port': 8080})

Работа с xmlns

SAX:

xml = XMLGenerator(out)
xml.startDocument()
xml.startElement('root', {'xmlns:g': '/some/url/to/xmlns'})
xml.startElement('item')
xml.startElementNS('image', 'g')
xml.characters('some data')
xml.endElementNS('image', 'g')
# ....

Loxun:

xml = XmlWriter(out)
xml.addNamespace('xmlns:g', '/some/url/to/xmlns')
xml.startTag('root')
xml.startTag('item')
xml.startTag('g:image')
xml.text('somedata')
xml.endTags()

Преимущество такого подхода в том, что значительно упрощается автоматизация, ниже будет пример. Но есть и другие полезные вещи loxun которых нет в SAX:

  • Никаких UnicodeDecodeError loxun конвертирует в unicode сам.
  • XmlWriter сам по себе является context-manager'ом, а значит можно использовать with.
  • Полезная функция сделанная мной - возможно использовать method chaining.
  • pretty-print из коробки.

И так, пример генерации google merchant feed.

from loxun import ChainXmlWriter

SITE_TITLE = 'tony.su'
SITE_LINK = 'tony.su'
SITE_DESCRIPTION = "tony's blog"

def export_merchant_xml(file, products):
    with ChainXmlWriter(file) as xml:
        xml.addNamespace('g', 'http://base.google.com/ns/1.0')
        xml.startTag('rss', {'version': '2.0'}).startTag('channel')
        xml.startTag('title').text(SITE_TITLE).endTag()
        xml.startTag('link').text(SITE_LINK).endTag()
        xml.startTag('description').cdata(SITE_DESCRIPTION).endTag()
        xml_fields = (
                    ('title', 'title'),
                    ('link', 'get_absolute_url'),
                    ('description', 'descr_short'),
                    ('g:image_link', 'get_pic_url'),
                    ('g:price', 'price'),
                    ('g:condition', 'condition'),
                    ('g:id', 'get_merchant_id'),
                )

        for product in products:
            xml.startTag('item')
            for xml_field, attr_name in xml_fields:
                xml.startTag(xml_field)
                attr = getattr(product, attr_name)
                xml.text(unicode(attr if not callable(attr) else attr()))
                xml.endTag()
            xml.endTag()
        xml.endTags()

def main():
    with open('merchant.xml', 'w') as f:
        products = [] # итератор с объектами загруженными из базы данных
        export_merchant_xml(f, products)

if __name__ == '__main__':
    main()

Python for SEO

Генерация xml карты.

Иногда требуется сгенерировать xml карту для заданных ссылок. Сначала делал это за счет метода строки format, но вот решил попробовать модуль для работы с xml и набросал простенькую функцию:

import StringIO
from xml.sax.saxutils import XMLGenerator
def create_sitemap(host,cnagfreq,priority,*links):
    st = StringIO.StringIO()
    g = XMLGenerator(st,encoding="UTF-8")
    g.startDocument()
    g.startElement('urlset', {'xmlns':"http://www.sitemaps.org/schemas/sitemap/0.9"})
    for lnk in links:
        g.characters("\n")
        g.startElement("url", {})
        g.characters("\n")
        g.startElement("loc", {})
        g.characters(lnk)
        g.endElement("loc")
        g.characters("\n")
        g.startElement("changefreq", {})
        g.characters(cnagfreq)
        g.endElement("changefreq")
        g.characters("\n")
        g.startElement("priority", {})
        g.characters(priority)
        g.endElement("priority")
        g.characters("\n")
        g.endElement("url")
    g.characters("\n")
    g.endElement("urlset")
    g.endDocument()
    return st.getvalue()
lst = ["http://ya.ru/{0}.html".format(x) for x in xrange(5)]
print create_sitemap("http://ya.ru/","daily","0.8",*lst)

Lazy Crazy Coder's blog

Implementing XML languages with lxml

Great presentation by Stefan Behnel, about lxml library, which provides a convenient set of tools for XML and HTML parsing and generating.

Дневник одного змеевода

Нетекстовые символы в XML и HTML

Большнство разработчиков знают, что некоторые специальные символы в XML и HTML необходимо записывать в виде entity или character reference. Но мало кто подозревает, что XML (а также SGML, на котором базируется HTML) документы могут содержать только "текстовые" символы. Привычные питоновские библиотеки также обходят это требование стороной. Средства конструирования XML, которые, казалось бы, должны полностью защищать нас от создания "битых" документов, справляются со своей задачей лишь частично. В результате вполне возможна ситуация, когда библиотека ругается на созданный с её же помощью документ. Вот пример с использованием ElementTree:
>>> from xml.etree import ElementTree
>>> element = ElementTree.Element('element')
>>> element.text = u'\0'
>>> xml = ElementTree.tostring(element, encoding='utf-8')
>>> ElementTree.fromstring(xml)
[...]
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 9
И то же самое с minidom:
>>> from xml.dom import minidom
>>> doc = minidom.getDOMImplementation().createDocument(None, None, None)
>>> element = doc.createElement('element')
>>> element.appendChild(doc.createTextNode(u'\0'))
<DOM Text node "">
>>> doc.appendChild(element)
<DOM Element: element at 0xb7ca688c>
>>> xml = doc.toxml(encoding='utf-8')
>>> minidom.parseString(xml)
[...]
xml.parsers.expat.ExpatError: not well-formed (invalid token): line 1, column 47
На мой взгляд, в описанной ситуации библиотека должна давать исключение ещё на стадии конструирования. Но даже если так и будет в будущих версиях, в реальной жизни это не решит проблему конкретного приложения, а лишь облегчит диагностику. Для web-приложений основной источник получения потенциально плохих данных — через форму. И было бы правильно проверять или очищать данные на стадии получения их от пользователя. Однако и здесь всё плохо: из всех известных мне библиотек для обработки и валидации форм только одна (весьма древняя и малоизвестная) решает проблему нетекстовых символов, хотя большинство вполне корректно работают с "битыми" кодировками.

Дневник одного змеевода

Задачка для собеседования

Была у меня в своё время любимая задачка для собеседования. Есть веб-страничка принимающая данные от посетителей сайта:
import cgi

form = cgi.FieldStorage()
message = form.getfirst('message', '')
attr = form.getfirst('attr', '')

result = '''<?xml version='1.0'?>
<message attr='%s'>%s</message>''' % (attr, message)
Далее данные отправляются, например, стороннему сервису. Так вот периодически этот сервис нам возвращает ошибку "not well-formed". И предлагаю найти и исправить ошибки. При этом я сразу оговариваю, что задача не столько на знание XML, сколько на умение решать проблемы, возникающие в ходе разработки. Кроме того, я делаю акцент на том, что пользователь может ввести произвольные данные.
Большинство соискателей сходу называют одну ошибку (представление спец-символов) и относительно быстро находят вторую (связанная с кодировкой). А вот третья проблема всегда остаётся незамеченной и "обходит" все предложенные тесты. Кроме того, большинство современных средств построения XML (например, ElementTree) молча пропускают такие ошибки. Как вариант, я предлагаю выбрать первый пришедший в голову blog-движок (как правило, это byteflow на django) с трансляцией RSS или Atom и написать тест, показывающий, что любой комментатор может "сломать" (весьма условно, учитывая что большиство современных читалок умеют переваривать и битый XML) feed комментариев. В короткий срок и без большого количества наводящих подсказок с этой задачей смог справиться только Олег Бройтман. Типичное время решения с подсказками — более суток.

Lazy Crazy Coder's blog

About underappreciated lxml's abilities

Only really lazy guys don't publish a link to this Ian Bicking's article about lxml python library and html parsing. Here is mine.

Lazy Crazy Coder's blog

Simple helper for ElementTree

This is a simple and elegant helper for building XML using ElementTree library.

Kinght who said PY!

xmlobjects: еще одна парадигма для xml раппинга

XMLOjbects для питона и xml это как ORM для баз данных [>>>]

По сути своей это оболочка вокруг ElementTree, красивая такая, обектная. Доступ к тегам и пропертям осуществляется через map.

Метки

.net .NET C# .sort 1.2 2009 2010 404 error admin ajax amazon analytics and apache api archlinux asp.net async asynchronous autocomplete bash blender blog blogengine blogs book bootstrap bot bpython buildout byteflow bzr C c plus plus C++ cache cbv Chaco checkio chrome ci ckeditor class based views clojure closure cms cms с удобной админкой code coding style collectd COM comet competition conference ConfigParser contest Context continuous integration CouchDB coverage CppCMS cpyext cpython crud csrf CSS ctypes curl custom model fields cx_freeze cython database db dbm dbqueries debian debug debugging decorator decorators deploy deployment descriptor design dev devconf developers development diveintopython Django django 1.2 django 1.3 django advent django framework django template django trunk django weblog django-admin-tools django-cms django-compressor django-hosts django-piston django-registration django-sphinx django.admin djangoadvent djangocms djangodash doc documentation drupal e-legion eclipse EGit emacs encoding Enthought epoll erlang event exception ExtJS fabric facebook fastcgi finaloption fixtures fonts forms formset fp framework freebsd freeswitch fs2web ftp fun funcparserlib functional gae gamin gandi generic views gettext gevent gil git github gitosis Google Google App Engine google picasa Google Translate google wave Google Web Toolkit grab grablab greenlet gtd gui haskell hg hgshelve highlighter host hosting how-to howto html html5lib Hudson humor i18n icfpc ide idiomatic image-scripting improvements Internet interpreter ipython ironpython izmenimsya.ru jabber java javascript jenkins jetbrains JIT job jquery json jstree jython kde kiev kiyv kyivpy l10n ldap library libs Life Links linux Linux & Unix LLVM logging logs lxml Mac OS X magic mail markdown Matplotlib Mayavi maybe mediavirus meetup memcache Memcached memory messages metaclass middleware migration mikrotik mkd model models mod_python mod_wsgi mongodb monitoring mptt musicmans.ru musicx mvc my-projects mysql netCDF networkx newforms newforms-admin news nginx Nhibernate nix nose NoSQL numpy oop open source OpenID openoffice opster optimization oracle orm os pagination parsing path patterns pdf PDF-принтер PEP PEP8 performance performance optimization perl personality photo php picture-driven computing PIL pinax pingback pip plasma plone plugin plugins postgresql programming progress bar psycopg2 py2exe pybb pybbm pycamp pycharm pycon pycow pycurl pydev pygtk pylons PyNGL pypy pyqt PyQt4 pyrad pyramid PySide Python Python 2.5 python 2.7 python 3 python c api python speed python-mssql python3 pywinauto Qt Qt4 queue rabbitmq radius raw sql re redis redsolution redsolution cms regexp regular expressions release repoze.bfg RequestContext reusable apps robokassa rss ru ruby ruby-on-rails sample satchmo scalability SciPy scraping screencast search selenium self.error seo server setattr settings setuptools shell sikuli sms snippet socket.io software sorting south sphinx spider sql sqlalchemy sqlite ssh startup step-by-step subdomain subversion svn SyntaxHighlighter system tags tdd tddspry teh drama template templates templatetags test testing thinkpad threading threads tips tips and tricks tools tornadio tornado tornado server tricks tutorial tweepy twisted twitter typography uapycon Ubuntu ucsvlog uml Uncategorized unicode unit test unit testing UnitTest Unladen Swallow upload urllib urls utf-8 uwsgi validation vcs versioning video vim virtualenv Visual Studio vkontakte voip wave web web-devel web-services web-разработка webdev webfaction webkit webpy websockets webtest widget widgets Win API windows Wirbel work wrapper wsgi wxPython wxWidgets wysiwyg xapian xml xmonad xmpp xpath yandex youtube zip zomg zope [cdata[cbv]] [cdata[ci]] [cdata[class based views]] [cdata[continuous integration]] [cdata[django framework]] [cdata[django-sphinx]] [cdata[django]] [cdata[nginx]] [cdata[python]] [cdata[virtualenv]] [cdata[программирование]] автоматизация администрирование администрирование django админка алгоритмы архитектура атрибуты базы данных Без рубрики безопасность библиотеки блоге бот веб-разработка видео Визуализация данных вконтакте Все записи гвидо ван россум граббер графика графы декоратор декораторы дескриптор дескрипторы документация заметки игра жизнь идея интересное киев Клиентам книги конференция личное математика метаклассы модели модули монады морфология мысли невозможное новости о облачные вычисления обо мне Обработка данных оптимизация оптимизация кода Основная лента основы парсинг парсинг сайтов перевод песочница Питон поебень поиск правила кодирования программирование Проектирование производительность работа рабочее размышлизмы Разное разработка разработка приложений разработки регулярные выражения сайт событие события ссылки статьи тестирование тесты Тюмень убунтариум фигня философия формы форум Хабрахабр хакинг хостинг шаблоны шаблоны проектирования эксперимент Эксперименты юмор я пиарюсь Яндекс