Публикации с меткой «database»

Блог python на хабрахабре

Python / Gephi как средство визуализации данных

Так уж случилось, что я оказался ассистентом у профессора в университете. Никогда не думал, что прийдётся сталкиваться с оценкой рисков и визуализацией данных, будучи, по призванию, криптографом. Курс называется «Информационные сети» и включает в себя: анализ случайных процессов, моделирование малых миров; компьютерные алгоритмы для оценки свойств сети; экспериментальные исследования крупных сетей, а также анализ рисков, которые трудно предсказать.

В виду того, что курс читается в основном для ИТ-шников, лектор сделал ставку на то, чтобы дать достаточно теории с минимумом математики и большим количеством практики. Для большинства вышеупомянутых задач подходит программа NetLogo. Она включает собственный язык программирования высокого уровня, который позволяет с лёгкостью моделировать различные случайные процессы. Для визуализации разнообразных данных была выбрана программа Gephi.

На основе опыта использования последней и была написана статья, в которой рассматривается получение входных данных для ПО с последующей их визуализацией.

Собственно постановка задачи была таковой: визуализация каких-либо реальных данных средствами Gephi.

Блог django на хабрахабре

Django Framework / [Ссылка] Andrew Godwin делится новостями о развитии South

South будет резделён на 2 части, и одна из них должна войти в состав Django. Также в посте есть ссылка на презентацию Эндрю с djangocon.eu в pdf и как видео.

Блог django на хабрахабре

Django Framework / [Перевод] Multiple database support

Изначально Django предполагал работу только с одной базой данных (системное ограничение включающее такие вещи как группа настроек DATABASE_*). В течение всего этого времени явно ощущалась необходимость поддержки возможности работы с несколькими БД. В рамках работы над версией 1.2 в течение Google Summer of Code поддержка нескольких БД была включена в trunk. С этими новшествами связаны как целый ряд внутренних изменений, так и несколько удачных расширений для существующих интерфейсов работы с БД.

Lazy Crazy Coder's blog

Database migration from SQLite to MySQL or Postgres

Script to migrate from SQLite to MySQL or PostgreSQL. Uses SQLAlchemy as middleware.

Lazy Crazy Coder's blog

CouchDB bulk insert's performance

Few days ago, I found a two articles by Damien Katz and Jan Lehnardt about CouchDB's scalability and I decided to write my own test.

My test is very similar to Jan's, but written in python. It uses almost the same datastructure,but the main purpose of my test — to check CouchDB's scalability on large about of data.

I measure an RPS — records per second. Actually, I've made three test.

Threads

First one — to check how performance depends on number of simultaneous connections. Here, I insert 100 records at once up to 100000. Thread count vary from 2 to 16. Here is a result from this test. This chart show, how depends RPS from database's size and thread count:

As you can see, values almost the same for all parameters. Obviously, something wriong with my test setup.

Bulk size

Next, I tried to see, how RPS depends on bulk size. On the next chart you can see how CouchDB operates on bulk sizes from 10 to 10000:

The best performance have bulk inserts which save 10000 records at once. And on large size of the database, RPS aspire to level which depends on bulk size. As you can see, bulk size 10000 gives best performance. It's about 1250 rows per second on database with 100000 documents.

Database size

My final test is more like stress test than performance, because I tried to create large database with 4 million documents and see how RPS depends on database's size. Here is the picture:

The final database's size is 9.5G. And CouchDB had crashed few times when database's size reach boundary at 5.6G. I don't know the reason of these crashes, but I have a erl_crash.dump and couchdb.log with errors.

We need to admit, that CouchDB works quite unstable after 2.5 millions records in the database. Pay attention to these red spikes on the chart. It seems, that this is the real limit on data size.

I worse to say, that all these tests were running on my laptop with 1G of RAM and Intel Centrino Duo on board. I looked at dstat and top during the tests, and notice that first two are more likely CPU bound and last one — IO bound because lack of memory.

Anyway, here is the source code of my test. You can run it on you own hardware and share the results with community. Even more, you can improve the test and add, for example test for selects or something like that. I thought, that it would be very interesting to see on data retrival's speed to.

Lazy Crazy Coder's blog

CouchDB bulk insert's performance

Few days ago, I found a two articles by Damien Katz and Jan Lehnardt about CouchDB's scalability and I decided to write my own test.

My test is very similar to Jan's, but written in python. It uses almost the same datastructure,but the main purpose of my test — to check CouchDB's scalability on large about of data.

I measure an RPS — records per second. Actually, I've made three test.

Threads

First one — to check how performance depends on number of simultaneous connections. Here, I insert 100 records at once up to 100000. Thread count vary from 2 to 16. Here is a result from this test. This chart show, how depends RPS from database's size and thread count:

As you can see, values almost the same for all parameters. Obviously, something wriong with my test setup.

Bulk size

Next, I tried to see, how RPS depends on bulk size. On the next chart you can see how CouchDB operates on bulk sizes from 10 to 10000:

The best performance have bulk inserts which save 10000 records at once. And on large size of the database, RPS aspire to level which depends on bulk size. As you can see, bulk size 10000 gives best performance. It's about 1250 rows per second on database with 100000 documents.

Database size

My final test is more like stress test than performance, because I tried to create large database with 4 million documents and see how RPS depends on database's size. Here is the picture:

The final database's size is 9.5G. And CouchDB had crashed few times when database's size reach boundary at 5.6G. I don't know the reason of these crashes, but I have a erl_crash.dump and couchdb.log with errors.

We need to admit, that CouchDB works quite unstable after 2.5 millions records in the database. Pay attention to these red spikes on the chart. It seems, that this is the real limit on data size.

I worse to say, that all these tests were running on my laptop with 1G of RAM and Intel Centrino Duo on board. I looked at dstat and top during the tests, and notice that first two are more likely CPU bound and last one — IO bound because lack of memory.

Anyway, here is the source code of my test. You can run it on you own hardware and share the results with community. Even more, you can improve the test and add, for example test for selects or something like that. I thought, that it would be very interesting to see on data retrival's speed to.

Метки

.net .NET C# 1.2 2009 2010 404 error admin ajax amazon and apache api archlinux asp.net async asynchronous autocomplete bash blender blog blogengine blogs book bootstrap bot bpython buildout byteflow bzr C C++ cache cbv Chaco checkio chrome ci ckeditor class based views clojure closure cms cms с удобной админкой code coding style COM comet competition conference ConfigParser contest Context continuous integration CouchDB coverage CppCMS cpyext cpython csrf CSS curl custom model fields cython database db dbm dbqueries debian debug debugging decorator decorators deploy deployment descriptor design dev devconf developers development diveintopython Django django 1.2 django 1.3 django advent django framework django template django trunk django weblog django-admin-tools django-cms django-compressor django-hosts django-piston django-registration django-sphinx django.admin djangoadvent djangocms djangodash doc documentation drupal e-legion eclipse EGit emacs encoding Enthought epoll erlang event exception ExtJS fabric facebook fastcgi finaloption fixtures fonts forms formset fp framework freebsd freeswitch fs2web ftp fun funcparserlib functional gae gamin gandi generic views gettext gevent gil git github gitosis Google Google App Engine Google Translate google wave Google Web Toolkit grab greenlet gtd gui haskell hg hgshelve highlighter hosting how-to howto html html5lib Hudson humor i18n icfpc ide idiomatic image-scripting improvements Internet ipython ironpython izmenimsya.ru jabber java javascript jenkins jetbrains JIT job jquery json jstree jython kde kiev kiyv kyivpy l10n ldap library libs Life Links linux Linux & Unix LLVM logging lxml Mac OS X magic mail markdown Matplotlib Mayavi maybe mediavirus meetup memcache memory messages metaclass middleware migration mkd model models mod_wsgi mongodb monitoring mptt musicmans.ru musicx my-projects mysql netCDF networkx newforms newforms-admin news nginx Nhibernate nix nose NoSQL numpy oop open source OpenID openoffice opster optimization oracle orm os pagination parsing path pdf PDF-принтер PEP PEP8 performance perl personality php picture-driven computing PIL pinax pingback pip plasma plone plugin plugins postgresql programming psycopg2 py2exe pybb pybbm pycamp pycharm pycon pycow pycurl pydev pygtk pylons PyNGL pypy PyQt4 pyrad pyramid PySide Python Python 2.5 python 2.7 python 3 python-mssql python3 pywinauto Qt Qt4 queue rabbitmq radius raw sql re redis redsolution redsolution cms regexp regular expressions release repoze.bfg RequestContext reusable apps robokassa rss ru ruby ruby-on-rails sample satchmo scalability SciPy scraping screencast search selenium self.error seo server setattr settings setuptools shell sikuli sms snippet socket.io software sorting south sphinx sql sqlalchemy sqlite ssh startup subversion svn SyntaxHighlighter system tags tdd tddspry teh drama template templates templatetags test testing thinkpad threading threads tips tips and tricks tools tornadio tornado tornado server tricks tutorial tweepy twisted twitter typography uapycon Ubuntu ucsvlog uml Uncategorized unicode unit test UnitTest Unladen Swallow upload urllib urls utf-8 uwsgi validation vcs versioning video vim virtualenv Visual Studio voip wave web web-devel web-services web-разработка webdev webkit webpy webtest widget widgets Win API windows Wirbel work wrapper wsgi wxPython wxWidgets wysiwyg xapian xml xmonad xmpp xpath yandex youtube zip zomg zope автоматизация администрирование администрирование django админка алгоритмы архитектура базы данных Без рубрики безопасность библиотеки блоге бот видео Визуализация данных вконтакте Все записи гвидо ван россум граббер графика графы декоратор дескриптор дескрипторы документация заметки идея интересное киев Клиентам книги конференция личное математика метаклассы модели модули морфология мысли невозможное новости о облачные вычисления обо мне Обработка данных оптимизация Основная лента парсинг перевод Питон поебень поиск правила кодирования программирование Проектирование производительность работа рабочее размышлизмы Разное разработка приложений разработки регулярные выражения сайт событие события ссылки статьи тестирование тесты Тюмень фигня философия формы форум Хабрахабр хакинг шаблоны шаблоны проектирования эксперимент Эксперименты юмор Яндекс