Как определить оптимальное количество потоков и размер буфера при копировании файла?

252

13 апреля 2013 года

koderAlex

1.4K / / 07.09.2005

"Как видно из примера, при копировании больших объемов информации такой подход более чем обоснован." - это просто доказывает , что .NET делали индо-китайцы по принципу "как-то работает ? ну и ладно.." . )
"подскажите с чего Dispose для последнего выходного потока вызывается до того, как закончится запись?" - это вам подскажет не .NET'овец , а любой системный программист : .NET - надстройка над апи . и когда вы пишете блок в файл на самом деле он просто передаётся кеширующему драйверу файловой системы .
"Но возникает вопрос - как определить оптимальное количество потоков?" - большое количество потоков выполняется псевдопараллельно . физически одновременно может выполнятся не более потоков чем имеется полноценных процессорных ядер .

62K

14 апреля 2013 года

33 / / 27.11.2012

Цитата: koderAlex

Хм. Я видел много твоих постов на форуме и это самый бесполезный из них, извини. :)

1) Да я в общем-то уверен, что и в Java и в C++ std::, и в Qt копирование реализовано точно также, а всем желающим предлагается написать собственную более эффективную реализацию. В конце концов, если у меня есть 1000 потоков по 256 байт и 1000 файлов по 1 кб, я совершенно точно не захочу писать каждый из них в 8 потоков, не говоря уже о том, что некоторые потоки (а Stream - асбтрактный класс) могут не реализовывать перемещение в произвольную позицию и совместную запись в один и тот же репозиторий. У File.Copy, конечно, могли бы сделать соответствующий флажок, но не сделали и ладно. Но всё равно как-то мимо кассы. В .NET есть многое, но это не значит, что там должно быть всё.

2) Ты безусловно совершенно прав. Но .NET - это умная надстройка над API и её асинхронные вызовы не исчезают в неизвестности, а всегда возвращаются с некоторым результатом, свидетельствующем о выполнении операции. Затем следует волшебная строчка:

Код:

Task.WaitAll(task1, task2, task3, task4);

Которая ожидает завершения всех запущенных на выполнение задач. И она действительно ждёт их завершения, потому что в выходной файл попадает всё, кроме последнего кусочка. И если после неё добавит ожидание в 1 милисекнду:

Код:

Thread.Sleep(1);

То всё завершеается корректно. А если нет, то потоки начинают освобождаться чуть-чуть раньше, чем должны бы были. Именно поэтому я и спрашивал совета .NET'овца. Сдаётся мне, что это руки тех самых индо-китайских программистов и в Task.WaitAll (.NET 4.5) закрался какой-то бажик.

3) Безусловно всё так. Но при копировании содержимого файла с диска на диск, узким местом является явно не процессор, а жесткий диск, который способен отдавать и получать данные существенно медленнее чем оперативная память, и в ожидании этого процессор спокойно может обслуживать и вдвое и втрое больше потоков, безболезненно переключаясь между ними. Поэтому интересует именно определение возможностей жесткого диска. (Если я конечно верно рассуждаю и одновременное копирование двух файлов размером 100Гб каждый в пределах одного и того же SSD размером 256Гб на одноядерном процессоре будет выполнено быстрее, чем их последовательное копирование).

-1 спам

252

14 апреля 2013 года

koderAlex

1.4K / / 07.09.2005

бесполезный ? другие значит тоже бесполезны ? :)
я вам дал "волшебного пендаля" в нужном направлении по всем вашим вопросам .
так что за бесполезностью умываю руки . )

62K

14 апреля 2013 года

33 / / 27.11.2012

Цитата: koderAlex

Странная логика. Странные выводы. Обычно у тебя очень ценные ответы. Этот был наихудьшим, что я видел. Уверен, что ты отвечал, просто чтобы ответить, особенно не вчитываясь, и интерпретируя каждый вопрос по-своему. "Волшебный пендаль" был, но как-то сразу во все стороны. Он подошёл бы юному падавану, далёкому от небесных сфер, но никак не опытному программисту, которым мне хочется себя считать. :) Не обижайся. Если я не прав - аргументируй. Я свою критику аргументировал.

260

14 апреля 2013 года

Ramon

1.1K / / 16.08.2003

Для начала, откройте для себя memory mapped files, нэ.

62K

14 апреля 2013 года

33 / / 27.11.2012

Цитата: Ramon

Для начала, откройте для себя memory mapped files, нэ.

Копирование с использованием сопоставления с памятью: 11.3635306 секунд

Быть может, я чего-то не знаю о MMF? Пока я вижу только менее эффективное использование памяти и более медленное копирование.
P.S. И я всё ещё не понимаю, как это относится к моему вопросу, потому что любое чтение с диска остаётся чтением, а любая запись - записью, и возможности диска не увеличиваются.

260

14 апреля 2013 года

Ramon

1.1K / / 16.08.2003

Цитата: LWhisper

Цитата: Ramon

Для начала, откройте для себя memory mapped files, нэ.

Быть может, вы осознаете разницу между вашими буферами и MMF, нэ?
PS: А на вопрос с кол-вом потоков вам уже ответили по большей части.

326

14 апреля 2013 года

sadovoya

757 / / 19.11.2005

Извините за офтоп. Лучше бы автор задал свой вопрос в .Net-овском разделе, а не в общих вопросах. Иначе о потоках тут пойдет такая война, что мама не горюй :) Думаю, автор правильно пытается решить задачу в рамках .Net, что не значит, что нет лучше методов.

14 апреля 2013 года

@pixo $oft

3.4K / / 20.09.2006

Цитата: LWhisper

Копирование с использованием сопоставления с памятью: 11.3635306 секунд

А что не нравится-то? Лучше этого — только 4 потока

62K

14 апреля 2013 года

33 / / 27.11.2012

Цитата: @pixo $oft

Цитата: LWhisper

Копирование с использованием сопоставления с памятью: 11.3635306 секунд

А что не нравится-то? Лучше этого — только 4 потока

Мне всё нравится. Я не понимаю зачем мне предложили использовать MMF, который работает медленнее обычного 4х поточного копирования. Возможно, я его неправильно дёргаю.

Цитата: Ramon

Ответа я не видел (только насчёт процессорных ядер, которые априори быстрее винта).
И нет, я не осознаю её, пока меня не ткнут носом в какой-нибудь внятный мануал, или не расскажут - чем же отличается считывание страницы файла с диска в память от чтения его буферами тех же размеров. Что -данные каким-то волшебным образом оказываются в памяти, не считываясь с диска? Магия существует? :D

Цитата: sadovoya

Да данная тема с .NET вообще связана только P.S., на который всё равно никто ответить не смог. :) Просто код приведён на C#. Могу переписать на С++. Суть от этого не изменится.

Господа, очень хочется ответа по существу:
Либо такого: koderAlex прав, от хъарактеристик винта ничего не зависит и решает все только количество ядер.
Либо такого: дёрнув метод *** можно получить характиристики привода, и на основе *** и *** вычислить оптимальное число потоков копирования.

И, раз уж зашла речь про MMF, с которым я на практике действительно не имел дела (а потому, возможно, чего-то не понимаю и что-то делаю неверно) - то и разъяснений или вкусной ссылочки по нему.

1 спам

14 апреля 2013 года

@pixo $oft

3.4K / / 20.09.2006

http://msdn.microsoft.com/en-us/library/ms810613
http://msdn.microsoft.com/en-us/library/aa366556
Вкуснее некуда